浅谈 CTR 预估模型发展史

栏目: IT技术 · 发布时间: 3年前

内容简介::mag:

浅谈 CTR 预估模型发展史

©PaperWeekly 原创 · 作者|Zhang

学校|上海交通大学硕士生

研究方向|深度学习、自然语言处理

浅谈 CTR 预估模型发展史

背景介绍

Click Through Rate (CTR) Prediction 是一项非常重要的工业任务,例如计算广告中、推荐系统中的应用。计算广告中需要根据 CTR 的预估来进行竞价,有的推荐系统则基于 CTR 进行排序。

CTR 预测即给定一个用户/物品(广告)对,预测用户点击该物品的概率。其中输入的特征往往包括连续特征(年龄)和枚举特征(性别、地区),即 continuous field 和 categorical field。其中枚举特征还分为单一取值的特征(如性别)和多取值的特征(如购买记录)。

一般先用 one-hot 或 multi-hot encoding 的方式编码枚举特征,之后在很多模型中都会通过 embedding layer 再将它映射成 dense feature。最后根据这些处理过的 feature 来预测用户点击该物品的概率。

浅谈 CTR 预估模型发展史

模型发展史

传统的模型有:LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。

2.1 2016年

最简单的基于 deep learning 的模型设计,例如 Deep Learning over Multi-field Categorical Data (DNN) 直接将 dense feature的concatenation 作为输入,在其上叠加多层的神经网络直接预测 CTR。

该文提出 FM supported 和 sampling based NN 两种具体实现方式,分别通过  FM、基于负采样的 DAE/RBM 预训练得到 embedding 的初始化值,以及通过使用 RBM contrastive divergence 预训练来初始化上层的神经网络参数;最后通过 fine-tune 的方式训练最终模型。

不同于上述模型完全依赖神经网络(如果不考虑预训练的作用)来学习不同 feature 之间的交互关系,另一类模型既显式地建模 feature 之间的低阶交互关系,又同时借助神经网络来建模高阶交互关系。

比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之间通过内积、外积的方式计算二阶交互特征,最后将原始的一阶和交互的二阶特征相加输入神经网络。

Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一阶 feature 和通过手动设计 cross product transformation 得到的二阶 feature,通过 linear model 进行预测。

deep model 则直接从一阶 feature 出发叠加神经网络;最终将 Wide&Deep 两个模型 joint learning 训练。

2.2 2017年

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中结合使用了 FM 和 DNN,其中 DNN 的输入共享使用了 FM 中的 latent vector,最终结合两部分的 feature 进行最终预测。

Deep & Cross Network for Ad Click Predictions (Deep&Cross)中从 embedding layer 出发并行地搭建一个 cross network、一个 DNN,最终合并两个分支的 feature 进行最终预测。

其中 cross network 显式地建模了高阶(对应 cross network 的层数,不同于其他模型设计中只有二阶的显式交互设计)的 feature 交互。

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基础上,通过 attention 的机制给不同的二阶交互项加上权重、以及对 latent vector 的 Hadamard product 的不同 bit 进行加权求和:

其中 attention score根据的 Hadamard product 来计算。

Neural Factorization Machines for Sparse Predictive Analytics (NFM) 中首次完全融合了 FM 和 DNN,将 FM 中原有的 latent vector 内积项:

浅谈 CTR 预估模型发展史

替换为通过 Bi-Interaction Layer(如下图)+NN 建模的 feature 交互特征。

浅谈 CTR 预估模型发展史

2.3 2018年

FwFM: Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising (FwFM) 中同样考虑了不同二阶交互特征对于最终预测的贡献度不同,因此在 FM 的二阶交互项中加入了权重系数,相比 FFM 减少了大量参数:

浅谈 CTR 预估模型发展史

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems (xDeepFM) 中同样显式地建模了高阶的 feature 交互,进一步改进了 Cross Network,提出 Compressed Interaction Network,模型表达能力更强。

并且将 Cross Network 中 bit-wise 的交互方式(意味着同一个 feature embedding 的不同 bit 之间也会进行交互)改为 vector-wise 的交互方式。模型整体结构和 DeepFM 相同,将 FM 的部分替换为 CIN。

Deep Interest Network for Click-Through Rate Prediction (DIN) 在对 user behavior 的 feature(用户历史行为)处理中,区别于传统的 average pooling 或 concatenation 的方式,考虑到了每个 behavior 的参考价值与具体的待预测目标有关。

因此通过 attention 的方式进行了加权求和来建模 user interest:

浅谈 CTR 预估模型发展史

Deep Interest Evolution Network for Click-Through Rate Prediction (DIEN)  进一步关注了 user interest 随时间变化的特点。模型主要包括一个 interest extractor layer、一个 interest evolving layer,都是基于 GRU 的结构,在 user behavior 的时间序列上学习。

其中 interest evolving layer 的输入为 interest extractor layer 中对应时间步的隐藏层,并且由和待预测物体的特征计算得出 attention 来作为 update gate 的权重。

2.4 2019年

Deep Session Interest Network for Click-Through Rate Prediction (DSIN) 中则关注到用户的历史行为、用户兴趣的时间序列可分为不同的 session,session 内的行为比较 homogeneous,而不同 session 间则更heterogeneous。

因此对 user behavior 的建模包括了 session division、session interest extractor (multi-head self-attention)、session interest interaction (Bi-LSTM)、session interest activation (attention)。

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction (FiBiNET) 中提出了基于  Squeeze-and-Excitation 的 feature importance 计算方法以及 bilinear 的 feature 交互方法。

其中关于 bilinear interaction,新提出了杂交 Hadamard product 和 inner Product 的表达方式,例如:

浅谈 CTR 预估模型发展史

最终得出的二阶交互特征替换 FM 模型中的二阶交互项。

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks (AutoInt) 中用 multi-head self attention network with residual connection 来建模 feature 交互。

2.5 2020年

FLEN: Leveraging Field for Scalable CTR Prediction (FLEN) 中提出了一种参数少、计算量小、适合工业化应用的模型,其中 feature 交互的部分结合了 intra/inter feature 的交互。最终用 field-wise bi-interaction module 得到的二阶特征 +DNN 学到的特征进行预测。

A Sparse Deep Factorization Machine for Efficient CTR prediction (Sparse DeepFwFM)  在 DeepFwFM 的基础上进行了 structural pruning,大大减少模型参数以符合线上运行的需求,并且使模型的 ensemble 成为可能。

浅谈 CTR 预估模型发展史

研究方向

feature interaction 的方式

  • 只包含低阶(二阶)的特征交互,比如 FM、AFM、FFM、FwFM。

  • 完全依赖深度学习来建模高阶的交互特征,比如 DNN、AutoInt。

  • 结合显式的低阶特征交互建模和基于深度学习的高阶特征建模,比如 PNN、Wide&Deep、DeepFM、Deep&Cross、NFM、xDeepFM、FiBiNET、FLEN。其中 Deep&Cross 和 xDeepFM 显式建模了高于二阶的交互特征。

依据用户的历史行为以及待估计的对象研究用户的兴趣,比如 DIN、DIEN、DSIN。

简化模型、工业应用,比如 FwFM、FLEN、Sparse DeepFwFM。

其他还有推荐系统中基于 CTR 的模型,例如 RippleNet [7],利用了用户和物品由点击历史构成的 graph 以及 knowledge graph,将用户兴趣在合并的  graph 上“传播”,类似于基于物体的协同过滤方法。

浅谈 CTR 预估模型发展史

效果比较

主要根据 AUC 和 logloss 来比较。在 Criteo 数据集上测试的模型较多,根据 paper 各自汇报的结果,在 Criteo 上表现最好的是 Sparse DeepFwFM,其次是 xDeepFM、DeepFM。根据 FLEN 自己在 Avazu 数据集上汇报的结果,FLEN 的优于 xDeepFM。

参考文献

[1] Richardson, Matthew ; Dominowska, Ewa ; Ragno, Robert. Predicting clicks: estimating the click-through rate for new ads. 

[2] Rendle, Steffen ; Gantner, Zeno ; Freudenthaler, Christoph ; Schmidt-Thieme, Lars. Fast context-aware recommendations with factorization machines. 

[3] Mcmahan, H ; Holt, Gary ; Sculley, D ; Young, Michael ; Ebner, Dietmar ; Grady, Julian ; Nie, Lan ; Phillips, Todd ; Davydov, Eugene ; Golovin, Daniel ; Chikkerur, Sharat ; Liu, Dan ; Wattenberg, Martin ; Hrafnkelsson, Arnar ; Boulos, Tom ; Kubica, Jeremy. Ad click prediction: a view from the trenches. 

[4] He, Xinran ; Pan, Junfeng ; Jin, Ou ; Xu, Tianbing ; Liu, Bo ; Xu, Tao ; Shi, Yanxin ; Atallah, Antoine ; Herbrich, Ralf ; Bowers, Stuart ; Candela, Joaquin. Practical Lessons from Predicting Clicks on Ads at Facebook. 

[5] Juan, Yuchin ; Zhuang, Yong ; Chin, Wei-Sheng ; Lin, Chih-Jen. Field-aware Factorization Machines for CTR Prediction. 

[6] Gai, Kun ; Zhu, Xiaoqiang ; Li, Han ; Liu, Kai ; Wang, Zhe. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction. 

[7] Wang, Hongwei ; Zhang, Fuzheng ; Wang, Jialin ; Zhao, Miao ; Li, Wenjie ;Xie, Xing ; Guo, Minyi. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems.

浅谈 CTR 预估模型发展史

点击以下标题查看更多往期内容:

浅谈 CTR 预估模型发展史

# 投 稿 通 道 #

让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是 最新论文解读 ,也可以是 学习心得技术干货 。我们的目的只有一个,让知识真正流动起来。

:memo:  来稿标准:

• 稿件确系个人 原创作品 ,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

:mailbox_with_mail:  投稿邮箱:

• 投稿邮箱: hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

:mag:

现在,在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击 「交流群」 ,小助手将把你带入 PaperWeekly 的交流群里。

浅谈 CTR 预估模型发展史

浅谈 CTR 预估模型发展史


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

高性能JavaScript

高性能JavaScript

【美】Nicholas C. Zakas(尼古拉斯.泽卡斯) / 丁琛 / 电子工业出版社 / 2015-8-1 / 65

如果你使用 JavaScript 构建交互丰富的 Web 应用,那么 JavaScript 代码可能是造成你的Web应用速度变慢的主要原因。《高性能JavaScript》揭示的技术和策略能帮助你在开发过程中消除性能瓶颈。你将会了解如何提升各方面的性能,包括代码的加载、运行、DOM 交互、页面生存周期等。雅虎的前端工程师 Nicholas C. Zakas 和其他五位 JavaScript 专家介绍......一起来看看 《高性能JavaScript》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具