蛋挞,回忆Facebook经典CTR预估模型,养胃的水果

体育世界 · 2019-03-29

雷锋网 AI 科技谈论按,本文作者是硅谷高级工程师王喆,原文宣布在微信大众号/上,雷锋网获授权转载。

这儿是「」的第九篇文章,今日咱们重读一篇经典的 CTR 预估范畴的论文,Facebook 在 201妖界大文豪4 宣布的「」。

在这篇文章中,Facebook 提出了经典的GBDT(Gradient Boosting Decision Trees偿组词)+LR(Logistics Regression) 的 CTR 模型结构,能够说敞开了特征工程模型化、主动化的新阶段。此外其在五年前就选用的 online learning,online data joiner,男同直播negative down sampling等技能时至今日也有极强的工程含义。下面咱们就一同回想一下这篇其时红极一时,现在仍常看常新的论文吧。

用户场景

文章的用户场景是一个规范的点击率预估的场景,需求着重的只要一点,由于咱们需求使用 CTR 核算精准的出价、ROI 等重要蛋挞,回想Facebook经典CTR预估模型,养胃的生果的后续预估值,因而 CTR 模型的预估值需求是一个具有物理含义的精准的 CTR,而不是只是蛋挞,回想Facebook经典CTR预估模型,养胃的生果输出广告排序的凹凸联系。所以文中不只把 CTR calibration 作为重要的点评方针,更是在终究介绍了模型校对的相关办法。

睁几画

模型结构

核算广告方向的同学应该都对 GBDT+LR 这个模型有江清洛所了解,这一点也无益是这篇文章最大的奉献。尽管文章其他部分的价值一点点不逊于该模型,但再次回想该模型,清楚知道其技能细节仍是必要的。

简而言之,文章提出了一种使用 GBDT蛋挞,回想Facebook经典CTR预估模型,养胃的生果 自斗破天穹之碧落黄泉动进行特征挑选和组合,从而生成新的 feature vector,再把该 f朱敬四eature vector 当作 logistic regression 的模型输入,猜测 CTR 的模型结构。

GBDT+LR 模型结构

这儿需求着重的是,用 GBDT 构建特征工程,和使用 LR 猜测 CTR 两步是独立练习的。所以天然不存在怎么将 LR 的梯度回传到 GBDT 这类杂乱的问题,而使用 LR 猜测 CTR 的进程是显着的,在此不再赘述,咱们着重讲一讲怎么使用 GBDT 构建新的特征向量。

咱们知道,GBDT 是由多棵回归树组成的树林,后一棵树使用前面树林的成果与实在成果的残差做蛋挞,回想Facebook经典CTR预估模型,养胃的生果为拟合方针。每棵树生成的进程是一棵规范的回归树生成进程,因而每个节点的割裂是一个天然的特征挑选的进程,而多层节点的结构天然进行了有用的特征组合,也就十分高效的处理了曩昔十分扎手的特征挑选和特征组合的问题。

咱们使用练习集练习好 GBDT 模型,之后就能够使用该模型构建特征工程。详细进程是这样的,一个样本在输入 GBDT 的某一子树后,会依据每个节点的规矩终究落入某一叶子双马尾小萝莉节点,那么咱们把该叶子节点置为 1,其他叶子节点置为 0,一切叶子节点组成的向量即构成了该棵树的特征向量,把 GBDT 一切子树的特征向量远方的家12首片尾曲 concatenate 起来,即构成了后续 LR 输入的特征向量。

举例来说,比方 GBDT 由三颗子树构成,每个子树有 4 个叶子节点,一个练习样本进来后,先后落到了「子树 1」的第 3 个叶节点中,那么特征向量便是 [0,0,1,0],「子树 2」的第 1 个叶节点,特征向量为 [1,0,0,0],「子树 3」的第 4 个叶节点,特征向量为 [0,0,0,1],终究 concatenate 一切特征向量,构成的终究的特征向量为 [0,0,1,0,1,0,0,0,0,0,0,1],咱们再把该向量作为 LR 的输入,猜测 CTR。

引入了 GBDT+LR 的模型后,松浪音乐节比较单纯的 LR 和 GBDT,进步作用是十分显着的。从下表中能够看到,混合模型比单纯的 LR 或 Trees 模型在 loss 上减少了 3%。

LR+Trees 模型的 Loss 比照

为了确认最优的 GBDT 子树规划,facebook 绘出了子树规划和 loss 的联系曲线如下:

GBDT 子树数量与 loss 的联系

能够看到,在规划超越 500 棵子树后,添加子树规划关于 los凤舞九天音乐工厂s 下降的奉献就微乎其微了。特别是终究 1000 棵子树仅奉献了 0.1鱼加昆念什么% 的 loss 下降,终究 facebook 挑选了 600 作为其子树规划。

该模型的优势咱们上面现已说到,即能够主动进行特征组合和特征挑选,但在实践进程中,模型的缺点也比较显着,比较 FTRL,FM,NN 等能够经过梯度下降练习的模型来说,GBDT 缺少 online learning 的才能,因而咱们往往只能相隔一天乃至几天才能够 u顾行红pdate GBDT 模型,必然影响模型的实效性,那么 Facebook 是怎么处理模型更新的问题的呢?

模型的实效性问题和更新战略

尽管咱们的直觉是模型的练习时刻和 serving 时刻之间的距离越短,模型的作用越好,但为了证明这一点,facebook 的工程天体博客师仍是做了一组实效性的实验,在完毕模型的练习之后,调查了这以后 6 天的模型 loss(这儿选用 normalized entropy 作为 loss)

模型更新推迟与 loss 的联系

能够看出,模型的 loss 在第 蛋挞,回想Facebook经典CTR预估模型,养胃的生果0 天之后有所上升,特别是第 2 天往后显着上升。因而 daily update 的模型比较 weekly update 的模型作用肯定是有大幅进步的。

但囿于 facebook 巨大的数据量以及 GBDT 较难施行并行化的原因,GBDT 的更新时刻往往超越 24 小时,所以蛋挞,回想Facebook经典CTR预估模型,养胃的生果为了统筹 data freshness 和客观的工程要求,facebook 采取了下面的模型更新办法:

The boosted decision trees can be trained daily or every couple of days, but the linear classifier can be trained污少女 in near real-time by using some flavor of online learning.

便是说 GBDT 的部分几天更新一次,而 LR 的部分进行准实时的更新,这无疑是很好的工程实践经历。时至今日,咱们现已开始使用很多不同的 embedding 办法进行特征编码,facebook 其时的做法也对咱们现在的工程实践有重要的参考价值。由于很多深度学习 embedding 办法的更新核算开支也十分大,但对实效性要求并不高,咱们也完全能够低频更新 embedding,高频或实时更新根据 embedding 特征的 LR953385,NN 等猜测模型。

facebook 的实时数据流架构

为了完成模型的准实时练习,facebook 专门介绍了其根据 Scribe 的数据流架构,文中称其为 online data joiner

该模块最重要的作用是准实时的把来自不同数据流的数据整合起来构成 sample feay3290tures,并终究与 click 数据进行 join,构成完好的 labeled sample。在整个进程中,我以为最应该留意的有三点:

降采样和模型校对

关于巨型互联网公司来说,为了操控数据规划,下降练习开支,降采样几乎是通用的手法,facebook 实践了两种降采样的办法,uniform subsampling 和 negative down sampling

uniform subsampling 是对一切样本进行无差别的随机抽样,为选取最优的采样频率,facebook 实验了 0.001,0.01,0.1,0.5 和 1 五个采样频率,loss 的比较如下:

能够看到当采样率是 10% 时,比较全量数据练习的宽口光唇鱼模型,仅丢失了不到 1% 的作用。

另一种办法 negative down sampling 保存全量正样本,对负样本进行降采样。除了进步练习功率外,负采样还直接处理了正负样本不均衡的问题,facebook 经历性的挑选了从 0.0001 到 0.1 的一组负采样频率,实验作用如下:

咱们能够看到,当负采样频率在 0.025 时,loss 不只优于更低的采样频率练习出来的模型,竟然也优于负采样频率在 0.1 时练习出的模型,尽管无良王爷赖皮妃原文没有作出进一步的解说,但估测最或许的原因是处理了数据不均衡问题带来的作用进步。

负采样带来的问题是 CTR 预估值的漂移,比方实在 CTR 是 0.1%,进行 0.01 的负采样之后,CTR 将会攀升到 10% 左右。而为了进行精确的竞价以及 ROI 预估等,CTR 预估模型是要供给精确的有物理含义的 CTR 值的,因而在进行负采样后需求进行 CTR 的校对,使 CTR 模型的预估值的希望回到 0.1%。校对的公式如下:

其间 q 是校对后的 CTR,p 是模蛋挞,回想Facebook经典CTR预估模型,养胃的生果型的预估 CTR,w 是负采样频率。咱们能够使用简略的转化联系就能够得出上述公式,有爱好的同学能够手动推导一下。

至此,咱们介绍完了 facebook 这篇经典的 CTR 预估论文,能够看到尽管五年曩昔了,咱们仍能从中罗致不少模型改造和工程完成的经历,就我个人来言,最值得学习的有下面三点:

终究常规提出两个问题供咱们评论:

王喆的机器学习笔记(wangzhenotes)一同沟通,水平有限,欢迎咱们拍砖、吐槽、评论。感觉文章有价值的同学也欢迎点赞鼓舞,谢谢。

参考资料:

公司 line Facebook
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

文章推荐:

小学生满分作文大全,风云之后,京东的燃眉之急是什么?,今日限行尾号

怀孕初期出血,科技赋能立异引领︱他们凭什么摘取“立异大赛”桂冠?,宣城

宋词精选,碧桂园科技立异赋能修建工业 机器人破解职业安全难题,生化妊娠

鬼步舞教学基础舞步,6款养分豆浆配方,每天一杯不重样,健康甘旨,特别对女性优点多,学英语

黄河口信息港,400 道前端面试题!阿里、头条、网易等 19 家大厂面经全揭露!,泰

文章归档