这是一篇推荐系统相关的论文

这是一篇推荐系统相关的论文，场景是谷歌 Play Store 的 App 推荐。文章开头，作者点明推荐系统需要解决的两个能力： memorization 和 generalization。

memorization 指的是学习数据中出现过的组合特征能力。最常使用的算法是 Logistic Regression，简单、粗暴、可解释性强，而且会人工对特征进行交叉，从而提升效果。但是，对于在训练数据中没有出现过的特征就无能为力。

generalization 指的是通过泛化出现过特征从解释新出现特征的能力。常用的是将高维稀疏的特征转换为低维稠密 embedding 向量，然后使用 fm 或 dnn 等算法。与 LR 相比，减少特征工程的投入，而且对没有出现过的组合有较强的解释能力。但是当遇到的用户有非常小众独特的爱好时（对应输入的数据非常稀疏和高秩），模型会过度推荐。

对于这种由基础模型组合得到的新模型，常用的训练形式有两种：joint training 和 ensemble。ensemble 指的是，不同的模型单独训练，且不共享信息（比如梯度）。只有在预测时根据不同模型的结果，得到最终的结果。相反，joint training 将不同的模型结果放在同一个损失函数中进行优化。因此，ensmble 要且模型独立预测时就有有些的表现，一般而言模型会比较大。由于 joint training 训练方式的限制，每个模型需要由不同的侧重。对于 Wide&Deep 模型来说，wide 部分只需要处理 Deep 在低阶组合特征学习的不足，所以可以使用简单的结果，最终完美使用 joint traing。

本篇论文选择的实验场景是谷歌 app 商店的应用推荐，根据用户相关的历史信息，推荐最有可能会下载的 App。

使用的模型如下：

Wide & Deep 模型相对于其他两个模型毫无疑问有提升。但结果中也一个反常的现象：单独使用 Deep 模型离线 AUC 指标比单独使用 Wide 模型差，但是线上对比实验时却有较大的提升。论文中作者用了一句：线下实验中的特征是固定的，线上实验会遇到很多没有出现过的特征组合，Deep 相对于 Wide 有更好的模型泛化能力，所以会有反常现象。由于笔者工作中不关注 AUC，也没有办法继续分析。

作者从推荐系统的的 memorization 和 generalization 入手，设计出新的算法框架。通过线上和线下实验实验，证明 Deep 和 Wide 联合是必须的且有效的。最终也在自己的业务场景带来提升。