学习DCN模型

¶前言

DCN模型由论文《Deep & Cross Network for Ad Click Predictions》提出。本次对DCN模型的学习也就是对该论文的阅读。

¶补充

阅读论文到一半突然对这两篇关于DCN模型的论文有些开窍了。不管是DCN模型还是DCN-V2模型，他们都服务于广告点击率的预测，大致的任务也就是输入一则广告的相关信息（包含各类特征信息），我们的模型应该输出对于其点击率的预测。个人认为，这种任务和输入图像、输出分类结果没什么区别。所以其实一开始也就是采用DNN（深度神经网络）这种模型，只不过效果不算好，因此改进，加入交叉网络而已。

¶论文阅读

¶简介

点击率（Click Through Rate，CTR）预测是一个大规模问题。

在广告业中，广告商向出版商付费，流行的支付模式是每次点击的成本。因此，出版商的收入很大程度依赖于准确预测CTR的能力。

**识别经常预测的特征同时探索少见的交叉特征**是做出好的预测的关键。但是网络规模的推荐系统的数据大多是离散和分类的，导致特征空间大而稀疏。限制采用线性模型。

引入一种新的神经网络结构——交叉网络。该网络以自动的方式明确应用特征交叉。

联合训练交叉网络和深度神经网络。

¶深度和交叉网络DCN

在本节描述深度和交叉网络（DCN）模型的架构：从一个嵌入和堆叠层开始，然后是平行的交叉网络和深度网络，最后是组合层，将两个网格的输出结合起来。如下图所示：

¶嵌入和堆积层（Embedding and Stacking Layer）

考虑具有稀疏和密集特征的输入数据。输入的数据大多是分类特征，例如“country=usa”，这样的特征也会变**编码为独热向量，如[0, 1, 0]，但是这样会导致特征空间很高**。

为了降低维度，采用一个**嵌入程序，将这些二进制特征转化为密集的实值向量（嵌入向量）**。

其中Xembed,i是嵌入向量，xi是第i类的二进制输入，Wembed,i是相应的嵌入矩阵，嵌入矩阵会随其他参数一起被优化。

最后，嵌入向量于归一化的密集特征堆叠（stack）成一个向量x0。

¶交叉网络

交叉网络的关键思想是**以一种有效的方式应用显示的特征交叉**。

交叉网络由交叉层组成，每层有以下公式：

交叉网络的参数数量少，限制了模型的容量，为了捕捉高度非线性的相互作用，引入一个并行的深度网络。

¶深度网络

深度网络的结构相比其他的深度神经网络的结构会更简单一些，是一个**全连接的前馈神经网络**，每层有以下公式：

¶组合层

组合层将两个网络的输出连接起来，将串联的向量送人标准的logits层。

以下是一个二分类概率的公式：

其中XL1是交叉网络的输出，hL2是深度网络的输出（二者转置之后串联起来成为一个向量），Wlogits是组合层的权重向量，相当于两个一维向量点积得到一个数，仍然会输入σ(x)=1/(1+exp(-x))。

损失函数如下：

yi是真实标签，pi是计算出的概率。

但是为什么输出的是概率？不是应该是点击率吗？还是说点击率也按区间转化成了标签？

¶交叉网络的分析

主要就是分析DCN当中，交叉网络的有效性。

这里暂时也不太看得懂。

¶实验结果

这一节主要是评估DCN的性能。

¶Criteo数据集

Criteo数据集是为了预测广告的点击率，有13个整数特征和26个分类特征，每个类别都有很高的cardinality。因此对于这个数据集而言，0.001的logloss都是很有意义的。

该数据集包含7天（约4100万条记录），使用前6天的数据用于训练，第七天的数据随机拆分为同等大小的验证集和测试集。

¶实施细节

官方的代码是用TensorFlow实现的。

¶结语

论文的大致阅读就到这里了，对于复现模型而言，性能测试和基线方法的比较可以暂时不谈，毕竟支撑的知识还是太少太少。接下来开始具体的复现这个DCN模型吧。