深度协同感知的因子分解机

2024-03-01李春秋卜天然

通化师范学院学报 2024年2期

李春秋，卜天然，何军

随着移动互联网的高速发展，CTR 预估广泛应用于推荐系统、信息检索和在线广告等领域，点击率预估在上述领域占有越来越重要的地位.然而点击率预估场景下的数据是高维稀疏的，因此，需要找到与点击率高度相关的特征，并对特征进行有效组合.随着机器学习技术的发展，因子分解机（Factorization Machines，FM）［1］利用二阶特征组合，计算任意两个特征嵌入向量的内积作为特征组合的权重，由于FM 能够处理大规模稀疏特征和复杂度低的优点，被广泛应用到工业界领域并取得良好的效果.Attentional factorization machines（AFM）［2］通过一个注意力网络学习不同特征交互的重要性，但忽略了特征域的交互和不同输入样本的区别.Input−aware Factorization Machines（IFM1）［3］和Dual Input−aware Factor⁃ization Machine（DIFM）［4］考虑每个输入实例的唯一性，并从bit−wise 和vector−wise 方面为不同输入实例中的相同特征学习一个唯一的输入感知因子，但是没有考虑到特征域的交互影响，且忽略了层次化特征的交互对输入感知因子的影响.上述方法在一定程度上提高了CTR 模型的预测能力，但仍存在明显的缺点，FM 同等对待所有的特征，对所有的两两特征都做了等权重的交叉，但会引入额外的噪声；给定特征的表示在不同的输入样本之间共享会限制CTR 模型的预测能力.

针对这些问题，根据每个实例的唯一性，通过允许相同的特征在不同的实例中具有不同的预测能力，并且结合多语义特征域的交互影响，提出了一个适用于CTR 预测任务的模型——深度协同感知因子分解机（Deep Cooperation−aware Factorization Machine，DCFM）.首先，考虑了输入感知和特征域交互感知，在学习输入感知因子相比DIFM 新增了层次化特征域交互的影响，以重新加权原始特征表示.其次，在学习特征域交互感知时，考虑到了特征的多语义特点.最后，提出一个三重输入感知网络，同时对特征的field−wise、vector−wise、bit−wise 进行输入感知因子的学习.分析和实验结果表明，DCFM 模型有效地提高了点击率预估的准确度.

1 研究现状

点击率预估是计算广告和推荐算法中的一个关键环节，在机器学习领域将其视为一个二分类问题，即预测用户是否会点击一个商品.逻辑回归模型（Logistic Regression，LR）［5］是点击率预估最经典的方法，在线预测速度快，结构简单，可解释性强，然而由于LR 是一个线性模型，无法进行特征交叉，因此为了提高点击率预估的准确性需要大量的人工特征工程.因子分解机FM［1］的提出解决了高维稀疏数据下的自动特征组合问题，用低维稠密的向量提高了模型的泛化能力并减少了计算复杂度.特征域信息很重要，但FM 没有考虑特征域信息，Field−aware Factorization Machines（FFM）［6］通过引入特征所属域的信息来提高模型准确度，特征在各自特征域学习一个隐向量，但由于时间复杂度高且不能表达高阶信息，导致其并不能广泛使用.随着深度学习的发展，其拟合高阶特征的能力被研究人员引入点击率预估领域.FNN［7］利用FM 预训练的隐向量输入神经网络来组合高阶特征.Product−based Neural Networks（PNN）［8］将输入特征进行内积/外积后的向量作为深度神经网络的输入，然而上述模型都是对高阶特征建模，忽略了低阶特征.Wide&Deep［9］模型结合了LR 模型和DNN 网络，同时对低阶和高阶特征进行学习，但依然需要人工特征工程，DeepFM［10］利用DNN 和FM 联合训练，实现了高阶特征和低阶特征的组合学习.DCN［11］利用交叉网络和DNN 网络学习特征的关联关系.但是上述模型没有考虑特征域的交互、多语义特性和不同样本对特征的影响.Interaction−aware Factorization Machines（IFM2）［12］首次将特征域信息融入到特征交互学习中，研究了特征在不同特征域交互时的不同作用.DIFM［4］研究了同一个特征在不同样本中的作用，同时考虑了bit−wise 和vector−wise 两个层面信息.

2 深度协同感知因子分解机构建过程

受到AFM［2］、DIFM［4］、IFM2［12］等研究成果的启发，提出深度协同感知因子分解机（DCFM），DCFM 的网络结构如图1 所示，包含以下5 个模块：①稀疏输入和嵌入层，其中嵌入层包含特征嵌入层和多域嵌入层；②输入感知网络，包含三重因子估计网络层、组合层和特征表示调整层；③多语义交互网，包含两两特征域之间交互、门网络和矩阵映射；④协同感知融合层；⑤输出层.

图1 DCFM 网络结构图

2.1 稀疏输入层和嵌入层

稀疏输入层和嵌入层被广泛应用在深度CTR 预估模型中，例如AFM［2］和DeepFM［9］.稀疏输入层对原始输入特征采用稀疏表示.嵌入层能够将稀疏特征嵌入到一个低维、稠密的实值向量中.DCFM 使用两种维度的嵌入矩阵V和Ui，i=1，2，…，K，分别作为特征嵌入和多域嵌入的查询.

2.1.1 稀疏输入

假设每个输入实例x={x1，x2，…，xh}，包含h个特征和一个目标y，xi是第i个特征值.定义非零特征的成对枚举：

2.1.2 特征嵌入

特征是可以分层的，例如“商品标签”和“商品id”都属于更加层次化的“商品域”.在实践中，根据特征描述的商品属性和用户/上下文属性进行分类［13］（即如图1 所示的用户特征、商品特征和上下文特征）.假设有h个特征，划分为M个层次化特征域，F(h)表示特征h属于的层次化特征域.特征嵌入输出是一个连接的特征嵌入向量fm是第m个层次化特征域连接的特征嵌入向量，fm=concat(vn|F(n)=m)，vi∈Rk第i个特征嵌入向量，k是嵌入维度.接下来，将sum−pooling操作应用于fm，计算层次化特征域向量表示：最后连接所有的层次化特征域向量表示得到

2.1.3 多域嵌入

根据IFM［12］文献的研究，域嵌入从field 方面学习特征域交互，但忽略了特征多语义，因为不同的特征交互可能会对点击有相反的效果，出现问题的原因是不同语义子空间特征交互多语义造成的，所以单域不能充分学习到重要特征域交互.为了解决上述问题，引入多域嵌入.多域嵌入是对同一个特征field 有多个嵌入矩阵，分别表示不同的特征语义空间.多域嵌入的输出是K个连接的特征嵌入向量表示第j个语义空间的第i个特征的嵌入向量，kf是嵌入维度.

2.2 输入感知网络

2.2.1 三重因子估计网络层

三重输入感知网络层包含Cross 网络和MF 网络两部分.Cross 网络从vector−wise 和bit−wise 角度进行特征交互.MF 网络学习高层特征域间的特征交互，称为hierarchical field−wise 特征交互.

Cross 网络：受到DCN−V2［14］中Cross 网络在建模特征交互方面的成功应用，其网络结构如图2 所示.在文中使用该特征交互网络在vector−wise 和bit−wise 角度学习输入感知因子.Cross 网络的核心是cross 层，它可以显示建模特征交互.下面公式展示了第l+1 层cross 层，

图2 Cross 网络

其中：☉表示按元素相乘；x0∈Rd是包含原始一阶特征的基础层，通常设置为嵌入层Ev；xl，xl+1∈Rd，分别表示第(l+1)Cross 层的输入和输出.对于一个l层的Cross 网络，多项式的最高阶数是l+1，该网络包含的所有特征交互都能达到最高阶.从文献［14］可知，Cross 网络同时从bit−wise 和vector−wise 角度进行特征交互.相比DIFM［4］中分别使用多头注意力机制和MLP 进行vector−wise 和bit−wise 的特征交互，Cross 网络使用一个网络结构且降低了计算量和参数.为了保留原始嵌入向量的一些信息，在Cross 网络之后，利用残差网络将原始特征嵌入向量添加到Cross 网络的输出中：

MF 网络：该网络主要学习两两层次化特征域间的特征交互，如图3 所示.所有层次化域特征向量对进行元素积运算：

图3 MF 网络

其中：r[i][j]∈R是一个权重，用来学习层次特征域i和j之间的相互作用强度，☉表示两个向量的元素乘积，Ofield∈Rk.

在实际的工业系统中，特征字段的数量通常为10 个或更多，但是层次化特征域的数量通常小于4 个，减少了计算量和过拟合的风险.这种分层字段方式是受YouTube 启发的，根据它们描述的是商品的属性和用户/上下文的属性［13］.如图3 所示，有3 个MF 分别为每一对层次用户、商品和上下文信息学习特征交互，称为field−wise 角度特征交互.

2.2.2 组合层

基于Ovec_bit和Ofield的输入感知因子计算如下：

其中：Pvec_bit∈Rd×h和Pfield∈Rk×h表示权重矩阵，是Ovec_bit和Ofield映射到j维的特征向量，将两个中间结果结合起来：

其中：mx∈Rh是对应的输入感知因子，考虑bit−wise、vector−wise 和field−wise 三个层次的特征交互.

2.2.3 特征表示调整层

当获得三重因子估计层的输出mx，mx用来改善特征权重wi和嵌入向量vi.该层的输入x是给定的wi、vi和上一层的输入感知因子mxi.特征表示调整层的定义如下：

其中：mxi是mx中第i个元素，wxi和vxi表示对于特定输入x提炼后的特征表示，该表示更准确，提供信息更有价值.

2.3 多语义交互网络

2.3.1 Pair-wise 交互层和门网络

交互层枚举交互潜在向量，每一个向量都是嵌入层中两个嵌入向量的元素乘积.受文献［15］的启发，采用混合专家（mix−of−Experts，MoE）的观点［16］，基于MoE 的模型由两个部分组成：专家（通常是一个小网络）和门控（输入函数）.在实际应用中，不依赖单个语义的特征域交互，而是在多个语义的特征域空间交互，然后利用输入的多域空间嵌入学习一个门函数自动组合多语义的域交互.设置域的pair−wise 交互为PI：

其中：Iij∈，K表示语义空间的数量，Gm(·)是一个门网络，输入是多域嵌入的池化后结果Eu∈，输出是一个softmax 函数，动态决定不同语义特征域交互的重要性.

2.3.2 映射矩阵

嵌入矩阵V和U具有不同的嵌入维度，一般情况下：

因为维度不匹配，所以通过矩阵映射把维度kf映射到k；其中，D∈，Fi，j∈Rk表示特征域i和j交互的结果，考虑了不同的语义空间.

2.4 协同感知融合层

2.4.1 Attention Net

该层融合了2.2 和2.3 提出的输入感知和多语义交互感知的结果，并考虑了特征交互的重要性.受到文献AFM［2］的启发，当特征嵌入vi和vj交互时，因不同的特征交互重要性不一样，且存在部分噪声信息，所以利用一个注意力网络学习该特征交互的重要性，记为Ti，j，计算如下：

其中：a'ij是注意力网络的隐藏神经元数量和τ表示用来控制预测的随机性的超参数，在应用softmax 之前，通过缩放logit［17］，控制特征方面的有效性强度.对于（τ→∞），所有交互的重要性几乎相同，对最终预测的影响有限；对于（τ→0）时，期望回报最高的交互向量的概率趋于1，其他交互忽略.该模块如图1 的Attention Net.

2.4.2 注意力网络（Attention）

注意力网络本质上是一种分配机制，其主旨是习得对象相对重要的特征，并重新分配权重.本文通过注意力网络挖掘数据之间的关联性，进而突出其中的重要特征，并为重要特征赋予更大的权重.

2.4.3 协同感知因子分解机（CFM）

综上所述，给出CFM 公式：

在U和D上应用L2 正则化，F控制正则化强度，并在pair−wise 交互层上使用dropout［18］防止过拟合.CFM 综合考虑了三重交互的输入感知、多语义特征域交互和特征交互重要性.

2.5 输出层

现在很多工作思路是共同训练两个并行网络，灵感来自于wide&deep 模型［10］.受到该思路的启发，提出了CFM 和MLP 并行训练的版本，称为深度协同感知因子分解机（DCFM）.

2.5.1 多层感知机

使用一个多层感知机（MLP）网络捕获非线性的、高阶的特征交互.输入是所有字段嵌入向量的拼接，即Ev.在输入Ev上构造一个完全连接的层堆栈.全连接层的定义如下：

其中：L表示隐藏层的数量，WL、bL、σL分别表示权重矩阵、偏置向量和激活函数.最后一层只有一个神经元，生成一个密集实值特征向量hL，即ydnn.

2.5.2 深度协同感知因子分解机

结合CFM 的输出yCFM和MLP 网络的输出ydnn，得到y^，所有的参数都是联合训练的：

其中：yCFM是CFM 的输出，ydnn是deep 侧的输出.

2.5.3 损失函数

对于二分类任务，学习过程的目标是最小化以下目标函数（log loss）：

其中：yi∈{ 0，1} 是第i个实例的真实标签，是预估的CTR（这里的σ是sig⁃mod 函数），N是训练样本的总数.

3 实验及结果分析

3.1 数据集

Avazu 数据集是在2014 年Avazu 点击率预测竞赛中发表，包含有4 000 万个数据实例的点击日志，每个点击数据，有24 个特征，为了使模型的准确率更高，泛化能力更强，将数据集随机划分为两个部分进行训练，其中80%用于训练，20%用于测试.Criteo 数据集包含一个月的广告点击日志，含有1 亿个数据实例，13个连续特征和26 个分类特征；选择连续7 天的样本进行训练，第8 天样本进行评估.

3.2 评价指标

AUC 和交叉熵损失Logloss 是评估点击率预估性能的两个重要指标.AUC 反映了点击率预估模型将正样本排在负样本前面的概率大小.交叉熵损失是衡量二分类问题常用的损失函数，损失值越小，预测得越准确.通常来说，AUC 或Logloss 上0.001 的提高即被认为对CTR 预测有重要意义.

3.3 基准模型比较

为了验证模型的有效性，实验选取FM［1］、AFM［2］、DIFM［4］、FFM［6］、DeepFM［9］和XDeepFM［19］模型进行对比.以下是对模型的介绍：

FM：利用特征隐向量学习二阶特征组合，可对很少出现的组合进行建模，增强了模型的泛化性.

AFM：在FM 的基础上引入注意力模块，给所有的特征交互分配对应的权重向量，改进了FM 均等对待所有特征的缺点.

DIFM：可自适应地在bit−wise 和vector−wise上对原始特征表示进行重新修正.

FFM：域感知因子分解机，是FM 的扩展模型.每个特征对于不同特征域都有单独的嵌入向量，与来自不同特征域的嵌入向量进行交互.

DeepFM：主要是利用因子分解机将稀疏特征编码转换成低维嵌入向量并与深度神经网络进行结合，这两部分共享相同的输入向量，实现对低阶和高阶特征的同时提取.

XDeepFM：一个利用压缩交互网络对特征显式建模的深度学习模型.

CFM：协同感知因子分解机，Criteo 中不能得到层次化特征域，所以估计网络层中不包含MF 网络.

DCFM：深度协同感知因子分解机，在CFM基础上增加并行MLP 网络联合训练.

3.4 实验设置

所有对比模型都是基于TensorFlow 实现的，为了公平地比较，所有模型都是使用Adam（学习率：0.001）优化器优化对数损失进行学习.对于所有方法，Criteo 和Avazu 的嵌入维度分别设置为20 和40，与DIFM［4］中的参数设置相同.每层神经元数量的默认设置为：DeepFM、DIFM 和DCFM 中的DNNs 层为256；XDeepFM中CIN 层为200，AFM 注意因子按照原论文推荐设置为256，CFM 中Cross 网络的层数设置为3，语义空间的数量K=3.每个模型的超参数均通过网格搜索进行了仔细调整，以达到最佳的性能.

3.5 实验结果与分析

经过多次实验验证，不同模型在Avazu 和Criteo 数据集上的性能如表1 所示.

表1 各模型在2 个数据集上的性能对比

首先，学习特征交互可以提高CTR 预测模型的性能.DeepFM 对低阶和高阶特征建模比单独的FM、FFM 能够取得更好的效果，说明特征的低阶和高阶交互对于模型效果是有价值的，使CTR 预估模型具有更好的表示能力.其次，AFM 比传统的FM 效果更好说明特征重要性对模型性能是有提升.DIFM 模型比深度学习方法如AFM、DeepFM、XDeepFM 获得更好的性能，说明了特征域交互感知的有效性.因此，不同样本的输入感知和特征域的交互感知对CTR 预测是至关重要的.最后，本文提出的CFM 和DCFM 在两个数据集都达到了最好的效果，说明结合输入感知和特征域的交互感知可以取得更好的效果.实验结果表明，DCFM 模型可以有效提升点击率预测的准确率.

3.6 消融实验

CFM 模型从策略上集成了输入感知和特征域交互感知，以学习感知因素到统一的端到端模型中.此外，学习输入感知因素集成了bit−wise、vector−wise 和field−wise 三个层面；学习特征域交互的时候考虑了多重语义的特性.因此，为了验证将两者结合起来进行联合预测是否确有必要和有效，哪个是DIFM 模型中最重要的组件，深入了解CFM 模型，进行了消融实验.

经过多次实验验证，从消融实验结果（表2）来看，对比CFM 和CFM（只包含输入感知网络）、CFM（只包含多语义交互网络），可以发现结合输入感知和多语义特征域交互感知效果更好.对比CFM（只包含输入感知网络）和DIFM，从Criteo 数据集的效果来看，使用Cross网络从bit−wise 和vector−wise 两个层面学习输入感知因子、DIFM 中使用多头注意力网络学习vector−wise、MLP 学习bit−wise 的方法效果相差无几.从Avazu 数据集的效果可以看出增加field−wise 层面学习输入感知因子的有效性.对比CFM（只包含多语义交互网络）和IFM，对比CFM 和CFM（输入感知+单个语义空间）的效果可以看出，考虑特征的多语义特性是有效并且合理的.

表2 消融实验在2 个数据集上的性能对比

4 结论

因子分解机是现阶段提高点击率预估准确性的有效方法.有效挖掘特征的隐藏语义信息和特征交互信息对推动计算广告领域快速发展具有重要的意义.本文首先利用三重输入感知网络学习感知因子，然后通过多语义交互网络学习特征域的多语义交互，最后通过模型对比实验、消融实验，验证了DCFM模型在公开集的性能最好，有效地提高了预估准确性.

本文提出的模型虽然可以提升预测准确性，但是缺少对其原理的可解释性研究，包括特征交互原理、梯度分析等.以后可以进一步探索有效的特征表示和交互问题，并在可解释性方面进行深入研究.