基于高低阶特征交互学习的点击率预测模型研究

2023-05-24曾旺旺胡洋陈俊文廖泽宇阮谢林

无线互联科技 2023年5期

曾旺旺胡洋陈俊文廖泽宇阮谢林

摘要：作为在线广告推送中极为重要的环节，准确的点击率预测（Click-Through Rate，CTR）不仅能提升用户体验，更能增加经济收益，减少资源浪费。目前，基于深度学习的CTR预测模型虽然取得了一定成绩，但在高低阶特征交互学习方面存在不兼顾、不充分以及模型可解释性不强等问题。为解决上述问题，文章提出的模型基于压缩交互网络对高阶交互特征进行显式学习，增强可解释性。同时采用ECA-net网络与双线性层组合的方式，对一阶特征进行加权学习，对二阶特征进行更加细粒度的特征交互，实现深度神经网络学习更细粒度的高阶交互特征，兼顾高低阶特征学习，获取更加全面的潜在特征相关性。在Criteo和Avazu两个公开的大数据集上实验发现，与已提出的相关模型相比较，新模型在性能方面均有所提升。

关键词：点击率；高低阶特征交互；压缩交互网络；细粒度

中图分类号：TP39文献标志码：A

0 引言

2023年1月12日发布的《2022中国互联网广告数据报告》显示，2022年，国内互联网广告市场规模已达5 088亿元，规模巨大。通过提升广告点击率（Click-Through-Rate，CTR）预测模型的准确性，实现更加准确的广告推送，不仅能大大节约成本，提升广告商收益，更能够提升用户体验感，有效获取感兴趣广告。为此，关于提升CTR预测模型准确率问题也引起了业界广泛研究。

目前，对预测模型的研究可分为基于传统机器学习的线性模型和基于深度学习的非线性模型。线性模型虽然易于实现、可解释性强，但无法学习高阶交互特征，获取更加全面的特征间潜在相关性，如逻辑回归（Logistic Regression， LR）、因子分解机（Factorization Machines， FM）等模型［1-2］。與线性模型相比，非线性模型虽然在性能上有所提升，但在高低阶数特征交互方面未做到全面兼顾、对不同一阶特征未按重要程度进行区分，导致模型在准确性方面还存在较大的提升空间，如Autoint，MaskNet等模型［3-4］。

1 模型设计及原理

针对现已提出的模型所存在的问题，本文提出了一种兼顾高低阶特征学习，能够显式地学习高阶交互特征，具有较强可解释性的点击率预测模型，模型结构如图1所示。模型主要包括：FM层、Embedding Layer（嵌入层）、Compressed Interaction Network Layer（CIN层）、Effificient Channel Attention Layer（ECA-net层）、Bilinear Interaction Layer（双线性层）、Combination Layer（全连接层）以及Multilayer Perceptron Layer（多层感知机层）。其中，FM层主要针对每个特征引入一个对应的隐向量，在进行二阶特征交互时两个特征的隐向量进行内积求得交互特征的权重，因此，FM层在面对稀疏特征及冷启动问题时具有非常好的效果，并且与模型结构图中右边部分构成双塔模型并行联合训练，计算公式如下。

2 数据集介绍

针对所提出的预测模型，本文将采用Criteo和Avazu两个学术界、工业界常用于对CTR模型进行实验的广告数据集进行实验。为能够更加有效地说明模型在实际应用场景中面对海量数据的情况，本文将采用上述两个数据集的全部数据用于实验。其中，Criteo数据集包含26个脱敏分类特征、13个连续数值特征，共计约4 500万条真实用户数据。在实验过程中分为两部分，其中，90%用训练、10%用于测试；Avazu数据集包含24个特征，共计4 000万条真实用户数据，其中，80%用训练、20%用于测试。

3 实验参数设置与分析

3.1 参数设置

本实验硬件设备中处理器使用的是Intel（R） Xeon（R） platinum 8350C CPU @2.60 GHz，显卡是RTX A5000（24 G），运行内存43 GB。实验模型在Python 3.8下进行编程，在PyTorch 1.9.0版本下的深度学习框架进行实验。对于所有的对比模型中具有相同网络结构的将采用统一参数，其中，多层感知机层网络层数均为3，每层间的激活函数为ReLu，学习率为0.001，优化器采用Adma。由于采用的数据集较大，在训练过程中Criteo数据集batch-size设置为10 000，Avazu数据集batch-size设置为5 000。

3.2 实验分析

实验将从基于浅层模型情况下与基于深层模型下的实验结果两个方面进行分析。

3.2.1 浅层模型性能对比

本节将所提出的模型在消去多层感知机层后作为CTR浅层模型与LR，FM，AFM等浅层模型（Low-order Model）进行对比，结果如表1所示。

在CTR预测领域中，AUC值提升0.001也是非常具有价值的，在实际应用场景中面对海量数据将带来巨大经济效益［5-6］。从表1中可以发现，在Criteo数据中本文所提出的模型在浅层模型（Ours-sh）下的性能比其他浅层模型的性能都要好。

3.2.2 深层模型性能对比

为进一步说明模型在深层网络下的效果，本文所提出的模型将与其他基于深度神经网络下所提出的深层模型（High-order Model）进行比较，结果如表2所示。

从表1、表2的实验结果可以发现，本文所提出的模型无论是在浅层模型下还是在深层模型下，性能都要比其他对比模型性能要好。这表明本文所提的双塔加双线并行训练的模型在提升模型性能方面是有效的，CIN层与ECA-net、双线性层及多层感知机所构成的双线训练分支在提取高阶特征的潜在相关性方面具有一定的效果。

4 结语

为进一步提升CTR预测模型的准确性，本文所提出的预测模型在关注一阶特征重要性的基础上细化特征粒度，通过显隐性高阶特征并行学习的方式学习更加全面、细微的特征间的关联性。实验证明，该模型在预测在线广告是否被点击的准确性等方面有较好的表现。

参考文献

［1］KUMAR R，NAIK S M，NAIK V D，et al.Predicting clicks：CTR estimation of advertisements using logistic regression classifier：Advance Computing Conference［C］.New York，NY：IEEE，2015.

［2］RENDLE S.Factorization machines：2010 IEEE International Conference on Data Mining［C］.New York，NY：IEEE，2010.

［3］SONG W，SHI C，XIAO Z，et al.Autoint：automatic feature interaction learning via self-attentive neural networks：Proceedings of the 28th ACM International Conference on Information and Knowledge Management［C］.New York，NY：ACM，2019.

［4］WANG Z Q，SHE Q Y，ZHANG J L.MaskNet：introducing feature-wise multiplication to CTR ranking models by instance-guided mask［J］.ArXiv，2021：2102.07619.

［5］HUANG T，ZHANG Z，ZHANG J.FiBiNET：combining feature importance and bilinear feature interaction for click-through rate prediction：Proceedings of the 13th ACM Conference on Recommender Systems［C］.New York，NY：ACM，2019.

［6］蔣兴渝，黄贤英，陈雨晶，等.特征重要性动态提取的广告点击率预测模型［J］.小型微型计算机系统，2022（5）：976-984.

（编辑沈强）