APP下载

基于卷积神经网络的搜索广告点击率预测

2015-05-30李思琴林磊孙承杰

智能计算机与应用 2015年5期
关键词:卷积神经网络

李思琴 林磊 孙承杰

摘 要:广告点击率的预测是搜索广告进行投放的基础。目前已有的工作大多数使用线性模型或基于推荐方法的模型解决点击率预测问题,但这些方法没有对特征之间的关系进行深入的探索,无法完全体现广告点击预测中各个特征之间的关系。本文提出了基于卷积神经网络的搜索广告点击率预测的方法,阐述了卷积神经网络在特征的学习上模拟人的思维过程,并进一步分析了不同特征在广告点击率预测中的作用,在KDD Cup 2012中Track 2数据集上的实验结果验证了本文提出的方法能够提高搜索广告点击率的预测效果,其AUC值达到0.7925。

关键词:卷积神经网络;点击率预测;搜索广告

中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-

Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network

LI Siqin, LIN Lei, SUN Chengjie

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.

Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising

0 引 言

随着Web搜索技术的成熟,搜索广告已经成为互联网行业的主要收入来源之一,其根据用户输入的查询词,在搜索的结果页面呈现出相应的广告信息。广告媒介的收益通过每次点击费用(CostPerClick,CPC)与广告点击率(Click-Through Rate,CTR)预测共同影响而得到,即CPC*CTR。由于用户点击广告的概率随着广告位的排放顺序呈递减趋势,因此对CTR进行准确高效的预测,并将CTR高的广告投放在搜索结果页面靠前的位置,不仅能增加广告媒介的收益,还能提高用户对搜索结果的满意程度。

广告点击率预测是广告算法中最核心的技术,近年来被学术界广泛关注。部分学者使用基于推荐方法的模型来解决CTR预测问题。霍晓骏等人[1]采用协同过滤算法,为页面找到与其相似的其他邻居页面,实现CTR的预测,以此作为基础进行广告推荐,但当相似页面的数量增加时,该方法的结果质量会严重下滑。Kanagal等人[2]提出了一种聚焦矩阵分解模型,针对用户对具体的产品的喜好以及相关产品的信息进行学习,解决因用户-产品交互活动少而造成的数据稀疏问题。在文献[2]的基础上,Shan等人[3]提出了一种立方矩阵分解模型,通过对用户、广告和网页三者之间关系的立方矩阵进行分解,利用拟合矩阵的值来预测CTR,虽然立方矩阵分解模型增加了一维交互关系,但所刻画的交互关系仍然十分局限,不能在CTR预测中充分挖掘广告所有特征之间的联系。

作为典型的预测问题,很多研究中通过将CTR预测问题看作分类或者回归问题来解决,其中最常见的是应用线性模型来预测CTR。Chapelle等人[4]使用动态贝叶斯网络,通过对用户产生的点击过程建立模型,考虑级联位置的信息模拟出特定位置与相近位置的相关性,以判断该位置上的广告是否满足用户搜索要求。Chakrabarti等人[5]利用点击反馈的相关性,通过在网页和广告词等特征上使用逻辑回归模型提高广告检索和预测的效果。Wu等人[6]基于融合的思想,将不同线性模型的实验效果相结合,来提高搜索广告CTR预测的结果。真实的场景中CTR的预测并非简单的线性问题,因此,一些学者开始使用非线性模型来解决CTR的预测。Dave等人[7]在搜索广告点击信息以及广告商账户信息上提取语义特征,使用基于投票思想的梯度提升决策树模型,提高了CTR预测的效果。Zhang等人[8]利用神经网络模型对影响搜索广告点击率的因素进行的探索,从特征因素方面提高CTR预测的结果,但是资源单一,数据交互的关系没有获得良好的利用。

本文对基于卷积神经网络(Convolution Neural Network,CNN)的CTR预测进行研究,通过卷积与亚采样操作的结合,能更好地学习出数据特征之间的关系,不仅解决了线性模型无法模拟真实广告数据场景的问题,也解决了浅层学习模型无法深入挖掘特征间相互关系的问题,并且较之于传统的神经网络,CNN能更好地理解特征之间的关系。在真实的数据集上的实验验证了本文的方法能够提高搜索广告中CTR预测的AUC值。

1卷积神经网络模型

1.1 卷积神经网络基本模型

卷积神经网络作为人工神经网络之一,目前已成为深度学习领域中研究的热点,权值共享以及局部窗口滑动的特点使之能更好地模拟出生物神经网络。卷积神经网络在结构上有两个重要的组成部分:卷积层和亚采样层。如图1所示。

图1 卷积层与亚采样层结构

Fig.1 Convolution layer and sub-sampling layer structure

在卷积层中,原始特征通过卷积核进行卷积得到输出的特征,使用不同的卷积核就可以得到一系列不同的输出特征。对卷积层的计算,有如下公式:

(1)

这里, 是sigmoid 函数, , ; 代表输入特征上选定的窗口,即在卷积过程中当前卷积核在计算时所对应在输入特征上的位置; 和 分别是第 层输入特征和第 层输出特征上相应的值; 是卷积核的权重值; 是特征的偏置,每一层对应一个。

卷积过程,一个卷积核通过滑动会重复作用在整个输入特征上,构建出新的特征。同一个卷积核进行卷积时,共享相同的参数,包括同样的权重和偏置,这也使要学习的卷积神经网络参数数量大大降低了。而当我们使用不同的卷积核进行卷积时,可以得到相应的不同的输出特征,这些输出特征组合到一起,构成卷积层的输出。

在亚采样层,前一个卷积层的输出将作为该层的输入特征,首先设定大小的窗口,然后通过滑动,用窗口区域中最大(或平均)的特征值来表示该窗口中的特征值,最后组合这些特征值得到降维后的特征。亚采样过程可表示如下:

(2)

这里,类似于卷积层, 和 分别是第 层输入特征和第 层输出特征上相应的值, 是特征的偏置; 表示取最大值 或者平均值 的函数。

典型的卷积神经网络通常由n(n>=1)个卷积层和亚采样层以及最末尾的m(m>=1)全连接层组合而成。一个亚采样层跟随在一个卷积层后出现,通过这若干卷积层和亚采样层后得到的特征,将经过全连接层与输出层相连。全连接层公式如下:

(3)

这里, 是sigmoid函数, 是计算第 层到第 层时的权重值。

1.2基于卷积神经网络的CTR预测模型

研究中使用卷积神经网络对搜索广告的CTR进行预测,网络结构如图2所示。

图2 卷积神经网络在搜索广告点击率预估中的应用

Fig.2 Convolution neural network in search ad click rate through prediction

实验中一共设置了兩个卷积层、两个亚采样层以及一个全连接层。首先从历史日志中提取相应的特征构建出输入(Feature_Input),设置好卷积的窗口大小后根据公式(1)对输入特征进行卷积,每一次卷积是对窗口内所有值的组合,因此卷积过程相当于特征融合过程。对卷积后得到的特征,设置亚采样的窗口并根据公式(2)进行最大值-采样,选取出窗口中的最有表达能力的特征值(最大特征值)表示整个窗口的特征,因此亚采样过程相当于特征的萃取过程。整个卷积和亚采样过程的结合,模拟出了人对事物的理解和总结的过程。最后将特征经过一层全连接后连接到输出,得到最终的预测结果。

在一次特定的卷积(或亚采样)全过程中即训练的一次迭代过程中,权值并不会随着窗口的滑动而改变,即在计算中,所有窗口滑过的特征享受同样的权值。这也是CNN区别于其他神经网络的特点——权值共享。如此即使得CNN更方便训练,更能多角度地对特征进行学习。

2特征构建

本文所采用的实验数据集为KDD Cup 2012中Track 2提供的数据集。该数据由腾讯公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因为涉及公司商业信息,数据经过哈希处理。实验数据集中,每条记录包含12个属性,各属性详解如表1所示。

研究按照实际含义将这12个属性构造了四大类特征:历史点击率特征、相似度特征、位置特征和高影响力特征。

2.1基于卷积神经网络的CTR预测模型

历史点击率特征是不同类别ID在历史数据中的点击率,虽然比较简单但十分有效,因为历史点击率在一定程度上代表了类别ID对某个广告感兴趣程度的高低,当一个ID对某个广告的历史点击率高时,意味着其对这个广告更感兴趣,后续点击的概率也更大。

历史点击率( )是点击数( )与展示数( )之比,在统计计算过程发现有很多情况下有些类别信息没有点击实例,因此研究采用了平滑方法解决零值问题,根据公式(4)来计算平均点击率。计算公式如下:

(4)

公式中的 和 是调节参数,根据公式(4)计算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的历史点击率。

2.2相似度特征

相似度特征用来刻画属性两两之间的相似程度,用户搜索的内容与被投放的广告属性相似度高时,广告被点击的概率更大。例如当搜索内容Query与广告关键字属性Keyword相似度高时,意味着网页投放的广告与用户期望搜索的广告结果相似度高,更符合用户点击广告的动作。

通过对Query、Keyword、Title、Description的属性描述文件构造出相关的TF-IDF向量,Query为用户搜索内容,Keyword,Title,Description是广告的相关属性,数据集提供的属性信息都是经过哈希后的数字形式,但是属性之间的相对含义不变,然后计算相互之间的余弦相似度作为特征。

2.3位置特征

该特征描述的是指定广告在搜索结果页面中的位置信息。用户搜索时需求的多样化要求在对广告进行排序和投放时,在结果页面靠前的位置中尽可能地投放满足用户需求的广告,从而最大化用户的满意度、提高用户点击的兴趣[9]。因此,研究即用当前预测广告的相对位置Pos来刻画该广告在结果页面中排序靠前的程度,其定义如下:

(5)

这里, 指页面投放的广告总数, 指当前所预测广告的位置。

2.4位置特征

在预测模型中,ID属性信息通常采用one-hot形式的特征编码方式,在将不同的属性经过one-hot编码后的特征向量组合在一起,这样方式简单直观,却使得特征的维度巨大并且非常稀疏。然而在这庞大且稀疏的特征中,绝大部分维度上的特征值对整个模型的预测结果贡献非常小甚至为零,只有少数维度上的特征值对预测结果有较高的影响力。因此研究采用L1范数正则化的方式,在逻辑回归模型的代价函数中加入L1范数[10],使得模型学习得到的结果满足稀疏化,在学习参数中按大小顺序取出前N维权重较大的,将这N维权重对应位置上的特征值构建新的特征,称为高影响力特征,考虑到实验硬件,取N=180。

3 实验结果与结论分析

3.1数据准备

实验目标是通过给定的信息预测搜索网页的广告点击率,由于数据量过大并且正负样本不平衡,实验中从训练集随机采样10%作为本文实验中模型训练的训练集,既缩小了样本空间,同时随机采样也保持了原始数据的分布信息。实验中随机抽取部分样本作为验证集用于参数的调节。本文所用测试集为 KDD Cup 2012中track 2的全部测试数据,因此本文的结果与KDD Cup 2012中track 2比赛的结果具有可比性。数据的统计信息如表2所示。

这里, 、 分别表示结果中预测对的正样本数和负样本数, 、 分别表示结果中预测错的正样本数和负样本数。对于广告点击率预测问题,较大的AUC值代表了较好的性能。

3.2实验设置和结果分析

实验的操作系统为Ubuntu 12.04 LTS OS,卷积神经网络在4G RAM 的NVIDIA GeForce GT 610 GPU条件下运行。过程中选用了Dense Gaussian对卷积层、亚采样层的边和节点进行初始化,用常数初始化输出层,学习卷积神经网络各边权值时的优化函数使用梯度下降算法,其中学习率为0.01、动量项为0.9,训练步数为100,设置公式(4)中参数α=0.05,β=75。实验时使用逻辑回归模型(LR)、支持向量回归模型(SVR)和深度神经网络(DNN)作为对比方法,所有方法都使用相同的特征,其中DNN的层数以及每层的节点数与卷积神经网络相同。

具体地,首先探究了卷积神经网络中节点的设置,因为在CNN中后续层的节点数根据第一个卷积层和每层卷积(或亚采样)滑动窗口的大小计算得到,并以第一个卷积层节点的设置为实验变量,同时控制DNN中每层的节点数均与CNN相同,在验证集上的实验结果如图3所示。

从图3可以看出,随着节点的增加,AUC的值也在不断增长,在一定范围内,节点数越多,实验的结果越好。但随着节点数的增大,模型的训练时间也在延长,对设备的开销需求也在升高,综合上述因素,最终将第一层的节点数设为9 216。

CNN与各对比实验的实验结果如表3所示,可以看出CNN的效果最佳,此外在表中还列出了KDD Cup 2012 track 2比赛中第一名的结果。DNN的AUC值优于LR和SVR,验证了深度学习模型比浅层学习模型更适合解决CTR预估问题,同时CNN的结果高于DNN,说明CNN中卷积层的特征融合和亚采样层的特征萃取过程是有效的。本文中CNN目前的实验结果略低于KDD Cup 2012 track 2中第一名的结果,原因是比赛队伍使用了多模型融合并提取了庞大的(千万维)输入特征。

进一步地,实验探索了每一类特征对搜索广告点击率预测的贡献。在所有特征的情况下,去掉某一类特征来进行预测,实验结果如表4所示。实验结果表明,去掉任意一类特征都将使得实验效果有所下降。其中去掉历史点击率特征效果下降得最明显,说明用户是否点击广告,与其之前的点击行为非常相关。而去掉位置特征时,效果下降得最为不明显,因为在实验使用的数据集中,每个页面最多仅呈现三个广告,页面中的广告数少时,位置对用户点击的影响小。

4 结束语

对搜索广告点击率的有效预测不但能够更好的提高在线广告投放的性能,增加广告商的收益,还能增强用户的体验。研究使用卷积神经网络CNN对搜索广告点击率进行预测,对特征因素的分析之后,在真实数据的环境下对搜索广告点击率进行预测的实验本文的方法的效果相对于其他方法有明显的提高。本文的主要贡献有:(1)本文提出了基于卷积神经网络的搜索广告点击率预测的方法。(2)针对高维特征,提出了一种特征选择策略,可以在计算能力受限的情况下使用CNN模型来解决广告点击预测问题,并取得较好效果。在未来的工作中,一方面要继续研究更有效的特征来提高对点击率的预测效果,另一方面也将尝试对CNN模型的内部细节进行改进,使之更适合我们的预测场景。

参考文献:

[1] 霍晓骏,贺樑,杨燕. 一种无位置偏见的广告协同推荐算法[J]. 计算机工程, 2014, 40(12): 39-44.

[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.

[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.

[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.

[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.

[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.

[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.

[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.

[9] 林古立.互联网信息检索中的多样化排序研究及应用[D].华南理工大学,2011.

[10] YUAN Guoxun, HO C H, LIN C J. An improved glmnet for l1-regularized logistic regression[J]. The Journal of Machine Learning Research, 2012. 13(1): 1999-2030.

[11] FAWCETT T. ROC graphs: Notes and practical considerations for researchers[J]. Machine learning, 2004. 31: 1-38.

猜你喜欢

卷积神经网络
基于深度神经网络的微表情识别
卷积神经网络中减少训练样本时间方法研究
卷积神经网络语言模型研究
基于卷积神经网络的车辆检索方法研究
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
深度学习技术下的中文微博情感的分析与研究
基于卷积神经网络的树叶识别的算法的研究