深度学习在信息推荐系统的应用综述
2019-05-05张立民周立军
刘 凯,张立民,周立军
1(海军航空大学 基础实验部,山东 烟台 264001)2(海军航空大学 信息融合所,山东 烟台 264001)
1 引 言
随着网络时代的到来,越来越多的资源、信息被提供给用户,同时用户的个性化需求也越来越高.那么,如何在众多资源中发现能够满足用户个性化需求、增强用户体验效果的信息,成为了众多学者、专家和网络用户关心的核心问题之一.推荐系统也正是为了满足这一要求而提出的,其核心是信息的推荐算法[1].
成熟的深度学习模型始于文献[2]提出的深度信念网络(Deep Belief Net,DBN),该模型通过多层特征提取机制实现数据信息的抽象表达和高层语义概念的生成.作为2013年十大突破技术之首,深度学习模型在机器学习领域展现出了强大生命力和巨大能量[3].深度学习模型不断发展,先后出现了文献[4]的深度玻尔兹曼机、文献[5]的深度自动编码器等多种形式,并成功应用于图像分类、语音识别、网络态势感知以及高维时间序列建模等领域[6].深度学习在信息推荐领域中的应用最早于文献[7],作者将受限玻尔兹曼机作为协同过滤模型,并进行了一系列改进,在Netflix数据集的实验结果性能优于奇异值分解(Singular Value Decomposition,SVD).
本文对深度学习方法在信息推荐领域的研究现状进行了总结,对深度学习方法应用于信息推荐相关算法的关键技术和存在问题进行分析,最后对深度学习方法在信息推荐领域的发展进行了展望.
2 信息推荐算法分类
信息推荐系统按照数据采集与处理方式不同主要分为两种,分别是基于内容的推荐系统(Content-Based,CB)和协同过滤(Collaborative Filtering,CF)[8].CB在进行推荐时根据项目间的相关性,向用户推荐喜欢的相似项目.其优点在于,针对新项目和新用户,算法可根据其他相关信息帮助用户选择,缺点为推荐质量依赖于项目模型的完整度和全面度.CF是通过项目与用户间的相关度进行推荐.与CB相比,CF优势在于不需要对项目或用户进行严格建模并且推荐质量与所涉及的问题无关.
目前,CF主要分为基于邻域的CF和基于模型的CF两种方法[9].基于邻域的CF例在进行推荐时首先根据用户-项目评分矩阵求出待测目标邻域,并依据邻域内个体与目标的相似度计算对待测目标的评分预测;优点为用户评分的任意改变都会马上反映在之后的推荐中,能够直观反映人们对于推荐系统的直觉,缺点为推荐时效率较低,特别是海量用户项目的推荐评分.基于模型的方法如矩阵分解(Matrix Factorization,MF)[10]、奇异值分解(SVD)[11]等,都是通过从用户-项目评分矩阵中学习到一个低维度模型,在后续推荐中直接使用学习到的模型,从而更加快速地实现推荐.可以看出,CF是通过共用他人经验,发现用户潜在兴趣从而提高推荐准确度.
总的说来,目前信息推荐领域存在的问题主要有以3点:
1)推荐效果往往依赖于用户历史数据的多少和准确性,难以应对数据稀疏和冷启动问题;
2)无法解决错误偏好和恶意评价,对特殊用户和特殊物品不能给予较好推荐;
3)已有模型往往是时间不变的,很难根据用户的爱好演变对用户模型进行修改.
针对这些问题,已有的优化方法多是通过为信息推荐模型增加用户和项目边缘信息(side information),例如用户关系属性[12]、项目文本信息[13]和评价时间正则化因子[14]等,以此增强信息推荐算法对用户和项目特征的抽象能力,从而提高信息推荐的准确性和多样性.
3 深度学习方法在信息推荐领域的研究现状
鉴于深度学习所具有高层特征自动提取、多模态信息融合便利和网络形式多样等优势,以及在图像和文本特征提取、高维时间序列建模上取得的成功,应用深度学习可以提高信息推荐算法特征提取能力,进而改善已有算法的不足.
近年来,随着深度学习的发展,深度学习在信息推荐领域中的应用出现了两种趋势,一种是与传统信息推荐算法相结合,将用户和项目边缘信息通过深度学习得到其高层特征,并将其作为信息推荐算法的补充因子,参与到评分计算中;另一种是直接构建多层神经网络,使用项目或用户边缘信息通过回归等方式对评价进行预测,完成项目或用户的推荐.
3.1 深度学习与传统信息推荐算法结合
目前,深度学习与传统信息推荐算法的结合,主要是利用了深度神经网络所提取的高层特征,采取的结合策略多为三种,一是利用高层特征对项目或用户进行聚类,缩小邻域空间范围,提高信息推荐算法建模效率;二是将高层特征作为信息推荐算法隐因子的超参数,增强隐因子表征个性化能力;三是将高层特征作为信息推荐算法训练目标函数的正则化因子,参与到模型训练过程.
文献[15]提出了融合协同过滤与深度学习的推荐模型(integrated Recommendation model with CF and Deep learning,IRCD),该模型首先通过降噪自动编码器对项目边缘信息进行编码,其次根据编码计算其他项目与该项目的Person相似度和基于相似度权重的评分值,最后将其与timeSVD++[16]的评分线性相加作为最终评分值,作者还将DAE编码值作为timeSVD++中项目隐因子的初始值,参与到模型训练中.
文献[17]将项目评价文本通过深度学习引入到MF中,设计了协同深度学习模型(Collaborative Deep Learning,CDL),该模型利用降噪自动编码器,将MF中项目隐因子变为项目个性偏置与项目评价文本编码的线性和,最后通过最大化评分后验概率实现MF与DAE参数的调节.
文献[18]针对歌曲推荐中单纯依靠艺术家、类型、专辑等标签难以实现新歌曲精准评价的问题,提出了基于内容的音乐深度推荐方法(Deep Content-based Music Recommendation),通过权重矩阵分解(Weighted Matrix Factorization,WMF)学习歌曲的隐因子,将其作为以歌曲为输入向量的卷积神经网络训练目标.因此算法的训练目标为最小化WMF对评分矩阵的重构误差和卷积神经网络高层特征与WMF隐因子欧式距离的线性和.
文献[19]提出了协同神经网络(Cooperative Neural Network)模型,通过卷积神经网络分别提取用户评价和项目简介特征作为用户隐因子和项目隐因子,并通过矩阵分解(MF)对评分矩阵进行重构,参数的调节过程采用交替优化的方式完成.
文献[20]在已知用户信任域连接关系的基础上,提出了基于矩阵分解的深度学习模型(Deep Learning based Matrix Factorization,DLMF).首先使用连续受限玻尔兹曼机CRBM对评分矩阵进行编码获得用户编码特征,并根据用户信任域连接关系计算基于用户编码余弦相似度权重的归一化信任值,继而将用户对项目的评分定义为用户与项目隐因子乘积和以用户信任域内各用户归一化信任值为权重的用户评分线性和,最后讨论了社区关系对评分的影响.
文献[21]提出了卷积矩阵分解模型(Convolutional Matrix Factorization,ConvMF)用于信息推荐,特点是通过卷积神经网络CNN提取项目相关文档的高层语义特征,卷积层使用ReLU单元,池化机制为最大值池化,输出层激活函数为tanh,模型将CNN输出作为MF项目隐因子参与到评分矩阵的重构中,在算法训练过程中同样使用了交替优化的方式对MF与CNN两个模型进行参数调节,最后在MovieLens数据集上进行了验证,在RMSE上超过目前最佳模型CDL的值3%以上.
文献[22]将MF中用户和项目的隐因子看作是时序变化平移因子、自我演化因子以及用户项目交互因子的非线性组合,使用了循环神经网络对用户评价事件进行关联特征提取.作者在Yelp数据集和IPTV数据集对所提模型进行了验证,相比于其他时间演化模型STIC、timeSVD++等,所提方法在MAE(Mean Absolute Error)上均有较大提高.
文献[23]提出了关系叠加降噪自动编码器(Relational Stacked Denoising Autoencoder,RSDAE)模型用于标签推荐,首先通过SDAE对项目标签进行编码,其次将预训练好的用户-标签关系矩阵以高斯积(product of two Gaussians,PoG)的形式引入到中间层单元,最后将中间层单元值与MF标签隐因子的欧式距离作为正则化因子加入到MF训练过程中.
文献[24]提出了增强归纳矩阵填充模型(Boosted Inductive Matrix Completion,BIMC),通过MC和IMC两种协同过滤模型线性组合重构博客-用户关系矩阵,使用MC降低输入数据噪声,IMC协调用户和项目的边信息.其中,模型使用word2vec对博客文本进行向量化,作为用户的边信息;使用CNN提取图像特征,作为博客边信息.
文献[25]研究了跨领域的协同过滤模型(CCA-based Cross-Domain Recommender),首先通过DAE对不同域内信息进行编码,其次利用典型相关分析将编码映射至同一隐空间中,最后根据向量间欧式距离为权重计算推荐评分.
文献[26]针对冷启动视频推荐,提出了基于内容信息视频协同过滤模型(visual - Combining Collaborative with Content Information,visual-CLiMF),其核心为通过深度神经网络对冷启动视频边信息进行特征提取,并由线性变换将其映射为项目隐因子,参与到MF训练过程中.模型使用了最大化平均倒序评分(Mean Reciprocal Rank,MRR)为训练目标进行参数调节.
文献[27]提出信息推荐的目标不仅是实现评分预测,应当也要包括项目的内容信息.因此,作者将协同过滤算法的训练目标修改为MF评分与项目文本信息两个重构部分,其中项目文本信息重构使用RNN模型,并将MF的项目隐因子设置为RNN输入向量.
3.2 多层神经网络对评分的回归预测
与以往的机器学习方法相比,深度学习的优势在于,通过多层神经网络的构建,能够实现数据由非结构化生数据到中层粗糙知识,再至高层智能知识的映射.因此,利用深度学习,对已有评分数据进行抽象、概括,可以形成用户对项目评价的一般把握标准,完成信息推荐.
文献[28]设计了两层受限玻尔兹曼机完成基于用户APP使用喜好的视频推荐,其过程为首先基于用户信息与视频特征建立两者关联评分,即将用户与视频的信息特征作为底层RBM输入,经中间隐单元层后,连接至用户-视频关系层,进行吉布斯采样;随后在中间隐单元层上方增加softmax层实现对用户评分的预测.
文献[29]指出用户的社会标签往往是稀疏、任意和粗略的,因此提出首先使用深度神经网络建立用户和项目的标签语义,并以向量间余弦相似度作为语义度量,顶部增加softmax层对评分进行预测;同时为加速训练,将负样本加入到模型训练目标中,即最大化用户喜欢项目与不喜欢项目间的评分差值.
文献[30]提出了对比深度学习(Comparative Deep Learning,CDL)模型用于图像推荐,这是使用负样本优化网络训练的进一步改进.模型首先依据样本集形成用户与图像的三元样本对,即用户ID、用户喜欢的图像以及用户厌恶图片;随后构建三个深度神经网络分别用于提取用户与两种图像的高层特征,并将三元样本对拆分成用户与喜欢图像、用户与厌恶图像两个组合,继而在两个组合的高层特征上分别叠加Relu神经元层,将不同域内特征映射至同一空间中;最后在两个组合高层特征的基础上定义交叉熵损失函数进行整个网络的精调.
文献[31]对评分矩阵分别基于用户维度和项目维度进行降噪自动编码,从而实现评分数据的重构.论文在Jester Joke dataset 和MovieLens-1M数据集上进行了验证,实验结果表明,文献所设计的U-autorec、V-autorec均优于SVD和ALS-WR等常见信息推荐模型.
文献[32]解决的是图像标签推荐问题,首先将图像和其上下文信息分别经卷积神经网络和ContextNet神经网络进行特征提取,随后将两种高层特征进行级联,并通过叠加预测层,将标签推荐转化为多标签预测问题.
文献[33]首先使用了卷积神经网络对Twiter中的对话文本信息进行建模,随后在CNN上层增加LSTM建立对话时序关系,最后通过顶层叠加Sotfmax单元层进行预测,完成Twiter中的语录推荐.
文献[34]设计了深度协同过滤(Deep Collaborative Filtering,DCF)模型,首先将用户和项目的边缘信息进行降噪自动编码,随后建立用户和项目边缘信息编码与MF中用户隐因子与项目隐因子的映射关系,最后修改MF的训练目标为最小化评价数值重构误差和DAE数据重构误差之和.
文献[35]直接使用了DBN作为信息推荐模型,论文针对用户品牌推荐,将用户年龄、价格区间,品牌材质、设计、缝纫方式等作为DBN的输入数据,通过多层Relu神经元映射至softmax单元层对评分数值进行回归;最后DBN的实验结果远高于以往机器学习方法.
文献[36]介绍了youtube使用的深度神经网络推荐系统,该系统的网络共分为两层,分别为候选网络与评分网络,其中候选网络主要功能是提供与用户浏览历史和喜好相关的视频集,评分网络主要进行候选集各视频的用户精准匹配评分.候选网络将用户的观看历史、搜索历史以及性别等信息作为输入,中间层使用ReLU激活,通过4层网络将视频和用户信息映射至隐单元空间中,采用最近邻方法提供粗略的推荐列表;评分网络使用视频ID、视频语言、用户语言、视频观看时间以及用户评价等信息作为输入,中间层使用ReLU激活,最后使用exp函数作为评分函数,完成视频排序.
文献[37]提出了一种基于深度神经网络的酒店预订推荐系统,通过对用户档案中的图像使用CNN进行特征提取,生成图像高层语义.该系统使用图像语义特征的余弦相似度作为酒店间差异度量,向用户推荐满足要求的酒店.
文献[38]提出了一种基于社交网络的深度学习特征用于图像推荐.论文首先根据用户与图像的喜好关系构建用户-图像Huffman关系树,随后通过CNN提取图像特征作为Huffman树图像节点向量,依据Modularity定义图像与用户之间层次化softmax激活概率,并设定最大化社区关系的训练目标,最终通过CNN参数调节和Huffman关系树权重修改,学习用户和图像统一形式的特征,以此向用户推荐图像.
文献[39]设计了一种深度语义结构模型(Deep Structured Semantic Models,DSSM)用于实现基于内容的信息推荐.模型首先对用户浏览、搜索等操作记录和项目标题、内容、属性等附属信息分别使用深度神经网络特征提取至同一隐空间中,其中顶层单元使用tanh函数;随后根据用户与项目特征间的余弦相似度和顶层增加的softmax单元层对评分进行回归,此外该论文还通过实验验证了通过增加神经网络结构将其他视角的信息进行映射融合的可行性.
3.3 深度学习应用对比
表1 不同深度学习应用优势对比Table 1 Comparison of different deep learning application advantages
综上,对3.1深度学习与传统信息推荐算法结合(表1中为方式1)与3.2采用多层神经网络对评分的回归预测(表1中为方式2)的两种深度学习进行比较,如表1、表2以及表3所示.
表2 不同深度学习应用缺陷对比Table 2 Comparison of different deep learning application disadvantages
表3 不同深度学习应用适用场景Table 3 Scenarios if different deep learning application
从表1中可以看出,深度学习对信息推荐的应用,主要利用深度学习提取图像、文本等非结构化信息特征以及抽象、简化特征的能力.因此使用深度学习构建信息推荐系统至少满足具备以下两个条件:
1)能够获得项目或用户较为丰富的边信息,例如项目的文本介绍、图像模型以及用户社会标签等可以构建高层抽象特征的信息;
2)用户以及项目之间难以构建线性映射关系,可通过多层神经网络构建足够容量的非线性映射模型完成两类信息的耦合.
4 深度学习方法在信息推荐领域未来研究方向
深度学习与信息推荐算法的结合,提高了信息推荐的准确性,特别是多层神经网络的引入,避免了特征的人为筛选,使得推荐系统更加自主智能.
但是目前深度学习方法与信息推荐问题矛盾之处在于,深度神经网络模型的训练多是基于最大化数据似然概率,这与个性化信息推荐的目标存在差异,即很难从不相关的信息中筛选出用户的感兴趣的信息,导致推荐的多样性不足.因此,未来深度学习方法在信息推荐领域的应用,应当从以下3个角度进行改进完善.
1)新的结合方式与耦合机制
深度学习方法与传统信息推荐算法的结合,主要是综合了其特征学习能力.但目前对于深度学习与信息推荐模型的结合层次尚欠,多是对已有模型训练目标的改进,没有深入探究深度神经网络高层特征与模型隐因子之间的关联机制.
未来可以尝试建立深度学习方法与协同过滤模型的宽松适度的结合机制,通过构建跨类别的知识迁移机制[40]和结合模型泛化误差[41]等方法,增强深度模型对冷启动项目的特征学习,既保持深度神经网络对特征的自主抽象,又可在传统信息推荐模型的指导下进行用户-项目相关特征的学习.
2) 新的理论突破与学习机理
深度学习方法普遍存在的问题是特征学习机理与网络设计规则难以明确,表现在网络设计者往往需要大量时间进行神经网络层数设置和单元类型选择.
未来可以尝试通过借助其他人工智能方法帮助神经网络设计,例如文献[42]研究了基于遗传算法的深度神经网络优化方法;也可参考文献[43]建立知识蒸馏框架将领域知识作为一阶信息融入到深度网络中,从而形成对深度网络训练过程中的监督指导.
3)新的优化措施与网络结构
深度学习方法在实际问题中难以应用的主要原因有两个方面,一是模型训练效率;二是深度神经网络特征同质化.这对深度学习在信息推荐领域的应用带来两个问题,一是模型训练往往耗费大量时间,既有参数精调难度大,也有训练方法收敛慢、易波动的情况;二是随着神经网络层数的增加,易出现训练数据的过拟合,在评价数据稀疏的现状下将导致推荐多样性丧失.
未来可以尝试更多的深度学习方法,例如文献[44]提出的对抗生成神经网络(Generative Adversarial Network, GAN),以及自适应动量估计(Adaptive Moment Estimation,Adam)[45]等神经网络优化方法;此外,使用负样本对神经网络训练加速已有成效,可以引入针对正负样本差异的正则化系数来增强深度神经网络训练[46,47].
5 结束语
本文介绍了现阶段深度学习在信息推荐领域应用的主要思想以及面临的主要问题.总结了深度学习在本领域两大应用趋势,即与传统信息推荐算法结合和构建多层神经网络回归预测,并对比分析了多种背景下的基于深度学习的信息推荐解决方案.最后针对深度学习方法在信息推荐领域未来研究方向提出了三个想法和思路,即需要从结合方式与耦合机制、理论突破与学习机理以及优化措施与网络结构上进一步改善深度学习应用途径.
本文对深度学习在协同过滤领域应用的相关研究进行了系统归纳,这对于理清深度学习应用研究脉络,为后续研究提供参考,推进我国个性化信息服务的发展具有一定意义.