融合评论主题信息的可解释推荐
2018-04-02侯雲峰
侯雲峰
(四川大学计算机学院,成都 610065)
0 引言
可解释推荐[1]是近年来推荐系统领域的一个热点研究方向,它旨在向用户推荐物品的同时,对推荐结果做出一定的解释。可解释推荐能提升推荐的用户体验,增加推荐的透明度和用户可信度。随着互联网的发展,尤其是电子商务的日益蓬勃,用户对物品的评论不断增加,这些评论数据反映了用户对物品潜在的偏好,因此利用用户评论数据为推荐做出解释是现有很多可解释推荐工作的研究兴趣点之一[2]。
现有的可解释推荐工作面临一个问题:推荐结果缺乏定量的解释,即不能定量地去评估用户在物品某一方面的喜好,这使得推荐的说服力会有所欠缺。例如,对同一部电影,虽然用户A和用户B都评了4分(用户评分上限为5分),但是用户A更看重电影的故事情节,用户B更看重电影的阵容,即不同用户对电影在不同主题上的兴趣是不一样的;又比如两部电影a和b,它们的平均打分都是4.5分,但是电影a的阵容更具吸引力,电影b的3d效果更加夺目,即两部电影在不同主题上拥有不同的优势。现有的方法并不能评估这种细粒度的差异。
为了解决这一问题,本文提出一种称之为基于主题的矩阵分解模型(Topic-based Matrix Factorization,TMF),用于定量评估用户在特定主题上的偏好程度,以及物品在某个主题上的情感倾向,并利用这些评估信息用于物品的推荐。首先,我们设计两套评估标准分别评估用户对某个主题的偏好以及物品在某个主题上的情感倾向。然后,我们将用户偏好信息和物品情感倾向信息融入到矩阵分解模型中,用于提升商品推荐的准确率。
本文研究了可解释推荐中推荐结果不能定量解释这一问题,并提出了两套评估标准分别用于评估用户在主题上的偏好和物品在主题上的情感倾向,评估的结果用于推荐结果的定量解释。同时,我们提出了一种模型TMF,用于融合这些评估信息以提升推荐结果的准确率。
1 模型
为了对用户评论数据中的主题信息进行定量评估,首先,我们需要从用户评论数据中提取出主题。这里的主题是指物品在某一方面的特征,它是对物品更细粒度的刻画,比如电影的阵容、特效、故事情节、背景音乐……为了提取主题,我们使用潜在狄利克雷分布(LDA)[3]对评论文本中蕴含的主题和其相关词进行提取。同时,我们分别从用户和物品的角度,对用户和物品在主题上的相关词信息进行采集,即对用户和物品在各个主题上的相关词频率进行统计。然后,我们提出两种评估方法,分别对用户在特定主题上的偏好以及物品在特定主题上的情感倾向进行定量评估。我们定义用户在特定主题上的偏好评估公式为:
其中,m代表用户,t代表主题,ctm是用户m所有评论中对主题t提到的次数,cm是用户m的评论总数,A是数据集的最高评分数,一般数据集的最高评分为5分。该公式衡量了用户对特定主题的偏好程度。我们定义物品在特定主题上的情感倾向评估公式为:
通过以上两个公式,我们可以计算出用户对各个主题的偏好程度以及物品在各个主题上的情感倾向。由此,我们以上两个公式分别建立一个用户-主题偏好矩阵P和物品-主题情感矩阵Q。
由矩阵分解[4]和两个偏好矩阵P、Q,我们定义一个新的模型,即主题矩阵分解TMF的目标函数为:
其中,R是评分矩阵,U和V分别是用户和物品的潜因子矩阵,S和W是引入的因子矩阵。对于上式,我们使用梯度下降法求解,求解算法如下:
输入:打分矩阵R,用户-主题偏好矩阵P和物品-主题偏好矩阵Q。
初始化矩阵U和V以及S和W的值,每一个元素取0~1之间的随机数;
计算目标函数的初始值J0;
梯度下降,更新U、V、S、W的值;
2 实验
我们使用了亚马逊数据集验证我们的模型TMF的推荐性能,以RMSE(Root Mean Square Error)和MAE(Mean Absolute Error)为评估指标,选取了 PMF、NMF、HFT、LDAMF等四个常见的推荐算法作为对比方法,实验结果如下:
图1
从图中可以看出,我们的方法TMF在推荐性能上明显优于其他四种对比方法,原因是TMF融合了评论信息,因此比没有融合评论信息的PMF和NMF效果好;同时,TMF能定量分析用户和物品在主题层次上的差异,这对于提升推荐性能有所帮助,因此比HFT和LDAMF更好。
另外,我们分别分析了主题数L和潜因子数K对推荐性能的影响,分析结果如下:
图2
可以看出,当主题数L为5的时候,推荐性能最好。
图3
由图可知,当潜因子数K为35的时候,推荐性能最佳。
我们也通过实验分析了对同一物品打分相同的两个用户在主题偏好上的差异:
图4
图中,横坐标是主题,纵坐标是用户的主题偏好度。从图中我们可以看出,虽然两个用户对该物品赋予了相同的评分,但是他们在“音乐”和“操纵感”两个主题上的偏好差异较大。因此,证明我们的TMF模型可以成功抓住主题层次上的偏好差异,对推荐结果做出定量的解释。
3 结语
本文研究了可解释推荐中推荐解释定量评估的问题,并提出了模型主题矩阵分解(TMF)。TMF能够定量评估用户在特定主题上的偏好,以及物品在特定主题上的情感倾向,因此TMF可以定量为用户解释推荐特定物品的原因。同时,TMF通过融入用户在主题上的偏好信息以及物品在主题上的情感倾向信息,能有效提升推荐的性能。我们通过了一系列实验来证明TMF模型的有效性。
参考文献:
[1]王春才,邢晖,李英韬.推荐系统的推荐解释研究[J].现代计算机(专业版),2016(02):41-43+80.
[2]王伟,王洪伟,孟园.协同过滤推荐算法研究:考虑在线评论情感倾向[J].系统工程理论与实践,2014,34(12):3238-3249.
[3]荀静,刘培玉,杨玉珍,张艳辉.基于潜在狄利克雷分布模型的多文档情感摘要[J].计算机应用,2014,34(06):1636-1640.
[4]李英明.矩阵分解在数据挖掘中的应用[D].浙江大学,2014.