基于偏好融合的群组推荐方法研究综述
2020-12-09许晓明梅红岩李晓会
许晓明,梅红岩,于 恒,李晓会
(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)
1 引 言
推荐系统满足了用户从海量数据中获取有效信息的需求,随着大数据时代的到来,推荐系统的应用领域也越来越广,处理的数据量也逐渐呈指数级增长[1].传统的个性化推荐的提出是为了满足个体用户的需求,实际上很多活动都是以群体进行,例如旅游、聚餐、团购等.上世纪70年代开始,逐渐有学者开始研究针对群体成员的推荐,即群组推荐.群组推荐既满足用户个性需求,也符合群居生活的特殊要求以满足群组的共性需求.随着群体的不断丰富,群组推荐成为解决推荐问题的一种重要手段引起了许多专家学者的广泛关注,如何对群组用户进行推荐也成为了推荐领域的一个热点问题.同时,群组推荐的应用领域越来越广,例如音视频推荐、旅游线路规划、聚餐、Web浏览、购物、学习等领域[2-7].
由于群组推荐与个性化推荐针对的推荐对象存在明显差异,由个体用户变为群体用户,需要考虑群体内所有成员对于预推荐项目的喜好程度.只有预推荐项目满足群组内成员的偏好要求,并对群组成员之间的偏好冲突进行缓解,才能使得预推荐项目符合群组的所有成员的满意度要求.同时,群组推荐中群组成员与项目之间的交互数据非常稀疏,很多情况下不能直接利用群组的历史交互进行建模,因此要通过聚合群组中成员的偏好对群组偏好进行建模.故而群体偏好融合成为群组推荐的关键步骤[8].
偏好融合[1]是指利用一组成员的每个成员偏好进行建模,选择并融合成为群组偏好的过程,可以在群组推荐的不同阶段进行.对偏好融合策略和方法的不同选择,可以形成不同的群组推荐系统,得到不同的推荐效果.为了满足群组成员的总体满意度和推荐公平性,在具体实验中,如何选择最合适的融合策略和融合方法,仍是群组推荐领域研究的热点问题之一[9].
目前国内外对于群组推荐偏好融合中的相关问题等进行了较为深入的研究.国外主要包括引入情境和会话信息的偏好融合改进[10],对成员的影响力挖掘[11],考虑偏好的动态交互性[12-14]等;国内主要从成员交互角度出发对偏好融合的策略进行改进[15],或对引入注意力机制进行创新[16],当前存在的诸多研究中多考虑到成员之间的特性和个性化问题,重点放在满意度要求上,而在融合偏好过程中对时空因素考虑相对较少.本文基于当前国内外偏好融合的群组推荐方法的研究现状,首先对群组推荐的基本定义及步骤进行了简要介绍.重点介绍了偏好融合的基本策略和方法,及基于偏好融合的群组推荐方法的研究现状.总结了群组推荐方法的常用评价指标,和现有群组推荐方法使用的相关数据集,并通过实验重点分析比较了不同偏好融合对推荐结果的影响及偏好融合、推荐特征、推荐预测方法之间的关系.最后对基于偏好融合的群组推荐方法未来的研究方向进行归纳.
2 群组推荐概述
2.1 群组推荐定义
群组推荐[1]是指通过将用户的个人推荐聚合为整个群组的推荐,或者根据用户的个人偏好模型建模群组偏好来生成推荐列表的一种基于群体用户的推荐方法.至今群组推荐还未形成统一的定义,一般多采用文献[17,18]利用共识分数给出群组推荐的形式化定义,如式(1)所示:
F(G,i)=w1×groupprerating(G,i)+w2×(1-dis(G,i))
(1)
式(1)中,groupprerating(G,i)为群组对项目i的群组预测评分,表明该群组整体对预推荐项目整体上的喜好程度;dis(G,i)为群组成员之间对项目i评分的分歧度,表明成员之间的偏好冲突程度;且w1+w2=1.群组推荐的最终目的使共识函数最大化,当群组的预测评分足够高时,群组的分歧度足够小,表明推荐的项目也就更符合群组成员的偏好要求.但该形式化定义无法适用于所有的群组推荐方法,因此,群组推荐的定义依旧是一个开放性问题[1,8,9].
2.2 群组推荐步骤
群组推荐主要由群组发现、偏好融合、预测推荐3部分组成,步骤如图1所示.国内外学者对于群组推荐方法的改进和创新通常围绕着群组推荐的3个步骤进行,如何在生成相似度更高的群组,如何更好地解决群组成员间的偏好冲突,如何提高推荐结果的准确率和多样性,成为群组推荐研究领域的重点问题[1,8,9].
图1 群组推荐步骤图
Fig.1 Group recommendation steps
2.2.1 群组发现
群组发现[19]是指将用户分为具有相似偏好的用户小组,是群组推荐的关键前提步骤,其群组划分结果将直接影响后续偏好融合和预测推荐步骤的效用[1,8,9].群组推荐的精确度由群组成员的内在相似度直接决定,当群组成员的内在相似度高于一定值时,群组推荐结果的精度能够与个性化推荐结果的精度持平甚至超出[1,19].目前群组发现需要考虑的因素越来越多,从传统的组大小、组内凝聚力、关联强度等逐渐向数据集属性和相应应用场景上偏移,主要方式有随机分组、相似度计算、聚类3种[8].
2.2.2 偏好融合
偏好融合[20]是指利用偏好融合策略在推荐前建模群组成员的共同兴趣偏好,或在推荐后建模群组成员的共同推荐偏好.它可以简单分为独立的两个方面:1)偏好融合策略.有时也被称为“融合策略”[20],需要同时考虑成员的总体满意度以及公平性问题等等;2)偏好融合方法.可以将偏好融合方法根据其发生的阶段以及融合的内容,分成两类,分别是模型融合方法[20]和推荐融合方法[21].
2.2.3 预测推荐
预测推荐[1,8]是指对项目预测评分并进行推荐.群组推荐的经典预测推荐方法是由传统的个人推荐方法演变而来,随着技术的进步与发展,越来越多的新兴技术被用于群组推荐过程中,目前比较有代表性的几种推荐技术的偏好融合特点及存在问题如表1所示.
表1 群组推荐技术对比Table 1 Comparison of group recommendation technology
在使用预测推荐技术时,要根据所使用的技术,对偏好融合部分使用的策略和方法进行选择和调整.例如,通常情况下,基于深度学习的群组推荐由于其技术的特殊性多使用推荐融合方法;而基于信任及可信度的群组推荐由于在群组发现时已经考虑到成员偏好多使用模型融合方法和经典的偏好融合策略.
3 基于偏好融合的群组推荐方法
3.1 偏好融合概述
群组偏好的概念,是由Dyer等人[20]在上个世纪70年代研究群组的决策性问题时最初提出.群组偏好是由所有群组用户的个人偏好融合出来并能够代表群组决策意见的群组整体偏好[1].在群组推荐中,偏好融合是指将群组内群组成员的个人偏好整合为群组偏好的过程,它由两部分组成,分别是偏好融合策略和偏好融合方法.偏好融合策略是指在对群组成员偏好进行提取过程中所使用的规则,偏好融合方法是指在群组推荐过程中进行偏好融合的建模方法,偏好融合方法划分为模型融合[20]和推荐融合[21].在基于偏好融合的群组推荐过程中,偏好融合策略可以在不同的偏好融合方法上使用,两者相对独立.两者的不同组合可以形成不同的推荐系统[1,8],达到不同的推荐效果.
3.2 基于改进偏好融合策略的群组推荐方法
文献[8,9,21,22]分析了各种融合策略的优劣,本文根据文献[8]给出的偏好融合策略的分类,将基于改进偏好融合策略的群组推荐方法分为以下3类:
·基于单一融合策略的群组推荐方法
单一融合策略是指最基本的相对单一的偏好提取规则.常见的单一融合策略包括加法策略[21]、均值策略[23]、最开心策略[21]、最受尊敬者策略[21]、平均避免痛苦[31]、最小痛苦[24]等.
在使用单一融合策略的群组推荐方法中,通常根据数据集和融合要求,选用不同的单一融合策略.文献[25]采取均值策略融合群组偏好向量,并与服务特征向量共同生成群组对服务的评分.然而,单一融合策略对整体偏好的把握性较差,较少考虑负面偏好的影响,例如均值策略产生的推荐结果可能会使个别成员不满,即出现所谓的“痛苦”问题[20].
·基于混合融合策略的群组推荐方法
混合融合策略也被称作组合策略,是指在群组推荐中,组合两种或两种以上单一融合策略形成新的提取规则来进行群组偏好的提取.群组推荐通过组合多种融合策略来解决单一融合策略存在的问题[8,21,22].
TDF[26]的偏好融合过程利用中值策略能够对恶意评分和篡改信息有效规避这一优点,结合均值策略,进行偏好融合.文献[27]在利用多层感知器获得用户和项目之间潜在特征向量的非线性相互作用后,基于个人推荐分数提出了基于纳什均衡的混合融合策略,以确保群体用户的平均满意度.文献[28]通过外部社会信任网络调整最终的小组偏好等并选取合适的单一融合策略.文献[29]提出混合比例和无嫉妒的公平汇总策略来生成最公平的群体推荐列表.文献[30]提出了一种混合策略,通过融合群组中所有成员的推荐评分形成对该群组的整体评分.
·基于加权融合策略的群组推荐方法
加权融合策略又称作加权模型[20],是指通过对成员影响力的计算为群组成员的决策性分配权值后,再进行偏好的聚合提取,可以根据是否存在交互行为将加权融合策略分为静态模型和交互模型.加权融合模型考虑群组成员对群组偏好的影响因素有很多,例特征、角色、信任层次等,也可以根据特定的数据要求进行计算,故而其灵活性较高.加权模型为每个群组成员分配不同的权重[31,32],在计算群体偏好时更加准确.
3.2.1 静态模型
静态模型中的群组成员权重通常是通过计算后预先定义的权重值.文献[31]从利他行为与容忍度两个角度切入,为子组分配权重,以减少群组偏好属性特征.文献[32]通过综合计分项目比例因子(CIPF)使用改进的相似度公式,以获得个人预测评分;通过引入项目类型比例因子来计算组类型偏好和用户类型偏好之间的类型相似度,来改进偏好融合策略.文献[33]项目特征属性均值相似性权重和特征属性频度权重两个方面来得到群体偏好模型.
3.2.2 交互模型
交互模型根据用户与项目的交互行为来分配权重.文献[34]通过用户-项目交互的建模,从数据中学习聚合策略来解决偏好聚合问题.文献[35]通过对组项交互数据和用户项交互数据进行交互学习,并基于社会影响的群体表征学习,来根据成员偏好学习群组偏好.文献[36]将预测的评分分为自我预测和偏好交互两部分,通过历史组活动信息和推荐后评分反馈机制生成个性化交互参数.文献[37]采用神经注意力机制来描述每个组及其成员之间的偏好交互,结合组和项目特征以准确地学习项目上的组偏好权重.文献[38]考虑朋友关系及用户相似性,提取出用户的社交权重和活动权重,形成新的群组用户偏好模型.文献[39]建立用户之间交互的全局信任估计模型,以计算用户对于最终群组决策的影响力.除此之外考虑成员交互的加权偏好融合策略[40,41]也成为交互模型的研究热点.
3.3 基于改进偏好融合方法的群组推荐方法
文献[1,8,21]对融合方法进行了总结,将目前常用的偏好融合方法可分为以下3类:对个人用户推荐结果按分组进行合并,对个人用户的预测评分按分组进行融合以及在预测推荐前建立群组偏好模型.其中,由于推荐结果融合和评分融合都是在完成每个用户的预测推荐之后进行融合,所以在文献[1,8,9]中推荐结果融合和评分融合被统称为推荐融合;模型融合[20]则是先把群组成员的偏好模型融合生成群组偏好模型,再根据群组偏好进行预测推荐.模型融合与推荐融合的过程对比如图2所示.
图2 模型融合与推荐融合过程对比图Fig.2 Comparison of model fusion and recommendation fusion process
3.3.1 模型融合
模型融合在预测推荐之前进行,它对输入的每个成员偏好进行汇总,得到最终的群组偏好模型并进行输出.在建模时,可以综合考虑多个维度,例如个人属性、关系属性等,对数据集提供的用户显式反馈信息、项目特征等信息进行挖掘,全面考察小组内的偏好关系[8].文献[42]放弃传统的定量权重,选取偏好主观融合的方式,对模型融合进行改进.文献[43]结合了两种融合方法的优点并根据实验得出了“群组偏好与个人偏好具有相似性”的结论.文献[44]研究面对未知情况用户偏好的不确定性,研究个人或集体偏好的定性及不确定性表达.文献[45]研究具有区间值模糊偏好关系的推荐方法,利用集体优先级计算偏好融合出现的时机.
3.3.2 推荐融合
推荐融合方法的偏好融合过程发生在对于个体用户的预测推荐之后,它的结果通常为群组预测评分或群组推荐列表[8,20].根据融合的内容差异,推荐融合方法可分为评分融合[21]和排序融合[22].
评分融合方法首先利用传统个性化推荐方法对群组内每个成员对于候选项目的预测评分进行计算,后根据群组生成的结果将得到的预测评分分成不同小组并分别进行融合,从而得到各个群组整体的对候选项目的预测评分.文献[46]融合均值策略和最小辛苦策略,提出了修正满意平衡策略进行评分融合.文献[47]结合评论、类别和地理位置,为不同的组别进行推荐.
排序融合方法首先利用传统的个性化推荐算法为群组内每个成员进行推荐,将生成的推荐结果列表进行融合,得到群组的整体推荐结果列表[12].文献[48]结合时间因子对数据进行聚类,融合成员推荐列表得到最终的群组推荐结果.
4 群组推荐评价指标
效用评价对于检验群组推荐的性能和发现其存在的问题来说十分重要,是群组中无法忽视的环节[1,8].群组推荐的评价指标有以下几类:
·准确度
准确度,又称“精度”,在推荐系统中,指推荐结果与所有预推荐项目之间的比率,多用来衡量用户对于其推荐项目列表的兴趣程度,是推荐结果的最重要的评价方面.群组推荐的准确度评价用到的评价指标有许多,主要用到的指标有RMSE,MAP,F1,Recall,Precision,AUC,nDCG[8,49]等.根据文献[50]对推荐系统准确度的分类,将以上准确度指标分为评分准确度、分类准确度、排序准确度3种,各准确度评价指标的类别和作用见表2.
在群组推荐的准确度评估上,可以根据群组推荐对结果的不同要求,使用不用的准确度指标.通常在传统推荐系统中,只考虑准确度要求,多使用Precision来计算推荐结果的准确度,同时结合召回率,利用两者之间的负相关性评价群组推荐的准确性;而对于推荐排序要求严格的群组推荐而言,推荐结果的排序更能影响推荐系统的性能,故而多使用nDCG作为准确度评价指标.
Precision描述用户对系统推荐商品感兴趣的概率,其计算公式见式(2):
(2)
其中R(u)是在训练集上根据用户行为对用户推荐的推荐列表,T(u)是在测试集上的行为列表,Precision定义为预测得到的相关项目数与用户喜爱的项目总数的比率,用于描述推荐列表中有多少项目是准确的.
表2 各种准确度评价指标的类别和作用Table 2 Types and functions of various accuracy evaluation indexes
nDCG评价在Top-k推荐列表的排序准确率,其计算公式如式(3)和式(4)所示:
(3)
(4)
式(3)中,i表示项目编号,p1表示第l个项目的评分列表,u表示用户,利用k值来调整推荐结果的数量.由于搜索结果随着检索词的不同,返回的数量是存在差异的,DCG作为一个累加值,对两个不同的搜索结果比较时存在局限性,因此需要利用式(4)对DCG进行归一化处理,IDCG为理想情况下DCG的最大值.
nDCG的值域为[0,1],但通常不会计算得到0和1的值,当nDCG处于0-1之间时,值越大代表准确率越高.
·多样性
群组推荐的多样性是指群组推荐结果列表中项目与项目之间的相似程度,推荐项目之间的相似度越低,推荐结果的多样性就越好.虽然群组推荐的准确性十分重要,但是如果用户看见推荐的项目都十分相似,用户便会产生一定的厌烦情绪,从而影响群组对群组推荐的满意程度.因此,评估群组推荐的多样性也是极为必要的.推荐系统通常使用Jaccard相似度系数[6]来计算两个项目之间的类型相似度,群组推荐多通过计算整个推荐列表的类型相似度来评价推荐结果的多样性.
Jaccard相似性系数利用集合的交集与集合的并集之比来对两个集合的相似度进行计算.给定集合A和集合B,Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:
当集合A,B都为空时,J(A,B)定义为1.
Jaccard 距离用于描述集合之间的相异程度.Jaccard 距离越小,证明样本之间的差异程度越小,样本相似度越高,公式如式(5)所示.
(5)
由于Jaccard相似系数的定义,列表内的平均相似度分布在0到1之间,平均相似度越接近1,列表内项目间的相异程度越高,即推荐列表多样性越好.
·覆盖率
覆盖率是指群组推荐能够进行推荐的项目范围[8].群组推荐评价覆盖范围的通常方式是计算每个群组的推荐结果列表的目录覆盖率.由于群组推荐结果的覆盖率往往会影响群组推荐结果的准确率.因此,在评估群组推荐结果的覆盖率时必须考虑和结果准确率之间的影响关系[6].
目录覆盖率是通过将总体中每个用户的前n个建议的总和来衡量的.如果将用户划分为多个组,并且计算组建议而不是单个建议,那么我们将根据每个组的前n个建议的组合来度量目录覆盖率.随后,将此集合的基数(即此联合中的项数)除以系统目录中的项数,以获得目录覆盖率.
·其他指标
除了准确率、多样性、覆盖率外,常用的群组推荐评价指标还有用户满意度和惊喜度.用户满意度是指用户对于推荐结果列表的满意程度,是群组效用评价的重要指标之一[8].文献[51]通过用户调查问卷方式进行评价,与个性化推荐相比,群组推荐涉及到的调查人员更多,耗费的精力也更多.惊喜度是指用户对于推荐列表中项目的惊喜程度,是一种新兴的评价指标,目前还没有明确的公认的计算方法[1,8].
5 数据集
由于群组推荐需要的数据集中必须包含分组信息,但很少有自带分组信息的数据集,所以相比较于传统的个性化推荐方法,获取群组推荐相关的数据集更加困难.目前国内外普遍采用的方法是使用传统个性化推荐方法的数据集,根据算法要求或数据集属性,从数据集中发现群组[21].
传统推荐方法中常用的数据集有MovieLens、BookCrossing、Jester Joke、Netflix等.
1)MovieLens
MovieLens[19]是经典的电影评分数据集,该数据集存放了用户对自己观看过的电影的评分,为5分制评价表.根据算法的适用规模,可以选用两个不同大小的数据集.小规模的数据集存在1万个评分数据,包括1682部电影的评分,由近1000个独立用户给出.大规模的数据集存在约100万个评分数据,包括3900部电影的评分,评分用户高达6000个.
2)BookCrossing
BookCrossing数据集是基于Book-Crossing图书社区的对于书籍评分的数据集,他的用户以匿名形式进行评分,评分数据分为显式和隐式两种,约有超27万个匿名用户对近30万本图书进行评分.
3)Jester Joke
Jester Joke数据集由加州大学伯克利分校的Ken Goldberg公布,该数据集包含410万个评分,评分项目固定为100个笑话,用户数超7万个,评分区间在(-10,10)内任意连续实数.
4)Netflix
Netflix数据集同样也是常用的公开的电影评分数据集,它包含约10亿个评分,集合了约48万个匿名用户对超1万电影的匿名评价,来自于电影租赁网站Netflix.
6 基于偏好融合策略的群组推荐方法实验与分析
实验选取3种不同的偏好融合策略在两种不同的推荐方法上进行实验,并且设定不同的群组规模,探究偏好融合策略、推荐方法、群组规模对结果的影响,以及3者之间的关系.实验从准确率、多样性、覆盖率方面对基于偏好融合策略的群组推荐方法进行对比分析.实验表明,群组推荐结果的优劣与群组规模、偏好融合策略、推荐预测方法的选取密切相关;在偏好融合过程中选择偏好融合策略和方法时需要考虑群组规模的大小和推荐方法的特性.
6.1 实验数据
本文实验使用MovieLens(100k)数据集离线评估不同的推荐策略.该数据集包含了1682部受欢迎的、长片长度的、专业制作的电影的信息,包括在943名用户的5分制评分表上的10万个评价.
6.2 性能评价与分析
针对偏好融合策略目前的发展趋势,分别选取均值策略、文献[31]提出的加权偏好融合策略、文献[26]提出的混合策略,进行对比试验.分别使用协同过滤和混合推荐作为预测推荐方法,相似度计算作为群组发现方法,实验对比偏好融合策略与推荐方法、群组规模的关系,及他们对推荐结果的影响.
在混合推荐、协同过滤下3种偏好融合策略精度对比结果如图3和图4所示.
图3 不同偏好融合策略混合推荐的准确性Fig.3 Accuracy of hybrid recommendation based on different preference fusion strategies
在混合推荐、协同过滤下3种偏好融合策略推荐结果覆盖率对比结果如图5和图6所示.
3种策略不同推荐方法下结果多样性的对比结果如表3所示.
图4 不同偏好融合策略协同过滤推荐的准确性Fig.4 Accuracy of collaborative filtering recommendation based on different preference fusion strategies
图5 不同组规模混合推荐结果覆盖率Fig.5 Coverage of mixed recommendation results in different groups
图6 不同组规模协同过滤推荐结果覆盖率Fig.6 Coverage of collaborative filtering recommendation results with different group sizes
对比图3和图4可以看出,在群组规模较小的情况下3种方法准确率差异在0.02以内.随着组规模的增加,推荐结果的准确性在逐步下降.混合策略及加权策略相对于单一策略具有更好的准确率,且在群组规模增大时也具有良好的稳定性.这是由于选取的3种策略在进行偏好融合时,均值策略会引起痛苦问题,混合策略在此基础上将两端部分的值进行了一定省略,而加权策略虽然减少群组偏好属性特征,但在群组一定群组规模下,对属性值的数量把握存在偏差.
由表3可以看出同种偏好融合策略在不同推荐方法上对结果多样性的影响较小,不同偏好策略在同种推荐方法上对结果多样性的影响较大.这证明推荐结果的多样性受偏好融合策略的影响相对于受推荐方法的影响要小一些.造成该结果的原因主要是由于推荐方法的计算方式和着重点的不同,对于不同类型项目的预测评分和排名也有所差异,导致推荐列表中项目的多样性差异大.
表3 各种策略不同推荐方法结果多样性的影响对比Table 3 Comparison of the effects of different strategies and different recommendation methods on the diversity of results
对比分析图5和图6,可以看到3种策略推荐结果的覆盖率总体上随着组规模的增加逐步降低,当群组规模增大时,与均值策略对比,混合策略和加权策略的下降趋势逐渐平稳.说明推荐结果的覆盖率既受到偏好融合策略的影响,也受到群组规模的影响.在实际应用中,需要对群组规模进行把控,即群组发现过程需要更加准确,对组内相似度要求要更加严格.
实验表明,不存在全局最优的偏好融合策略,只存在相对于推荐方法和群组规模的最优的偏好融合策略[1,8,9].
就目前的对比试验可以发现:
1)单一偏好融合策略并不能够满足现阶段推荐结果对准确率、多样性、覆盖率的要求,而混合策略和加权策略在特定数据集和推荐方法上给出的推荐结果要更优秀.均值策略将所有成员的评分值作为群组评分,但均值策略的推荐结果容易出现“痛苦问题”.故而在实验过程中,均值策略相比较使用的混合策略和加权策略,各评价指标表现欠佳.所使用的混合策略混合了中值策略和均值策略,依旧没有解决痛苦问题.
2)混合策略和加权策略往往对数据集的属性和推荐方法的计算方式有特定要求.所使用的混合策略能够缓解由恶意评分和篡改信息所带来的对结果的不良影响,但对数据集评分的稀疏程度有所要求;加权模型减少群组偏好属性特征,对原数据集的用户偏好属性的数量有所要求的.当用户评分数据或交互数据较稀疏时,这两种策略都无法很好地融合群组偏好.
3)在偏好融合策略的选择上要考虑数据集本身的属性以及群组规模和推荐方法的选择.偏好融合策略是能够准确得到群组偏好从而准确地进行群组推荐的关键因素,也是群组推荐系统主要研究的方向之一.如何对现有融合策略进行针对性优化和根据不同群组的用户特征及应用背景选择融合策略,成为了群组推荐系统中的关键问题.
4)进行模型融合时,群组规模的大小需要进行着重讨论.实验证明,不管是准确度、多样性还是覆盖率,大多随着群组规模的不断增大而降低,证明群组推荐的推荐效果会随着群组规模的增大而变差.在选择群组规模时,既需要根据数据集属性和要求,还需要考虑最后的推荐效果.
7 基于偏好融合的群组推荐未来研究方向
偏好融合策略是能够准确得到群组偏好从而准确地进行群组推荐的关键因素,也是群组推荐系统主要研究的方向之一.如何对现有融合策略进行针对性优化和根据不同群组的用户特征及应用背景选择融合策略,成为了群组推荐系统中的关键问题.
随着新技术的成熟和科技的发展,偏好融合策略也应从单一策略向混合策略发展.基于偏好融合的群组推荐未来研究方向有:
·提高组内成员相似度,对融合策略进行混合或加权
首先利用群组发现的相关方法对组内成员相似度进行提高,降低数据对偏好融合的要求,同时对多种单一策略进行混合或加权,结合不同偏好融合方法,对偏好融合进行改进,例如文献[52]利用动态泊松分解得到量化用户动态倾向,采用高阶奇异值分解预测用户在不同时间节点下对不同项目的倾向性,计算用户倾向构建高相似度用户集合,对用户集合采用改进后的基于密度峰值的聚类算法进行划分,实现群组发现,来解决用户倾向具有时间迁移性和群组可重叠性问题,以提高群组用户相似度,优化群组推荐结果.
·结合多领域方法和新的技术
结合深度学习相关方法,引入其他影响因子,针对特定数据集的属性进行研究和改进.
例如文献[34]首次将注意力机制与二部图嵌入技术相结合,利用并整合用户的全局/局部社交网络结构信息,提出了一种新的深度社交影响学习框架来克服在预估用户社交影响时的数据稀疏性、避免过拟合,改善群组推荐效果.文献[53]在科研咨询领域,对检测快报实现精准推荐自动精确推荐.文献[19]基于多视图学习对用户相似度矩阵分配权重提出群组发现算法;文献[54]采用张量分解方法获取记录的隐形特征矩阵,利用马尔可夫聚类算法实现对记录的分类,根据分类结果发现用户群组,解决广播用户兴趣复合性问题,减小组内用户与群组整体在观看兴趣方面的平均绝对误差,提高组内成员的观看兴趣相似度.
·优化偏好融合策略和方法选择方案
在选择偏好融合策略和方法时,首先要考虑群组规模的大小,不同数据集和群组发现方法输出群组规模的结果不同,但对推荐结果覆盖率的趋势基本相同;其次需要考虑不同推荐方法上偏好融合策略对推荐结果精度的影响,最佳偏好融合策略和方法的选择与推荐算法直接相关;最后需要考虑推荐结果对多样化的要求,减少偏好融合对结果多样化的劣性影响.
以考虑群组规模和组内相似度为例,通常在要求群组规模较大且群组群组本身相似度较高时,可以选择最大满意度策略,其表现优于均值策略和最小痛苦策略[8];在要求群组规模较小且群组内在相似度较高时,均值策略和最大满意度策略的表现均优于最小痛苦策略;而对不要求较高相似度的群组,均值策略表现最佳.
·针对推荐结果多样性要求进行偏好融合策略或方法优化
在推荐结果的多样性要求上可以改进或优化推荐方法以达到目的.例如文献[55]融入情境信息挖掘群组行为特征,构建群组行为偏好特征向量,将每个群组看成一个个体,在推荐时,每个群组和其他群组对项目的历史评分进行协同,以提高推荐效果.文献[56]将群组推荐建模成多目标问题,将目标函数定义为群组用户的满意度和物品的流行度,并利用数据特征和计算特性设计适合多目标推荐问题的免疫算子,在预测推荐上引入免疫多目标算法,优化推荐方法;文献[57]对用户的搜索点击日志和浏览器的浏览日志进行统计,从文本相似度、语言模型相关度、潜在的语义关联关系三个方面充分分析用户兴趣方向之间的关联关系.
8 结束语
随着数据量的指数级增加,群体推荐被广泛应用于各个领域,并逐步成为推荐领域热门研究方向.与个性化推荐不同,群组推荐的推荐对象是分成不同小组的群组成员,符合当前人们群体性活动逐步增多的现状.随着对群组推荐的深入研究,对群组成员的偏好提取以及群组决策的公平性问题不断产生新的思考.如何更好地解决群组成员之间的偏好冲突,形成更准确更多样性的群组偏好,成为群组推荐的主要任务.本文主要根据近期各专家学者的研究成果对基于偏好融合的群组推荐展开研究与分析,并结合近期研究工作对群组推荐的评价指标和相关数据集进行总结归纳,分析比较了不同偏好融合对推荐结果的影响及偏好融合、推荐特征、推荐方法之间的关系,同时对基于偏好融合的群组推荐方法的发展进行展望.未来研究应该发现或改进偏好融合策略,结合多方法在不同群组甚至不同项目上动态分配权值,实现群组的动态推荐.