个性化推荐算法综述
2019-06-30陈豪王泽珺
陈豪 王泽珺
【摘 要】随着大数据时代的到来,数据已经不再是匮乏资源,如何利用数据成为各界人士的关注点。在各界学者的研究中,个性化推荐算法无疑是主要研究领域之一,而且个性化推荐已经广泛应用到新媒体、电商、游戏等领域。近年来使用频率较多的个性化推荐算法有协同过滤的推荐算法、基于图结构的推荐算法和基于社交网络的推荐算法等,文章对这3种个性化推荐算法做了综述,阐述了它们的原理及用法。
【关键词】个性化推荐;协同过滤;社交网络推荐
【中图分类号】TP391.3 【文献标识码】A 【文章编号】1674-0688(2019)02-0056-02
0 引言
随着信息技术的快速发展,“互联网+”、大数据时代的到来,消费者的每个行为甚至每个动作都能以数据的形式记录下来。数据不再是稀缺资源,如何利用好这些数据已经成为学者、商家们所关心的问题。特别是对于电商平台而言,数据资源的利用已成为重中之重,关系到商家的生存。在数据的利用中,通过数据找出消费者的兴趣爱好,并向其推荐可能感兴趣的物品,即个性化推荐技术已经成为商家的研究重点。
个性化推荐技术发展于20世纪90年代,现已经广泛应用于书籍、视频、电商、金融等领域。个性化推荐是一种技术方法,它可以向用户推荐用户可能感兴趣的物品。现在较为常用的个性化推荐有基于内存的协同过滤推荐、基于图结构的推荐和基于社交网络的推荐。
1 基于协同过滤的个性化推荐
基于内存的协同过滤又可以根据对象的不同分为基于用户的协同过滤和基于项目的协同过滤。其基本思想是计算用户间的相似度,按照相似度的高低进行排序,设定相似度阈值或设置最近邻用户阈值,选取出若干个用户,让这些用户评价过的产品形成候选集合,并对这些项目进行加权计算得分并排序,将评分最高的项目推荐给用户。如在一个系统中,用户A与用户B有相似的购买行为,那么就可以通过计算它们之间的相似度来说明用户A与用户B是相似用户。而用户A有过购买且用户B没有购买过的商品就可以被推荐给用户B。基于内存的推荐一般分为数据处理、相似度计算和产生推荐项目3个步骤。
1.1 数据处理
数据处理就是将数据变换成为用户-项目评分矩阵的过程。用户对项目的评分一般分为两种:一是分值制,即用户给项目打1~10分,分数越高表示对这个项目越满意,常见的5个等级的喜欢程度(非常喜欢、喜欢、一般、不喜欢、非常不喜欢)也属于分值制。二是0-1制打分,即用户与该项目有过交互行为记为1,否则记为0。数据经过处理后可得到一个m×n的用户-项目评分矩阵R,如式(1)所示。
1.2 相似度计算
相似度的计算是协同过滤算法的核心部分。主流的相似度计算方法有余弦相似度和皮尔逊相关系数法。相比于距离相似度的计算方法,余弦相似度更注重两个向量在方向上的差异,而非距离或长度。其计算公式如式(2)所示,式中Iuv表示用户u与用户间共同的评分项目。
皮尔逊相关系数法是用来衡量变量的线性关系,其不同于余弦相似度的地方在于它考虑了不同用户对项目评分的标准。每个用户打分的平均分是不同的,在计算相似度时,应该尽可能地减小这些误差。其计算公式如式(3)所示,式中Iuv代表两名用户共同评分项目的集合。
1.3 产生推荐项目
在计算好用户间的相似度后,就可以选取目标推荐用户的最近邻用户赋予权重,计算每个项目的得分并产生推荐。选取最近邻用户的方法一般有两种:第一种是按照相似度进行排序,选取k个相似度最高的用户作为最近邻的用户。第二种方法是设置一个阈值,相似度高于阈值的都选取为近邻用户。在选取好近邻用户后,便可将近邻用户有过交互的项目作为候选项目集合,通过赋予近邻用户权重,计算候选项目集合中每个项目的得分,并排序向目标用户推荐。
2 基于图结构的个性化推荐
图结构是网络结构中一种特殊的结构,仅包含两类图节点及这两类节点之间的连线,节点与线的集合构成了图。
假设存在一个无向图网络,用G={V,E}表示,如果图的定点集合V可以通过两个互不相交的子集U和I表示,即 U∈V、I∈V、U∪I=φ。并且对于任意边所连接的两个定点u和i均有u∈U、i∈I,则称图G是一个二部图结构。
在应用于推荐系统时,用户类别用图中的方框图形代表,物品类别用图中的圆形图形代表。一般基于图推荐的算法与协同过滤算法一样,不在意推荐内容的形式,可以处理非结构化的数据,可以应用到图书、电影、音乐等推荐场景中。
基于图结构的个性化推荐可以通过两种方式来推荐物品。在第1种方法中,图中用户u对物品i的相近距离可以直接用于评估用户u对物品i的评分。通过这种思维,在系统中为用户推荐物品,可以直接用于评估用户u对物品i的评分。通过这种思维,在系统中为用户推荐物品,可以通过找到用户u在图中最近的物品。第2种方法则是将用户或是物品间的相近距离看成它们之間的相似度权重,然后使用基于近邻的推荐方法。
3 基于社交网络的个性化推荐
近年来,社交网络在移动互联网快速发展,以新浪微博、微信、支付宝为首具有社交属性的APP已经成为手机必备。为此,学界、商界将目光聚集到社交网络上,而基于社交网络的推荐也得到快速发展。
社交网络是一个维护朋友、家人关系的平台,也是认识相同兴趣者的一个平台。在社交网络中,我们每个人都是信息的生产者和消费者。基于社交网络的推荐即建立在一个人们直接或间接相互关系之上。
基于社交网络的推荐主要是依靠社交关系中一些指标来量化用户与用户间的相似度或者叫信任关系。通过相似度来判断目标用户的近邻用户,并将近邻用户感兴趣的物品形成推荐候选集合。再根据用户间的相似度进行加权计算物品的分值,并向目标用户推荐感兴趣的物品。在社交网络的推荐中,计算用户间相似度的方法是了解好友间的熟悉程度和兴趣爱好程度。
两个用户的熟悉程度可以从共同的好友数量来度量,一般来说,共同好友越多,熟悉程度越密切。其计算如公式(4)所示。
两个用户的爱好相似度可以通过公式(5)来度量,其原理与计算用户间的熟悉程度类似。
除了用户间的相似度外,还可以根据用户历史记录来预测目标用户对该物品的喜好程度,即用户u对物品i的兴趣,可以通过公式(6)计算。
其中,out(u)是用户u的好友集合,如果用户u对项目i有过评分,当用户喜欢该项目时rvi=1,否则rvi=0。
综合以上因素,最终可以形成用户的综合相似度,其公式如(7)所示。
式中,wvu由两部分构成,一部分是用户u和用户v的熟悉程度,另一部分是用户u和用户v的兴趣相似度。
在社交网络的个性化推荐中,可以通过研究用户与朋友之间的兴趣及相似度来将朋友喜欢的物品进行加权排序推荐给目标用户。
4 結语
个性化推荐算法的研究有重大的学术价值和商业价值。从个人角度来讲,它可以帮助用户快速找到可能感兴趣的商品;从公司角度来讲,它可以发现用户的爱好,帮助用户节省挑选商品的时间,让用户快速购买商品,让商家获得利润。尽管个性化推荐算法在近些年有了很大的进步,但还有诸多需要改进之处,比如数据的稀疏性问题、冷启动问题等。总的来说,个性化推荐算法的准确性和有效性还需要不断提高,以适应时代的发展。
参 考 文 献
[1]刘青文.基于协同过滤的推荐算法研究[D].北京:中国科学技术大学,2013.
[2]常慧园.协同过滤推荐算法研究[D].兰州:兰州大学,2014.
[3]董坤.基于协同过滤算法的高校图书馆图书推荐系统研究[J].现代图书情报技术,2011(11):44-47.
[4]马宏伟,张光卫,李鹏.协同过滤推荐算法综述[J].小型微型计算机系统,2009(7):1282-1288.
[5]刘海峰.社交网络用户交互模型及行为偏好预测研究[D].北京:北京邮电大学,2014.
[6]张志军.社交网络中个性化推荐模型及算法研究[D].济南:山东师范大学,2015.
[7]邢星.社会网络个性化推荐方法研究[D].大连:大连海事大学,2013.
[8]温瑞龙.基于社交网络的个性化推荐系统研究与实现[D].杭州:浙江工业大学,2015.
[责任编辑:钟声贤]