个性化推荐系统研究分析
2016-03-14谢婉婉徐晓雷
张 杨 景 京 谢婉婉 徐晓雷
(国家知识产权局专利局专利审查协作河南中心,河南 郑州 450000)
个性化推荐系统研究分析
张杨景京谢婉婉徐晓雷
(国家知识产权局专利局专利审查协作河南中心,河南郑州450000)
互联网技术的发展及用户的个性化需求是推荐系统产生的背景,其根据用户的兴趣点及行为轨迹,为用户在海量信息中精准推荐用户所需要的信息,是机器学习、数据挖掘、知识发现等技术的结合体。基于此,介绍推荐系统的主要算法、评价方法、开源项目。
推荐系统;个性化;兴趣;行为轨迹;推荐算法
个性化推荐系统[1]的研究可以追溯到20世纪90年代,帕洛阿尔托研究中心的Tapestry系统引入了协同过滤的思想和概念,贝尔通信研究中心的视频推荐系统对影片进行过滤等,这些早期的系统都是通过算法识别出具有相同爱好的用户,对用户的评分进行个性化加权处理,进而对用户进行推荐。2006年NetFlix的100万美元大奖将算法的研究推上高峰。亚马逊、阿里巴巴、百度等互联网巨头都有自己的推荐系统。
1 主要算法
1.1协同过滤推荐算法
1.1.1基于用户的最近邻推荐。首先给定一个评分数据集和一个用户A,在评分数据集中找出与用户A过去有相同偏好的用户B,然后进行评分预测,对用户A没有见过的每个物品o,利用其近邻B对o的评分计算预测值。该算法的核心是寻找到与当前用户的最近邻,主要采用Perason相关系数、余弦相似度、Spearman秩相关系数、均方差等方法计算。在研究最充分的推荐领域,Perason相关系数比其他方法在寻找最近邻的时候表现更好一些。
1.1.2基于物品的最近邻推荐。首先找到待测物品的若干最近邻,然后通过待预测项的最近邻居评分来求出加权平均值,以此来预测目标用户对待预测项目的评分,然后把预测评分结果最高的前若干项作为结果推荐给用户。余弦相似度由于效果精确,广泛应用于基于物品的最近邻居推荐。
1.2基于内容的推荐算法
基于内容的推荐不需要巨大的用户群体或评分数据集,只有一个用户也可以产生推荐列表。这里说所的内容,指的是物品的特征信息,如一本书的题目、作者、类型、价格等特征。核心思想是评估用户所涉及的物品与当前用户过去喜欢的物品的相似度。
1.3基于知识的推荐算法
基于知识的推荐算法分为基于约束推荐和基于实例推荐2种,需要用户指定需求,系统根据需求提供解决方案,如果找不到合适的解决方案,则需要用户修改需求。
基于知识的推荐算法依赖于预先建立的针对特定领域的知识库,适用于无法根据内容信息和用户行为轨迹来推荐的商品的预测。
1.4混合推荐算法
混合推荐算法分为整体式、并行式、流水线式3种。整体式是将几种推荐策略整合到一个算法中;并行式是同时使用几个推荐算法,然后利用一种混合机制将几个独立推荐算法的输出结果整合在一起;流水线式是将整个流程划分为多个阶段,根据不同的阶段采用不同的技术,直到产生最后的推荐结果。
1.5基于上下文感知的推荐算法
基于上下文感知的推荐分为以下几个阶段[2]:①数据采集,收集用户、上下文、项目、用户评分、用户行为及与上下文关联的用户行为记录等相关数据;②用户偏好提取,分析影响用户偏好提取的各种因素及其影响程度,采用有效手段提取用户偏好;③上下文感知推荐生成,基于部分已知用户偏好预测用户、上下文、项目之间的潜在偏好,结合当前上下文信息生成推荐结果;④评价与自适应改进,采用合适的效用评价指标对推荐效果进行评价,并根据评价结果发现问题和改进。
2 评价方法
如何清晰准确地鉴别推荐算法的优劣目前没有达成共识。目前主要采用准确度评价指标(包括预测准确度、分类准确度、排序准确度、预测打分关联、距离标准化指标和半衰期效用指标)、推荐列表的流行性和多样性、覆盖率、新鲜性和意外性以及用户满意度等。
3 开源项目
目前较好的开源项目主要有:①SVDFeature,A Toolkit for Feature-based Collaborative Filtering and Ranking,是一个feature-based协同过滤和排序工具,由上海交大Apex实验室开发,在KDD Cup 2012中获得第一名,KDD Cup 2011中获得第三名,链接http://svdfeature.apexlab.org/ wiki/Main_Page;②LIBMF,A Matrix-factorization Library for Recommender Systems,作者Chih-Jen Lin,连续多届KDD Cup竞赛上获得优异成绩,链接http://www.csie.ntu. edu.tw/~cjlin/libmf/;③Lenskit,来自美国的明尼苏达大学的GroupLens团队,也是试数据集Movielens的作者,链接http://lenskit.org/;④EasyRec,是一个易集成、易扩展、功能强大的推荐系统,包括数据录入模块、管理模块、推荐挖掘、离线分析等,链接http://easyrec.org/。
4 结语
目前,已经有许多推荐算法可供选择,研究人员需要根据需要解决的特定问题去选择合适的算法。此外,还有基于二部图的推荐算法、基于大规模隐式反馈的推荐算法、基于社交网络的推荐算法、基于本体的推荐算法[3]等。近年来,个性化的推荐系统的发展非常迅猛,相信未来的推荐系统会越来越智能,推荐结果也会越来越精准。
[1]Gediminas Adomavicius,Alexander Tuzhilin.Toward the Next Generation of Recommender Systems:A Survey of the Stateof-the-Art and Possible Extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005(6):734-749.
[2]王立才,孟祥武,张玉洁.上下文感知推荐系统[J].软件学报,2012(1):1-20.
[3]饶俊阳,贾爱霞,冯岩松,等.基于本体结构的新闻个性化推荐[J].北京大学学报:自然科学版,2014(1):1-8.
Research on Personalized Recommendation System
Zhang YangJing jingXie WanwanXu Xiaolei
(Patent Examination Cooperation Center of the Patent Office,SIPO,Henan,Zhengzhou Henan 450000)
The development of Internet technology and the user's individualized demand are the background of recommendation system,according to the user's point of interest and behavior trajectory,it accurately recommend information needed by the user in the mass of information.It is a combination of machine learning,data mining,knowledge discovery and other technologies.Based on this,the main algorithm,evaluation method and the open source project of recommendation system were introduced.
recommendation system;personalized;interest;behavior trajectory;recommendation algorithm
TP391.3
A
1003-5168(2016)07-0050-02
2016-06-25
张杨(1986-),男,硕士,研究方向:软件工程、推荐系统、语义网。