电子商务个性化推荐系统综述
2015-05-30黄春华寇伟
黄春华 寇伟
作者简介:黄春华(1979.03-),女,汉族,四川邛崃,四川邮电职业技术学院,讲师,硕士,计算机网络、数据挖掘。
摘要:目前我国已经迎来了电子商务蓬勃发展的时代,然而面对海量的商品,客户难以及时地找到符合心意的商品。在这种情况下,只有借助于电子商务个性化推荐系统,电子商务系统才能准确及时地发现用户的购物需求,并为其提供相关的产品的信息,同时还能在最大程度上挖掘用户的潜在需求。
协同过滤技术是目前个性化推荐系统中广泛使用的、最成功的推荐算法之一,但也仍然存在许多问题,需要进行改善。
关键词:电子商务;个性化推荐系统;协同过滤算法;数据稀疏性;冷启动
一、研究背景
随着电子商务市场的成熟,电子商务网站中商品数量与规模的与日俱增,面对海量的数据,客户常常无法及时地找到自己满意的商品。在这种情况下,利用推荐系统为用户进行推荐才能及时地把握用户的需求,精准地为其提供感兴趣的、偏好的产品的信息,进而挖掘出用户的潜在需求。
电子商务个性化推荐系统(E-commerce Personalized Recommendation System)的定义为:“它是利用电子商务网站向客户提供信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程[2]。也就是在获取用户的兴趣爱好信息以后,经过分析和学习,向用户推荐他们可能感兴趣的商品、给出信息建议等,进而实现个性化推荐的服务。
二、国内外研究現状
Xerox PARC在1992年推出Typestry系统,这是一个用来对垃圾和广告电子邮件实现过滤并且还能向用户推荐电子新闻的系统,被学术界认定为第一个真正的推荐系统。但其缺 陷是需要用户事先对系统中的其他用户比较熟悉和了解。随着用户数量的增加,一个用户要去了解熟悉其他大量用户是不可行的,所以该推荐系统只适合在系统中用户数量比较少的情况下使用。
明尼苏达大学的GroupLens Research 实验室在 1997 年开发了Movie Lens系统。该系统通过用户对电影的评分数据来分析他可能喜欢的电影类型、风格、演员、导演等,然后预测他对其他电影的接受程度(喜好程度和评分),从而向用户推荐合适的电影。
Amazon 的商品推荐系统也叫亚马逊网络书城,其推荐功能强大,用户浏览某一本书的时候,会自动地向用户推荐已经购买过这本书的顾客还购买了哪本书,曾为亚马逊贡献了20%-30%的创收。Amazon的成功拉开了推荐系统在电子商务领域内被大范围使用的序幕,各大电商纷纷推出了自己的推荐系统。
此外,国外比较著名的推荐系统还有Netflix(研究影视和视频的在线推荐的网站)、AdSense(谷歌的定向广告推荐系统)、Facebook(社区交友网站,推荐朋友和游戏)等等。
国内对推荐系统的研究开始于二十一世纪初,起步晚但发展迅速,在智能数据挖掘、资源数据处理的准确度、统计数据分析等等涉及到推荐系统的各方面的研究都取得了可喜的成果。与此同时,推荐系统的应用也在高速增加。在新闻网站、数字图书馆、网上社区、电子商务等领域里,个性化推荐系统都得到了大量的应用,较为著名的有百度竞价排名、当当图书推荐、淘宝商品推荐(掌柜热卖、猜你喜欢的)、京东商品推荐、豆瓣影视推荐、中国人民大学数字图书馆等等。很多网站都以多种形式增加或者整合了推荐功能,以改进现有服务。
但由于对推荐系统方面的理论研究起步的晚,国内的研究水平相比国外还有不小的差距,主要表现在推荐自动化程度低、实时性较差和推荐准确度还不够高等方面。
三、推荐技术
目前,推荐系统的研究热点主要有以下三类:技术系统的开发研究、用户行为研究以及隐私性问题的研究。就算法层面来说,推荐技术的分类如图1所示。
1.基于关联规则的推荐
关联规则挖掘算法的核心思想是:通过频繁项集的挖掘,发现巨量数据中所包含着的、满足一定支持度的规则模式和这些模式间的相互关系,它的根本目的是在商品销售记录中寻找相关性,以此来制定销售策略,最常用的关联规则挖掘技术是“支持-置信度”分析。例如电子商务网站中对购物车当中数据的分析就是基于关联规则的。
2.基于内容的推荐
基于内容的推荐的应用系统非常普及,如搜索引擎和电子商务网站平台的搜索栏等。基于内容的推荐技术的关键是对系统中的用户或者项目,要先提取并过滤其特征、属性信息等,再根据这些数据去分析它们同新用户或项目内容的相似性,如果相似程度足够高就可以用来产生推荐。但是基于内容的推荐系统在某些信息属性特征的提取上是有一定局限的,例如在自动提取网页中图像、音视频等具有多媒体信息的特征属性时就存在相当大的技术上的困难。
3.协同过滤推荐
协同过滤推荐技术基本思想是利用“群体的智慧”,因为“人以群分”,对于经常购买同样商品的顾客们,可以推断他们具有相似的兴趣、偏好,把他们归为一个群组,然后根据用户组对项目的喜好来向目标用户进行推荐。
协同过滤推荐算法又可以分为以下三种,分别是:基于用户的推荐、基于项目的推荐和基于模型的推荐。
基于用户的协同过滤推荐的基本原理是:“根据所有用户对项目偏好数据,通过计算发现与目标用户的口味和偏好相似的邻居用户组(通常采用计算“K-邻居”的算法),然后再基于选择出的K个邻居的历史偏好信息,向当前用户进行推荐[1]。”
基于项目的协同过滤在2001年由Sarwar提出,该方法是基于项目之间的相似度来计算出预测值的,其思路是:“先找到待测项目的若干最近邻居,然后通过用户对待预测项的最近邻居评分来求出加权平均值,再以此来逼近目标用户对待预测项目的评分,然后把预测评分结果最高的前若干项作为结果推荐给反馈给用户[3]。”
基于模型的方法的基本思想可以简单的理解为:在离线时先对用户-项目评分矩阵进行训练学习,获得一个紧凑的决策模型,根据该模型对用户的未评分数据进行预测,然后在在线的状态下为目标用户进行相关推荐。其缺点是离线模型的训练花费时间较长,优点是预测准确度很高。
4.基于知识的推荐技术
基于知识的推荐技术在进行推荐之前,需要预先建立好“商品信息知识库”,即对某个特定的领域专门建立的特定知识库,适合用来对一些无法根据内容信息和购买的历史记录来推荐的商品进行预测。但产品知识库的构建对基于知识的推荐系统来说是一个难道问题,也是瓶颈所在。
5.基于效用的推荐
基于效用的推荐是根据用户对使用项目的效用情况进行计算的,核心思想是为每个用户建立一个效用函数来建立用户的资料模型。其优点是能把非产品的属性,比如供应商的可靠性、产品的可得性和用户对商品的评价等因素考虑到效用计算当中。
6.混合推荐
为了提升推荐结果的有效性,可以将几种推荐技术进行融合,用组合推荐的方式来为用户进行推荐。目前常见的是把基于内容推荐和协同过滤推荐进行组合,比如,先使用这两种推荐方法各得到一个推荐结果,然后将其按照一定的规则进行重组得到最终的推荐结果。
四、存在的问题及展望
目前个性化推荐系统中最为成功的算法是协同过滤算法,被广泛的使用在各大电子商务网站中,但也存在许多问题亟需改进。
(1)稀疏性问题:协同过滤实现推荐,需要通过用户-项目评分矩阵对用户信息进行表示。电子商务推荐系统一般都要对大量的数据信息进行处理,但事实上,系统中用户购买商品的总量一般只占到网站中的商品总量的百分之一左右,评价矩阵的数据会非常的稀疏。这会带来一些困难,一是很难找到最近邻居用户集,二是进行相似性计算的开销很大,都会影响到推荐结果的精确度。
(2)冷启动问题:该问题可以看成是数据稀疏性问题的极端情况。也就是在系统中新出现一个用户或项目时,由于系统中还没有相应的购买记录或者用户评价,所以不能用协同过滤来进行预测评分和推荐。
(3)实时性问题:实际应用中用户的兴趣爱好是随着时间变化的,为了确保推荐结果的准确性,就要实时地更新所有用户的相似性。
(4)隐私性和鲁棒性问题:如何保护用户的隐私、阻止恶意用户操纵推荐系统并防止其在系统数据库中插入伪造的用户和评分,这也是电子商务领域研究的热点问题。
(5)现在已经进入了移动互联网时代,“应用无处不在”。目前的技术能为构建下一代推荐系统准备哪些条件?无处不在的应用将如何影响推荐算法?这些都是需要研究解决的问题。
结语
电子商务的发展,离不开电子商务个性化推荐系统的推动。二十多年来,学者们推荐技术进行了研究并取得了丰硕的成果。协同过滤算法作为个性化推荐系统中最为常用算法取得了巨大的成功,但也存在着很多缺陷,如数据稀疏性问题、冷启动问题等,仍然需要继续研究寻找解决改善的方法。(作者单位:四川邮电职业技术学院)
参考文献:
[1]李聪.电子商务协同过滤可扩展性研究综述[J].现代图书情报技术,2010(11):37-44.
[2]Resnick,Varian.Recommender Systems[J].In Communications of the ACM,1997,40(3):56-78.
[3]Sarwar B,Karypis G,Konstan J,Riedl J.Item-Based collaborative filtering recommendation algorithms[C].In:Proc.of the 10th Intl Conf.on World Wide Web.ACM Press.2001:285-295.
[4]劉建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展.2009(19):1-15.