全网兴趣图谱下电子商务推荐理论研究现状
2014-10-22陈媛媛聂规划陈冬林桂雁军
陈媛媛,聂规划,陈冬林,桂雁军
(1.武汉理工大学经济学院,湖北 武汉 430070;2.武汉理工大学电子商务与智能服务研究中心,湖北 武汉 430070;3.新奇特车业服务股份有限公司,上海 201824)
1 国内外电子商务推荐技术及系统
1.1 电子商务推荐技术
1.1.1 基于内容的推荐
基于内容的推荐方法源自信息检索领域,其基本思路是从用户已访问或已选择的对象中获取用户兴趣,将其与候选对象的特征进行比较,为用户推荐特征最为相似的对象,属于Schafer划分中的Item-to-Item Correlation方法。该算法的关键在于考察用户资料与项目的匹配程度,用户资料通过机器学习获取,常用的算法有决策树、贝叶斯分类算法和神经网络等。基于内容推荐的局限性在于内容分析有限,只能推荐文本资源,无法处理图像、视频和音乐等结构复杂、难以体现内容质量等特征的项目,并且无法提供新异推荐,即推荐的结果仅限于与用户以往熟悉内容相似的项目上[1],不利于挖掘用户潜在兴趣。
1.1.2 基于协同过滤的推荐
基于协同过滤推荐的基本思想是基于与目标用户具有相同或相似兴趣偏好的用户的观点来向目标用户推荐项目。协同过滤推荐算法可以分为基于记忆的协同过滤和基于模型的协同过滤。基于记忆的算法依赖于最近邻算法,计算用户/项目之间的相似度,产生推荐。基于记忆的算法可以分为基于用户的算法和基于项目的算法。基于模型的算法主要有基于贝叶斯的网络算法、基于马尔科夫决策过程的算法等。协同过滤算法存在的问题有:冷启动问题,由于算法必须依赖用户与项目的历史数据进行推荐,因而无法对新的用户或项目进行推荐;数据稀疏性问题,即由于用户数量与项目数量悬殊,导致评分覆盖率低,只有少量的商品能够得到推荐。目前这方面的研究重点在于对协同过滤算法的改进,如严冬梅[2]等引入了用户对项目的兴趣度,并用贝叶斯算法分析了用户在具有不同特征时对项目的喜好程度,提高了最近邻集合的有效性和准确度,推荐算法的质量也有很大改善。CHIH-FONG等在协同过滤系统中混合采用了两种聚类方法和3种融合方法,利用MovieLens数据集的实验证实,采用聚类融合的方法可以提高协同过滤的推荐效果[3]。
1.1.3 基于知识的推荐
基于知识的推荐也称为基于规则的推荐,通过手动或自动生成一系列的决策规则来推荐商品。基于知识的推荐强调关于商品的明确的领域知识以及关于用户的隐式知识(如心理的、人口统计学的或用户的其他个性化属性),并从中提取出相关的推荐规则。基于知识的推荐系统依赖于知识增强规则的开发,向用户推荐的项目需要精确地符合规则中定义的要求。推荐系统中手动规则的开发极其依赖于与目标领域特殊属性相关的规则知识工程技术,如WALTER[4]等提出了在电影推荐系统中应用领域知识推荐和社交网络,实验结果证明新的推荐方法增强了系统的推荐效率。
1.1.4 基于复杂网络链路预测的推荐
链路预测是指如何通过已知的网络结构等信息评估预测网络中尚未链接的两个节点之间存在或产生链接的可能性[5]。链接预测包括:①预测已存在但尚未被发现的链接,即预测未知链接;②预测现在未存在但未来可能新产生的链接,即预测未来链接[6]。链路预测一直被应用于个性化推荐系统的设计中,链路预测可以作为准确分析社会网络结构的有力辅助工具[7-8],其原理是基于网络结构预测哪些现在尚未结交的用户“应该是朋友”,并将此结果作为“朋友推荐”发送给用户。在融合信任网络的推荐方面,CHEN[9]等引进用户之间的信任关系数据,由用户之间的信任关系和用户对项目的评分信息分别构造用户之间的信任图和偏好相似度图,进而将这两类关系图融合到一个图模型中,并采用国际公认的Epinions数据集进行验证,实验结果表明该推荐算法能够较好地解决冷启动问题而不会对推荐的准确性造成很大影响。
1.1.5 混合推荐算法
混合推荐算法通过不同的方式结合了上述两种或两种以上的方法来改善推荐的性能,以解决基础算法中存在的冷启动和数据稀疏性等问题。例如,将基于内容的算法与协同过滤算法相结合,推荐系统的健壮性会较单个算法时有所增强;基于内容的算法可以为用户兴趣偏好缺少的新用户获取有用信息进行推荐,而协同过滤模块可以帮助查找领域中拥有相似偏好的用户从而进行推荐,这样,推荐系统中的冷启动问题和数据稀疏性问题可以得到缓解。混合算法中应用最广的方法是基于内容和协同过滤方法。另外,混合推荐根据不同的方式分为7种:权重组合、条件转换、混合、基于特征(基于属性)、特征组合、级联和元层次[10]。然而,现有的混合算法依旧面临着一些瓶颈[11]:①在用户和项目建模上情境信息不足,因此在复杂领域对用户的偏好预测较弱;②目前还不支持需要用户根据多因素(如质量和用户环境)进行决策的多标准评分。
1.2 电子商务推荐系统
在做理论研究的同时,也有很多电子商务推荐系统被开发出来。典型的基于内容的推荐系统有Personal WebWatcher,该系统可以根据用户的浏览记录自动构建用户模型,无需用户提供任何内容,系统通过比较资源与用户模型的相似度来推荐信息。基于协同过滤的推荐系统有新闻推荐系统GroupLens,系统收集了用户对文章的评分,通过预测用户对其他文章的评分进行推荐。基于混合推荐的推荐系统有Web页面推荐系统Fab,该系统结合了基于内容的推荐与协同过滤推荐,克服了两种推荐技术的缺点,同时提高了推荐精度。目前推荐系统的研究方向和存在的问题有:
(1)用户兴趣挖掘研究。推荐系统无法完全掌握用户的兴趣与偏好,导致推荐的结果与用户需求太接近或者太相反,造成系统的过拟合问题。
(2)推荐精度与实时性研究。推荐系统实时性的提升是以降低推荐精度为前提的。随着商品与用户数量的不断增加,推荐精度与实时性都受到了极大的挑战。如何在满足推荐精度的同时提高推荐的实时性则越来越受关注。
(3)安全性研究。现有推荐系统普遍忽略的问题是如何保护用户的隐私。个性化推荐技术必须有合理的用户隐私保护机制,只有保障系统的安全性,才能更大程度地发挥推荐系统的作用。
2 全网环境与兴趣图谱
2.1 兴趣图谱及基于兴趣图谱的推荐
在网络购物环境下,用户的各种行为会在一定程度上反映其个性化信息,即用户的兴趣。不同于表示人与人之间关系的社交图谱,兴趣图谱关心的是事物而不是人。此外,社交图谱基本是静态的,而兴趣图谱对于单个用户来说是灵活、动态、易变的。兴趣图谱的涵义有两点:①标识个人身份特定的、多样的兴趣;②试图基于这些兴趣将人们连接起来。用户的兴趣由用户的描述模型来表示,建立用户描述模型需要建立兴趣概念层次模型,明确兴趣概念的范围,研究兴趣概念之间的关系,探索兴趣分类方法,建立兴趣分类标准。以兴趣概念为对象的推荐可以有效改善现有推荐算法单纯以商品实例为对象推荐,导致算法复杂度过高的问题。不同于通用的、相对静态的兴趣领域本体,兴趣图谱反映用户个体对不同兴趣概念的关联以及喜爱程度,兴趣图谱具有个性化、动态化的特征。通过用户兴趣图谱的动态演化可以发现和预测用户的未知兴趣,及时有效地更新推荐结果。另外,通过用户的采纳与购买商品行为调节感兴趣程度,及时更新用户的兴趣图谱。基于兴趣图谱的个性化推荐原理如图1所示。
图1 基于兴趣图谱的个性化推荐原理
基于用户兴趣图谱的推荐是以更新后用户兴趣图谱为根据,先推荐商品概念,再根据用户的偏好推荐具体的商品实例,以实现高效率和精确性的推荐。首先,在用户兴趣图谱中,兴趣是按树形结构从上到下分类,用户与兴趣概念喜爱程度采用[0~1]之间兴趣度权重表示,通过兴趣度权值计算用户的语义相似度,同时分别研究用户、兴趣和商品重要性权值,即研究活跃的用户对其他用户的影响要大于不活跃的用户。其次,根据构建含权的用户-兴趣-商品概念三部图计算用户语义相似度,向目标用户推荐候选兴趣集,再采用贝叶斯分类算法,基于兴趣-商品概念的二维矩阵向目标用户推荐商品概念。最后以推荐给用户的商品概念为基础,基于用户偏好向用户推荐商品。
2.2 基于全网数据的交叉领域多维数据推荐
已有的个性化推荐所用数据都来自单个的网站,存在数据稀疏性、缺乏用户完整兴趣信息等带来的冷启动问题与推荐精度低的问题,导致推荐的效率过低。从NIEDERÉE[12]等2004年提出跨网的个性化推荐以来,众多学者做了相关的研究,研究的热点问题为跨系统的用户建模。从单个网站环境延伸到全网环境可以全面了解用户的兴趣,综合利用用户数据库、社交网络、关联开放数据等来构建用户模型,构建基于全网数据的用户兴趣图谱,可以解决全网环境跨系统之间的互操作问题。建立基于全网数据的用户兴趣图谱,首先要以兴趣图谱本体为模板,从数据库、结构化和半结构化文档中获取用户感兴趣的兴趣概念,分析用户网上购物、博客、微博、BBS论坛过程中是否对某兴趣概念真正喜欢,计算用户对某兴趣概念的感兴趣程度。其次,在基于全网数据的用户兴趣图谱本体模型和建模方法的研究基础上,基于用户消费数据库、微博数据资源、社会化标签资源、关联数据云LDB(linked data cloud)开展用户兴趣的挖掘和局部兴趣图谱的生成。最后,参照Gravity公司在新闻领域建立用户兴趣图谱的方法,借鉴本体映射方法,通过来自不同网站的兴趣概念、兴趣关系、兴趣度权重和规则的集成,生成全局兴趣图谱,并可基于复杂网络实现用户兴趣图谱的演化,利用用户的兴趣采纳机制,通过用户兴趣采纳的反馈,实现用户兴趣图谱的更新。
2.3 研究现状
现有推荐算法研究大多是基于顾客的特征或购买与浏览行为进行推荐的,但事实上购买与浏览行为并不能完美地反映顾客对某件商品的偏好,用户在很多渠道(包括网络购物网站、博客、论坛等)提出的评论信息[13]能够在一定程度上反映用户的兴趣。基于兴趣图谱的推荐也由此成为近年来的一个研究热点。马建国[14]等认为建立用户兴趣图谱是实现智能代理与主动服务的基础,在这之前要对用户的阅读兴趣有相当的了解,并由此建立用户的描述模型。LYNNE提出了兴趣图谱构建方法,包括兴趣选择、兴趣分类、基于社交网站和其他物理数据的收集以及兴趣集成问题[15]。FABRIZIO提出跨网站基于语义的用户兴趣图谱建模设想[16],他们通过将在私有网站分享的用户信息进行整合获取用户完整兴趣图谱[17],并采用混合链路预测和基于内容的扩散激活方法进行推荐[18]。企业界已开始兴趣图谱的尝试,Gravity公司通过自己开发的“兴趣图谱”技术,同时为多家网站服务,它会跟踪用户在其所有服务网站的行为,通过对阅读历史、兴趣的分析,形成一个“兴趣图谱”,向出版商(内容提供商)和广告商提供新闻个性化服务。腾讯也提供了兴趣图谱的开发接口 API(http://wiki.open.t.qq.com),对外提供多种兴趣相关信息,如一键转播热门排行、同话题热门转播排行和通过标签搜索用户等。但是,兴趣图谱还处于起步阶段,兴趣图谱概念混乱、缺乏统一的标准,既包括用户对产品的兴趣和个人爱好,也包括其参加的社会活动。综合而言,将这些元素统统视为链路预测的某个节点,不但无法进行用户之间的兴趣相似性计算,还增加了计算复杂度。而缺乏统一标准的用户兴趣建模又带来了互操作性问题,大量的研究着重于解决用户兴趣的模型结构、语法和语义集成[19]。兴趣图谱的另一个研究难点是从结构和非结构文本中获取基于语义的用户兴趣。此外,用户兴趣图谱建模的质量直接关系到个性化推荐的质量[20],采用何种方法对用户兴趣进行建模需要进一步的研究。
国内外关于兴趣图谱的电子商务推荐系统已有很大进展,基于跨多个电商和社交网站数据集的全网数据挖掘和推荐理论与方法研究也开始被关注。在跨电商网站方面,YUCHENG等利用集合概率模型(latent dirichlet allocation)将跨网站的用户兴趣集成,实现了交叉领域的个性化推荐[21]。在跨社交网络方面,SAHEBI采用了一种社区划分的方法,从多个维度对用户进行社区划分,如根据用户对特定商品的喜好来推荐其他商品,根据用户的社区划分结果来度量用户之间潜在的相似性,再采用协同过滤的方法为用户推荐产品[22];BRACHA总结了现有社交网络中利用用户之间关系进行相似性推荐(如链路预测推荐方法)的局限性,提出通过集成facebook等社交网站获取用户兴趣进行交叉推荐产品[23]。我国在跨网站的推荐应用方面也有探索,如国内某电子商务推荐服务网已开始基于跨电商行为的交叉推荐算法探索[24]。但是,基于全网兴趣图谱的推荐理论研究与应用研究,国内外目前还是空白。
3 结论
在大数据时代到来之时,高效的电子商务推荐系统能够为企业带来客户,实现利润增长。基于全网兴趣图谱的电子商务推荐系统能够集成全网的用户数据,全面挖掘用户兴趣,为用户提供个性化的推荐,解决传统推荐系统中的数据稀疏性问题和冷启动问题,提高推荐系统的推荐精度。因此,研究基于全网兴趣图谱的电子商务推荐技术具有很强的理论意义,在此基础上开发电子商务推荐系统也具有重要的现实意义。
[1]苏玉召,赵妍.个性化关键技术研究综述[J].图书与情报,2011,37(1):59 -65.
[2]严冬梅,鲁城华.基于用户兴趣度和特征的优化协同过滤推荐[J].计算机应用研究,2012,29(2):497 -500.
[3]CHIH -FONG T,CHIHLI H.Cluster ensembles in collaborative filtering recommendation[J].Applied Soft Computing,2012(12):1417 -1425.
[4]WALTER C N,MARIALUISA H A,RAFAEL V G.Social knowledge-based recommender system application to the movies domain[J].Expert Systems with Applications,2012(39):10990 -11000.
[5]LISE G.Link mining:a survey[J].ACM SIGK DD Explorations New sletter,2005,7(2):3 -12.
[6]LÜ L Y,ZHOU T.Link prediction on complex networks:a survey[J].Physica A:Statistical Mechanics and Its Applications,2011,390(6):1150 -1170.
[7]SCHAFER L,GRAHAM J W.Missing data:our view of the state of the art[J].Psychol Methods,2002,7(2):147-177.
[8]KOSSINETS G.Effects of missing data in social networks[J].Social Networks,2006,28(3):247 -268.
[9]CHEN C C,WAN Y H,CHUNG M C.An effective recommendation method for cold start new users using trust and distrust networks[J].Information Sciences,2013(224):19-36.
[10]AMIR A,MOHAMMAD S.A hybrid recommendation technique based on product category attributes[J].Expert Systems with Applications,2009(36):11480-11488.
[11]GHAZANFAR M A,PR A.An improved switching hybrid recommender system using naive bayes classifier and collaborative filtering[J].Lecture Notes in Engineering and Computer Science,2010(2180):493 -502.
[12]NIEDERÉE C,STEWART A,MEHTA B.A multidimensional,unified user model for cross - system personalization[C]∥Proceedings of the AVI 2004 Workshop on Environments for Personalized Information Access.Gallipoli:[s.n.],2004:34 -54.
[13]CHRYASNTHOS D,GAO G D,RITU N.Are customer more likely to contribute online reviews for hit or niche products?[J].Journal of Management Information System,2010,27(2):127 -158.
[14]马建国,邢玲,李幼平.广播型网格的用户兴趣图谱[J].电子学报,2005,33(1):142 -146.
[15]LYNNE G.The interest graph architecture-social modeling and information fusion[C]∥Proceedings of SPIE.[S.l.]:[s.n.],2012:1 -46.
[16]FABRIZIO O.Multi-source provenance- aware user interest profiling on the social semantic web[C]∥20th International Conference on User Modeling,Adaptation,and Personalization.[S.l.]:[s.n.],2012:378-381.
[17]BENJAMIN H.An open framework for multi-source,cross-domain personalisation with semantic interest graphs[C]∥ACM Recommender Systems.Dublin:[s.n.],2012:313 -316.
[18]BENJAMIN H,MACIEJ D.Personalisation of social webservices in the enterprise using spreading activation for multi- source,cross - domain recommendations[C]//Association for the Advancement of Artificial Intelligence.[S.l.]:[s.n.],2012:46 - 51.
[19]FRANCESCA C,FEDERICA C,CRISTINA G.User model interoperability:a survey[J].User Modeling and User-adapted Interaction,2011(21):285 -331.
[20]王巧容,赵海燕,曹健.个性化服务中的用户建模技术[J].小型微型计算机系统,2011,32(1):39 -46.
[21]YUCHENG L,DEEPAK A,ALEX S.Multiple domain user personalization[C]∥Proceedings of the 17th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining.[S.l.]:[s.n.],2011:123 -131.
[22]SAHEBI S,COHEN W W.Community - based recommendations:a solution to the cold start problem[C]∥Workshop on Recommender Systems and the Social Web,RSWEB.[S.l.]:[s.n],2011:143 -147.
[23]BRACHA S,LIOR R,SHIRLEY F.Facebook single and cross domain data for recommendation systems[J].User Model User - Adap Inter,2013(23):211-247.
[24]张亮,柏林森,周涛.基于跨电商行为的交叉推荐算法[J].电子科技大学学报,2013,42(1):154 -161.