从ACM RecSys’2014国际会议看推荐系统的热点和发展
2015-09-08景民昌
景民昌
[摘要]美国计算机学会每年举办的RecSys年会是最重要的推荐系统国际会议之一,其内容体现了当前推荐系统研究的热点和发展趋势。本文分析RecSys2014年会的论文内容和主题,从推荐系统的新应用、情景敏感推荐、冷启动和混合推荐、安全和用户隐私、推荐系统评估、多样性和新颖性、推荐理论和方法、排序和Top-N推荐、矩阵分解等9个方面对会议进行综述,总结当前推荐系统研究的特点,认为混合推荐是未来推荐系统研究的主要方向。
[关键词]推荐系统;ACM RecSys;热点主题
[中图分类号]TP311
[文献标识码]A
[文章编号]1008-0821(2015)04-0041-05
自1992年帕洛阿尔托研究中心的Tapestry系统引入协同过滤的思想和概念以来,推荐系统日益引起人们的关注。推荐系统(RS:Recommender System)是能主动地发现用户当前或潜在的信息需求,并主动推送信息给用户的一种Web信息系统。在信息爆炸时代,推荐系统是解决用户“信息过载”的一种有效手段,已被成功应用于电子商务、社交网络、多媒体等众多领域。
由于推荐系统实际应用效果显著,近年来国际学术界与其相关的研究极为活跃。推荐系统研究的顶级会议是美国计算机学会(ACM)每年举办的RecSys年会,该会议自2007年以来已在世界各地(美国、瑞士、西班牙、爱尔兰、中国香港等)举办了8届,并成为全球关于推荐系统研究最重要的交流渠道和把脉其最新进展的重要窗口。
最近一次ACM RecSys年会于2014年10月6~10日于美国硅谷(第8届)举办,共收录各国学者研究论文55篇,内容基本涵盖了当前RS研究的主流领域,既有对传统领域的深入探讨,也有对新领域的探索;既有对实践和技术的应用研究,也有推荐基本理论和方法的探析。本文逐一研读了本次会议论文,并按照主题分类进行综述,以期了解和掌握目前国际上推荐系统研究的热点与发展趋势,为国内推荐系统研究提供借鉴。
1 会议主题分析
2014RecSys年会论文按主题可分为9个方面:新应用、情景推荐、冷启动推荐、安全和隐私、推荐系统评估、多样性和新颖性、推荐方法和理论、排序和Top-N推荐、矩阵分解推荐方法等。
1.1新应用
推荐系统产生于快速发展的互联网环境中,与理论研究相比,商业化实践更为人们所关注,历次ACM RecSys会议都把实践应用作为会议的重要主题之一。2014年会展示了推荐系统在儿童图书推荐、社交媒体、学术论文同行评议、MOOC、数据挖掘流程设计以及旅游指导、房屋租赁、健康顾问等诸多方面的应用。例如,PeraMS等针对现有图书推荐系统缺乏专门面向儿童阅读推荐的功能缺陷,设计和开发了一个模拟图书馆读者咨询服务的图书推荐系统(Rabbit),该系统不仅考虑了儿童读者的阅读能力,也考虑了图书所包含的情感因素。Liu X等通过在论文和评议专家之间构建关联图,开发了一个学术论文同行评议的专家推荐系统,增强了论文评议系统的功能。
1.2情景敏感推荐
情景敏感推荐系统(CARS)是近几年推荐系统研究的热点。情景也称之为上下文(Context),指的是用户模型中的额外信息(如位置、时间、天气等),利用情景信息可以提高推荐系统的推荐精度。
本次会议的一些论文在推荐系统适应动态情景方面做了深入研究。如,Hariri N等开发了一个交互式推荐系统,系统根据用户行为动态地适应情景变化,匹配用户最近的兴趣喜好,为其生成更合适的推荐结果,系统的独特之处是包含了一个“情景变化侦测器”,负责探测用户行为的变化,一旦检测到有重大改变时,推荐系统就优先采用用户最新行为信息来重建情景模型。而Braunhofer M等则通过在系统中设置“情景开关”的方法解决推荐系统的情景适应性问题。
1.3冷启动推荐
由于推荐系统中的新用户(或新项目)的评分数据稀少,系统很难为其产生推荐,这就是所谓的冷启动推荐问题。在基于协同过滤和基于矩阵分解的推荐算法中,冷启动问题尤其严重。
冷启动问题通常采用混合推荐方法或融合其他数据源来解决。如,混合内容过滤方法和协同过滤方法、融合用户评论与评分数据、在协同过滤算法中引入用户的人口统计学信息(如性别、年龄、位置等)以及社会网络信息(如Facebook好友关系、空间主页等)、利用Web日志信息中的用户浏览路径等。
另外,动态情景敏感策略也有助于解决冷启动问题,如,Tang L等提出对不同情景策略进行组合,在多种预设情景上层构建“元情景”(Meta-Context),“元情景”根据新用户与推荐系统交互产生的反馈信息,选择相对合适的情景为新用户推荐其感兴趣的网页,该方法在原理上类似于元搜索引擎。而Braunhofer M等在不同的情景算法中设置“情景开关”,当系统侦测到不同的冷启动情景时(如新用户或新项目),则会转换到适宜的算法。
1.4安全和隐私
推荐系统是可以带来实在经济效益的。正因如此,其可能受到恶意攻击并不为奇,安全和隐私是每一届会议的主要议题之一。
Seminario C E等从攻击者的角度,提出了“强项目”攻击模型(PIA),并通过实验模拟,证明PIA不仅可以成功攻击基于SVD和基于用户的协同推荐系统,也可以成功攻击基于项目的协同过滤推荐系统,研究结果为推荐系统的攻击检测提供指导。Bhagat S等研究了用户隐私的“善意”挖掘方法,设计了一个基于矩阵分解的贝叶斯分类器,仅根据少量的评分数据就能推测用户的二元属性信息(如类别,性别等),从而为推荐系统构建用户兴趣模型提供辅助信息。
1.5推荐系统评估
由于设计目标、实施算法、评价策略等方面不同,且一些场合可能还需要人工参与,推荐系统目前尚没有一个公认的标准对其真实效果和作用进行评估。本次年会,Said A等在相同的评价环境下对不同的推荐算法作了对比,提出了一个评估推荐系统的指标体系。Yi X等利用用户在网页上的停留时间来量化评估用户对网页的兴趣度,提出如何对不同设备和情景下的停留时间进行标准化处理的方法。endprint
推荐系统评估也包括对用户评分真实性的评估。Krishnan S等研究了社会影响偏见(SIB)对用户真实评分的影响,提出在推荐系统中设置学习、分析、缓解3个阶段来降低SIB效应。
1.6推荐多样性和新颖性
多样性是从推荐系统角度看RS的一种特性,即尽可能使全部或大多数项目都得到推荐,而不只局限于少数项目;新颖性是从用户角度看RS的一种特性,即推荐结果对用户来说应该是新奇而又感兴趣的。
Vargas S等从推荐任务的反方向思考,通过将用户推荐给项目的方式,增强商品推荐的销售多样性。Adamopoulos P等在协同过滤近邻选择过程中,考虑目标用户和候选近邻的相似级别,确定k近邻的权重,从而提高推荐结果的多样性。Ekstrand M D等通过用户实验研究了用户对推荐结果的满意度和新颖性、多样性之间的相关关系。Noia T D等根据项目的内容属性计算多样性,将推荐算法生成的Top-N结果重新进行计算排序,以增强推荐结果的多样性。
另外,Vargas S等发现,推荐项目的类别(如电影分类、图书类别、音乐类别等)属性也可以用来增强推荐系统的多样性。
1.7推荐方法和理论
推荐系统研究虽然已取得了丰硕成果,但是仍有许多问题需要进一步研究。本次会议在推荐新算法的设计和传统算法的改进、用户兴趣建模、信任推荐等方面都有新的研究成果展示。
另外,会议在跨域推荐、群组推荐方面也有一些和以往经验不同的新发现。如,大部分推荐算法都假设评分矩阵中的缺失值是随机分布的,而Kim Y D等认为实际情况并非如此,缺失数据的分布其实是依赖于用户、项目以及评分值的,并提出一个贝叶斯两项式混合模型,利用非随机分布的评分数据预测用户评分。跨域推荐可以在源RS和目标RS之间共享推荐信息,Cremonesi P等研究了跨域推荐的数据特征后,认为所谓的密码本传递方法(CBT)并不能在没有重叠项目(或用户)的源域和目标域之间实现跨域推荐。
1.8排序和Top-N推荐
推荐结果以何种方式展示给用户非常重要,其中,推荐列表的排序、推荐数量的确定是两个主要的研究内容。Vanchinathan H P等利用用户或项目之间的相似度解决推荐列表的排序问题。Gueye M等设计了一个无参数的优化标签列表大小的算法,本质是通过舍弃一些不相关的标签来提高推荐精度和效率。Naamani-Dery L等采用迭代算法启发用户兴趣,来缩小群组推荐的Top-N列表规模。而Liu X等则通过线上、线下组件分别计算新、老项目的影响力,为用户生成Top-N推荐。
1.9矩阵分解推荐方法
矩阵分解是当前最有效的推荐算法之一。矩阵分解过程中,计算项目的得分并排序是一个非常耗时的过程,会议的一些论文在如何提高算法的计算效率和可扩展性方面提出了新的方法和思路。
在矩阵分解算法中如何引入其它信息(如情景、信任等),也是矩阵分解推荐方法的研究重点。分解机(Factor-ization Machine)和情景特征的结合,时间维度、评分聚类、隐式信任关系等在矩阵分解推荐算法中的应用在本次会议中都有成果展示。
另外,也有论文研究了矩阵分解推荐算法在一般概率分布上的应用,从而拓展了矩阵分解推荐算法的应用范围。
2 当前推荐系统研究的特点
ACM RecSys是国际上推荐系统研究的顶级会议,其研究内容理所当然地反映着推荐系统的前沿和热点。综合来看,2014年推荐系统研究具有“新”、“深”、“合”的特点。
2.1“新”:新技术、新应用、新发现不断出现
2014年ACM RecSys年会最大的特点是“新”,各种新技术、新发现、新应用不断出现。例如,组合情景策略解决冷启动问题、“强项目”攻击模型、用户评分SIB的缓解方法、用户自生成分类的推荐方法等都是较新的技术;评分矩阵的缺失值并非随机分布、CBT方法在跨域推荐的缺陷性等也是会议的新发现;而新应用更是会议的重点,推荐系统从来就是一个实践性很强的领域,正是因为其在众多行业,如电子商务、新闻、音乐、电影、Apps的应用收到了实际效益,才被研究人员们广为关注。本次年会除了对一些传统的推荐应用有进一步的深入研究外,也出现了许多新应用,如MOOC中的问题推荐、社交网络上的好友推荐和专业技能标签推荐、学术论文同行评议的专家推荐、数据挖掘流程设计的操作符推荐等。
2.2“深”:推荐理论和方法不断深入
推荐系统研究发展至今,已取得了非常丰硕的成果,理论基础和技术体系逐渐成形,研究已不再局限于基础问题和浅层问题的探讨,而是已深入到推荐系统研究所涉及的方方面面。如,虽然情景敏感推荐方法、矩阵分解推荐方法仍是非常热门的研究领域,但是研究已不再是方法的简单介绍和粗浅应用,而是已深入到了推荐方法的细节研究。例如,设计“情景变化侦测器”探测用户兴趣的重大变化、“元情景”解决用户冷启动问题、一般概率分布上的矩阵分解方法等都是对推荐方法非常深入的探讨。
2.3“合”:推荐算法不断混合,推荐数据源不断融合
各种推荐方法都有其优、缺点,单一方法无法解决推荐系统的所有问题,其研究越来越趋向组合不同技术实现混合推荐。大量的混合推荐方法研究出现于本次年会论文中,例如,内容过滤和协同过滤的混合、基于项目和基于用户的协同过滤算法的混合、情景敏感和矩阵分解推荐算法的混合、多种情景算法的混合、线上和线下推荐方法的混合等。
经典推荐系统利用的数据源只有用户的评分数据,然而由于评分数据的稀疏性降低了推荐系统的精确度,一些研究人员开始考虑将其它信息源引入到推荐系统,与评分数据融合来提高推荐精度。如,评分数据和评论文本的融合、评分数据和用户其它信息(人口学、社交网络)的融合、评分数据和项目类别的融合等。
3 结语
本文从推荐系统的重要国际会议ACM RecSys角度,分析了当前推荐系统研究的热点和发展趋势,认为当前国际上的推荐系统研究无论是理论基础、还是实践应用都已经取得了非常多的成果,而基于多种方法混合、多种数据源融合的混合推荐将是未来推荐系统研究的主要方向。
另外,值得注意的是,从55篇年会论文的来源国家看,欧美国家占了绝大部分,而我国仅有香港地区2篇论文被会议接收,反映出我国(尤其是大陆地区)对该会议尚不够重视或研究实力稍逊。鉴于该会议在推荐系统研究领域的重要程度,建议我国学者加强对该会议的了解和参与力度。
(本文责任编辑:马卓)endprint