查询推荐技术综述
2011-03-17赵俊杰沈小玲
徐 勇,赵俊杰,沈小玲
(安徽财经大学 信息工程学院,安徽 蚌埠 233041)
查询推荐技术综述
徐 勇,赵俊杰,沈小玲
(安徽财经大学 信息工程学院,安徽 蚌埠 233041)
文章介绍了用户搜索中查询推荐技术的相关概念、研究现状;深入分析了目前常见的推荐算法及推荐系统中的隐私保护问题;最后,归纳了查询推荐技术的研究热点。
推荐系统,协同过滤,数据挖掘
1 问题的提出
进入21世纪以来,信息网络化正在延伸到社会的每一个角落,这种全球性的信息化进程深刻地改变了人类的生存方式,Internet技术的应用给人们生活和工作的各个层面带来了深刻的影响。
由于Internet具有信息交流的双向性,开放式信息传输以及范围广泛等特点,使得其中的信息量以指数规模迅速增长,形成“信息爆炸”,导致用户在使用网络过程中出现“信息过载”和“信息迷航”等问题。“信息过载”指由于Internet提供的信息具有复杂性和广泛性的特点,同时浏览者自身知识结构和认知能力等条件限制,导致浏览者无法正确理解和使用信息。信息迷航是浏览者在Internet极为复杂的网络信息空间中迷失方向,无法确定自己现在所处信息空间的位置,进而无法进入目标节点,甚至于忘记搜索目标的一种现象[1]。
解决这一问题的有效途径之一是将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,实现网络系统对浏览者的主动信息服务。“推荐系统”正是在这一背景下应运而生,成为解决大规模数据中有效信息检索的重要技术手段之一,吸引了很多人的研究兴趣。
推荐系统可以认为是一种基于网络环境的专家系统,它能够从有限信息中学习用户的偏好,进而从备选项目中向用户做出个性化的推荐。随着人工智能、数据挖掘等相关领域的发展,网络上的资源信息规模急剧增长,网络上的信息服务也逐渐向人性化、个性化、智能化等方向发展,推荐系统成为其中的一个研究热点。
2 国内外研究现状
推荐系统的起源可以追溯到其他领域的工作,最早的推荐系统雏形可以认为是1979年在认知科学领域中Elaine Rich提出的Grundy系统[2],其中提出了所谓的stereotypes机制用于建立用户的模型,并通过模型向用户推荐相关书籍。此后,随着信息检索和信息过滤研究的发展,推荐系统成为其中的研究热点之一,得到了许多著名研究机构和研究者的关注,出现了较多的研究组织和应用实例:由Xerox Palo Alto研究中心开发的实验系统Typestry是目前公认的第一个真正意义上的推荐系统,其中提供了电子文档的存储、用户评价存储和协同过滤推荐服务。但是,Typestry要求每个用户自己确定与自己兴趣爱好相似的其他用户,使得用户之间必须相互了解彼此的兴趣爱好,所以,该推荐系统比较适合于用户群体比较小的场合[3]。由美国Minnesota大学计算机科学与工程系的John Riedl教授领导的GroupLens研究小组于1996年开发出了使用自动协同过滤技术的新闻组信息推荐系统,并提供在互联网上公测;目前,该小组的研究范围包括推荐算法设计与实现、协同过滤方法的应用等;部分技术已进入商业应用领域。INDIANA大学计算机科学系主持开发的PHOAKS系统项目主要用于帮助用户在WWW上查找相关的信息。20世纪90年代中期,陆续出现了一些关于协同过滤方面的文章[4,5],推荐系统成为独立的研究领域,得到广泛关注。
1996年召开的协同工作会议CSCW’96、1998年召开的第十五届国际人工智能会议AAAI-98等开始将电子商务推荐系统作为重要的会议主题。2006年9月12日-13日,ACM和SIGCHI在西班牙的Bilbao组织召开了名为“Recommender’06:The Present and Future of Recommender System”的研讨会,对推荐系统的技术方法、应用领域、发展前景进行了深入的交流。2007年10月19日-20日ACM在美国的Minnesota组织召开了第一届推荐系统国际会议Rec-Sys2007,为推荐系统相关研究人员提供了一个良好的交流平台。RecSys2008于2008年10月23日-25日在瑞士Lausanne召开。
目前关于推荐系统方面的理论研究主要集中在以下几个方面:
(1)推荐技术和算法,推荐技术主要包括基于内容过滤、协同过滤推荐技术、基于知识的推荐技术。
基于内容过滤是信息检索领域的重要研究内容[6],通过学习用户已经评价过的项目的特征来获得对客户兴趣的描述,或者说:基于内容过滤的推荐系统分析资源的内容信息,根据用户以往的兴趣建立用户特征(Profile),然后根据用户特征与新的资源内容之间的相似性,向用户提供推荐。在基于内容过滤的推荐系统中,Bayes模型、遗传算法及其它一些机器学习技术也被用于用户特征的建立。比较具体代表性的基于内容过滤的推荐系统包括:Malone等人提出的电子邮件系统信息过滤系统;Stanford大学提出的信息过滤工具SIFT;音乐过滤系统LyricTime等。
协同过滤推荐技术无须建立用户特征,而是根据其他类似用户对项目的喜好向用户进行推荐。由于协同过滤方法无须分析资源的内容信息,因而自诞生之后,就获得了比基于内容过滤方法的推荐技术更为广泛的应用。目前关于协同过滤技术方面的研究主要集中在算法的改进方面。
基于知识的推荐技术:通过推断用户的需求来做出推荐,这种推荐系统具有特定项目满足特定用户需要的知识,由此推断出用户与推荐项目之间的关系。
(2)推荐质量控制与度量。由于在网络环境下,推荐系统处理的数据具有高维、稀疏等特点,因此一方面,如何有效地提高推荐质量(如:推荐系统的实时性,推荐结果的准确性等)是目前的一个研究热点;另一方面,推荐系统评价指标和体系也是重要的研究内容。
(3)推荐系统中的隐私保护及安全问题。由于推荐系统需要分析用户的偏好及行为特征,所以在提供推荐服务的同时如何有效地保护用户隐私、如何有效地保障系统安全等问题是值得研究的。
推荐系统最早的应用领域是电子商务系统[7],这也是其最为成功的应用领域之一。推荐系统在电子商务系统中,模拟商家销售人员向用户提供商品推荐,提高用户搜索商品的效率,商家也可以通过推荐系统保持有效客户。目前几乎所有的大型电子商务系统,如Amazon.com,eBay等,都不同程度地使用了各种形式的推荐系统。
随着推荐系统研究的深入,推荐系统的应用领域也得到了广泛拓展[8],如图书馆的联机数据检索、网络信息检索、数字电视节目收看等各种信息服务都开始或已经应用了相关推荐算法。
3 研究展望
目前推荐系统研究虽然仍然存在一些不足:(1)缺乏个性化的推荐,很多的推荐结果是针对所有客房的,是非个性化的推荐。造成这种现象的原因是在网络环境下没有描述用户的兴趣偏好及其动态变化情况的有效机制和模型;(2)推荐系统的自动化、智能化程度较低,大多数的推荐系统都需要用户与计算机的交互,由用户输入自己的兴趣信息,推荐系统不能通过保存的客户自动推理、学习用户的兴趣,从而在面对海量的文献数据,推荐系统无法高效、快捷地搜索出用户真正感兴趣的文献等;(3)电子商务应用领域的推荐技术和理论研究成果较多,但网络环境下科技文献共享领域的推荐技术和理论研究成果尚不多见。本课题拟针对网络环境下的文献共享这一课题开展用户偏好描述、文献协同推荐等内容开展深入的研究,以促进网络环境下的文献快速共享方法进一步走向实际。
目前下列几个方面的内容值得进一步开展更多的研究。(1)研究有效的基于数据挖掘技术的协同过滤推荐策略和方法——源于数据的高维、稀疏、海量特性。由于网络上资源信息非常庞大、且呈指数规模在不断增长,若采用传统的协同过滤推荐方法,在整个用户空间、资源信息空间进行搜索的话,这是非常耗时的,是无法满足在线论文共享需求的。因此,考虑将数据挖掘技术(关联分析、聚类)引入到推荐系统中,实现对用户空间、资源信息空间进行降维和提高传统的协同过滤推荐方法效率的目的,以提高推荐系统的实时性、针对性。第一种情况——尽可能准确,首先从用户过去的行为数据中,提取出用户行为模式(聚类、分类)、行为特征、偏好信息,然后在推荐过程中通过度量用户偏好与项目之间的相似度,有针对性地推荐用户真正感兴趣的信息。第二种情况——尽可能完全,首先对用户指定的搜索关键词适当泛化,然后以泛化后的关键词进行搜索。如:给定关键词“中科大”,则应将“科大/中国科大/中国科技大学/中国科学技术大学”作为类似关键词进行搜索,还比如关键词“数据挖掘”,则“知识发现”也应该作为类似关键词进行搜索,搜索结果同样也可能是用户感兴趣的内容。这种泛化,其本质是将类似关键词的搜索结果同时提供给用户;另一种含义是将关键词所属的类作为新的搜索关键词,如有关键词“本田”,则可以将所有属于“轿车”类别的信息提供给用户。(2)实现基于语义的信息检索及基于语义的推荐技术。(3)用户隐性偏好挖掘。早期的推荐系统只需通过用户的直接输入的关键词等获取简单的用户信息,随着推荐系统应用领域的不断扩展,需要考虑用户多兴趣、用户兴趣的动态变化、特别是用户的隐性偏好需求。(4)隐私保护问题。
[1]A.M.Rashid.Mining Influence in Recommender Systems[M].Minneapolis,Minnesota:University of Minnesota,2007.
[2]E.Rich.User Modeling via Stereotypes[J].Cognitive Science,1979,3(4).
[3]D.Goldberg,D.Nichols,B.M.Oki,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12).
[4]W.Hill,L.Stead,M.Rosenstein,et al.Recommending and E-valuating Choices in a Virtual Community of Use[C].In:proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems(CHI95),Denver,Colorado,USA,ACM Press,1995.
[5]U.Shardanand,P.Maes.Social Information Filtering:Algorithms for Automating ‘word of Mouth’[C].In:Proceedings of ACM CHI’95 Conference on Human Factors in Computing Systems,Denver USA,ACM Press,1995.
[6]N.Belkin,B.W.Croft.Information Filtering and Information Retrieval:Two Sides of the Same Coin?[J].Communication of the ACM,1992,35(12).
[7]J.B.Schafer,J.A.Konstan,J.Riedl.E-Commerce Recommendation Applications[J].Data Mining and Knowledge Discovery,2001,5(1).
[8]B.P.S.Murthi,Sumit Sarkar.The Role of the Management Sciences in Research on Personalization.ManagementScience,2003,49(10).
C931.6
A
1002-6487(2011)09-0168-02
国家社会科学基金资助项目(09BTQ019);教育部人文社会科学研究青年项目基金资助(07JC870006,09YJC870001);安徽高校省级自然科学研究重大项目资助(KJ2010ZD01)
徐 勇(1978-),男,安徽泾县人,博士,副教授,研究方向:数据库技术、数据挖掘、信息安全。
(责任编辑/浩 天)