协同信息推荐:一种数字图书馆个性化信息服务新模式❋
2011-03-18吴志强王义翠马慧娟
吴志强 王义翠 马慧娟
(1.武汉大学信息管理学院 湖北武汉 430072;2.湖北省图书馆 湖北武汉 430060)
作为社会信息基础设施之一的数字图书馆,是以信息、知识资源为支撑的信息服务和知识服务环境,承担着为用户提供信息服务的重要责任。个性化信息服务是提高图书馆信息服务质量和信息资源使用效率的重要手段,它以用户为中心,根据用户的个性化需求开展信息服务,具有很强的针对性和主动性,已成为数字图书馆的主要服务模式。然而,随着数字资源越来越多,人们获取有用资源的可能性越来越小。面对这种现实,如何为用户提供有效的个性化信息服务,是数字图书馆建设面临的重要问题。个性化信息推荐服务是一种在分析预测用户个体信息需求基础上向用户主动提供其可能需要但又无法获取的信息资源的服务方式,是解决这一问题的重要方法之一,而基于用户-资源协同驱动的个性化推荐模式则是个性化信息推荐服务的主要模式。提供个性化协同信息推荐服务在电子商务领域已经有了广泛应用,一些大型的电子商务网站如Amazon.com就用它来实现对目标用户的商品信息推荐,主动向目标用户推荐其可能需要或者最感兴趣的商品信息。这种主动向用户提供其最感兴趣资源的信息推送服务方法和技术正是数字图书馆在进行个性化信息服务时所需要的。本文分析协同推荐系统应用于数字图书馆的可行性,并构建数字图书馆协同信息推荐服务模型。
1 协同推荐算法及其协同推荐系统
协同推荐算法是个性化信息推荐服务及其实现的基础,又被称之为协同过滤算法(CF,Collaborative Filtering)。协同过滤算法主要应用在电子商务领域,其目的是从用户已有的消费记录中快速、准确地推荐目标用户可能最感兴趣的商品(资源)。协同过滤这一概念首次由Goldberg、Nicols、Oki及Terry(1992)提出并应用于一个小型的Tapestry系统中〔1〕。作为协同过滤推荐系统的雏形,Tapestry展示了一种新的信息推荐思想,但存在许多技术上的不足。其后,Resnick P、Iacovou N和 Suchak M(1994)对该算法进行了改进,设计了基于评分的协同过滤算法,并应用到了自动协同过滤推荐系统中,如用来推荐新闻和电影的GroupLens〔2〕。
协同过滤算法主要有两种类型:基于用户的协同过滤推荐算法〔3-4〕和基于资源(项目)的协同过滤推荐算法〔5-8〕。基于用户的协同过滤推荐算法根据目标用户的最近邻居(最相似的若干用户)对某个资源(项目)的评分来预测目标用户对该资源(项目)的评分;基于资源(项目)的协同过滤推荐算法则认为用户对不同项目的评分存在相似性,当需要估计用户对某个项目的评分时,可以用用户对该资源的若干相似资源的评分进行估计〔9〕。相似性计算是协同过滤推荐算法中最关键的一步,所用的方法主要有三种:余弦相似法、修正的余弦相似法以及Pearson相关相似法〔5-9〕。当系统向用户推荐资源时大多采用平均加权策略〔10-14〕。但是,随着系统规模的扩大,用户数量和资源项目数据急剧增加,造成用户-资源矩阵的极端稀疏性〔8〕、对新用户不能产生推荐的冷启动〔15-16〕以及推荐速度慢〔17-18〕等问题,从而导致用户最近邻居和项目最近邻居的计算准确性降低,推荐系统的推荐质量急剧下降,由此,人们利用BP神经网络法、贝叶斯分类法以及K-means聚类算法等方法来优化协同推荐算法。在协同过滤算法的应用过程中,Daniel Lemire和Anna Maclachlan(2005)等人还提出了Slope One算法〔19〕,该算法具有执行效率高、推荐正确性好等优点。
目前,利用协同过滤算法设计的信息推荐系统已得到广泛的应用,许多大型电子商务网站都利用这种系统实现对用户的资源推荐,如Amazon、CDNow、Drugstore 和 Moviefinder等〔20〕。
2 协同信息推荐应用于数字图书馆个性化服务的研究现状
协同信息推荐的核心在于根据用户的需求、兴趣爱好以及用户群体使用商品或对商品评价的历史信息,分析用户(或商品资源)之间的相似性,主动向目标用户推荐其可能需要或者最感兴趣的商品信息。这种主动向用户提供其最感兴趣资源的信息推送服务方法和技术正是数字图书馆在进行个性化信息服务时所需要的。然而,协同推荐系统在数字图书馆中并没有得到很好的应用。从文献调查的结果看,国外近年来才开始逐渐重视这一领域的应用研究,而我国则更是处在探索阶段。
2.1 国外对数字图书馆个性化协同信息推荐服务的研究现状
近年来,协同推荐系统逐渐应用到数字图书馆中,并正在成为该领域的主要研究主题之一〔21-22〕。Andre Vellino和David Zeber(2007)就认为,“一个学术论文推荐系统能提高科学家们从数字图书馆中发现新知识的能力。”〔23〕Andreas Geyer - Schulz、Andreas Neumann 和 Anke Thede(2007)等人为图书馆推荐系统设计了一个三层分布式体系结构〔24〕,并应用于加利福尼亚大学伯克利分校图书馆中。C.Porcel、J.M.Moreno和E.Herrera-Viedma(2009)等人借助模糊集理论设计了一个协同推荐系统以帮助大学数字图书馆用户获取研究资源〔25-26〕,其目的是通过协同推荐资源的方式去发现跨学科研究团体之间是否存在协作的可能性,从而提高大学在科学研究中的社会合作效率。
实际上,数字图书馆协同推荐系统的主要目的就是要实现用户的个性化服务。Nadine Dalton Speidel(2007)就指出,目前数字图书馆推荐系统的应用主要集中在信息和服务的个性化方面〔27〕。Grace Burchard(2007)认为,推荐系统的恰当运用可以成为数字图书馆的有力工具,当用户对推荐系统表现出兴趣时,数字图书馆就应该提供个性化的服务,利用图书馆推荐系统为用户提供及时、准确与适合的指导性资源〔28〕。
2.2 我国对数字图书馆协同信息推荐服务的研究现状
在我国,由于有关利用数字图书馆推荐系统来实现个性化信息服务的研究才刚刚开始,还处在实践探索阶段。李君君(2006)等人根据用户描述文件和资源描述文件,利用协同过滤推荐算法为用户提供个性化推荐服务提出了理论探讨〔29〕。为了使协同过滤推荐系统在数字图书馆中的应用能引起国内学界的关注,美国康涅狄格州立大学通信信息与图书馆学学院刘燕权博士在《图书情报工作》2007年第12期上组织了一期“推荐系统与数字图书馆”的专题文章〔27,30-32〕,以美国为背景,向国内读者分析并介绍了国外推荐系统技术在数字图书馆中的实践与经验,以推动我国学界对数字图书馆协同推荐系统的技术和应用研究。在应用方面,孙守义(2007)等人提出一种基于用户聚类的协同过滤个性化图书推荐系统的构想〔33〕;高凤荣(2007)等人通过组合基于评分的协同过滤算法和基于元信息的协同算法而形成混合协同算法,来实现数字图书馆的个性化服务系统〔34〕。
3 协同信息推荐在数字图书馆个性化信息服务中的重要作用
从国内外对协同信息推荐在数字图书馆应用的研究现状可以看出,协同信息推荐应用于数字图书馆个性化服务,创建数字图书馆协同信息推荐系统,在完善数字图书馆个性化信息服务、促进数字图书馆的建设与发展方面都具有重要的现实意义和理论价值。
3.1 在用户信息需求获取中的作用
在数字图书馆的个性化信息服务过程中,获取用户的个性化信息需求是其中基础而关键的步骤。一般情况下,系统利用用户注册时所提供的兴趣偏好作为用户信息需求的基础,然后利用用户在使用数字图书馆过程中所产生的信息行为挖掘用户潜在信息需求,补充用户信息需求的渠道。协同信息推荐算法则是根据相同(似)兴趣爱好的其他用户的信息行为,挖掘和引导目标用户的信息需求,开辟用户信息需求获取的新途径,以此来完善用户的信息需求,并将用户的信息需求转化为信息资源选择、集成、按需传递以及服务优化的动态过程。用户-资源的协同推荐改变以往图书馆只根据单个用户的信息需求提供信息服务这一传统方法,充分利用其他具有相同(似)信息需求的用户的信息活动,结合目标用户本身的信息需求,把其他用户从数字图书馆中所获取的有价值的信息资源推荐给还未获取该资源的目标用户,扩充目标用户对某一具体研究问题的信息获取量,挖掘和引导目标用户的信息需求,提供主动信息服务,从而提高数字图书馆的信息服务质量。
3.2 在提高数字图书馆信息资源利用效率中的作用
信息资源的价值在于它能为众多具有相同信息需求的用户所使用,以发挥其社会价值和经济价值。协同信息推荐充分利用了用户-资源的协同驱动,把有用资源推荐给更多的具有相似需求的其他用户,可以提高数字图书馆信息资源的利用效率。数字图书馆利用用户-资源的协同驱动机理进行个性化的信息推荐服务,目的就是要把这些有用的资源推荐给更多的用户,达到资源利用价值的最大化。
3.3 在提高用户利用图书馆获取知识中的作用
信息资源推荐服务可以提高用户利用图书馆获取知识的能力。对于用户(特别是广大的研究者)来说,全面收集有关特定研究主题的相关资源,掌握第一手资料,是分析、解决问题的重要前提。现实的情况是用户就某一研究主题苦于收集不全资料、无从获取有用的信息资源。数字图书馆个性化信息推荐服务根据用户的个性化需求,并结合其他用户及其信息行为的协同驱动,向目标用户推荐其需要但又还未获取的有用资源,用户在获取有用资源的同时也从中获取更多的知识,提高其研究能力。
3.4 在完善数字图书馆个性化信息服务理论和技术中的作用
用户-资源协同驱动的个性化信息推荐服务,可以创建一种新的数字图书馆个性化服务机制,为数字图书馆信息服务、知识服务的个性化提供新的理论支持和解决方案。利用用户与资源共同驱动的协同推荐技术为用户提供主动的信息推荐服务,在数字图书馆个性化服务的“以用户为中心、按需提供、主动服务、个性化服务”理念基础上增加了“用户-资源协同、按需提供与协同推荐统一”的协同信息服务理念,并通过协同推荐技术构建个性化信息推荐模型来实现这一理念,这将进一步完善数字图书馆个性化信息服务理论和技术。
4 基于协同推荐的数字图书馆个性化信息服务模型
数字图书馆要实现对目标用户的个性化信息推荐服务,关键在于个性化信息推荐模型的构建。构建个性化信息推荐服务模型的目的是要建立个性化推荐服务模型的体系结构,利用协同过滤推荐技术完成用户需求的分析、资源的获取以及资源向用户的协同推荐等一系列流程。
4.1 模型的体系结构
个性化信息推荐服务需要充分理解目标用户的个性化需求,同时还要结合其他拥有相似偏好用户的信息使用行为及其对资源的评价,把用户最需要的、但又未获取的信息资源推荐并推送给目标用户,因此基于协同推荐的数字图书馆个性化信息推荐模型可以如图1所示。
数字图书馆个性化信息推荐服务模型可以分为三层:资源层、业务逻辑层以及用户服务层。(1)资源层:一方面调度馆藏的各类数字资源,另一方面利用用户的共性需求,通过元搜索获取Web信息资源以及其他馆际共享资源,建立系统与外部资源的开放性链接;实现资源整合与管理。(2)业务逻辑层:储存用户利用资源的历史记录,执行用户-资源数据集的一致性维护,自动维护需求与信息资源之间的一致性;利用用户-资源共同驱动的协同过滤推荐算法实现资源的个性化推荐;把推荐的信息资源推送给用户的信息空间,实现用户的个性化推送服务。(3)用户服务层:为用户创建个性化信息空间用以接收系统推送的资源,同时也允许用户的自定义;储存用户的个性化信息需求,分析并维护用户信息需求;接受系统个性化推送服务的结果集,并提供友好、方便的信息导航、查询和信息资源的按需整合。
4.2 模型的协同推荐机制
协同推荐机制主要体现在业务逻辑层,其基本流程是:(1)数字图书馆的各用户在检索资源或者图书馆向用户推送资源的时候,用户根据资源与需求的匹配程度对所获取的资源进行评价,该评价信息被保存在用户-资源评分数据集中,作为协同信息推荐的基本组成部分。(2)系统根据各用户的信息需求及其信息行为对用户进行聚类,计算目标用户的邻居(即具有相似偏好的用户),从而获得目标用户及其相邻用户的信息需求。(3)根据用户-资源评分数据集中相邻用户的资源使用历史数据,并结合目标用户的信息需求,向目标用户推荐Top-N个资源。这些资源对于目标用户来说是其未曾获取的并且又是潜在有用的,其潜在有用性取决于相似偏好用户对该资源的高评价。(4)系统把这Top-N个资源主动推送给目标用户,在这一过程中,目标用户需要对这些资源进行评价,其结果也被保存到用户-资源评分数据集中,作为对其他用户进行信息推荐的基础数据。(5)系统动态、重复执行以上四个步骤,实现数字图书馆对各用户的个性化信息推荐及其推送服务。数字图书馆个性化协同信息推荐模型的实现不仅可以最大限度地挖掘目标用户的潜在信息需求,同时也实现向目标用户推荐并主动推送符合其信息需求的资源,提高了资源的利用效率。
图1 基于用户-资源协同过滤推荐算法的个性化信息推荐服务模型
5 结语
鉴于协同信息推荐对数字图书馆个性化服务的重要作用,本文从理论上提出了基于协同推荐的数字图书馆个性化信息推荐服务模型。该模型还需要通过技术实现以验证其可行性与可用性;同时该模型也需要在数字图书馆中进行应用研究,以体现数字图书馆个性化信息推荐服务的现实意义和实际应用价值。这将是我们下一阶段的研究内容和具体实践工作。
1.Goldberg D,Nichols D,Oki B M,et al.Using collaborative filtering to weave an information tapestry.Communications of the ACM.December,1992,35(12):61-70
2.Resnick P,Iacovou N,Suchak M,et al.GroupLens:an open architecture for collaborative filtering of netnews.In:Proceedings of CSCW'94,1994,175-186
3.Breese J,Hecherman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering.In:Proceedings of the14th Conference on Uncertainty in Artificial Intelligence(UAI'98),1998,43 -52
4.Y Chuan,X Jie-ping.Recommendation algorithm combining the userbased classified regression and the item-based filtering.In:Processing of the International Conference on Electronic Commerce,Proceedings -the new E-commerce:Innovations for Conquering Current Barriers,Obstacles and Limitations to Conducting Successful Business on the Internet,2006,574 -578
5.Arwar B,Karypls G,Konstan J,et al.Item -based collaborative filtering recommendation algorithms.In:Proceedings of the 10th International World Wide Web Conference,2001,285 -295
6.Karypis G.Evaluation of item-based top-n recommendation algorithms.In:Proc.of the Tenth International Conference on Information and Knowledge Management,2001,247 -254
7.Deng Ai-lin,Zhu Yang -yong,Shi Bai-le.A collaborative filtering recommendation algorithm based on item rating prediction.Journal of Software,2003,14(9):1621 -1628
8.Kim B M,Li Q,Park C S,et al.A new approach for combining contentbased and collaborative filters.Journal of Intelligent Information System,2006,27(1):79-91
9.Arwar B,Karypis G,Konstan J,et al.Analysis of recommendation algorithms for E - commerce.In:Processing of 2nd ACM Conference on Electronic Commerce,2000,158 -167
10.Goldberg D,Nichols D,Oki B M,et al.Using collaborative filtering to weave an information tapestry.Communications of the ACM.December,1992,35(12):61-70
11.Chedrawy Z,Abidi SSR.An adaptive personalized recommendation strategy featuring context sensitive content adaptation.In:Proceedings of Adaptive Hypermedia and Adaptive Web-based Systems,2006,4018:61-70
12.Lu Q Q,Huang G Q.A model of collaborative filtering in E- business recommendation system based on interest measure.In:Processing of the 5th Wuhan International Conference on e-business,vols 1-3 -Integration and Innovation Through Measurement and Management,2006,562 -567
13.Luo Y M,Nie G H.Research of collaborative filtering algorithm based on the semantic similarity.In:Processing of the 5th Wuhan International Conference on e-business,vols 1-3 -Integration and Innovation Through Measurement and Management,2006,2132 -2138
14.Tso K,Schmidt-Thieme L.Attribute-aware collaborative filtering .From Data and Information Analysis to Knowledge Engineering,2006,614 -621
15.Goldberg K,Roeder T,Gupta D.Eigentaste:a constant time collaborative filtering algorithm .Information Retrieval,2001,4(1):133-151
16.Al Mamunur Rashid,Istvan Albert,Dan Cosley,et al.Getting to know you:learning new user preferences in recommender systems.In:Proceedings of the 7th International Conference on Intelligent User Interfaces,2002
17.Tso K,Schmidt-Thieme L.Attribute-aware collaborative filtering .From Data and Information Analysis to Knowledge Engineering,2006,614 -621
18.Chedrawy Z,Abidi SSR.An item -based collaborative filtering framework featuring case based reasoning.In:Proceedings of the2005 International Conference on Artificial Intelligence,2005,286 -292
19.Daniel Lemire,Anna Maclachlan.Slope One Predictors for Online Rating-Based Collaborative Filtering .http://www.daniel-lemire.com/fr/documents/publications/lemiremaclachlan_sdm05.pdf.2005 -02 -07
20.Wu Yan,Shen Jie,Gu Tian -zhu,et al.Algorithm for sparse problem in collaborative filtering.Application Research of Computers,2007,24(6):94 -97
21.J.Webster,S.Jung,and J.Herlocker.Collaborative Filtering:a New Approach to Searching Digital Libraries.New Review of Information Networking,10(2):177-191,2004
22.A.F.Smeaton and J.Callan.Personalisation and Recommender Systems in Digital Libraries.International Journal on Digital Libraries,V5(4):299 -308,2005
23.Andre Vellino,David Zeber.A Hybrid,Multi-Dimensional Recommender for Journal Articles in a Scientific Digital Library.In:Proceedings of the 2007 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent A-gent Technology - Workshops.2007,111 -114
24.Geyer-Shulz A,Neumann A,Thede A.An architecture for behaviorbased library recommender systems.American Library Association.http://www.ala.org/ala/mgrps/divs/lita/ital/2204geyer.cfm.,2007 -07 -05
25.C.Porcel,J.M.Moreno,E.Herrera - Viedma.A multi-disciplinar recommender system to advice research resources in University Digital Libraries.Expert Systems with Applications 36(2009)12520-12528
26.C.Porcel,E.Herrera-Viedma.Dealing with incomplete information in a fuzzy linguistic recommender system to disseminate information in university digital libraries.Knowledge-Based Systems 23(2010)32-39
27.Nadine Dalton Speidel,Liu Yanquan.Are Recommender Systems Good for Libraries?.图书情报工作,2007(12):19-25
28.Grace Burchard.Recommender Systems and Digital Library Personalization.图书情报工作,2007(12):33-38
29.李君君,叶凤云.数字图书馆的个性化推荐策略.情报理论与实践,2006(4):458-460
30.Liu Yanquan.Utilizing Recommender Systems in Digital Libraries:Current Study and Tech Issues.图书情报工作,2007(12):6 -10,25
31.Liu Jingjin,Zhang Xiangmin.Document Recommender Systems:Approaches to Increasing Information Retrieval Effectiveness.图书情报工作,2007(12):11-18,32
32.Chen Jiangping.Services Provided by Digital Libraries:Current Status and Future Strategies.图书情报工作,2007(12):26-32
33.孙守义,王蔚.一种基于用户聚类的协同过滤个性化图书推荐系统.现代情报,2007(11):139-142
34.GAO Fengrong(高凤荣),XING Chunxiao(邢春晓),DU Xiaoyong(杜小勇),WANG Shan(王珊).Personalized Service System Based on Hybrid Filtering for Digital Library.TSINGHUA SCIENCE AND TECHNOLOGY,2007(1):1-8