数字图书馆个性化服务资源推荐模式分析❋
2014-12-25
(中南大学图书馆 湖南长沙 410083)
1 数字图书馆个性化资源推荐服务
在数字图书馆信息服务中,个性化推荐是根据读者特征、偏好以及对资源访问行为进行分析和挖掘,来识别读者兴趣、资源的关联以及具有相似访问行为的读者群,来向读者推荐其感兴趣的信息,过滤掉和读者无关的信息。〔1〕
数字图书馆个性化资源推荐服务系统包括三个重要的模块:读者兴趣模块、推荐资源对象模块和推荐算法模块,资源推荐系统模型如图1所示。
图1 资源推荐系统模型
推荐系统把读者兴趣模型中的需求信息和推荐资源对象中的特征信息相匹配,同时使用相应的推荐算法进行计算和筛选,找到读者可能感兴趣的资源对象,然后推荐给读者,读者兴趣通过显示或隐示的方式从读者对资源的访问行为中获取。
2 读者兴趣建模
要向读者提供高效、准确和个性化的资源推荐,推荐系统应能获取体现读者多方面的、动态变化的兴趣和爱好,并为读者建立兴趣模型,该模型能获取、表示、存储和更新读者的兴趣,并对读者进行分类,理解读者的需求和任务,从而形成读者兴趣描述文件。〔2〕
图2 读者兴趣建模的过程
读者兴趣建模的过程如图2所示,包括读者信息的获取、读者兴趣模型的表示方法和兴趣的更新方法。
读者信息的获取是建立兴趣模型的数据基础,在数字图书馆信息服务系统中,能反映读者兴趣偏好的数据主要有以下三种:(1)读者属性:这是读者最基本的信息,一般存在图书自动化管理系统的读者表中,包括读者的姓名、性别、年龄、院系、班级、专业、学历等。利用这些自然属性可进行读者兴趣的初始建模;(2)图书馆各业务管理系统中与读者相关的信息:如图书自动化管理系统中读者的借阅信息,参考咨询系统中读者的咨询信息,数据库系统中读者的学术成果信息,甚至学校教务系统中学生的课程信息等。这些信息是读者在工作和学习过程中所产生的,真实体现了读者的资源需求;(3)读者对资源的访问行为信息:读者对资源的访问行为体现了读者的兴趣和需求,包括检索行为、阅读和下载行为以及读者对资源的收藏、定制、评价和反馈等,这些信息一般以日志的形式记录在读者个人信息空间中,它更能体现读者兴趣的实时变化。
读者兴趣建模中输入信息的获取方式有显式、隐式和启发式三种。〔3〕(1)显式获取方式是读者主动提供个人感兴趣的学科主题、领域关键词和研究方向等;(2)隐式获取是通过跟踪读者对资源的访问行为和图书馆业务系统的操作行为,来对读者的兴趣进行推理。(3)启发式是在读者不清楚图书馆的资源或意识不到自己兴趣主题时,以问卷调查的模式启发读者提供资源需求和偏好。
读者对不同类型资源的兴趣程度,可能随着时间而发生变化,甚至转移。因此,在兴趣模型中应反映出读者对资源的长期兴趣、短期兴趣和兴趣程度。建模的对象可以是面向单个读者也可以是面向读者群,其中,面向读者群的兴趣建模,反映出具有相同兴趣偏好的读者,有利于协同推荐。
读者兴趣模型的方式方法,决定了推荐系统获取读者感兴趣信息和追踪用户兴趣的能力,其方式方法有四种。(1)以读者感兴趣的主题或关键词来表示读者兴趣模型的方法。这种方法列出了用户可能感兴趣的领域,但不能表达详细的内容及对每个领域感兴趣的程度。(2)基于向量空间模型方式方法是目前为止在推荐系统和信息检索领域用户建模时最流行的用户模型方式方法。〔4〕(3)基于评分矩阵的方式方法。〔5〕一般读者对某个资源评分越高表示读者对此资源越感兴趣,在协同过滤推荐系统中经常使用这种方法。(4)基于本体的用户模型方式方法。〔6〕本体通常自上而下采用概念树的形式,每个节点表示用户的一个兴趣类,它能够最大限度地实现知识的共享和重用。
3 推荐资源对象建模
对资源对象的描述一般有基于内容的方法和基于分类的方法。对于网络资源,由于其非结构化特性,没有统一的标准进行描述,一般采取以基于内容的方法从对象本身抽取信息来进行描述。资源对象的文本信息提取技术相对比较成熟,但资源对象不一定具有文本特征或文本描述不足。对于图书馆文献资源,其类型包括图书、期刊、学位论文、会议论文、报纸和专利等。其分类和描述相对网络资源非常成熟,普遍采用MARC或DC标准进行著录和描述,其分类一般采用中图法或科图法。所以推荐资源对象的建模可采用基于学科分类的方法,每个资源对象都有与之相对应的一个或多个学科分类,与读者兴趣模型中的兴趣描述(学科主题)相对应。
4 资源推荐模式分析
资源推荐模式(或称资源推荐策略)是推荐系统中最为核心和关键的部分,它决定了推荐系统的类型、性能和推荐效果。常见的资源推荐策略根据使用数据的不同分为基于内容的推荐、协同过滤推荐、基于关联规则的推荐和混合推荐等。〔7〕
4.1 基于内容的资源推荐模式
4.1.1 资源对象内容和读者兴趣相似性的推荐。系统首先提取资源对象的元数据信息或文档内容,和读者兴趣模型中的读者兴趣偏好进行计算匹配,匹配度较高的资源可推荐给读者。例如,在进行图书资源推荐时,系统从兴趣模型中分析读者对哪些主题的图书感兴趣,然后从图书资源中选择和读者兴趣点相似的图书推荐给读者。这种推荐策略适合读者兴趣比较明确的读者。
4.1.2 资源对象内容和读者检索结果相似性的推荐。在读者进行文献检索时,输入检索词后,会显示检索结果的资源列表,在点击某条文献的标题时,会显示此文献的详细信息。在检索结果列表页面,可将与检索词最相关的文献排在前面,推荐给读者。例如:超星学术搜索中的相关性排序,在文献的详细信息页面,可将与此文献相关的其他类型文献也展现给读者;中国知网数据库的文献详细页面,也展示了与文档相关的各种类型的资源。计算资源对象的内容特征与读者兴趣特征(或检索结果文献)之间的相似性是该推荐策略中关键部分,常用的内容相似性计算方法有余弦相似度、皮尔森相关系数和矫正余弦相似度。〔8〕
4.2 基于协同过滤的资源推荐模式
协同过滤〔9〕是一种在推荐系统中广泛采用的推荐方法,这种算法基于一个假设,喜欢相同项目的用户更有可能具有相同的兴趣。
4.2.1 基于用户的协同推荐。即用户选择某个推荐对象是基于朋友(其他用户)的推荐。在数字图书馆可理解为基于读者的协同推荐,其过程为:要向某个读者推荐资源,首先找到一组与该读者具有相似兴趣偏好的读者,将他们最感兴趣的资源作为推荐对象推荐给该读者。一个简化的图书资源推荐示例是:假如读者张三有两个共同偏好的读者李四和王五,张三阅读了图书A,李四阅读了图书A、B、C和D,王五阅读了图书A、B、D、E和F。这样,推荐系统就能够过滤出相似读者都阅读了的图书B和D,会把它们作为张三最有可能喜欢的图书推荐给张三。在基于用户的协同推荐策略中,推荐资源对象集的产生方式意味着资源只有被读者借阅后才有机会被推荐给其他读者。对于数字图书馆来说,新进的图书、期刊等资源,因为还没有被相当数量的读者来借阅,便很少有机会被筛选进入推荐集,这个问题,也被称为协同过滤的“冷启动”问题。〔10〕
4.2.2 基于项目的协同推荐。基于项目协同推荐是通过计算内容项之间的相似性来代替用户之间的相似性。其面向资源进行协同推荐的基本原理是:使用所有读者对文献资源的访问信息,发现资源和资源之间的相似度,然后根据读者的历史偏好信息,将类似的资源推荐给读者。假设读者 A喜欢资源 A和资源C,读者B喜欢资源A、资源B和资源C,读者C喜欢资源A,从这些读者的历史喜好可以分析出资源A和资源C是比较类似的,喜欢资源A的人可能会喜欢资源C,基于此,可以推断读者C很有可能也喜欢资源C,所以系统会将资源C推荐给读者C。基于项目方法所推荐的资源是某类资源中众多读者信任的资源,但此方法忽略了相似读者之间的群组特征,使得推荐精度不如基于用户的方法。
4.2.3 基于模型的协同推荐。以用户和以项目为基础的协同推荐共有的缺点是数据稀疏,难以处理大数据量,影响即时推荐结果,因此发展出以模型为基础的协同推荐。以模型为基础的资源协同推荐是先用读者对资源的访问历史数据为样本,得到一个读者兴趣偏好模型,再用此模型预测读者资源需求,根据资源对象内容和读者兴趣的相似性进行推荐。这一方法中,建立基于读者访问行为的兴趣模型是核心,常用的方法有机器学习、统计模型、贝叶斯模型、概率相关模型和线性回归模型等。〔11〕
4.3 基于关联规则的资源推荐模式
数据挖掘是指以某种方式对数据进行分析,从中发现一些潜在的有用的信息。关联规则挖掘则是数据挖掘技术中的一项重要技术,它是从大量数据背后发现事物之间可能存在的关联,为管理和服务提供决策支持。
文献资源的关联挖掘是通过对读者历史访问数据进行分析,发现文献资源的关联,来进行信息的推荐服务。基于规则中变量的类型可分为布尔型关联规则和数值型关联规则,基于规则中数据的抽象层次可分为单层关联规则和多层关联规则,基于规则中涉及的数据的维数可以分为单维的和多维的。〔12〕
例如规则:主题=“文献学”=>主题=“目录学”,表示访问主题为“文献学”的读者也可能访问“目录学”的资源,这两个主题属于同一层次,值是离散的,属于布尔型单层关联规则。
例如规则:主题=“图书馆管理”=>主题=“图书馆统计”,是一个较高层次和较低层次之间的多层关联规则。
例如规则:专业=“图书馆学”,文化程度=“学士”=>主题=“图书馆,分类法,文献检索,信息管理”,这条规则涉及到三个字段的信息,是三维上的一条关联规则,属于多维关联规则。
基于关联规则的资源推荐,一般转化率较高,因为当读者已访问了频繁集合中的若干资源后,访问该频繁集合中其他资源的可能性更高。
4.4 混合模式的资源推荐
各种推荐策略都有其优缺点。因此,在实际推荐中,混合推荐经常被采用,通过组合不同的推荐策略,来扬长避短,产生更加符合读者需求的推荐。目前应用最多的是内容推荐和协同推荐的混合。其思路有两种:(1)推荐结果的混合。这种混合方式是利用两种或多种推荐策略产生推荐结果,然后用某种算法把所产生的推荐结果进行混合,得到最终的推荐结果。如何从中选择读者感兴趣的推荐结果是该算法的重点,这需要和读者兴趣模型相结合。(2)推荐算法的混合。以一种推荐算法为基础,混合另外一种推荐算法。如协同推荐的框架内混合内容推荐,或基于内容推荐的框架内混合协同推荐,基于关联规则的推荐中混合内容推荐或协同推荐等。
5 资源推荐服务的重点难点和发展趋势
5.1 读者统一身份认证
由于资源个性化推荐是针对读者来进行,在数字图书馆服务中,读者需要有一个统一的身份,方便图书馆对读者偏好信息的获取。然而,图书馆存在众多的信息服务系统,如OPAC系统、图书馆门户、校外访问系统、参考咨询系统、资源检索系统等,这些服务系统的身份认证机制各不相同,导致读者使用这些系统时都需要输入不同的账户和密码信息,增大了认证的复杂度,降低了图书馆服务的易用性。实现数字图书馆统一的身份认证,甚至与学校一卡通身份信息对接,可方便读者使用图书馆的服务,提高资源的利用率;同时,为数字图书馆个性化推荐服务提供一致的读者身份信息。因此,如何实现统一身份认证已成为图书馆亟需解决的重要问题。
5.2 读者个人信息空间
对个性化推荐服务系统来说,最重要的是读者的参与。通过与图书馆各业务系统的统一身份认证、与各业务系统应用和数据的集成,来获取读者的特征信息和行为信息。读者个人信息的内容包括:个人认证信息及基本信息、个人文献收藏信息、个人成果信息、图书馆业务功能的集成、读者资源访问行为信息、资源和空间定制信息等。读者个人信息空间中记录了读者的这些特征和行为,反映了读者的兴趣和偏好。因此,如何集成读者的个人信息和对资源的访问行为,构建一个反映读者兴趣的个人信息空间,成为数字图书馆个性化推荐系统建设的重点。
5.3 基于元数据的文献资源集成检索
基于元数据的异构文献资源集成检索,可为数字图书馆个性化推荐服务提供数据保障。要获取每个读者的资源访问行为,就需要对分散异构的资源进行整合,为读者提供统一的检索服务。集成检索不但方便了读者发现和获取文献资源,同时也可获取到读者对资源的访问行为,如检索、浏览、阅读和下载等,为读者兴趣的分析和资源推荐提供数据基础。近年来,文献资源的集成检索,也称为资源发现系统,成为数字图书馆讨论的热点。
5.4 资源推荐系统的安全性
为读者提供信息资源的推荐,需要在系统中记录读者的兴趣偏好等信息,但读者担心个人隐私信息得不到保护而不愿提供个人信息,这是推荐系统长期存在的一个问题。因此,既能获取读者信息又能有效保护读者的个人隐私也是资源推荐系统需考虑的一个重点。
1.熊拥军.数据挖掘在数字图书馆个性化服务中的应用.中南大学硕士论文,2005
2.王巧荣,赵海燕,曹健.个性化服务中的用户建模技术.小型微型计算机系统,2011,32(1):39 -46
3.王丹.基于用户兴趣的个性化信息检索分析与研究.江西理工大学硕士论文,2010
4.吴丽花,刘鲁.个性化推荐系统用户建模技术综述.情报学报,2006,25(1):55 -62
5.Weng S S,Lin B S,Chen W J.Using contextual information and multidimensional approach for recommendation.Expert System with Applications,2009(36):1268 -1279
6.宋丽哲,詹赤兵,王胜海.基于本体的数字图书馆个性化用户模型表示.中文信息学报,2008(1):99-103
7.郭艳红.推荐系统的协同过滤算法与应用研究.大连理工大学博士论文,2008
8,9.杨杰.个性化推荐系统应用及研究.中国科学技术大学硕士论文,2009
10.孙小华.协同过滤系统的稀疏性与冷启动问题研究.浙江大学博士论文,2005
11.欧洁,林守勋.个性化智能信息提取中的用户兴趣发现.计算机科学,2001,28(3):112 -115
12.王金燕.基于关联规则的告警相关性分析及在数据网管系统中的应用.西安电子科技大学硕士论文,2006