浅谈基于内容过滤的数字图书馆推荐系统研究
2013-04-29车毅光陈泽波
车毅光 陈泽波
【摘 要】随着管理系统的广泛应用,信息数据在飞速增长,一方面人们拥有了海量的信息资源,另一方面人们寻找合适信息的时间成本和难度也增加了。目前广泛采用的信息检索技术只能够向用户提供数量巨大的、缺乏个性化的检索结果。推荐系统是一个由人、计算机软硬件和数据资源共同组成的系统,它把用户对目标对象的使用、评价等相关数据按照特定算法模型进行处理,根据处理的结果形成推荐列表,进而为用户选择决策时提供推荐参考。本文就基于内容过滤的数字图书馆推荐系统展开研究和探讨。
【关键词】内容过滤;数字图书馆;推荐系统
1.基于内容过滤的推荐方法的特点
1.1 基于内容过滤的图书推荐系统的原理
基于内容的推荐系统(Content-based
Recommendation)也被一些学者称为“Fea-
turebased Recommendation”,其技术方法主要源于“信息检索(Information Retrieval,IR)”。最初的基于内容的推荐系统根据用户对内容的偏好,自动检索过滤众多内容,选择一些与用户偏好匹配度高的信息推荐给用户。
基于内容过滤的图书推荐系统根据读者的兴趣向量在图书特征向量中自动寻找与之匹配的产品,并依据相似度的高低顺序,产生推荐图书序列表,进而主动向读者推荐产品。读者兴趣向量主要包括读者的专业、学历、导师等身份信息和历史借阅、查询数据等信息,据此建立读者模型。图书特征向量主要是指经过人工著录的图书书目数据库,包含了书名、责任者、主题词、出版社、ISBN、出版日期等信息。当某本图书的特征向量与读者的兴趣特征向量产生较大交集(即较大效用值)时,系统就把该图书作为读者的备选推荐产品。系统再依据效用值的大小对备选产品进行排序,最后向用户推荐。
基于内容过滤的图书推荐系统的主要分为以下四个步骤:(1)读者兴趣向量的建模与表达,图书特征向量的建模与表达;(2)在同一向量空间下,计算读者兴趣特征向量与图书特征向量的相似度;(3)根据相似度的大小对结果进行排序,取前几位图书产生推荐列表;(4)若读者兴趣特征模型产生更新,或增加新的图书特征向量模型则返回步骤1。
1.2 基于内容过滤的推荐系统的优点和存在问题
基于内容过滤的推荐系统利用资源和用户兴趣的相似性来过滤信息,它的关键问题是相似性计算,优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。基于内容过滤的推荐系统根据用户查询内容而进行推荐,其推荐结果具有短期效应,适合电子购物系统。而对于拥有长期用户的系统来说,则没有充分利用用户的历史数据尤其是相似用户的相关数据,缺乏推荐潜在兴趣产品的功能。
1.3 内容过滤推荐系统有利于充分开发数字图书馆资源
数字图书馆的建设不应该仅考虑组织众多的数字化资源,被动地等待用户前来选择,而应以用户为中心,整合数字资源,提供主动的信息服务。构建一个融多种技术为一体的信息推荐系统。在数字图书馆的环境下,图书文献信息的种类和数量都非常多,用户不可能像在实际的图书馆那样直接选取所需的文献资料。因此,数字图书馆应该充分揭示有关信息,自动推荐用户可能感兴趣的图书文献,实现数字资源的深层次挖掘分析,提高其使用价值。
1.4 基于内容过滤推荐是数字图书馆环境下的基本需要
数字图书馆具有信息量庞大、内容繁杂、形式多样、数据对象异构、分布式存储等特征,用户选择和利用所需信息比较困难。数字化图书馆虽然提供服务的方式与传统图书馆有些不同,但为用户提供高质量的服务的职能却没有改变。通过对信息资源的推荐有助于用户作出正确的评价和选择,使价值高的信息资源能够充分被利用。
2.基于读者文件的内容推荐算法
为了计算读者与推荐图书的相似度,首先需要将读者的兴趣表达出来以供系统识别和计算。读者的兴趣在系统中表示成读者兴趣文件,文件应该包括读者兴趣的内容并用系统可以理解的形式表达出来。读者兴趣文件是图书推荐系统的重要组成部分,是推荐算法的重要依据。
读者的兴趣主要受到读者的专业、身份、借阅行为等信息影响。根据系统建模工程方法,本文将读者的信息抽象为属性和操作。读者的属性主要指读者的专业、身份、职称、研究方向等较为固定的静态信息。这些可以从图书馆管理系统的读者数据库中获取,也可以通过读者自行修改完善个人信息而获得。读者的操作主要是指借阅、查询等行为信息。该信息可以从图书馆管理系统中的流通数据库中获得。本文假定读者在图书管理系统中的操作行为都因兴趣动机而起,因此操作行为可以反映读者的兴趣特征。于是本文通过对操作行为的研究揭示读者兴趣。
根据兴趣的时效性,将用户的兴趣模型概括为近期兴趣和长期兴趣。近期兴趣主要依据读者的近期借阅、查询行为而产生,具有高效用性、亟需性和短期性等特性。长期兴趣主要依据读者的专业、身份等静态属性而产生,具有高匹配性、稳定性和长期性等特性。
与读者的操作行为产生关联的读者属性通常为读者的专业、课程、研究方向、身份、职称、年龄、性别、兴趣爱好等。
表1 读者属性列表
专业 课程 研究方向 职称 年龄 性别 兴趣爱好
教师
学生
其他
读者属性可以通过读者个人ID信息自动抽取或通过读者主动填写个人资料获取。
读者的操作信息主要记录了读者的外借图书信息,检索、下载的文献信息。
表2 读者操作信息列表
外借 图书信息
借阅时长
评价
检索下载 内容主题
评价
在基于内容过滤的图书推荐系统中,从读者的属性列表和操作信息列表中提取若干兴趣特征词,形成读者兴趣特征向量。因此采用读者的兴趣向量模型来表示读者兴趣文件。在介绍图书特征向量的表示之前,本文先对向量空间模型加以说明。向量空间模型(Vector Space Model,VSM)是由康奈尔大学G.Salton教授提出的,把文本简化为以向量分量的权重为分量的向量表示,把文本处理过程简化为空间向量的运算,使问题复杂性大大降低,关键是基于空间向量模型的。
在读者兴趣特征向量建立后,需要对此进行定量化表达,以便推荐系统能够进行精确计算。在图书推荐系统中,采用对不同的兴趣特征赋予不同的权重,以达到对特征向量的量化处理。权重值依据喜爱程度从低到高表示为-1分到1分不等。未曾获得读者评价的特征值表示为0分。读者的近期兴趣特征值和长期兴趣特征值应该赋予较高的权重。当读者的操作信息表更新,读者的近期兴趣特征值就相应变化。而读者的长期兴趣特征值则应保持稳定的权重值,除非读者的属性表中更新了读者的研究方向、专业、兴趣爱好等信息。
3.基于读者文件和图书文件相似度计算
在读者文件和图书文件建立之后,需要将二者进行相似度计算。通过计算,可以精确计算读者与图书的匹配度,从大量图书中迅速过滤出与读者兴趣匹配值高的图书,进而形成推荐列表,帮助读者选择图书。
3.1 几种常见的相似度计算方法
计算相似度的方法比较多,常见的有余弦相似性计算法、皮尔森相关系数法和改进的余弦相似性法。如今许多计算方法都是基于这三种方法做出的修正和改进。下面对这三种方法分别简要介绍。
(1)余弦相似性(Cosine):在信息检索领域,两篇文档之间的相似度往往通过把文档看作是一个词频矢量,然后计算两词频矢量的夹角余弦来表示。同样,也可以将这种方法用于图书推荐系统,将读者对图书的评分看作为n维图书空间上的向量,如果读者对图书没有进行评分,则将读者对该图书的评分设为0,读者间的相似性通过矢量间的夹角余弦来度量。设读者i和读者j在n维图书空间上的评分分别表示成,则读者i和读者j之间的相似性sim(i,j)为:
其中,分子为两个读者评分向量的内积,分母为两个读者评分向量模的乘积。
(2)皮尔森相关系数(Pearson):也称为相似相关性(Correlation)。假设读者i和读者j共同评分过的图书集合用Ii,j表示,则读者i和读者j之间的相似性sim(i,j)可以通过Pearson相关系数来度量:
其中,Ri,c表示读者i对图书c的评分,分别代表读者i和读者j的平均评分。
3.2 形成推荐列表,帮助读者选择图书
读者文件与图示文件的相似度值计算出来以后,重复N次计算,得到读者文件与所有图书文件的相似度值。按照值的大小,从高到低依次排序。选取前几项,查检对应的图书,形成推荐列表,推荐给读者。
4.结语
随着信息网络的广泛应用,信息数据在飞速增长,一方面为人们提供了极为丰富的信息资源,另一方面也增加了人们寻找合适资源的时间成本和难度。人们在信息领域的个性化需求,必将推动推荐系统的快速发展。当推荐系统进一步成熟并在现实网络中得到广泛深入的应用,人们将享受到推荐系统所带来的人性化的推荐服务。
参考文献:
[1]谢琳惠.推荐系统在高校数字图书馆的应用[J].现代情报,2006(11):72-74.
[2]黄希全.数字图书馆推荐系统中用户偏好的建模方法[J].情报杂志,2006(1):28-30.
[3]张俊,黄水清.国内外数字图书馆个性化信息服务系统的功能与特征比较研究[J].情报理论与实践,2005,28(6):609-612.
[4]陆觉民,郑宇.数据挖掘技术的改进在图书馆个性化服务中的应用[J].现代图书情报技术,2006,140(8):65-68.
[5]高凤荣.个性化推荐系统关键技术研究[D].人民大学博士论文,2003,11.