APP下载

基于线性加权融合模式的图书资源推荐方法研究

2018-06-21谭亮周静

吉林省教育学院学报 2018年5期

谭亮 周静

摘要:随着计算机技术的发展,越来越多的书籍采用数字化方式进行出版,为解决信息过载,帮助读者快速查找到需要的图书资源,本文利用数字图书管理系统已有的用户信息、用户借阅等信息,采用线性加权融合模式,设计了一种基于图书资源内容过滤和用户隐式行为评分相混合的,并能应用于实际工程环境的图书资源个性化推荐模型,从而为读者提供快速、准确的个性化推荐服务。

关键词:资源推荐;内容过滤;隐式评分;线性加权融合

随着计算机技术的发展,越来越多的书籍采用数字化方式进行出版,数字图书资源已成为各级各类图书馆收藏的重点。面对指数级增长的数字图书资源,数字图书馆的建设已经从信息资源的数字化进入了信息整合、服务个性化的发展阶段;从用户被动查找数字图书到主动根据用户的兴趣和行为提供个性化的推荐服务。如何采用个性化推荐技术为读者提供快速、准确的图书推荐服务,是现代图书馆学研究的重点。

一、研究现状

近年来,电子商务领域的个性化推荐服务已有不少研究成果,并有研究成果应用于实际生产环境中。因此,有许多学者提出将数据挖掘相关技术应用到个性化图书推荐中,帮助读者快速、准确地找到自己想要的图书资源。通过对相关文献的分析和研究可以看出,目前国内对于图书推荐系统的研究,理论型偏多,主要通过以下3种方式实现图书资源的个性化推荐:第一种方式是分析用户的借阅历史,为用户推荐与其借阅记录中相类似的图书;第二种方式是挖掘用户的借阅行为,通过建立兴趣模型为用户推荐具有相似借阅行为用户的借阅信息;第三种是关联用户与图书的特征信息,通过发现用户与图书之间的关联特征或模式并生成关联规则,从而为用户推荐其可能感兴趣的图书…。从实现技术来看,针对以上3种方式提出了一些个性化的推荐技术,包括基于内容的个性化推荐、基于用户的个性化推荐、基于知识的个性化推荐以及组合推荐等。虽然目前已有多种推荐方法被用于个性化推荐领域,但是通过研究发现基于单一模式的推荐方式存在诸多的缺陷,现在有不少学者研究基于混合模式的推荐方法,通过组合尽可能地弥补和避免单一模式的弱点。从理论上讲,各种模式都可以组合,但是实际应用中,并不是所有的模式组合都会提升推荐的准确性,目前使用最多的是将内容推荐和协同过滤推荐相组合。在组合方式上,不同的组合方法适用于不同的应用场景,经过对文献的研究分析,可以将组合方式大致分为线性加权融合模式、交叉融合模式、瀑布型融合模式、特征融合模式、预测融合模式和分类器模式等5种。

线性加权融合模式简单易用,工程实现方便,常应用于实际生产环境。考虑到系统的应用场景和系统的复杂度,本文采用线性加权融合推荐模式,设计一种基于图书资源内容推荐和用户行为推荐相混合的推荐方式,对用户进行个性化图书资源推荐,有效地帮助用户发现自己感兴趣的图书资源,提高图书资源的流通利用率和用户满意度。

二、图书资源个性化推荐系统设计

本文设计的图书资源推荐系统基于原有图书管理系统中保存的大量用户基本信息、用户行为、读者评价等信息,首先根据图书资源内容进行推荐,在此结果上再根据用户隐式行为进行推荐,从而最大限度地利用系统已有的信息资源,实现图书资源的更加准确的推荐,具体系统流程图如下:

(一)用户数据管理与维护。用户是图书系统的服务对象和基础,因此用户数据是图书系统的基础,本文所指的用户数据包括用户基本信息数据和用户借阅历史数据。为了更好地为用户提供个性化推荐服务,需要对这些数据进行管理与维护。

(二)图书资源数据提取与管理。图书资源数据包括元数据和内容数据。图书资源的元数据,是指数字图书资源的基本描述信息,如标题、作者、出版社、书号、简介、关键字等数据。本文所设计的推荐系统将充分利用已有的图书管理系统,提取出图书资源的元数据,为实现基于内容的推荐做基本的数据准备;并在系统允许或者版权允许范围内提取出图书资料的内容信息,为更好地实现基于内容的推荐提供支持。

(三)图书资源内容相似度分析。图书资源内容数据主要是指数字图书资源的内容文本数据,本文主要涉及对中文数据内容的分析处理,经过分词、去停用词、关键词提取和内容相似度计算等步骤,得到图书资源内容的相似度值。

(四)用户隐式行为数据分析。用户行为数据指用户与管理系统进行交互时所产生的借阅记录、浏览记录、检索记录和收藏记录等数据。由于图书管理系统或者用户习惯的不同,目前在实际应用中对图书资源进行显式评分的情形还是比较少,这不利于对用户行为进行量化分析。对此本文采取隐式评分机制,通过制定较为合理的策略,将用户常见的对图书资源的非评分行为转化为评分行为,对数据进行分析和建模,将用户的行为作为隐式反馈来推测用户的兴趣,以弥补之前基于图书资源自身内容信息缺失的不足。

(五)图书资源个性化推荐。本文采用线性加权融合推荐模式,即首先采用基于图书资源内容的推荐技术产生推荐结果;再采用用于隐式行为的推荐方法产生推荐结果;最后根据两次的推荐结果采用线性加权方式得出个性化推荐结果列表。

三、图书资源内容相似度分析

基于图书资源内容的推荐首先面对的问题是中文文本数据的处理,经过分词、去停用词、特征的选择与提取、特征加权和内容相似度计算,构建图书资源内容的文本内容向量。

(一)分词。分词是中文信息处理的關键步骤,其主要作用是将中文文档处理为独立的特征。本文采用中文分词方法HanLP,该分词器性能高效,底层采用高速数据结构,能应用于实际生产环境中,采用极速分词模式能达到2000万字每秒。

(二)去停用词。去停用词即去掉文本中对于分类无用的信息以及一些在文档中频繁出现的字和词,如“的”、“地”、“得”等之类的助词。

(三)特征提取。目前通常采用向量空间模型来描述文本向量,在文本的向量空间模型表示方法中,如果直接采用分词算法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将非常大,从而导致计算量太大,无法应用于生产环境。因此,在保证或提高性能的前提下,需要降低向量空间的维度,本文使用在信息检索领域广泛使用的常用TF-IDF算法进行关键词提取,降低向量空间维度,该算法简单快速,能应用于实际生产环境。

(四)内容相似度计算。对于图书资源,在经过分词、去停用词、特征选择、特征加权等处理步骤后,可得到一组高频关键词及其各自出现次数的数据,进而可得到待比较的资源的特征向量。本文采用余弦定理计算资源内容的相似度,余弦定理公式如下:

根据公式(1)可知,当两个向量夹角的余弦等于1时,表示这两个资源完全相同;当夹角的余弦接近于1时,表示这两个资源相似,从而可以归成一类;夹角的余弦越小,表示两个资源越不相关。

四、用户隐式行为数据分析

用户行为数据指用户与图书管理系统进行交互时所产生的各类数据,包括借阅记录、浏览记录、检索记录和收藏记录等。本文采取隐式评分机制,将用户常见的对图书资源的非评分行为转化为评分行为,为之后的分析和计算做好铺垫。

隐式行为数据则是指不需要用户主动参与,通过间接分析用户与系统的交互行为或者系统访问日志来获取用户的各类偏好信息。例如用户浏览页面的时长,阅读页面的次数、访问页面链接等都属于用户隐式行为数据。隐式行为数据能够客观反映用户当前兴趣,因此相较于显式行为数据,隐式行为数据的内容更加丰富。本文通过用户对图书资源的借阅、浏览、检索、收藏四种行为进行研究,将用户的行为量化为用户的兴趣,实现隐式评分到显式评分的转换,最终构建用户图书资源评分模型。具体步骤如下:

f)根据本系统情况,用户的四种行为反映用户对图书资源的兴趣,但兴趣程度不同,本文假设用户的借阅和浏览行为反映出的对图书资源的兴趣比检索和收藏行为要高,且本文所赋予的借阅和浏览行为的奖励因子相等,设为0.3,检索和收藏行为的奖励因子相等,设为0.2。

根据上述步骤,可以通过公式(2)量化用户的行为,计算出用户u对资源i的评分R。

表l展示了一种用户行为与对应的隐式评分值的关系表,根据这样的关系就可构造出用户对图书资源的隐式评分矩阵R=(r),矩阵中的每一项。表示第f位用户对第,件图书资源的隐式评分。可以发现,若用户对某图书资源的隐式评分越高,则表示他对该图书资源的感兴趣程度越大。

五、图书资源个性化推荐

本文实现的图书资源个性化推荐主要采用基于资源内容的过滤推荐,基于用户行为的推荐,以及二者混合推荐方式,得出最终的资源推荐列表。

(一)基于图书资源内容的推荐,首先根据用户的借阅历史资源数据的文本特征向量,构造用户的兴趣向量,再根据图书资源内容的文本内容向量与用户兴趣向量的相似度,得到用户的基于内容的图书推荐列表。

(二)基于用户隐式行为的推荐,首先为每位用户寻找其邻居用户,再基于其邻居用户,估计用户对未评分项目的隐式评分,并引入时间函数,把邻居用户在不同时间的评分给予不同的权重。

根据之前得到的隐式评分矩阵R=(Y)分析出任两位用户之间的相似性。与某位用户相似性较高的其他用户,称为该用户的邻居用户。本文采用Pearson相关系数计算用户之间的相似性其公式为:

如果用户还未在系统中产生任何行为数据,则可以利用用户基本信息,寻找与其具有相似人口统计学特征的邻居用户,通过邻居用户估计对未评分资源的隐式评分,能较好地解决“冷启动”问题。

(三)线性加权融合推荐,给出推薦结果列表。结合之前基于图书资源内容和基于用户行为得出的图书相似度和隐式评分等关键数据,拟合并产生它们的分数,其公式为:

六、结果

随着图书馆数字图书资源的日益增加,人们寻找适合自己的数字图书越发困难,本文采用线性加权融合模式,设计一种基于内容过滤和用户行为相结合的混合推荐技术的个性化图书资源推荐系统,为读者提供个性化的图书资源推荐服务,将优化推荐效果,提高图书馆的服务质量和图书使用率,同时还可以辅助图书馆管理者决策。