多源数据融合视角下的智慧图书馆个性化推荐方法*
2022-03-21叶颖
叶 颖
0 引言
在经历计算机图书馆、网络图书馆、数字图书馆以及移动图书馆等阶段的发展后,图书馆来到了智慧时代[1]。伴随新技术的迅速发展,智慧图书馆逐渐由理论构想走向实践,图书馆数据处理的策略也由收集数据、转换数据、发布数据演化为数据的融合与重构。智慧图书馆生态体系涌现出大量多源、异构、动态的数据,这些数据需要经过清洗、加工和融合,对其中的内容特性、属性特征、时空特征等进行关联、挖掘、发现和表达,才能真正实现生态链整合,发挥智慧图书馆框架的优势。信息资源推荐作为图书馆智慧服务的重要组成部分,是图书馆开展个性化适应性服务的关键[2],也是用户体验智慧图书馆的首要内容。如何全方位地利用智慧图书馆生态链中各环节的数据,是图书馆智慧服务的核心环节,也是智慧图书馆改善用户体验的驱动力。基于此,文章从多源数据融合的视角出发,以智慧图书馆生态链各环节产生的用户数据为切入点,汇聚与融合异构数据中的共同特征,依据数据间的关联关系进行重构,使用相似度计算等方法进行个性化推荐。通过多类型用户数据,精确把控用户对于图书馆推荐服务的需求,同时利用动态数据实时调整推荐结果,提供智慧图书馆服务的新体验。
1 相关研究
当前有关图书馆信息资源推荐的工作与研究主要分为两类:一类是面向范围群体的阅读推广,另一类是面向用户个体的个性化推荐。前者的主要作用是激发大众使用图书馆资源的兴趣、传播知识、提升群体信息素养,以充分利用图书馆的资源优势;后者主要是为图书馆用户精确推荐所需资源,满足其知识需求,发挥图书馆的资源优势。张微[3]认为阅读推广应遴选经典作为推荐的主要内容,对群体特征的考量应大于个体特征,以引导读者阅读为主要目标,推荐资源主要由人工综合各类考量因素进行选取。茆意宏[4]探讨数字阅读推广的理论基础及实践方法,认为数字阅读推广能够改进资源提供者与用户间的关系,提升用户使用图书馆各类服务的意愿与效率。Elliott[5]指出阅读推广是图书馆的基本服务,对读者来说,参与阅读推广活动是对图书馆资源推荐的一种响应,相比于借阅更能反映出读者对图书馆资源的需求。针对读者个体进行个性化推荐的研究集中在读者与图书馆交互数据的挖掘与分析中,利用各种推荐算法实现资源的推送。Tewari等[6]利用图书馆资源的内容特征,结合内容过滤、协同过滤和关联规则挖掘等方法计算资源相似度,进行图书资源的推荐。Vaz等[7]从读者属性角度进行分析,将背景相似的读者进行聚类,利用相同聚类中读者不同的借阅数据进行资源推荐。Sohail等[8]使用大众标签法对资源进行标注,通过标签间的相似度关联相似资源,完成书目资源的推荐。李晓敏等[9]从用户数据出发,利用标签相似度算法对相似读者和相似图书进行融合计算,实现基于用户画像的图书推荐。上述研究表明,图书馆信息资源推荐研究多围绕着资源使用所产生的日志数据;然而,阅读推广、座位管理、空间预约等多种新型服务系统中产生的有关数据同样能描绘用户特征,反映用户行为特征,但由于异构、非结构化、采集困难等原因,未能在用户的个性化推荐服务中发挥相应作用。智慧图书馆架构中的互联互通、全流程智慧化管理[10]为用户数据的融合与重构提供了框架基础,应用智慧图书馆生态系统对数据流动机制进行分解,能够挖掘数据、用户、资源、服务间的关联关系,解构不同的数据特征,挖掘用户属性及行为特征,获取资源内容与语义特征,引导服务推进[11],实现图书馆信息资源智慧推荐的目标。
2 融合多源数据的智慧图书馆个性化推荐框架
智慧图书馆的目标是利用智慧化分析方法对资源进行解构,并使用信息网络提供全方位的智慧服务[12]。智慧图书馆的基础是对人、资源、空间三要素在智能化应用的大背景下进行融合与重构,其核心是满足人即用户与管理者的需求[13]。三要素是指导图书馆现有系统向智慧图书馆生态系统演进的核心元素,三要素的出现为系统数据的融合与重构提供了顶层设计,而智慧图书馆下的用户需求为个性化推荐提供了目标。文章对三要素分类下的子系统以服务、资源、空间三大框架进行数据融合,依据用户关联关系、资源关联关系、用户-资源关联关系三维度,按照智慧化的个性化推荐方法进行重构,构建面向智慧图书馆用户需求的信息资源个性化推荐框架,如图1所示。
图1 多源融合视角下的智慧图书馆个性化推荐框架
2.1 多源数据的融合
图书馆拥有众多信息系统,这些系统中的数据通常都在独立运行。由于数据格式、存储方法的差异,以往的信息资源推荐研究往往围绕单一系统而进行,数据来源单一,推荐方法难以推广。根据智慧图书馆生态的三类基本要素,文章将现有图书馆系统归并为三大类,分别是面向“人”要素的服务管理子系统,面向“资源”要素的资源管理子系统,面向“空间”要素的空间管理子系统。服务管理子系统主要提供用户与图书馆进行的交互数据与背景信息数据,如阅读推广活动平台中用户参与的评论、推荐内容等非结构化数据和用户注册时提供的专业、年龄、性别等能对用户进行差异化区分的个人信息数据。资源管理子系统提供图书馆资源流动情况的总览,如图书馆管理系统中的读者借阅数据记录的是资源流通信息,而系统中存储的书目题名、中图分类号、关键词等则是资源内容的数据。空间管理子系统反映的是图书馆空间的使用情况,如选座系统中的用户在馆时长、门禁系统中的用户入馆时间、频率等,能够从时间维度体现空间使用情况,而用户对于阅览室座位的选择、不同分馆的进馆数据等则可以从空间维度反映用户位置。三类子系统均提供图书馆不同信息系统间数据归类合并的方法,为数据的融合提供了参考依据。而后,需要对同类型系统中的数据进行汇总,并进行不同子系统间数据关联关系的构建,实现系统间的数据交换,完成数据的融合。
2.2 多源数据的重构
数据的重构是数据间不同形态的转换,通过提取不同类型数据中的共同特征,能够实现多源和异构数据的联接,重构后的数据能够进行统一的计算,更全面地描绘相关工作的特征。文章从3个维度对融合后的数据进行特征挖掘,分别是用户行为特征、资源内容特征和用户信息特征。
用户行为特征是进行用户相似度计算的基础,行为相似的用户可以被认为存在一定的关联性,同时根据用户的资源使用行为能够构建其与资源的关联关系,而使用过同一资源的用户也能够通过其在不同资源中的借阅行为构建资源间的关联。资源内容特征可以直观反映资源间的相似程度,喜好同一资源的用户可能存在相似的特征,因此资源内容能够与用户标签建立起用户与资源间的关联关系。用户信息特征数据能够为用户相似度、资源相似度计算提供用户的自然属性信息,并能从内容上将用户与资源进行关联,提供信息资源推荐的基础数据。
作为个性化推荐的重要依据,相似度理所应当成为数据重构的目标。文章将用户特征与资源内容特征进行融合,分别进行用户相似度和资源相似度计算。资源相似度计算的主要目的是,根据用户使用资源情况进行相似资源的推荐,为用户对资源的深度利用提供帮助。而用户相似度计算的主要目的是,建立用户层面的关联关系,利用相似用户使用资源的情况进行推荐,从而拓宽用户接受资源的广度,在类似用户群体中挖掘共同的兴趣点并推荐给目标用户。
2.3 多种类个性化推荐
单一系统下仅能针对系统中已有的资源进行个性化推荐,然而,本文所融合与重构的数据来源于多种信息系统,其中,服务管理子系统数据多来自于用户输入,拥有着较大的自由度与开放性。因此,在进行馆藏资源推荐之时,可以将用户推荐的网络信息资源通过相似度计算推送给其他用户,拓宽个性化推荐的资源范围。这既包含即时更新的网络信息资源,也包含图书馆尚未采购的新出版物,也可以是音频、视频等多元化的信息资源,是图书馆封闭体系推荐方法所不具备的特性。同时,结合时空数据能够为用户推荐可能感兴趣的阅览室,发挥图书馆资源分类排架聚合的效应。推荐用户前往指定位置,可增加用户获取相关资源的可能性,从而充分利用图书馆在资源管理中的质量与模式优势。
3 融合多源数据的智慧图书馆个性化推荐实验
为了验证多源融合视角下的智慧图书馆个性化推荐方法对于图书馆资源个性化推荐的实际效果,文章以中南财经政法大学智慧图书馆系统数据为例,将多系统数据进行融合与重构,开展个性化推荐实验。实验数据包括服务管理子系统中“阅跑中南”第一季及第二季的阅读推广活动用户参与数据13,285条、资源管理子系统中2018-2019年的图书借阅数据478,982条、空间管理子系统中2018-2019年用户座位使用时间记录18,682条。
3.1 用户相似度计算
本文从各子系统中分解代表用户行为特征的数据,利用用户评论内容的相似性、用户在馆时长与借阅数的相似性,对用户背景信息(如专业、年级等)进行聚类,并加入相应权重计算相似度。用户评论内容的相似性数据来源于阅读推广活动中参与用户对书目、视频、音乐等资源的评论数据,在内容的提取上,文章对文本进行分词后采用LDA主题模型进行主题识别。LDA模型是一种三层贝叶斯概率模型[14],用于文档、词项、主题的分析:假设所有的文档中有一定数量的隐含主题,通过一定概率抽取主题,然后再从选定主题中抽取特征词,通过预设的迭代次数得到足够的特征词[15]。文档中包含特征词的概率为:
由于用户评论通常为短文本,如果直接利用主题关键词共现来计算,评论相似度会由于数据的稀疏性导致无意义结果较多。因此,需要根据内容对用户评论进行分类,利用类别间的相似度作为用户相似度的代替结果。文章将所有评论数据汇总,进行文档集合的困惑度[16]计算,决定最优主题数,计算公式为:
其中p(w),代表测试集中每一个词的出现概率,N表示测试集。文章取关键词数k=20,计算主题数为1至20间的困惑度,选择最低值作为主体分类个数的依据。由图2的困惑度计算结果可知,评论集合可以分为8个主题集合。
图2 用户评论集合困惑度计算结果
在分类主题关键词集合的计算中,设置主题个数为8,每个主题下的关键词个数为20,迭代次数100,进行主题关键词的获取。最终得到8类主题及其关键词,结果如表1所示。
表1 用户主题-关键词分类结果
文章将用户评论关键词与不同主题下的关键词进行耦合,将耦合成功的关键词在当前主题中的权重进行加权计算,选取其中的最大值作为用户主题相似度。计算公式如下:
在馆时长反映了用户对图书馆空间的使用情况,而借阅数量反映的是图书馆资源的使用情况,综合两类数据可以从整体角度分析用户使用图书馆的特征。文章将用户借阅图书的总数作为X轴,将用户在馆时长作为Y轴,映射至二维空间中。鉴于二维空间映射的特殊性,如果以部分位于图像中间位置的用户为检索入口进行相似度计算,那么由于X轴和Y轴附近用户的欧式距离相近,会导致这两类用户具有同样的相似度。但从实际角度来看,只使用图书馆空间而不借阅图书的用户和只借阅图书而不使用图书馆空间的用户在特征上具有本质的区别。为避免上述情况的出现,文章利用K-means算法对映射至二维空间中的(用户数据)节点进行聚类。经过对比,最终选择k=7作为聚类个数,得到图3所示的时空数据聚类结果。其中,X轴代表用户的图书借阅总量,单位为本;Y轴代表用户在馆时长,单位为天。以与各聚类团体中心点间的欧式距离作为时间-资源分类下用户使用行为相似度的计算依据,算式为:
图3 用户行为数据聚类结果
其中,distmax(A,N)代表检索入口用户所在聚类与最不相关聚类间的欧式距离,dist(A,B)代表检索入口用户与其他用户所在聚类间的欧式距离。
在用户信息的融合上,文章提取用户的年级、专业等数据,进行读者背景信息相似度计算。若检索入口用户的某一项背景信息与其他用户相同,则该项为1,否则为0;然后根据所有背景信息的相关情况计算用户背景相似度,即:
计算过程如图4所示。
图4 融合用户相似度的计算过程
3.2 资源相似度的计算
在服务管理子系统中,用户评论既是用户发表的评论也是用户对于其所推荐资源内容的理解,将用户发表的评论进行汇总可以挖掘用户间的相似性。同样,将有关资源获得的评论进行汇总可以挖掘资源间的相似性。文章依据上文所述用户主题相似度计算方法,将资源关键词与主题关键词进行耦合,将耦合成功的关键词在当前主题中的权重进行加权计算,选取其中的最大值作为资源内容相似度。计算公式如下:
资源相似度的另一来源是《中国图书馆分类法》。它使用字母与数字的混合号码从左到右排列,从而形成具有层次性的树形结构。中图分类号越接近,资源相似度越高。书目在资源管理子系统中的相似度计算公式见下:
D(A,B)代表两种图书间分类号最接近的父节点的高度,D代表分类树的总高度。融合资源相似度公式见下,计算过程如图5所示。
图5 融合资源相似度的计算过程
3.3 用户-资源关联构建
构建用户与资源间的关联关系,是完成多源数据融合视角下个性化推荐的关键。文章将服务管理子系统中用户在阅读推广活动中推荐的信息资源以及资源管理子系统中用户借阅图书的记录进行融合,构建用户与信息资源间的关联关系。
在关系的构建上,以图模型G=(V,E)来表示用户与资源间的关联关系,V表示用户与资源,E表示用户-资源关联关系。如果用户多次借阅或推荐信息资源则E的值会随次数的增加而增长,也会在后续的推荐结果中占据更大的权重。构建用户与资源的关联关系后,面向目标用户从用户相似度与资源相似度两方面获取推荐资源,完成融合视角下的个性化推荐,推荐过程如图6所示。
图6 融合视角下的资源推荐过程
3.4 个性化推荐结果
(1)融合用户相似度。融合用户相似度计算,需要将用户的三类相似度结果进行加权平均。首先,计算用户主题相似度。文章以系统编号“172104012”的用户为例,进行多源数据融合的个性化推荐实证研究。该用户在服务管理子系统中提交了阅读推广活动的推荐书目《法律思维与民法实例》。根据其评论数据,使用LDA主题模型抽取到的前20个主题关键词分别为:“法律(0.024)、规范(0.011)、民法(0.007)…教材(0.003)、过程(0.003)”,与本文表1中8类主题中的主题2(法律)相似度最高;经过归一化计算后,与属于主题2的用户主题相似度为1,排名第二的为主题1(政治),相似度为0.71。随后,计算用户背景相似度。经过对智慧图书馆各管理系统用户信息的统筹考虑,文章选择用户的教育层次、年级、性别、专业4个方面进行背景相似度的计算。教育层次分为三类:本科、硕士、博士,与之分类相同的用户该项取值为1,否则为0;年级、性别采用同样的分类计算方法;专业相似度计算则采用类似资源分类相似度的计算方法,依据教育部专业分类目录按科别、类别、专业名称的树形结构进行计算,用户处于同一最小分类则相似度最高。本研究中,确定推荐目标用户的教育层次为本科,年级为二年级、性别为女、专业为人文社会科学法学类下的涉外经贸法专业,与其他用户遍历进行背景相似度的计算。最后,计算用户行为相似度。目标用户在数据统计时间段内借阅图书7本,在馆时长10.5天,属于行为数据聚类结果中的黄色分类,因此与同在黄色分类中的用户的行为相似度为1。
(2)融合资源相似度。计算融合资源相似度,需要从与用户具有关联关系的资源的内容和分类两方面切入。首先,确定用户推荐的信息资源或借阅书目是否拥有评论数据,通过评论找出同一分类下的资源;然后,计算这些候选资源在中图分类法下的相似度,得到用户关联资源的相似度指标。以《法律思维与民法实例》为例,其用户在服务管理子系统中推荐的书目经计算具有相同分类特征的有《通过法律的社会控制》《寻找法律的印迹》《中国法律与中国社会》《法律职业的精神》等,相似度均为1;而且,其中图分类号为DF504,其他4种文献资源分别为C51、DF091、DF092、DF53。因此,本例中的图书与其他4种文献资源的融合资源相似度分别为0.6、0.7、0.7、0.8。
(3)推荐结果。通过融合用户相似度与融合资源相似度的计算,得到基于相似用户的推荐结果和关联资源,以及基于相似资源的推荐结果及其相似度。为了突出本文方法对图书馆未收录信息资源的推荐能力,特别将计算结果中馆藏未收录的资源单独列出,排名前五的资源如表2所示。
从表2可发现,依据关联资源进行个性化推荐的书目内容与专业基本保持一致,与用户所在的涉外经贸法专业内容较为相符,说明本文方法围绕用户关联资源进行相似度计算,能够准确推荐与用户当前使用资源相关的书目资源。在相似用户的推荐中既有同年级同专业的用户也有其他年级其他专业的用户,说明该方法围绕用户特征进行分类,能够发现具有共同兴趣爱好但处于不同背景下的用户,从而拓宽个性化推荐的范围,挖掘具有关联关系的对象。此外,资源推荐结果展现出多样性的特点,为用户拓展资源、开阔视野提供了帮助。特别需要注意的是,非馆藏资源的推荐结果。由于该类信息资源没有经过编目,无法借阅,因此其融合相似度计算结果相对较低,无法在总推荐排名中占据前列;但将其单独统计后能够为用户推荐更大范围的信息资源,符合智慧图书馆生态链中信息资源开放性、包容性的特点,还可以为图书馆的资源荐购工作提供有意义的参考。
表2 多类型推荐的相似度计算结果(部分)
4 结语
随着智能技术的推广及应用,智慧图书馆已经从框架概念的构建走向实践。物联网、云计算、智慧化技术与设备在实现图书馆智能化和自主化的管理的同时,也产生了大量复杂且异构的运行数据。作为完善智慧图书馆服务的必要条件,如何充分利用这些数据成为搭建图书馆智慧服务拼图的重要组件。文章将智慧图书馆框架下的多源用户数据与资源信息数据按照空间、资源、服务三要素的宏观系统视角进行汇总与融合,随后重构与用户行为有关的数据,分别通过用户标签进行主题相似度计算、通过用户个人的特征信息进行背景相似度计算、通过用户时空数据与资源使用数据进行行为相似度计算,再融合三类相似度计算结果,得到多因素融合的用户相似度;同时,利用重构的资源内容标签与分类数据进行资源相似度的计算。最后,根据用户与资源间的关联关系进行相似资源、相似用户、相似用户-资源的推荐,满足多种场景下的智慧图书馆个性化推荐服务需求。
实验结果表明,文章提出的多源数据融合视角下的智慧图书馆个性化推荐框架具有可行性,能够充分利用多种用户数据,进行多类型的个性化推荐,可满足用户对于专业、社交、资源的多种需求。但是,在各类数据的融合过程中,不同相似度在当前计算场景中的权重仍有待优化,可开展更大规模、更深入的用户调研,以更好地获取符合用户意愿的信息资源推荐结果。下一步的研究将选取智慧图书馆生态链中更大范围的系统数据,充分利用云计算、5G、大数据技术等带来的变革,进行各系统数据的动态载入、实时处理与即时推荐,进一步完善图书馆智慧推荐服务。