深度学习视角下图书馆馆藏资源推荐模型设计与分析
2019-04-20尹婷婷曾宪玉
尹婷婷 曾宪玉
摘要:[目的/意义]深度学习技术作为大数据、“互联网+”环境下用户分析和服务设计的有力工具,为图书馆馆藏资源推荐服务提供了新的研究思路和发展方向。[方法/过程]首先,基于文献查阅法、网络调查法对国内外图书馆馆藏资源推荐服务的研究现状、应用情况进行了分析与研究。然后,在概述深度学习技术及其相关应用实践的基础上,在深度学习视角下提出了一种以读者用户兴趣值为基础的图书馆馆藏资源推荐模型。[结果/结论]分别从数据关联、情景分析和协同过滤技术3个方面探讨了图书馆馆藏资源推荐模式,为大数据环境下面向用户的图书馆资源精准推荐提供参考。
关键词:图书馆;馆藏资源;推荐模型;深度学习;用户兴趣值
DOI:10.3969/j.issn.1008-0821.2019.04.012
〔中图分类号〕G25;G64〔文献标识码〕A〔文章编号〕1008-0821(2019)04-0103-05
Design and Analysis of the Library Resources Recommendation
System Based on the Deep Learning
Yin Tingting1Zeng Xianyu2
(1.Teaching Affairs Department,Northwestern Polytechnical University,Xian 710072,China;
2.Library,Northwestern Polytechnical University,Xian 710072,China)
Abstract:As a useful tool for user analysis and service design in big data and“Internet+”environments,the deep learning provides new research ideas and development directions for the recommendation services of library resources.Firstly,this paper analysed and summarized the current status and application of recommendation services of library resources at home and abroad through literature review and network survey.Secondly,based on the overview of deep learning technology and related application practices,this paper proposed the library resource recommendation model from the perspective of users interest value.Finally,the recommendation model of library collection resources was discussed respectively from three aspects:data association,scenario analysis and collaborative filtering technology,which could provide reference for the user-oriented accurate recommendation of library resources in big data environment.
Key words:library;library resources;recommendation model;deep learning;users interest value
隨着“互联网+”技术的飞速发展,网络信息量呈现爆炸式增长态势,海量的数据资源中蕴含着丰富的利用价值与巨大潜力,同时也极易导致诸如“信息拥塞”和“信息超载”等现象的出现[1]。如何从复杂、体系庞杂的数据资源中快速有效地获取有利用价值的信息已经成为当今图情专业、信息科学等领域专家和学者们研究的热门话题和关键问题[2]。近年来出现的资源推荐系统为解决上述难题提供了可能性与发展途径[3]。资源推荐技术主要指的是通过分析、计算目标用户的个人兴趣偏好、历史信息记录及其他相关条件,挖掘用户的隐含兴趣与行为倾向,从而向目标用户主动提供个性化信息资源推荐服务的技术[4]。随着科学技术及社会的不断进步,目前,图书情报界及相关研究机构已经积极开展了个性化推荐服务系统的研究与实践工作[5],然而当前已有的资源推荐系统存在推荐效率不高、个性化推荐特征不明显等缺点[6-7],构建一种准确率更高的智能化推荐系统是目前亟待解决的问题。
深度学习技术作为人工智能领域发展的核心与基础[8],其本质是一类利用特征级、多层非线性处理单元进行特征提取、变换的机器学习及训练算法,具有从已知的样本集合中主动学习、挖掘数据最本质特征的强大功能,同时可以获得用户和相关项目的深层次、隐藏的特征表示。通过对数据、资源的深度加工,深度学习技术能够理解和掌握原本复杂的知识概念,将已经构建的个人知识结构体系有效迁移、转化并应用到真实场景中以解决各类实际问题。在图书情报界,已有学者意识到深度学习技术带来的影响并对该主题进行了研究:罗蔚[9]在全面介绍、分析个性化信息服务模式的基础上,提出了基于深度学习技术的主动型个性化信息服务的理论;李新广[10]通过对本体、关联规则和信息推荐之间相互关系的分析,提出了针对图书馆读者用户的馆藏资源个性化推荐模型。因此,本文借鉴已在图像识别、信息检索、语音识别等诸多领域取得了重大研究进展成果的深度学习技术的应用实践,在深度学习视角下提出了一种以用户借阅时间为基础的图书馆馆藏资源推荐模型,为实现资源精准推荐服务提供参考。
1图书馆馆藏资源推荐服务研究现状
目前,在图书馆馆藏资源推荐研究领域中,主要以建立读者用户个性化推荐方法的模型以及相关推荐模型在图书情报领域及信息科学领域中的应用、发展和改进等内容为主[11-12]。其中,读者用户个性化推荐系统作为一种智能信息服务模式,可以快速、有效地解决“信息拥塞”等现象,具体推荐流程如图1所示。李默等[13]通过设计多功能Agent提出适用于多种学术资源类型的推荐策略,提高了高校图书馆学术资源推荐的效率;张炜等[14]以联机公共查询目录系统以基础,阐述了如何将数据挖掘技术应用于联机公共查询目录系统中读者行为数据的分析与研究;陈淑英等[15]利用图书关联规则进行数据挖掘,探索图书推荐服务方案及实现推荐服务的算法模型;袁辉[16]通过对读者用户各类信息数据进行充分挖掘分析,预测出用户的各类潜在、确定、个性化的需求,从而实现有针对性的馆藏资源推荐服务。纵观图情界资源推荐领域相关的研究文献,不难发现在图书馆馆藏资源推荐服务过程中,读者用户很难从庞杂、冗余的文献中便捷、快速、准确地获取到自己所需要资源这一普遍存在的现象。因此,图书馆员需要进一步调整馆藏资源推荐服务模式及服务手段,通过研究读者用户借阅记录、兴趣偏好等个性化信息,对读者用户的基本特征和特定需求进行挖掘与提取,进而提供读者用户所需的定制资源,进一步细化馆藏资源的推荐服务工作。
综上所述,基于深度学习技术的读者用户需求分析有利于进一步提高馆藏资源推荐服务的质量和效率,图书情报机构、图书馆应积极借鉴以深度学习为基础的应用与研究成果,将深度学习技术和智能推荐技术整合、引入到馆藏资源推荐模型中。然而,作者通过参阅近年来已经发表的图书情报专业、信息科学专业相关的主要文献,发现关于深度学习技术在图书馆资源推荐系统中应用的研究成果很少[17-18]。因此,本文通过介绍深度学习技术的基本原理及应用状况,探讨深度学习技术在图书情报领域中的应用问题,提出深度学习与图书馆馆藏资源推荐的融合模型及发展模式,以期为解决图书情报学研究中面临的诸多问题提供重要参考。
2基于用户兴趣值的馆藏资源推荐模型的构建
21用户兴趣值的计算
根据读者用户借阅某一馆藏资源的单次时长及借阅次数,能够判断出该用户对该馆藏资源的感兴趣程度,因此本文利用这些信息数据计算读者用户的兴趣程度值,并将读者用户借阅某种馆藏资源的总时长具体分为两个部分:一部分为馆藏资源借阅时间;另一部分是馆藏资源的续借时间。在充分考虑到高校不同学历层次读者用户借阅馆藏资源的期限、权限不一致的基础上[19],本文提出采用“绝对借阅时间”的定义来表征读者用户的兴趣程度值:即假设每个时间段用户产生的最大兴趣值为1,并且同一用户可以多次借阅同一馆藏资源,因此可以用如下公式计算出读者用户对某项馆藏资源产生的兴趣值:
prefk(Ui,Rj)=BorrowTimek(Ui,Rj)MaxBorrowTime(Ui)+RenewTimek(Ui,Rj)MaxRenewTime(Ui),BorrowTimek(Ui,Rj)≤MaxBorrowTime(Ui)RenewTimek(Ui,Rj)≤MaxRenewTime(Ui)
1+RenewTimek(Ui,Rj)MaxRenewTime(Ui)×Rating(Ui,Rj),BorrowTimek(UiRj)>MaxBorrowTime(Ui)RenewTime(Ui,Rj)≤MaxRenewTime(Ui)
BorrowTimek(Ui,Rj)MaxBorrowTime(Ui)+1×Rating(Ui,Rj),BorrowTime(Ui,Rj)≤MaxBorrowTime(Ui)RenewTimek(Ui,Rj)>MaxRenewTime(Ui)
2×Rating(Ui,Rj),BorrowTimek(Ui,Rj)>MaxBorrowTime(Ui)BorrowTimek(Ui,Rj)>MaxBorrowTime(Ui)(1)
其中,prefk(Ui,Rj)代表讀者用户Ui第k次借阅馆藏资源Rj时产生的兴趣值,且k≥0;Ui代表第i个借阅用户;Rj代表图书馆中馆藏资源j;BorrowTimek(Ui,Rj)和RenewTimek(Ui,Rj)分别代表用户Ui第k次借阅Rj的时长和续借时长;MaxBorrowTime(Ui)、MaxRenewTime(Ui)分别代表用户Ui借阅Rj最大借阅时长和最大续借时长;Rating(Ui,Rj)代表用户Ui对Rj的兴趣评分,通常只考虑用户对其借阅过的图书馆藏资源的评分,对用户没有借阅过的资源评分设置为0,并将读者用户借阅馆藏资源时产生的逾期行为分为两种具体情况:一种是续借前逾期;另一种是续借后逾期。根据读者用户的不同逾期行为选取式(1)中的相应情况计算其兴趣值[20]。
根据上述分析,在一段时间范围内计算用户Ui对馆藏资源Rj的兴趣偏好值时,需要将该时间范围内Ui对Rj产生的所有借阅记录的偏好值累计相加,考虑到Ui可能在同一天内借阅Rj的多个复本,因此在这种情况下,可以取最大值作为相应的偏好值用于计算过程,经归一化后可得用户最终兴趣平均值为:
prefk(Ui,Rj)=∑Kk=1BorrowTimek(Ui,Rj)MaxBorrowTime(Ui)(2)
其中,K代表读者用户Ui在某一时间段范围内借阅馆藏资源Rj的次数。
22馆藏资源推荐模型的建立
随着读者用户学习年级、学历、研究内容等的变化,其借阅行为也会随之发生变化,因此在建立馆藏资源推荐模型中,将读者用户对信息资源的需求分为两类:短期信息资源需求和长期信息资源需求,其中,两者的区别主要依据时间范围的长短进行划分,具体而言,读者用户的短期信息资源需求主要界定为在最近一学期或者一学年内读者用户研究或学习内容相关的资源需求,而长期信息资源需求主要界定为一年或者更长时间范围内依据读者用户长期借阅记录而可能产生的馆藏资源需求。因此,在针对读者用户的短期信息资源需求进行推荐时,首先需要将读者用户的整个借阅记录按照学期或者学年分成若干部分,只依据最近一学期或者一学年的借阅记录计算读者用户的兴趣偏好;针对读者用户的长期信息资源需求进行推荐时,则要依据该读者用户全部借阅记录计算其兴趣偏好值。在上述完成用户兴趣值计算基础上,根据读者的借阅记录数据,生成用户的兴趣值及偏好等数据信息;其次,将得到的关于馆藏资源及读者用户的标准化数据作为馆藏资源推荐模型的输入数据,进行匹配操作,具体的推荐模型如图2所示。由图2可以看出,该模型可以针对读者用户的短期信息资源需求和长期信息资源需求,分别提供馆藏资源的个性化推荐服务。
3基于深度学习技术的馆藏资源推荐模式分析
图书馆馆藏资源推荐系统是读者用户需求与馆藏资源之间的联系点[21]:一方面,通过提取、挖掘图书馆馆藏资源,建立馆藏资源的特征模型并形成图书馆馆藏资源模型的集合;另一方面,可以采用聚类分析、协同过滤技术等信息处理手段对图书馆读者用户个人信息进行标记与分类,依据读者用户属性信息的相似性以及读者用户对馆藏资源借阅记录和评价反馈等数据信息,将具有相似属性信息的读者用户聚类至同一类簇,实现对读者用户的聚类操作;最后,将得到的资源模型集合与读者用户类簇执行匹配操作,如果匹配成功,将使用馆藏资源推荐系统主动为读者用户推荐相应的馆藏资源,匹配不成功,将执行反馈信息操作,循环往复,直至匹配操作成功后循环终止,具体操作步骤如图3所示[21]。一言以蔽之,馆藏资源推荐系统的成功推荐取决于形成的读者用户类簇与馆藏资源信息的匹配程度:通过分析汇总馆藏资源,形成馆藏资源模型的特征集合;同时,通过聚类操作将读者用户的资源偏好映射到相似或者不用的主题;最后,执行多个相似或者不同主题与相似资源集合之间的匹配操作。因此,基于深度学习视角,本文将分别从数据关联、情景分析和协同过滤技术3个方面具体分析图书馆馆藏资源推荐模式,进一步为大数据环境下面向读者用户的个性化精准推荐服务提供参考。
31基于数据关联的馆藏资源推荐模式
数据关联技术为馆藏资源信息之间的发现与快速查找提供了途径,基于数据关联的馆藏资源推荐模式主要是在分析读者用户历史借阅记录的基础上,利用数据挖掘技术分析、处理图书馆馆藏资源以及网络信息资源之间的关联与链接,从图书馆馆藏资源中抽取最核心部分的数据源信息进行加工、提炼和数据整合,并依据各馆藏资源之间的关联规则实现馆藏资源的聚类,并将处理完成后的数据信息保存至图书馆推荐资源的知识库;随后,基于相应的关联规则对馆藏资源数据进行挖掘,得到关联结果,形成图书馆馆藏资源关联规则知识库;最后,基于深度学习技术,建立针对读者用户的个性化推荐服务模式,并将得到的结果主动推荐给相应的读者用户。基于数据关联的馆藏资源推荐系统主要是由实现以上不同功能的3个模块共同构成,其中最主要的是基于关联规则的数据挖掘模块,它是整个馆藏资源推荐系统的核心组成部分。基于数据关联的馆藏资源推荐模式主要考虑的是用户个性化需求,同时设置相同的身份认证机制,降低了用户身份信息认证的复杂度,便于推荐系统收集用户的需求信息,从而提高了个性化推荐服务的准确性。
32基于情景分析的馆藏资源推荐模式
基于读者用户的个人特征和使用馆藏资源的情景历史等可以推断出读者用户的个人偏好习惯和知识需求目标,基于情景分析的馆藏资源推荐模式主要是利用个人资料库记录与读者用户情景模型相关的信息,资源记录模块存储可利用的学习资源以及每种学习资源具体应用的情景信息,依据情景分析模式得到读者用户的偏好习惯和当前知识需求目标、
用户所处的环境、可获得的学习资源及其情景信息等数据,借助深度学习技术挖掘与读者用户情景模型相匹配的图书馆馆藏资源,或挖掘与读者用户检索结果相似度较高的馆藏资源信息,将馆藏资源进行排序并向读者用户推荐其可能感兴趣的信息。在向读者用户提供资源推荐服务的过程中,进一步构建用于描述用户当前所处情景的用户情景模型,实时调取读者用户感兴趣、相似度高的馆藏资源并及时推荐给读者用户,用户对资源的反馈及评论信息可以作為资源使用情景的一部分储存到资源中心和情景库中,从而为以后的资源推荐服务提供参考依据。该推荐模式由于充分考虑了用户身份、行为、关注对象及偏好习惯等读者用户的个人特征,提高了推荐结果的准确性,而且能够改善读者用户的体验度,因而在基于情景分析的馆藏资源推荐模式中,馆藏资源的利用率和读者用户的满意度均较高。
33基于协同过滤的馆藏资源推荐模式
基于协同过滤的图书馆馆藏资源推荐模式,其主要步骤为:首先,通过对读者用户的借阅记录信息进行数据分析与挖掘,利用聚类的处理思想,依据读者用户属性信息的相似性,将具有相似属性信息的读者用户聚类至同一类簇,实现对读者用户的聚类操作;随后,计算目标读者用户与其对应的类簇读者之间的相似性;最后,对相似读者借阅的馆藏资源进行排序,并选择相似性较高的读者所借阅次数最高的馆藏资源作为推荐结果,从而推荐给目标用户。基于协同过滤技术的馆藏资源推荐模式具有较强的自我修复与系统优化的特性,在系统运行过程中可以不断积累有效的数据信息,并且推荐系统可以实时进行自我更新,推荐结果的准确性较高,更新速度较快。然而,这种推荐模式只有在读者用户登录推荐系统并对相应的馆藏资源进行有效评价后,其相关信息才能够被推荐系统记录,并用于后续的推荐工作,否则,将会降低相应馆藏资源的有效转化率,导致该馆藏资源也很难被推荐给其他的读者用户。
4结语
在大数据、“互联网+”背景下,基于深度学习技术的图书馆馆藏资源推荐服务是提高馆藏资源利用率的重要保障,也为馆藏资源服务质量的进一步提升指明了发展方向。本文在分析读者用户兴趣偏好的基础上,从读者用户与馆藏资源相关的数据信息入手,挖掘用户潜在需求,形成聚类体系,并在深度学习视角下提出了以读者用户兴趣值为基础的图书馆馆藏资源推荐模型,为读者用户提供个性化、有价值的馆藏资源信息,为大数据环境下面向读者用户的图书馆推荐服务指明了研究思路和发展方向。下一步的研究重点在于深度学习技术的具体应与发展,扩大数据规模量,用实证结果对本文提出的推荐模型进行评估与分析,
进一步验证方案的实用性与有效性。
参考文献
[1]刘忠宝,赵文娟,贾君枝.深度学习及其对图书情报学的启示[J].情报工程,2017,3(4):62-70.
[2]孙守川.基于深度学习的读者检索借阅研究[D].兰州:兰州交通大学,2015.
[3]牛名一.基于用户签到轨迹的推荐系统的研究与实现[D].北京:北京邮电大学,2017.
[4]李春,朱珍民,叶剑,等.个性化服务研究综述[J].计算机应用研究,2009,(11):4001-4005.
[5]唐细英.高校图书馆个性化服务现状分析[J].科技文献信息管理,2012,26(1):43-45.
[6]龙姝言.基于用户的协同过滤推荐算法研究[D].重庆:重庆理工大学,2018.
[7]陈艳.基于地理位置和社交关系的兴趣点推荐算法研究[D].合肥:中国科学技术大学,2018.
[8]Bengio Y,Lamblin P,Popovici D,et al.Greedy Layer-wise Training of Deep Networks[J].Advances in Neural Information Processing Systems,2007,19:153-160.
[9]罗蔚.数字化信息服务的个性化发展:从可适应到自适应[J].情报资料工作,2010,(2):74-76.
[10]李新广.数字图书馆的用户偏好模型及个性化推荐研究[D].武汉:武汉大学,2011.
[11]张小峰.基于关联数据的图书馆学术资源推荐研究[J].图书馆学研究,2012,(5):87-89.
[12]袁静,焦玉英.基于情景信息的学习资源个性化推荐[J].情报理论与实践,2009,32(7):116-119.
[13]李默,梁永全.高校图书馆学术资源推荐策略及系统架构研究[J].图书馆学研究,2015,(14):57-61.
[14]张炜,洪霞.基于OPAC读者行为的知识发现研究[J].图书馆论坛,2011,31(1):17-19.
[15]陈淑英,徐剑英,刘玉魏,等.关联规则应用下的高校图书馆图书推荐服务[J].图书馆论坛,2018,38(2):97-102.
[16]袁輝.基于确定事件的智慧图书馆推荐服务策略实施探究[J].图书馆建设,2017,(8):74-77.
[17]Sedhain S,Menon A K,Sanner S,et al.Autorec:Autoencoders Meet Collaborative Filtering[C].Proceedings of the 24th International Conference on World Wide Web.ACM,2015:111-112.
[18]Aron Van Den O,Dieleman S,Schrauwen B.Deep Content-based Music Recommendation[C].Advances in Neural Information Processing Systems,2013:2643-2651.
[19]邱均平,张聪.高校图书馆馆藏资源协同推荐系统研究[J].图书情报工作,2013,57(22):132-137.
[20]熊回香,杨雪萍,高连花.基于用户兴趣主题模型的个性化推荐研究[J].情报学报,2017,36(9):916-929.
[21]王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析[J].现代情报,2018,38(3):105-109.
(责任编辑:郭沫含)