数字图书馆的分发模式研究
2015-11-16李云华李新广
李云华 李新广
[摘要]个性化推荐是解决数字图书馆资源“既多又少”矛盾的有效途径,分发模式是个性化推荐研究的重要内容。本文系统研究了数字图书馆资源个性化推荐所涉及的各种分发模式,给出了分发模式的执行流程和形式化定义,并提供相应实例。
[关键词]数字图书馆;分发模式;个性化推荐;形式化定义
DOI:10 3969/j.issn 1008-0821.2015.06.011
[中图分类号]G250.73 [文献标识码]A [文章编号]1008-0821(2015)06-0054-04
随着数字图书馆馆藏资源的急剧增加、人们生活节奏和知识更新速度的不断加快,数字图书资源“既多又少”的矛盾日益突出。如何从浩瀚的图书资源中准确和及时地获取用户感兴趣的内容,已成为大数据时代数字图书馆领域亟待解决的迫切课题。基于数据挖掘技术的数字图书的个性化推荐是解决该问题的有效途径。分发模式是个性化推荐研究的重要内容,合适的分发模式能够针对特定用户实现图书资源的高效分发。根据用户和系统互动角色的不同,数字图书资源的分发可分为拉取模式和推送模式两类:拉取模式是用户提供检索条件,系统被动返回检索结果的分发模式;推送模式则根据用户的需求特征,系统主动推荐满足用户需求的图书资源。为了使计算机能够准确理解分发模式的相关算法,进而实现图书资源的高效分发,分发模式的形式化表达尤为重要。本文系统研究了数字图书馆资源个性化推荐所涉及的各种分发模式,设计了分发模式的执行流程,并给予形式化定义。
1.拉取模式
拉取模式是用户主动提供查询条件,系统根据用户给定的查询条件,返回查询结果的信息分发模式。标准检索和智能检索是拉取模式的两种实现方式,其区别在于拉取过程中用户的兴趣偏好是否被考虑在内。
1.1标准检索
标准检索是一种传统的检索方式,是用户通过数字图书馆的借阅端浏览器获取图书资源的常用方式。在标准检索中,系统严格匹配用户输入的检索条件,并返回符合检索条件的图书资源。其执行流程如图1所示,形式化定义如定义1。标准检索的执行流程为:①用户通过人机交互界面输入检索条件;②Web服务器接收到检索条件后,遍历数据服务器中的图书资源,根据检索条件对资源进行过滤;③web服务器将检索结果返回给用户;④若有新资源入馆,图书馆员通过管理端将新资源的信息入库并予以维护。
由于标准检索不考虑用户的偏好特征,因而即便用户需求有所差异,只要检索条件相同,返回的结果就完全一致。估值函数μ(Bi)的值域为[0,1],当目标资源Bi完全符合用户的需求时,估值函数取值为1,完全不符合用户需求时取值为0,否则根据符合程度的不同取值为介于0和1之间的某个值;T为估值函数的阈值;R(retr)为针对检索条件retr和用户需求特征的系统返回结果,它是由满足条件retr且由估值函数μ(Bi)算得的效用度大于阈值T的B中的资源Bj(j=1,2,…,m)的集合;m为返回的结果集中的资源数量;e为不满足条件retr的B中的资源的集合。
例如,假设数字图书馆中存在资源集合B={《人工免疫系统与GIS空间分析应用》,《地理信息系统(GIS)与森林资源管理》,《GIS设计与实现》,《城市地理学》},用户的题名检索条件为retr=“GIS”,则日中的前三项资源由于均包含了“GIS”关键词,因而布尔函数h(Bi,retr)的取值均为true,最后一项资源则取值为false,相应地,经过匹配函数h(Bk,retr)过滤的结果为R1={《人工免疫系统与GIS空间分析应用》,《GIS设计与实现》,《地理信息系统(GIS)与森林资源管理》}。若估值函数μ(Bi)相应的用户模型为userPro={(人工免疫,0.5),(森林,0.8),(城市,0.2)},估值函数的阈值为T=0.3,则由估值函数对R1中的资源排序并去除效用度小于阈值T的资源,最终系统的返回结果为R(retr)={(《地理信息系统(GIS)与森林资源管理》0.8),(《人工免疫系统与GIS空间分析应用》0.5)}。
2.推送模式
推送模式是根据用户的需求特征,系统主动返回相关结果的信息分发模式,主要包括系统主动推荐、用户订阅推送或者两种推送形式相结合等类型。在推送模式中,系统根据用户的定制条件、订阅内容,或者通过分析用户的信息获取历史发掘其偏好特征,进而确定用户感兴趣的内容,并将其主动推送给用户。推送模式能够主动搜集用户感兴趣的信息并予以推荐,帮助用户高效发掘潜在的有价值的信息。
2.1主动推荐
主动推荐不需要用户输入检索条件,而是根据用户偏好模型等用户需求表达,估算目标图书资源满足用户需求的程度,并将估算值大于所设阈值的资源主动推荐给用户。其执行流程如图3所示,形式化定义如定义3。主动推荐的执行流程为:①根据用户的图书资源获取历史,建立用户偏好模型等用户需求表达;②Web服务器动态监控数据服务器中的资源变更,若有新资源入库,则启动主动推荐机制;③Web服务器根据用户的偏好特征计算资源的效用度,并根据效用度的大小对资源进行优劣排序;④Web服务器将排序后的结果返回给用户;⑤若有新资源入馆,图书馆员通过管理端将新资源的信息入库并予以维护。
定义3:设数字图书馆中的资源集合B={B1,B2,…,BN},描述资源满足用户需求程度的估值函数为μ(Bi)估值函数由反映用户需求特征的用户偏好模型等决定,其值域为[0,1],阈值为T),则满足用户需求的资源对象的集合为,该种资源的获取方式即为数字图书馆资源的主动推荐。n为B中的资源数量;估值函数μ(Bi)的值域为[0,1],当目标资源Bi完全符合用户的需求时,估值函数取值为1,完全不符合用户需求时取值为0,否则根据符合程度的不同取值为介于0和1之间的某个值;T为估值函数的阈值;R为针对用户需求特征的系统推荐结果,它是由估值函数μ(Bi)算得的效用度值大于阈值T的B中的资源Bi(i=1,2,…,m)的集合;m为返回的结果集中的资源数量。endprint
例如,假设数字图书馆中存在资源集合B={《人工免疫系统与GIS空间分析应用》,《地理信息系统(GIS)与森林资源管理》,《GIS设计与实现》,《城市地理学》},若估值函数μ(Bi)相应的用户偏好模型为userPro={(人工免疫,0.5),(森林,0.8),(城市,0.2)},估值函数的阈值为T=0.3,则由估值函数对B的资源进行排序并去除小于阈值T的资源,系统推荐的资源为R={(《地理信息系统(GIS)与森林资源管理》,0.8),(《人工免疫系统与GIS空间分析应用》,0.5)}。可见,主动推荐过程中,不需要用户输入检索条件,系统直接根据先前建立的用户偏好模型决定推荐的资源内容及推荐强度。
2.2订阅推送
订阅推送,或叫订阅分发,它根据用户事先订制的条件和方式主动分发符合用户要求的资源。与主动推荐不同的是,订阅推送一般不具备强大的用户偏好建模功能,不能进行用户偏好特征的挖掘。一般而言,订阅推送的功能较为单一,用户的定制条件较为简单和机械。其执行流程如图4所示,形式化定义如定义4。订阅推送的执行流程为:①用户定制订阅推送的条件;②Web服务器动态监控数据服务器中的图书资源变更,若有新资源入库,则启动订阅推送机制;③Web服务器根据用户的订阅推送条件过滤图书资源;④Web服务器将符合用户订阅条件的结果返回给用户;⑤若有新资源入馆,图书馆员通过管理端将新资源的信息入库并予以维护。
例如,假设数字图书馆中存在资源集合B={《人工免疫系统与GIS空间分析应用》,《地理信息系统(GIS)与森林资源管理》,《GIS设计与实现》,《城市地理学》},其中,《地理信息系统(GIS)与森林资源管理》为期刊,其余均为图书。用户的订阅条件为retr=“type”=‘图书&title llke,%GIS%”,则《地理信息系统(GIS)与森林资源管理》和《城市地理学》由于分别不属于图书和不包含“GIS”关键词而被滤去,从而系统的推送结果R(subs)={《人工免疫系统与GIS空间分析应用》,《GIS设计与实现》}。
3.结束语
本文系统分析数字图书馆资源个性化推荐所涉及的各种分发模式,设计标准检索、智能检索、主动推荐、订阅推送等分发模式的执行流程,并给予形式化定义。鉴于分发模式在数字图书资源个性化推荐过程中的重要性,本文的研究具有一定的理论和现实意义。同时,本文数字图书馆资源分发模式的形式化定义方法,对其他领域的信息分发研究与实践,也具有通用意义。
(本文责任编辑:郭沫含)endprint