基于数据挖掘技术的图书馆个性化信息服务探讨
2016-10-27郭菁菁
郭菁菁
(枣庄市图书馆,山东枣庄 277100)
基于数据挖掘技术的图书馆个性化信息服务探讨
郭菁菁
(枣庄市图书馆,山东枣庄277100)
图书馆;个性化信息服务;数据挖掘技术;关联规则
文章从数据挖掘技术的相关原理出发,构建了图书馆个性化信息服务系统,并对数据挖掘的实施过程进行了简要论述,并从关联规则的角度介绍了基于数据挖掘技术的图书馆个性化信息服务的实现途径。
文献信息的检索与传播是图书馆的基础职能,随着图书馆数字化、智能化、自动化程度的不断提升,很多图书馆引入了中外文全文数据库。一方面满足了读者多样化的文献信息需求,另一方面也增加了读者在短时间内获取有效信息资源的难度[1]。个性化信息服务是图书馆“以人为本”价值理念的直接体现,是一种最大限度满足读者需求的主动性或智能推送性的服务模式,即通过对用户的借阅习惯和个性特点进行分析,进而主动地向用户提供其可能感兴趣的信息。这一服务模式涉及庞大的数据采集、处理、分析和归类,需要强有力的数据集成分析工具来支撑。数据挖掘又称知识发现过程,即利用关联规则从大量的、模糊的、不完全的信息数据库中提取潜在的、对读者而言有价值的信息。数据挖掘技术最先应用于商业领域,近几年已经开始引入图书馆管理与服务之中,其在图书馆个性化信息服务中的应用仍有较大的开发空间。
1 基于数据挖掘的图书馆个性化信息服务系统设计
1.1整体结构模型
图书馆个性化信息服务涵盖了用户从网站注册到接受系统提供服务的全过程。这一系统首先对图书馆用户信息进行收集,而后关联技术对用户需求行为进行模型构建,继而用已存在的图书馆资源知识库与用户模型进行对照,提取出用户需求的具体信息服务(见图1)。
图书馆个性化信息服务系统分为两大基本模块,即在线推荐模块和离线挖掘模块,图中上半部分为在线推荐模块,下半部分为离线挖掘模块。知识资源库又细分为信息采集层、信息存储层、信息加工处理层、信息服务层等部分内容。其中,信息采集层、存储层和加工处理层满足了图书馆个性化信息服务中的强大数据需求,是数据挖掘的必要条件。系统数据采集通过搜集读者使用图书馆的信息而实现,如读者刷卡保留的借阅信息、个人身份信息等。待采集环节完成之后,由资源处理层对采集信息进行分类加工,更新知识数据库信息,确保数据资源的即时性(见图2)。
图1 基于数据挖掘的个性化系统结构图
图2 知识资源库功能流程图
从图2可以看出,资源采集层实现信息采集有两种方式,即自动采集和人工采集。所谓自动采集指的是系统根据用户在图书馆中借书、还书、业务办理等刷卡记录自动提取并存储读者信息。人工采集是一种必要的辅助采集手段,某些情形下,因为系统的原因导致用户个人信息无法收录或收录不完全,如系统因功能故障未记录部分用户的身份信息,此时就需要依靠管理人员根据系统提示对用户信息进行完善补充。资源处理层除具备清理和分类信息功能之外,还具有把不规则数据转换为可识别数字信息的作用,最后经数据挖掘工具将其转化为统一识别的知识规则集,以实现个性化信息资源推送服务。
1.2工作流程
系统总体工作流程从用户和图书馆后台数据两方同时开展。首先,用户在图书馆个性化界面中注册信息并申请登录账号,实现与后台数据系统的实时交互。其次,用户通过登录认证查阅各类文献信息,同时点击接受图书馆个性化信息服务操作指令。个性化信息系统后台则根据已录入的用户信息,建立用户使用模型。最后,信息系统后台利用数据挖掘技术获取图书馆资源库中的关联资源,并向用户进行推荐(见图3)。
图3 系统工作流程图
1.3系统模块构成
在线推荐模块为离线挖掘模块运行提供了数据支撑,而离线挖掘模块辅助在线推荐模块实现信息推送服务,两者共同组成了个性化信息服务模块,都不可缺少[2]。在线推荐模块在完成用户信息采集后,对信息进行整理归类,而后与系统知识库进行比对,最后根据关联规则生成用户所需要的信息。离线挖掘模块通过对用户进行的聚类细分找出相似用户群体,继而构建用户模型,完成个性化信息推送服务。
在线推荐模块的原理主要是把生成的用户模型与已有的资源知识库相比对,最终把有用信息推荐给用户。而采用离线挖掘,一方面要求在时间效度上具有科学性,另一方面要求在数据处理上具有即时性。图书馆个性化信息服务系统中存储的用户信息每时每刻都在更新,需耗费大量时间进行数据处理,考虑到在线处理会影响到用户的使用,通常情形下系统工作采用离线处理模式。因为离线数据挖掘基于用户使用信息生成关联规则,而在短时间内用户信息基数变化不大,所以离线处理的结果不会对个性化信息服务运行造成影响(见图4)。
图4 离线数据挖掘生成关联规则流程图
从图4可以看出,这一关联规则流程主要由三部分模块组成:①数据处理模块。其又称数据存储模块,主要功能是依靠系统分析、处理和汇总图书馆资源数据库中的用户信息,而后将其存储在数据挖掘资源库之中。②挖掘模块。其又称数据挖掘引擎,主要功能是运用聚类算法对存储信息进行挖掘,生成用户行为规则。③规则导入模块。其主要功能是把挖掘算法结果导入到系统知识库之中,寻找与用户行为规则相匹配的文献资源。
2 图书馆个性化信息服务中的数据挖掘实施与结果评价
在当前信息资源泛化传播的时代,图书馆用户的信息需求不仅仅局限于以往的信息检索、文献书目查询,而是希望获得更有深度的文本信息或更具全面性的查询问题解答。采用数据挖掘技术既有助于保持信息的完整性和功能性,又能深入剖析信息之间的关联,进而满足用户的深层次信息需求。普通数据挖掘的实施过程分成四个阶段,即问题定义阶段、数据挖掘和结果分析阶段、数据评估阶段。与普通数据挖掘所不同的是,图书馆个性化信息服务中的数据挖掘可以为信息服务提供多种可参照的方式[3],如按照某一主题,提供全面的方案知识,辅助图书馆完成个性化决策支持服务;应用户要求,为其提供全本文献资料或关联资源库链接,使文献服务更具针对性(见图5)。
图5 个性化信息服务系统中数据挖掘实施步骤
2.1提出问题
图书馆用户依据自身的借阅需求向图书馆个性化信息服务系统提出文献查阅或借阅请求。系统自动记录用户请求,并根据请求的具体内容缩小数据挖掘范围,减少系统数据挖掘压力。
2.2数据导入与整理
数据导入和整理是数据挖掘开始的前提,同时也是用户获得优质信息服务的必要条件。数据挖掘质量与挖掘范围、挖掘工作量成正比关系,为了向用户提供全面而深入的文献信息服务,数据挖掘开始之前应全面理解用户设定的问题,尽可能扩大文献数据的挖掘范围与深度。在挖掘工作初步完成之后,应根据用户的需求和索引题目的要求对挖掘数据进行初步审核,并对挖掘出的数据进行分类。通过异常数据清除、重复数据删除、文献资源标准格式化、错误更正等操作,完成对数据的最终整理。
2.3模型构建与调整
把已挖掘数据转换成用户信息模型,并最终与系统数据库中的资源指标正确匹配,从而转换成有用的关联规则,这离不开模型构建工具的科学性和挖掘人员丰富的操作经验。一般而言,一种数据挖掘算法对应一种模型构建方式,想要最大化地发挥数据挖掘功能,关键是要选择一种适合分析模型的挖掘算法。用户模型建立完成之后,可根据系统的需求对模型进行适当调试,如:增加信息匹配因素,使之能够挖掘出更多的或更深层次的关联信息。
2.4结果评定与解释
结果评定根据用户的文献信息需求状况而设定,其目的在于分析和整理出有用的挖掘模式运行数据,为后续完善系统服务做准备。数据挖掘之后,在资源数据库中寻找出潜在的价值信息,但数据挖掘之后产生的关联规则可能不止一种模式,也并非每种模式都会产生相同的挖掘效果[4]。通过对挖掘结果做出评价和解释,选择最优化的挖掘模式,有助于满足大多数用户的信息需求。
2.5反馈与修订
系统接收用户的反馈信息,找出数据挖掘中的不足,与用户沟通后制订下一阶段的详细挖掘计划。
3 基于数据挖掘的图书馆个性化信息服务实现
3.1分类号级层面关联规则
分类号级层面的关联规则通过分类号级对图书馆资源系统进行数据挖掘实现。这一关联规则既能呈现出学生的潜在阅读行为,又能勾勒出学科之间的隐性关系。一些情况下,对于图书馆两年内的新购图书,管理人员会把其集中在靠近走廊或阅览室入口之处,以便借阅。此时,利用数据挖掘生成分类号级关联规则,将符合规则的图书集中有序摆放,也就实现了潜在的个性化信息服务。而购置时间在两年以上的图书,其摆放原则大多依据《中国图书馆图书分类法》,很难依据关联规则对其进行重新调整。由此可以看出,此种关联规则下的个性化信息服务方式更加适合传统模式下的图书馆。
3.2图书馆层面的关联规则
图书馆层面的关联规则通过索书号级对图书馆资源数据库进行挖掘实现。特定的索引书号对应相应的图书标题,这一数据挖掘生成的关联规则除了显示用户借阅了图书甲的信息,还会显示读者可能借阅图书乙的信息。这一关联规则在数字化图书馆中有较大应用空间,不受图书馆文献资源购买时间长短的限制。其基本过程是通过关联规则表查询用户最近的借阅行为,与资源数据库进行匹配,如果有相关联图书,则从资源数据库中把图书信息调出,待用户下次登录图书馆个性化信息服务界面时,系统会在屏幕中主动显示用户可能感兴趣的图书列表。
4 结语
当今社会中的图书馆服务不再局限于提供简单的文献查找与借阅,而是转向了为用户提供更为深层次和关联性的信息源。本质上来看,传统图书馆的信息服务模式是一种“被动式服务”,难以向用户提供完整的知识集合或信息集合。而数据挖掘技术的应用,则有效解决了图书馆信息服务中供求不匹配的问题,使读者享受到更具实效性、针对性和个性化的信息服务。但数据挖掘技术涉及诸多数据处理技巧且工作量复杂,因此在我国图书馆个性化信息服务系统构建中普及率还很低,同时这也成为我国图书馆个性化信息服务建设中面临的现实问题。
[1]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013(8):112-113.
[2]查继红.高校图书馆个性化信息服务模式探析[J].图书馆学刊,2014(6):79-82.
[3]吴淼.数据挖掘在图书馆个性化服务中的研究[J].出国与就业,2011(12):42-44.
[4]孙鸿燕.图书馆关联数据的综合管理及实现[J].图书馆学研究,2011(12):101-103.
(编校:马怀云)
2016-01-02
郭菁菁(1985—),枣庄市图书馆馆员。
G250.7
A
1003-1588(2016)02-0127-03