数据挖掘技术在图书馆借阅记录中的应用研究综述*
2016-02-04喻正红
喻正红
湖南工程学院,湖南 湘潭 411104
数据挖掘技术在图书馆借阅记录中的应用研究综述*
喻正红
湖南工程学院,湖南湘潭411104
摘要:图书馆是信息文献服务中心,为读者提供服务是图书馆的目的;而数据挖掘技术在图书馆中的应用,就是通过数据分析提取出读者具有一定共性的需求,从而把它作为选择购买数字、纸质资源,向读者开展个性化服务等工作的指导标准,为读者提供更好的优质服务。
关键词:数据挖掘;图书馆;借阅记录;研究综述
一、数据挖掘
数据挖掘可以定义为:从大量的、不完全的、随机的、有噪声的数据库中,提取隐含着的那些预先不知道的并且对人们潜在有用的信息和知识的过程。主要包括以下四个层次的含义:
(一)数据的来源必须真实,数据量要大并且包含噪声;
(二)发现的是用户感兴趣的知识;
(三)知识可以被理解和应用,可以用自然语言来表达;
(四)知识是有特定前提和约束条件,是相对的应用于特定领域。
数据挖掘就是从大量的数据中,把潜在的、有用的信息和规律提取出来,为决策提供信息支持。
二、数据挖掘在国内外的研究现状
数据挖掘是一门新兴的科学,蕴含广泛,各个学科都在进行研究。1989年8月举行了第一届国际联合人工智能会议,数据库中的知识发现(KDD)的概念在该次会议上被提出。目前专家们认为数据库的本质不只限于查询,查询只是众多应用中的一个工具,深层次发掘其中的信息知识才是数据库的本质所在。把数据库作为信息源的中心,建立共享平台可以使数据库技术加速发展。正是基于这些原因,在需求的驱动下,很多专家学者将重点面向数据仓库和数据挖掘的研究[1]。
从上世纪90年代开始,国内就已开始数据挖掘的研究,发展也十分迅速。数据挖掘研究人员主要集中于国内高校,其主要研究方面为:模糊方法在知识发现中的应用、数据立方体代数、关联规则开采算法的优化和改造、知识发现的基础理论及其应用等,这个时期理论方面的研究占了绝大部分。可以实际应用的成果寥寥无几。其中有两个著名的应用:第一个是上个世纪九十年代初,宝钢公司为了解决钢板生产问题,引入了当时国际上成熟的SAS公司的技术解决方案,开创了国内第一个数据挖掘项目:提高钢板质量用来造船,该项目的实施大大提升了宝钢在同行业的竞争力,带来了巨大的经济效益和社会效益[3]。第二个是铁道运输部为了缓解春运期间铁路运输的压力,利用数据挖掘工具,对春运期间的铁路客流量进行了分析和研究,从中挖掘出关键信息用来指导铁路运输[1,3]。
三、数据挖掘技术在图书馆的应用
用数据挖掘技术应用于图书馆管理工作,国外做了很多研究工作。美国许多大学图书馆人员联合本校计算机专业人员,已经做了一些实际的应用。比如芝加哥大学图书馆研究院的Swansan等一直在从事认知科学文献内容管理的研究[1]。美国图书馆与信息技术联合会的多位著名专家在1999年的讨论会上,就己经把向读者进行个性化服务推荐作为以后图书馆发展技术的重要研究方向[2,3]。
数据挖掘应用于国内图书馆的研究在近几年才开始。由于数据挖掘是一门刚刚起步的技术,它在数据库和信息决策领域的研究成果还不是很多。仅有高校中的一些图书馆研究人员和计算机专业人员从事了少量的工作,他们的研究重点集中于研究数据挖掘在图书馆个性化信息服务推荐方面。
理论方面,从2000年开始,将数据挖掘技术应用到图书馆个性化服务方面的研究逐年增加,已成为近几年的研究热点。这些文章探讨了数据挖掘在图书馆信息服务中的应用,揭示了个性化信息服务在图书馆中的作用和发展趋势。研究内容包括数据推送技术、个性化信息服务的概念与内涵、个性化信息服务的模式、个性化信息服务的特点、以及个性化信息服务发展对策及展望等。
实践方面,个性化信息推送服务已受到越来越多高校图书馆的重视。国内知名高校如浙江大学、人民大学等图书馆都着手于个性化信息推送服务[1];浙江大学图书馆系统将馆藏的各种电子资源和网络资源二次加工以后,系统主动向读者推送信息,主要功能有:定制图书馆各种网络资源和本地数字资源,用户可以把常用的数据库放在定制页面上以方便检索,允许读者挑选几个常用Web页面的URL地址放入书签。用户可根据自己的需要来点击国内外著名图书馆的链接地址[1]。
在图书馆使用者行为模式研究方面,西南大学陈文老师对读者社群关系利用数据挖掘技术进行了摸索,详细介绍了对读者分类的方法;关联规则算法方面,东南大学的周蓓有深入的研究并开发了应用的产品;此外,其他研究人员将数据挖掘在数字图书馆方面的应用进行了理论研究。
基于我国的具体国情和文化背景的差异,数据挖掘技术在国内的应用还缺少具体的实现环境,大多数学者把研究重点放在对技术和概念的介绍等方面,即国内学者关于数据挖掘理论研究较多,对数据挖掘应用系统和算法测试的研究方面较少,特别是数据挖掘在图书馆读者借阅记录中的应用研究,目前还没有具体的实践案例,学术性较强,应用的实例较少,特别是能在各图书馆间推广的应用实例[1]。
四、结语
湖南工程学院图书馆从2000年实行计算机管理以来,图书管理系统包含了大量馆藏文献信息和读者借阅记录信息,这些业务数据的使用范围仅限于检索和查询以及简单的数据统计,没有对这些馆藏数据作进一步的研究,这些蕴含在馆藏数据中的模式和规律没有被发现和利用。我馆纸本图书有130多万册,如果读者对图书馆的检索系统功能不熟悉,读者想要快速、准确的找到自己所需要的文献信息资源是比较困难的。流通子系统中,读者的借阅记录每天都有新的数据产生,读者借阅记录的信息对于读者的信息需求是真实可靠的,因此对读者借阅记录进行数据挖掘,可以较好掌握每个读者的借阅兴趣、爱好和需求,其中所包含的那些读者和图书馆互动的历史记录对于我们提供个性化的信息推送服务是不可或缺的资源,如果我们能把这些有意义的信息挖掘出来,能帮助我们熟悉读者的文献信息需求,主动对读者进行资源推送,提高图书馆文献信息资源的利用率和个性化服务水平。
[参考文献]
[1]王斌.数据挖掘在高校图书馆服务中的应用研究[D].西安理工大学,2010.
[2]李宏运.关联规则挖掘在图书馆管理中的应用[D].华东师范大学,2009.
[3]付开远.数据挖掘在高校图书馆个性化信息服务中的应用研究[D].贵州大学,2010.
中图分类号:TP311.13
文献标识码:A
文章编号:1006-0049-(2016)10-0040-01
* 2014年度湖南省高等学校科学研究项目(基金编号:14C0294)。