APP下载

基于数据挖掘的高校图书馆图书采购计划辅助决策研究

2009-10-13迟春佳毛志勇

现代情报 2009年7期
关键词:高校图书馆数据挖掘

迟春佳 毛志勇

〔摘 要〕针对如何科学制订高校图书馆图书采购计划以提高图书采购质量和效率的问题,分析了传统图书采购计划制订方法的不足,阐述了数据挖掘技术的内涵,提出了将数据挖掘技术用于高校图书馆图书采购计划制订辅助决策的方法,探讨了该方法的可行性,并详细给出了数据挖掘技术应用于制订高校图书馆图书采购计划的过程。

〔关键词〕数据挖掘;图书采购;高校图书馆

〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)07-0108-03

Research on Assistant Decision-making in Formulating University Library

Book Purchasing Plan Based on Data MiningChi Chunjia1 Mao Zhiyong2

(1.Library,Liaoning Technical University,Huludao 125105,China;

2.College of Business Administration,Liaoning Technical University,Huludao 125105,China)

〔Abstract〕To improve the book quality and increase the labor efficiency,the data mining technology has been introduced into book purchasing system to formulate a reasonable purchasing plan.After the deficiency analysis of the traditional book purchasing system and thorough investigating of the data mining technology,a new method of drawing up book purchasing plan based on the data mining technology has been brought forward.A detailed procedure of formulating a purchasing plan using this method has been introduced and the method has been proved to be helpful.

〔Key words〕data mining;book purchase;university library

随着办学规模的不断扩大,国内各高校在校人数迅速增长,广大师生对图书馆文献信息服务的要求越来越高,高校图书馆面临着巨大压力,必须通过不断加强建设才能满足读者需求。图书采购是图书馆业务的一个关键环节,也是图书馆服务工作的基础,如何有效使用有限的资金,制订科学的采购计划,合理添置读者真正需要的图书,提高图书资料的利用效率,是图书采购工作面临的主要问题,这对于馆藏资源体系的建设完善起着决定性的作用,在很大程度上决定着图书馆整体服务水平,会直接影响到读者服务工作的效果和图书馆任务的完成。然而,在制订采购计划时,传统的方法却存在诸多缺陷,已不能很好满足采购工作的需要,因而迫切需要一种更加高效、科学的方法进行该项工作。

1 传统图书采购计划制订方法的分析

1.1 传统的图书采购计划制订主要采用的方法

1.1.1 专家法

这是一种最为常见的方法。通常做法是图书采购部门邀请各个学科的专家,请专家在书目信息列表上选择出他们认为有价值、能反映学科前沿问题、突出学科重点的图书,然后再结合经费情况、馆藏图书的学科专业分布、发展趋势、现有藏书量以及学校的学科发展规划情况、图书流通信息等进行调整,最终确定采购计划。专家法的优点是发挥了专家熟悉本领域图书资料的长处,专家根据其对本专业发展需要、学科发展趋势、同行图书作者、图书内容的了解,保证了图书采购的专业水准,尤其是保证反映本学科最新发展成就和趋势的图书能够入选。

1.1.2 经验法

此种方法是指在制订采购计划时,主要依据图书采购人员的经验,根据其对馆藏资源的了解和对图书需求的判断来决定图书采购目录和数量,制订采购计划。这种做法的优点是管理人员长期从事本职工作,对图书馆的现实有充分的了解,工作效率较高。

1.2 两种方法的不足与缺陷

1.2.1 计划制订容易受到主观因素影响

在图书采购过程中,尽管采购人员或专家专业学识水平较高、业务能力较强,但不可避免地会带有一定的主观性和个人喜好,从而很容易导致计划失去客观性。

1.2.2 计划制订容易缺乏全面性

在影响计划制订结果的诸多因素中,由于缺乏有效的技术,读者的真实需求情况对于采购计划的制订者往往是难于准确把握的,这就极易导致计划制订缺乏全面性,最终花费了大量资金购置的图书却并不能很好地满足读者的实际需求。

2 数据挖掘概述

数据挖掘(Data Mining)又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。数据挖掘相对于传统的数据分析(如信息查询、报表分析)而言,其本质区别是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系,其任务是从数据中发现模式。数据挖掘主要致力于知识的自动发现,是知识发现研究在数据库系统中的延伸。数据挖掘在没有明确假设的前提下去挖掘信息、发现知识,不仅能对过去的数据进行查询和遍历,并且能够对将来的趋势和行为进行预测并自动探测以前未发现的模式,从而很好地支持人们的决策。被挖掘出来的信息具有先未知性、有效性和实用性3个特征,能够用于信息管理、查询处理、决策支持、过程控制以及许多其它应用。目前,数据挖掘的主要功能有:

(1)分类:按照数据对象的属性、特征,建立不同的组类来描述数据。

(2)聚类:识别出数据对象内在的规则,按照这些规则把对象分成若干类。与分类不同的是,聚类没有预先定义数据对象,而是由数据对象决定。

(3)关联规则和序列发现:关联分析是揭示数据间没有直接表示的相互关系,而关联规则是解释并识别这些数据关联的模式。与关联不同,序列是一种纵向的联系,用于发现并确定数据对象之间与时间相关的序列模式。

(4)预测:把握数据对象发展的规律,对未来的数据状态趋势做出预见。

(5)偏差的检测:数据库中总有一些数据对象是少数的、极端的或特例的,对他们进行描述并揭示内在的原因。

数据挖掘的技术和算法主要有统计方法(包括点估计、基于汇总的模型、贝叶斯定理、假设检验、回归和相关)、相似性度量、决策树、模糊逻辑、神经网络和遗传算法等。而在实际的数据挖掘应用中,所使用的数据挖掘功能和技术、算法往往不止一种,经常是综合运用的。

3 数据挖掘在制订高校图书馆图书采购计划中的应用

3.1 数据挖掘在制订图书采购计划中应用的可行性

目前,数据挖掘在经过多年的发展之后已经形成相对成熟的技术体系,特别是在数据挖掘设计、数据抽取以及联机分析处理技术等方面都取得了令人满意的进展,为数据挖掘的应用奠定了技术基础。数据挖掘技术在电信、制造、零售、金融等领域已得到了广泛的应用,并取得了巨大的回报。由于我国各高校图书馆系统经过多年的自动化建设,已具备相当的物质条件和人才储备,并积累了大量业务数据,可以为数据挖掘技术应用于图书采购奠定一定的物质基础。利用数据挖掘技术,图书采购人员可以非常方便地通过对图书馆自动化系统所积累的数据进行处理,分析出文献的利用情况,从而准确把握读者实际需求,可以很好地克服了传统方法中对读者需求把握不准确的不足。此外由于数据挖掘结果可以为采购文献提供科学合理的各种分析报告及预测信息,从而将人员的主观因素的影响降到最低,可以最大程度提升决策的科学性、准确性和全面性。因此,在图书采购中应用数据挖掘技术,为图书采购计划辅助决策是完全可行的。

3.2 数据挖掘在制订高校图书馆图书采购计划中应用的过程数据挖掘在制订图书采购计划中的应用过程如图1所示,包括收集原始数据、数据预处理、数据挖掘、结果分析和制订采购计划5个步骤。

3.2.1 收集原始数据

收集原始数据的目的是为后期的数据挖掘提供数据源。在实际应用中,收集的原始数据主要包括图书馆自动化系统数据库里的采访、编目、典藏、流通等的业务数据。收集的业务数据信息主要包括以下内容:

(1)读者信息数据:主要包括读者证件号、姓名、性别、专业、班级、院系、读者类型、联系方式等。

(2)流通借阅数据:主要包括借阅记录号、书名、索书号、读者证件号、借阅时间、归还时间等。这部分信息是利用数据挖掘技术获取图书馆文献利用状况的关键,通过对它们的统计、归类、分析有助于了解书刊的使用情况并对读者需求进行挖掘和预测分析。

(3)文献检索记录:其主要内容包括读者证件号、检索字段、检索时间等。这部分数据能很好地反映检索者的需求和借阅倾向,非常有助于对读者需求的挖掘。

(4)馆藏图书数据:主要包括书名、索书号、馆藏位置、作者、出版社、出版日期、购入日期等。

3.2.2 数据预处理

由于原始数据是从图书馆自动化系统数据库导出,一般都会存在大量的含有噪声、不完整甚至是不一致的数据。因此,必须对数据挖掘所涉及的数据对象进行预处理,以提高数据挖掘效率和所获模式知识质量。

按照数据挖掘理论,数据预处理主要包括:数据清洗、数据集成、数据转换和数据消减。数据清洗主要是对原始数据填补遗漏数据、消除异常数据、平滑噪声数据,以纠正不一致的数据。数据集成是将来自多个数据源的数据,结合在一起并形成一个统一数据集合。数据转换是将数据转换或归并以构成适合数据挖掘的形式。数据消减用于将数据集合进行精简,精简结果数据集保持原有的数据集的完整性,但挖掘效率更高,且挖掘出的结果与使用原数据集的结果基本相同。

具体地,在对3.2.1中收集到的原始数据集合进行数据预处理的过程中,首先是对收集到的数据检查完整性及数一致性、去除噪声、删除无效数据、填补丢失的域、去除空白数据域、考虑时间顺序和数据变化,如果发现原始数据记录中某些属性值为空,如读者类型或专业等,可以对其进行遗漏处理。发现某些数据值出现不一致或随机错误时,可以通过手工或其他方式加以纠正。根据挖掘需求,可将部分属性取值进行泛化处理,如将年龄属性可泛化映射成:青年、中年、老年,专业可泛化为:文、理、工、管、法等。由于分析单一读者的需求意义并不大,读者类型可分为本科生、研究生、教师、教辅等类别,分析不同类型读者的需求特征会更有意义。为了数据挖掘的需要,还可以进行属性构造,即根据已有属性集来构造新的属性,如构造“外借次数”属性,其值可通过“借书日期”、“还书日期”导出。构造“借出时间”属性,其值可由“借书日期”、“还书日期”方便地导出。对某些数据可以进行统计、汇总处理来构造新属性,如可以累计各类图书的总册数来反映不同类图书在馆藏中的比例关系。为找到数据的特征,可用维变换或转换方法减少无效变量的数目,可删除一些与挖掘任务无关的属性,比如证件号、姓名、联系方式等。通过一系列的数据预处理工作,可以为下一步的数据挖掘过程提供良好的数据基础,做好前期准备。

3.2.3 数据挖掘

这一过程建立在经过数据预处理之后的数据集合之上,数据集合中有大量的数据,蕴藏着一些潜在的规则和知识,可以利用关联分析、聚类分析等各种分析方法加以发现。通过对读者信息与图书借阅信息之间的联系进行关联性分析,可以了解某类读者和某类图书之间的关联度。挖掘文献频繁借阅和检索以及续借图书情况,可得出哪些类别图书读者比较感兴趣。通过对借阅者借书信息的聚类分析,可分析出不同年龄段的人的借阅倾向。通过对还书时间的分析,了解读者对所借书的态度等等,还可以得出在不同时期流通较活跃的图书分类等等。

3.2.4 结果分析和制订采购计划

利用数据挖掘技术,可以获得读者借阅、检索频率较高的图书信息,或缺书比例较大的图书以及读者借阅倾向、关注重点等信息,有助于科学分析各类文献的利用率和需求情况,为采购文献提供科学合理的各种分析报告及预测信息,从而指导采购人员对文献种类进行科学地筛选,制订科学的采购计划,合理地确定各种文献所需的复本量,及时补充短缺的文献,剔除过时的文献,从而保障图书馆信息资源体系的科学性和合理性。

4 结 语

综上所述,把数据挖掘技术用于高校图书馆图书采购计划的制订,是挖掘高校图书馆信息技术应用潜力、提高管理水平和读者服务水平的有益探索,必将有效地改进图书采购工作水平,使高校图书馆更好地服务于全校师生。

参考文献

[1]资芸,李一鹏.基于数据仓库的高校图书馆图书采访决策系统研究[J].新世纪图书馆,2006,(4):12-14.

[2]金建旺,施国生.基于数据仓库的图书馆采购决策研究[J].浙江理工大学学报,2008,(2):191-194.

[3]苏新宁.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.

[4]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002.

[5]张存禄,等.数据挖掘在图书采购中的应用[J].情报科学,2004,(5):284-286.

[6]龚宇花,刑耐生.数据挖掘技术在高校数字化图书馆中的应用[J].电脑知识与技术,2008,(7):1547-1548,1557.

[7]郭佳慧.数据挖掘技术在数字图书馆中的实现[J].农业图书情报学刊,2008,(9):36-38.

[8]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002.

[9]Jiawei Han,Micheline Kamber.Data Mining:Concepts and techniques.Morgan Kaufmann Publishers,Inc.2001.

猜你喜欢

高校图书馆数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究