APP下载

数据挖掘在高校图书馆中的应用

2016-03-28田玉娥

传播与版权 2016年3期
关键词:关联规则聚类分析决策树

田玉娥

数据挖掘在高校图书馆中的应用

田玉娥

[摘 要]随着高校招生人数的增多,图书馆购买了大批量图书,图书管理文献系统蕴藏着大量的数据,这些数据除了有读者信息、图书信息外,还有多媒体信息等。我们试图从这些数据中分析出有价值的信息,利用数据挖掘对这些数据进行分析,找到内在的关系,为图书馆各方面的决策起到引导作用。简要介绍数据挖掘的定义以及图书馆数据挖掘主要用到的算法,如关联规则、决策树、聚类分析等,总结数据挖掘得到的结果在图书馆馆藏布局、图书采集、WEB信息挖掘、个性化服务方面发挥的作用,并对数据挖掘在高校图书馆中的研究进行了展望。

[关键词]高校图书馆;数据挖掘;关联规则;聚类分析;决策树

[作 者] 田玉娥,山西工程职业技术学院。

图书馆是搜集、整理、收藏图书资料以供读者阅览、参考的机构。图书馆的业务工作是由很多相互联系的工作环节组成的,一般包括文献的收集、整理、典藏和服务四个部分。这几个方面环环相扣,要想使读者对所借阅的文献满意,服务到位,就要了解读者对文献类型的需求,了解读者的需求。为此,我们可以采取一些方法,比如问卷调查、座谈、网络论坛交流等形式,但这些都是显性需求、表面需求,通过简单的统计即可完成,要想了解更深层次的隐形需求就比较复杂了。怎样才能更好地了解这些文献之间的关系,让读者十分满意,并且让图书馆的纸质图书和电子资源得到最大效率的充分利用,恐怕要借助数据挖掘这项技术了。

数据挖掘就是面对海量数据应运而生的一种数据处理技术,通过数据挖掘的一些方法能把这些数据中隐形的关联的数据挖掘出来,便于图书馆工作人员更好地为读者服务。在数据挖掘中最著名的相关联系的例子是“啤酒与尿布”的例子,即看起来风马牛不相及的物体却通过数据挖掘的方法找到了内在的联系——购买尿布的同时也购买了啤酒。图书馆想要充分利用数据挖掘,首先就要了解什么是数据挖掘,现阶段在图书馆应用方面涉及哪些数据挖掘的方法,以及取得了哪些成效。

一、数据挖掘的定义

数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的知识的过程[1]。但这些知识并非是单一的,它可以以多种形式出现,如数字、文本、图形、结构化语言、网页等,但最终目的只有一个,那就是把海量数据转化成易于理解的模式让大家接受与认可。海量数据的存在形式多样,图书馆内借阅的自动化系统数据库中存储了大量的读者信息和馆藏图书信息,除此之外还有一些隐藏着的网络信息,如用户的提问、动态生成的结果[2],一些音频、图像等多媒体信息。数据挖掘分数据准备、数据挖掘、结果表达和解释三个主要阶段来完成。

二、数据挖掘在图书馆发展领域的现状

随着科学技术的发展,数据挖掘技术也已不断引进图书馆的发展领域内,如Scott Nicholson研究图书馆书目挖掘模式就是根据读者的借阅信息和借阅图书的种类挖掘出来的。图书馆数据挖掘理论模型被May Chau发现并研究出来,利用这种模型,可以研究出图书馆的挖掘系统,能帮助读者快速查找信息[3]。近年来许多学者在图书馆挖掘模型中投入了大量的精力,但迄今为止没有明显的成就。

三、现阶段在图书馆数据方面用到的数据挖掘算法

尽管数据挖掘的算法有很多,但是在图书馆数据挖掘这一块应用较多的是关联规则、聚类分析、决策树算法。在数据挖掘过程中,有时单独使用某种算法,有时是几种算法交叉使用,或互相印证或为求某个数值。我们主要就这几个算法进行比较详细的说明。

(一)关联规则

所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。这种关联是建立在数据库中的一些数据项中的关系,这种关联可以是简简单单的关联,也可以是有前因后果的关联,或者是时间序列分析的关联。通过各种关联,找到它们之间隐藏的两个或多个变量取值之间的规律性,这就是关联规则。这种关联需要通过一些参数“支持度”“信任度”来衡量它们之间的依赖生存关系,关联规则就是支持度和信任度分别满足用户给定阈值的规则。

关联规则挖掘算法分连接和剪枝两个步骤来完成的,其中比较经典的算法是Apriori算法。

Apriori算法是先在数据库中找出支持度大于或等于用户设定的阀值的所有的频繁项集,再利用频繁项集构造出满足用户最小信任度的规则。在找所有频繁项集的过程中,会有非频繁项集的候选集产生,需多次扫描数据库将它们找出来,再将不符合要求的给删除掉,由于需要往返多次扫描数据库,所以这是Apriori算法的一大缺点。

(二)聚类分析

将物理或抽象对象的结合人为地依据一定的规则分组成不同的类的过程就是聚类分析。因为依据的规则不同,生成的簇的对象的特点就比较明显,同簇相似性大,异簇相异性大,相似度极低。

同其他算法一样,也有其算法原理,原理如下:

第一步:分初始类,此时的类可能是以前的类,也可能是新类,需要对样本逐个扫描,根据其与已扫描过的样本的距离分类;

第二步,依据类间距离对第一步中的类进行合并,达到一定的标准,停止合并。

计算两个样本间的相异度的度量标准即距离的衡量是用特征空间中的距离作为标准的,K-means算法是典型的基于距离的聚类算法,聚类算法的终极目标是得到紧凑且独立的簇,把距离作为相似性的评价指标。

聚类分析算法也有它的缺点,因为依据的规则不同,结果也有些许的差别。

(三)决策树算法

决策树算法是一种非连续的、逼近离散函数值的方法。也同其他算法一样,先要对数据进行预处理,根据归纳算法生成决策树和可读的规则,再利用决策对新生成的数据进行研究。

决策树算法的目的是生成一颗决策树,建立树的分支需要通过一个测试函数值来生成,这个测试函数是靠实例集生成的,在每个分支下依据同样的规则建立下层结点和分支,同Apriori算法一样也需要对决策树进行剪枝,把决策树转化为规则集,有了规则集就可以分类新实例。

C4.5是决策树的经典算法,它既可以用来解决分类问题,也可以用来解决回归问题,而且对于预测变量的数据处理如空值处理、派生规则等许多方面做了比较大的改进。

高校图书馆的读者群比较特殊,老师们作为读者比较固定,但学生作为读者的生命周期就比较短[4],三年或四年一换,这就需要不断地对数据源进行更新,挖掘的数据源的跨度要大,随时掌握读者群的变化。

四、数据挖掘在图书馆方面的应用

数据挖掘应用在图书馆,主要集中在这几个方面:

(一)馆藏布局和图书推荐方面

通过挖掘图书馆管理系统和多媒体信息可以发现:在五大类图书分类之间有很强的关联性,对于这五大类图书可以就近摆放或放在热门书籍附近;图书种类之间存在关联,这样可以在图书上架时进行考虑,抽出部分图书复本把关联书放置在一起或周围;专业和图书种类之间的关联,图书种类不只是专业书籍,还有是文学、语言类图书之间的关联,这样能针对不同专业的读者给予合理的较快的引导,较大地提高了图书的使用率,同时也节省了读者宝贵的时间,使其借到合乎自己要求的图书;学科之间有关联,比如数学和计算机学科就有着很深的渊源,计算机利用数学来抽象或思考,数学利用计算机来提高工作效率,这样在排架时就可以有所侧重。

(二)图书采集方面

过去的图书采集比较随意,将书目发到各系部由各专业老师结合本专业特色、课程与自身发展选择图书,或通过收集热门图书进行采集。现在通过数据挖掘的算法,发现读者与图书之间的联系、图书之间的联系等,就可以在采集图书的过程中进行参考,这样在采购图书时便有了侧重点,同时也发现了少有人问津的图书可以不采购,而对借阅率高的图书重点采购,并考虑是否要多采购复本,以使经费得到最好最合理的应用,避免盲目浪费。

(三)Web信息

数据挖掘要从方方面面进行挖掘,对于Web信息来说,Web的文档层次结构、Web的组成元素图片、文字等数据中的某些信息是有价值的,Web数据挖掘是通过挖掘这些有价值的信息,来发现其中的某些隐形的未被发现的模式来提高Web技术的利用效率[5]。Web数据挖掘不管是从内容、结构还是使用上进行挖掘,其目的都是为了发现或预测读者隐藏在数据中的习惯行为,以便对网站的结构或内容修改进行指导,发现有价值的页面,发现读者隐藏的关联规则,为读者个性化服务提供依据,来提高数字资源或纸质图书、期刊等的利用率。

(四)个性化服务

数据挖掘不单可以挖掘图书之间的关联,还可以针对某一特定读者群,例如某一专业或某一个系部,挖掘读者信息和书目信息,或数字资源等之间隐秘的关系,预测他们的信息要求,发现他们借阅图书的特点。掌握了这些,就能够针对读者的特点,高效率高质量地为读者提供个性化服务,同时也节省了读者的时间,给出合理的参考性的指导,让图书馆的服务更上一层楼。

五、数据挖掘在高校图书馆中的发展前景

数据挖掘在国内图书馆的挖掘现在还处在初步阶段,挖掘方法比较单一,研究只停在理论水平上,对图书馆的实际需求分析和研究的层次较浅,在方法原理和应用上没有突破性的发展,没有好的应用实例在图书馆间广泛使用。笔者相信在不久的将来,随着科学技术的突飞猛进,数据库技术会越来越成熟,研究出的数据挖掘算法会更全面,开发出的图书数据挖掘模型会更广泛地应用到各大图书馆中,那时图书馆

服务质量会更上一层楼,图书馆将发挥它最大的效用。

【参考文献】

[1]田玉娥.数据挖掘在图书管理方面的应用[J].电脑开发与应用,2012(4):79-81.

[2]宜建军.基于Web数据挖掘的图书馆UIS系统设计与实现[J].现代情报,2006(3):146-149.

[3]奉国和,奉永桃.近十年国内图书馆数据挖掘研究文献计量分析[J].图书馆论坛,2011(1):46-49.

[4]周倩.数据挖掘在图书馆用户资源管理中的应用研究[J].现代情报,2006(6):87-90.

[5]周锋.Web挖掘技术在远程网络教育中的应用[J].常州工学院学报,2010(Z1):64-66,86.

猜你喜欢

关联规则聚类分析决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
农村居民家庭人均生活消费支出分析
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
基于决策树的出租车乘客出行目的识别
“县级供电企业生产经营统计一套”表辅助决策模式研究
基于肺癌CT的决策树模型在肺癌诊断中的应用