APP下载

基于数据挖掘技术的高校图书馆档案信息管理平台构建

2016-02-04哈立原

山西档案 2016年5期
关键词:信息管理数据挖掘图书

文/哈立原

基于数据挖掘技术的高校图书馆档案信息管理平台构建

文/哈立原

随着现代科学技术的飞速发展,许多现代新型技术为高校图书馆档案信息管理构建了崭新的平台。文章分析了数据挖掘技术在高校图书馆档案信息管理平台构建中的主要问题,提出了数据挖掘技术在图书馆档案信息管理平台构建中的应用思路。

数据挖掘技术;高校图书馆;档案;信息管理

随着网络信息数据库的日益扩大,各大高校图书馆均在短时间内积累了海量的数据,对指定信息数据进行检索变得非常困难。这需要更加有效的检索技术。高校图书馆以往的管理方式强调对图书的借阅以及归还进行系统登记,并没有对相关的数据进行及时分析,忽略了许多有效的信息资源。最新崛起的数据挖掘技术将基本理论与图书馆的实际管理结合起来,有利于构建高校图书馆的档案信息平台。

一、数据挖掘技术的功能概述

首先,描述定义与类别。该功能是用最浅显易懂的词句与语言对特定对象的主要特征进行描述。类别的划分依据是按照所描述对象的主要特征进行群体的分类。定义强调的是对相同数据区共有特征的描述,但类别的重点在于不同数据对象之间的区分。

其次,关系发现。所谓的关系发现指的是,发现并且处理不同信息变量之间所存在的潜在规律与内部关联。它又可以分为三个类型,即因果作用、时序关系以及简单关系等。这项功能还被广泛应用于商务管理、决策分析以及购物篮等方面,是一种非常受欢迎的数据挖掘方式。

再次,预估和分类。如果要对信息数据进行分类和预估,就必须在数据处理的前期实施有指导性意义的习得性操作,建立一套模型或者规定。分类主要是用于对散乱的信息进行估算,而预估则需要估计连续的信息。分类的常用方式有很多种,具有代表性的主要有遗传算法、神经网络、贝叶斯公式、决策树、模糊集以及粗糙集等,而预估的常用技术主要是非线性回归与线性回归这两种。

第四,聚合研究。聚合指的是对类似数据组成的多个类别进行详细区分,样本是按照组间的最小相似程度与最大相似程度进行归类划分的。在对信息对象进行研究的过程之中,研究对象的具体类别是无法知晓的。通常情况下,可以通过对类别的划分、分层、网格主导、模型主导以及密度主导等方法来进行聚合研究。

第五,孤立点分析。不满足信息的常规行为与一般模型均是使用孤立点来指代。这或许是由于系统检索所存在的缺陷对信息的分析导致偶然性的偏差,从而被当做是无效数据而被去除的信息。实际上,它们大多数都是有意义和实际作用的数据。挖掘孤立点的方式主要有三种,分别为基于距离的方法、非基于距离的方法以及统计学方法[1]。

二、构建高校图书馆档案信息管理平台的数据挖掘需求

(一)高校图书馆的主要的数据特征

1.海量性。随着我国经济水平的提升,高等教育也逐渐普及,很多高校近年来都拓展了招生渠道。随着生源的上升,图书馆读者的数量也越来越多了。高校图书馆的借阅记录以及馆藏数据的积累量都具备了海量性的特点。

2.关联性。累积于高校图书馆当中的大量借阅记录数据都存在着这样或者那样的密切联系,等待我们去发掘。

3.信息的潜在性。在高校图书馆的大量数据当中,潜藏着许多非常有价值的信息,为了把这些凌乱的数据转化为对每个管理者和决策者都有价值的数据,需要对它们进行详细的分析和充分的挖掘。

(二)数据挖掘技术在图书管理中的需求

现阶段的高校图书馆,主要是为前来的读者提供“借书、看书、还书”以及其它方面的资讯服务,能够提供主动服务者少之又少。这就要求图书馆管理者不但要明白如何才能够很快获得信息以及相关细节,还要知道哪些用户现在需要这些信息。在整个图书馆系统的借阅数据库当中,每天都会累积大量的数据。这些数据无法对读者意向进行分析,需要科学应用数据挖掘技术对历史借阅记录数据进行深层次的分析,从而得出各种图书借阅情况,最终制定科学的个性化服务。

1.文献排架管理方面。如果应用数据挖掘技术,就可以对图书馆系统之中的数据进行详细分析,进而得出各种图书的利用率,将某一时间段之内最受欢迎的图书挖掘出来,甚至可以针对特定的读者群体,推荐相关书籍,并做简单的介绍。除此之外,该技术还能注意读者在图书馆连续借书的行为和所借图书的种类,然后按照挖掘出来的图书之间的相关性,设立一个专门的图书展示处。

2.个性化服务工作。在时间序列分析上,可以合理利用读者借阅的记录库,将读者借阅图书的顺序特征找出来,然后在适当的时候向读者进行推荐,引导读者进一步借阅。此外,如果发掘了读者借阅的时间特性,还可以为图书馆的工作安排提供科学有效的指导。

在关联规则分析上,合理利用读者的借阅记录库,将各个种类图书之间的相关性找出来,然后向读者提供相关图书的推荐服务。

(三)高校图书馆档案信息管理平台的详细设计

1.系统的用例分析。系统首先从高校图书馆的各个业务系统、学生管理、教师管理以及教学管理的系统之中,用集成器的方式将相关的数据抽取出来,然后进行有效整理和清洗,并且将其加载到系统数据仓库当中去。在现存的数据库基础上,这可以有效地抽取、综合、集成并且挖掘已有数据库的数据资源;可以充分利用数据挖掘技术,对仓库当中的数据进行深入分析和挖掘,从而形成相关方面的知识,然后将这些知识通过灵活快捷的图形化界面提供给每一位用户,从而对图书管理的具体工作进行进一步指导。

2.系统功能的模块设计。根据对用例的分析可知,整个挖掘系统是由四大功能模块所组成的,即收集数据部分、数据关联挖掘部分、数据聚类挖掘部分以及对读者信息的联机分析处理。[2]

(1)收集数据模块。数据挖掘当中所需要运用到的大量数据,大多都是从高校图书馆的管理系统、学生管理系统、教学管理系统以及教师管理系统之中抽取收集到的。

(2)数据挖掘模块。对数据进行深入挖掘,可以将数据背后所隐藏的信息发掘出来,进而掌握读者的借阅规律,便可以对读者的信息需求作出相对准确的预测。这是高校图书馆开展高质量服务的关键所在。系统首先利用数据采集器,将各个数据源当中的数据载入数据仓库,然后合理使用数据挖掘系统智能处理中心,对来自数据仓库的数据进行深入分析,从而获取一系列用于实际决策过程的有价值信息。

(3)读者信息服务的联机分析处理。在建立起数据仓库之后,如果要充分利用数据仓库的信息资源,就需要一个能够对数据仓库中数据进行分析的强有力工具。而联机分析处理就是数据仓库技术当中应用最为广泛的一个,简称OLAP。系统可以根据读者的各种档案获取他们的背景信息,并且进一步了解他们的阅读嗜好,最后建立相应的特色资源数据库。在利用数据挖掘技术发现了读者的集群特性之后,便可以为特定的读者提供有针对性的服务,也便于引进新的图书。

三、构建数据挖掘技术在高校图书馆档案信息管理平台的主要原则

首先,真实性以及原始性。高校图书馆档案管理的最基本准则便是原始性以及真实性。所用到的相关材料必须要真实有效,可以将图书馆的整体工作状况正确地反映出来。这也就要求基于数据挖掘技术的高校图书档案管理具备原始性和真实性。高校图书馆中各个种类的档案在数字化的进程当中一定要做到客观真实。

其次,系统性以及完整性。整个高校图书馆档案管理的过程,是一项系统且完整的浩大工程。信息管理平台的构建在标引立卷、档案的梳理分类、文献加工以及编著目录等方面都应当严格遵守系统性和完整性的原则。

再次,标准化著录。为了构建数据挖掘技术的高校档案管理平台,并且让其能够正常运作,工作的重中之重就在于实现不一样档案信息的标准化著录。这也表明,信息管理平台需要将各个种类的信息合理科学地分类,并且进行汇总,确定这个平台的建设板块,各个种类的电子档案一定要采用标准化的文件著录格式。

第四,安全稳定性。然而随着经济水平和科学技术的不断进步,高校图书馆的档案管理工作融入了数据挖掘技术以及信息化技术。它们所带来的许多负面影响也是不容忽视。档案信息管理平台的管理者应当通过相关用户权限的审核、文档的备份和加密,确保档案数据的安全,促进平台的健康稳定发展。[3]

四、数据挖掘技术在图书馆档案信息管理平台构建中的应用

合理地开发与利用图书馆的档案信息资源,对图书馆的科学管理、发展方向都具有不可替代的重要意义。高校图书馆档案信息资料类的数字化数据主要包含各类电子档案、档案软件所搜集的信息。相关数据管理人员应当根据用户的实际需求,把数据挖掘技术运用到管理中去,提升高校档案管理的实际效率。

利用高校图书馆的档案信息管理平台,可以把档案信息进行数字化的分析采集,然后进行存储使用。在这个过程当中,可以将数据挖掘技术和计算机局域网结合起来,将方便快捷、安全有效的数字化平台构建出来,尽快实现图书档案信息的有效储存和分析,进而推动高校图书馆档案信息的有效利用,并且为档案的管理提供强有力的信息支持。

首先,合理利用数据挖掘技术的优点,可以把强有力的保障提供给高校档案管理。对数据挖掘技术之中的序列模式以及关联进行合理利用,深入发掘网站的访问趋势等,可以尽可能地将多维度的模型构建出来,提升客户的使用兴趣。此外,还需进一步发掘相关客户的访问需要和具体模式,从各个不同的层面把握各个用户对相关档案的实际需求,从而为改进图书馆档案提供更加方便的办法。数据挖掘技术能够尽可能地搜集到高校图书馆档案数字化网络的网站服务器之中所保存的访问记录和相关的用户资料。经过仔细的筛选之后,它们最后转化为可以辅助搜索分析的用户查阅数据库以及反馈信息集合。

其次,利用数据挖掘可以为图书档案信息管理指明发展方向。数据挖掘可以对高校图书馆的档案网和档案管理软件访问信息挖掘技术的优势进行合理利用,并且深入分析相关图书馆档案资源的使用效率,然后把使用频率极高的传统档案载体全部转化为数字化模式。根据对相关图书馆档案信息的访问,还有详细真实的检索情况,对相关用户请求失败的情况进行深入分析,按照类别对图书馆档案的拒用集和频率利用进行统计,科学利用聚集算法来查询隐藏于馆藏资源当中的漏洞,让档案信息资源变得更加丰富。此外,人们还可以充分使用文本挖掘功能以及分类、关联以及聚类等方式,进行档案信息挖掘,然后再对这些信息进行重组、加工以及分类,从而逐渐完善并且建立起具有自身特性的信息数据库和专题档案信息库等资源聚合体。[4]

再次,利用数据挖掘优化档案,可以对未来的工作进行预测。在提供利用环节方面,数据挖掘需要对高校图书馆档案用户每回查阅的信息都进行相关性的串连分析,进而在各种各样的不同信息当中,发现相应的规则以及比例关系。这不仅可以进一步优化档案资料,还可以使得用户的体验发生改变,使它能够更加顺畅。此外,还要将高校图书馆档案信息文本特征进行对比,并且建立相关的模型,对大量的图像、文本以及图像进行细分总结以及关联分析等。通过这些详细的对比分析,人们可以对未来的档案管理工作进行科学的分析和预测。

五、结束语

高校档案数字化建设的重点在于构建基于数据挖掘技术的高校图书馆档案信息管理平台。这可以有效推动图书馆的快速可持续发展。所以,我们应当充分利用数据挖掘技术的优势,加大人力以及物力的投入量,促进数字化档案平台的继续发展和完善,在最大限度上提升高校图书馆档案信息资源的使用效率,对档案资源进行有效开发和利用,并且积极地推动高校图书馆事业向着更加科学的方向前进。

[1]项尔津.高校图书馆个性化服务中数据挖掘技术的应用研究[J].兰台世界,2014,(29).

[2]付双双.大数据时代高校档案建设转型思考[J].山西档案,2015,(6).

[3]吴青霞.传统档案管理与“大数据—新媒体”融合途径探索[J].山西档案,2015,(6).

[4]周美兰.大数据时代高校档案资源体系建设的思考[J].山西档案,2015,(6).

TP311.13;G258.6

A

1005-9652(2016)05-0105-03

(责任编辑:虞志坚)

哈立原(1964-),男,内蒙古锡林浩特人,吉林大学软件工程硕士,锡林郭勒职业学院副教授,研究方向:数学与计算机。

猜你喜欢

信息管理数据挖掘图书
造价信息管理在海外投标中的应用探讨
地球物理台网仪器维修信息管理的研究与实现
探讨人工智能与数据挖掘发展趋势
图书推荐
评《现代物流信息管理与技术》(书评)
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
欢迎来到图书借阅角
班里有个图书角
在高速公路信息管理中如何做好QC小组活动
高级数据挖掘与应用国际学术会议