数据挖掘在数字图书馆中的应用研究
2014-12-30刘玫
刘玫
摘 要:21世纪是数字化、科技化的时代,数据挖掘技术在为实现数字化提供了有力支持,该文不仅对数据挖掘技术、数字图书馆的基本概念做出了阐述,而且研讨了数据挖掘在数字化图书馆运营管理当中的应用问题,表明数据挖掘技术在数字图书馆中应用的重要性。
关键词:数据挖掘 数字图书馆 应用研究
中图分类号:G25 文献标识码:A 文章编号:1674-098X(2014)11(a)-0193-01
在现代科技带动下,图书馆也向信息化、自动化与数字化的方向迈进。数据挖掘就是在这个时代应运而生的,如今,它已经在金融业、销售业、建筑业等行业取得了许多成功,为这些领域的更快更好发展立下了汗马功劳。目前,互联网上的数字图书馆数量与日俱增,因此数字图书馆的数据挖掘技术就具有很重要的意义。数据挖掘技术在数字图书馆中的应用,将为数字图书馆在图书资源组织管理、服务质量的提升与服务方式的扩展等方面提供有力的技术支持。
1 数据挖掘概述
数据挖掘这个技术是近几年来从计算机科学研究中发展出来的一个分支学科。具体是指从海量数据中提取或挖掘出隐藏的信息。所有信息载体或信息存储上都可以使用数据挖掘技术。数据挖掘的整个过程是由准备数据、数据采集、显示结果与解释分三个部分组成的。整个采集过程是对数据的循环精练过程,离不开人为的操作。数据挖掘技术大大降低了从大型数据库中挖掘出有用信息的难度,采集人员并不需要有很强的数据分析和数据统计的能力。数据挖掘与知识挖掘既存在一定联系,同时又有一些差别。通常认为数据挖掘是知识挖掘过程的一个基本过程,它采用特定算法把数据从数据库中采集出来的模式,最后再经过系统解释与翻译功能把这种模式变换成用户能够理解的信息。另外,数据挖掘的过程是随机发生的,用户预先不能知道结果;信息检索的初衷是帮助用户从大量数据中挖掘出满足其查询条件的信息,而数据挖掘是把文档内隐藏的知识提取出来。这两个系统是相辅相成的。因此可以利用数据挖掘的研究结果来提高信息检索的效率与准确度,优化检索结果的显示,使信息检索系统更优良、更全面。
2 数字图书馆的定义
如今对掘数字图书馆的定义有很多,总体概括起来,数字图书馆就是依靠计算机互联网络、信息检索技术、图书分类技术、管理等技术,把图书整理、保存、保护、数字信息收集与使用等功能融于一体的综合智能数字信息管理与服务中心,这里包含了计算机网络、人工智能、数据库、图书情报学等最新技术。数字图书馆是基于本着尽最大可能满足用户的所有需要,方便用户使用的宗旨,向用户提供能够满足特定需求的优质服务,同时它又能够培养用户个性,引导用户的需求,这种方式大大促进的现代图书馆的发展。促进人类文明的进步。如今国内外数字图书馆的数量显著增加,对信息服务系统的研究也越来越深入,信息服务的应用也更加广泛。
3 数据挖的功能特性
(1)聚类。聚类就是把所有数据个体根据它们所具有的相同特点归纳在一起,形成一组具有特定属性的数据群组,同种类聚类就是把同一种类的数据放在一起,不同类聚类则是把不同种类的数据放在一起。,这样就能反映出同种事物的共同属性与不同事物间的差异属性。通过这种方式,数据库中的数据就会被划分成许多有特定属性的子集。
(2)关联分析。它反映了各数据单元间关联的信息,如果一组数据多项属性都存在关联,那么其中某一项的属性就可根据其他一些属性来判断分析。
(3)概念描述。概念描述就是对某类对象的本质进行探讨分析,并总结这类对象的相关特点,概念描述有区别描述与特征描述两种,前者描述不同类对象间的差别,后者则是描述某类对象的相同特征,最后形成一个类的特征性描述,并且只涉及这类对象中全部对象的共同特性。
(4)预测趋势与行为。数据挖掘系统能够以时间为依据,从过去或当前的大型数据库中自动挖掘未知信息来预测以后的信息。
(5)偏差检测。数据库中的数据也会发生错误,从数据库中检测这些错误是非常重要的,因为错误中也包括许多隐藏的信息。
4 数据挖掘在数字图书馆中的应用
数字图书馆旨在将不同区域不同属性的数字信息资源进行整合从而达到用户共享的效果。它主要是一种通过数字技术将信息进行整合处理从而使得用户方便浏览。根据处理对象的属性差异,可以把数字图书馆数据挖掘基本分为三类:结构挖掘、内容挖掘与用户使用记录挖掘。结构挖掘是从web文档中结构下手,除文档中的超链接结构,更对文档内部结构以及目录路径结构进行挖掘。内容挖掘即对web文档中的内容信息进行挖掘。而用户使用记录挖掘则是对于一些服务器上的用户注册信息购买记录等数据进行挖掘。
4.1 进行结构挖掘
对数字图书馆等结构挖掘主要是通过网页的链接和组织结构从而能够发现图书馆页面的结构模式并且对此进行分类和聚类并加以分析,这样可以使得更好的对网络建设提供指导以及方便通过超链接等方式从而分析各学术未来发展。
4.2 进行内容挖掘
内容挖掘主要包含如下几点,首先是组织文献数据。通过对数字图书馆内文件的组织分类,将其分为若干个组,充分区分好各个组所涉及的内容。这样就可以大大缩短用户搜索所需时间,用更短的时间找到更准确的内容。第二是对特征的自动提取和描述。可以由一个内容分析器来从中分析并且提取充相关的内容特征,用户采取提取特征后才能更加准确快速的实现信息定位。其三是自动采集整理专题信息。这主要是通过对图书管内的海量信息进行了解,并且能够从中挖掘到一些有规律的信息反映给用户,从而使得用户无需浏览大量无用信息,能够自动捕捉提取概要信息。
4.3 进行用户使用记录挖掘
由数字图书馆的海量访问信息中归纳出图书馆用户的访问规律信息,运用关联性法则与聚类法则,将不同类型用户需求进行分类总结,提供针对服务,从而提高浏览速度优化用户体验。同时还应当鼓励用户建立自己的Web站点从而更好的了解到使用数字图书用户的了解意向,更能由此推析出未来发展趋势,进而研究出其行为规律。
5 结语
通过将数据挖掘技术引入数字图书馆这一举措,能够大大提高数字图书馆的信息资源量,优化图书馆的信息服务的质量,用户可以更方便、更多的获取想要的知识,同时图书馆的业务范围也将得到大幅度扩展,为图书馆带来巨大的经济与社会效益,达到双赢的效果。但数据挖掘终究是一种新兴的智能科技产物,它的发展还是有很多挑战与难题需要面对。如何将数据挖掘系统更好的应用到数字图书馆中还需要进一步的探讨与研究。
参考文献
[1] 周文云.数据挖掘在数字图书馆个性化服务中的研究与应用[J].军民两用技术与产品,2012(1):56.
[2] 田瑞雪.国内图书馆数据挖掘技术应用研究述评[J].科技信息,2014(1):167.
[3] 付红伟,卢春,周杨.数据挖掘技术及其在数字图书馆中的应用[J].软件导刊,2013(1).endprint