浅析数据挖掘技术在数字图书馆的应用

2012-08-15范春玲

黑龙江史志 2012年21期

范春玲

（黑龙江省图书馆黑龙江哈尔滨 150090）

引言

计算机和互联网的飞速发展和普及，给全世界带来了巨大的信息化浪潮。信息量迅速、持续的增长给人们带来方便的同时也带来了困惑和烦恼，海量的数据已远远超过人类的处理和分析理解能力，同时信息真假的辨识、安全性的保证以及格式的统一问题也是人们面临的一个挑战。于是，数据挖掘技术应运而生，而数字图书馆作为信息管理和服务的主要机构，同样也积累了大量的信息而且也要面对使用中的各种问题，数据挖掘技术的应用可以为数字图书馆的业务工作和管理工作提供可靠的决策依据，也必将对图书馆其他方面的工作产生深远的影响。

一、数据挖掘技术概述

数据挖掘是一门不断快速发展的综合性交叉学科，其兴起于20世纪80年代末期。数据挖掘理论汇聚了数据库、可视化、并行计算等方面的技术，集统计学、人工智能、模式识别、计算机科学、机器学习等多门学科理论知识为一体。其在多个领域都有所应用。

（一）数据挖掘定义

所谓数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。我们知道知识发现(Knowledge Discovery in Databases，KDD)是一个能从大型的数据库中自动地和智能地抽取一些有用的、可信的、有效的和可以理解的模式的过程。而数据挖掘(Data Mining，DM)是KDD的一个处理过程，也是KDD的最重要环节。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。

（二）数据挖掘的任务

数据挖掘任务分描述性数据挖掘和推断性数据挖掘两大类。和统计学原理相似，描述性数据挖掘的任务是描述数据的一般特征，推断性数据挖掘的任务试图基于提供的数据做预测。目前基于数据挖掘功能所能发现的各种知识主要包括特征化描述、判别分析、关联分析、数据分类、预测、聚类、孤立点分析、偏差分析等。通常，人们对他们所能发现的各种模式或者是需要从手头数据来发现模式没有一个清晰的思路，因此，必须要有一个通用的数据挖掘系统用来发现各种知识以及不同抽象层次的知识，这也使得交互性成为数据挖掘系统的一个重要特征。

（三）数据挖掘的基本步骤

数据挖掘的步骤会随应用的领域不同而有所不同，每一种数据挖掘技术也都有各自的特性和使用步骤，所以针对不同问题和需求所制定的数据挖掘过程也会存在各种差异。另外，数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划，以及流程的差异性，即使同一产业，也会因为分析技术和专业知识的涉入程度不同而有所不同，因此对于数据挖掘过程的系统化、标准化就显得格外重要。因为这样，不仅可以较容易地跨领域应用，也可以结合不同的专业知识，发挥数据挖掘的真正精神。通常数据挖掘完整的步骤如下：1.理解数据和数据的来源。2.获取相关知识与技术。3.整合与检查数据。4.去除错误或不一致的数据。5.建立模型和假设。6.实际数据挖掘工作。7.测试和验证挖掘结果。8.解释和应用。由此可以看出，数据挖掘牵涉了大量的准备工作与规划工作，其中包括数据的净化、数据格式转换、变量整合，以及数据表的链接等。

（四）数据挖掘的方法

在整个数据挖掘过程中，第6步是数据挖掘的实施阶段，即根据目标任务的数据类型等选取相应的数据挖掘算法并进行挖掘。而数据挖掘的方法由人工智能和机器学习的方法发展而来，人们结合传统的统计分析法、模糊数学方法以及科学计算可视化技术，以数据库为研究对象，最终形成数据挖掘的方法。目前业界比较认可以下6种方法：1.统计分析方法：利用统计学原理对数据库中的数据进行分析，能得到各种不同的统计信息和知识，作为数据挖掘的一大类方法，包括：常用统计、相关分析、回归分析、差异分析、聚类分析、判断分析。2.归纳学习方法：从采用的技术角度上可分为两大类，信息论方法和集合论方法。信息论方法是利用信息论的原理建立决策树。3.模糊数学方法：模糊性是客观存在的，而当系统的复杂性越高，其精度的复杂性就会越高，其精确化能力便越低，这就意味着模糊性越强。利用模糊集合理论进行数据挖掘的方法有：模糊模式识别、模糊聚类、模糊分类和模糊关联规则等。4.仿生物技术：典型的方法是神经网络方法和遗传算法。5.公式发现：在工程和科学数据库中对若干数据项进行一定的数学运算的相应的数学公式。6.可视化技术：是一种图形显示技术。例如，把数据库中多维数据变成多种图形。

二、数据挖掘技术在数字图书馆中的应用

目前数据挖掘技术已经形成相对成熟的技术体系，其在数据组织与分析、数据挖掘、知识发现等方面存在巨大潜力。因此数据挖掘除了可以为数字图书馆的建设提供关键技术外，还可以实现海量数据的存储和利用，提取出表面上庞杂无序而有内在联系的信息供读者使用。也可以指导图书馆的业务工作与管理决策，通过对用户数据的分析，可以得到用户的需求和兴趣信息，从而满足信息时代读者的需要。

（一）数据挖掘为数字图书馆的个性化服务打下基础

收集读者有关的信息,建立读者信息库。读者是数字图书馆的重要资源,一个信息完整的读者信息库,能保证在充分挖掘的基础上,了解读者的普遍性需求与特殊性需求,从而开展有针对性的个性化服务。通过对读者访问日志记录信息的挖掘,把握读者兴趣,有助于开展网络信息推送服务以及个人信息的定制服务。数据挖掘从全局出发,以丰富、动态的联机查询和分析来了解读者的信息需求。通过在线提问、调查表等方式,系统可以获取关于读者的用户名、访问IP地址、职业、年龄、爱好等原始信息。然后,采取一定的挖掘规则(如关联规则、联机分析处理等),对这些数据进行融合分析,其结果是为每个读者建立一个信息需求模型。根据读者需求,主动跟踪本馆数字资源的变化，收集读者所需信息。同时还可以利用智能推送技术将读者所需信息推到用户的计算机、电子信箱和手机上。

（二）数据挖掘使数字图书馆庞大的数字信息资源检索成为可能

随着科技的进步，现在读者可以在家通过网络访问数字图书馆的资源，而网络内容挖掘是一个从文本、图像、音频、视频、元数据等形式的网络源信息中采用分类、聚类等形式的挖掘方法,发现有用信息,并将这些信息按满足某种检索方式的形式加以组织的过程。通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网络资源。有的学者应用数据和文本挖掘技术在网络上进行问题跟踪,从而获得了以前未知的有用知识,为信息内容分析提供了极大的可能性。

（三）数据挖掘是使读者获取全而广的知识信息的保障

数据挖掘技术可以使读者在具有极度不确定性的海量数据中找出信息分布的规律,挖掘隐藏的信息并形成模型,从而发现具有规律性的知识。比较典型的例子是江苏南通师范学院对重点学科“古代文学”中的楚辞研究专题知识库开发,他们采用学科专家与学科馆员、系统管理员相结合组成工作组的开发模式来收集、挖掘与获取楚辞研究专题信息资源,由于楚辞研究的信息资源浩如烟海,采用人工的方式查询根本无法达到收全率和知识库源信息广度要求,因此采用自动抓取和人工过滤相结合的方式,利用非结构化的数据挖掘技术以采集和获取全而广的楚辞研究知识信息源。