浅谈数字图书馆与数据挖掘
2014-11-12陈红云
陈红云
摘 要:数字图书馆技术的发展为图书馆服务质量以及服务模式的提高提供了契机,传统的图书馆管理模式已经远远不能满足读者的借阅需求,读者不仅仅会专注于本专业所学知识、项目开发以及科研活动的研究。因此,将数据挖掘中的各种技术方法应用于图书信息的挖掘具有非常重要的现实意义。
关键词:数字图书馆;数据挖掘;数据挖掘技术
1 数字图书馆研究进展
80年代末和90年代初,图书馆自动化向着高度自动化、电子化、网络化、虚拟化的深度和广度进军。进入20世纪90年代,随着信息技术的长足进步和飞速发展,随着Internet的建立和广泛应用,数字图书馆成为现代图书馆的发展趋势。21世纪初,数字图书馆及其相关概念,网络环境下的馆藏发展、采访、分类、编目等技术服务、读者服务以及图书馆员素质的提高和角色的转换等均成为主要的研究问题。此外,如何对待、处理和解决数字图书馆从理论走向现实的技术实现问题也必然成为我们天天要谈论的主要话题。如今很多国内外研究人员都致力于数字图书馆发展的研究过程中,在对其中各种主要技术研究一定水平之后,未来数字图书馆的发展模式主要集中在三种类型:特种馆藏型模式、服务主导型模式以及商用文献型模式。数字图书馆的特点是:收藏数字化、操作电脑化、传递网络化、信息存贮自由化、资源共享化和结构连接化。
2 数据挖掘技术
数据挖掘技术功能以及它们可以发现的模式类型主要包括以下几个部分:⑴概念/类描述:特征化和区分。用简洁的、汇总的和精确的方式描述各个类和概念,这种描述称为概念/类描述,而要实现这种描述,就需要采用数据区分和数据特征化这两种方法。数据特征化(data characterization)是汇总目标类数据的一般特性或特征。它的输出形式包括饼图、条图、曲线、多维数据立方体和多维表。数据区分是比较目标类数据对象和一个或多个对比类对象的一般特性。其输出提供的形式类似于特征化描述;⑵挖掘频繁模式、关联和相关。频繁模式是在数据中频繁出现的模式,主要包括项集、子结构和子序列。对频繁模式的挖掘可以导致发现数据中有趣的关联和相关。通常,关联规则必须同时满足最小支持度阈值和最小置信度阈值,同时也可以发现相关联的属性-值对之间的有趣的统计相关;⑶分类和预测。分类是找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象类。导出的模型可以有多种形式,如分类(IF-THEN)规则、决策树、数学公式或神经网络。预测是建立连续值函数模型,而分类预测是用来预测不知道的或空缺的数值数据值。还有其他方法比如回归分析是一种统计学中最常用的数值预测方法;⑷聚类分析。与分类和预测不同的是,聚类事先不知道划分数据对象的类标号,在这种情况下对象可以根据类内最大化以及类间最小化的相似性原则进行分组或者聚类;⑸离群点分析。数据库中存在着与一般行为或模型不一致的一些数据对象,这些对象叫做离群点。在大多数情况下人们都会将其视为噪声或异常而丢弃。然而在一些具体的应用中却比正常发生的事件更令人感兴趣,比如欺诈检测,银行获取信用卡使用不良记录者等行为;⑹演变分析。演变分析是描述行为随时间变化的对象之间的趋势或规律,并为其建立模型。这种分析不同于先前所提及的几种方法,它具体可包括序列或周期模式匹配、时间序列数据分析以及基于相似性的数据分析等。比如股票交易数据挖掘就可以识别整个或者特定公司股票演变规律,进而为股票投资者提供预测未来股票价格以及市场方向的决策。
3 数字图书馆中的数据挖掘
传统图书馆是由专门技术人员或者专家通过以往的经验来安排图书信息的采集,由于存在着各种主观性,因此在这种情况下信息就有可能不准确。而使用数据挖据技术就会解决上述存在的问题。首先它会充分有效的利用文献信息,去除过失数据,使图书数据具有时效性。其次,运用数据挖掘技术,可以总结历史用户信息来推荐给未来读者,满足他们的研究方向和兴趣爱好。再者,应用数据挖掘检索技术可以摒弃部分地域、学校以及文献类别的束缚,为用户检索出最全面而又具有很高使用价值的信息。最后借助数据挖掘技术可以拓宽图书信息库,不仅仅局限于某些大型数据库或者数据仓库,它会使个性化服务推广到整个网络,让读者获取最丰富最全面的信息资源。将数据挖掘技术应用于数字图书馆主要从以下几个方面进行挖掘:(1)对数字图书馆的内容进行挖掘。基于数字图书馆的内容的挖掘是通过对数字图书馆信息的模式识别和分析理解,从中发现有意义的知识。根据某一领域的信息需求,自动捕捉、采集和整理领域所需信息,过滤无用冗余信息,通过信息推送等方式,直接数据挖掘所发现的知识,提供给读者,主动提供个性化服务。(2)对数字图书馆的用户进行挖掘。从数字图书馆的大量访问信息中挖掘用户的访问模式、访问兴趣,采用关联性法则和聚类方法发现不同的用户群体,然后对这些不同的群体提供信息定制服务。同时还可以利用web挖掘所得到的信息,动态地调整web页面,更好地满足读者的需要。通过对用户访问信息、使用信息的挖掘,在数字对象和用户、对象分类和主题之间进行模式匹配,采用不同挖掘技术自动提取知识,从而确定个性化服务内容,提高为用户知识服务的自动化水平。(3)此外,收集整理图书馆网上咨询、荐购书刊等栏目中的数据,利用数据挖掘技术,可以预先发现读者群体的兴趣,调整馆藏方向,提升馆藏资源的针对性。
[参考文献]
[1]王艳.数据挖掘在数字图书馆中的应用[J].情报科学.2003(02).
[2]冯进.利用数据挖掘技术 深入挖掘图书馆工作[J].现代情报.2005(03).
[3]高巨山.数字图书馆构建中的数据挖掘应用研究[J].图书馆工作与研究. 2009(04).
[4]唐吉深.图书馆数据挖掘技术研究现状述评[J].图书馆界.2011(01).