国内图书馆数据挖掘研究
2009-07-15牛根义
牛根义
〔摘 要〕目前,国内对于图书馆数据挖掘在资源建设、个性化信息服务、图书馆管理等方面的研究均有不少成果。但是,国内对图书馆数据挖掘的研究仍处于初级阶段,需作进一步深入研究。
〔关键词〕数据挖掘;图书馆;研究述评
〔中图分类号〕G250.74 〔文献标识码〕A 〔文章编号〕1008-0821(2009)01-0128-03
A Review of Studies of the Application of Data Mining in Library
Niu Genyi
(Library,Henan Agricultural University,Zhengzhou 450002,China)
〔Abstract〕In this review,it was throught that Chinese researchers had done quite much on the resources construction,personalized information service,library management for library data mining,while they were still at their early stages and deeper researches should be made.
〔Key words〕data mining;library;research review
数据挖掘一词首次出现在1989年8月举行的第11届国际联合人工智能学术大会上,它是随着数据库技术和人工智能技术的发展而出现的一种新的信息处理技术。从广义上讲,数据挖掘是指从大量不完全、有噪声、模糊和随机的实际应用数据库中,提取隐含的、未知的和潜在有用的知识和信息的过程。数据挖掘的主要特点是对数据库中的大量业务数据进行抽取、转换、分析及模型化处理,并从中提取辅助管理决策的关键性数据。数据挖掘的功能是把人们对数据的应用从低层次的简单查询,提升到了从数据中挖掘有用的信息和知识,从而为管理人员决策提供支持。基于数据挖掘在数据的组织、分析和知识发现等方面的巨大优势和对信息的深层挖掘能力,日益显示出了其强大的发展潜力和广阔的应用前景。如今,数据挖掘技术已经成为计算机科学和信息决策领域的一大研究热点。
1 国内图书馆数据挖掘研究现状
自20世纪90年代后期,国际图书馆界开始关注并研究数据挖掘技术在图书馆的应用,并有不少图书馆学专家提出了面向图书馆的数据挖掘技术应用理论与方法。与国外相比,国内图书馆对数据挖掘的研究稍晚,没有形成整体力量,数据挖掘技术在我国图书馆中还没有大规模地使用。但从有关文献看,数据挖掘在图书馆的应用已经引起了我国图书馆界的关注,相应也出现了一些研究成果。本文将基于对现有研究成果的分析基础上,对国内图书馆数据挖掘研究情况进行评述,旨在理清数据挖掘技术在图书馆应用研究的脉络,促进数据挖掘技术在我国图书馆领域的应用。截至到2008年8月20日,笔者以“数据挖掘”和“图书馆”作为并列题名检索方式在CNKI“中国期刊网全文数据库”中检索到99篇论文,剔除一稿多投3篇,还有96篇。用“数据挖掘”和“图书馆”作为并列题名在维普“中文科技期刊全文数据库”中检索到85篇论文,其中有6篇不含在前面的99篇论文中。这样,发表图书馆数据挖掘学术论文共计102篇。其中2006年以来有65篇,最早的两篇研究论文出现在2002年,一篇为李朝葵发表在《情报杂志》2002年第6期上的《数据挖掘及其在图书馆中的应用》一文;另一篇为王共予和李月丽发表在《现代情报》2002年第9期上的《数据挖掘技术与数字化图书馆建设》一文。发文最多的刊物是《现代情报》,共发有11篇比较重要的论文。在所有论文中,有68篇重点是介绍数据挖掘的定义、内容与特征的,对数据挖掘在图书馆的应用多是泛泛的介绍或者论述很浅。有一定参考价值的论文仅有30多篇。另外,检索CNKI“中国优秀博硕士论文数据库”有8篇硕士学位论文论及数据挖掘技术在图书馆的应用。
2 国内图书馆数据挖掘研究的主要内容
2.1 数据挖掘在图书馆资源建设上的应用研究
综观有关文献,数据挖掘在图书馆资源建设上的应用研究主要体现在通过挖掘文献使用规律,提高文献资源建设的针对性上。具体应用主要反映在以下3个方面:一是通过对用户兴趣模式尤其是学术带头人和专家的Web使用模式挖掘、学科动态分析,结合现有馆藏信息情况,采用合适挖掘算法及时发现信息资源的漏缺,做好文献的收集订购;二是通过Web内容挖掘对Web上大量文档集合内容进行摘要、分类、聚类、关联分析,从大量的Web资源中抽取潜在的有用知识,并通过Web结果挖掘,找到相关专业及研究方向的权威页面,进一步丰富图书馆的文献资源;三是采用各种数据挖掘技术与方法,评判数字图书馆文献信息资源的利用率、有效率等,以便建设特色馆藏。潘小枫所持观点与上述有所不同,她认为数据挖掘技术应用于数字图书馆可以进行馆藏资源的深层次加工,引入网上信息处理领域则可解决网上信息有效获取问题。
2.2 数据挖掘在图书馆个性化信息服务中的应用研究 个性化信息服务是未来信息服务的主流模式。实现“以信息找人,按需服务”是个性化信息服务的本质。个性化信息服务不仅需要针对不同的用户需求提供不同的服务,更重要的在于发现用户的潜在需求进行主动的信息服务。对用户需求和兴趣的了解是个性化信息服务的前提,而数据挖掘,特别是Web数据挖掘技术,为解决此问题开辟了一条道路。为此,数据挖掘在图书馆个性化信息服务中的应用成了众多学者研究的热点问题。
在这方面的研究中,大多集中在数据挖掘为个性化信息服务提供的方法和技术支持上。谭春辉、汪全莉认为Web数据挖掘是个性化信息服务的关键技术,欧阳烽认为Web数据挖掘是高校数字图书馆进行个性化服务的主要途径。在具体方法和技术上,谭春辉、汪全莉构建了基于Web数据挖掘的个性化信息服务的实现模型,对建立在Web数据挖掘基础上的个性化信息服务系统运行的基本流程、Web挖掘的数据资源、Web挖掘的技术方法、信息系统的服务内容、系统运行的注意事项等进行了探讨。蒲筱哥将数据挖掘技术和人工智能技术相结合,构建了一种个性化的网络信息智能挖掘系统,并探讨了该系统对图书馆的信息资源优化建设,以及在获取网络特色化信息、专题化信息等个性化信息服务方面的作用。柳炳祥等将粗糙集和模糊聚类两种常用的数据挖掘算法应用到图书馆个性化服务中,建立了一个基于数据挖掘的图书馆个性化服务系统,为图书馆个性化服务提出了一种新的研究思路和分析方法。陆觉民等在分析关联规则挖掘算法的基础上,提出利用HASH表技术及减少生成候选集的数量对经典Apriori算法进行改进,从而提高图书馆数据资源的利用率,加强图书馆个性化服务。司徒浩臻用数据挖掘中的关联分析技术提出了推荐服务模型,利用挖掘出来的规则提供推荐服务。周群设计了一个数据挖掘系统模型,该模型融合各种数据挖掘技术,采用统一的元数据标准,用于数字图书馆的信息发现与信息提供的全过程。
2.3 数据挖掘在图书馆管理上的应用研究
2.3.1 在管理决策上的应用
管理水平的提高很大程度上取决于决策的科学与否,而数据挖掘技术能够为领导科学决策提供强有力的保障。潘小枫认为数据挖掘技术应用于图书馆管理系统,将给图书馆领导决策提供全面支持。罗仕健等认为,数据挖掘在图书馆管理决策中的作用体现在三个方面:一是将涉及图书馆这一信息系统的各种内部数据和外部信息汇集起来,经过处理和转换,形成集中统一、随时可用的决策信息;二是利用数据挖掘系统提供的OLAP工具,对集成数据进行多维分析比较,对决策假设进行审查和验证,提高决策的可靠度和可行性;三是数据挖掘工具可从历史数据中找出潜在的模式,并在模式的基础上自动作出预测,启发图书馆决策者的创新思维。
2.3.2 在用户管理上的应用
用户资源管理是现代图书馆资源管理的核心内容,是图书馆实现个性化服务的重要基础。数据挖掘作为一种深层次的数据分析方法,可以从大量的用户数据中挖掘出反映用户属性特征和信息行为特征的信息和规则,从而为图书馆用户资源管理提供极大的帮助。周倩认为基于数据挖掘的图书馆用户资源管理主要体现两层含义:一是利用数据挖掘技术提高自身用户资源管理的水平,实现分析型用户资源管理模式;二是以数据挖掘的需求为牵引,组织好用户资源管理的各项工作。
2.4 数据挖掘在图书馆其它方面的应用研究
除上述应用研究外,数据挖掘在图书馆其它方面也有着广泛的应用。高巨山等认为数据挖掘可应于数字化图书馆构建中的诸多领域。如:信息咨询、信息资源优化、读者分类研究、读者相似性和差异性分析、读者需求分析、图书借阅规律分析等。吴小英提出数据挖掘技术可以应用在图书馆增值服务中读者数据挖掘、数据资源挖掘和学科发展趋势挖掘等方面。
随着多媒体数据库技术的日趋成熟,人们将目光放到了在多媒体数据库中的知识发现。数字图书馆作为多媒体数据库最为集中的地方,多媒体数据挖掘研究的发展,对于数字图书馆的发展具有巨大的推动作用。基于此,张英等提出了多媒体数据挖掘的体系结构和方法,将数据挖掘技术应用到了数字图书馆中的多媒体数据挖掘中。此外,数据挖掘还能应用于数字图书馆的信息挖掘和知识源挖掘上。杨传明将移动代理和数据挖掘相结合,设计出了一个嵌入式基于移动代理的数据挖掘平台,较好地满足了数字图书馆信息挖掘的要求,克服了传统网络计算模式的缺陷,能有效地完成对数字图书馆海量、分散数据源和知识源的挖掘。
3 研究存在问题及评述
3.1 理论研究深度不够
由于数据挖掘具有对信息的深层挖掘能力,基于它在数据的组织、分析和知识发现等方面的巨大优势,在发达国家的电信、制造、零售、金融等领域已有较深程度的应用,在图书馆的应用也有较大的发展。国外图书馆自20世纪90年代后期,就开始致力于将数据挖掘技术引入到图书馆的现代化建设中,有不少图书馆专家提出了面向图书馆的数据挖掘技术应用理论与方法。如:May Chau博士提出了几种学术型图书馆与数据挖掘的相关性理论模型,并且开发了图书馆网上数据挖掘系统,帮助用户查找信息;Kyle Baner-jee研究了数据挖掘技术帮助图书馆的不同方式;Nicholson就图书馆中的数据挖掘过程提出了一个专业术语“Bibliomining”(书目挖掘),指出书目挖掘是在图书馆中,将数据挖掘技术、书目计量方法、统计学理论与报告工具有机结合在一起,从基于行为的信息与数据中获取隐含的模式。数据挖掘技术是图书馆现代化发展的关键技术,将对数字图书馆的建设和发展及其提供个性化、知识化服务起到至关重要的作用。但从目前数据挖掘的研究来看,国内图书馆数据挖掘基础理论研究还很薄弱,只有蒋引娣的《数字图书馆数据挖掘的基础研究》一篇文章论及了数据挖掘在图书馆应用中的基础研究问题。与国外相比,国内图书馆数据挖掘研究的范围较窄,理论深度不够。
3.2 实践研究相对滞后
国外图书馆数据挖掘研究非常重视在图书馆的实际应用,就图书馆利用数据挖掘技术的规模和潜力,美国研究图书馆联盟(ARL)2003年曾对124个会员图书馆做了一次调查,调查显示52%的成员馆反馈了结果,其中42%的图书馆采用了数据挖掘技术,而剩余的58%还没有采用数据挖掘技术的图书馆中有98%的表示它们将在不久的未来采用数据挖掘技术。与国外图书馆相比,数据挖掘技术在我国图书馆中并没有大规模地使用,只有个别图书馆采用了此项技术。于光和李文峰在《数据挖掘技术在图书馆用户管理中的应用》一文中以哈尔滨工业大学图书馆自动化系统中的用户管理为例,运用决策树方法对整个读者流通数据库进行挖掘,对挖掘出来的结果及其含义进行了评价,这可以说是目前在我国图书馆数据挖掘研究中发现的惟一的实例研究。另外,在实际应用方面,虽然不少著者看似都提出了自己的观点,但通过比较发现,也大多是对类似观点的转述,少有自己创新性的认识。
3.3 数据挖掘研究尚未形成大气候
综观国内图书馆数据挖掘研究,单从总的发文量上看,好像探讨的还算热烈,发文达102篇。但从这些文章的内容来看,高质量的论文并不多见,且从学者分布来看也不均衡,作者几乎全部来自高校图书馆系统,很难看到有公共图书馆和科学图书馆系统的作者的研究成果,而且大多研究也是浅尝辄止,发文两篇及以上的作者只有一人。所有这些现象都说明了一个问题,就是目前国内图书馆数据挖掘研究虽然受到一定程度的关注,但还没有引起足够、广泛的重视。另外,由于数据挖掘技术相对门槛较高,掌握这门技术需要有数理统计学、数据库、人工智能等基础知识和技能。对图书馆来说,数据挖掘人才奇缺,而在此前的研究中,也没有人谈及如何引进或培养图书馆数据挖掘人才问题,这不能不说是数据挖掘在图书馆应用研究中存在的一大缺憾。
参考文献
[1]欧阳烽.Web数据挖掘与高校数字图书馆个性化服务[J].现代情报,2008,(1):103-107.
[2]张英,赵艳君.数字图书馆中多媒体数据挖掘的体系结构和方法[J].现代情报,2008,(1):92-94.
[3]蒋引娣.数字图书馆数据挖掘的基础研究[J].现代情报,2007,(8):86-87.
[4]董云鹏.数据挖掘技术在图书馆中的应用[J].现代情报,2006,(11):131-132.
[5]谭春辉,汪全莉.个性化信息服务与Web数据挖掘技术的契合[J].情报杂志,2007,(8):82-85.
[6]司徒浩臻.数据挖掘技术在图书馆信息服务中的应用[J].现代图书情报技术,2005,(10):15-18.
[7]陆觉民,郑宇.数据挖掘技术的改进在图书馆个性化服务中应用[J].现代图书情报技,2006,(8):65-68.
[8]张莉萍.论图书馆个性化服务中用户信息的Web数据挖掘[J].情报资料工作,2007,(2):101-103.
[9]周倩.数据挖掘在图书馆用户资源管理中的应用研究[J].图书情报知识,2006,(6):87-90.
[10]赵卫军.数据挖掘技术在高校图书馆中的应用[J].图书馆论坛,2007,(4):126-128.
[11]蒲筱哥.基于Web的个性化信息智能挖掘系统的构建[J].现代图书情报技术,2005,(4):27-30.
[12]王艳.数据挖掘在数字图书馆中的应用[J].情报科学,2003,(2):212-214.
[13]柳炳祥,邓欢军,高淑妍,等.基于数据挖掘的图书馆个性化服务系统[J].现代情报,2007,(3):108-109.
[14]朱立红.高校图书馆的数据挖掘技术应用与用户研究[J].图书馆杂志,2008,(6):39-42.
[15]于光,李文峰.数据挖掘技术在图书馆用户管理中的应用[J].图书情报工作,2005,(1):100-103.
[16]郝小花,邓小昭.基于数据挖掘的可视化数字图书馆用户社区聚类与特征分析[J].情报科学,2008,(3):396-399.
[17]潘小枫.数据挖掘技术及其在数字图书馆建设中的运用[J].图书馆理论与实践,2006,(4):105-106.
[18]周群.论数字图书馆数据挖掘系统模型研究[J].情报杂志,2006,(11):97-99.
[19]杨传明.基于移动代理的数据挖掘在数字图书馆中的应用研究[J].情报理论与实践,2008,(3):436-439.
[20]高巨山.高校数字图书馆构建中的数据挖掘应用研究[J].中国教育信息化,2008,(3):81-81.
[21]吴小英.数据挖掘技术在图书馆增值服务中的应用[J].晋图学刊,2008,(3):27-30.
[22]罗仕健,朱光磊.数据挖掘技术在网络环境下图书馆中的应用[J].情报杂志,2004,(6):22-24.