图书馆数据挖掘技术研究现状述评
2011-05-08唐吉深
唐吉深
(河池学院图书馆,广西 宜州 546300)
20世纪 90年代以来,数据挖掘技术已成为数据库研究最活跃的分支之一。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程[1]。通过数据挖掘机器算法可以帮助决策者从海量的数据中自动发现隐藏其中有价值的关系和模式,从而对未来可能发生的行为进行预测。
随着图书馆网络化、自动化的普及,数据库技术在图书馆的应用中迅速发展。图书馆日常管理产生大量数据,如:图书馆书目数据、读者流通借还数据、书目检索记录、Web访问记录等。采用数据挖掘技术对这些数据加以挖掘分析,将对图书馆的采访、流通、参考咨询、数字图书馆建设等有着很强的指导作用。同时可为图书馆决策及开展服务创新提供强有力的科学依据。
1 国外数据挖掘技术研究及其在图书馆的应用研究现状分析
在国外,数据挖掘技术活跃于各行各业,如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体;电子商务领域利用数据挖掘技术识别顾客的购买行为;生物学研究领域用数据挖掘技术对 DNA进行分析;银行利用数据挖掘技术对客户诈骗行为进行预测;IBM公司开发的 AS(Advanced Scout)系统针对 NBA的训练比赛数据,帮助教练优化战术组合 ,等等[2]。
在 Thomson Reuters的 “Science Citation Index Expanded”数据库中检索有关数据挖掘技术及其在图书馆应用方面的论文被 SCI收录的情况,以“主题=(data mining)and入库时间 =(2003—2009)”为检索条件(简称检索方式 1),得到 13 693条结果记录;以“主题 =(data mining)and主题 =(library)and入库时间 =(2003—2009)”为检索条件(简称检索方式 2),得到 27条结果记录。按发表论文时间排列得到表 1(以上检索时间为 2010年 5月 28日)。
SCI收录的文章数量能够反映某一问题研究的热度与创新程度。从表 1可以看出,2003—2009年间,SCI收录数据挖掘技术方面的文章总计 13 693篇,且逐年递增,呈明显的上升趋势。这表明国外学者在数据挖掘技术研究领域相当活跃,成果颇丰。而 SCI收录数据挖掘在图书馆这一特定领域应用的文章为 27篇,不及总量的 0.2%。这表明数据挖掘在图书馆领域的应用相对较少,且高质量的研究成果不多。
表1 国外数据挖掘论文被SCI收录情况
2 国内数据挖掘技术在图书馆应用的研究现状分析
在国内,数据挖掘技术应用同样广泛,尤其以电子商务、电信等商业领域的应用居多。国内图书馆自引入基于数据库的自动化管理系统后,数据量剧增。海量数据蕴藏着不菲的研究价值,但由于图书馆本身技术力量薄弱,往往只能凭借业务管理系统自带的数据分析功能,对数据进行诸如查询、统计等表面化的分析。缺乏内在的、深层次的问题分析,其分析效果不尽理想。鉴于此,一些学者尝试利用数据挖掘这种新兴技术来解决所面临的问题,以求服务质量有所突破。
以下通过对中国知网“中国学术期刊网络出版总库”收录的 2003—2009年间有关国内数据挖掘技术在图书馆应用研究方面的论文进行定量、归纳分析,以展示其研究现状。采用检索条件式“主题 =(图书馆)并且主题 =(数据挖掘)并且时间 =(2003—2009)”进行检索,得到有效记录 533条(以上检索时间为 2010年 5月 28日)。
2.1 发表论文的年代分布定量分析
对上述检索结果按照发表论文年代排列得到表2。从表 2可以看出,国内数据挖掘技术在图书馆的应用研究所发表的论文数量逐年递增,且呈线性上升态势。学者在这一领域的研究热情持续升温,数据挖掘技术在图书馆的应用具有广阔前景。
表2 国内图书馆数据挖掘技术研究论文年代分布情况
2.2 发表论文来源期刊载文量分布定量分析
533篇公开发表的论文分布在省级以上的 56种刊物中,其中图书馆专业期刊 36种,共刊载论文 398篇,占总发表量的 74.7%。对 56种刊物按其刊载量进行排序,选取前 10位得到表 3。从表 3可以看出,前 10种期刊共刊载论文 180篇,占总发表量的 33.8%,其中 7种期刊为中文核心刊物,刊载论文 135篇,占前10种期刊刊载量的 75%。这表明其研究成果主要集中在核心刊物,且学术成果价值较高,学者在这一领域的研究得到了图情界主流的认可。
表3 图书馆数据挖掘技术论文载文量前 10位的期刊
2.3 发表论文作者单位分布定量分析
这些公开发表论文的作者分散在 186个学术机构中(其中高校 152个、其他机构 34个)。以机构发表论文数量排序,选取前 10位得到表 4。从表 4可以看出,排在前 10位的机构有 9个为高校,有 1个为科研所。有关这一领域研究的学者多数来自高校,公共图书馆在这一领域开展的研究较少,其原因是高校在学术环境、实验设施、人力资源等方面较公共图书馆有优势。但笔者认为公共图书馆拥有庞大的读者群,且读者层次不一,利用数据挖掘技术对读者开展个性化服务很有研究价值。由于高校对这一问题研究相对活跃,公共图书馆可以尝试与高校开展合作研究,充分利用高校的优势资源,推进数据挖掘技术在公共图书馆的应用。
表4 国内发表图书馆数据挖掘技术论文数量前 10位的机构
2.4 发表论文的研究范畴归纳分析
对检索到的 533篇论文,按照其在图书馆业务中的应用范畴进行分类得到表 5。从表 5可以看出,有关读者个性化服务中应用数据挖掘技术的论文居首,表明图书馆倾向于利用数据挖掘技术解决如何高效、高质量地为读者提供个性化服务,最大限度满足读者需求的问题。以下选取检索结果论文中具有代表性主题的文章进行归纳分析。
表5 发表论文研究范畴分类
数据挖掘技术在读者个性化服务中的应用,主要表现为通过对读者信息、读者借阅和 Web使用记录等进行挖掘,建立读者兴趣模型,并根据模型对读者开展有针对性的服务。如:史艳梅“建立了一种 CMPS系统模型来获取用户兴趣”[3];郭家义“探讨数据挖掘技术在个性化检索系统中的作用以及如何发现用户兴趣”[4];柳炳祥等“将粗糙集和模糊聚类数据挖掘算法应用到图书馆个性化服务中”[5];曹强“将数据挖掘技术与 RSS推送技术有机结合,设计、实现个性化信息服务模型”[6]。
数据挖掘技术在文献采访工作中的应用,主要表现为通过对读者信息、书目数据、读者借阅数据、文献检索记录等信息利用关联分析、聚类分析进行挖掘,发现读者与借阅读书之间的关系、不同读者群的借阅倾向及不同学科间的联系等,以指导采访员科学选书。如:迟春佳等“针对如何科学制订高校图书馆图书采购计划的问题,提出了将数据挖掘技术用于高校图书馆图书采购计划制定决策辅助的方法”[7];刘淑瑞“采用 k-means算法将读者分为活跃读者、一般读者、较少读者三类,并根据不同类读者的借阅兴趣,调整采购策略”[8];王伊蕾等“将数据挖掘技术与运筹学相结合,提出了一种基于库存理论的图书订购策略”[9]。
数据挖掘技术在数字图书馆的应用,主要表现为提供智能搜索引擎服务、图书馆 Web挖掘、多媒体数据挖掘、Web信息抽取等。如:邹凯等“阐述了数据挖掘技术在智能搜索引擎服务中的个性化知识决策功能”[10];黎琳论述了“文本自动摘要、文本分类和文本聚类等 Web内容挖掘技术在数字图书馆中的应用”[11];张英等“介绍了图像挖掘、视频挖掘、音频挖掘等多媒体挖掘方法,并提出了一种适合多媒体数据挖掘的系统框架”[12];宋玉忠“认为Web数据抽取技术是 Web信息挖掘的关键,并提出了一种面向 XML描述的 Web数据抽取模型”[13]。
数据挖掘技术在参考咨询工作中的作用,主要表现为利用数据挖掘技术发现隐性知识,以使馆员在解答读者咨询问题时更为客观、全面。如:杨亚华“将知识管理、知识挖掘和参考咨询服务有机结合,提出了一种新的参考咨询服务体系结构”[14]。
3 数据挖掘技术在图书馆应用前瞻展望
近年来,随着计算机技术及互联网技术的快速发展,各种新技术不断涌入图书馆,图书馆进入 3.0时代,云计算、移动阅读将主导未来图书馆的发展方向。如何将数据挖掘技术与这些新技术融合,已成为亟待解决的问题。笔者就新形势下,数据挖掘技术在图书馆的应用创新提出以下设想。
3.1 图书馆自动化业务管理系统集成数据挖掘功能
当前,国外许多图书馆自动化业务管理系统已整合了数据挖掘功能(如 Mylibrary系统)。国内数据挖掘技术在图情界的研究相对活跃,但主要是针对如何利用的问题在进行探讨,真正可操作性强、能够指导实际业务的成熟产品很少,仅有少数大学图书馆自行开发有供本馆使用的个性化服务系统,如中国人民大学开发的 KBDL系统。由于图书馆一般技术力量比较薄弱,自主开发数据挖掘系统困难较大。由专业公司开发具有数据挖掘功能的图书馆自动化业务管理系统,在图书馆进行推广使用,将促进数据挖掘技术在图书馆应用的普及。
3.2 数据挖掘技术在手机图书馆中应用
随着移动互联网技术的发展成熟及 3G手机的普及,移动阅读越来越受到读者青睐。中国国家图书馆、重庆大学图书馆等率先推出手机图书馆 WAP网站,以满足手机读者用户的需求。手机图书馆的推出大大便利了读者,读者足不出户即可获得图书馆的资源。如何为手机读者开展个性化服务,将成为手机图书馆当前面临的巨大挑战。图书馆可尝试在手机图书馆 WAP网站后台部署读者兴趣挖掘模型,通过模型对手机读者的访问记录及借阅情况进行挖掘,找出读者感兴趣的资源。一旦发现图书馆有其感兴趣的资源,就可利用模型推送技术向手机读者发送短信告知。由此可见,利用数据挖掘技术解决手机图书馆个性化服务具有可行性。
3.3 数据挖掘技术在“云图书馆”中应用
自 Google提出云计算框架以来,云计算得到了广泛的应用。所谓“云图书馆”即“图书馆云”,这是建立在云计算模式下的一种服务,是整个云计算模式架构中的一个功能层,是互联网上的一朵云[15]。由此可见,云计算环境下,“云图书馆”本质上是一种服务,来自五湖四海的图书馆终端共享“云图书馆”的基础设施,共同构成一个存在于互联网中的大型数据库。“云图书馆”应用数据挖掘技术,发现深层次的知识,使“云图书馆”服务更具人性化。
4 结 语
基于数据挖掘思想,通过对国内外学者公开发表的有关图书馆数据挖掘应用方面的论文进行深层次分析,并对其未来发展方向进行探讨,以期能够反映其发展轨迹与趋势,进而推进数据挖掘技术在图书馆的更广泛应用。
[1]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利电利出版社,2003:2.
[2]李菁菁,培 基,亦 潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(3):10—14.
[3]史艳梅.个性化服务中挖掘用户兴趣的 CMPS[J].现代图书情报技术,2005(3):85—87.
[4]郭家义.个性化检索系统中的数据挖掘技术分析[J].现代图书情报技术,2003(8):93— 97.
[5]柳炳祥,邓欢军,高淑妍,等.基于数据挖掘的图书馆个性化服务系统[J].现代情报,2007(3):108—109.
[6]曹 强.图书馆个性化信息服务模型的设计与实现[J].情报杂志,2007(4):80— 83.
[7]迟春佳,毛志勇.基于数据挖掘的高校图书馆图书采购计划辅助决策研究[J].现代情报,2007,29(7):108—110.
[8]刘淑瑞,秦文珍,张 聪.基于数据挖掘技术的图书馆采购管理研究[J].重庆文理学院学报(自然科学版),2010,29(1):110—112.
[9]王伊蕾,李 涛,王福生,等.一种基于库存理论的图书订购策略[J].情报科学,2008,26(5):698—700.
[10]邹 凯,汪全莉.智能搜索引擎与数字图书馆个性化服务[J].情报科学,2004,22(7):874— 877.
[11]黎 琳,赵 英.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006(2):19—21.
[12]张 英,赵艳君.数字图书馆中多媒体数据挖掘的体系结构和方法[J].数字图书馆技术论坛,2008(1):92—94.
[13]宋玉忠.Web抽取技术在数字图书馆中的应用[J].四川图书馆学报,2009,3(169):46— 49.
[14]杨亚华.基于知识管理与知识挖掘中的参考咨询服务探讨[J].科技情报开发与经济,2007,17(29):28—30.
[15]致斋主.云图书馆就是图书馆云[EB/OL].[2009-09-24].http://www.linhq.net/archives/48.