APP下载

数据挖掘技术在图书情报领域中的应用研究现状

2009-11-19

现代情报 2009年9期
关键词:内容分析数据挖掘应用研究

田 红

〔摘 要〕本文以国内权威的CNKI系列全文数据库1995-2007年间登载的相关文献数据为基础,利用基于关键词词频统计的内容分析方法,对数据挖掘技术在我国图书情报领域中的应用研究状况进行了比较全面的分析,揭示了研究的重点主题,分析了研究中存在的问题,以期为相关研究工作的深化发展提供参考。

〔关键词〕数据挖掘;图书情报学;应用研究;内容分析

〔中图分类号〕TP39;G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)09-0038-04

On Application of Data Mining to Library and Information Science

——An Content Analysis Based on CNKI DatabasesTian Hong

(Library,Guizhou University,Guiyang 550003,China)

〔Abstract〕Based on literatures of authoritative CNKI databases during 1995-2007,the author explored academic research of applying data mining to library and information science by the method of keywords-based content analysis,and discussed its core subjects and the problems.

〔Key words〕data mining;library and information science;applied research;content analysis

作为一门技术性较强的应用社会科学,图书情报学的每一次大发展都离不开信息技术的发展和应用,以至有人认为,图书情报学是对信息技术最敏感、应用最成熟的社会科学之一。数据挖掘作为信息科学技术的重要新兴领域之一,近年来受到图书情报工作者与研究者的 重视和关注。然而,数据挖掘技术在我国图书情报领域中的应用研究状况如何?有哪些重要 的进展和成果?还存在哪些方面的不足和薄弱环节?都是当前需要解答的重要问题,对深化 数据挖掘技术在我国图书情报领域中的应用、促进图书情报学术研究与实践的发展都具有重 要的现实意义。

1 研究方法与数据收集

1.1 基于词频统计的内容分析法

内容分析法是一种对研究对象的内容进行深入分析,透过现象看本质的科学方法。应用这一方法,对文献的特定主题内容进行定性和定量剖析,可以揭示该主题内容的实质,系统、客观地把握其研究动态和趋势[1]。关键词是指出现在文献的篇名、摘要和正文中,用以表达文献主题概念的、有实际意义的自然语言词汇。对于某学科专业学术论文而言,由于科研人员对同一课题或概念的掌握较为准确,因而所使用的关键词也趋向一致[2]。对各学科、各专业的前沿领域而言,由于其科研人员长期从事各学科、各专业前沿领域的课题研究,对新理论、新技术、新成果有较深刻的理解,并能及时转化为公认的关键词,这些新兴关键词的多寡也代表着学科发展的方向与成熟度。因此,该学科相关文献的关键词的分布频次与特征,能显示该学科的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等[3]。

鉴于这些研究方法的科学性、客观性、准确性和实用性,近年来已经得到一定范围的运用,并取得一系列有意义的研究成果:如加拿大蒙特利尔大学的D.Robert教授等人曾于1997年完成了一份关于世界纳米科技研究状况的计量分析报告,该报告以加拿大NRC确定的79个纳米科技关键词为依据,采用词频分析的方法,分析了全球范围内纳米科技论文的产出和分布[3];2003年,河南师范大学的梁立明教授等人运用词频分析法作了一项关于中国纳米科技发展状况的补充性研究[4];同年,武汉大学的邱均平教授等人也运用词频分析法,分析了2002年国内外情报学研究的重点主题和发展动向[5];2006年,武汉大学的马费成教授等人用词频分析的方法对比分析了国内外知识管理研究的热点、方法、学科分布和应用领域[6]。我们完全可以将内容分析法和以关键词为基础的词频分析法相结合,即基于词频统计的内容分析法,研究数据挖掘技术在图书情报领域中的应用研究的基本状况。

1.2 相关数据的收集整理

文献计量的数据来源随着时代的变化也有所变化,本文的数据来源以中国知网CNKI系列全文数据库为主,统计相关文献的特征信息。CNKI系列数据库是目前世界上最大的综合性中文数据库,收录了国内多种类型的科技文献全文,且收录率很高,通常都在90%以上,以此作为统计分析对象,可保证研究结果的权威性和可靠性。文献检索年限定为1995-2007年,检索方法为“分类=图书情报与数字图书馆”AND“篇名=数据挖掘”(匹配方式=“模糊”),检索结果如表1所示。

可以看出,数据挖掘技术在图书情报领域中的应用研究已经有一定的成果和文献积累。而从这些文献的时间分布看,自1999年以来基本呈现出较高的增长态势,说明此方面的研究规模不断扩大,正处于快速发展的时期(见图1)。

2 词频分布及重点研究主题分析

2.1 词频统计结果及分布特征

246篇有关数据挖掘技术在图书情报领域中的应用研究的文献共有关键词近900个。在对这些关键词作同义词的处理后,选择词频高达5次以上的关键词进入关键词表,从而确定了共有18个关键词的高频词表,其词频分布情况见表2。

可以看出,这些关键词表现出较为明显的类别特征:一类是具有技术属性的关键词,如数据挖掘、Web数据挖掘、知识库、数据库、数据仓库、文本挖掘、信息挖掘、知识发现、关联规则、可扩展标记语言等关键词,具有较为明显的技术特征,主要反映了被应用的数据挖掘的具体技术、工具和方法;另一类是具有图书情报学学科属性的关键词,这些关键词中,少数表明了数据挖掘技术的应用领域,如图书馆、高校图书馆、数字图书馆,多数则表征了图书情报学科的研究主题和方向(见表2)。

2.2 重点研究主题分析

从以上关键词的特征分析可以看出,具有图书情报学学科属性的关键词不仅表征了数据挖掘技术在图书情报中的应用领域,而且高频次表征研究研究方向的关键词还体现了数据挖掘技术在图书情报领域中应用研究的重点主题和方向。这些关键词表征的重点研究主题包括:信息服务(包括“个性化信息服务”、“信息服务”两个关键词)、信息检索、知识管理、参考咨询、竞争情报、决策支持。下面以这些关键词对应的文献为基础,对这些重点研究主题的研究状况作简要分析概述。

2.2.1 信息服务

信息服务是图书情报领域研究的重要内容,而图书情报部门信息服务的发展离不开信息技术方法的支持。此方面的研究主要包括基于数据挖掘技术的图书馆信息服务系统模型设计[7],Web数据挖掘实现个性化信息服务的主要途径[8],基于Web数据挖掘技术的用户社区聚类方法和相关量化技术[9],Web日志数据和OPAC信息库图书借阅数据关联挖掘分析与应用[10],利用数据挖掘技术构建数字图书馆个性化服务系统的方法[11],基于WEB信息空间或自动化管理系统的知识服务[12],基于数据挖掘及数据仓库技术的网络信息服务模式[13]。

2.2.2 信息检索

现代信息检索研究与信息技术有较紧密的联系,数据挖掘在信息检索中的应用研究主要关注网上信息进行自动提取及网上信息分类的实现途径[14],利用词频矩阵和模糊相似矩阵的文本间相关性的计算方法[15],用户访问记录、网络数据流背后的知识关联和知识发现[16],从网络信息内容的关联智能检索中的网络数据挖掘技术[17],基于知识规则挖掘的分类方法及其应用[18]等。

2.2.3 知识管理

知识管理是近年来图书情报学术研究的热点之一,数据挖掘应用于图书情报知识管理的研究主要涉及到数字特藏数据挖掘支持专题数据库资源的知识管理[19],数据挖掘技术在数字图书馆知识管理系统建设中的应用[20],分布式数据挖掘解决元数据集中管理与对象数据分散的存取机制构建[21],基于WEB信息空间或自动化管理系统的知识服务[22],通过数据挖掘实现图书馆信息价值最大化、保持图书馆竞争力和可持续发展的措施[23],智能信息处理中文本知识的发现[24]等方面。

2.2.4 参考咨询

此方面的研究主要与近年来兴起的数字参考咨询相关,内容主要涉及基于挖掘技术的数字参考咨询系统设计框及数据库结构设计[25],数据挖掘技术在基于呼叫中心的数字参考服务中的应用[26],图书的流通数据应用关联规则的挖掘分析方法[27],E-mail文本挖掘的具体过程及其在用户参考咨询需求定位中的应用[28]。

2.2.5 竞争情报

主要研究基于数据挖掘的企业竞争情报智能采集模型构建[29],集成环境中面向竞争情报系统的数据仓库和数据挖掘技术的应用[30]等。

2.2.6 决策支持

主要包括读者关系管理中应用数据挖掘的条件和数据处理、构建模型及模型评价等基本流程[31],分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等数据挖掘技术在图书馆馆藏管理、读者管理及决策支持等方面的应用[32]等。

3 结 语

综上分析不难看出,以上主题的研究都与图书情报学原有的研究领域或研究内容有较大的相关性。但在对已有文献的分析梳理的过程中笔者也发现,目前图书情报学术界对数据挖掘的应用研究还存在以下两方面的问题:一是研究内容不够深入。在已有的研究中,很大一部分都是普泛地介绍数据挖掘的相关技术,并简要分析其在图书情报工作中应用的意义和范围等等,内容比较肤浅,重复雷同严重;即便是一些专题性的研究,主要也是用数据挖掘的各种技术方法对图书情报工作中的相关记录数据和信息进行简单的套用和计算分析,还缺乏应有的研究深度。二是研究力量比较分散。从笔者对检出文献的作者的考察结果看,绝大多数作者只发表过1篇相关文献,最多的也只发表过4篇相关文献,这说明目前对数据挖掘在图书情报工作中的应用研究还没有形成稳定的研究队伍,研究工作还缺乏应有的组织和引导,绝大多数研究人员只是“偶然”地进行此方面的研究,影响了研究的水平和深度。图书情报学界应针对这些问题,采取有效的对策措施,推动研究工作走向深入。

参考文献

[1]邱均平,邹菲.关于内容分析法的研究[J].中国图书馆学报,2004,(2):1-4.

[2]王思哲.我国学术期刊关键词标引质量探析[J].延安大学学报:社会科学版,2001,(3):27-29.

[3]邱均平,苏金燕.国内信息资源管理研究综述[J].图书馆论坛,2007,(6):56-60.

[4]梁立明,谢彩霞.词频分析法用于我国纳米科技研究动向分析[J].科学学研究,2003,(3):5-11.

[5]邱均平,赵蓉英,侯经川.2002年国内外情报学发展动向研究[J].情报学报,2003,(5):512-516.

[6]马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,(2):146-151.

[7]李璐璐.基于数据挖掘技术的信息服务研究及系统模型设计[J].大学图书情报学刊,2008,(4):46-48.

[8]欧阳烽.Web数据挖掘与高校数字图书馆个性化服务[J].现代情报,2008,(1):301-303.

[9]郝小花,邓小昭.基于数据挖掘的可视化数字图书馆用户社区聚类与特征分析[J].情报科学,2008,(3):396-399.

[10]温嵘生,邱春兰.基于OPAC信息库图书借阅数据关联挖掘分析与应用[J].情报杂志,2007,(7):26-28.

[11]周军.基于数据挖掘的数字图书馆个性化服务系统的构建[J].图书馆学研究,2007,(3):15-17.

[12]黄兰.数据挖掘技术在图书馆工作中的应用[J].图书馆学研究,2005,(7):15-17.

[13]张艳英,朱婕.数据仓库、数据挖掘及网络信息服务[J].现代情报,2003,(12):2-3.

[14]朱理达.图书馆信息管理与数据挖掘技术[J].河南图书馆学刊,2002,(3):60-61.

[15]武胜良.数据挖掘中模糊聚类方法在信息检索中的应用[J].当代经理人,2006,(15):244-245.

[16]金燕,张玉峰.网络数据挖掘及其在面向Web的知识检索中的应用[J].现代图书情报技术,2003,(6):55-57.

[17]晏创业,张玉峰.智能检索中的网络数据挖掘技术探索[J].中国图书馆学报,2002,(3):13-16.

[18]石冰,郑燕峰.信息检索中的数据挖掘技术[J].情报学报,1999(S1):400-403.

[19]都平平,李明.专题数据库的数据挖掘与知识管理——以《中国煤矿事故数据库》为例[J].图书馆杂志,2006,(2):14-16.

[20]潘小枫.数据挖掘技术及其在数字图书馆建设中的运用[J].图书馆理论与实践,2006,(4):105-106.

[21]胡誉耀.数字图书馆的分布式数据挖掘[J].情报理论与实践,2006,(3):853-855.

[22]黄兰.数据挖掘技术在图书馆工作中的应用[J].图书馆学研究,2005,(7):15-17.

[23]金中仁,陈振宇.知识管理与文献信息数据挖掘[J].情报杂志,2004,(12):89-90.

[24]韩客松,王永成.文本挖掘、数据挖掘和知识管理——21世纪的智能信息处理[J].情报学报,2001,(1):100-104.

[25]张军丽.基于数据挖掘技术的图书馆参考咨询[J].科技情报开发与经,2008,(20):50-51.

[26]刘秋梅,郑耿忠.呼叫中心数据挖掘在数字参考服务中的应用研究[J].情报杂志,2006,(5):68-70.

[27]魏育辉,潘洁.图书流通数据的关联挖掘量化分析方法[J].现代情报,2005,(11):108-110.

[28]晁成春.参考咨询服务中的E-mail文本数据挖掘[J].农业图书情报学刊,2005,(12):41-43.

[29]唐涛,张玉峰.基于数据挖掘的企业竞争情报智能采集模型研究[J].情报科学,2007,(10):6750-6754.

[30]苗杰,倪波.面向集成竞争情报系统的数据挖掘应用研究[J].情报学报,2001,(4):443-450.

[31]杨春,刘树新,楼康华.论数据挖掘在读者关系管理中的应用[J].河北建筑科技学院学报:社会科学版,2006,(3):125-127.

[32]叶新友,晁成春.数据挖掘技术在高校图书馆中的应用[J].新世纪图书馆,2005,(1):50-51.

猜你喜欢

内容分析数据挖掘应用研究
基于并行计算的大数据挖掘在电网中的应用
2016年《中国日报》“两会”数据新闻报道研究
AG接入技术在固网NGN的应用研究
分层教学,兼顾全体
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究