我国社会科学领域数据挖掘研究的文献计量分析
2011-11-17柯健李超
柯健 李超
〔摘要〕以1998-2009年间CSSCI数据库中收录的数据挖掘研究论文作为统计分析的数据源,从文献时间分布、期刊分布、作者分布、单位分布、基金资助分布、学科分布、关键词分布等角度进行文献计量分析。结果表明,我国社科界数据挖掘研究已从初步探索转为发展阶段,并开始向其它学科渗透,形成了一些核心作者和领军研究单位,各级单位对数据挖掘研究的重视程度在增加,数据挖掘研究的学科分布也越来越广,最后,通过文献的关键词分析指出社科领域数据挖掘研究的趋势。
〔关键词〕数据挖掘;文献计量;CSSCI;社会科学
收稿日期:2011-03-28
基金项目:安徽省高校省级自然科学资金项目“基于自组织数据挖掘方法的安徽省经济预警研究”(KJ2008B138)。
作者简介:柯 健(1982-),女,讲师,硕士,研究方向:数据分析、信息资源管理。
DOI:10.3969/j.issn.1008-0821.2011.06.027
〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2011)06-0102-05
Bibliometric Analysis of Research on Data Mining
in the Field of Social Science in China
Ke Jian Li Chao
(1.School of Management Science and Engineering,Anhui University of Finance and Economics,
Bengbu 233030,China;
2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China)
〔Abstract〕This paper selected those theses of data mining recorded in CSSCI during the course of 1998 to 2009,made bibliometric analysis from the angle of year distribution,journal distribution,author distribution,institution distribution,fund projects distribution,subject distribution,keywords distribution etc.As it concluded,the research on data mining in social science area has become a developing stage from initial exploration,and has been infiltrating into other subjects.Now,some of nuclear authors and leading research institutions have been coming.All kinds of institutions attach more importance to data mining research,and the subject distribution of data mining was becoming wider more and more.At last,the paper pointed out data mining research trends in social science area with the method of keywords analysis.
〔Key words〕data mining;bibliometric analysis;CSSCI;social science
1995年在加拿大蒙特利尔召开的第一届知识发现和数据挖掘国际会议上,“数据挖掘”概念第一次由Usama Fayaad提出[1],在其后不到20年的时间里,数据挖掘由于其所具有的广阔应用前景而备受关注,大量有关数据挖掘的研究论文在国内外相关期刊中发表。本文依据CSSCI即“中文社会科学引文索引”,选择CSSCI数据库中1998-2009年的文献进行检索分析,检索字段为“关键词”,检索词为“数据挖掘”,共得到685篇有关数据挖掘研究的论文,以此为统计数据源,并从文献时间分布、期刊分布、作者分布、单位分布、基金资助分布、学科分布、关键词分布等多个角度进行综合分析。
1 数据挖掘研究文献的时间分布
某一时期发文的增加速度和数量,在一定程度上可以说明这一领域研究的理论水平和发展速度。1998-2009年间被CSSCI收录的有关数据挖掘的论文时间分布情况如图1所示。
图1 数据挖掘研究文献的时间分布
图1表明,数据挖掘作为一门数据智能分析技术在20世纪末才刚刚兴起,因此1998-1999年在我国研究论文发文量较少,且研究内容主要表现为概念的引进与描述、综述以及一些研究方法的探讨与数据挖掘技术的初步应用。2000年以后,数据挖掘研究与应用迅猛发展,新的或改进的算法不断出现,所考察的数据类型日趋丰富,应用领域逐渐扩大,数据挖掘领域迎来了一个创新的黄金时代[2],从图1可以看出,2000-2005年间,我国社会科学领域数据挖掘发文量呈指数增长趋势,数据挖掘作为数据库、统计学、人工智能等学科的交叉学科正在蓬勃兴起。而2006年以后,发文量基本趋于平稳,这也说明我国社会科学领域数据挖掘的研究与应用已过渡到学科发展期。
2 数据挖掘研究领域文献的期刊分布
统计发现,CSSCI收录的685篇数据挖掘论文分布在109种期刊上,其中发文10篇以上的刊物有14种,如表1所示。14种期刊刊载数据挖掘论文共计439篇,占总发文量的64.09%,相对较为集中。其中《情报杂志》等9种期刊载文量最大,均在20篇以上。表1还显示:图书情报类期刊载文量301篇,是发表数据挖掘论文最多的刊物类别,其次是统计类期刊载文量84篇。说明在社会科学领域关注数据挖掘研究的学科主要是图书馆学、情报学与统计学,图书情报类和统计类期刊是我国数据挖掘研究领域文献的主要载体。
表1 刊载数据挖掘论文10篇以上的期刊及载文量分年统计
由表1还可以看出,2003年前,数据挖掘的研究论文基本上都是以图书情报类期刊为载体,说明社会科学领域数据挖掘的研究基础是信息领域。尤其在数据挖掘研究的早期探索阶段,《情报学报》率先刊载相关论文;在数据挖掘研究的基础奠定阶段,《情报学报》的载文量也是最大的。说明《情报学报》作为我国图书情报类的权威期刊,能够及时跟踪和反映新的学科内容,取得了质量较高的研究成果。
表1还表明,自2003年以后,统计类、科技管理类期刊也逐渐连续性地刊载数据挖掘研究论文,且发文量增长速度甚至赶超图书情报类期刊,这说明,随着研究基础的日渐深厚,统计学、科技管理等领域的学者都从数据挖掘中获得了广阔的研究发展空间。因为,数据挖掘是一个多学科交叉的领域,一方面,数据挖掘以计算机的发展为首要条件,数据的有效组织和大量计算算法的支持是其发展和应用的基础,但另一方面,即使数据得到了有效组织,计算算法足够先进,要想发现海量数据中隐藏的有用信息,还必须综合利用统计学、模式识别、人工智能、机器学习、神经网络等学科的专业知识。比如,数据挖掘使用的分析方法,有相当大比重是靠高等统计学中的多元分析来支撑的,一般定义为数据挖掘技术的CART、CHAID或模糊计算等理论方法,也都是由统计理论发展衍生的[3]。
3 数据挖掘研究领域文献的作者分布
3.1 论文合作情况分析
研究论文的合作情况,一方面可以反映研究论文的深度和广度以及该研究领域的学科性质和研究方法等,另一方面有助于弄清合作的特点及影响合作的主要因素,也有助于组织合作研究[4]。文献计量学通常用论文合著率和合作度两项指标来衡量论文的合作情况。合著率是合著文献占文献总数的比例,合作度则是指每篇文章的平均作者数。统计发现,685篇论文中,只有1位作者的文献有233篇,占了总数的34%;2位作者的有422篇,占了总数的62%;3位及3位以上作者的有10篇,占了总数的4%。685篇论文涉及到1 140位作者,合作度为1.66,合作率为66%。由此分析可以看出,社会科学领域较高质量的数据挖掘论文是以合作研究为主的。
3.2 核心作者发文统计分析
对作者发文进行统计分析,可以反映出文献作者与文献量的关系,不仅能预测和揭示研究人员的研究能力,分析出发文量多,影响力比较大的核心作者,还对进一步了解数据挖掘研究领域的现状和发展趋势起到很重要的参考意义[5]。
表2给出了1998-2009年间发文量在10篇以上的作者发文量数据。张玉峰和朱东华各发表了15篇有关数据挖掘研究的论文,戴稳胜和朱建平各发表了13篇,这4人都是我国数据挖掘研究领域的核心领军人物。表2还给出了4位作者的主要数据挖掘论文题目。可以看出,高产作者关于数据挖掘的研究比较系统,即有数据挖掘技术的理论研究,也有数据挖掘技术在商业、网络、图书馆、科技管理、金融、财务、心理学等诸多领域的应用研究。他们的研究拓展了我国社科领域数据挖掘理论研究的深度和应用研究的广度。
表2 核心作者发文量及主要文献列表
续表2
4 数据挖掘研究领域文献的单位分布
对685篇文献的第一作者单位进行分析,发现这685篇文献来源于257家单位。表3给出了发文量10篇以上的单位及其各年发文量统计情况。从表3可以看出,南京大学关于数据挖掘研究的连续性最强,从1999年起,除了2000年,每年都有数据挖掘论文发表,而武汉大学、四川大学、北京大学次之,从2005-2009年每年都有论文发表。此外,西安交通大学、四川大学、华中科技大学在一定时间内都保持着很好的数据挖掘研究连续性。
表3还表明,武汉大学12年来共发表了31篇论文,居全国之首,其次是南京大学发表了27篇,这两所高校不仅关于数据挖掘的论文产出量最多,研究的连续性最强,而且也是最早开始社会科学领域数据挖掘研究的院校。这与数据挖掘的理论基础有密切关系,数据挖掘是以信息领域为基础的综合多学科知识的交叉学科,而武汉大学和南京大学的信息管理系在国内高校中享有盛誉,两所高校确实发挥了在专长领域的领军作用。
表3 总发文量10篇以上的单位分年统计列表
续表3
5 数据挖掘研究领域文献的基金资助分布
对数据挖掘研究基金资助论文的数量和基金级别进行统计分析,在一定程度上可以反映我国社会科学界数据挖掘研究的新成果、新趋势,有利于专业研究人员掌握最新、最有价值的专业情报,同时也可以透视社科界数据挖掘研究的学术水平和质量,反映国家乃至地方对该领域的重视程度。表4给出了历年受到各级基金资助发表的文献数量。可以看出,从1999年开始,国家级基金、省级基金、校级基金资助的论文总量在逐年攀升,由1999年和2000年的1篇省级基金资助论文到2001年的5篇国家级基金资助论文。2003年,数据挖掘研究基金资助论文分别为国家级资助8篇,省级资助4篇以及校级资助2篇,以后各年获得的资助都有新的提高,从国家到高校,都加大了资助力度,研究人员持续性研究的积极性得到提高,我国社科界数据挖掘研究的持续性得到更好的保障。
表4 历年受到各级基金资助发表的文献数量
6 数据挖掘研究领域文献的学科分布
统计发现,社科界数据挖掘研究涉及表5所示的11个学科,其中,图书馆、情报与文献学发文量最多,达323篇,经济学、管理学次之。说明数据挖掘研究主体是立足基础理论,集中在图书馆、情报与文献学、经济管理等基础性学科上。另一方面,数据挖掘研究的学科分布也越来越广泛,甚至涉及到哲学、政治学、法学、语言学这些貌似与数据挖掘并无关联的学科,说明数据挖掘的研究正在积极探索新领域,不断拓展综合性交叉学科的应用广度。
表5 数据挖掘研究领域文献的学科分布统计表
7 数据挖掘研究领域文献的关键词统计分析
7.1 关键词数量统计分析
关键词的研究有助于我们了解数据挖掘研究的主题。经过统计,选出出现频次高于3次的关键词,如表6所示。通过分析可以了解到,1998-2009年间数据挖掘领域的研究热点既有数据仓库、关联规则、聚类、决策树、神经网络等基础理论,也有如客户关系、数字图书馆、知识管理、web挖掘、电子商务、金融等应用领域的热点。因此,通过查阅相关文献资料,结合当前社科界数据挖掘研究文献的关键词统计,可以将数据挖掘研究内容划分为基础研究和应用研究两大类[6],其中基础研究包括:数据挖掘的概念、功能、算法、技术等。应用研究主要有:(1)数据挖掘在商业(金融业、零售业、电信业等)、科研等领域的应用研究;(2)数据挖掘系统和特定领域的数据挖掘应用软件建设研究;(3)数据挖掘与其它学科的交叉渗透研究,如统计学数据挖掘等。
表6 数据挖掘文献关键词统计表
7.2 关键词逐年排序统计分析
按论文出版年份对每一年的关键词进行统计,可以反映数据挖掘领域研究热点的变化。通过表7的整理可以看出:(1)“数据仓库、关联规则、客户关系管理、数字图书馆、知识管理”等一直是该领域的研究热点,且这些关键词反映了社科界数据挖掘的研究一直立足于基础理论的不断完善和典型应用领域应用研究的不断深化。(2)越来越多的新关键词出现说明了学者们研究视角的转变及数据挖掘研究应用领域的扩展。如,随着电子商务和电子营销成为零售业的主流环境,数据挖掘在商业方面的探索将会继续扩展,而且,数据挖掘越来越多地用于新领域的探索,如,体育、电力、教学、科研管理、生物医药甚至考古、犯罪侦查等领域。
表7 关键词逐年排序统计
续表7
参考文献
[1](意)Paolo Giudici.实用数据挖掘[M].袁方,王煜,王丽娟,译.北京:电子工业出版社,2004.
[2](加)Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007.
[3](美)Michael J.A.Berry,Gordon S.Linoff.数据挖掘——客户关系管理的科学与艺术[M].袁卫,译.北京:中国财政经济出版社,2004.
[4]林良夫.中国农村经济研究状况浅析——基于对《中国农村经济》(1995-1999年)载文的统计[J].中国农村经济,2000,(12):71-75.
[5]李小敏,范帆.我国知识地图研究文献计量分析[J].情报科学,2010,(4):550-553.
[6]员巧云,程刚.近年来我国数据挖掘研究综述[J].情报学报,2005,(2):250-256.