文献计量方法应用进展浅析
2015-06-23仉晓红
仉晓红
(曲阜师范大学日照校区图书馆 山东日照 276826)
文献计量方法是利用数学或统计学方法,对文献的外部特征数量进行描述,继而对科学技术的现状与发展趋势进行评价和预测的研究方法。一般认为国外最早进行文献计量学研究的是1917年文献学家F.T.科尔和N.B.伊尔斯对比较解剖学出版物进行的统计分析。在我国公开发行的学术刊物上最早见到的文献计量学相关论文,是1979年沈中和在《自然杂志》上发表的《新颖的〈科学引文索引〉》一文。之后,我国学者从80年代开始对文献计量学方法及经典的定律开始了进一步的探索和验证。随着我国文献计量学三十多年的发展,文献计量分析方法在理论、实践、应用等方面都已日渐成熟。
有学者对我国文献计量研究论文进行过早期的阶段性的分析,如发展阶段、数量、内容、作者等,如汪冰教授的《我国文献计量学十年研究与发展(1979—1989)》和范全清等学者的《我国文献计量学研究30年之发展》(统计年份为1979-2008年)。也有学者从发展方向和宏观理论上进行过阐述,如邱均平教授等的《我国文献计量学发展的回顾与展望》。还有学者将文献计量分析法在具体的某一学科领域的应用进行了阐述,如安源、张玲的《文献计量学在我国图书情报领域的应用研究进展综述》。然而,近年来信息技术的突飞猛进为这一传统的研究方法增加了新的特点,学术日新月异的繁荣进步和科学评价的需求更使得这一实证研究方法成为应用热点,发文规模、应用范围、作者群体、分析工具等都达到了前所未有的局面。本文以2009-2013年的数据源为依据进行分析,旨在展现文献计量分析方法的最新应用进展,为后续的应用提供借鉴和参考。
1 数据来源与处理
本文以CNKI所收录CSSCI来源期刊为数据源,限定高级检索,检索式为“文献计量(或者)文献统计(或者)文献调查”,检索年为“2009-2013”,共获得615条结果。排除无关或一稿多投等文献后,共获得相关论文610篇。检索日期为2014年12月22日。利用Bicomb书目共现分析系统提取相关论文信息,通过“年份”统计获得各年发文量以便分析学术关注度;通过“期刊”统计获得刊载文献的期刊种类和出现频次以便分析学科领域的分布;通过“第一作者”的数据提取为确定核心作者供了依据。文献分析软件和数据库的统计采用人工阅读统计进行分析。
2 统计结果与分析
2.1 学术关注度统计
表1 2009-2013年文献计量分析类论文发文量分布
表1显示2009-2013年文献计量分析论文每年发文数量不低于100篇,且每年发文数量较为均衡。从2009年起图书情报领域实证研究大规模展开,文献计量分析方法重新成为各学科领域的应用热点,大量以期刊、引文分析、影响因子、h指数等为关键词的文献不断涌现,2009年的发文量比上年明显增高。随着应用领域的不断扩展,2010-2011年发文数量日趋上升,在2011年达到首个历史峰值128篇。随着研究规模日益成熟,文献计量学理论与方法应用研究的实际推广逐渐向新的领域扩展,网络计量学、信息计量学、情报计量学逐渐走进研究范围,发文数量继续增高,在2013年达到历史最高值。图1可以看出,2009-2013年发文量走势明显高于历史记录,年均122篇,五年累计发文总数为上一个五年的近2倍,发文峰值为2013年的142篇,这一时期文献计量分析类文献的学术关注度达到历史最高。
2.2 发文学科领域统计
2.2.1 学科统计
2009-2013所发表的文献计量分析类论文共涉及到20个学科或领域。发源于图书情报学的文献计量分析方法依然在本学科领域应用最为广泛,以363篇、60%的发文量独占鳌头。有160篇论文分布在新闻学与传播学、管理学、教育学,且发文数量比例大体相当,分别为10%、9%、8%,是除图书情报领域外文献计量方法集中较多的三个学科。经济学、体育学各有文献20、18篇,累计比例为6%,它们可以看做是此种方法应用的第三梯队学科。心理学、社会科学总论、语言学、历史学、社会学的发文量介于4-10篇之间,说明这些学科的学者也在开始注重文献计量分析的应用。另外统计学、政治学、法学、环境科学、民族学、马克思主义、中国文学、艺术学、考古学也对文献计量分析方法初有涉及,累计发文占总数的3.1%。
2.2.2 高影响力论文的学科分布
本文借鉴普赖斯定律来确定高被引论文。本次检索的论文最高被引频次为14,通过以下公式可知被引频次大于等于3的论文即为高被引论文。
高被引论文共有67篇,占被引总比28.9%,被引351次,篇均被引5.24次。其中图书情报类期刊分布43篇,占比64.2%,可见图情学科在文献计量分析应用方面的研究规模和影响力仍居首位。新闻学与传播学期刊分布14篇,占比21.0%,应用力度和影响力是仅次于图书情报类的第二大学科。另外有10篇、占比15%的的高被引文献分别来自科学学、管理学、体育学和其他综合社科领域。
2.3 期刊来源分析
610篇相关论文共来自国内130种期刊,载文量排在前17位的期刊共有论文403篇,占总比66.1%。而载文量小于等于4的期刊多达101种,共载文113篇,占总数18.6%。少数载文量较高的期刊在文献计量分析方法应用方面的讨论已形成规模,成为相关研究的主要阵地,而且文献计量分析方法涉及学科种类多,应用领域广泛。
根据布拉德福定律确定该研究领域的核心期刊区,《情报科学》、《情报杂志》、《中国科技期刊研究》即为文献计量分析类核心期刊,期刊的发文量大于等于59篇。
2.4 作者分析
从专业优势和应用深度来看,文献计量分析方法更容易受到图书情报学领域作者的青睐。统计可知共有1 012位作者参与了撰写,其中有590位作者具有图书情报学研究背景,或者直接从事图书情报事业,占作者总数的56.4%。统计中还发现,有501位具有图书情报专业背景、占专业总数85%的作者参与了非图书情报领域学科的论文撰写,这是将专业知识运用到其他学科领域的例证,体现了图情专业工作者的学科服务意识日趋加强。
通过对作者群体进行研究,可以把握学科科研活动的深度和广度,对于科研活动的管理、组织、协调和引导都有积极意义。本次统计五年内发文量最高的作者为36篇,通过普赖斯定律可知本次调查的核心作者被引频次下限为3,依据以下公式可获得第一作者发文量的下限:
发文量大于等于3篇且单篇被引频次超过4次的作者即为文献计量分析应用的核心作者,见图1。
图1 核心作者发文量及最高单篇被引频次统计
邱均平教授是我国文献计量学的代表人物和突出贡献者,这一时期他的论著不仅全面系统地阐明科技文献的加工、控制、交流和利用的机理,还借助文献计量学的原理和方法对科学计量学和网络计量学领域作了有力的探索,被誉为“我国文献计量学和科学计量学的主要奠基人”[1]。赵蓉英教授倾向将文献计量延伸至知识网络、知识交流、知识管理的研究,并在知识图谱和可视化的研究方面卓有建树。汤建民教授的研究侧重科学学领域的文献特征分析,在期刊评价研究、国内社科领域文献特征研究方面形成研究体系。姜春林教授在期刊网络结构、期刊评价等方面均有涉及,并也善于运用知识图谱和可视化技术。
2.5 基金文献统计
一般来说,只有那些达到较高研究水平,在当前处于科研前沿的课题和作者群体,才能得到基金资助。2009-2013年610篇论文中标明基金支持的有310篇,占文献总数的59.1%,说明我国文献计量分析类论文受到制度性基金支持较多,但支持力度还有加大的空间。从历年情况看基金支持率呈不断上升趋势。从资助基金的分类来看,国家级的多于省部级的,省部级的多于校级的,它们分别占基金文献的62%、24%、14%,说明文献计量分析类论文受到资助的基金层次较高。
基金论文共分布在108种期刊上,2009-2013年,基金论文被引率(被引文献篇数/发文篇数)为62.5%,而同期的非基金论文被引率为49.4%,前者高于后者。基金论文篇均被引频次为5.31,非基金论文篇均被引频次为2.11,也是前者高于后者。可见,基金论文无论在影响广度还是在影响深度上都要胜于非基金论文。
通过进一步的内容分析笔者发现,研究者不仅仅局限于通过简单的数值、图表等数据对文献外部特征的物理描述,也并非止步于对所得信息的简单观察和推理,而是注重深挖其中所隐含的规律,将定量分析与定性研究相结合,力图利用有效的文献统计数据作为研究的有力依据,得出新的研究结论。即使是纯粹的文献计量分析,选取的往往也是研究者较少涉足、研究力量稀缺、研究主题新颖、情报价值较高的专题。以上这些特点正是基金论文质量高、影响力大的原因所在。
2.6 计量工具统计
2.6.1 数据库统计
运用文献计量分析法做研究离不开数据来源,对数据源的选择决定了统计源的可靠性,也直接影响到统计结果的代表性和研究结论的科学性。通过文献内容调研得知,共有451篇论文明确说明了统计数据的出处,占总数的73.9%。依据的数据库有20个,其中涉及到科技期刊、科技图书、专利文献、学位论文、科技年报、网络数据等资源。中文数据库12个,外文数据库5个。有285篇论文的数据源为中国知网(CNKI),信息量大、文献类型丰富、数据分类精细、客户普及范围广等特点使它成为首选数据库。本次统计中有126篇、占总数20.1%的论文依托Web of science产生,其中的SSCI和SCIE以高质量的期刊为优势吸引了众多研究者,数理、生化、医用等研究领域的文献依赖于此数据库。115篇论文基于CSSCI的数据,高影响力、遵循文献计量学规律,采取定量与定性评价相结合的聚类特征,受到人文社科类专业进行文献计量分析研究者的青睐。通过调查还发现,在被统计文献中有45篇论文的数据来源并未依赖数据库,而是来自研究者对研究对象实物的直接调查,这样的方法大多适用于计量目标分散、没有固定数据库来源的调查对象。既没有明确标明数据库的名称,也未说明统计对象的数据来源,这种论文缺少文献计量分析文献应有的要素,这就会影响数据的可信度。虽然类似文献只占很少的比例,但也应引起研究者的注意。
2.6.2 计量分析软件统计
随着计算机系统性能的不断更新,文献计量的数据收集、整理分析等各个环节对计算机辅助功能软件产生了极大的依赖。近五年来610篇运用文献计量分析类论文中有561篇使用了分析软件,占总数92.0%。2009-2013年分析软件的每年使用率不低于82.7%,年均使用率近93%,特别是2013、2014两年的使用率都超过了97%,五年的使用率呈逐渐上升趋势。文献计量分析软件工具的使用给文献计量分析工作带来极大的便利,文献计量分析文献对它们的依赖与日俱增。
五年来相关论文共使用了12种分析软件,从使用率由高到低排列依次是Excel、SPSS、Matlab、Citespace、Histcite、ISTIC/ISIS、JCR、SAS、EVIEWS、WINISIS、DA、Keynote。Excel作为最常用的软件,主要用来做繁重的计算和数据汇总等工作,便捷易行的特点使它的多种图形绘制功能得到较为普遍的使用,使用率为86%,成为文献计量分析者的首选软件。SPSS则能够提供从简单的统计描述到复杂的多因素统计方法,诸如数据的二维相关、多元回归、因子分析等等,由于它在社会科学和自然科学领域都发挥巨大作用,因此应用学科较为广泛的文献计量分析论文也较多使用它,使用率为51%,成为该领域第二大分析软件。成熟的可视化技术的引进促进了知识域可视化这个新领域的创建,造就了科学知识图谱的兴起,近年来,由美国德雷塞尔大学的陈超美博士基于JAVA平台开发的以定量分析为主的可视化工具CiteSpace在国内得到了广泛的使用。本次统计中有395篇论文使用了CiteSpactⅡ,特别是在图书情报学、经济学、教育学等学科分布较广。MATLAB的优势是能将高性能的数值计算和可视化集成在一起,并提供大量的内置函数,被广泛的应用于科学计算、控制系统、信息处理等领域,它的二维和三维绘图功能更加直观地实现了文献计量中科学曲线、统计曲线的绘制。
本次调查还发现,有近90%的软件运用者常根据研究目的的不同,在同一文献中将多个分析软件结合使用。例如共引聚类分析与词频分析的结合、共词分析与引文网络的结合以及同被引分析和文献耦合分析的结合等,这样可以充分利用不同分析软件之间的互补性和结果上的对比性,获得更加准确可靠的统计结果。综合以上分析结果可知,随着信息技术的高速发展,文献计量分析类论文的软件使用正朝着集成化和可视化方向发展,在一定程度上反映出我国文献计量方法和技术有了较大的进步。
3 结语
2009-2013年,源于图书情报学的文献计量分析方法应用在我国学术界达到前所未有的状况。学术关注度达到历史最高时期。学科领域跨度较大,以图书情报类为龙头,逐渐向科学学、新闻学与传播学、管理学、教育学、医学等社会科学和自然科学的多个研究领域扩展。研究内容主要集中在对某一研究领域或某一研究主题进分析、对特定期刊进行影响力评价等方面。一批成果卓著的核心作者群正在形成,研究前沿逐渐指向网络和网络计量。从影响力方面来看,图书情报领域仍居应用之首,跨领域研究和期刊选文的学科界限模糊是这一时期的发文特点。文献计量类文献受基金支持力度较大,基金论文多为质量上乘之作。辅助研究手段日益综合化、多样化、自动化,数据庞大、品质层次高的数字化平台是重要的数据源,日渐可视化、智能化的文献分析软件使得文献计量分析的应用如虎添翼。
[1]何汶.计量·评价·管理——记信息管理领域的开拓者和带头人邱均平教授[J].中国地质大学学报(社会科学版),2006,(6):1-6.