基于普赖斯定律的图书情报领域高被引论文核心要素测评
2016-09-29胡利勇
胡利勇
基于普赖斯定律的图书情报领域高被引论文核心要素测评
胡利勇
(广东省委党校图书馆,广东广州 510053)
以中国知网期刊全文数据库为数据源,利用书目共现分析系统对2011-2015年图书情报领域论文的核心要素进行提取、统计,借鉴普赖斯定律,确定图书情报领域高被引论文,进而分析其核心作者、核心单位、核心期刊,并绘制知识图谱进行社会网络分析,揭示当前图书情报领域的科学研究特点。
图书情报;普赖斯定律;高被引;社会网络分析;统计分析
高被引论文是指被引用次数较高的论文。对图书情报领域高被引论文进行统计,分析高被引论文的要素特点,有助于我们了解和掌握近期图书情报领域的发展脉络、研究热点和发展趋势。文献计量学中,普赖斯定律被用来确定高产和高影响力作者[1]。多数情况下,高产作者和高被引论文的分布具有相同或相似的规律,可以借用普赖斯定律确定高被引论文[2-3]。
1 文献来源与研究方法步骤
1.1文献来源
利用中国知网期刊全文数据库,采用高级检索方式,时间期限设定为“2011年1月1日”到“2015年12月31日”,选择“图书情报与数字图书馆”作为学科领域,跨库选择“期刊”“博士”“硕士”“特色期刊”“国际会议”“国内会议”“学术辑刊”7个论文数据库作为文献来源库,共检索出124 567篇文献,按照被引次数倒序排列,单篇最大被引次数为171,借鉴普莱斯确定核心作者的方法[4],确定高被引论文最低被引次数:,取整数10,即累计被引10次或者以上的论文作为核心候选文献,由于在中国知网检索列表中,2 000条以后就不再显示被引次数,而被引排序第2 000位的论文,被引次数为11,与高被引论文候选范围相当接近,因此将被引排名前2 000的论文确定为高被引候选文献。这2 000篇论文总共被引43 369次,篇均被引21.68次,取整数22作为高被引论文指数,即被引次数大于或等于22的论文作为本文所研究的高被引文献,共578篇,去掉重复文章3篇,共计575篇,占候选论文总数的28.75%。其中,博士学位论文2篇,硕士学位论文4篇,期刊论文569篇,基金论文233篇。这些高被引论文总被引次数为22 587,占候选文献总被引次数52.08%,篇均被引39.28次,h指数为66。
1.2研究方法和步骤
首先,利用中国知网的参考文献导出功能,选择Note first方式,将575篇高被引论文的题名、作者、关键词等元数据导出为XML格式TXT文件保存。其次,将TXT书目共现分析系统Bicomb2软件打开[5],提取575篇文献关键字段信息并进行统计分析。再次,利用普赖斯定律确定高被引论文的核心期刊、核心作者和核心发文单位。最后,在Bicomb2中生成共现矩阵,利用Ucinet软件和NetDraw工具,绘制核心作者、核心单位知识图谱[6],进而总结图书情报领域的研究现状和特点。
2 高被引论文统计分析
2.1年份分布统计
2011年入围高被引范围的图书情报领域论文最多,达274篇,约占高被引论文总数的一半,入围的高被引论文数量逐年减少,2012-2014年分别为164、99、38篇,2015年最少,没有一篇达到高被引论文的最低引用频次。发表越早,高被引论文数量比例越高,表明论文累积被引次数与发表时间有关,发表时间越早,累积被引次数越大,高被引论文数量比例越高。
2.2高被引文章主题分析
从575篇高被引文献中,被引排名前20的论文(见表1),最高被引171次,最低被引97次,总被引2 578次,篇均被引128.9次。其中作者独著论文13篇,合著论文7篇,占比分别为65%和35%。2011年最多,有9篇,占了将近一半比例;2012年7篇;2013年3篇;2014年只有1篇。说明被引次数排在前列,需要一定的时间积累。但达到被引最多的论文有两篇,分别出现在2011年和2013年,都是被引171次,张晓林和王世伟两位作者,都有两篇论文入围被引前20,表明这两位学者研究的是图书情报学领域的前沿问题。
表1 2011-2015年图书情报领域被引频次最高的20篇论文
从被引次数排名前20的论文主题来看,智慧图书馆和大数据为3篇,移动图书馆、读者决策采购、微博、微信为2篇,数字图书馆、信息挖掘、阅读推广、关联数据、知识服务、慕课分别为1篇,这些高被引论文的主题,在一定程度上,都代表着图书情报领域当前的研究热点。
2.3核心期刊统计分析
575篇高被引论文发表在59种不同的期刊上,其中《图书情报工作》论文最多,有66篇。利用普莱斯公式,确定核心期刊:,取整数7,即发文7篇或以上的刊物,作为高被引论文的核心刊物,共计20种(见表2),占刊物总数的33.90%,累计发表高被引论文509篇,约占高被引论文总数的88.52%,被引篇均被引20 045次,占高被引论文总被引次数的88.75%,篇均被引39.38次,说明这20种刊物是高被引论文期刊中的绝对核心。其中,只有《现代情报》和《图书馆理论与实践》这两个刊物未被列入《中国人文社会科学核心期刊要览(2013年版)》,这与实际情况相一致。
表2 2011-2015年图书情报领域高被引论文核心期刊
2.4核心作者统计分析
575篇高被引论文共计857位作者,共计发表论文1 109人次,篇均作者1.93人次,作者合作情况见表3。合著论文308篇,占53.57%,表明高被引论文作者合作程度高。
表3 2011-2015年图书情报领域高被引论文作者合作情况
857位作者中,参与发表论文量最高的是邱均平(9篇),同样利用普莱斯公式,确定核心作者:,取整数3,即以发表论文3篇或以上的作者为高频被引文献的核心作者,共计56位,累计出现210次,占总频次的18.94%。如前所述,合作论文比例高,作者累计被引9 188次,同一篇论文有几个作者,被引次数就会累计几次。因此,它包含多个作者重复计算,这远远高于论文被引次数。
575篇高被引论文的第一作者共463位,仍然是邱均平发文最多(9篇)。以第一作者发表论文3篇或以上的共计23人,累计以第一作者发表论文90篇,占高被引论文的15.65%,人均以第一作者发文3.91篇,累计被引4 165次,人均被引181.09次,篇均被引46.28次。
2.5核心单位统计分析
575篇高被引论文作者单位共计434家,单位累计出现794次,篇均单位1.38次,表明高被引论文单位合作紧密。出现频次最多的是武汉大学信息管理学院,为34次,同样利用普莱斯公式,确定发文核心单位:,取整数5,即出现5次及以上单位为高频被引文献的发文核心单位,共计28家,占单位数的6.45%,累计出现238次,约占单位频次的29.97%。核心单位前五位分别是武汉大学信息管理学院、中国科学院国家科学图书馆、北京大学信息管理系、清华大学图书馆、上海图书馆。
3 社会网络分析
分析2011-2015年图情领域研究热点,主要利用Bicomb2软件分别得到高被引论文的核心作者共现矩阵、核心单位共现矩阵以及高频关键词共现矩阵,然后利用社会网络分析软件Ucinet 6.0[7]和可视化绘图工具NetDraw[8],绘制出基于中介中心度(Betweenness)分析和K-cores分析[9]的高被引论文核心作者、核心单位、社会网络关系图谱。图中圆形点代表高频关键词节点,节点越大,代表该节点在整个关键词网络中的作用越大、控制其他节点共现的能力也越强;节点之间的关系用实线连接,实线越粗,代表相互之间的关系越强[10]。K-cores分析则是通过颜色来区分关键词在整个网络中的核心程度,红色表示节点关键词在网络中处于核心地位[11]。
3.1核心作者关系图谱
提取核心作者的共现矩阵,绘制核心作者合作关系图谱(见图1)。可以看出,图情领域高被引论文核心作者之间的合作并不紧密。最大的合作圈是以刘炜和钱国富为中心形成的,包括了8位作者,圈中多位作者与两个中心有多次合作。只有一个4人创作团队,三个3人团队,两个分别以储节旺和郑成铭为节点的单线合作团体,剩余6个都是两两合作的小团体。需要说明的是,本文仅从作者间合发论文的情况,来分析核心作者间的合作关系。
图1 高被引论文核心作者关系图谱
图2 发文2篇以上的作者关系图谱
如前文所述,575篇高被引论文,合著论文308篇,占53.57%,那么155位发文2篇以上的作者的合作情况如何呢?生成155位作者共现矩阵,绘制作者间关系图谱(见图2)。图中的数字就是作者的序号(按照发文数从高低排列),图中左侧红点,是没有与别的作者合作的作者节点,有40位。其余115位作者,都跟其他作者有过合著论文的情况,有的还不止合作一次。这说明图书情报领域学术交流活跃,科研合作频繁,这与合著论文占比超过一半以上的结论是一致的。可见,学术合作对于高质量科研成果的产生极为重要。
那么,575篇高被引论文的全部857位作者之间的合作关系又如何呢?同样提取作者共现矩阵,绘制社会网络关系图谱(图3),图书情报领域高被引论文作者间的合作关系一目了然,完全可以用纵横交错、纷繁复杂来形容。这充分说明,图情领域的学术交流频繁,作者间的合作也异常广泛,正是由于这一点,才造就了这一领域年均近2.5万篇学术论文的繁荣景象。
3.2核心单位关系图谱
图4为高被引论文核心单位关系图谱,可以看出,高被引论文的作者单位以武汉大学信息管理学院为中心,形成了包括中国科学院国家图书馆、中国科学技术信息研究所、北京大学信息管理系和南京大学信息管理系等在内的、涵盖2/3以上核心单位的合作关系网。从这个角度来看,武汉大学信息管理学院代表中国图书情报教育的最高水平。此外,还有7家单位在高被引论文中,与其他单位并无合作关系。
图3 高被引论文作者关系图谱
图4 高被引论文核心单位关系图谱
4 结束语
上文从高被引论文的主题、期刊、作者、发文单位几个方面,对高被引论文的核心要素进行了分析和测评,通过分析,可以得出以下结论:(1)论文的累积被引次数与发表的时间长短有关,发表时间越长,累积被引用次数越大。一般来说,被引用次数没有的峰值出现一般至少需要一到两年的时间。(2)被引频次从一定程度上代表着论文和作者的学术影响力,高被引论文的主题在某种程度上代表了学科的前沿和热点,关联数据、知识服务、慕课、智慧图书馆、大数据、信息挖掘是图书情报领域的前沿课题,移动图书馆、读者决策采购、微博、微信、数字图书馆、阅读推广是图书情报领域研究的热点问题。当然,从高被引论文关键词的共词聚类的情况来分析会更加准确地反映学科热点和发展态势,由于文章篇幅所限,只能留作另文分析。(3)核心期刊是图书情报领域的主要学术平台,其刊载的论文代表了我国图书情报领域整体的研究层次和学术水平。(4)核心作者、核心单位对图书情报领域的影响力巨大,他们的科研成果,指引着图书情报领域的科研发展方向;作者间的科研合作,单位间的学术交流,对科研水平的提高,有着巨大的促进作用。
[1]邱均平.信息计量学[M].武汉:武汉大学出版社,2007:192-195.
[2]刘雪立.基于Web of Science和ESI数据库高被引论文的界定方法[J].中国科技期刊研究,2012(6):975-978.
[3]刘雪立,王兆军.2004~2008年我国情报专题研究高被引论文的统计与分析[J].情报杂志,2010(1):64-67.
[4]钟文娟.基于普赖斯定律与综合指数法的核心作者测评——以《图书馆建设》为例[J].科技管理研究,2012(2):57-60.
[5]崔雷,刘伟,闫雷,等.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008(8):70-75.
[6]王佑镁,陈慧斌.近十年我国电子书包研究热点与发展趋势——基于共词矩阵的知识图谱分析[J].中国电化教育,2014(5):4-10.
[7]卜彩丽.翻转课堂的研究热点、主题与发展趋势解析——基于共词分析的可视化研究[J].现代教育技术,2016(1):73-79.
[8]王运锋,夏德宏,颜尧妹.社会网络分析与可视化工具NetDraw的应用案例分析[J].现代教育技术,2008(4):85-89.
[9]姜鑫.我国微博研究主题的共词可视化分析[J].现代情报,2013(11):108-113.
[10]肖明.知识图谱工具使用指南[M].北京:中国铁道出版社,2014:37-38.
[11]周志超.基于国内知识图谱领域高被引作者的社会网络分析[J].现代情报,2012(8):97-100.
Analysis of Highly Cited Papers in Library and Information Science Based on Price's Law
HU Li-yong
(Library of Party School of Guangdong Committee of the CPC,Guangzhou 510053,China)
According to the result of searching highly cited papers of library and information field from 2011 to 2015 in the China Academic Journal Network Publishing Database of CNKI,this paper extracts the keywords and makes statistics by Bicomb2.Using Price's law as a reference to confirm high frequency keywords of the highly cited papers,this paper makes social network analysis by SPSS,Ucinet and NetDraw to reveal the developing conditions and hot topics of library and information science.
library and information science;Price's law;highly cited;social network analysis;statistics analysis
G350
G350
A
2095-5197(2016)04-0113-05
胡利勇(1980-),男,馆员,硕士,研究方向:文献计量学、学科服务。
2016-05-25 (编发:王域铖)