引用次数、相对影响力和社会网络在论文评价中的应用
2016-03-22,,,
,,,
学术论文是科研活动特别是基础研究的重要产出成果,一定程度上反映了国家地区、机构和个人的科研水平[1]。论文是科研人员绩效考核、职称评定的重要指标之一[2],也是科技资源配置的重要参考之一,因此得到了科研管理人员和科研工作者的广泛关注。客观科学的论文评价对于激发科研工作者的积极性、合理配置科技资源和营造健康的学术环境具有重要意义。
1 论文评价的方法
论文评价主要有定性评价和定量评价两种方法。定性评价的主流方法是同行评议,例如2002年由维特克·特拉茨(Vitek Tracz)创立的全球最大的医学和生物学专家组成的F1000,具有很高的认可度[3]。但同行评议存在成本太高,评价标准主观性强、随意性大的问题[4]。目前常见的论文评价定量方法有以下几种。
1.1 利用期刊影响因子对论文进行评价
但叶继元[4]等学者指出,期刊评价不等于论文评价,以期刊影响力、影响因子作为论文评价的标准不合理、不科学。
1.2 利用论文被引频次评价论文
1.2.1 缺陷
该方法只是对论文被引次数进行简单计数,存在以下3个缺陷。一是没有考虑学科领域、出版时间等论文属性会造成论文被引机会的不同,二是没有考虑施引文献的重要性区别,三是没有考虑论文在引用网络中的结构重要性。
1.2.2 改进方法
针对第一个问题,汤森路透(Thomson Reuters)基本科学指标数据库(ESI)对学科、出版年份等进行标准化处理,提出相对影响力指标。也有学者基于ESI统计数据对高水平论文、不同领域热点论文和高被引论文等进行分析[5-9],但其问题是学科分类的粒度较粗。针对第二个问题,刘昌来[10]等运用加权被引频次,苏成[11]等将PageRank运用到论文评价中,体现了施引文献的重要性。针对第三个问题,邱均平[12]、刘蓓[13]和姜磊[14]等将社会网络分析的方法运用到论文评价中,反映了论文在引文网络结构中的重要程度,证明了社会网络分析方法也适用论文引用网络。
1.3 从被引频次、相对影响力和中心度评价窄主题的论文
上述的改进方法一定程度上比被引频次更合理,但也存在以下问题:ESI的相对影响力指标粒度较粗;缺少从窄主题出发评价论文的研究,论文评价应该放在一个比较窄的主题下才有意义,因为在一个大的领域中,不同主题的被引机会也是不同的,而且被同主题的论文引用的重要性也要大于被其他相关领域的论文引用,也就是说被“小同行”的认可更重要些;缺少从主题引用结构角度对不同算法的排序结果产生影响因素分析研究。为解决以上3个问题,本文以“雌性生殖力维持”这个窄主题为例,从被引频次、相对影响力和中心度3方面进行论文的评价研究。
2 数据与方法
2.1 数据来源
本文选用科学引文索引网络扩展版(SCI-E)核心合集数据库作为数据检索源,基于生物生殖领域中“雌性生殖力维持”主题的研究热点,抽出可表征主题所在领域的主题词,并根据Mesh主题词表扩充完善主题词,完成对基本主题词的构建,并不断利用这些主题词在Web of Science(WoS)平台试检、精炼,最后经过讨论确定检索式:TS= (meiosis or meiotic* or (genome* and oocyte*) or (folliculogenesis and effect gene?) or mitochondrial inheritance or (maternal to zygotic transition or MAZ) or polycystic ovary syndrome or POS or assisted reproducti*),检索时间限定为2006年1月1日-2015年12月31日,文献类型限定为Article和Review。
借鉴信息检索结果评价经验,从查全率、查准率两个指标出发,不断迭代检测,通过删除噪音数据和补充遗漏数据,从而保证数据集覆盖了研究主题的绝大部分论文,并且集中数据与该方向高度相关,最终得到“雌性生殖力维持”主题论文37 919篇。
2.2 方法和指标
2.2.1 方法
本文主要采用科学计量方法、社会网络分析法和统计学方法,对论文的被引频次、相对影响力、中介中心度和接近中心度等论文评价指标进行重合度和相关性分析,分析不同论文属性对不同评价方法的影响,讨论不同评价方法间的差异性和适用范围。
2.2.2 指标
2.2.2.1 被引频次
本文从Global视角、Local视角分析了论文的引用情况。Global被引是指论文在WoS数据库中所有的被引频次,Local被引是指论文在“雌性生殖力维持”主题中的被引频次。
2.2.2.2 相对影响力
2.2.2.3 中心度
中心度是社会网络分析的研究重点之一,可以反映个人或者组织在其社会网络中的地位[15]。本文采用社会网络分析方法中的中介中心度和接近中心度对论文在研究主题子网中的影响力进行测度。中介中心度表征了网络中某论文作为一个节点在网络中联系其他两个节点之间交往的能力,接近中心度表征了网络中某论文作为一个节点在网络的核心程度。
3 结果与分析
由于缺少如信息检索领域的成熟标准的语料库,因此如何判断不同算法的论文评价排序结果优劣成为一个难题。但对比不同方法得到的排序列表,至少可以分析不同算法间的差异、算法的适用范围以及影响算法的因素。
3.1 论文被引情况分析
37 919篇论文的Global最高被引频次为8 193,篇均被引次数为24.0;Local最高被引频次为477,篇均被引次数为5.4,大约为Global篇均被引的1/5。也就是说,从整体上看这些论文只有1/5的引用来自主题内论文,4/5的引用来自于非“雌性生殖力维持”主题。因此,我们认为,Global被引反映的是论文在全领域内的影响力,而Local被引反映的是论文在主题内的影响力,两者既有联系,也有区别。而在实际的论文评价工作中,Local被引的意义可能更大一些。
3.2 不同方法排序列表的对比分析
3.2.1 相关性分析
因为数据集中零被引论文占比达到38%,而用户多关注高被引论文,所以我们不但计算了全部论文各种算法间的相关系数,也计算了Local被引频次>0、≥5、≥10等数据集的各种算法间的相关系数(表1)。
表1 Global被引频次、相对影响力和中心度排序结果Spearman相关系数
注:“**”为相关性在0.01级别显著(双尾)
研究表明,Local被引频次越大的数据集,相对影响力和Global被引频次相关系数增大,相对影响力和Local被引频次的相关系数有增大趋势,Global被引频次、相对影响力、Local被引频次与中心度之间、中介中心度和接近中心度的相关系数均下降。也就是说,Local被引频次越大的数据集,相对影响力和Global被引频次、相对影响力和Local被引频次相关性越高,Global被引频次、相对影响力、Local被引频次分别与中心度之间,以及中介中心度和接近中心度的相关性越低。相对影响力、Global被引频次和Local被引频次都是基于论文被引次数的统计,中心度算法是基于主题内论文引用结构,基于相同内核的算法之间相关性越高,基于不同内核的算法之间相关性越低,即算法的内核决定了排序结果的相关性。
尽管基于不同算法内核的方法间存在差异,但总体上看,Global被引频次、Local被引频次、相对影响力、中介中心度和接近中心度两两之间均呈正相关关系。其中Local被引频次大于0时,强相关的有:Global被引频次分别和相对影响力、Local被引频次、接近中心度之间,接近中心度和Local被引频次;弱相关的有:Global被引频次和中介中心度,相对影响力和接近中心度、中介中心度。
3.2.2 重合度分析
重合度可以测度不同数据间的相似程度。重合度计算公式如下:
其中A表示一种方法排序结果中TopN论文,B表示另一种方法排序结果中TopN论文,N表示选取的论文数。总体来说,N越小,Global被引频次和相对影响力的重合度有增大趋势,评价结果一致性越高;Global被引频次和相对影响力分别与中心度之间、中心度之间的重合度越低,即Top 20重合度 表2 不同方法Top 20、Top 100和Top 1000排序结果重合度 重合度高的有Global被引频次与相对影响力,Global被引频次与Local被引频次,中介中心度和Local被引频次,接近中心度与Local被引频次,Top 1000重合度均大于30%;重合度低的有Global被引频次和相对影响力分别和中介中心度、相对影响力和接近中心度、Top 1000重合度低均小于20%。Global被引频次、相对影响力和Local被引频次之间重合度高,中心度之间重合度高(表2)。 从重合度上不同方法可分为A、B两组,A组为Global被引频次、相对影响力和Local被引频次,B组为Local被引频次、中介中心度和接近中心度。两组内方法之间的重合度较高,两组方法之间的重合度较低。其中A组算法是基于论文被引次数的统计,B组算法是基于主题内论文引用结构,算法的内核决定了排序结果的重合度。因此,重合度的差异也反映了算法和评价内容的不同。 通过不同方法之间相关性和重合度可以看出,基于相同算法内核的方法之间相关性和重合度高,评价结果一致性高;基于不同算法内核的方法之间相关性和重合度低,评价结果差异性大。 3.2.3 引用结构对不同方法的结果影响 为了分析引用结构对不同算法排序结果的影响,我们对比分析了不同聚类的排序结果。聚类采用Gephi自带的Community-detection算法,最终得到24个聚类。 我们还分析了聚类出度和入度、聚类链接数和聚类密度对算法的影响。聚类出度即聚类链出数,聚类入度即聚类链入数,聚类链接数即聚类出度和入度之和,聚类密度是聚类中论文实际连线和最大连线数的比值: 式中L=聚类中论文连线数,N=聚类中论文数。 24个聚类的文献数均值为1 445,密度均值为0.0135。 聚类篇均接近中心度和中介中心度的均值分别为0.00174和0.00000154,聚类篇均入度、聚类篇均出度和聚类篇均链接数的均值分别为6.75、6.82和8.38。 聚类4和聚类6的聚类篇均接近中心度和中介中心度、聚类篇均入度、聚类篇均出度和聚类篇均链接数均排在前2位(表3)。 聚类4的主要研究内容是卵母细胞减数分裂,聚类6主要是雌性卵巢健康方面的研究。我们推测卵母细胞减数分裂和雌性卵巢健康可能是“雌性生殖力维持”窄主题研究的核心方向。 表3 聚类概况 注:*Cluout为聚类篇均出度,Cluin为聚类篇均入度,Clutc为聚类篇均链接数;中心度均为篇均数 总体上看,聚类篇均接近中心度和聚类篇均中介中心度分别和聚类篇均入度、聚类篇均出度、聚类篇均链接数之间,聚类文献数和聚类篇均链接数之间均呈极强的正相关关系。聚类文献数和聚类密度呈极强的反相关关系,即聚类文献数量越多,聚类的密度越小,这是因为论文引用网络是一个稀疏矩阵。聚类密度与聚类篇均接近中心度、聚类篇均中介中心度和聚类篇均链接数之间相关性不显著,也就是说聚类密度与聚类的中介中心度、接近中心度和聚类链接数关系不明显(表4)。 表4 聚类排序结果Spearman相关系数 注:*Cluout为聚类篇均出度,Cluin为聚类篇均入度,Clutc为聚类篇均链接数;“**”相关性在0.01级别显著(双尾)。 聚类篇均中心度和聚类篇均链接数相对位置如图1所示。 图1 聚类篇均中心度和聚类篇均链接数相对位置 横坐标代表聚类篇均接近中心度,纵坐标代表聚类篇均中介中心度,点的直径代表聚类篇均链接数,点内的数字代表聚类号。 图1中的点基本分布在直线两侧,且较大的点集中在中介中心度和接近中心度较大的区域。也就是说,接近中心度、中介中心度和聚类篇均链接数存在线性相关的关系,与表4的相关性结果具有一致性。同理,经过验证,聚类篇均入度和聚类篇均出度均和聚类篇均中介中心度和接近中心度呈现明显的线性相关关系。 聚类篇均入度、聚类篇均出度、聚类篇均链接数和聚类篇均中介中心度、聚类篇均接近中心度之间相关性极强,线性相关关系明显。同时,聚类篇均中介中心度和聚类篇均入度、聚类篇均出度、聚类篇均链接数之间的相关系数均大于聚类篇均接近中心度。也就是说聚类入度、聚类出度和聚类链接数对接近中心度和中介中心度影响大,但中介中心度影响程度更大。 3.2.4 排序结果靠前论文分析 根据搜索引擎调查表明,85%的用户只看搜索结果的第1个页面[16],也就是说用户更关注检索算法排名靠前的结果,说明排序靠前的结果更能满足用户需求。 同理,排序靠前的论文更重要、更受到关注,因此对排序结果靠前的论文进行分析,符合评价的实际需求。 Global被引频次Top 20、Top 100、Top 1000论文Local被引频次占比分别是1.36、2.45、9.51,Local被引频次占比逐渐增多,最大占比小于10%,即超过90%的引用来自于其他主题论文。相对影响力Top 20、Top 100、Top 1000论文Local被引频次占比均小于10%且Local被引频次占比逐渐增多,与Global被引频次具有一致性。与Global被引频次和相对影响力情况相反,中心度Top 20、Top 100和Top 1000论文的Local被引频次占比逐渐减少,最小占比大于22%,即1/5以上的引用来自于相关主题论文,与论文被引情况结果具有一致性(表5)。 Global被引频次和相对影响力这两种算法的Local被引频次占比远小于中介中心度、Local被引频次和接近中心度算法。造成这种现象的原因可能是:前两种算法是论文在WoS中的所有引用计数,一般来说,高被引论文因其影响力广,存在马太效应强,易得到更多的“大同行引用”;后3种算法是基于主题内引用网络计算的,有利于Local被引频次占比多的论文,与前两种算法包含大量“大同行引用”不同的是,Local引用网络更多的是“小同行引用”。前两种算法,“大同行引用”多,影响力大,马太效应强,可以认为影响的广度大;后3种算法,“小同行引用”多,可以认为影响的深度大。 表5 不同方法Top 20、Top 100和Top 1000论文被引情况 注:*Gtc为Global被引频次,Betw为中介中心度,Ltc为Local被引频次,Clo为接近中心度 中介中心度Top 20论文的篇均入度(99)小于接近中心度的136,即相对中介中心度,接近中心度更有利于测度被引频次更高的论文。中介中心度Top 20论文的篇均引用和论文出度均大于接近中心度,其中中介中心度Top 20论文的论文出度是接近中心度的5.41倍,差异最大(表6)。论文出度多,说明联系主题内其他论文次数多,即出度多的论文中介中心度大。中介中心度Top 20论文50%来自聚类4和聚类6。接近中心度Top 20论文分布聚类相对分散。聚类4和聚类6是聚类篇均链接数排名前2的聚类,即中介中心度排名靠前论文集中在链接数多的聚类,接近中心度排名靠前论文分布相对分散。 表6 中介中心度和接近中心度Top 20论文 3.3.1发表时间对不同方法结果的影响 Global被引频次和Local被引频次Top 50论文85%以上发表时间在2006-2010年,接近中心度Top 50论文都发表于2006-2007年,其中86%集中在2006年;中介中心度Top 50论文中发表时间相对分散,近70%集中在中间段2008-2012年(表7)。对不同方法Top 50论文集中的发表时间从早到晚进行排序:接近中心度最早,Global被引频次和Local被引频次其次,中介中心度最晚。接近中心度Top 50论文发表时间集中程度远高于其他方法,这可能是由于论文的引用是由新到老单向追溯的,论文发表时间越早,累积被引次数越多的可能性越大。因此接近中心度更有利于测度发表时间较早的论文。 表7 不同方法Top 50论文发表时间分布 注:*Global被引频次、Local被引频次排名中有并列,因此总数大于1000 3.3.2 论文文献类型对不同方法结果的影响 37 919篇数据集中,Article论文33 194篇,占87.54%;Review论文4 725篇,占12.46%。Global被引频次、Local被引频次和接近中心度Top 20、Top 50和Top 1000 论文中的Review论文比例在17%-30%之间;其中,接近中心度排名靠前的论文中的Article论文占比大于Global被引频次、Local被引频次和接近中心度,一定程度上反映接近中心度更有利于测度Article论文。 中介中心度Top 20、Top 50论文中Review论文比例均大于60%,Top 1000论文的Review论文比例33.4%(表8)。 表8 不同方法Top20、Top50和Top1000文献类型统计 与数据集Review论文占比12.46%相比,不同方法排序靠前的论文中Review占比较高,这与学术公认的Review论文被引频次较高[17]具有一致性。 与Global被引频次、Local被引频次和接近中心度Top 20、Top 50和Top 1000 论文中Article论文占比多于Review论文相反,中介中心度Top 20、Top 50论文中Review论文占比多于Article论文,且排名越靠前的论文中Review论文占比越大。其原因可能是Review论文是对前人的实验结果或某一研究成果的总结与评述[18],即对过去研究成果的汇总和归纳,因此Review论文引用相关主题内论文频次多;对于主题内新的研究论文,Review论文也可以提供理论基础,新论文对Review论文的引用机会多,因此Review论文对新老论文的联系程度较高。中介中心度是测度论文在主题内的联系程度,因此对文献类型为Review的论文有较好的测度。 从结果上看,Global被引频次测度的是总体的影响广度,Local被引频次测度的是窄主题的影响深度。相对影响力因为对时间和文献类型进行标准化处理,一定程度上减少了时间和文献类型对排序结果的影响。 中介中心度排序靠前的论文体现了3个集中特性:集中在链接数多的聚类中,集中在发表时间中间时间段,集中在文献类型为Review论文中,因此中介中心度有利于发现窄主题内具有纽带作用的核心论文,接近中心度有利于测度发表时间早的Article论文。 Global被引频次、Local被引频次和相对影响力是基于论文被引频次统计的算法,中心度是基于主题论文引文结构的算法。通过相关性和重合度结果表明:基于相同算法内核的方法之间相关性和重合度高,评价结果一致性高;基于不同算法内核的方法之间相关性和重合度低,评价结果差异性大。 聚类入度、聚类出度、聚类链接数和中介中心度、接近中心度之间具有明显的线性相关关系,线性关系强说明聚类入度、聚类出度、聚类链接数对中介中心度和接近中心度的影响大,一定程度上反映了结构对不同算法有影响。 因此在论文评价中,选择测度角度与评价目的一致性高的评价方法,更有利于对论文进行科学合理地评价。如了解论文的影响广度,选择Global被引频次更为合适;了解论文影响深度,选择Local被引频次更合适。如果对论文进行多角度评价,评价结果一致性高的方法中可以选择其一,对于评价结果差异大的方法可以多选。不同的评价方法可从不同角度测度论文的影响力,运用不同方法进行论文评价时,要注意不同方法的适用性。接近中心度有利于测度发表时间较早的论文,中介中心度有利于测度出度多、发表时间处于中间段的Review论文。 本文选取的窄主题“雌性生殖力维持”属于发展成熟的基础学科,在新兴的应用学科中不同方法间的排序结果如何,值得探索。时间窗口上,本研究选取了2006-2015年,存在选取的时间窗口更大会更有利于进行不同方法的对比研究的可能性。此外,本文的结果尚未得到专家的验证,在今后的研究中可以结合定量和定性评价,保证结果的准确性。3.3 论文属性对不同方法结果的影响
4 结论与讨论