一种动态权重百分位数指标在学术活跃度评价中的应用*

2021-08-30舒予

情报杂志 2021年8期

舒予

(四川大学图书馆成都 610065)

0 引言

学术影响力的评价是国内外科研管理与评价领域中的一项重要工作，由于文献被引用的情况代表了被同行关注和利用的程度，因此在科研评价中通常采用被引次数作为衡量研究质量和影响力的一个重要指标[1-2]，同时这种定量计算的评价指标也是对同行评议等定性评价方法的一个重要补充[3-4]，在科研绩效评价领域占据着重要位置。

事实上，学术影响力的内涵是多样的[5]，研究的“深度”和“广度”都是研究实体学术影响力的表现，其中研究深度往往与学术质量和研究水平相关，通常用篇均被引次数来测度[6]，例如在期刊评价领域，JCR数据库的影响因子、InCites的CNCI、Scopus的FWCI等评价指标都属于篇均被引次数的范畴；而研究广度往往与学术产出和活跃程度相关，由于可以体现学术影响在“量”上的积累，因此学术活跃度应该也是学术影响力的重要范畴，但针对学术活跃度的评价指标研究较少，较为常见的指标则是论文集合的论文数量或总被引次数[7-9]。

进一步地，由于不同学科之间的引用规律存在着明显的区别，因此需要设计标准化指标消除由于学科不同造成的差异，目前针对篇均被引次数的学科标准化方法已有相当多的研究成果，较为著名的则是荷兰莱顿大学的CWTS提出的Crown Indicator[14]以及Opthof和Leydesdorff在针对Crown Indicator的不足的基础上进行改进所提出的MNCS[15]，相关指标并且也广泛应用于机构、期刊或者学者的科研评价[10-13]；针对总被引次数的学科标准化方法研究和应用的场景比较少见，较为成熟的方法则是Frame提出的活跃指数AI(Activity Index)[16]和Braun和Schubert提出的吸引指数AAI(Attractivity Index)[17]，叶鹰将上述标准化指标设计方法总结为“均值测度”方法[18]，其基本思想则是选择一个参考论文集合，以参考论文集合被引次数的期望值作为基准值，再将论文集合的被引次数与基准值取比值。叶鹰总结的第二类评价指标是以h指数为代表的“高影响特征测度”指标，与h指数有类似指标还有g指数、p指数、z指数等[19-21]，由于相关指标能够同时体现学术活跃度、学术产出、学术质量等多个方面的信息，因此又被称为综合性指标[22]，但是针对综合性指标的学科标准化研究方法不多，有Normalized h指数等[23]。除此之外，以百分位数指标(PRS)为代表的“整体综合测度指标”也是学术影响力评价的重要指标，与“均值测度”指标不同的是，百分位数指标是以排序评价对象，是论文集合被引次数关系大小的体现，不受被引次数具体数值的影响，能够较全面反映研究实体的学术影响力[24-25]。

本文以百分位数指标的计算框架为基础，提出一种用于描述学术活跃度的动态权重百分位指标，该指标可以实现隶属于不同学科研究实体的横向对比，侧重从“研究规模”“影响广度”的角度刻画研究实体的学术活跃度，能够与MNCS、百分位数等偏向描述“学术质量”的学术影响力评价指标形成良好的互补，为学术活跃度的评价提供一个新的思路和工具。

1 指标计算方法

Bornmann等认为由于参考集合论文被引次数是非正态分布，因此应当使用分布对学术影响力进行度量[24]。他们提出将论文按照被引次数分为若干百分位区间，再对进入各百分位区间的论文比例进行线性加权的标准化思路，并且设计了百分位数指标(PRS)，具体计算方法如下：

(1)

其中，p(xi)是论文集合在设定百分位区间的比例，xi是各百分位区间对应的系数，K是设定的百分位区间的个数。PRS指标本质上是一种线性加权的概率密度算子，基于高被引论文的价值高于低被引论文这一假设前提，PRS指标对高百分位区间赋予了相对更高的权重。

PRS指标虽然与篇均被引次数、MNCS指标有不同的计算框架，但是经实证研究的结果表明，三者相关性较强，说明PRS也侧重体现的是研究实体在学术质量这一维度上的信息[26]，但当在测度机构的优势学科布局、团队的核心研究方向以及学者的主要学术领域时，不仅需要了解研究实体的学术质量，更需要了解研究实体在不同学科、不同研究领域的学术活跃度，例如近五年我校农业领域的百分位数PRS(6)=2.40，而数学领域的百分位数PRS(6)=1.75，仅从百分位数指标值只能了解到农业领域的研究水平或许高于数学领域，但从发文量可以发现二者的学术规模相差甚大(农业领域发文量仅为80余篇，而数学领域发表文超过1000篇)，因此PRS指标在科研管理决策的一些场景下并不适用，需要设计能够描述学术活跃度的指标用以判断学科、学者或其它研究实体宏观层面的研究水平。基于这样的考虑，笔者引入一种描述学术活跃度的动态权重百分位指标(DPRA)，定义如下：

(2)

(3)

(4)

其中xi是从1到K的离散随机变量，ci表示待评价的论文集合在第i个百分位区间中篇均被引次数，ei表示参考论文集合在第i个百分位区间的篇均被引次数。

DPRA与PRS相比，有两方面的不同：

a.PRS指标是各百分位区间的论文比例的线性加权，即只与论文比例的分布有关，而与论文数量的分布没有任何关系，研究实体论文数量的多少并不影响PRS指标值，这显然不利于区分具有不同学术活跃度的研究实体。而DPRA指标将论文比例值调整为论文相对数量值，从而体现评价对象在不同被引区间中分布的论文数量，可以直观地发现“论文集中在高被引区间、并且论文数量较多”的评价对象显然具有较高的学术水平和学术活跃度，因此DPRA综合了研究水平和学术活跃度两个维度的信息。

b.DPRA指标是在PRS指标的计算框架基础上进行了调整和修正。原PRS指标的权重是固定不变的，例如前1%区间对应权重系数6，区间1%～5% 对应权重系数5，以此类推。权重系数体现的是对应百分位区间论文的重要性，PRS指标认为高被引区间论文的重要性高于低被引区间论文，但是却忽略了隶属于同一个百分位区间的论文，其引文也同样存在差异性，例如2015年发表在Biology学科的2篇论文，分别被引用2 063次和150次，这2篇论文均在Bidlogy学科的前1%，但是引文影响力明显不同。因此，将这类情况推广到同属于一个百分位区间的两个论文集合，尽管这两个论文集合中的论文被引次数均在同一个百分位区间，但是其学术表现(即论文实际的被引情况)也一定存在着差异，基于这样的考虑，DPRA指标引入了动态调整机制，作出这一调整的依据是：当待评价论文集合在某一百分位区间的表现高于该百分位区间的期望值(即参考论文集合在该百分位区间中的篇均被引次数)时，原有的权重应该有适当的提高，用以“激励”该区间表现出色的论文，反之权重系数应当下降，以此“惩罚”该区间表现不佳的论文。例如，某一百分位区间对应的权重系数为3，如果待评价论文集合在该百分位区间的论文平均被引次数与期望值之比为0.8，显然待评价论文集合在该百分位区间的表现低于平均水平线，于是我们可以认为论文集合在这一百分位区间的表现相对较差，进而这一部分的论文对论文集合整体的学术影响力的贡献应低于预先设置的权重系数3，于是将权重系数调整为30.8=2.41。权重的调整本质上即是利用论文集合在某一百分位区中的学术质量对学术活跃度进行调整，如果学术质量较好，则提升其学术活跃度，反之则降低其学术活跃度。事实上，文献[27]将变权方法归纳为四种：惩罚型变权、激励型变权、混合型变权和折衷型变权。DPRA采用的权重调整方法属于混合型变权，即将惩罚型变权和激励性变权加以混合，根据各百分位区间中的论文实际表现对原权重系数做出动态的调整，以体现惩罚或激励。

2 数据采集和计算方法

2.1评价对象的选择在InCites数据库中，按照Web of Science的学科分类方法，分别在Computer Science, Artificial Intelligence、Energy & Fuels、Engineering, Chemical、Mathematics, Applied和nanoscience & Nanotechnology共计5个学科中选取科研人员的论文数据。从这5个学科2015年发表论文截至2020年10月被引情况看，篇均被引次数分别为17.09、24.64、17.98、6.66、29.15，可以看到这6个学科引文规律存在明显差异，因此选取这6个学科的科研人员进行跨学科领域学术影响力评价的实证研究是合理的。

2.2数据采集从InCites数据库中获取到5个学科共计106名科研人员共计2 443篇论文数据，包括论文标题、被引次数、学科百分位等，论文类型限制为article。考虑到各学科引用周期的原因，将发表时间设定为2015年，保证各学科发表的论文都能够有充分的引文积累周期。同时，考虑到评价指标在用于微观评价时有可能会失效，故尽量选取拥有较多论文数量的学者作为数据样本。

2.3DPRS指标值的计算2015年Engineering, Chemical学科发表的文献类型为article的论文数量共计31 513篇，设定top1%、95%～99%、90%～95%、75%～90%、50%～75%和50%以下共6个百分位区间，论文被引次数的百分位数99th、95th、90th、75th和50th分别为119、58、40、22、10，于是该学科下的论文进入到各百分位区间需要满足的被引次数条件见表1。

以Engineering和Chemical学科下的一位科研人员Jiang Zhongyi(以下缩写为JZ)为例对其DPRA指标进行计算。该科研人员在2015年共计发表28篇论文，根据表1提供的百分位区间阈值，可以得到这位学者进入到6个百分位区间top1%、95%～99%、90%～95%、75%～90%、50%～75%和50%以下的论文数分别为2、4、3、7、4和8。

表1 2015年Engineering和Chemical学科论文进入到各百分位区间被引次数需满足的条件

Engineering和Chemical学科在2015年文献类型为article的论文数量为31 513篇，全球论文数量为1 591 798篇，所有待评价的126名科研人员的论文总数为2 443篇，因此Engineering和Chemical学科论文的修正值：

因此可以根据公式(3)将科研人员JZ在2015年发表论文进入到各百分位区的数量修正为标准的相对数量值，见表2。

表2 科研人员JZ在2015年发表论文进入到各百分位区修正后的相对数量

由动态权重百分位数指标DPRA的介绍可知，DPRA指标的计算需要评价对象论文集合和参考论文集合在各百分位区间的篇均被引次数的比值。科研人员JZ在Engineering和Chemical学科所有论文在各百分位区间的篇均被引次数见表3。

表3 科研人员JZ在Engineering和Chemical学科所有论文在各百分位区中的篇均被引次数

根据动态权重系数的计算公式(4)可以计算科研人员JZ的论文在各百分位区间调整后的权重系数，分别为：

于是，该科研人员的DPRA指标计算如下：

DPRAJZ=5.24·0.042+5.35·0.084+3.88·0.063+3.22·0.147+2.12·0.084+1·0.168=1.73

按照上述方法，可以得到其它科研人员的DPRA指标值。

3 结果分析

3.1DPRA指标用于测度学术活跃度的内涵由于不同学科之间的论文数量、被引次数、h指数等指标无法进行直接对比，因此要考察DPRA指标与论文数量、被引次数、h指数等指标的相关性，只能在同一学科中进行相关性分析。由于篇幅限制，仅列出Computer Science和Artificial Intelligence学科下各指标的相关性分析结果，见表4。从表4的结果可知，DPRA指标与篇均被引次数相关度不高，说明DPRA指标并不具备表征“学术质量”这一维度信息的内涵，而DPRA与h指数、被引次数、论文数量3个指标高度相关，相关性系数分别为0.94、0.851和0.836，说明DPRA与其有相类似的内涵，即可以从“广度”的角度体现学术影响力。此外，其它4个学科的相关性分析结论基本一致，均表明DPRA可以用于测度学术规模和学术活跃度的信息。

表4 DPRA与论文数量、被引次数等指标的相关性分析

3.2DPRA指标实现跨学科评价功能分析选取DPRA与AI、AAI、相对论文数量、相对被引次数4种学科标准化学术影响力评价指标的相关性，其中相对论文数量定义为学者论文数量与全球学科论文数量的比值，相对被引次数定义为学者论文被引次数与全球学科被引次数的比值，SPSS的结果见表5。

表5 DPRA与相对指标的相关性分析

由上述定义可知，相对论文数量、相对被引次数、AI、AAI指标与DPRA指标一样，都侧重从“研究广度”表征学术影响力，具有测度学术活跃度的内涵，同时，这4种指标也都属于学科标准化评价指标，能够一定程度消除学科论文数量或引文的差异性，实现跨学科对比和评价，在科研评价领域得到了广泛的应用。从表5可知，DPRA与这4个指标高度相关，相关性系数分别为0.894、0.931、0.931和0.894。这一结果说明DPRA指标的评价结果与相对论文数量、相对被引次数、AI、AAI这4个指标的评价结果在排序关系上较为一致，因此DPRA指标有和学科标准化指标相类似的性质，可以实现跨学科的学术影响力评价。

3.3DPRA指标性质的进一步分析

3.3.1 DPRA能够从整体层面展现学术活跃度正如前文所述，DPRA和论文数量、被引次数、h指数等具有相类似的内涵，可以从学术活跃度的角度测度学术影响力的“广度”，但是部分科研人员的DPRA指标值与论文数量、被引次数、h指数等指标值在排序上仍存在差异。表6列出了Mathematics、Applied学科中2位科研人员的信息。

表6 Mathematics和Applied学科中2位科研人员的信息

从表6可以看到，科研人员MA1在论文数量、被引次数、h指数三项指标上均高于MA2，从学术活跃度的角度看，似乎MA1高于MA2，但是DPRA指标值的结果却反映出MA2略高于MA1。对MA1与MA2在各百分位区间的论文分布比例进行分析(见图1)，可以发现科研人员MA1仅在1%～5%和50%以下两个百分位区间的论文比例较高，即MA1的高被引论文和低被引论文比例高于MA2，但是在余下的5%～10%、10%～25%和25%～50%这3个中等被引次数区间中，MA1的论文比例明显低于MA2，整体上看，MA1呈现出高被引论文和低被引论文较多、中等被引次数论文较低的“两头大、中间小”的论文分布特点，而科研人员MA2虽然缺少高被引论文，但是其大多数论文表现处于中等偏上的水平。MA1由于拥有少部分高被引论文便拉高了整体的被引次数(从MA1的篇均被引次数高于MA2也印证了这一点)，但其实MA1大多数论文的表现并不好，其总体的被引次数只是“虚高”。因此从全局的角度看待2位科研人员，MA2的学术水平要稍优于MA1，而DPRA指标值也将二者论文在整体分布上的细节差异揭示出来，并有效进行了区分。

图1 Mathematics和Applied学科中2位科研人员论文在各百分位区间的分布对比

3.3.2 DPRA可以有效平衡学术规模和学术水平的信息部分科研人员的PRS指标值与DPRA指标值排序结果相反。以来自Engineering, Chemical学科和Energy & Fuels学科的4位科研人员为例，具体见表7。4位科研人员在各百分位区间论文的比例分布和相对数量分布见表8。

表7 4位科研人员PRS和DPRA指标值对比

从表8可知，单从百分位区间的分布比例看，EC1和EC2各有3个区间的比例高于对方，最终的PRS指标值结果是EC1高于EC2。但是如果考察各百分位区间的相对论文数量时会发现，EC2在原本论文比例远低于ECI的几个百分位区间上，例如1%～5%、10%～25%两个百分位区间，由于EC2的论文相对数量较高，从而“迫近”、甚至“赶超”了EC1，这使得EC2的DPRA指标值反而高于EC1。

类似的情况还有和Energy & Fuels学科的两位科研人员EF1和EF2，科研人员EF1的PRS指标值高于EF2，但是EF1的DPRA指标值低于EF2。表9给出了2位科研人员在各百分位区间的论文比例和相对论文数量。

表9 2位科研人员各百分位区间的比例分布和相对论文数量分布对比

从表9可知，在论文比例的分布上，EF1在10%～50%这一区间段上的论文比例高于EF2，使得EF1的PRS值高于EF2。但是由于DPRA指标是各百分位区间相对论文数量(而非论文比例)的线性加权，所以当考察2位科研人员的相对论文数量时，情况发生了变化，EF2在各百分位区间上的论文数量均高于EF1，这使得EF2的DPRA指标值高于EF1。

从上述两个例子中可以看到，DPRA与高质量论文的分布和高质量论文的数量均有关：首先，DPRA指标从整体考察评价对象的学术影响力，各百分位区间的论文分布情况的不同会影响DPRA指标值，“论文向高被引区间集中、而不仅仅是拥有部分高被引论文”是获得高DPRA指标值的条件之一，因此DPRA可以看做是代表着不同研究质量和学术水平的论文集合的综合表征；其次，DPRA指标将“以比例的形式考察论文分布”调整为“以相对数量的形式考察论文分布”，使得DPRA不再只表征论文研究质量和学术水平这一单一维度的信息，论文数量，特别是高水平论文的数量也成为指标的影响因素，从而丰富了DPRA指标表征的内容。

3.3.3 DPRA指标在微观层面可以利用学术质量信息调整学术活跃度正如前文所述，论文数量和论文质量都是影响DPRA指标值的重要因素，而当论文数量相同时，部分科研人员PRS和DPRA指标值的排序也有所不同。例如在Nanoscience & Nanotechnology学科中，2位科研人员的PRS和DPRA指标值见表10。

表10 2位科研人员PRS和DPRA指标值对比

为深入分析两种指标排序不同的原因，图2给出了2位科研人员在各百分位区间相对论文数量的分布。

图2 2位科研人员各百分位区间的相对论文数量对比

图3 2位科研人员各百分位区间的权重系数对比

从图3可知，由于在1%～50%的4个百分位区间上，NN2的论文篇均被引次数表现均优于NN1，因此对其权重系数的奖励也高于NN1，于是在NN2论文相对数量占优势的10%～25%、25%～50%和50%以下的3个百分位区间中，NN2可以凭借较高的权重系数“扩大”论文比例的优势，在论文相对数量偏低的前1%、1%～5%和5%～10%3个百分位区间中，NN2也可以凭借较高的权重系数“弥补”在相应区间论文数量偏低的劣势，从而使得NN2的DPRA指标高于NN1。从上述分析可以看到，DPRA指标将评价对象分解为由不同百分位区间论文组成的集合，如果在某一个百分位区间相对质量较高，则提升该百分位区间的学术活跃度，反之则降低该百分位区间的学术活跃度，从而将“相对质量”与“相对数量”充分结合，更加精准地揭示学术影响力的细节，更具区分度和准确度。

4 结论

笔者从学术活跃度的角度评价研究实体的学术影响力，将PRS指标计算框架进行可扩展，提出一种基于动态权重百分位数指标，该指标根据在各百分位区间上分布的论文相对数量，合理表征研究实体在高、中、低被引区间的学术产出规模，并从整体层面将学术水平和学术活跃度有效综合起来，再将论文集合在各百分位区间上的实际表现与预期表现的比较结果，对权重系数进行动态修正，提升“相对质量”较高的学术活跃度、降低“相对质量”偏低的学术活跃度，使得研究实体的学术活跃度与其真实的学术表现精准对应。实证研究的结果表明，DPRA指标能够实现跨学科的学术活跃度评价，与其它类似的评价指标相比可以兼顾学术水平和学术产出两方面的信息，从而更精准地揭示研究实体学术影响力的细节。