作者个人影响因子的修正研究

2021-07-10李秀霞

图书馆研究 2021年3期

李奇，李秀霞

（曲阜师范大学传媒学院，山东日照 276826）

1 引言

作者学术评价指标是衡量作者成果产出和科研绩效的重要标度［1］，随着理论研究的深入和技术手段的进步，作者评价指标理论体系不断被丰富。目前应用比较广泛的是H指数［2］，但H指数存在不足［3］，如数值只增不减，而且其增长通常是由先前发文的被引次数决定，未考虑作者近几年发文的影响力，不利于评价青年作者的影响力。因此，Pan和Fortunato［4］于2014年实证个人影响因子（Author Impact Factor即AIF）。

AIF是受著名的期刊排名指标“影响因子”启发的作者排名指标［5］，能够发现研究人员在当前时间窗口内的影响力。该指标自提出便得到人们的广泛关注，不少学者利用AIF开展了实证研究。如F.Zhang等利用AIF挖掘作者研究产出的趋势［6］；A.Stuart等研究不同领域内作者的AIF［7-8］；T.Dehdarirad等指出AIF是衡量作者专业成就的一个指标，是IF的延伸［9］；A.Gasparyan等分析了AIF的优势和弊端［10］；T.Amjad等研究自引对AIF的影响［11］。以上研究说明，AIF具有其独特的优势，也存在一定的不足，例如AIF计算5年时间窗内的发文和被引，但是对于发展缓慢的作者而言，5年的时间窗可能会很窄［10］；而且AIF采用相同的时间间隔评价学术影响力，不利于青年作者的学术评价［12］；平等对待所有引用并赋予相同的值是AIF存在的第三个问题。所以有人从发文时间、引文区分等角度对AIF进行了一定的改进。如M.Schreiber等综合AIF和H指数提出考虑作者近期文献的指标h t(y)［13］；J.Zhang等在AIF基础上整合结构洞和信息熵理论，得到计算作者网络影响力的AIRANK指标［14］；T.Chien等结合合著者权重对AIF进行了修正［15］；X.Kong等提出一种基于超图理论的技能排序模型［16］；M.WANG等提出区分引文不平等强度和贡献度的学术影响力测度指标［12］；W C.Kan等基于社会网络分析方法，从作者姓名消岐的角度对AIF进行了改进［17］。相较而言，国内对AIF的研究较少，高志等在对比分析T、S、hg、A、g、AIF等指标的区分度时，引进了AIF［18］；同年，刘萍等对AIF指标进行了改进研究［19］。

分析AIF及其改进指标，发现已有研究未考虑单篇论文作者数量及其署名顺序，认为所有作者在论文创作中的贡献同等；其次，已有研究忽略了零被引论文，因此，AIF及其改进指标并不能准确度量作者的整体影响力。本文在AIF的基础上，进一步对其修正，提出结合发文数量、被引次数、期刊影响因子（JCR IF）、合著者权重、零被引论文的作者影响力评价新指标——修正个人影响因子（corrected personal impactfac即CPIF），以全面、客观、公平地评价作者的学术影响力。

2 个人影响因子（AIF）介绍及其改进

2.1 A IF指标介绍

科学产出最简单和最常见的衡量标准是对出版物数量的简单计数，基于这种思想，Pan和Fortunato在前影响因子的基础上提出计算作者影响力的个人影响因子（AIF），其计算公式为（1）：

2.2 AIF修正指标设计

（1）融入期刊影响因子和作者论文贡献度的个人影响因子。AIF的问题在于没有考虑合著作者贡献度和过度依赖被引次数，所以本文在AIF基础上用期刊影响因子（JCR IF）对被引频次赋权，结合合著者权重得到作者影响力评价新指标PIF，其计算公式如下：

在公式（2）中，wi代表在合著作者为n的一篇论文中第i名作者的贡献度，即

该计算方法认为第一作者的贡献度最高，第二作者的贡献度次之，二作以上的贡献度随名次的增加而降低，这种计算方法符合国内对合著作者贡献度分配的普遍认知；IF(sum)代表某论文赋权后的被引质量，即期刊不同年份（x）的影响因子不同，用IF（x）表示x年份刊载被引论文的期刊的影响因子，j为论文顺序编号，n为作者发表论文数量。单篇论文发表后的被引次数与被引期刊存在一一对应的关系，考虑不同年份的被引频次及其对应的被引期刊影响因子，计算论文发表后的被引质量IF(sum)。

PIF在一定程度上弥补了H指数和AIF的缺陷：首先，PIF根据作者合著论文的位次分配权重计算作者的贡献度，可避免所有作者均分论文荣誉；其次，PIF根据JCR IF对被引频次赋权反映被引质量，取消了对被引频次的依赖；同时，根据研究需要，在实际应用中还可自行确定文献的发文年和被引年，通过限定时间窗口解决了H指数对青年作者评价不利的问题，使评价结果公平、合理。

（2）CPIF指标构建。AIF未计算零被引论文，而作者的引文中存在非零被引论文和零被引论文，所以为全面衡量作者的学术水平，本文基于PIF提出CPIF，其定义为作者的PIF乘上非零被引论文与发表论文的数量之比。非零被引论文和零被引论文构成作者的全部发文即

然后结合公式（2）修正PIF得到CPIF，即：

其中，cp i指过去i年作者被引论文的总数，n i指过去i年作者发表论文的总数，upi指过去i年作者零被引论文的总数。可见，CPIF并不是固定值，零被引论文数量越多，作者的CPIF数值就越低，一旦零被引论文变成非零被引论文，CPIF数值就会动态改变。因此，CPIF不需要限定零被引论文的年限，如果一篇零被引论文在近期发表还未得到引用，但只要该论文是有价值的，那么迟早会得到引用，该论文的CPIF数值就会相应改变。

基于其设计原理，CPIF有以下几个特征：CPIF是对PIF的进一步改进，所以CPIF既考虑到作者的被引质量，又考虑到作者的贡献度，同时还计算了作者的发文数量、零被引论文数量；CPIF将零被引论文纳入计算范围内，研究人员的零被引论文数量越多，其被引论文的比例越小，即CPIF≤PIF；通常来讲，评价指标包含信息的多少很大程度上与计算难度成正比，无论是学术迹［20］还是集成影响因子［21］都是通过划分被引论文分布层次来计算作者的总体学术水平，计算难度较高，但CPIF仅需要计算作者论文发文和被引的数量，计算相对简单。

3 CPIF指标的应用研究

3.1 数据来源与处理

为说明CPIF在综合评价作者学术影响力方面的优越性，本文以图书情报学领域2013—2018年同时具有高影响力和高发文量的40名作者为实证研究对象，在中国知网（CNKI）引文数据库中检索40名作者2013—2017年的发文情况及这些发文在2018年的被引情况。文献数据记录包括每个作者的所有发文（包含作者的署名次序和零被引论文）数量、总被引频次及其对应的期刊质量等，数据采集时间为2019年12月6日。考虑到学者撰写、发表论文及积累一定量的被引是一个较长时间的过程，而且5年是图书馆学期刊的最佳引证时间窗［22］，本文选择2013—2017年5年时间窗口。从以往研究来看，学界并没有明确定义零被引的时间窗口［23］，为保证公平性，本文并未定义零被引论文的时间年限。

在此基础上利用R语言自编程序提取作者的多项数据：（1）提取单篇论文的作者总数和作者署名位次，并对每篇论文编号；（2）提取作者的被引频次及其对应的期刊，删除英文期刊，共获得“被引期刊-年”条目共11 041条。在维普期刊网中导出施引源期刊2014—2018年的影响因子，删除查不到或者为空的条目，清洗后得到8 749条“期刊-年”数据。最后分别利用公式（1）、公式（3）计算40名作者的AIF、CPIF数值。为验证CPIF的评估有效性，本文选取H指数、AIF指数与CPIF进行对比。40名作者文献数据记录包括AIF值、CPIF值、H指数、被引质量、第一作者（以下简称“一作”）数量、第二作者（以下简称“二作”）数量及二作以上数量。利用R语言和Excel软件计算、汇总40位作者的各种参数值，为进一步比较AIF、H指数和CPIF的异同，本文统计了40名作者的排名位次情况，见表1。

表1 40名作者详细数据记录（以CPIF的大小降序排列，仅取部分数据）

3.2 结果分析

3.2.1 CPIF指标数值的分布特征分析

根据指标的偏度和峰度，分析指标数值的分布情况，见表2。

表2 各指标描述性统计

由表2发现，AIF的偏度值为1.143，峰度值为2.318，偏度Z-score=1.143/0.374=3.05>3；CPIF的偏度值为1.632，峰度值为3.582，偏度Z-score=1.632/0.374=4.36>3。可以看出AIF和CPIF呈现轻度正偏态分布，说明40名作者整体具有较高的学术影响力，这一结果也符合现实情况，而且引文分布指标往往不服从正态分布［24］，所以AIF、CPIF也符合人们对评价指标的认知。

3.2.2 CPIF指标的区分度分析

由表1可知，CPIF的分布范围最广，最大值、最小值之间的差值最大；H指标分布范围较窄，最大值、最小值之间的差值较小；AIF指标的分布范围最窄，最大值、最小值之间差值最小，由此反映出AIF和H指数区分度过小，存在因数值相同而无法区分的不足。而且CPIF的标准差和方差均高于H指数和AIF指数，与H指数、AIF指数相比，CPIF值离散程度较高，区分度更高，能有效评价作者影响力。可见，利用CPIF指标进行作者评价可以激励科研人员发表高品质论文，有利于形成良好的学术生态环境。

3.2.3 CPIF指标的灵敏度分析

分析40位作者的评价结果，发现有9组共31位作者的H指数相同，占样本人数的77.5%，而CPIF和AIF未出现多位作者评价结果相同的情况。其中6号和15号两位作者的H指数数值相同，2013—2017年的发文量都很高（分别为113和81篇），15号作者的CPIF数值却低于6号作者的CPIF数值。这是由于6号作者的论文署名位次多为第一作者和第二作者，作者贡献度高于15号作者的贡献度，而15号作者的被引频次低于6号作者，其零被引论文数量高于6号作者，故导致15号作者的CPIF值低于6号作者的数值。可以看出，每增加一篇发文或一次被引都能够使作者的CPIF排名发生明显改变，所以，相较于H指数,CPIF灵敏度更高，能够对作者进行更为精细的评价。

3.2.4 CPIF指标评价结果分析

将40名作者按照AIF、CPIF和H指数数值大小排名，AIF和CPIF减去H指数的排名变化分别记为Δ1、Δ2，CPIF减去AIF的排名变化记作Δ3，计算结果如表1。Δ1、Δ2为正代表AIF和CPIF较H指数的排名靠后，Δ1、Δ2为负代表AIF和CPIF较H指数的排名靠前；Δ3为正代表CPIF较AIF的排名靠后，Δ3为负代表CPIF较CPIF的排名靠前。由表1可以看出，相较于H指数的位次，40名作者的AIF位次均发生了变化，其中名次变动5名以内的有9名作者，占总数的22.5%；名次变动10名以上的有23名作者，占总数的57.5%。相较于H指数的位次，有35名作者的CPIF位次发生变化，其中名次变动5名以内的有21名作者，占总数的52.5%；名次变动10名以上的有11名作者，占总数的27.5%。整体上看来，CPIF的波动幅度小，名次变化稳定。为进一步探讨新指标名次变化的稳定性和波动性，选取有代表性的作者进行分析，结果如图1所示。

图1 40名作者AIF、CPIF、H指数排名变化曲线图

77.5 %作者的H指数相同，排名呈阶梯状上升，AIF和CPIF的名次围绕H指数排名上下波动，且波动情况大致相同，原因在于CPIF是在AIF的基础上进行改进的评价指标，是对AIF排名的小幅调整。在3种指标中，前两名作者的H指标和CPIF排名均保持不变，说明对于影响力较高的作者来说，H指数和CPIF在描述作者影响力大小上总体趋势一致，都具有较好的筛选功能，而AIF在描述作者影响力时与实际情况存在一定出入，难以准确表现作者的个人影响力。

在CPIF排名中较H指数排名上升最大的是3号作者，上升了16位。3号作者的H指数为15，排名第19位，排名较低的原因在于该作者发文量较少，难以从发文数量角度提高H指数数值。当以CPIF计算该作者影响力时，其排名上升至第3位，这是因为该作者的发文多为第一作者而且被引质量高；零被引论文仅有5篇，零被引率排名第14。这说明如果某作者被引质量高，作者贡献度高，零被引论文数量较少，那么该作者的CPIF就会获得较好的排名。可见CPIF在同时考虑论文质量和数量的基础上，更注重论文质量在学术评价中的作用，由此CPIF比H指数更能准确、客观地评价科研人员的学术水平。而且3号作者2018年的被引频次为312次，在40名作者中排名第9位，说明CPIF继承了H指数以高被引论文为依据进行作者评价的特点，突出被引频次在评价结果中的贡献量。上述表明，CPIF受被引质量、零被引论文数量、作者合作数量以及作者署名位次等因素的影响，评价结果更加精细。

CPIF排名较H指数排名下降最大的是28号作者，降低了17位。28号作者的H指数为18，在40名作者中并列第6，但是CPIF排名下降至第28名，这是因为该作者发文中第一作者数量较少（仅有13次），且多为第三第四顺位，因而其贡献度高的论文数量少；二者被引质量低于10的论文占总被引论文的94%，其被引质量相较于其他作者较低。从零被引论文数量看，该作者在2018年的零被引数量为16篇，零被引排序为13名，该作者低水平的论文较多。结果表明，作者贡献度和论文质量越高，排序序号越小（即学术影响力越大），这符合科学评价科研人员学术水平的原则。而且CPIF计算作者贡献度和论文质量，可区分出独立完成高质量成果的科研工作者。

在CPIF排名中较AIF排名下降最大的是作者34号，主要原因在于该作者发文数和被引次数低；CPIF排名较AIF排名上升最大的是2号作者，原因在于该作者文献的零被引论文数量少而且发文数量和被引次数多（分别为197和192），因而该作者的CPIF降幅小于其他作者。可见CPIF兼顾高被引论文和零被引论文对作者学术水平的影响，在一定程度上弥补了AIF未计算零被引论文的不足。

3.2.5 CPIF指标与其他计量指标的相关性分析

利用Spearman秩相关性检验方法分析CPIF与其他计量指标的相关性［25］，结果如表3。

表3 不同指标之间的相关系数

结果显示，40名作者的CPIF与H指数呈显著正相关。这是由于CPIF和H指数都以被引论文数量为基础评估数据，其评价基础一致。分析其设计原理，H指数仅计算作者的部分高被引论文数量及其被引频次，而CPIF涉及的作者信息较多，CPIF在AIF的基础上将作者发表的论文数量与文献分布特征考虑在内。AIF与H指数的相关性较低，原因在于AIF考虑作者全部发文数量和非零被引论文，H指数仅考虑H核心内的发文数量和非零被引论文，二者存在小部分重合区间；而且二者计算方式不同，即从不同角度衡量作者学术影响力。

由结果可知，AIF与CPIF在0.05的水平下相关，为进一步探讨AIF与CPIF的关系，本文采用多元回归方法分析二者关系。传统文献计量指标中，AIF总体上侧重论文数量，CPIF侧重论文的引文分布和贡献度，从这两个角度分析可以防止多重共线性，也可以分析CPIF的特点，结果如下：

从回归结果看，AIF与CPIF正相关，回归系数为9.318。回归的拟合优度R2=0.673,拟合度较好，这说明两者存在着显著的相关关系。AIF与CPIF相关的原因在于AIF和CPIF均计算论文的数量与质量，二者计算原理一致。但是同样也可以看出AIF并不能完全解释CPIF，两者之间的差异表明CPIF考虑到了引文分布、被引质量和贡献度对评价学者学术水平的影响。AIF单方面考虑发文量，实践证明，发文量对AIF的反向影响大于正向影响，即增加发文量会降低影响因子，而CPIF考虑多种因素，所以CPIF更具有全面性。

CPIF、H指数都与第一作者论文数量在0.01水平下显著相关（相关系数分别为0.668、0.580），而与第二作者的论文数相关性较低，与二作以上的论文数不存在相关性。可见，第一、第二作者的论文数量越多，其作者的贡献度越高，累积效应下作者的CPIF、H指数都会较高。CPIF、H指数都与被引质量在0.01水平下显著相关（相关系数分别为0.792、0.889），表明在作者学术影响力评价中作者的贡献度和论文被引质量的作用不可忽视，且新指标尤其突出了第一作者和第二作者的贡献度。

4 结语

本文介绍了一种评价作者学术影响力的指标AIF，并结合论文的引文分布、被引质量和贡献度，对AIF进行修正，提出一种作者影响力评价的新指标：CPIF。具体来说，AIF是某一作者在某一时间段内发表的所有论文被引用次数的平均值，其优势在于通过评价作者特定时间内的影响力来激励作者发表高质量论文而且数据易获取、计算简单。但是该指标存在未考虑合著作者贡献度及假设所有引文平等的不足，所以本文在此基础上进行改进得到CPIF。CPIF指标的优势在于：（1）CPIF充分继承了AIF的优点，即排除了时间因素的干扰，能够评价特定时间窗口下作者的影响力，使评价结果更具公平性；（2）CPIF指标充分考虑了作者的发文数量、被引论文的整体分布及发文质量，一定程度上弥补了AIF未计算作者论文零被引的不足；（3）基于作者贡献度和被引质量，CPIF指标便于灵活选择时间窗口，有利于评价青年作者的学术影响力。

为验证CPIF的评估有效性，本文以图书情报学领域2013—2018年发文量和被引量同时最多的40名作者为研究对象，从H指数、AIF、CPIF的区分度、灵敏度、作者排名以及与各指标的相关性等角度进行对比分析，发现CPIF对作者的评价更加全面、细致和客观：（1）CPIF的区分度较高，数值分布范围更广，避免了作者评价结果相同而无法区分的问题；（2）CPIF的灵敏度更高，能细致辨析作者影响力的变化情况；（3）CPIF的稳定性更高，相较于AIF，CPIF的波动幅度更小，名次变化更稳定；（4）H指数、CPIF和AIF两两之间存在一定的相关性，且3个指标均与作者署名和被引质量存在显著相关，表明单篇论文的作者数量、署名顺序及被引质量都是影响作者评价的重要因素。

另外需要说明的是，CPIF仍是一种定量指标，应结合定性指标（如专家评议）全面、合理地评价作者的影响力；而且本文仅以图书情报学领域的40位作者为例进行实证研究，研究结论存在一定的局限性，后续将进一步增加样本量和扩大研究领域，以提高该指标的普适性。