基于引文网络和个人影响因子的作者影响力评价研究
2021-11-02李秀霞
李 奇 李秀霞
(曲阜师范大学传媒学院,山东日照 276826)
1 引言
近年来,越来越多的学者研究作者影响力评价指标,相应的研究成果也在持续更新[1]。从前期研究成果来看,人们使用发文量、被引次数等指标从单一维度评价作者学术影响力,但是单一指标不能综合反映作者的学术影响力[2]。随后,有人提出综合性评价指标,典型代表有H指数[3]及类H指数[4]、根据引文链接关系构建的PageRank[5]系列指标、在网络背景下产生的Altmetrics[6]指标等。但是综合性评价指标较少兼顾作者科研合作关系和引用关系[7],难以全面评估作者的影响力。一个改进思路就是以引文网络的思维与视角评价作者学术影响力[8]。随着社会网络分析方法的不断发展,该方法凭借独特优势而被广泛用于作者评价研究。首先作者通过合作发文、互相引用而形成合作网络和引文网络[9],作者在引文网络的相对位置,可以反映出其在研究领域中的价值[10];其次网络顶点度值的预测也具有重要的现实意义,在引文网络中,它代表了某项研究在未来被关注的程度,可以描述发展趋势[11]。目前作者影响力评价研究中常见的网络可以分为两类:一类是单层学术网络,主要是作者合作网络,这类网络借助计量指标和PageRank[12]算法评估个体间关系及个体在网络中所处的位置特征,能够更加客观地评价文献质量,但是忽略了作者本身的属性特征以及作者在其他维度的学术影响力。所以在此基础之上有部分学者研究多层网络[13],这类网络结合作者合著网络、作者引用网络及文献引用网络等进行评价,能有效弥补单层学术网络的不足。
虽然作者学术影响力评价指标不断进步,但依然存在一些问题。首先,作者学术影响力不仅体现在传统的文献计量评价指标上,还体现在作者的学术合作和交流之中,仅借助传统文献计量指标容易导致作者学术影响力的评价结果偏差[14];其次,基于单个学术网络的评价方法较为单一片面,目前大多数研究往往忽略网络中节点之间的关系强度以及不同主体贡献度[15],因此不能体现出作者的学术影响力;而且较少借助引文网络预测作者的未来影响力[16]。针对这些不足,本文基于引文指标修正个人影响因子(Corrected personal impactfactor即CPIF),结合引文网络对作者学术影响力进行全面综合测度,即根据作者对其所著文献的贡献度,综合测度出作者的自身影响力,在此基础上结合被引频次、施引文献所在期刊的影响因子、文献间引用关系和主题相似度,综合测度出文献的重要性,两者结合产生一个新的评价指标—个人结构影响因子(Personal structure impact factor即PSIF),以期全面、客观地评价作者的学术影响力。
2 PSIF设计
2.1 作者自身影响力——CPIF指标
S.Fortunato[17]根据期刊影响因子的思想提出了作者影响因子指标(Authori mpact factor,即AIF)。该指标通过计算被引次数和发文量来测度作者的学术影响力,其由于计算简单而被广泛使用。但是该指标存在未考虑作者贡献度、假设所有引文质量均等以及未计算零被引论文的不足。所以,本文结合作者贡献度和施引期刊质量,从质量和数量两个维度改进AIF,得到CPIF,其计算公式为:
①
2.2 作者网络影响力——SP指标
为计算文献的重要性,本文基于API指标[18],构建以作者为节点,作者之间的引文关系为边的作者引文网络G=(V,E),其中V为作者集合,E⊆V×E为关系集合。具体而言,作者i到作者j的有向边表示i引用了j的论文,权重wij表示作者i引用作者j论文的次数。在文献引文网络中,引用关系为有向的,一般没有文献相互引用和自引情况,因此不存在文献节点间相互引用或自引的关系。
根据Fernando P.Santos[19]的研究,在网络中个体之间的相互作用可认定为一种权力关系,并用网络指标结构权力(Structure Power简写为SP)来衡量一个人(A)在另一个人(B)相互作用组中的流行程度。具体来说,在多人博弈游戏中,由一个人(提议者)向剩余的响应者提出倡议,响应者必须单独拒绝或接受,结构权力可以评价提议者在响应者所在网络中的流行程度。在单个网络中,每个人可以同时作为提议者和响应者。因此,根据已有研究[17],本文用借用受欢迎程度(pop)和主动性(act)代表作者在引文网络中引用和被引用的行为,文献主题的相似性(sim)影响着作者间的相互引用,结合以上三种参数得到SP,以此来计算每个作者对其他作者的吸引力大小。Pop数值与作者的被引次数有关,act数值对应于引用文献的次数,sim数值可以通过作者—引文网络中的相对位置来量化。因此,基于作者引文网络,提出了一个名为结构权力(Structure Power简写为SP)的指标来计算每个作者对其他作者的吸引力大小[20]。任何两位作者之间的吸引力都与pop、act、sim三个因素有关。
1)作者的受欢迎度(popk)和主动性(actk)是评价作者SP的关键因素。pop的计算公式定义为:
②
③
其中Bk和Ai分别为k所指向的节点和指向i的节点。wki为作者k引用作者i的次数,∑l∈Biwli为作者i被他人引用的总次数。由于上述两个公式交替运行,popk和actk逐渐收敛到固定值。
2)影响作者之间SP的重要因素还有相似度(simij),本文采用了Jaccard相似系数的方法计算作者间相似度。这种方法的最终值在0和1之间,最终值越接近1,这两位作者的相似性越高。Jaccard相似度系数的计算只需要网络中两个作者之间的共同邻居,所以最短路径大于2的两个作者之间的相似度为0。
3)SP是衡量作者吸引他人引用和引用文献能力的指标。每个作者对网络中其他所有作者都有吸引力,而作者i对作者j的吸引力与作者j对作者i的吸引力是完全不同的,分别用spij和spji表示。作者i对作者j的吸引力公式定义为:
SPij=popi*actj*simij
④
2.3 引文网络中作者结构影响力——PSIF指标
在得到文献重要性的基础上,根据文献的被引质量和作者贡献度对引文网络进行赋值,并结合引文网络节点和边的权值对作者的学术影响力进行综合测度,最终得到PSIF指标,其计算公式为:
PSIFi=∑j∈Si(SPij*CPIFj)
⑤
其中j作者属于si,si是除作者i外,作者引文网络中所有剩余作者的集合。spij是作者i对作者j的吸引力,CPIFj是作者j的个人影响力,二者可以计算出作者的学术影响力大小。
PSIF从引文网络的角度出发,探究作者及其发表文献间的相互作用。其具有以下特点:1)继承了AIF的优点,即排除时间因素的干扰,评价特定时间窗口下作者的影响力,使评价结果更具公平性;2)PSIF根据作者合著论文的位次分配权重计算作者的贡献度,可避免所有作者均分论文荣誉;3)PSIF通过计算引文网络中单个作者的pop、act、sim反映作者在引文网络中的吸引力以及文献的重要性。总的来说,PSIF考虑了传统引文指标与文献间的引用关系,相比已有的评价指标能更加全面地评价作者的学术影响力。
3 实证研究
3.1 数据来源及处理
根据中国社会科学引文索引(CSSCI 2019-2020)来源期刊及分区名单,选择图书情报学领域10种核心期刊,在中国知网数据库(CNKI)中构造检索式(JN=中国图书馆学报+图书情报工作+大学图书馆学报+图书情报知识+图书与情报+国家图书馆学刊+图书馆建设+图书馆论坛+图书馆学研究+图书馆杂志)检索。将确定的文献样本导出进行作者分析,选择发文量和被引量前1%的高影响力作者,取两者的并集,共得到42位作者。在中国知网(CNKI)引文数据库中检索42名作者2013-2017年的发文情况及这些文献在2018年的被引情况。文献数据记录包括每个作者的所有发文(包含作者的署名次序和零被引论文)数量、总被引频次及其对应的期刊质量等,数据采集时间为2019年12月6日。本文选择2013-2017五年时间窗口的原因是考虑到作者撰写、发表论文及积累一定量的被引是一个较长时间的过程,而且五年是图书馆学期刊的最佳引证时间窗[21]。从以往研究来看,学界并没有明确定义零被引的时间窗口[22],所以为保证公平性,本文并未定义零被引论文的时间年限。
在此基础上利用R语言、python自编程序提取作者的多项数据:
1)提取单篇论文的作者总数和作者署名位次,并对每篇论文编号。
2)提取作者的被引频次及其对应的期刊,共获得“被引期刊-年”条目11041条。在维普期刊网中爬取施引期刊2014年-2018年的两年影响因子,删除查不到或者为空的条目,清洗后得到8749条“期刊-年”数据。最后利用公式①计算42名作者的CPIF数值。
3)提取引证文章中含“作者”列姓名的文章,重新构建DataFrame,即得到42位作者相互引证的文献数据,实际得到41位作者数据;将数据转化为“引证作者(行)——引证原文作者(列)”累计引证次数矩阵。
4)计算pop和act:首先均初始化为41个1/41值的向量,公式②和③可转化为引证次数矩阵,分别为“作者列/行合计”和“作者行/列合计”,得到两个41的向量,分别与pop和act向量对应位置求和,更新作者的pop和act,设置迭代次数100,得到作者pop和act收敛。
5)计算相似性矩阵:根据预处理后的DataFrame,提取存在引证关系的作者,计算两位作者的相似度,并以41*41的矩阵形式存储。
6)计算作者SP矩阵:pop向量reshape为41*1向量与act向量相乘,得到41*41矩阵,该矩阵与相似性矩阵的对应位置相乘,得到SP矩阵。
7)计算PSIF。作者SP矩阵与CPIF相乘,得到PSIF即引文网络—作者影响力。在过滤掉SP值等于0的作者(未被他人引用的作者)之后,得到39位作者文献数据记录包括CPIF值、PSIF值、H指数、发文数量、被引次数、被引质量、特征向量中心度。利用R语言和Excel软件计算、汇总39位作者的各种参数值,见表1。
表1 39名作者的相关参数(以PSIF数值降序排列)
3.2 结果分析
3.2.1 PSIF的有效性分析
本文制作39名作者的引文分布图,如图1。图中横轴(对数轴)为被引次数,纵轴(对数轴)为发文数。
图1 39名作者的引文分布图
根据PSIF的散点图可知,散点在对数数轴中均呈线性特征,且集中于下部,引文分布呈明显的规律性。这表明以论文、作者为节点的引文网络中,引文的分布受优先连接机制左右,少数论文获得大量引文,而大量论文只获得少数引文。这与实际的文献引文情况一致,一定程度上说明了PSIF的有效性。而且结果表明,PSIF敏感性较高,其排序结果因作者所发表文献数量、质量以及其网络影响力的不同而有所不同。例如4号作者所著的文献数量并不是最多的,但是其文献的质量和网络影响力都比较高,因此在文献影响力排名上超过了发表文献更高多的5号作者。
3.2.2 PSIF与其他评价指标排序结果对比分析
(1)PSIF能够真实反映作者的学术影响力。将39位作者在2018年的PSIF数值分为三类:前10%是高影响力作者,后70%为低影响力作者,剩下的20%是中等影响力作者,结果见图2。其中横坐标均为作者序号,纵坐标均为具体数值。
图2 高中低影响力作者数据分布情况
由图2可知,排名前10%的作者中1号作者和4号作者的被引次数、被引质量、发文数量、H指数、CPIF指数排名均位于前10%。2号和3号作者被引次数、被引质量、发文数量、H指数、CPIF指数排名均位于前20%当中。PSIF排名前20%的作者当中仅有一名作者的H指数排名超出20%。PSIF排名后70%的作者中有4名作者的CPIF排名位于前20%,有2名作者H指数、发文数量、被引次数和被引质量排名位于前20%。整体上看,PSIF的排名结果与其他评价指标排序结果具有一致性,具体来看,各个指标排名结果均有一定差异。例如1号作者CPIF排名第1位,PSIF排名第1位,H指数排名第13位。进一步了解可知该作者被引次数排名第3位,被引质量排名第1位,发文数量排名第18位,其CPIF值和特征向量中心度均较高。由此可知,排名靠前的作者具有非常高的发文质量与发文数量,权威作者则在各个指标评判下都能保持较高水平,这与实际情况保持一致。同时作者所著文献的被引次数及其刊载期刊的权威度、文献在网络中的位置均影响着作者学术水平,这说明作者的文献数量固然重要,但其学术价值更为重要,作者近期发表越多高质量的文献,越能有效提升作者的影响力。如23号作者,其H指数为21,排名第4位,但是其CPIF数值和SP值较低,主要原因在于该作者被引次数和被引质量分别排名第13位和第23位,同时在引文网络中主动性低,较少引用他人文献。结果表明,非高被引、非高H指数论文也会有高学术影响力,PSIF的排名结果可以准确反映作者的学术影响力。
(2)PSIF能够预测作者未来影响力。将CPIF、H指数与PSIF进行拟合,比较其系数,系数越接近1其影响力就越高,越能证明指标在预测作者未来影响力的作用。结果显示,CPIF、H指数和PSIF的R2分别为0.0328、0.2901、0.552。根据结果可知,PSIF具有预测能力且预测能力高于传统计量指标。为进一步验证PSIF的预测能力,分别计算39名作者的特征向量中心度。根据表3分析结果可知,PSIF与特征向量中心度存在高度相关性(相关系数为0.908)。这说明PSIF能够测度文献的重要性,通过追踪每篇论文在引文网络中入度[23]数值的变化,可检测和预见新兴的主导论文和潜在的重要论文[24]。而且根据研究表明,未来发表的文献质量越高,学者的学术影响力越高[25]。本文计算不同年份被引频次与PSIF、H指数、CPIF的相关性,如表2所示。在三种方法中,每个时间间隔的PSIF值都是最高的,这说明PSIF在预测作者未来影响力方面具有可行性。
表2 未来#年各指标与被引次数的Pearson相关系数比较
(3)PSIF有利于评价青年作者的学术影响力。表1中前8名作者平均年龄为59岁,而2号作者37岁,相较于其他作者属于青年作者行列。该作者的H指数值最低(仅为15),但是其2018年的被引质量超过62%的作者(为503.92),所以其CPIF位次靠前;其特征向量中心度居于第二位,在引文网络中SP数值较高。与H指数相比,PSIF仅计算选定时间窗内作者的学术影响力,可较为公平地解决“吃老本”的问题,有效评价青年作者的学术影响力。
3.2.3 PSIF与其他评价指标相关性分析
本文采用Spearman相关系数分析方法计算PSIF与传统计量指标的相关性,见表3。
表3 PSIF与传统计量指标相关性分析
PSIF与H指数的相关性达到0.608,相关性在0.01上显著,说明PSIF的排序结果与H指数的排序结果具有一致性。而且H指数是评估作者学术成就的通用指标,这说明基于引文网络的PSIF具有客观性及合理性。PSIF与被引频次、被引质量和发文数量的相关系数分别为0.599,0.670,0.367,且双侧检验水平均为显著相关,表明PSIF与发文数量存在相关性,但是相关性不高,而与被引次数和被引质量的相关性更高。究其原因,PSIF是基于引文网络和作者合著网络的评价指标,在计算时更加重视实际被引频次,尤其是被引质量,而对论文数量的敏感度较低。说明PSIF更注重文献质量,可以激励作者发表高质量论文。PSIF值排名与特征向量中心度高度相关,相关系数为0.908。这表明PSIF对特征向量中心性指标具有一定替代作用,能够准确反映出作者的文献质量,展现作者在引文网络中的影响力。
以上相关性分析可以证明,PSIF将多指标融合,从文献计量角度考虑作者的发文量与被引量等外部数据,同时从社会网络角度考虑了作者的科研合作,最重要的是还从引文网络层面考虑了文献的学术价值,多角度地评价作者学术影响力,评价结果优于原有单一指标。
4 结语
本文在引文网络的基础上,通过pop、act和sim计算文献的重要性;借助传统计量指标CPIF,从计量角度考虑作者自身影响力,将两者结合提出基于引文网络的作者学术影响力评价指标PSIF。并分别评价39名作者的文献影响力以及学术影响力,通过与其他评价指标进行对比性分析和相关性分析,验证了该指标的有效性及合理性。最后,实证结果表明,相较于由单一节点、单一关系构成的评价指标,PSIF的优势在于:1)新指标考虑了传统引文指标与文献间的引用关系,能更加全面地描述作者科研成果的影响力以及自身影响力;2)新指标计算特定时间窗口内的作者影响力,更有利于评价青年作者的学术影响力;3)新指标具有预测能力,能够发现和挖掘潜在的高影响力作者。但是本研究还存在以下局限:未考虑不同的引用类型,忽视不符合规范的引用情况;未充分考虑学术网络的其他特征。因此,后续研究将从多个数据源中获取引文信息,鉴别不同引用类型并提取学术网络的其他特征,以保证研究的科学性和准确性。