从单篇论文引证视角改进学术期刊评价方法及其实证研究

2022-08-24伍军红郑新宇

中国科技期刊研究 2022年7期

伍军红肖宏孙隽郑新宇

《中国学术期刊(光盘版)》电子杂志社有限公司，北京市海淀区西小口路66号 100192

学术期刊作为科研成果发布的重要载体，对科技创新起着重要作用。目前对于学术期刊的主流综合评价实践中，仍以发文量、被引频次、影响因子等统计指标为主，但学术界对被引频次的使用科学性一直存在质疑。另外，随着自然语言技术与文本挖掘技术的广泛应用，基于引文分析探讨单篇论文评价的研究不断涌现。丁堃等[1]基于论文自身信息，以同行评议报告为代表的定性评价信息、被引频次和Altmetric指标为典型的定量评价信息为每篇论文构建画像，构建学术论文质量自动分类模型对论文进行综合评价；杨思洛等[2]在传统二维评价模型的基础上融入全文本分析，将对应的数据类、位置类和情感类全文本指标融合为学术和社会影响力指标。可见，从单篇论文引证视角对被引频次加以区分，进而改进期刊评价的方法已进入实践研究阶段。

在学术评价领域，基于引文的评价主要包括基于被引频次的评价和基于引用内容的评价。基于被引频次的学术评价有很多评价指标，例如被引频次、影响因子等，此类评价基于一个隐含的假设——所有施引文献的价值均等。实际上，引证动机是复杂的，Weinstock[3]将引用动机归纳为15种类型：描绘研究领域的现状，提供背景信息，提供资料和数据参考，对概念或方法进行描述，对比、论证或支持结论，说服他人等。此外，Thorne[4]认为施引文献对被引文献的态度也可能是敷衍的或否定的。

基于引用内容的评价是近年的研究热点，我国很多学者针对如何既能发挥引证指标的评价功能，又避免引证中不良动机带来的干扰开展了相关理论研究和小规模调查分析。赵蓉英等[5]认为引用内容分析相对引文著录分析的优势在于：引用内容分析在科学评价和揭示科学技术发展的特征方面更合理，是引文著录分析的有力补充。刘盛博等[6]从施引文献的全文入手，聚焦于引用的片段，对被引频次、引用位置和引用文本的内容主题进行了挖掘和研究。张微[7]指出被引用有负引用、正引用之分，正引用有流水引用、有效引用、深度引用和发展性引用之分。王婧[8]认为针对引文内容分析的研究可分为引文类型划分、引文分类方法和引文分类过程3个方面。综上所述，目前学术界已经认识到在评价中需对不同引文类型进行区分。其中，以引用认同和引用深度为依据区分引文类型对学术评价至关重要，但目前研究较少，尚未形成具体的评价指标[9]，也缺乏具有可操作性的大规模实证研究。

本文在认真研究各类引文分析理论和方法的基础上，从单篇论文视角开展改进期刊评价指标体系的研究，并以自然地理学中文期刊为例开展实证研究，更加明确地揭示了期刊的学科贡献及重要性。本文提出的新评价维度可更加合理地对期刊进行定量评价，而且可以有效推动期刊关注论文的学术质量及长期作用，是破除“唯SCI”“唯指标”的一种期刊评价新思路。

1 研究方法

1.1 指标体系的建立

本研究基于单篇论文引证开展期刊的影响力评价，主要从2个层面、4个维度设计评价指标。一方面考虑期刊整体论文影响力，采用期刊发表的所有论文的总被引频次、复引频次两类指标评价期刊的总学科贡献以及重要程度；另一方面，考察期刊代表性论文(本研究采用高被引论文)的影响力，设计了高被引论文L指数来反映其长效作用，并引入F1指数反映其学术传承作用。

本研究采用的引文分析实践指标主要基于被引频次和引用内容两类。对被引频次的改进及利用，主要体现在消除学科差异和利用引证行为发生的时间方面。(1)引入论文引证标准化指数 (Paper Citation Standardized Index，PCSI)代替被引频次绝对值，以克服被引频次本身存在的滞后性和学科差异，更加客观地评价期刊的总体学科影响力及贡献；(2)为了评价高被引论文的长效作用，本研究基于单篇论文的被引时间，提出文献L指数(Long Term Effect Index)。基于引用内容，本研究也提出2个评价指标：(1)基于复引频次设计对期刊引证深度的评价指标来体现期刊论文的重要性；(2)挖掘基于学术评论句体现期刊论文核心价值的评价指标——F1指数，体现学术传承性。

基于单篇论文引证视角的期刊评价指标体系见图1。

图1 基于单篇论文引证视角的期刊综合评价指标体系

1.2 基于PCSI的期刊学科贡献性评价

中国科学文献计量评价研究中心于2020年提出一种对期刊论文的被引频次进行标准化的计算方法，并发布了我国科技期刊论文的被引频次标准化指数——PCSI[10]。基于PCSI——标准化以后的被引频次，可实现被引频次的可比、可加，更好地揭示论文对学科的贡献程度。(1)可比性：PCSI在跨学科、跨年度比较时可有效消除被引频次的绝对值差异，且很好地反映具有不同被引频次的论文的差距。(2)可加性：对期刊发表论文的PCSI可求和，辅助对学术期刊整体影响力的综合判断。

PCSI不仅可以较好地消除论文在不同年份被引频次的巨大差异，实现被引频次的跨年可比，还可以更好地反映期刊质量水平的差异。以《地理学报》为例：如表1所示，2016年发表论文218篇，比2018年多13篇，总被引频次为7399次，比2018年多了690次，但由于被引频次受发表时间的影响较大，从总被引频次指标是无法判断哪一年期刊质量更高的。但2018年《地理学报》论文的篇均PCSI为8.758，明显高于2016年的5.577，2018年的总PCSI(1795.305)也明显高于2016年(1215.677)。另外，从高被引论文数量来看，2018年有61篇，比2016年的50篇多了11篇。可见，2018年《地理学报》的论文总体质量明显优于2016年，PCSI很好地消除了发表年份对被引频次的影响，可以进行跨年度比较。同时，PCSI在计算时使用的是论文发表后的累计被引频次，而不仅仅是论文在统计当年的被引频次，因此能够比影响因子更加全面地反映期刊的质量水平与影响力。

本研究以5种自然地理学类期刊为例，统计这些期刊在2012—2019年所发表论文的总PCSI以及总被引频次，结果如图2所示。图2(a)显示，《地理学报》发表论文的总 PCSI在2017年(2962.982)较2016年(1215.677)增长了144%；而图2(b)显示，《地理学报》2017年论文总被引频次低于2016年，难以反映不同年份期刊质量的变化情况。PCSI大大改善了被引的滞后性所带来的被引频次跨年度不可比的问题。

表1 《地理学报》在2012—2020年发表论文的被引频次统计

图2 5种自然地理学期刊的学科贡献性评价指标变化趋势(a)总PCSI的年度变化；(b)总被引频次的年度变化

1.3 基于复引频次的期刊重要性评价

引用深度可揭示施引文献的知识利用和吸收程度[11]。在同一篇论文中，引用者对每篇引文的引用次数是有差异的，深度引用更为稀缺。分析引用者的引用深度，会发现一些规律[12]。刘盛博等[13]研究发现多于10%的引用为正面引用，大约50%为中性引用。何荣利[14]将引用深度划分为“静态引用”和“动态引用”，动态引用是指被引文献中的知识进入了引用者的论文中或者是知识发生了转移的一种引用。何佳讯[15]提出确定施引文献与被引文献之间的相关性的2种评判标准，一是施引文献对被引文献的“提及”深度，二是施引文献的主题与被引文献的主题之间的相近程度。目前，引用深度主要靠人工判别，难以大范围推广应用。一种简单的替代性分析方法是将被引文献被施引文献多次引用看作深度引用的一种表现形式。

被引文献被施引文献多次引用即为“复引”。本研究将施引类型分为3类：未提及的引用、单引、复引。未提及的引用是指施引文献并未对被引文献的内容加以引述、评论，被引文献仅仅在文后的参考文献列表中出现；单引是指施引文献中有且只有一处内容对被引文献进行引述或评论；复引是指施引文献中多次对被引文献的内容进行引述或评述。复引代表了对参考文献的深度使用，是参考文献重要性的体现。相对来说，复引是较珍贵的、重要的引用。复引频次越高，代表了期刊论文被深度引用的次数越多，其重要性越高。

基于《学术精要数据库》，对3943种中国科技期刊论文的被引频次进行分类统计,发现2012—2021年的总被引频次为4571万次，其中60.2%是未提及的引用，35.2%是单引，只有4.6%是复引。

1.4 基于L指数的期刊长效性评价

长效文献是指出版后多年被连续引用、长期发挥效用的论文。长效文献首先应是高影响力论文，也就是高被引论文。研究这部分长效文献的影响力，有助于完整评价文献整个生命周期的价值[16]。吴联仁等[17]构建了一种基于时间异质性的信息传播模型，认为时间间隔的异质性越大，信息传播的速度越慢，感染个体的比例也越低。谢瑞霞等[18]认为，在评价论文学术影响力时，论文发表后不同时间跨度内的被引频次应被赋予不同的权重，如论文发表后的第1年和第10年的被引频次相同，应对第10年的被引频次赋予更大的权重。徐菁等[19]基于论文历年被引频次升高或降低的快慢程度和波动性对论文总被引频次产生正向或者负向的约束力，提出一种论文影响力的自动计算方法。贾宁[20]提出，在判断文献价值时除了将总被引频次作为判断标准外，高位段持续时间长短、峰值高低也可以作为评价的参考指标。因此，基于引证时间对被引频次进行细分是十分必要的，可在一定程度揭示论文的长效作用，也可用于对期刊的长效作用的评价。

本研究的高被引论文选用《学术精要数据库》定期发布中国期刊的高被引论文(相同发表年份、相同学科领域、总被引频次排名Top 1%的学术文献)。图3所示为科技期刊于2012年发表的高被引论文在各年的被引频次分布。根据2012年高被引论文的老化情况，高被引论文的被引高峰期出现在发表后的第4～5年，其后论文被引频次缓慢下降。但对每篇论文来说，被引高峰期出现的时间是不一样的。

本研究选取了2篇2012年发表的论文的被引频次进行对比，结果如图4所示。论文1的被引高峰期出现在发表后第3年，持续了大约3年，从第4年开始被引频次下降；发表后第8年，论文1的被引频次只有高峰期的40%左右。论文2刚发表时并未引起广泛的关注，被引频次在前3年都不太高，但被引频次持续增长，到2020年达到高峰。2021年，论文2的被引频次的统计时间截止到8月初，此时其被引频次已经达到高峰期的一半以上，其在2021年的被引频次很有可能会超过2020年，论文仍具有较高的关注度。因此，认为论文2比论文1更具长效性。

图3 2012年发表的高被引论文的被引频次在各年度的分布

图4 2012年发表的2篇高被引论文的被引频次变化趋势对比

为了更好地揭示论文的长效性，本研究设计了一个新的指数——L指数，其计算步骤如下：

(1) 单篇论文的被引频次归一化(消除被引频次数量差异，只考虑分布)。统计论文历年被引频次并将其除以论文总被引频次，得到该论文的每年被引频次所占比例，进行归一化处理。

(2) 学科被引频次的归一化(定基线)。统计论文所属学科历年总被引频次，将其除以学科总被引频次，得到该学科每年被引频次的占比，并作为基线。

(3) 对单篇论文被引频次根据基线进行标准化，即计算论文历年归一化值与学科基线值之间的差值。

(4) 求拟合曲线的斜率(L指数)。对差值进行线性拟合，得出线性回归方程的斜率。

L指数即每篇论文被引频次根据基线(也就是学科平均水平)调整后的拟合曲线的斜率，如果斜率大于0,则认为其被引频次增长速度高于学科平均值，可以认为是“长效论文”。

如图5所示，此处选取的论文3和论文4的总被引频次均为306次。如果直接对这2篇论文2016—2020年的历年被引频次进行线性拟合，2篇论文的被引频次均为正增长。但是，在学科平均值标准化后再进行线性拟合，则发现论文3的线性回归曲线斜率(即L指数)为正，而论文4为负，说明论文1更具有长效性。

图5 2篇论文被引频次变化趋势的2种研究方法对比

表2所示为2012—2019年高被引论文数及L指数>0的高被引论文数。2012—2018年的高被引论文中L指数>0的论文占比均大于50%，说明高被引论文大多具有长效性。2019年的高被引论文中，L指数>0的论文占比略低于50%，可能是因为2019年刊发的“热点论文”数量更多。随着时间的推移，赶时髦的热点论文不再被关注，从而掉出高被引论文榜单，而真正有价值的“长效论文”在高被引论文中的占比逐年增大。

1.5 基于F1指数的期刊学术传承性评价

已有很多学者[12,21-22]对引文标注和分类方法进行探索，但对被引文献的分类需建立在对文献全面掌握和深刻理解的基础上，因此这些方法的操作性不强。冯长根[23]提出了更加简单可行的方法，他将文献以学术评论句的形式被引用的次数定义为学术论文的F1指数，该指数可以反映期刊论文的学术传承性。

学术评论句，就是施引文献中同时含有年份、作者姓名以及标志词(首次、萌芽等)的文本句。但是，在实际的论文引用中学术评论句可能会被简化，例如：“文献[4]首次提出了一种基于暂态能量函数流向来定位扰动源的方法。”这句话用“文献[4]”代替了作者姓名和年份，但有“首次提出”作为标志词，这就是一句学术评论句。

表2 2012—2019年高被引论文数及L指数>0的高被引论文数

要识别出一段引语是否含学术评论句，关键是要判断这段引语中是否包含标志词。标志词需要同时包含“首先”“最初”等表示领先的词以及“提出”“发现 ”等表示贡献的词语。本研究从2012—2021年发表的中国期刊论文中挖掘出比较准确地引用中国科技期刊论文的学术评论句约2万个。由于学术评论句的表述不完全规范，挖掘技术不一定能够识别出学术评论句，因此实际的学术评论句数量应该更多。

2 实证研究

本研究以2021 年版《中国学术期刊影响因子年报(自然科学与工程技术版)》收录的12种自然地理学中文科技期刊为例，分析发表于2012—2021年的学术论文，数据统计日期截止到2021年10月。

根据上文介绍的期刊评价指标体系，本研究设计了4个维度的6个指标，如表3所示。

(1) 总PCSI，即该刊近10年发表的每一篇论文PCSI的总和。从PCSI来看，期刊之间差距很大。《地理研究》的总PCSI最高，达到20351.679；其次为《地理学报》，为14217.877。上述2种期刊的影响力遥遥领先于其他期刊。

(2) 篇均PCSI，即由总PCSI除以论文数量得到的数值。期刊之间篇均PCSI的差距也很大，但《地理研究》和《地理学报》仍领先于其他期刊，篇均PCSI分别达到11.453和8.701。根据文献[10]的统计，篇均PCSI的理论平均值为1.650。本研究统计的7种期刊的篇均PCSI高于此理论平均值。

(3) 复引频次，即复引该刊近10年发表论文的施引文献数量。《地理学报》的复引频次超过《地理研究》，两刊的复引频次分别达到4577次和3348次，说明了两刊为地理学界贡献了大量重要论文。

(4) 篇均复引频次，即复引频次除以论文数量的值。从该指标看，《地理学报》进一步显示出明显的优势，其篇均复引频次比《地理研究》高出近50%，说明《地理学报》的重要论文“密度”要高于《地理研究》。而在这个指标上，《地理科学进展》和《地理科学》的水平已接近《地理研究》，成为第二梯队的期刊。

(5) L指数，表征高被引论文的被引频次增长趋势。L指数>0，表明这篇论文的被引频次增长斜率大于均值，也就是该论文更具长效性。从L指数判定的“长效论文”来看：《地理学报》有337篇，比排名第2的《地理研究》多了60%；《地理科学进展》《地理科学》2种期刊仍难分伯仲，均在180篇左右；其他期刊的“长效论文”数量则较少。由此可见，地理学科的优质稿源主要集中在上述4种期刊。

(6) F1指数，即文献以学术评论句的形式被引用的次数。《地理学报》与《地理研究》的F1指数分别为34和33，其他期刊中也有被学者明确表示肯定的创新论文。

综上，从复引频次和L指数来看，《地理学报》的办刊质量优于《地理研究》，具体体现在《地理学报》论文更具重要性和长效性。

表3 2012—2021年自然地理学期刊综合评价结果

为了综合以上6个评价指标得出对期刊总体的评价结果，本研究采用主观和客观相结合的赋权方法。评价指标中F1指数最能直接体现同行评议的意见，所以赋予该指标30.00%的权重，并采用熵权法对其他5个指标进行客观赋权。不同于专家赋权方法，熵权法可以有效排除主观因素的干扰，客观地反映评价对象数据差异信息，适用于多个评价对象的指标数据可获取且可测量的情况[24]。在综合指数计算过程中，本研究对12种自然地理学中文科技期刊的各个指标进行归一化处理，各个指标的权重见表4。综合指数的计算公式为

(1)

式中：ACI为综合指数；ai为第i个评价指标的归一化值；ωi为第i个评价指标的权重。

表4 期刊综合评价指标及其权重

从综合指数来看，《地理学报》和《地理研究》分别排名第1、第2，且明显高于自然地理学领域的其他期刊。可见，所提出的从单篇论文引证视角构建的期刊评价改进方案，能更加精准地揭示期刊的学科贡献性、论文重要性、论文长效性等，有助于明确评价导向，引导期刊关注重要成果和长效论文，是对建立科学合理、客观公正的科技期刊评价体系的有益探索。

3 结语

基于单篇论文的引证视角，考虑期刊整体影响力、代表性论文影响力2个层面，从学科贡献性、期刊重要性、期刊长效性以及学术传承性4个维度建立期刊综合评价指标体系。基于被引频次与引文内容，设计了4个维度的6个指标，可更加合理地对期刊进行定量评价，可以有效促进期刊关注论文的学术质量及长期作用，是破除“唯SCI”“唯指标”的一种期刊评价新思路。

对自然地理学领域的12种中文期刊开展实证研究，评价结果较传统期刊评价指标(如影响因子、CI指数等)更加精确地刻画了期刊的质量特征。新的指标体系体现了鼓励期刊发表优秀论文、长效论文的正确导向，体现了“以文论刊”的价值回归，具有一定的科学性、合理性、可操作性，是对现有期刊评价指标体系的有益探索。

本研究的不足之处为技术手段有待改进，以便挖掘更多的学术评论句。同时，笔者希望论文作者能更加规范地引述参考文献，包括使用评论性词语、规范标注引文编号、尽量使用原文原句等。