以论文为导向科研评价体系的影响及启示<br/>——以意大利改革实践为例

以论文为导向科研评价体系的影响及启示
——以意大利改革实践为例

2024-04-07马宗文

教育评论 2024年2期

●马宗文任梅

我国科研评价体系过去一段时期存在重论文数量和影响因子、轻论文质量等问题，特别是“唯论文”“SCI至上”等不良导向给科研生态造成严重不良影响。[1]“唯论文、唯帽子、唯职称、唯学历、唯奖项”的“五唯”现象，其根子在“唯论文”，因为论文是帽子、职称、学历、奖项的重要基础，因此“破五唯”的关键在于破除“唯论文”导向。[2]如何才能“破得深”“立得准”“放得活”落实破除“唯论文”导向的科研评价政策改革，需借鉴国内外的有益经验。意大利于2010年启动了科研评价体系的改革，改革的主要方向是加强了论文指标的权重。该项政策实施以来，对提高论文产出效率、提高论文的引用率等发挥了积极作用。本文通过对该项政策实施效果的利弊分析，提出相关建议，以期为国科技评价改革提供参考。

一、意大利科研评价体系改革的相关做法

意大利于2010年通过第240号法令，成立独立运行的国家大学与科研机构评估署(ANVUR)。ANVUR成立之初即开始对科研评价体系进行改革，其中对高校教师录用和职称评审的评价指标加强了论文导向，对高校和科研机构评估重视代表性论文的质量。

(一)对教师录用和职称晋升的改革办法中体现论文导向

该法令对高校教师录用与晋升体系进行了改革，主要采用文献计量学的指标，对自然科学和社会科学分别进行评价，各设置3项指标：对于硬科学(一般指数学、物理学、化学、天文学等自然科学)、生命科学和工程学，考察的指标是：①发表的期刊论文数量，②被引用次数，③H指数(“高引用次数”指数)；对于社会科学和人文科学，考察的指标是：①研究成果产出的数量，②专著的数量，③在“A类”期刊(通过ANVUR评估认定)上发表的论文数量。ANVUR规定了取得参评资格的最低文献计量学要求：参评人必须满足2/3以上的指标达到最低要求才有资格参评(也称“2/3原则”)。在执行该法令的初期，每项指标的最低限设定在已获得该级别职称(教授或副教授)人员的文献计量指标的中位数数值。如，为了获得教授的评选资格，候选人必须在3项指标中的2项，超过现任所有教授的对应2项指标的中位数数值。取得资格后，再由5名专家组成的评审委员会对达到最低要求的候选人进行评估，并最终确定入选者。同样的，评审委员会人员也必须达到“2/3原则”这一最低标准。该评价方式从2011年起在意大利全国实施，基于文献计量学的指标在国家科研体系评估和整个招聘程序中发挥着中心作用。

(二)对高校和科研机构评估改革重视论文指标

意大利建立了国家科研质量评估(VQR)体系，ANVUR分别于2013年、2016年和2020年启动了3期国家科研质量综合评估。[3]最新一期评估报告于2022年7月面向社会发布。

评估按照学科领域进行，每个领域成立评估专家组，评估专家组采用同行评议和文献计量学相结合的方法，开展独立评估工作，其中对理工科的评估主要采用文献计量法，对人文和社会科学的评估以同行评议为主。文献计量法的统计来源是Web of Science、Elsevier's Scopus和MathSciNet三个数据库，主要指标是文章的被引用率和发文期刊的影响因子。同行评议的主要标准是原创性、方法的严谨性和潜在影响力等。

评估对象是意大利全国的96所高校、14家公立科研机构和22所公私合办科研机构，这些高校和科研机构须在指定日期前提交本单位的教授、副教授、研究员、副研究员、助理研究员、技术人员、科研经理人等的成果或作品，包括科研论文、专著或专著章节、会议论文、科学评论、著作翻译、专利、软件、数据库等。从近两期的评估看，参评机构提交的代表作主要是科研论文。评审专家对提交作品进行评价，并按照不同等级分别进行赋分，计算科研成果的质量。

最后，按照总体评价结果的得分情况，对高校和科研院所分别进行排名。VQR评估结果是意大利大学与科研部分配国家一般性财政基金(FFO)的重要参考依据。根据2013年第98号部令，2014、2015和2016年FFO总额的16%、18%和20%将根据VQR评估结果分配，而且以后逐年增加，2018年已经达到约25%(约15亿欧元)，最终目标是达到FFO总额的30%。

二、以论文为导向评价体系的成效

意大利将论文指标与教师录用、职称晋升挂钩，以及在机构评估中重视论文指标的做法对提升论文的整体影响力发挥了非常重要的作用。相关统计显示，2010年以来意大利学者发表的论文增速与全球增速基本保持一致，占全球比重基本稳定，高被引论文数量明显增多，这种情况与欧洲其他国家形成巨大反差，说明意大利的改革初见成效。

(一)提高论文产出效率

近20年来，欧洲传统科技强国的论文产出增速下降，占全球的比重降幅明显。根据欧盟科研与创新总司统计(见表1)[4]，2000～2020年，英国从7.2%下降到3.8%，下降了47%；德国从6.5%下降到3.7%，下降了43%；法国从4.7%下降到2.2%，下降了53%；而同期意大利学者发表论文总量在全球所占的比重基本稳定在3.0%左右。从科研投入来看，2000～2020年，英国增长了50%，德国增长了58%，法国增长了33%，意大利增长了45%。[5]从科研投入与产出的效率看，意大利与其他欧洲国家形成鲜明对比，以科技论文表征的科研产出效率呈现逆势增长。

表1 科技论文总量在全球所占比重 (单位：%)

(二)提升论文和科研影响力

从论文被引用情况看，在欧洲论文被引用率总体下降的情况下，意大利10%和1%高被引论文所占比重出现逆势增长。

2000～2020年意大利学者发表的全球10%高被引论文数量占全球总量的比重上升，从2000～2002年的2.6%提高2014～2016年的3.1%，再到2018～2020年提高到3.2%，而同期英、德、法三国所占比重均出现明显下降(见表2)。意大利学者发表论文的整体质量也在提升，10%高被引论文数量占本国发表论文总数比例在2000～2002年、2007～2009年和2014～2016年三个统计期内，分别为8.3%、9.1%和10.1%，从增速看，2010年后的时间段快于前者，这也说明改革发挥了作用。

表2 10%高被引论文数量在全球所占比重 (单位：%)

2000～2020年，意大利学者发表的全球1%高被引论文数量占全球总量的比重也上升，从2000～2002年的2.2%提高2014～2016年的2.9%，再到2018～2020年出现波动，略微下降到2.6%，而同期英、德、法三国所占比重均出现明显下降(见表3)。1%高被引论文数量占本国发表论文总数比例，在2000～2002年、2007～2009年和2014～2016年三个统计期内分别为0.70%、0.77%和0.92%，也体现出高水平论文数量的快速提升，而且后一个时间段明显快于前一个时间段，同样说明了改革的成效。

表3 1%高被引论文数量在全球所占比重 (单位：%)

从论文被引用率反映出的科研国际影响力来看，意大利在改革后整体水平上升明显。科研论文的被引率提高原因是多方面的，但在意大利整体科研投入强度在欧洲一直处在中等偏下的位次(研发投入经费占GDP的比重近年来徘徊在1.2～1.3%之间，低于欧盟平均水平)，而且多年来研发投入总量没有大幅增长的情况下，科研评估体系改革无疑对提升论文产出数量和引用率发挥了重要助推作用。

三、过度重视论文指标和引用率的负面影响

(一)过度重视论文指标的负面影响

论文导向是把“双刃剑”，过度重视论文指标的科研评价体系容易导致一些不良后果，包括：一是目标错位，为了发表高影响因子论文的目标而不择手段，甚至违反科研伦理；二是规避风险，减少进行跨学科、非主流、高创新性的研究，而是更多地开展传统领域的较易出成果的稳妥研究；三是顾此失彼，学者将减少不作为激励导向的教学工作和公共活动(如科学传播)，而只专注于可发表论文的学术研究。

(二)过度重视引用率的负面影响

2010年意大利的科研评价改革法，对理工科设立的3项指标中有2项与引用率有关(被引次数和H指数)。研究发现过度依赖引用率指标给意大利科研生态造成以下负面影响：

第一，破坏科研环境。采用的评价指标中引用率包括自引文献，也就是研究人员可以通过自我引用来增加其指标值，一些科研人员为了提升引用率，甚至成立了一些“引文圈子(citation club)”，其成员通过内部交换各自的论文并互相引用，以提高成员的论文引用率，这严重破坏了科研环境。2019年《科学》杂志发表了多国科学家对意大利“引文圈子”文化的关注，并提出批评。[6]

第二，造成国际孤立。2019年《自然》杂志发表了对意大利学者2000年以来发表的论文分析结果显示，自2010年评估改革之后，虽然意大利国际合作发表的论文保持相对稳定且较低水平，但引用率特别是自引率与其他国家相比出现反常规的上升，即意大利学者参与撰写的论文越来越多地引用本国学者的文献，这让意大利的研究在国际上变得越来越“孤立”。[7]

第三，有损公平竞争。意大利的经验表明，即便是“负责任地使用”引用率指标也不足以阻止采取不当手段提升指标的现象，破坏了科研的公平竞争和科研生态。“莱顿宣言”[8]关于科研指标建议使用一组指标而非单个指标以防止博弈和目标偏移。意大利的案例并不支持多个指标以避免不良现象发生。

第四，弱化专家评审。意大利的评价体系采用定量指标和专家评审相结合的方式并由专家做出最后评审，但在实际操作中，仅仅是文献计量指标就足以从根本上影响专家的判断和最终结论，从而促进“机会主义”策略，因而从总体看基于指标的影响超过了专家评审的意见。[9]

四、讨论与建议

近年来，我国对科技评价体系中偏重论文指标的改革持续开展，2020 年科技部出台《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》，并联合教育部针对规范SCI论文指标的使用出台了《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》。2021年国务院办公厅出台《关于完善科技成果评价机制的指导意见》，要求评价成果不仅仅停留于刊物上发表的论文，更要看成果的创新水平、转化应用绩效和对经济社会发展的实际贡献。

当前科技评价中过度重视论文指标的做法还未从根本上扭转，科技评价改革尚未从根本上实现引导科研人员追求卓越的价值导向。[10]在工程技术领域也要求SCI论文，严重影响了对一线科技人员解决我国关键技术问题的知识供给[11]，特别是在医学领域的职称评审、项目资助过程中过度看重论文而轻医学实践，不仅违背了学科特点和规律，也造成过去一段时期医学领域学术不端行为频发。唯论文的科研导向还导致科研成果评价与激励的偏差，产生价值追求扭曲和急功近利等问题。[12]目前工作重点在破旧规，新标还没有完全建立。定量评价和定性评价还没有很好结合，基于指标的定量评价方法僵化、泛化，基于同行评议的定性评价方法流于形式。[13]

我国科学家发表的SCI论文总量从2008年起已连续十多年稳居全球第2位，而且高被引论文数量也快速增长。《2022年中国科技论文统计报告》显示，2011～2021年中国学者发表的被引用次数处于世界前1%的各学科论文占全球总数的27.3%，世界排名已连续4年保持在第2位。[14]从论文总量和引用率看，我国已成为论文大国。论文高产出和高引用率的原因是多方面的，除了科研人员的主观能动性和创造性外，客观上，一方面离不开近些年来对科技的高强度投入；另一方面，从意大利的经验看，以论文为导向甚至“唯论文”的评价体系同样是重要原因。如何深入落实国家科技评价改革政策，破除当前论文评价中仍然存在的问题，建立更加合理的评价体系，结合对意大利改革实践的利弊分析，提出如下建议。

(一)加强顶层设计，进一步优化科研评价制度环境

长期以来，我国政府主导着科研评估工作，评估对相关利益和资源的分配具有重要影响，直接关系到大学和科研人员的生存和发展空间，这一过程会受到行政权威的控制，从而可能会使评估产生价值扭曲。[15]建议以当前科技评价改革为契机，进一步简政放权，充分发挥高校、科研机构、管理部门等各方主体的内在动力和创新活力，推动科技管理向协同治理转变，减少学术评价的频次，延长考核周期，扭转科技评价中过度看重论文指标的不良做法，为科研评价营造良好的制度环境。

(二)在量化评价指标的基础上，重视发挥同行评议作用

科学研究具有高度专业性，了解某项研究价值的本领域权威专家最有发言权，同行评议尤其是“小同行”评审能发挥至关重要的作用。意大利的高校和科研院所不仅重视论文指标，而且重视评审委员会的同行评议意见，由评审委员会决定最终评价结果。关于科研指标的“莱顿宣言”也提出量化评估应当支撑而非替代质化的专家评估，即基于同行专家评价的质性评估是主导性的，基于指标的量化评估是辅助性的。建议更好发挥学术共同体及专家同行评议作用，健全同行评议机制。

(三)不能将文献计量指标简单用于对论文质量的评价

文献计量指标是对大量文献的统计分析结果，在宏观上具有参考意义，可以用来分析一个国家、某个学科领域的科技发展情况，指导科技管理政策制定，但文献计量指标受不同学科领域和数据库等的影响大，对某位学者学术水平或单篇文章学术价值评价时，简单采用文献计量指标，难免会产生偏差，而且容易助长急功近利的短视行为，不利于科技发展。关于科研评价的“旧金山宣言”(DORA)[16]同样提出，不应使用基于期刊的计量指标去评价单篇文章的质量、单个科学家的贡献。建议在微观层面的评价中，正确看待和使用文献计量指标。

(四)对论文代表作的评价中，合理使用引用率指标

意大利的做法显示，将论文指标与教师录用和职称晋升挂钩形成了强大的激励机制，特别是“2/3原则”中2项指标都与引用率有关，极大促进了研究被引用率的增加。科学家对政策激励的反应灵敏，所以制定任何科技政策必须十分谨慎，特别是像被引用率这样的非中性评价指标，被评价人可以通过积极互动从而提升指标值。建议对论文评价实行代表作制度，合理确定代表作数量，对代表作质量的评价在考虑引用率指标时，建议排除自引的情况。

(五)回归理性，加快构建符合科研规律的评价体系

意大利的实践证明正确引导和合理使用论文指标可以极大地调动科研人员积极性。建议根据基础研究、应用研究和技术开发等不同类型科研活动，建立符合学科特点和发展规律的评价标准和指标体系，将学术贡献和创新价值作为核心评价导向，引导科研人员解决真正的科学问题。在破除“唯论文”导向的改革中，应避免矫枉过正，破的是“唯”的极端性和绝对性，而不是抛弃论文评价本身，对于基础研究而言，论文尤其高质量的论文应该是主要指标，要注重评价新发现、新观点、新原理、新机制等标志性成果的质量、贡献和影响。