在“破”与“立”之间：科技评价的 BRIDGE 理论

2023-01-10李晓轩

中国科学院院刊 2022年8期

徐芳李晓轩

1 中国科学院科技战略咨询研究院北京 1001902 中国科学院大学公共政策与管理学院北京 100049

1 问题的提出

破“四唯”是 2018年以来我国科技评价改革的重大举措。一方面，破“四唯”受到科研人员的欢迎。另一方面，科研人员也有担心，“破”完之后“立”什么[1-3]？同行评议中的人情关系会不会又回来了？目前，“四唯”状况还没有根本扭转[4,5]。原因有多种，有科研文化、诚信、科研水平等方面原因，也有科技评价方法上的原因，即现在还没有建立起行之有效且适用性好的“新标”。相对而言，代表作制[6,7]是破“四唯”以来被广为提倡的一种比较有效的“新标”。但是，该方法作用也有限。代表作制本质上是一种同行评议方法，是在同行评议中限定了科研人员提交的作为评价对象的成果的数量。总的来说，单一的同行评议方法还无法在科技评价实践中全面推广。例如，高校和科研机构通常以年为周期的科研人员绩效评价就难以直接采用同行评议方法——除了成本过高，更主要是难以保证公正性[8]。

以“唯论文”为主体的“四唯”集中表现在高校和科研机构的科技人才成果评价上。可以说，科技人才的成果评价是“三评”改革和破“四唯”的“牛鼻子”。因此，当前科技评价改革的关键是在科技人才的成果评价上立“新标”[9,10]，使得这场包括科技界在内的各界期盼的破“四唯”行动的目标能够真正落实。对此，2021年《国务院办公厅关于完善科技成果评价机制的指导意见》（国办发〔2021〕26 号）印发，并部署 50 余家单位开展试点。随后，2022年6 月中央全面深化改革委员会第二十六次会议审议通过《关于开展科技人才评价改革试点的工作方案》。不难看出，这 2 项最新的科技评价改革文件的结合点恰好是科技人才成果评价。2022年6月27—28日，中国科学院召开全院人才工作会议[11]，布局了在院层面和研究所层面共同推动以解决“唯论文”为重点的科技人才评价改革，亦即以科技人才成果评价为重点。

兵马未动，粮草先行。如何攻克高校和科研机构科技人才成果评价改革这个关键堵点？本文试图就此问题提出一套理论与方法；基本思路是从要“破”的方法中寻找合理要素，并将这些合理的要素结合进要“立”的“新标”里，从而架起“破”与“立”的桥梁来。

2 破“四唯”：破什么和留什么

2.1 两种不同观点

毫无疑问，论文、人才称号（包括学历、职称等）、奖励等指标都是科研活动，因而也是科技评价中的重要指标。“四唯”的问题关键在“唯”，即简单地以这些指标加和计算得到的分值代表科研人员的绩效[8]。在高校和科研机构的科技评价中，论文指标起着基础性作用，人才称号、奖励等往往也是对论文优胜者的认可。因此，“四唯”评价可以被称为以 SCI 论文为主的量化评价，而破“四唯”主要就是破以 SCI 论文为主的简单量化评价。

从 SCI 起源看，20 世纪 60年代，在布拉德福（Bradford）文献离散律理论[12]、加菲尔德（Garfield）引文分析理论[13]等的基础上，美国科学信息研究所（ISI）推出科学引文索引（SCI）期刊。SCI 论文就是指刊登在 SCI 期刊上的论文。在我国，SCI 论文作为评价科研人员绩效的指标兴起于 20 世纪 90年代初[14]，并很快被高校、科研机构、政府管理部门等广泛采用，以替代 20 世纪 80年代兴起的在科技成果评价中出现较大争议的同行评议[15,16]。

目前，以 SCI 论文为主的量化评价问题日益显现，破“四唯”成为共识。但是，如何破？目前大致有两种不同观点。第一种观点为“全盘否定论”，认为现有以 SCI 论文为主的量化方法根本上就错了，无药可治，应立刻废止。第二种观点为“谨慎否定论”，认为现有量化方法在当时历史条件下是起了积极作用的，有其合理性，不能全盘否定。

以上两种观点的差异主要在于，如何看待文献计量方法等量化方法在科技评价中的作用，即：文献计量方法等量化方法在科技评价中是被用错了？还是本来就不能用？

诚然，基础科学研究成果“只有第一，没有第二”，其原创性成果的价值难以量化，只有同行评议才是“科研评价黄金法则”[8]。例如，德国马普学会等顶尖科研机构的评价一般是直接采用同行评议方法。从这个角度看，“全盘否定论”是对的。但是，这种观点过于理想主义，与我国国情不符。我国目前还难以满足大规模直接采用同行评议所需要的前提条件，原因包括高水平同行专家数量有限、评价文化中人情因素较重、科研成果原创性水平整体普遍较低等。贸然采用，可能重回 20 世纪 80年代问题丛生的同行评议的老路。从现实主义角度看，“谨慎否定论”承认文献计量学方法在科技评价中的作用，有一定合理性。

基于以上分析，本文的观点是：以 SCI 论文为代表的量化方法是被用错了，简单量化评价的方法必须要破；但是，量化方法特别是文献计量学方法有其自身合理性，如果使用得当，仍然可以在科技评价中发挥重要作用。文献计量方法在科技评价中的合理性主要表现在 3 个方面：① 尽管文献计量方法存在缺陷，但该方法是具有统计学意义的[17]。② 文献计量学作为一门学科本身也在发展，有望为科技评价提供更好的支撑。③ 有可能在已有文献计量方法基础上探索出一条定量与定性评价有效结合的新路。

2.2 科技评价中应用文献计量方法的已有探索

从 20 世纪 90年代初到现在，国内外高校、科研机构和政府科研管理部门在科技评价中应用文献计量方法的探索已有近 30年，这些探索仍然是有价值的。以下介绍 5 种在科技评价中用到的以影响因子为主遴选得到的主要期刊目录体系。

（1）中国科学院文献情报中心在2004年推出期刊分区表①中国科学院文献情报中心期刊分区表. [2022-07-20]. https://www.fenqubiao.com.。通过对近 3年平均影响因子进行降序排列，结合专家评议，对 ISI 发布的自然科学版（SCI）、社会科学版（SSCI）期刊引证报告（JCR）中收录的中国期刊进行 1—4 区的划分。该期刊分区表目前在国内高校和科研机构内部评价中应用较为普遍。

（2）中国科学院评估研究中心在2003年构建了研究所评价中的高影响因子期刊目录。在 JCR 划分的 170 余个小学科中，遴选出前 15% 的 SCI 期刊作为高影响因子期刊。在研究所评价中，刊登在高影响因子刊物上的论文记为高影响力论文。每篇高影响力论文的分值为：该篇高影响力论文所在期刊的影响因子与所在 JCR 小学科中 SCI 期刊的平均影响因子的比值。该期刊目录主要应用于中国科学院知识创新工程时期的研究所评价。

（3）《中文核心期刊要目总览》（北大中文核心期刊）。始于 1992年，由北京大学图书馆联合众多学术界权威专家鉴定，主要采用定量评价和定性评审相结合的办法[18]。目前，其定量评价指标采用了被摘量（全文、摘要）、被摘率（全文、摘要）、被引量、它引量（期刊、博士论文）、影响因子、它引影响因子、5年影响因子、5年它引影响因子、特征因子、论文影响分值、论文被引指数、互引指数、获奖或被重要检索系统收录、基金论文比（国家级、省部级）、Web 下载量、Web 下载率等 16 个评价指标。北大中文核心期刊是国内最早的核心期刊体系之一，在国内高校的应用较为普遍。

（4）美国得克萨斯大学达拉斯分校（The University of Texas at Dallas）界定的24本运筹管理学顶级期刊目录（UT-Dallas24）②UT-Dallas. Rankings by Journal. [2022-07-20]. https://jsom.utdallas.edu/the-utd-top-100-business-school-research-rankings/search#rankingsByJournal.。该目录包含了目前国际上运筹管理学最高科研水平的顶级期刊。该目录也是国家自然科学基金委员会管理科学部、教育部管理学科等人才计划项目评选的参考依据。

（5）英国商学院协会（ABS）出版的《高质量学术期刊指南》（Academic Journal Quality Guide）③Chartered Association of Business Schools. Academic Journal Guide 2021. [2022-07-20]. https://charteredabs.org/academic-journalguide-2021/.。该指南综合了出版物的审稿意见、编辑和专家评估意见，以及引文相关的统计信息，被认为是商业和管理学者发表研究期刊的范围和质量的指南。通常获评 3星及以上的期刊，称得上“高质量期刊”。事实上，在 3 星及以上期刊上发表论文，是在英国高校担任senior lecturer（类似副教授）的条件之一。

以上介绍的只是国内外在科技评价中应用文献计量方法的几个影响较大的案例。事实上，我国各高校、科研机构及其下属研究单元在这方面还有大量结合自身特点的探索。如何吸收这些实践经验、用好这些资源，在破“四唯”、立“新标”中物尽其用至关重要。

3 立“新标”：BRIDGE 理论及其六步法

3.1 BRIDGE 理论的提出

“新标”如何立？是将原有以 SCI 论文为主的量化评价完全舍弃后，另辟蹊径吗？单一的同行评议方法会是正确的选择吗？这些问题迫切需要在理论上给出解答。基于前文分析，本文提出了 BRIDGE 理论（或称“桥理论”），作为如何立“新标”的理论之一。BRIDGE 理论的核心思想有 4 点。

（1）单一的同行评议方法不是最有效的方法。尤其对于我国而言，由于高水平同行专家资源有限且人情关系过多，单一的同行评议方法不可能是合适的“新标”。如强行采用，可能重回 20 世纪 80年代问题丛生的同行评议的老路。

（2）以SCI论文为代表的文献计量方法是被用错了，必须“破”。但是，以 SCI 论文为主的量化评价有可以留用的合理要素；在科技评价中，应用文献计量方法的 30 多年的实践探索仍然可以在科技评价中发挥重要作用。

（3）立“新标”就是将已有量化方法的合理要素结合进要“立”的同行评议方法中。形象地讲，就是架起定量评价与定性评价之间的“桥梁”，从而逾越科技评价改革“破”与“立”的“鸿沟”，也实现了同行评议的理想需求和现实供给之间的平衡。

（4）BRIDGE理论本质上是关于如何在定量分析基础上开展定性评价的理论，是对定量与定性相结合评价方法的发展。BRIDGE 理论的一端联结定量评价方法，强调评价要将采集到的数据、证据、信息等材料按一定规则转化为可比较、可使用的数据表单，尽量约束单一的定性评价中利益关系的干扰，从而体现了循证决策理念。BRIDGE 理论的另一端联结定性评价方法，强调研究的质量，强调战略研究目标的达成，一方面避免定量评价简单、机械的缺点，另一方面发挥已有量化方法的合理要素的作用。

3.2 BRIDGE 理论的六步法

BRIDGE 理论不仅仅停留在理念上，更主要是可以应用在实际操作上，其在实际科技评价中的应用主要包括 6 个步骤，称为“六步法”。即，保持绩效评价体系的平衡性（balance）、按照编码体系得到成果的量化分析结果（recode）、实行高阶成果的同行专家评价（insight）、设立申诉和异议处理机制（dissent）、发挥 A+的成果的榜样作用（guide）、各司其职形成优秀人员名单（ecology），这 6 个步骤的英文关键词首字母构成“BRIDGE”。以高校和科研机构科研人员绩效评价（一般称为年度考核）中的成果评价为例，对六步法简介如下。

第一步：保持绩效评价体系的平衡性（balance）。科研人员绩效评价体系要符合单位的使命和战略，要保持评价体系及其标准在长期目标和短期目标之间、单位自身发展与外部竞争之间、科研成果的多元价值属性之间，以及科研水平上的平衡。可参考“平衡记分卡”的管理理念[19]。

第二步：按照编码体系得到成果的量化分析结果（recode）。构建不同类型科研成果不同的编码体系，编码体系从高阶到低阶有不同等级标准和对应数值。论文的编码体系一般是由基于文献计量方法分析得到并被单位科研人员共同认可的期刊目录。例如，有的单位采用中国科学院文献情报中心的期刊分区表作为论文编码体系之一。根据科研人员填报的成果信息或单位评价工作小组自行搜集到的成果信息，将每一项成果在相应的编码体系中转化为分值，得到定量分析结果。

第三步：实行高阶成果的同行专家评价（insight）。通过编码体系得出从高阶到低阶的成果排序；将排序中高阶成果（A 级成果）交由专家评议，经专家评议遴选出 A+级成果名单。在开展高阶成果专家评议时，单位评价工作小组还应尽量提供科研成果在学术影响、经济效益、社会效益等方面的非编码体系的信息，以增加专家评议的客观性。为节约使用专家资源，排序中非高阶的成果可不进行专家评议。

第四步：设立申诉和异议处理机制（dissent）。考虑到科学研究原创性成果难以计量，以及科学研究的不确定性等特殊性，允许科研人员对按照编码体系得出的定量分析结果为非高阶但科研人员认为质量影响达到高阶的成果提出申诉；经单位评价工作小组审核通过后，可与高阶成果一起纳入同行专家评议。

第五步：发挥A+的成果的榜样作用（guide）。采用网上宣传报道、组织学术会议报告、在宣传栏张贴等多种形式，公开展示被评为A+的成果；从而在体现评价透明性的同时，发挥 A+成果的榜样和导向作用。

第六步：各司其职形成优秀人员名单（ecology）。开展科研人员绩效评价需要同行专家、单位管理专家等利益相关方构成有序分工的良好生态：前者负责把握学术质量，后者负责把握管理需要。以此，同行专家评价得到的 A+结果可作为评优的必要条件；再根据管理需要，确定评优需要具有的 A+的数量、A+成果背后的指标权重关系，以及需要考虑的其他相关因素，最终得出优秀人员名单。另外，在前步成果评级基础上，可由单位评价工作小组根据管理需要形成科研人员绩效评价的其他结果名单。

六步法的每步都很重要，相得益彰。要做好科技评价，每步都不应该缺。但是，对 BRIDGE 理论独特优势而言，不同步骤之间是有差别的。其中，最体现 BRIDGE 理论优势的是第二步（recode）和第三步（insight）。这 2 步体现了以定量分析为基础实行分层的专家评议，使定量与定性相结合评价得以实现。因此，在 BRIDGE 理论的六步法中，中间（第二、三步）是“核”，两头（第一、四—六步）是“壳”。

4 结论与讨论

4.1 结论

科技评价一直是我国科技体制改革的热点和难点问题。2018年以来，国家围绕“三评”、破“四唯”密集出台了一系列改革政策和措施。虽然改革受到广泛欢迎，但是效果不彰——“破‘四唯’、立什么”的问题并没有得到有效解决[20]。究其深层原因，还是对科技评价规律认识不清晰，尚未提出有效的理论指导改革实践。在探索“新标”时，容易陷入前文提到在破“四唯”中的“全盘否定论”与“谨慎否定论”这 2 种观点的对立争论之中而难有作为。

为破解以上困局，本文试图从要“破”的方法中寻找合理要素，并将这些合理的要素结合进要“立”的新标里，并循此思路主要针对科研人员成果评价提出了 BRIDGE 理论及其六步法。关于 BRIDGE 理论及六步法可概括为以下 4 点。

（1）BRIDGE 理论主张，以 SCI 论文为主的量化评价有可以留用的合理要素；如果使用得当，近 30年来科技评价在文献计量方法上探索积累的经验仍然可以在立“新标”中发挥重要作用。

（2）BRIDGE 理论的核心是将已有量化分析的合理要素有效地结合进要立的以同行评议为主的“新标”里，本质上是对定量与定性相结合评价理论的发展。

（3）BRIDGE 理论可以通过六步法应用于实际操作中。在六步法中，第二步（recode）和第三步（insight）是最为关键，这 2 步实现了以定量分析为基础的分层的专家评议。

（4）BRIDGE 理论适合我国国情，实现了同行评议的理想需求和现实供给之间的平衡。通过在定量分析基础上开展同行评议，限制了同行评议过于宽泛的裁量权，在相当程度上可以规避人情关系对同行评议的干扰，也节约了高水平的同行专家资源。同时，能够发挥已有量化方法中合理要素的作用，物尽其用。

4.2 讨论

（1）BRIDGE 理论是对定量与定性相结合评价理论的发展。在科技评价实践中，出现过一些比较重要的理论，包括：评价原则方面的理论，如分类评价理论、分层评价理论（也称为角马理论）[21]；操作性强一些的理论，如定量与定性相结合评价理论、代表作制、国际评估理论、负责任评价理论等。显然，BRIDGE理论是在定量与定性相结合评价理论基础上的拓展。虽然定量与定性相结合评价理论被广泛认同，但是，定量评价与定性评价如何结合一直没有很好解决，特别是没有找到普遍共识的支撑定性评价的定量分析方法。BRIDGE 理论通过吸纳以 SCI 论文为主的量化评价中的合理要素，找到了解决办法，如将文献计量方法用作编码体系进行定量分析。这可以算是我国在定量方法上 30 多年的探索对科技评价理论产生的一个贡献。

（2）BRIDGE 理论可以说是直接来源于科技评价实践。很多单位或多或少存在定量与定性评价相结合的实践。例如，在进行科研人员绩效评价乃至招聘评审、职称晋升评审时，对科研人员提供的论文（有时是代表作）按中国科学院文献情报中心的期刊分区表、北大中文核心期刊或单位自身的期刊目录等编码体系进行量化分析，供同行专家评议参考。这其实类似 BRIDGE 理论六步法中关键的第二步（recode）和第三步（insight），只是没有六步法规范。因此，可以说，BRIDGE 理论及其六步法根植于实践，应该有广泛的应用前景。

（3）BRIDGE 理论虽然适用面较广，但也不能包打天下。例如，BRIDGE 理论作用的发挥最为关键的是构建能够进行量化分析的指标编码体系，这在不同类型的成果中难度不一。从已有实践看，论文、专利、项目、奖励、人才等指标都有其编码体系。但是，有一些指标，如科研成果的社会效益则暂时难以找到合适的编码体系。又如，科学研究具有不可预测性，有些好的研究成果可能需要数年甚至更长时间才能产生，其年度工作有时无法在编码体系中得到体现。在这 2 种情况下，应用 BRIDGE 理论时要“打补丁”，如：将类似如上的例外纳入 BRIDGE 理论的第四步（dissent）之中，由同行专家委员会另行评价。另外，有些评价工作因为有条件直接采用国际评估等定性评价方法或者因为特殊原因不方便开展定量分析，则不适合应用 BRIDGE 理论。

总之，BRIDGE 理论及其六步法在定量评价与定性评价之间架起了一座桥梁，有望实现科技评价改革“破”与“立”之间的逾越。同时，BRIDGE 理论还需要在科研人员成果评价，以及机构、项目等其他方面的成果评价实践中不断丰富完善，进一步明晰适用边界和条件。

展开全文▼