教师科研业绩：量化评价还是同行评议？<br/>——以国外研究综述为视角

教师科研业绩：量化评价还是同行评议？
——以国外研究综述为视角

2022-01-01方宝

兰州职业技术学院学报 2021年5期

方宝

(广西中医药大学，广西南宁 530200)

当前，世界各国特别是发达国家都十分重视对大学教师科研业绩的评价，并制定了科学、系统的评价指标体系和方法。早在上个世纪20年代，国外就有了对科研业绩评价方面的专门研究，近几十年来其研究的重点主要集中在量化评价技术与方法、同行评议机制、科研影响力评价等方面，并研发了诸多定量、定性或定量与定性相结合的评价技术和方法。总体上，而以文献计量法为主要形式的定量评价与以同行评议为主的定性评价之间的优劣论争、科学性论辩及实证检验等始终是其研究的重点内容之一。

一、科研业绩评价的常用量化方法

文献计量学是综合应用数学、统计学和文献学知识体系和方法来定量地分析一切知识载体的交叉科学。自文献计量学诞生以来，国外对科研量化评价方法的研究热情持续高涨，并取得较为丰硕的成果。

(一)数据包络分析方法(DEA)

在量化评价研究方面，数据包络分析方法(Data Envelopment Analysis， DEA)是其中研究比较多、技术相对成熟的一种方法。DEA方法和模型是由美国著名学者Charnes和Cooper于1978年提出。它是根据多个方面的多项投入与产出指标，在线性规划方法基础上，对相同类型具有可比性的单位进行有效性评价的一种定量分析方法。DEA方法在处理多指标的复杂问题上具有绝对优势，因此被广泛应用于多个领域，并拥有较多的使用者。为了避免评价者对科研产出维度的倾向性影响其评价结果的客观性，Witte和Rogge对传统评价中的非参数DEA模型加以修改，构制出一种可以集结多维度科研产出的评价方法[1]。与传统方法相比，这种方法更具灵活性，可以减少由测量失误和干扰因素所带来的影响。

(二)H指数评价法

2005年，美国加利福尼亚大学圣地亚哥分校的物理学家希尔施(Hirsch)提出了H指数法[2]。该方法通过一个数字来展示有关研究者所发表成果的业绩与影响力的信息(H代表的是研究者个人所有发表的成果中被引用次数最少成果的引用次数)。H指数一经提出后，就引起不少学者的兴趣，其中最具影响力的代表性学者是Bornmann和Daniel[3]。Costas和Bordons则对H指数法应用于科研评价中的优势、不足以及其在宏观层面上与其他文献计量指数的关联等方面进行研究[4]。直至今日，学者们对H指数法的相关研究依然兴趣盎然，比如De Andre’s使用H指数法对不同科研领域评价结果的差异性进行研究[5]，一些学者还从统计学的角度对H指数法进行探究。

(三)引证分析法

论文或学术观点被引证，可以在一定程度上说明论文的质量，但是能否认为被引证最多的论文，其质量就是最好的呢？为了进一步回答这个问题，Coupé对经济学和金融学期刊每年根据其领域内所发表的文章质量评选出的“最佳论文奖”论文进行了一个实证研究[6]。其研究表明，获得“最佳论文奖”的论文很少是被引证最多的论文，其中只有少量论文的被引率高于获得“次佳论文奖”的论文。此外，为了更好地理解论文引证数计算到底能在多大程度上说明什么问题，Bornmann和Daniel对学者们的论文引证行为进行了文献综述研究[7]。Pendlebury则对期刊评价模型与引证指标的使用与误用问题进行探讨[8]。Leydesdorff和Bornmann对通过论文引证次数计算来确定期刊影响因子的做法，对不同研究领域期刊影响因子的不同影响程度等问题进行研究[9]。Bornmann则对近几年来应用引证影响力来对科研机构进行科研评价所存在的一些问题进行分析[10]。

二、量化评价方法的改进性研究

一些研究表明，在宏观层面(国家、科研机构)硬科学科研评价的实践中，文献计量方法比同行评议方法更具优势。比如，Abramo等人的研究发现，同行评议的结果与几乎不花费任何成本、依据直接关联业绩指标或从网络上获取的指标进行文献计量分析的排名结果，具有相当的一致性或同质性[11]。量化评价具有的诸多优势使人们对量化评价的热情有增无减，但量化评价所存在的一些弊端及其改进研究也引发了学者们的较多关注。

(一)多变量随机评价模式

文献计量方法存在的缺陷是其对科研业绩的评价只是一种概率性判定，而不是传统方法上的绝对性判定。为了对此加以改进，Abramo等人通过研究提出了一个“多变量随机模式”(Multivariate Stochastic Model)的个人科研业绩评价方式，并将基于这一方式的评价结果与传统的绝对性评判的评价结果进行比较[12]。他们的研究结果表明“多变量随机模式”在实际的操作中可以成为替代传统的绝对性评判模型的有效评价方式。同时，这种方式可以有效弥补文献计量指标方法所具有的受高随机变量较大影响的不足。

(二)累计逻辑回归模型

通过专家组来对科研团队进行评价是很常见的事情。然而全国性评价、地方性评价等不同体系之下的评价方法，以及为满足一个国家、地区或者机构管理需求评价方法之间的观念差异巨大，其给专家提供的借以评价信息的质量也差异巨大。然而已有的相关研究大多数集中于分析评价分数与文献计量指标之间的关联性，很少有文章对信息提供的质量问题进行研究。因此，Engels等人建立了一个可以解释科研团队质量和科研产出评价的累计逻辑回归模型(Cumulative Logistic Regressionmodels)。该模型认为，团队科研质量和产出的预测因素是团队大小、团队领袖的H指数以及团队在顶级刊物上发表论文的效率[13]。

(三)多标准识别评价模型

现实中，很多论文都探讨如何科学地评价大学教师的科研产出，进而用于教师的职务晋升和终身教职的任命；也有很多论文研究如何对市面上所存在的学术期刊进行排名的问题。然而，对于如何更好地将期刊质量、数量和作者的贡献结合起来判断一个教师的科研业绩，人们仍然是不清楚的。对此，Bacon等人提出了一个识别研究标准和进行科研业绩评价的新工具[14]。其对一所大学进行的实证研究结果表明，他们所提出的一个评价教师个体科研产出的数学模型与实际上的教师科研评价结果有惊人的相似性。他们希望通过对这个模式的应用来提高评价的清晰度和客观性。

(四)多维度科研评价模型

教师科研业绩的评价模型繁多，但不同模型的适切性与侧重性相对单一。为了提高模型的适用范围，Moed提出了多维度科研评价模型(Multidimensional ResearchAssessment Matrix)，并系统介绍如何应用多维度科研评价模型来对科研产出进行评价[15]。该评价模型的提出是基于这样的一个基本理念：在评价过程中对模型的选择取决于评价的单元、评价的维度、评价的目的与政策环境。不同的评价指标与评价模型各有其长短处，因此作者提出了10个适用于不同评价对象的重要评价模型。这些模型分别代表了10种不同的科研影响力维度，每一种模型各自适用于测量相应的不同维度。

三、同行评议机制的优势与不足

虽然国外学者对定量评价方法的研究日益深入，一些定量研究方法和技术也日臻成熟，但是定量评价远不是完美的科研评价方式。从实践层面分析，定量和定性评价方法各有优劣，分别适用于不同的测量情境和评价目的。

(一)同行评议普遍具有较高的认可度

在科研业绩评价实践过程中，随着定量评价方式弊端的日益暴露，与之相对应的以“同行评议”为主的定性评价方式日渐受到学者的关注。目前，同行评议方法依然是获得最广泛认可、最通行的一种科研业绩评价方法。历史上，以同行评议方式为主的质性评价一直占据主体，比如VTR、DEST、RAE、PBRF、NRC等一些高级别的重要科研评价活动都是以同行评议为主要方式。虽然越来越多的学者倾向于采用“混合方法”进行评价，比如采用在文献计量方法基础上进行“知情同行评议”(Informed PeerReview)的混合方法，但是同行评议在各国的高级别科研评价中一直占据主导地位。

(二)同行评议结果的客观性存在较多争议

尽管同行评议方式得到广泛应用和认可，但是这一科研评价方法，事实上依然存在着一系列尚未解决的问题，特别是评价过程中的各种主观性问题。Garcia-Aracil等人的研究结果表明，同行评议的评价结果并没有我们所想像的那么客观[16]，其客观性至少受以下两个方面的较大影响：一是同行评议的有效性受指标选择的影响较大。Abramo等人指出科研成果的范畴，不同国家各不相同。虽然各种评价维度设置都体现了与科研机构研究人员相对应的业绩数量指标[17]，然而不同专业之间科研产出差异巨大，这意味着同行评议中所列出的不同学科的代表性成果系列也是不同的，其对评价结果的影响则是非常明显的。二是同行评议的有效性受评议者认知差距的影响较大。Wang和Sandstrom对同行评议过程中的认知距离进行研究[18]，其研究结果表明，申请者与评议者之间的认知距离会对同行评议结果产生负面影响。

(三)同行评议方法具有较大的可改进性

鉴于同行评议所存在的费时低效等问题，一些学者在尝试性地探索能否应用量化评价方式来代替或部分代替同行评议的评价过程。Taylor研究在多大程度上由同行评议方式决定的结果可以被一系列的定量指标所替代[19]。其研究结果支持在科研评价过程中对量化指标的应用。在同行评议过程中，要求专家们对文献计量指标的应用还可以进一步改善评议专家所可能存在的内隐偏见问题。与此同时，一些研究者则对同行评议机制所存在的不足进行改进性研究。比如Reale等人对“同行评议”的信度控制问题进行实证研究[20]，Reinhart则对提高同行评议的透明度、可理解度和可信度进行研究[21]。近年来，虽然量化评价方式得到广泛应用，但是同行评议作为传统科研评价方式还将会继续发挥重要作用，但对同行评议方式的改进性研究或将量化评价融合于同行评议过程的评价研究，将会引起更多学者的关注。

四、总结与反思

目前，学者们普遍认为，同行评议与量化评价这两种评价模式各有利弊。一些学者认为文献计量法的评价过程便捷，评价结果更为客观和便于应用[15]，而“同行评议”的判定结果往往更具主观性和偶然性[22]，而且这种评价方式需要花费更多的时间、人力和经费[23]。也有学者认为“同行评议”能更好地考虑到科研成果的复杂性和多样性[24]。因此毫无疑问，量化评价与同行评议各自的先天优势与不足，使其各自适应不同的评价目的与语境需要。那么，量化评价或同行评议的结果是否具有关联性？两者的评价结果在多大程度上能达成一致？为此，Aksnes和Taxt对文献计量指标评价和同行评议评价结果之间的关系进行研究。他们通过对挪威卑尔根大学科研团队进行个案研究，发现了不同的文献计量指标评价与专家委员会评价结果之间存在正相关性，但是关联度比较弱[25]。通过进一步研究，他们发现同行评价的劣势、文献计量指标评价的不足以及两者之间可比性缺乏是导致其评价结果关联度不强的主要原因。然而，也有不少的研究发现，对于大规模的科研评价活动而言，同行评议与量化评价可以产生相似的结果。

从本质上而言，量化评价与同行评议背后体现的是技术理性与价值理性取向的分立。同行评议与量化评价方法分别是教师科研业绩考评过程中价值理性取向与工具理性取向的典型代表。韦伯和霍克海默的理性理论认为，工具理性讲求的是效率优先的原则，对其而言最重要的问题就是如何能够以最有效的手段和途径实现预想的目的，而非目的本身的合理性。社会的发展总是要以工具理性为其提供物质基础，因此工具理性本身并无问题。而当下，大学教师科研业绩考评过程中，工具理性盛行的一个重要根源在于在学术评价发展进程中，以价值理性为主导考评方法的弊端日益凸显。比如上个世纪70、80年代以来实行的“同行评议”制度受到误用并引发了连锁反应，使得后人越来越反感“同行评议”的评价方式。因此，在纠偏的过程中，工具理性导向彰显出其优越的一面，并日益取代价值理性导向，成为主流的评价取向。然而，随着工具理性一些弊端的日益凸显，同时由于工具理性的过度膨胀以及被误用所引发的一系列问题，导致了人们对工具理性产生了一定的抵制情绪。总体上，导致评价方法应用上反复变迁问题的根本原因在于，人们普遍认为工具理性与价值理性是截然分开和相互对立的，但事实上纯粹的毫无相互关涉的工具理性或价值理性是不存在的。就其功能和适切性而言，工具理性与价值理性各有其优势与不足。在教师科研业绩考评中，必须充分发挥各自的优势，并协调好两者的关系，促进两者的融合。