关于我国学术评价体系的反思及建议

2020-02-27苗建军王擎张彤

经济学报 2020年4期

苗建军王擎张彤

1 我国学术评价体系的现状及问题

学术评价，就是一个权威学术主体按照公正公开的程序，使用科学的方法，对它所掌握的一系列评价信息进行科学的处理，进而得出评价的结论(高健和何美菊，2015)。学术评价需要一整套完善的学术评价体系，客观公正的学术评价体系对于科研人员、高校、科研院所，乃至国家均具有重要的意义。教育部、科技部印发《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》(以下简称《意见》)，要求规范各类评价工作中SCI论文相关指标的使用，鼓励定性与定量相结合的综合评价方式，探索建立科学的评价体系。这说明目前我国目前的学术评价体系虽然在一定阶段促进了我国的学术发展，但是也暴露出一些弊端。目前我国学术评价体系中存在的突出问题主要有SCI至上，缺乏分类评价体系、同行评议活动不完善三个问题。

1.1 SCI至上

SCI(Science Citation Index，科学引文索引)是国内外广泛使用的科技文献索引系统，其本质是一个文献索引系统，而非学术评价系统。其主要作用是通过统计论文的研究领域、方向、被引频次，为科技工作者查阅最新文献、跟踪国际学术前沿和科研工作提供帮助。SCI论文是发表在SCI收录期刊上的论文，相关指标包括论文数量、被引次数、高被引论文、影响因子、ESI(基本科学指标数据库)排名等，不能简单地把SCI论文等同于高水平论文。比如SCI论文的引用数量反映的是论文受关注情况，而不能对应于创新水平和实质贡献，高被引论文更多反映的是学术研究热点，但并不直接说明其创新贡献。SCI数据库收录的论文不可能都是高水平，影响因子受许多非学术因素影响。很多情况下，SCI并不能完全反映期刊的学术影响力(刘雪立，2012)。所以SCI一定程度上肯定了科研工作者的科研成果，但不是评价学术水平与创新贡献的直接依据和唯一标准。SCI论文相关指标也并不能全面反映科技创新贡献，不适用对技术创新、成果转化等工作的评价。过度看重SCI论文相关指标将导致高校科研工作者以发表SCI论文数量、高影响因子论文、高被引论文为根本目标的异化现象，科技创新出现了价值追求扭曲、学风浮夸浮躁和急功近利等问题。

1.2 缺乏分类评价体系

目前我国学术评价体系中，看重论文级别和发表数量，没有做到针对不同类别、不同科目的特定化、专业化评价。不同类别、学科、领域及专业的科研及成果差异迥然，不可能单独使用论文作为唯一评价标准。从学科特点看，理科主要看论文，人文社科不仅可以看论文，著作和代表作也是重要的学术成果。而专利以及对产业界的实际效果对工科的学术评价也非常重要。此外，基础研究、应用研究和技术创新对应有不同的成果形态，不同的研究领域应该有不同的标准评价，《意见》指出对不同类型的科研工作应分别建立各有侧重的评价路径。而当下的评价体系未能按照基础研究和应用研究的不同属性进行划分，导致存在不符合现实的评价标准(张富利和陈奕青，2019)。对于基础研究，论文是成果产出的主要表达形式，对于应用研究和技术创新，其成果主要是新技术、新产品、新工艺的产业化应用。使用论文作为应用研究和技术创新的评价标准显然是不够全面的，其评价重点应该是对解决生产实践中关键技术问题的实际贡献。而对于服务国防的科研工作和科技成果转化工作，一般不把论文作为评价指标。因此，建立分类评价的学术评价体系显得迫在眉睫。分类评价就是要遵循各个学科、各个门类科研自身的规律和特点，用最恰当的尺度去评价，切实落实分门别类、多元评价和精准评价。

1.3 同行评议活动不完善

同行评议是一种主要的定性评价方式，同行评议在中国的实践日趋成熟与完善，应用也越来越普遍，无论是在方法或制度层面，同行评议都在不断改进与优化(徐芳等，2018)。但是同行评审有专家不匹配、评价不客观等问题，仅仅依靠同行评价，很难获得科学、公正的评价结果。《意见》也提出组织实施部门要完善规则，引导学者在参加各类评审、评价、评估工作时遵守学术操守，负责任地提供专业评议意见，遵守利益相关方专家回避原则，同时对评审对象合理分组，遴选合适专家，并合理设定工作量等。但是作为一种定性评价方式，评价主体与被评价对象之间或多或少存在信息不对称，这有可能导致评价中的逆向选择与道德风险的问题。所以同行评价活动必须坚持一定的规范，含有主观因素的评价方法在评价过程中难以避免地受到主观因素的干扰(袁野，2015)，因此同行评价必须与定量评价方式相结合才能更好地发挥效果。

2 现有的学术评价方法分析

我国现有的学术评价方法主要有文献计量、替代计量和同行评议(Altmetrics)，以下内容主要探讨每种评价方法的具体做法以及各自优缺点。总体看三种评价方法都有自身的适用范围、优势和缺点。同行评议更多的是一种定性的评价方法，而文献计量和替代计量是定量的评价方法，具体实施中可以将每种评价方法赋予不同的权重，将三种评价方法结合使用。针对不同的学科，三种评价方法赋予的权重应该有所差别，以更好地体现分类评价的思想。只有这样才可以有效地减少评价误差，提高评价的准确度和公正度，从而形成完善的评价体系。

2.1 文献计量

文献计量是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法对科学期刊、论文、著者等各种分析对象进行分析，以便揭示出研究对象所具有的特征或它们之间的关系及其规律性计量的方法。20 世纪50年代，文献计量学家开始对引文索引和文献引用规律进行研究。SCI就是一个典型的文献检索数据库。同时相应的评价指标，如被引频次、影响因子、h指数等也随之诞生。单一指标均被证实可在一定程度上测度文献影响力，而将影响因子与总被引相结合构建的评价指标体系可进一步综合评价学术成果影响力。由于文献计量法指标直观、可比性强，随之成为一种科研评价的重要方法。

但是文献计量方法在科研评价中也暴露出一系列问题，部分学者也一直对文献计量方法中出现的各种问题进行修正。董岳珂(2018)基于文献计量在成果产出源、成果统计和个人影响力方面评测存在的问题，通过引入数学方法、情报搜索以及比值计算来校正文献计量在科研评估中的片面性、局限性以及数据统计上的不公正。但是这些方法只是基于文献计量方法上的改进，张蕾(2010)认为文献计量法中的数据来自权威机构，因而的确具备客观性、公正性与科学性，但是其评价指标体系相对不够丰富与全面，无法全方位地反映被评价对象的学术水平。

2.2 替代计量

论文不能代表全部科研成果类型，引文也只能反映科研成果的交流与利用过程的一个很小部分，这是文献计量方法的先天不足。随着科学交流网络化的普及，网络记录了科学交流的整个过程，这些交流过程形成的数据成为一种有价值并且可挖掘的数据源，基于社交软件与基于成果使用率的新型指标(altmetrics 指标)将为科技评价体系带来新的维度，可以更好地反映科研成果的社会影响力。替代计量的关注点是学术影响力中的社会影响力，是传统文献计量学的新发展(余厚强和邱均平，2014)。通过对社会网络中的科研成果传播路径进行跟踪与评判，使科研成果的社会影响力得到学术界的重视和认可。

传统的文献计量方法包含被引频次、期刊影响因子等，显得过于片面，而且多使用静态数据评价，研究结果局限于某个时点，数据存在滞后性，不能反映动态变化，尤其对新文献作用不大(王菲菲等，2020)。影响因子随年份不停变动，且用同一影响因子表示同一期刊上的文献会忽视文献质量的差异性(王贤文等，2015)；而同行评议是专家学者对本专业领域科学共同体内的学术成果进行评价，不可避免存在评审偏见、决策延迟的现象。替代计量可以从另一个角度更客观地衡量文献的社会影响力，一定程度上弥补了传统计量指标的不足。但是替代计量学也存在一些无法避免的难题，如评价数据的可靠性和稳定性问题、权重分配问题等(余以胜和刘鑫艳，2017)。替代计量工具和平台的指标体系是否完备、数据源是否稳定可靠、数据数量和质量是否达标、评价结果是否准确可信，这些都是替代计量学需要解决的问题(王贵海和朱学芳，2020)。

2.3 同行评议

同行评议是指某一或若干领域的一些专家共同对涉及上述领域的一项知识产品进行评价的活动。同行评议是最早被用来进行学术评价的方法。这一评价方法在20世纪30年代之后被学术界广泛接受。我国在90年代初开始采用同行评议制度。同行评议主要基于学术共同体，要求科学家基于稿件作出公正的裁决。同行专家要恪守学术操守，负责任地提供客观、公正的专业评议意见(吴凡洁和张海娜，2018)。从满足科研评价实际需求上讲，同行评议仍是目前科学界学术交流最可行的质量控制手段，也是评价实践首选的量度工具(万昊等，2017)。

但是同行评议作为一种主观的定性评价方法，也存在种种不足。在人情社会、面子文化、圈子“江湖”潜规则下专家行为可能出现异化。现有同行评议制度主要存在以下弊端：第一，目前学术研究的广度和深度越来越大，评审专家所熟悉的研究领域与所评议的学术成果之间会出现信息不对称的问题，这种信息不对称可能会造成同行评议中的逆向选择现象；第二，由于评价同行的主观性不可避免地会使得评价标准有失客观，导致不同专家的评议结果有可能出现不统一和不一致；第三，如果评价过程缺乏有效监督，评价权力又集中于少数专家手中，如果被评价对象与评审专家熟悉，可能存在一定道德风险；无论科研成果是否真的有贡献，都能得到高分或通过。

2.4 三种评价方法的总结

同行评议、文献计量和替代计量都是进行学术评价的工具，三者用于学术评价都有自身的优点和局限，每种方法都有各自最佳的使用对象和使用范围。文献计量是量化评价方法的基础，替代计量是文献计量方法的发展，其可以作为文献计量的很好补充，但是替代计量也无法完全替代文献计量在评价方法中的基础作用。杨卫平(2001)提出应建立互不隶属、独立市场化运作的科研评价机构，提高评议过程的质量，克服目前评价体系中所存在的弊端。李彦丽和吴秀玲(2010)在肯定了文献计量作用的同时，也从SCI的质量、数量以及来源期刊的不平衡性分析了局限性，提出了“同行评议为主，科学计量为辅”的评价体系。

3 国外学术评价体系及对我国的启示

全球主要发达国家都已经建立了一套相对完整的学术评价体系，评价体系的科学性与完备性也有利于促进一国科研实力的提升。对全球主要国家的学术评价体系的研究可以挖掘学术评价体系的未来变化和发展趋势，这对我国学术评价体系的建设也可以提供一定的有益借鉴。虽然各国采取的评价形式不同，但这些评价都服务于学术产出和质量的提升，促进国家科研实力和创新力的持续增长。对比各国学术评价改革的方向主要集中在几个方面：第一，对于学科的分类更加科学，对于不同的学科类别，尤其是理工科和社会学科，采用不同的评价标准；第二，采用第三方独立机构进行学术评价，第三；对于提交的科学成果数量和时效性进行限制，只为若干核心科研成果，而不是对全部的科研成果进行评价；第四，理工学科采用定量评价为主，社会学科采用定性评价为主更为科学；第五，更加注重科研成果对该领域的长远影响和创造的经济价值。

主要发达国家的学术评价体系中，英国的REF(Research Excellence Framework，科研卓越框架)，尤其具有代表性。REF的前身可以追溯至1986年科研选择性评估(Research Selectivity Exercise，即RSE)。RSE是英国大学科研评价体系的起步阶段，这一时期虽然有一整套完成的评估程序，但是没有统一的标准衡量什么样的学术水平可以达“卓越水平”。1992年启动“科研水平评估”(Research Assessment Exercise，即RAE)对原有的评价进行了持续的完善，如各个学科都有不同且明确的评估标准，以确保对应用性和跨学科性的研究进行恰当的评估，使整个评估过程变得更加系统化和规范化。2014年REF制度取代了RAE成为英国学术评价的主流模式。REF 有一整套完整的计量评价指标，同时体现了分类评价的理念。它将所有学科分为4个主专家组，每个主专家组下设若干子专家组，4个分组分别是：生命医学类学科、理工类学科、社会科学类学科、艺术与人文学类学科。每组都根据学科特点，设定不同的评价产出形式，如理工科注重文献计量，而社会科学更注重同行评议等。REF只要求科研人员最多提供4份有代表性的科研成果，这避免了只重视成果数量而不重视质量的尴尬，科研产出质量占65%的权重，同时它们还将影响纳入评价体系，体现了REF更注重学术研究的实用性和影响力的导向。

针对交叉学科或者综合性的学科，有可能同时被归类到几个学科中。不同的学科采用不同的评价方式。卓越评价采用定性和定量相结合的评价方法，主要包括如下指标：成果数量和活跃度，主要提供该学科科研的背景资料；出版物档案，包括学术专著、章节、期刊、会议论文等，对深度和广度作出鉴定；引文指标，基于Scopus通过与本国及世界平均水平进行对比得出；同行评议，只提供专业报告，不打分；研究收入；成果应用。将科研成果和世界水平进行对比。REF体现的分类评价、同行评议、定性与定量评价结合、注重学术成果的社会价值等理念均是我国学术评价体系可以借鉴的方向。

美国的学术评价方法结合了文献计量、替代计量和同行评议等方法。我们以经济学的学术评价方法为例，美国各高校在评定教师终身教授或升职称时主要看以下几个方面：第一，论文数量和质量。论文质量主要看期刊的质量和影响力，比如经济学最高质量的五大综合期刊是AmericanEconomicReview，Econometrica，QuarterlyJournalofEconomics,JournalofPoliticalEconomyandReviewofEconomicStudies，然后就看各专业领域的高质量期刊，至于期刊如何排名各高校基本都有共识，我们这里不再展开讨论。第二，本系资深教授评价。系里一般临时组织一个由三到四人组成的委员会，委员会成员分工阅读被评审教师的代表性文章，并写一个报告评价文章的学术价值。第三，同行评价。系主任或院长邀请国内外同行专家评价被评审人的代表性学术论文，系里教授委员会再总结分析这些评价，作出判断。第四，学术影响力。学术影响力主要看被评审人的文章引用次数、h指数、i10指数、论文获奖情况、被评审人在学术会议上宣读论文的次数和作过学术报告的次数等。

美国各个高校的学术评价体系都类似，不同层次的高校设定的标准会有不同。比如说顶尖学校要求论文刊发的期刊质量更高，但数量并不一定要求更多，索要的校外专家推荐信数量更多，而且专家的名气要更大，最后排名靠前的学校也很讲究学术影响力，这要看论文引用次数、论文曝光度和关注度。

4 完善我国学术评价体系的设想

我国学术评价体系大致经过了行政评价、同行评价、指标量化评价和国际科研计量评价几个阶段。目前我国学术评价体系中，看重论文级别和发表数量，没有做到针对不同类别、不同科目的特定化、专业化评价。且过度看重SCI指标，但是SCI无法全面评估创新水平和实质贡献，且同行评议机制不完善。根据发现的这些学术评价体系中存在的潜在问题，结合国外，尤其是英国REF的做法，我们提出一定要建立分类评审机制，每个学科的评价方式会有所侧重，根据学科特点，有的更注重定量指标，有的更注重定性指标。比如理工科可以以文献计量为主，同行评议为辅助，而社会科学更注重同行评议，但也应该将定量指标纳入评价体系中。

随着大数据技术的兴起，其在学术评价上的应用也逐渐显示出巨大的优势，大数据可以基于海量的文献计量数据和定性数据全方位的进行学术评价。较为成熟的文献计量数据库为学术评价大数据之路起到了奠基作用，大量丰富的文献数据在文本对比分析、评价指标基础数据构建方面具有不可或缺的作用。定性评价是学术评价的重要方式，但其数据库的建设难度较大。中国知网科学文献计量评价中心基于中国学术文献总库、中国引文数据库、学术不端检测系统等研发了网络化评优系统，帮助评审者剔除存在学术不端行为的文献、界定论文创新点、吸纳国际同行评价意见，其学者信息数据库、硕博导师数据库已具备了大数据的雏形(杨英伦和杨红艳，2019)。目前大数据应用于学术评价尚处于起步阶段，随着定性数据库的丰富以及跨数据库平台的大数据学术系统的建立，大数据在学术评价中会发挥出更大的作用。

虽然同行评议和文献计量以及替代计量的结合可以更加全面地评价学术成果，但是同行评议本身依然存在主观性和道德风险问题。随着区块链技术的兴起，其具有的去中心化等特点，可以有效解决同行评议中存在的种种弊端。评议专家的选择和同行评议中的道德风险是现在同行评议中最关键的两个问题，区块链技术可以很好地解决这两个问题。针对专家的选择，建设一套包含专家数据库信息的评议系统非常关键。系统中可以根据学科分类在每个大类学科下建立一个专家数据库，数据库中每条专家的相关信息至少包括研究领域、学术成就等关键信息。在进行评议前，系统会为待评价的学术成果自动检索特定领域的同行专家，以保证专家的研究领域、资质等学术信息和被评价对象相匹配。此外，所有的评审结果都会保存记录在区块链的区块中，区块链的不可篡改性很大程度上保证了评审过程中的专业性和公正性，能够最大可能地避免道德风险的发生。此外评审专家由系统自动匹配选择，评审人与被评审人互不知晓，也在很大程度上保证了评审的客观公正。区块链的去中心化技术特性可以扩大学术评价的主体，使评价结果接受更多评价者的监督，从而提高学术评价的“把关”质量；借助共识协议预防评价权下放而导致的错误扩散问题；借助时间戳提供学术评价追溯依据；借助智能合约保证系统内各类信息的准确性和合法性(余以胜等，2020)。

综上所述，学术评价体系是一项复杂的系统工程，每种具体的评价方法都有其优势和弊端，没有任何一种单一的方法可以对学术贡献作出客观的、全面的评估。针对我国现状，我们提出定量评价方法一定要和定性评价方法相结合，文献计量是最基础的定量评价方法，替代计量可以作为一种文献计量方法的有效补充，但是其不能替代文献计量的基础作用。一定要建立分类评价的评价体系，不同学科应该在评价方法上根据学科的特点有所侧重，有的更注重定量评价，有的更注重定性评价。此外同行评议也是学术评价体系中的重要环节，随着大数据、区块链等技术的兴起，这些技术也能有效解决同行评议中存在的种种弊端，从而使整个学术评价体系更为客观和全面。

在经济学学科的学术评价方面，其自身的一些特点也决定了经济学学术评价相对于其他学科评价存在一些特殊性。首先，经济学在当今中国承担的主要任务之一是如何发展经济，造福于民，即“经世济民”。所以相对于其他学科，经济学学者及其观点、理论的曝光度会远高于其他学科，受大众的关注也更多，可以说很多学者的受关注度不仅仅局限于传统意义的“学术圈”。从这个角度看，替代计量可以从更广泛的角度综合衡量学者学术水平的社会影响力。当然公众的关注度并不完全等同于学者的学术影响力，这需要我们选取合适的替代计量指标体系。其次，国内外经济学学术期刊的作者署名规则有所不同，比如目前经济学的国外学术刊物的作者署名都是按照姓氏排序，在评审国内学者发表在国外学术期刊中的论文时，也应该注意遵从这个规则，同等对待。最后，不同于其他自然科学领域，经济学学科研究的问题具有很强的现实背景和本土特色，对于很多中国经济现象的研究不仅有很强的理论价值，也有巨大的现实意义。但是针对这些方面研究的一些文章在国际上发表可能存在一定难度，不能因此就降低或者否认这些研究的贡献。所以在具体的评价过程中，不能仅仅考虑发表期刊的国际影响力，也要综合考虑学术研究对于国内经济问题研究的贡献度。综合来看，经济学学科的学术评价只有在综合文献计量、替代计量和同行评议等方法的基础上，结合学科特点和国情现状的特殊性，才能建立一套科学的经济学学术评价体系。