科学论文评价的涵义与方式研究综述*

2021-05-28楼雯蔡蓁

情报杂志 2021年5期

楼雯蔡蓁

(华东师范大学经济与管理学部信息管理系上海 200062)

2020年2月，国家教育部、科技部接连下发了《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》与《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》(后称《措施》)两个文件，要求各“双一流”建设高校落实相关意见，达到破除唯分数、唯升学、唯文凭、唯论文、唯帽子的“五唯”现状。“破四唯”、“破五唯”、“破除SCI至上”等一系列讨论一并而来。这些讨论并非近两年才出现在学术界。前两年提出的《关于深化项目评审、人才评价、机构评估改革的意见》和《关于进一步弘扬科学家精神加强作风和学风建设的意见》都在强化分类考核的评价导向，指出了科学研究的评价重点，避免科学研究和科学论文简单地与利益相挂钩。对科学论文的评价研究可以对未来科学发展的重大学术成果起到预见作用，我们利用文献调研，在厘清科学论文评价的本质与其他概念的关系基础上，对科学论文评价方式和方法进行梳理和总结，以期为今后科学论文评价，尤其是单篇科学论文的评价方式和方法提供前人经验的依据。

1 科学论文评价的内涵与外延

1.1科学论文评价的涵义与内容学界有多种对于科学论文的称呼，如科技论文、科研论文、学术论文、科研文献等，由于科研习惯和学者理解的不同，并未有多数研究纠结于此，本文将用“科学论文”一词统称。《GB7713-87国家标准》中对学术论文的定义为“是某一学术课题在实验性、理论性或观测性上具有新的科学研究成果或创新见解和知识的科学记录；或是某种已知原理应用于实际中取得新进展的科学总结，用以提供学术会议上宣读、交流或讨论；或在学术刊物上发表；或作其他用途的书面文件”。

该定义主要体现了科学论文的四个特征，一是创新性，定义中提到了三个“新”字；二是科学性，如需从实验中获得；三是应用性，需要应用于实践；四是表现性，论文最终是用来进行科学交流。该定义的四个特征充分体现了学者们在进行科学活动过程中体现的两件事，即解读自然和解决实际问题[1]。创新性和科学性有利于人类理解自然现象，应用性体现出人类解决实际问题的欲望。表现性集中体现了科学社会学家默顿的思想，认为科学论文的意义在于其对科学知识的承载能力，它是科学知识的存储和传播方式，同时也代表了科学家在科学资源分配所处地位[2]，比如现今所说的数据可获得性、科学地位等。其后的科学社会学家对科学论文有了更深入的解读，认为在新时代，科学论文的作用不再仅仅是科学交流的方式，从论文内容的解读和全社会知识的角度来看，科学论文更体现了社会中科学知识的积累[3]。

我们认为，科学论文不仅是科学交流的工具，更是体现科学家们学术思想的文字表现，是科学家们在追求科学真理、解决实际问题过程中产生的文化和知识。那么评价科学论文的本质是：评价科学论文带来的文化和知识，包括这些文化和知识为何而来、如何而来、向何而去；评价对象是科学家们追求科学真理和解决实际问题的来源、过程、方法、技术、结果，甚至精神。

科学论文带来的文化和知识“为何而来”指的是科学活动的目的，“如何而来”指的是科学活动的过程，这些文化和知识将带来哪些学术价值(能否更好地理解自然)和应用价值(能否更好地解决现实问题)，“向何而去”指的是利用科学活动能否带来社会效应(如经济价值和社会价值)。在科学界热议的科学论文意义的议题下，带来了科学活动应该更回归理性应用还是更向往科学精神的争议。索传军等认为科学论文是科学交流的工具，其价值首先体现在其带给学术界哪些价值，而后才是经济价值和社会价值[4]。而近些年国民科学素养问题的突现，让学界意识到科学回归现实生活的重要性，出现了“让科学回归生活”、“科学家应放下身段”的声音[5,6]，实质上体现了科学活动应具有社会价值和表现性的特征。

1.2 科学论文评价在科学评价中的位置

1.2.1 科学评价的概念国外的科学评价在20世纪初在美国、法国、德国等国家启动，我国在80年代开始实行科学技术体制改革，科学评价事业和科学评价研究才走进人们的视野中。我国的科技人才、科技成果评价虽然时间较短，但却经历过相当丰富的路程，快速走过了行政评价、同行评价、指标量化评价和国际科学计量评价四个阶段[7]。其中，前两者是典型的定性评价，后两者被普遍认为定量评价。定量评价中，各大高校和科研机构将SCI论文的收录数量、引用情况等数据作为衡量科研绩效的指标，产生了一些过犹不及的负面影响。国家政策下发后，各大高校正在陆续制定出台新的政策。其中，西北工业大学与清华大学已经制定并发布了新的科学评价标准，将改革之处体现在“突出师德考核”“加大教学业绩考量”和“改变科研评价方式”等三个方面，代表作评价、分类评价、同行评审等新鲜的概念也出现在文件中[8]。南京大学吕建校长认为新的评价方式应该强调结果与过程相结合，用模式、机制、方法、效率、绩效、层次等综合评价人才[9]；大连理工大学郭东明校长认为应该从知识、时间、价值三个维度构建新的科学评价体系，要考虑到学术成果差异性、成果与时间变化的差异性、不同价值角度的差异性三个方面[10]。事实上，国家政策和各高校领导提到了很多层面的科学评价内容，包括了人才评价、成果评价、政策评价、评价体系建设，学者们常用的科学评价、学术评价、科技评价、科研评价这些概念表达的常常不是同一种意义，因此，厘清科学评价与科技评价、学术评价、科研评价等相关概念的关系，是明确科学论文评价研究的第一步。

上述称呼的目标均是为了合理择优分配公共资源[11]；看似相似，实则有异，评价对象不尽相同。现代科学起源于西方，科学评价亦如此，各种称呼在英文的表述中同样有细微差别。科学评价(Scientific Evaluation)是国内外最通用的说法，也是包含范围最广的说法，可以理解为对科学的评价、科学地评价两种意义，对科学的评价指的是评价各类科学活动，包括政策评价、机构评价、人才评价、期刊评价、论文评价等；科学地评价指的是建立科学评价体系的过程应遵循科学原则，执行科学评价过程应遵守科学规定等[12]。科技评价(Evaluation of Science and Technology)的称呼在我国较为普遍，如期刊评价和企业评价被纳入科技评价的范畴，在西方更多指的是科研项目、课题的评价[13]。学术评价(Academic Performance Evaluation)和科研评价(Scientific Research Evaluation)两者较为相似，均重点指的是评价科学研究本身和科学研究人员，尤其是评价科研人员的科研表现(Research Performance Evaluation)[14]，而学术评价还常常表示评价学生的学年综合表现[15]。

1.2.2 科学论文评价与其他相关概念的关系无论是哪种称呼的评价，从广义上说，都是对人类的科学活动进行评价，评价对象可以大到国家政策、小到数据单元，正如《措施》中特别指出的七类评价对象：研究课题、研究基地、科研单位、科研奖励、人才、期刊、论文，把论文放在最后的位置，实际上是突出了科学论文评价是评价基础层的地位。现行的国内外科学评价体系和资金分配制度里，上述七类评价对象是环环相扣的关系(如图1)。

图1 科学论文评价与其他相关概念的关系

总的来说，科学论文评价是所有其他评价的支撑，但期刊评价的结果也会直接影响对论文质量的印象，人才评价的结果则会影响其论文质量的口碑，而研究课题和研究基地一方面会促进论文的形成，另一方面会影响读者对论文作者的可信度；评价人才时，该人才的论文、课题、所发期刊级别都可能作为评价依据，人才评价的结果会直接关系到学科评价、科研单位、研究基地的评价结果，申报课题时又有可能依据人才评价的结果给予倾斜；评价期刊时，论文和期刊获奖是重要内容，同时，期刊的评价结果是评价其他五项内容的重要指标；科研奖励评价与课题评审相似，均重点依赖于论文和期刊评价的结果，并影响其他评价过程；科研单位(如学科评估)和研究基地评价更依赖于底层评价的结果。因此，科学评价应始于科研成果评价，更精细地说是科学论文评价，服务于科学技术政策制定。

2 科学论文评价的方式

2.1 定量评价方式

2.1.1 基于学术创新力的定量评价方法

a.基于学术全文本的学术创新力测评。科学论文的评价本质之一是对论文内容的评价，对全文本的内容分析有助于理解论文的学术创新力[16]。基于科学论文全文的评价方式，指的是从全文中抽出具有创新研究的评价句，分析评价句的分布特征及规律，章成志等[17]提出了一种基于全文内容的自动分类研究，利用算法构建不同的分类模型，对科学论文中使用的研究方法进行自动分类；周海晨等[18]也提出了一个自动识别模型，该模型基于深度学习与规则结合的学术创新贡献识别方法，从学术全文本中自动识别并抽取出能够体现学术创新与贡献的价值点，为科学评价提供方法支撑。

b.基于知识元的学术创新力测评。科学论文是传播知识的交流方式，其承载内容是科学知识流。如果把科学知识流拆分成知识段、知识元，那科学论文评价就可以从这些细粒度入手。同样是对论文内容进行评价，杨京等[19]提出一种基于研究水平的单篇科学论文创新力评价方法。他们选择从论文中抽取具有研究水平的句子，通过构建正则表达式从这些句子中抽取能够代表单篇科学论文价值的数值信息，再通过这些数值信息判断科学论文的创新力。他们认为科学论文的研究主题与其期刊影响因子和Altmetrics指标应该合并，设计了Keygraph算法提取代表论文研究主题的关键词，并计算论文研究主题与科研前沿主题的相似度，进行综合评价[20]。李贺等[21]虽然也将评价角度定位于科学论文的内容层面，但与其他学者对全文内容进行评价有所不同，他们深入至知识元这一科学论文的组成单元，利用知识元理论和机器学习的方式从论文细节角度对科学论文的创新性进行研究。

2.1.2 基于学术影响力的定量评价方法科学评价学术影响力的方法重心落在计量学测度上，尤其是以利用近年兴起的Altmetrics指标与多维度分析结合的方法为主[22-23]，尽管学者们尝试从不同维度来测度计量指标，如科学交流过程、文化资本、异质时间等角度评价论文学术影响力[24-25]，比如耿树青等[26]在发现被引次数会忽视引用内容的差异性后，提出了引用情感的评价方法，通过确定引用情感的权重，结合被引频次，提出了一种基于“被引次数——引用情感”的综合指标，但根本上还是基于引用频次和基于使用频次的方法。

a.基于引用频次的学术影响力测评。引用频次是用来测量被引成果的影响或质量的主要指标，也是界定论文质量的主要角度[27]。通常情况下，人们会认为一篇文章被引量高，文章价值就高。引用频次被过度使用后，不少学者尝试修正引用指标来降低引用频次这种纯量化指标的不良影响。比如对论文不同时间的被引频次赋予不同权重并对其加权，同时结合论文期刊的影响力指标，提出了评价论文学术影响力的新指标，减少了被引时间的异质性对科学论文影响力的影响[28]。Waltman等[29]对同行评议的结果和引用频次间的关系做过实证研究，证明了引用频次在文献评价中的价值。虽然高被引论文相较于其他论文可能具有更高的价值，但这并不代表与之相反的零被引论文就没有潜力[30]。此外，一篇科学论文的引用频次涉及到其他对象的质量评价特征，比如在计算期刊影响因子时，虽然涉及了论文被引频次这一指标，但因此就将评价期刊的影响因子用来评价单篇论文有失偏颇[31]。同理，期刊影响因子的高低并不代表其所刊载的论文质量高低，期刊影响因子与刊载的每篇论文的被引量间没有正相关关系[32]。因此，单独使用引用频次指标进行评价存在不合理性，对其的改进与完善也是科研学者一直在研究的方向。

b.基于使用频次的学术影响力测评。作为新兴的科学影响力计量方法，Altmetrics的出现缓解了基于引用指标的传统科学评价体系在自媒体时代遭遇的尴尬处境。Haustein等[33]指出，当前社交媒体活动产生的数据可以产生广泛的影响，将以Twitter为首的社交媒体平台收集到的数据作为新的指标与传统文献计量指标进行结合，可以在当前信息技术发展的情况下更全面科学地对科学知识做出评价。翟珊珊等[34]在现有的评价指标之上提出了将Altmetrics与引文分析相融合的评价方式对数据论文进行评价，并提出了结合论文被引对象频次、当年影响因子和下载量的评价模型，为数据论文这一新型学术资源的评价提供了思路；有学者分析了科学论文的社交媒体指标及引文指标的相关性，提出了次生影响力系数，对科学论文的次生影响力进行测度[35]。但是，Altmetrics作为传统计量方式的一种补充，其概念的提出基于传统计量的知识，因此存在着内涵不够清晰，概念缺乏独立的缺陷。其次，以人文学科为例，该学科的研究成果半衰期普遍较长，Altmetrics的实际覆盖率较低。再次，Altmetrics是一组指标的统称，包含了不同性质的单个指标，Altmetrics还具有异质性[36]。因此，即使Altmetrics提供了很多适应新环境的指标，在实际应用中还是面临着许多挑战。

2.1.3 数据密集型的定量评价方法

a.基于网络测度的论文重要性分析。网络分析中的一些指标可被用来测量网络中节点的重要性，合著网络、引文网络、社交网络等就是将科学论文作为网络节点，来观察科学的发展，同时也利用量化指标观察单篇论文在网络中的地位。比如巴拉巴西等人通过构建Nature期刊的共被引网络，发现了具有重大发现的论文与其他论文的聚集效果的不同，有些论文只与本领域内知识聚集，有些则与更多的科学相关[37]，从而判断目标论文的重要程度和分布。又如利用中介中心性和结构洞约束系数等指标可以观察某节点在网络中知识流量控制能力来判断节点的重要性[38]。另外，借用一些科学知识图谱工具可以绘制出反映科学网络结构及其演化的知识图谱，解读图谱得到特定文献的学科领域贡献度。利用科学知识图谱来评价学科发展、判断重要文献的这一方法，现在不仅仅只在图情学科中，更多其他的学科领域在应用科学知识图谱，其应用覆盖面远多于图情学科之预想[39]。

b.基于认知计算的定量指标综合评价。认知计算是一项使人类能够和机器合作的方式，借助认知科学与人工智能的理论与算法，模拟人的客观认知和心理认知过程，使其具备“类脑”的认知智能。索传军等[40]将认知计算引入科学评价时提到，“基于认知计算的学术论文评价需要针对学术论文自身特征，以及论文评价本质，基于语料库、知识库和相关数据集，利用自然语言处理、大数据分析和机器学习等新技术，构建学术论文认知计算系统”。将认知计算的思想和方法引入单篇论文的评价，本质上是将评价方式带到了文本语义化的层面，是利用大数据思维对科学论文的评价方法进行完善。

2.2定性评价方式同行评议(Peer Review)是国际学术界中最通用评价手段，也是评价科学论文的基本方法。2002年颁布的《国家自然科学基金项目管理规定(试行)》中将同行评议定义为“同行评议专家对申请项目的创新性、研究价值、研究目标、研究方案做出独立的判断和评价”[41]，可以说同行评议是最理想最被认可的方法。随着科学的发展以及人们对科学知识领域的探索，同行评议逐渐成为了科学评价的首选方法。根据叶继元[42]所言，一个完整合理的同行评议体系由评价主体、评价客体、评价目的、评价方法、评价标准及指标和评价制度六大要素组成。在过去几十年不断的发展中，我国的同行评议也形成了一套基本的制度。同行评议可以分为以下几种主要形式。第一是匿名制，匿名制主要涉及单盲评审和双盲评审。单盲评审指作者姓名对审稿人公开，但审稿人姓名不对作者公开；双盲评审指作者姓名和审稿人姓名互不公开。我国现行的科学基金评审更多使用双盲评审，论文评审则是不同期刊不同做法。第二是专家评审，即选取少数同行“专家”进行评审，并假定这些专家的评议标准和结果近似于整个行业的整体看法。第三种是评议人表决制，这一制度的结果取决于评审专家的意见对比，是民主制度的体现。通常情况下会出现意见分歧，最终的结果取决于支持者和反对者的数量对比[43]。

虽然不同国家会因为历史背景、学术发展状况、学术制度等差异导致在进行科学评价时对评价的目标、主体和量化方式都存在不同，但是同行评议依旧是各国在进行定性科学评价时的重要手段。国外同行评议在发展过程中产生的与国内同行评议最大的差别在于，政府部门及第三方机构参与评议过程。例如，瑞典斯德哥尔摩环境研究所在2013年的时候建立了研究评估系统，该评估系统能够实现对机构研究成果质量及影响的系统化评估[44]，这种评议方式很大程度上提高了评议的客观性和公正性。美国的科研评估机构分为国家政府层面和社会学术团体两个层次。国家层面涉及如美国国会技术评价办公室等部门，由美国政府出资，对项目进行各个环节的评估，为国会的预算安排提供参考；社会团体层面则以美国科学管理开放咨询公司、国家科学理事会等为代表，即构建第三方评价机构，以独立机构的形式出资与评价[45]。此外，国外的同行评议将定性分析与定量分析相结合，加强评议专家数据库，从根本上拒绝外行评内行的现象。综合来看，国外学术领域对同行评议的研究正在从传统的对评价的可靠性、质量、公正和道德伦理等问题转向如何充分利用定量技术和计量指标，公平公正、开放有效地进行评议，使得同行评议在数字时代发展的帮助下扮演更积极、有效、公正的角色。

然而，同行评议使用频率较高，其自身存在的诸多争议使得在同行评议后的评价结果并不能为学界所有人信服。第一，同行评议缺乏客观性与公正性，评价结果极易受到个人因素的影响，造成了评审专家在遇到和自己观点不同的文章时不自主地带入主观色彩，可能在学术交流中产生排他性[46]。此外，一些评议者可能会因为利益冲突给出不公正的评价，或者故意拖延评议时间，使得科研成果不能够及时发表[47]。同行评议还面临道德挑战，如出现过评议者剽窃作者的观点和成果的情况。这种竞争关系也使得同行评议的公正性受到质疑；第二，同行评议常常会耗费大量的经费和评议者的精力；第三，当前学者虽然从不同的角度定义了各种定性评价的标准，但在同行评议时，至今为止并没有一个标准是为学界通用的。不统一的评价标准使得评议专家对评价的“度”难以掌握[48]。因此，模糊的评议标准成为同行评价的争论点。同行评议虽然是当前科学评价最常用的评价方式，但是其存在的多方面问题使其不能成为科学评价的唯一手段。

3 科学论文评价方式的制度与体系研究

科学论文评价的实施过程由来已久，近年来引发的讨论源于新时代我国科技体制改革，代表作制度的实施和盛行牵动了整体科学评价体制的变迁，依上文分析，作为科学评价的基层内容，同时科学论文又是最常用的代表作类型，科学论文评价是典型的代表作评价。我国最早在20世纪90年代提出代表作制度，早年除了一些借鉴性研究，如借鉴英国、德国、澳大利亚的高校科研评价体系外[49]，曾引起过代表作制度必要性的争议，有认为我国学界应立即建立健全代表作评价制度[50]，已经有支持者将代表作制度的实施可行性落地到高校教师科研评价、职称晋升、自然科学奖评审的分析上[51-54]；亦有认为代表作评价不可作为唯一主导手段[55]；还有持代表作评价较难实施的观点[56]。这就带来了代表作制度实现机制与实施方式研究。学者们从宏观、中观、微观各视角构建了代表作评价体系，研究建议宏观上应建立健全代表作评价的配套改革体制、学术申诉和监督机制、专家遴选机制等，中观上应把握评价方法与评价维度的传承与创新，尤其是传统计量学方法和同行评议的结合，微观上应该研究代表作的内部特征、评价指标的选取、权重的计算等[57-59]。

代表作评价时代势必要厘清定量评价与定性评价的关系[60]，认清同行评议制度、引文行为的本质[61]，叶继元明确表示科学评价实践应重返同行评议制度[62]，还有学者对比了国际科学评价实践与中国场景的现实后，认为科学评价中结合科学计量与同行评议才是可行之道[63,64]。在科学评价体系设计的层面上，首先是要有科学性和先进性。其次，需要能系统地反映被评价对象的综合情况，即需要有整体性。再次，所设计的指标需要具有可操作性。设计的指标需要有层次性，并且尽量避免存在明显的包含关系。除此之外，体系评价应该更要注意综合性，即需要将定性分析与定量分析相结合，使得评价更具可信度[65]。一些国外的评价体系认为学科性质的不同导致了评价体系应分学科设计，注重构建多维价值主导的评价准则体系。同时也注重根据不同的学科采用适合特定学科的评价标准。最后，科学评价应该要重视科研产出，不仅要关注研究成果的数量、质量和对学科领域的长远影响，也要关注研究成果所产生的社会效应和经济价值，实现科研成果的高效利用[66]。整体来看，科学评价政策的制定将向着多层面、多维度、多指标、多变量的综合评价设计的方向发展[67,68]。

科学论文评价在经历了定量分析与定性分析的时期后，现在逐渐转向定量与定性分析相结合的评价方式。对于单篇科学论文而言，本质上，其科学价值体现应在论文内容本身，我们应该根据科学论文的内容所涉及的创新性、重要性、应用性、表现性来判定文章的价值。因此，今后的科学论文评价应从这些方面综合入手，尤其是趋向于对文本内容的评价，通过对内容的分析与计量指标的结合，可以实现从定性到定量，定量中包含定性特点的科学论文评价方式，这也符合代表作评价作为今后主要评价方式的趋势的理念。