高等教育评价体系创新(笔会)

2021-11-30陈廷柱胡钦晓王建华吴立保

苏州大学学报(教育科学版) 2021年2期

关键词：学术大学评价

陈廷柱蒋凯胡钦晓王建华吴立保

曹永国沈文钦文雯张东海曹妍

学者正当行使学术权力对高等教育评价改革至关重要

陈廷柱

(华中科技大学教育科学研究院教授)

教育评价改革是全面深化教育领域综合改革的关键所在，高等教育评价改革是教育评价体系改革的重中之重。贯彻落实《深化新时代教育评价改革总体方案》等文件精神，肯定会加大主观评价的频度、广度与力度，学者们能否正当行使学术权力直接关系到高等教育评价体系改革的成败。

一、高等教育评价改革与学者正当行使学术权力密切相关

近年来，与高等教育评价改革相关的政策文件不断强调要建立“代表性成果”评价机制，加强同行评价。2016年教育部颁布的《关于深化高校教师考核评价制度改革的指导意见》指出：完善同行专家评价机制，积极探索建立以“代表性成果”和实际贡献为主要内容的评价方式，将具有创新性和显示度的学术成果作为评价教师科研工作的重要依据。[1]2017年中共中央办公厅、国务院办公厅印发的《关于深化职称制度改革的意见》指出：建立以同行专家评审为基础的业内评价机制，注重引入市场评价和社会评价。[2]随后，教育部、中共中央办公厅、国务院办公厅、科技部等多个部门出台的相关文件，以及《深化新时代教育评价改革总体方案》都反复提到完善同行专家评价机制，重视专家评议意见，特别是要突出同行专家在基础与前沿研究领域的作用。这说明国家决心走出过度依赖外显性或量化指标评价的偏颇，通过扭转评价导向和优化学术生态，以落实立德树人根本任务和扎根中国大地办学。

教育评价若不以分数或升学率、论文数与期刊级别、项目经费与立项单位等客观指标为主要依据，或者说要建立代表性成果评价机制以突出质量、创新或服务导向，必然要依赖同行专家才能完成评价任务。高等教育领域的评价任务尤其与高深知识的传播、生产与应用密切相关，推进高等教育评价改革更需要发挥同行专家的作用，因为只有学术同行对相关活动、成果或学者的真实水准与实际贡献最具评价权。学术同行在评价学术事项方面所表现出来的参与权、判断权与表决权，笼而统之，也就是所谓的学术权力。相对于行政权力，社会各界往往更加认同学术权力。然而，实践中学者群体并非孤立地行使学术权力，受权力部门过度介入、人情社会、学术标准缺失等内外部环境影响，很可能导致评价改革政策所倡导的同行评价出现异化现象。[3]更有学者指出：学术系统内部总是存在一个等级分布的结构，现实中的同行认可权力运行往往并不民主，西方历史悠久的“同行评议制度”事实上不过也是不同权力博弈的一个最不坏的途径。[4]因此，在看到高等教育评价改革在加持学术权力的同时，也要提出和审视学者能否正当行使学术权力的问题。否则，高等教育评价改革可能会陷入内卷化的境地，不仅于事无补，还会徒增一些解释、论证或引证材料填报任务。

二、学者正当行使学术权力面临的挑战

其一，评审任务的学科跨度。伯顿·克拉克(Burton Clark)曾指出：“即使是最通用的学科，也包括本学科大多数人所共享的观点与专门学说，并以此将本学科与非本学科研究者区分开来。”[5]这就是说，学科是具有边界的，某个学科的学者不大可能了解其他学科的情况，不适合承担其他学科的评审任务。在学者个体层面，其学科知识储备与学术判别能力更为有限，能够有效进行学术评价的事务并不多。2019年中共中央办公厅、国务院办公厅印发了《关于进一步弘扬科学家精神加强作风和学风建设的意见》，明确强调“科研诚信是科技工作者的生命”，并规定科技工作者“不参加自己不熟悉领域的咨询评审活动，不在情况不掌握、内容不了解的意见建议上署名签字”。[6]但在实际工作中，我们要经常面对其他学科的科研项目、人才项目与各种奖项的评审材料。一些高校或政府部门在委托学者进行同行评议时，也经常是将多个学科的评审材料直接打包发给评审专家。若此，看似是同行评价，其实是外行评内行。即便是相近相关学科，学者们也未必胜任评审任务。

其二，评审专家的时间成本。高质量地评价送审的学术成果，不是一件轻而易举的事情，需要评审专家认真阅读申报材料，甚至是反复比较各个研究成果。学术事项或成果评审需要投入足够的时间，因此学者正当行使学术权力就面临着时间成本问题。必须承认，确实有很多评审专家能够认真对待评审任务，愿意投入时间和精力，以保证评价结论的科学性与公正性。但是，也不排除因为各种因素的限制或干扰，确有部分评审专家只是简单浏览一下有关申报材料，便会快速给出评审结论。所以，在提交各种由同行专家进行评审的材料之时，大家都有一个基本共识，即如何才能快速抓住评审专家的眼球并打动他。总之，时间成本是影响评审质量的重要因素。即便是评审专家擅长的学科领域，若不能投入足够的评审时间，也是对学术权力的亵渎。

其三，评审专家的自我保护。评审专家隶属于不同单位和学科圈子，基于所在单位与学科领地的利益，因此有自我保护的需要或倾向。我们在校内经常参加各种评审，首要的任务就是为本单位、本学科的申报人或候选人争取入围的机会。学校与次级跨院系的各种学术委员会委员，可以说主要是各自所在学院与学科的代言人，他们讨论或评价学术事项也很难超越所在学院与学科的利益。此外，评审专家出于自我保护的考虑，也往往采信某些更为客观的标准，比如论文数量、刊物级别、转载引用情况等。说到底，破“五唯”所针对的那些指标或事项，到了同行评审专家那里，仍然是决定性的判据。原因是，如此操作既简单也容易给出令人信服的解释，忠实地行使学术权力反而成为出力不讨好的事情。若此，很多评审任务即便增加了同行评审环节，也难以达到质量、创新与服务导向的评价改革预期。

其四，修复评审生态有待时日。出现“五唯”局面非一日之过，破除“五唯”顽疾也非一日之功。凡事皆有过往，一旦形成某种生态，处理起来就非常困难。可以说，我国同行评审的学术生态并不理想，以至于大家宁愿相信那些客观的标准或指标，却对教育评价改革方案倾向于依靠专家学者主观判断的做法或办法，持着怀疑或谨慎的态度。尽管“五唯”顽疾确实到了不改不可的地步，但是学术生态问题或许比“五唯”顽疾所造成的不良影响更为严重。我们看到，教育部、科技部以及有关基金管理部门也在大力整治学术生态，然而学术生态修复谈何容易。

三、学者如何才能正当行使学术权力

以上所谈到的挑战，涉及各个层面与方面，特别是与学者自身及评审生态有关的内容，通过出台一些办法与措施，是很难立马见到成效的，确实需要坚持久久为功。但是，在力所能及的范围内，为规范和约束学者正当行使学术权力，仍然有努力为之的空间。

其一，为正当行使学术权力提供规则与技术支持。在规则供给方面，尽快完善学术同行参与评价的制度约束与流程控制，参照国际同行在不同学科中开展评价的成熟经验进行本土化的制度改造；强化源头治理，对各种评审的组织或管理单位实施更为严格的问责制度。在技术支持方面，加大各种评审平台的共建共管共享力度，切实避免申报、评审活动在小圈子中循环往复，让所有的申报材料与评审信息在技术平台上均有痕迹可以追溯倒查，进而通过评审大数据筛选出真正具备专业素质与精神的学者群体，并匹配到相应的评审任务。

其二，充分发挥专业学会在各种评审中的作用。专业学会是某个领域学术同行的“无形学院”。有学者指出：正是这种“无形学院”的组织形式决定着科学知识的发展。[7]某个专业领域的学术成果由所在专业学会组织或参与评价，这对于被评的学者个人也相对具有说服力。一些国家在相关政策设计上注重发挥专业学会的评价功能，我国也在向一些从政府机构分离出来的学会组织转移评估评审任务，但众多专业学会与评估评审任务无缘。专业学会是学者共同体，是重要的评价资源，政府、高校与各种评审平台若能与专业学会携手合作，或许可以为高等教育评价改革趟出一条新路。

其三，积极培育专业精神，拒绝参与不当评价活动。学者们是最具批判精神的，然而同时也是最为保守的群体。政府在力推教育评价改革与净化学术评审生态方面，可谓是用心良苦，并频繁出台了各种文件与举措。扪心而问，学者们对“五唯”顽疾的形成难辞其咎，对破除“五唯”顽疾也责无旁贷。不少学者为了个人或单位利益，对非专业领域的成果贸然进行跨界评价，找人打招呼、为人打招呼、听人打招呼的现象屡见不鲜，严重危害了学术评审生态。在此，建议学者们在进行同行评价时，要从学术共同体的声誉出发，秉承专业认知与专业精神，拒绝参加非专业领域的评审活动，严肃对待、公正处理、全力投入自己比较熟悉的专业领域的评价任务。政府主管部门或高校在委托学者群体开展同行评议时，也务必尊重学者的评价结论，并做好评审信息公开服务，建立有效反馈机制，推进阳光评审，使同行评价接受必要的监督。行有不得，反求诸己。坦率地讲，高等教育评价改革的成败，关键在学者群体是否普遍具备专业精神。而培育专业精神的关键也在学者群体自身，愿学者们以高等教育评价改革为己任，正当行使自己手中的学术权力，为繁荣我国的学术事业做出应有的贡献。

注：本文为2018年度教育部哲学社会科学研究重大课题攻关项目“加快教育现代化建设教育强国实施路径研究”(项目编号：18JZD049)的阶段性研究成果。

高等教育增值评价：一种绿色教育评价方式

蒋凯

(北京大学教育学院教授)

教育评价具有导向功能、鉴定功能、改进功能、调控功能和激励功能。在教育评价的上述功能中，鉴定功能是指判断被评价对象合格与否、优劣程度、水平高低；改进功能是指促进被评价对象为实现理想目标而不断改进和完善行动；激励功能则是指激发被评价者的成就动机，激励他们努力学习或工作，取得更大的成就；等等。[8]尽管上述功能在传统教育评价和现代教育评价中都得到了不同程度的体现，但相对而言，传统教育评价比较注重评价的鉴定功能和调控功能，现代教育评价则强调评价的导向功能、改进功能和激励功能。

作为一种现代教育评价方式，教育增值评价越来越受到政府、学校和社会的关注。《深化新时代教育评价改革总体方案》指出，要扭转不科学的教育评价导向，坚持科学有效，改进结果评价，强化过程评价，探索增值评价，健全综合评价，提高教育评价的科学性、专业性、客观性。[9]该方案还要求，要牢固树立科学的教育发展理念，既评估最终结果，也考核努力程度及进步发展。

以往，教育增值评价主要基于学生发展的视角。从学生发展视角看，广义的教育“增值”(value-added)是指一定时期的学校教育对学生成长发展所带来的积极影响，增值评价则是对这一影响程度的测量，包括身体和心理多个层面。狭义的教育增值评价比较技术化，是指通过追踪研究设计，收集学生在多个时间点的多次学业水平表现，以学生进步和变化作为评价的核心，考察学校教育对学生学业水平的“净效应”(net effect)，从而对学生学业进步情况和教育教学质量进行评价。教育增值评价的核心思想在于监测和评价学校教育对学生进步幅度的影响程度。与传统的教育评价方式不同，教育增值评价力图更全面地测量学校教育的影响因素，持续地调查分析影响学生发展的条件，目的在于更有效地增进学校效能(school effectiveness)和提高教育质量。

教育增值评价是一种过程性评价、发展性评价。这种评价蕴含了新的理念。首先，教育增值评价是一种绿色理念的评价。教育增值评价与绿色GDP的理念有相通之处，它以推动教育均衡、高质量、和谐有序的绿色发展为核心关注点。教育增值评价关注学生学业成就的高质量增长，尤其是学生学习动机、方法和能力等的有效增长，兼顾学生人文素养等柔性指标的提升，体现出和谐有序的绿色发展理念。其次，教育增值评价是一种可持续发展理念的评价。学生接受教育是一个动态发展的过程，随着他们融入学校环境的程度不断加深，学业表现和综合素质提升随着时间变化而变化。教育增值评价并不以某一特定时间点、某次特定测试的结果作为判断标准，而是将学生从一个起点到终点的过程性变化加以综合考量，测量学生能够长久维持的提升状态。这种增值评价方式既满足了诊断学生学习状况的需要，也不会由于过于强调甄别和筛选功能而损害学生的学习热情和学习效果，因而体现出可持续发展的特征。

最早的教育增值评价起源于基础教育领域，始于对学校效能的评价。1966年，科尔曼(James S.Coleman)向美国国会提交《关于教育机会平等的报告》，该报告虽然没有直接提出学校效能的增值评价问题，但是其研究结论引发了世界范围内对学校效能的探讨，催生了学校效能增值评价。20世纪六七十年代以来，以科尔曼报告为起点，学校效能增值评价研究在世界范围内逐渐发展起来，并对其他领域的教育评价产生了深远的影响。

与基础教育领域的增值评价类似，高等教育增值评价关注学生学习的起点、过程和结果，体现了过程性评价、发展性评价的理念。20世纪60年代以来在美国兴起的高校学生发展理论，为增值评价在高等教育中的运用奠定了理论基础，其中最著名的是阿斯汀(Alexandra W.Asitin)的高校学生发展理论和高等教育评价理论。阿斯汀是最早对高等教育“增值”进行探讨的学者之一，在他的1970年“输入-环境-输出”模型(I-E-O模型)中就已经体现了高等教育在学生增值上的重要作用，他在1991年出版的《为了卓越的评价：高等教育评价的哲学与实践》一书中系统地阐述了增值评价观。[10]阿斯汀通过对高校学生某一阶段学习过程和学习结果的分析，评估他们学业进步的“增量”，并将其视作评估高等教育效果的主要指标。

阿斯汀对评价高校教育质量的四种传统观点(分别基于声望、资源、结果、教育内容)进行了批判，提出用才能发展(talent development)代替声望和资源评价高校教育质量的思想。他指出，如果高校注重学生的才能发展，相应地就有三种教育模式：平等主义模式、精英模式、治疗模式。[11]在平等主义模式下，大多数学生的才能都获得了发展，受益人数众多；在精英模式下，极少数发展水平高的学生受益更多，其他学生获得的才能发展相对较少；在治疗模式下，少数发展水平较低的学生提升明显，也就是说原来基础弱的学生受益更多，其他学生获得的发展则相对较少。阿斯汀本人比较认可平等主义的高等教育质量模式，因为在这种模式下学生才能普遍获得不同程度的提升。

在高等教育领域，与传统的总结性评价相比，增值评价的特点在于关注学生的多次学业表现，强调过程评估，注重发挥评价的改进功能和激励功能。由于采用发展性评价视角，高等教育增值评价注重学生的成长和发展，从学生增量而非绝对学业表现的角度来考核教育质量，同时也为考核作为非精英院校的普通本科院校和专科层次院校提供了新的思路，有利于保持和促进高等教育多样性(diversity)。与总结性评价相比，高等教育增值评价还注重从纵向维度提供翔实的数据，以供办学者、高校、院系和教师有针对性地分析和改进教育质量；注重使用新的高级统计方法，以更加准确地测量学生发展增值和教育效能。

在学生评价方面，高等教育增值评价已经发展出了横向评价法和纵向评价法等方法。国外已经发展出若干比较有影响的高等教育增值评价工具，如美国的全美大学生学习投入调查(NSSE)、大学学习成效评价模式(CLA)、大学学术能力测评(CAAP)、高校毕业生技能评价(GSA)，澳大利亚的学术能力和进步测试(MAPP)等。高等教育增值评价的对象不限于学生，还包括对教师、学校、院系和学科等的评价，阿斯汀曾指出对课堂教学、教学绩效等的评价可以采用增值评价方式。

近年来，增值评价逐渐进入我国教育评价之中，这一绿色、可持续发展评价方式在高等教育领域中得到了一定程度的运用。例如，华中科技大学沈红教授团队承担国家自然科学基金项目“高等教育增值研究”本科生能力测试，对全国16个省份83所高校本科生的批判性思维能力、创造力、人际交往能力和问题解决能力进行实证研究，分析本科生批判性思维能力增值情况并对其影响因素进行探讨。国内还有机构将增值评价理念引入高校教师评价中，以改进以往我国高校教师评价侧重鉴定、甄别和筛选功能，忽视改进和激励功能的不足。

我国高等教育评价历经了从不完善到走向完善、从粗略到规范的发展过程，评价思想也逐渐从注重最终结果和绝对成绩的“资源观”向注重发展过程和相对提高的“增值观”转变。在20世纪80年代中期至今国家教育行政部门组织的历次高等教育评估中，增值评价理念逐步得到了加强。从最近两轮一级学科评估看，国家教育行政部门逐渐重视高等教育增值评价，加大对教学和人才培养的重视，不再只侧重师资、资源投入和科学研究。不同的高等教育质量评价观，实际上反映了不同的高等教育质量观。高等教育质量评价“资源观”是一种静态评价观，重点评价高校，关注师资队伍、设施设备等物质条件，遵循学术标准；高等教育质量评价“增值观”是一种动态评价观，评价对象以高校学生为主，发挥多元主体评价的智慧，关注学生发展特别是学生接受高等教育前后的变化，兼顾对高等教育领域其他方面的评价。

我国引入和建立高等教育增值评价的时间不长，积累的经验还比较有限。在我国，实现高等教育增值评价科学化任重而道远。需要高校内外多元主体参与增值评价，发挥多元主体评价的智慧；构建科学合理的增值评价体系，综合运用多种评价方式，并且在评价指标、评价过程上都有很大的发展空间。

高等教育增值评价强调评价的改进功能和激励功能，兼顾导向功能、鉴定功能和调控功能。国际著名教育评价专家斯塔弗尔比姆(Daniel L.Stufflebeam)指出，教育评价不是为了证明(prove)，而是为了改进(improve)。高等教育增值评价恰恰是一种为了改进高等教育质量而不是证明高等教育质量差距的绿色评价方式，这种目前仍处于发展之中的教育评价方式具有很大的潜力。探索高等教育增值评价，并不是要将其取代以往的高等教育评价方式，而是力图将这种过程性、发展性评价与以往注重结果的评价有机地结合起来，构建更加科学合理的高等教育评价体系。

教育评估视域下的高等教育发展

胡钦晓

(曲阜师范大学教育学院教授)

20世纪后半叶，伴随人力资本理论获得普遍认知，教育尤其是高等教育之于国家发展的重要性日益凸显。教育目的是否达到、教育组织孰优孰劣、教育经费如何分配等，不但缠绕着高等教育场域内部中的组织和个人，也关涉到高等教育场域外部的利益相关者，而这些问题又都是紧紧围绕高等教育评估提出的。因此，教育评估与高等教育发展日渐成为高等教育理论研究者和实践探索者的重大关切话题。

一、高等教育评估的重要性

从教育起源来看，教育与评估可谓是相伴而生。在甲骨文中，“教”字的右边是一个人执着教鞭，左下方是一个“子”字，左上方是两个交叉符号，有人认为这表示鞭打的痕迹，我们认为应该是《易经》中的“爻”字，表示交替的意思。甲骨文中的“爻”字，与“教”字左上方的两个交叉符号相同。因此，“教”并非仅表现为惩罚的一面，也具有奖励的意蕴，是惩罚与奖赏交替进行的过程。在中国古代社会中，教育也绝非一味惩罚。《说文》中强调“教，上所施下所效也”，《论语》中强调“循循然善诱人”“不愤不启，不悱不发”等，都说明教育充满着人性关怀。退一步来说，无论是鞭打的痕迹，还是惩罚与奖励的交替，都表现出教育与评价的密切关联。

在中国古代教育评价中，一个典型的案例是孔子对其弟子的评价。正面评价莫过于对颜回的褒奖。孔子曰：“贤哉，回也！一箪食，一瓢饮，在陋巷，人不堪其忧，回也不改其乐。贤哉，回也！”简短一段话里，前后两个“贤哉，回也”，足见孔子对颜回的高度认可。负面评价莫过于对宰予的否定。孔子曾批评其“朽木不可雕也，粪土之墙不可圬也”，这句话成为千百年来对于学生负面评价的经典话语。但是，孔子也曾后悔对弟子的评价。所谓“以言取人，失之宰予；以貌取人，失之子羽”，就是孔子悔意的真实表达。

从国外高等教育来看，政府强调通过评估介入高校发展。英语education的词语组成，其前缀“e-”表示“向外”，词根“duc-”表示“引导”，后缀“ation”表示“过程”。可见，词源学意义上的education更加注重由内向外的引导。尽管education的拉丁文及希腊文词源中均含有规训和惩罚的意蕴，但在西方世界里，教育更加注重的是引导，而非外部强制。自牛津和剑桥大学产生以降，在长达六百余年的时间里，英国政府几乎对高等教育采取不干预政策。直到1919年大学拨款委员会(University Grants Committee)成立后，政府才开始利用拨款影响大学发展的介入历程。1979年，撒切尔夫人就任英国首相后，开启了新自由主义的管理方略，大学拨款不但锐减，而且更加强调绩效评估和市场化运作。1997年，高等教育质量保证署(Quality Assurance Agency in Higher Education，QAA)的成立，则标志着英国强势建立了以绩效评估为导向的管理模式。

从中国高等教育来看，各类教育评估引发广泛争议。2020年10月，《美国新闻与世界报道》(U.S.News & World Report，简称U.S.News)公布了2021年世界大学排行榜，将山东省两所高校的数学学科推向了风口浪尖。在国人看来，一所省属院校的学科超过国内顶尖高校，于情于理都是不被认可的。事实上，超过日常认知的评估结果远不止这些，只是因为人们或是选择性无视，或是完全无视造成的。在U.S.News的同年排行榜中，清华的工程学以100分的成绩，排在了麻省理工学院(MIT)之前。再看英国《泰晤士报》(The Times，简称THE)的排名。在THE的2021年世界大学排行榜中，中国的北大和清华均有一个学科进入世界前十，分别为北大的工程技术学科和清华的教育学科。清华大学而非北京师范大学或华东师范大学的教育学科进入世界前十，无疑脱离了中国人的日常认知。北京大学的工程技术学学科能够进入世界前十，同样也经不起仔细推敲。在2019年“软科世界一流学科排名”中，北京大学在工学的22个分支学科中，无一进入“冠军榜”。根据教育部第四轮学科评估结果，排名前10位的工科中也无北京大学。可见，无论是“软科世界一流学科排名”，还是教育部第四轮学科评估，北大的工科在国内都不属于顶尖的，遑论世界范围内的比较。就北大自身而言，其工科尽管发展迅速，但与其强势的文理学科相比，还当有不小差距。我们列举这些实证，无意于否认清华、北大之于中国大学的顶尖地位，更无意于否认清华之教育学、北大之工程学的学科实力，而是强调要理性认知各类教育评价，切不可沦为梁启超所憎恨的“旁观者”，也不可沦为鲁迅所讽刺的“看客”，更不可沦为阿伦特所批判的“群氓”。

二、高等教育评估的复杂性

从教育评估的主体来看，既有内部评价，也有外部评价；既有政府评价，也有中介评价；既有国内评价，也有国外评价。可以说在当今社会，任何组织和个人都能对教育说三道四、指点一二。从教育评估的对象来看，圣贤如孔子者，尚且为自己对学生的评价感到后悔，更何况评价对象是被伯顿·克拉克(Burton R.Clark)称为“有组织的无政府状态”(organized anarchy)的大学。从教育评估的指标来看，由于评价主体的多样性、评价对象的复杂性、评价数据的模糊性、评价成本的高额性等原因，评估指标的选择就如同组织决策制定，同样甚至更为复杂和艰难，少数简约的评价指标无异于组织决策制定中的“垃圾桶理论”(the garbage can theory)。从教育评估的方式来看，尽管存在少数的主动性评估，但更多是属于全然不知状态下的被动评估；尽管存在组织和个体在场的评估，但更多是属于组织和个体缺席的评估。从教育评估结果的运用来看，有的组织直接声称无视各类商业性评估，有的组织选择性地运用有利于自己的评估；有的国家直接将评估结果与财政拨款挂钩，有的国家打着公平的旗号进行“猪肉桶”(pork barrel)式的利益均沾。所有这些，都为高等教育评估的复杂性，蒙上了更为多样、更为模糊的面纱。

三、高等教育评估的热点问题

当下中国高等教育评估纷繁多样，其中又以“双一流”“破五唯”引发民众广泛关注。前者主要是针对大学和学科的遴选和评估，后者主要是针对教师的晋升和考核。

梳理“双一流”建设高校的遴选和评估，不难发现具有以下基本特点：(1)自上而下性。2017年1月，教育部等印发了《统筹推进世界一流大学和一流学科建设实施办法(暂行)》，9月21日，就发布了“双一流”建设高校名单。无论是一流大学建设高校还是一流学科建设高校的遴选，都带有较强的政府指令性。(2)身份继承性。其中一流大学建设高校基本上承袭了原来的“985工程”高校，一流学科建设高校基本上承袭了原来的“985工程”和“211工程”高校。(3)广泛质疑性。2020年是“双一流”建设的中期评估期，各高校纷纷组织专家论证建设成效，鉴定结果一度引发广泛质疑。先期进行中期评估的高校，获得了从“全面建成”到“整体实现”，从“完成任务”到“达成度高”等不同程度的肯定性评价，可谓皆大欢喜，但是群众并不买账。舆论压力之下，后续的院校或学科中期评估，有的不敢拿出定论，有的则主动承认不足，表现出明显的谨小慎微。(4)圈内循环性。无论是从“211工程”到“985工程”，还是从“985工程”到“双一流”建设，均表现出明显的圈内循环。这种圈内循环已经严重影响到高校、教师及学生的身份认定。如同“割韭菜”般的高考招生录取，伴随名牌高校推荐免试研究生的份额扩大，使圈内循环愈演愈烈。这种圈内循环性，无论是从高校社会资本、学术资本的生成来看，还是从学术自由、教育生态的发展来看，都是极为不利的。

2018年10月，科技部、教育部等五部门联合发出通知，强调“破四唯”，“四唯”即唯论文、唯职称、唯学历、唯奖项；2018年11月，教育部办公厅下文，强调“破五唯”，增加了一唯，即唯帽子；2020年10月，中共中央、国务院发布《深化新时代教育评价改革总体方案》，提出克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾。如果将以上结合来看，可以得出“破七唯”。事实上，现实教师评价中，所要破的“唯”还有很多，尤其是“唯项目”。严格说来，科研项目是一种风险基金。且不说从历史上看，许多创新性成果是在不经意间产生的，就从当下中国来看，谁也不能确保国家重大招标课题就一定会比国家重点或一般课题的成果质量高，有的看似重大课题，到最后很可能变成一种闹剧，“汉芯一号”就是最好明证。因此，相比较其他“七唯”，“唯项目”的不可预期性、不可测度性、不平等性会更大。此外，如果不能“立”，而先强调“破”，也会带来更大的无序。教师考核中，缺失了硬性指标约束，权力寻租的空间也会随之增加。

四、高等教育评估的若干思考

大学以及学科发展要开放竞争。无论是组织还是个人，在一个公正、公平的开放环境下进行竞争，才能够促进组织或个人的良性发展。井底之蛙或夜郎自大式的封闭循环，对于大学、学科、教师、学生的学术发展皆是有百害而无一利。

高等教育评估要淡化政府色彩。中世纪以降，政府关心和支持大学发展，是高等教育强盛的重要保障。但是，无论是学术自由还是教授治学，都是高校学术发展所必需的组织特点。大学只有摆脱政府“襁褓”式的关怀，才能走向自立、自强。这些都需要建立在政府给予高校充分信任的基础上才能够真正实现。

各类教育评估要适当延长周期。十年树木，百年树人，教育发展有着自身规律。从世界一流大学的形成来看，大多是自然生成的结果。学者创新需要一定时间的闲暇，学科成长需要持续性的积累，一流大学形成更需要传统的积淀。

完善成果产出导向的多维评价。由于教学具有润物无声性，科研具有高度或然性，因此，借鉴专业认证中的“成果产出导向”，或许是未来高校、学科、教师以及学生评价的基本走向。此外，从“四唯”“五唯”走向“多维”，也或许是在打破旧制度之后，如何建立新制度的一个逻辑进路。

注：本文系国家社会科学基金教育学一般课题“高校文化资本与高等教育发展及变革研究”(项目编号：BIA200196)的阶段性研究成果。

大学评价的“中间道路”

王建华

(南京师范大学教育科学学院教授)

受新自由主义、计算主义和管理主义的影响，当前大学评价面临三重困扰：首先是关于要不要评；其次是关于评价的方法；最后是对于评价结果的使用。

真实的大学评价既不像新自由主义者、计算主义者和管理主义者所说的那么美好，也不像反对者所认为的那么不堪；同样，真实的大学作为一类社会组织其生存与发展的境况既不似量化评价和问责制的支持者所指责的那么低效、保守和自利，也不像反对者为之辩护的那么理想和完美。我们既不能以大学的理想来反驳现实中的评价，也不能以评价的理想来苛责现实中的大学。“过度与不及是恶的特点，而适度则是德性的特点。”[12]实践中过度强调大学自身的理念性，或将希望寄托于理想的大学评价体系都是不现实的。关于大学的评价唯一可行的或许就是寻找并践行一种“中间道路”。

一、在评与不评之间

我们时代的大学需要评价，甚至必须接受评价有其客观必然性，不是由大学人的主观意愿决定的。具体而言，一方面，在知识经济和创新创业全球化的背景下，大学作为地区、国家和全球创新体系的轴心机构，对于经济和社会发展起着至关重要的作用。另一方面，大学评价作为更大的新自由主义政策议程的一部分，在调节和建构大学与政府、产业之间的关系方面起着不可或缺的连接作用，已经成为国际组织、国家、地方政府、大学联盟以及大学的管理者“治理”大学的重要工具。某种意义上，当前对于大学的评价是大学的所有利益相关者的理性诉求，而非外力的强加。对于外部利益相关者而言，通过评价可以监督或督促大学改进自身的教学和研究工作，以更好地服务于国家的战略需求和社会需要。对于内部利益相关者而言，评价的结果不但可以彰显大学之于经济社会发展的重要性，而且可以有力回应外部利益相关者对于大学的问责，进而有助于大学从政府和社会获得更多资源。

我们时代虽然从政治、经济，甚至高等教育自身发展的需要上讲，大学评价有其必要性，但经验表明，大学评价的后果并非总是积极的或正面的。相反，随着评价的增多甚至是滥用，一些意图之外的负面后果正越来越让人对于大学评价的正当性和合理性产生怀疑。评价作为一种大学治理和治理大学的工具，带有“一刀切”式的强制性。无论是政府主导的还是第三方的评价，一旦被纳入政策议程都会对大学的知识治理产生深刻的影响，“特别是大学正在产生的知识类型，正在为谁产生这些知识，以及如何评估知识的传播”[13]。极端情况下甚至会产生“评价的悖论”，即根据政府以及第三方的评价结果，很多大学在评价的各方面都表现优秀，但实质上可能既没有生产出新知识、培养出创新型人才也缺乏服务经济社会发展的真实能力。

鉴于此，大学评价必须审慎考虑其适用范围或边界，避免滥用评价。换言之，“非必要，不评价”。大学作为一类专业组织，绝非所有的活动都必须接受政府或第三方的评价。对于人才培养和科学研究等核心事务，大学自身理应拥有评价的自主权。即便是那些适合于或需要外部评价介入的事务，评价也绝非越多越好；更不意味着只要是外部的或第三方的评价就一定是科学的、公正的、合理的，并要求大学必须接受或认可。如果我们承认在后工业社会中大学之于经济社会发展具有极端的重要性，就必须承认大学相对于政府和社会的独立性。不自主则无责任。一个完全依赖型或依附性的组织(大学)很难成为后工业社会的轴心机构。

二、在测与不测之间

除过于频繁和花样繁多之外，当前大学评价中另一个备受诟病之处就是偏好量化。某种意义上，对于统计和量化的偏好不是大学评价的独特问题，而是我们时代所有评价的通病。只不过与其他领域的量化评价相比，其对于大学的伤害更加严重。在量化评价的驱动下，“一所大学早已忘记了大学的功能，且野蛮地发展着，毫无协调理念或现实制约”[14]。与早期的评价强调“专业判断”不同，当前的大学评价更注重技术层面上的“统计”和“测量”。如果说以前对于大学优劣的“判断”需要专业知识，那么当前的大学评价其合法性和科学性则主要基于统计学。根据统计学的原理，“一旦某个现象被量化标准转化，它就可以进行加减乘除，即使这些运算在现实中没有任何意义。数字会带来一种让人舒心的虚幻，无共同尺度的东西也可以拿来衡量比较，因为数学计算总是‘有办法’的……数字会生造一个根本不存在的通用统计基准”[15]。实践中由于理性被简化成了计算，所谓大学评价考察的仅仅是大学的可量化的数据与指标体系的相关性，而非大学发展及其影响因素间的因果性。对计算主义者而言，大学评价中测量和统计必不可少，因为没有统一的指标根本无法客观比较大学的优劣。为了满足评价中对测量的需要，大学不得不放弃或暂时搁置自身特殊的组织目标和价值取向，降格为一个普通的知识和人才“生产组织”。伴随着基于测量和统计的评价实践的蔓延，大学像商品一样被公众“评头论足”。在简单的数字和等级面前，大学以及关于大学的评价实现了“袪魅”，大学的发展过程被作为符号的“排名”或“等级”所支配和控制。更高的排名更强的竞争力既引领大学追求卓越也刺激着政府和社会加大投入。无论政府、社会还是大学都会反复援引量化评估的数据来为其决策进行辩护。最终大学评价既成为一种象征性的权力，亦难以避免地沦为一种“符号暴力”[16]。

大学评价中“指标的陷阱”和“测量的迷思”客观存在。事实上，无论基于何种先进的方法或复杂的技术，我们都不可能实现对于大学的精确测量，并基于测量进行科学的评价。无论如何，也无论何时，大学评价中的统计和测量都只能衡量一些最简单的事实而无法反映大学在现实世界中的真实状态。大学事关人性的启蒙和塑造，涉及文化的传承与知识的创新，绝非那些简单的科研指标、师生人数或产业收入等可以衡量。那些基于测量的评价所揭示的或展示的只是“片面真相”“主观真相”，甚至是“人造真相”，而非“事实性真相”。[17]对于大学评价我们需要更宽广的、综合的视角，我们需要承认高等教育系统的复杂性和多样性，更需要承认大学评价的“不可测性”。这种“不可测性”与其说是大学评价工作面临的困境，不如说是大学作为一个学术性的专业组织的优点。大学评价绝不能只关注那些容易测量的简单事实，而忽略了其他极其重要的事项。公允地说，对于大学而言，绝不存在唯一的精确的关于质量或水平的标准。当然，这也不意味着因为大学评价中有不可测量的事项而完全否认基于测量对大学进行评价的任何可能性。实践中大学评价既要努力去测量那些可以科学测量的，也要考虑使用测量之外的其他方法对大学里那些极其重要但又不可测量的部分做出专业“判断”。换言之，大学评价中应坚持“可测，则测；不可测，则不测；可测与不可测之间的不要强行测量”。

三、在用与不用之间

在“评与不评”和“测与不测”之外，关于大学评价的另一个重要问题就是对于评价结果的使用。近年来，受管理主义的影响和学术锦标赛的驱动，高等教育中以测量为基础的绩效评价以及基于绩效评价的问责愈来愈流行。[18]评价的结果不仅事关大学的排名、声誉，而且直接影响资源配置。为了能够在各类评价中占据有利位置，评价指标成了大学及其利益相关者关注的焦点。无论大学还是大学人为承认而竞争的不再是某种稳定的学术地位，而是变动不居的在各种评价中的“表现”。大学需要年复一年地应对各种各样的评价，并力争在所有的评价中有好的表现。结果就是，测量这条“尾巴”已然开始摇动大学这条“狗”。[15]换言之，大学评价日益成为高等教育改革和发展的“指挥棒”。

但问题的关键在于，很多时候基于测量的评价所指引的方向未必符合大学的常识理性和高等教育发展的规律。很多时候所谓的评价既不是对于大学发展真实状态的“事实陈述”，也不是“专业判断”，而只是对于某些数据的“统计”。由于指标的选择或指标体系的不同，大学评价的结果通常具有可逆性或不确定性。此时如果强行将某种量化评价的结果作为对于大学进行问责的依据乃至唯一依据，势必诱使大学为了符合量化评价的指标而偏离正常的发展轨道，从而既不利于大学自身的可持续发展，也不利于大学促进经济社会发展。事实证明，“随着我们建立一个更加严苛的责任架构，我们需要弄清楚我们在计算什么，为何如此计算，谁选择了衡量标准，衡量标准又是如何选择的，衡量者和衡量标准之间有何政治联系，以及这些衡量标准会带来什么样的激励机制”[15]。作为生产高深知识和提供“高等的教育”的制度性场所，大学存在的理由和发展的目标包括但绝不限于人才培养、科学研究和社会服务。从中世纪至今，经过近千年的发展，现代大学已经成为一个高度综合性的机构，大学的存在和发展涉及现代社会的方方面面，评价结果往往“牵一发而动全身”。鉴于大学的极端复杂性和高度重要性，任何一种评价都不可避免地存在这样或那样的局限性，对于评价结果的使用稍有不慎就极易引发连锁反应和未意图的负面后果。

基于此，对于任何一种大学评价结果的使用，尤其是当与资源配置相挂钩时，我们都要慎之又慎。实践证明，好的问责制会诱致大学发展的良性循环；坏的问责制则将会导致大学发展的恶性循环。面对大学评价的结果，我们需要思考：这种评价方式及其结果在高等教育领域是否具有可接受性？是不是不实行这种评价高等教育相关领域的发展就会受到抑制？这种评价在发挥有效作用的同时有没有不可避免的副作用？如果实践证明这种评价方式及结果在高等教育领域不可接受，大学应明确地拒绝；如果这种评价可以接受但对于高等教育发展并无显著促进作用，大学可以选择忽视或无视；如果实践证明该项评价是有效的或至少是利大于弊的，大学则需要积极应对因这项评价而带来的市场竞争和政府问责。

注：本文为2020年度教育部哲学社会科学研究重大课题攻关项目“教育高质量发展评价指标体系研究”(项目编号：20JZD053)的阶段性研究成果。

学习范式视域下的本科教育评价

吴立保

(南京信息工程大学高等教育研究所教授)

1995年，美国加州帕洛玛学院(Palomar College)的罗伯特·巴尔(Robert B.Barr)和约翰·塔戈(John Tagg)首次提出本科教育的新范式——“学习范式”(Learning Paradigm)。“学习范式”的兴起改变了高等教育的走向，引起了本科教育的整体性变革，对本科教育评价产生了重要的影响。

一、“学习范式”的理论诠释

1995年，巴尔和塔戈在Change上发表的《从教到学——本科教育的新范式》一文中首次提出“学习范式”这一概念，并运用二元比较的方法提出了“学习范式”的概念框架。巴尔和塔戈从任务与目的、成功标准、教与学的结构、学习理论、生产力和经费投入及角色的性质等六个方面，比较了“学习范式”和“教学范式”的差异。[19]巴尔和塔戈将长期以来高等教育占主导地位的传统范式称为“教学范式”，并指出美国高等教育正在经历从“教学范式”向“学习范式”的转换，教学的重心由教师的“教”向学生的“学”转移。传统占据统治地位的大学范式的基本假设是——大学是产生教学的机构，但是，大学范式需要发生转换——大学应是产生学习的机构。大学的真正目的在于让学生采取适合他自己的手段或方法去学习。

本科教育“学习范式”的提出引起学者从不同维度对“学习范式”进行诠释。1997年，威廉·康普尔和卡尔·史密斯提出大学教学的“新范式”，在理念上也是强调从“教”向“学”的转变。但是，他们的“新范式”更具建构主义色彩，其中关于师生共同体的构建、师生合作性的团队关系、权力在师生之间的共享以及交流合作以共同解决问题的表达，在实际层面更加强调“教”与“学”的平衡和相互依存。[20]迪·芬克强调，大学不只是“产出学习”，而且是“产出有意义的学习”。大学的根本任务是寻求有效途径来为学生提供有意义的学习经历。有意义的学习经历是有意义的、持续的变化。课程教学不仅仅是知识的传递与积累，而是给学生带来有意义的变化，这种变化在课程结束后，甚至在学生毕业后还将持续下去。它将提升他们的生活价值，使他们做好进入不同社会群体或者进入工作领域的准备。[20]奥班尼恩(O’Banion)提出需要用一种新的方式来思考本科教育，核心是把学习置于整个教育结构的中心，将学习作为教育的主要目的，构建“学习中心大学”。“学习中心大学”是把学习放在首位，任何方式、任何地点和任何时间为学习者提供教育经验。其中最基本的哲学是以学生为中心，学生要置于所有教育活动的中心地位。[21]

2001年3月，在圣地亚哥召开的北美第五届“学习范式”会议上，费尔(Frank A.Fear)等人将参会者提出的25个“学习范式”的隐喻归纳为“探究和发现、自然系统动力学、关系、矛盾和冲突、选择和内容”等5个主题。[22]透过多样化隐喻可以诠释与会者对“学习范式”较为一致的理解。在本体论上，“学习范式”强调一种关系性存在，学习者通过与环境的联系而主动建构自己的学习经验。在价值论上，“学习范式”自身不仅是目的地，还可以延伸理解为达到目的地的路径。在认识论上，“学习范式”必须思考教学改革的背景，而不是特定的内容。它能促进人们产生新思考和新思想，而不是想象中解决一切问题的法宝。在方法论上，“学习范式”是对“教学范式”的整体性超越和转变。

总之，“学习范式”概念的提出，预示着大学本科教育的整体性转型，引发了一种新的思维方式，重新思考教育的本质和教学的内涵，以学习为关注点，推进从“教”向“学”的转变。巴尔与塔戈后来对“学习范式”给予简洁的概括，将“学习范式”理解为“能够产生深度学习，并随着时间的推移越来越好”[22]。学习范式的提出是对传统本科教育的反思，从“教”到“学”的转换是根本。拉斯特(C.Rust)表示，“有一种范式的转移，从关注‘教’转向关注‘学’，超出了修辞学的意义，更加关注技能的发展，尤其是通识、可迁移的技能”[23]。

二、本科教育向“学习范式”转型的价值旨归

本科教育向“学习范式”转型成为21世纪高等教育的潮流，“学习范式”作为一个探索性进程，首要的是从整体层面真正理解其价值旨归，才能对本科教育评价改革产生指导作用。

“学习范式”提供了理解本科教育的新视野。本科教育“学习范式”的提出有着坚实的教育哲学基础，尤其社会认知心理学、建构主义心理学、人本主义学习理论等方面的理论进展为其提供理论依据。“学习范式”概念的提出与其说是一种理论创新，更不如说是一种发现。巴尔和塔戈的贡献在于提炼了高等教育建立学习中心的核心思想，提出了一个框架，提出了一种新的操作方式。[22]从“教学范式”向“学习范式”的转换，这是一种范式思维转变，而不是简单的模式变革。一旦“范式”变了，我们看世界的方式变了，看到的世界也就变了。所以，“学习范式”拓展了教育的范围，使我们不再局限于“教学范式”的边界。这种变革是一种整体的转变，而不是一部分一部分的原子式改革，通过部分的变化是难以组装一个整体的学习范式，这就是“整体”大于部分之和的效应。

“学习范式”倡导建立学习中心大学。本科教育向“学习范式”转型，强调大学的使命是产生学习，需要构建学习中心大学，其目标定位应是：把学习放在首位，创造有意义的学习环境，以提高学生的学习质量为目标，对学生的学习负责。巴尔指出，建立以学习为中心的大学必须满足五个条件：第一，大学必须能详细地鉴别出显性学习的结果；第二，大学必须开发一个能从学生个体水平到整个班级、教学计划以及整所大学水平上测量学习成就的系统；第三，大学课程建设明显落后于显性学习的结果，必须不断开发；第四，为了获得所需要的学习结果，大学必须提供广泛而有权威的选择权；第五，为了增强学生的学习能力，大学必须持续、系统地研究可供选择的教学方法。[24]

“学习范式”更加关注学生的学习。“学习范式”关注学生的学习，要求本科教育改革必须致力于消解主要依靠“教”的体系，回归主要依靠“学”的体系。对于学生来说，“学习范式”是学习者自身引起范式的转换，能够调动学生的积极性，激发学生的动机，使学生有明确的目的导向性和深层目标(deep orientation)，这样使学生的学习产生增量。“学习范式”关注学习，本质上是关注学生的发展，需要学生的主动参与和自主构建。学生需要改变被动学习的习惯，提高学习质量，适应社会对高质量人才的需求和自身发展的需要。

“学习范式”促进大学教学组织的变革。“学习范式”强调教学组织的改革是对原有教学要素的重新组合，其标准是围绕学习这一中心，目的是为学生提供更好的学习环境。大学教学组织的改革以人本化价值取向指导教学管理活动，真正实现管理即服务的理念。把教育的“选择权”交还给学生，让学生可以按照自我特点在较宽口径的教学计划中自主选择课程、教师、进程和发展方向；把教育的“参与权”交还给学生，激发学生创造动机和发挥学生创造潜质。同时，在教学组织中应注重建立学习的支持系统，做好学生学习评价的工作。学习评价是构建以学习为中心大学的重要环节，是大学目标的修订和学习环境创造的标准。

三、“学习范式”促进本科教育评价改革的转变

“学习范式”的提出为本科教育评价改革提出新的思维，展现出新趋势，其积极意义在于聚焦学生学习成果评价。

评价目的聚焦学生学习。对教育评价目的的探讨总是存在两种声音——“问责”抑或“改进”，这两者往往难以进行调和，正如埃威尔(P.T.Ewell)对改进范式与问责范式所描述的那样，两者在目的、立场、理念、工具等多个维度各不相同。[25]然而，学生学习成果评价为两种范式的教育评价走向共同目标的实现提供了解决方案。从发达国家高等教育实践来看，通过积极探索学生学习成果评价工具的使用来实现“问责”评价与“改进”评价两种范式的统一，一是需要学校对外部的合理关注进行积极回应，二是要积极展示与评价结果相关的行动，三是重视评价在学校发展中的重要地位，四是要将评价嵌入日常的教育教学活动当中。[26]

评价理念重视教育增值。对学生学习成果的评价不是仅仅关注学生的学习成果，它更加重视“投入”与“过程”对学生学习成果的作用，强调“教育增值”在学生学习成果评价中的体现。以科尔曼报告为起点，教育增值的理念与方法在全球范围内发展起来。博耶(Ernest Boyer)在《大学：美国大学生的就读经验》中借鉴了“教育增值”的观点，认为在对学生的学习进步进行评定的时候，要根据学生所修课程的收获进行等级和分数的评定。[27]20世纪70年代，阿斯汀所提出的“输入-环境-输出”模型、参与理论等同样是对教育增值理念的具体体现，他借用经济学增值最大化(add the most value)的术语，认为“最卓越的学校就是那些能够对学生的知识和个人发展，以及对教师的学术能力、教学能力和教学产出施加最大影响力的学校”[28]，进而对本科生在大学教育中的教育增值进行了长期的实践调查与研究，为学生学习成果评价的实践与应用提供了重要的理论基础。

评价重点关注学习的高阶能力。学生的学习成果包括在接受一段时间的教育之后所获得的知识、能力和态度的总和。越来越多的学生学习成果评价着眼于对学生能力和态度的评价方法的开发，特别是面向21世纪未来人才核心能力的评价。布鲁姆(B.S.Bloom)的目标模型包括识记、理解、应用、分析、评价与创造，其中分析、评价与创造属于高阶思维能力。当学生能够将所学到的知识迁移到新的问题和新的学习情境之时，他的学习才是有意义的学习。教育就是要实现学生从低阶能力向高阶能力的转变，大学教育也越来越认识到培养学生高阶能力的重要性。学习范式强调学生学习成果评价，重点在于对学生高阶思维与能力的评价，不仅评价学生“知道什么”，更加强调评价学生“能做什么”。批判性思维能力也是备受国际高等教育重视的能力之一，对批判性思维能力测量工具的开发也不断走向成熟。

评价主体鼓励多元参与。学生学习成果的评价主体逐渐从“一元”走向“多元”，多维度呈现学生的学习成果。学生学习成果评价强调对知识、能力和态度的全面评价，这就从根本上扩大了参与评价的主体范围，学生学习成果可以通过多种方式进行呈现与表达，对学生学习成果的评价也需要从多角度、不同层面开展实施。其中就包括学生既是评价对象同时也是评价主体。学生学习成果评价越来越重视学生作为高等教育消费者身份的角色，各国纷纷开发并组织实施了对学生接受高等教育的满意度调查，其中澳大利亚的课程体验调查(Course Experience Questionnaire，CEQ)、美国毕业生调查(National Survey of Recent College Graduates，简称NSRCG)、德国本科毕业生调查(Survey of Bachelor’s Graduates，简称SBG)等均涉及对大学生学习体验的满意度调查。

注：本文系全国教育科学规划课题国家一般课题“大学本科教育向‘学习范式’转型：国际趋势与本土探索”(项目编号：BIA180172)的阶段性研究成果。

人文科学评价必须坚守人文科学的逻辑

曹永国

(苏州大学教育学院教授)

人文科学的危机从未解除，在今天遇到了诸多严峻的挑战。面对不断加剧的文化工业、大众消费、社会问责机制、流行的知识产生模式，以及泛滥的多元文化主义的冲击，人文科学可谓节节退守或节节溃败。在不断地适应、变革或转向中，人文科学屡屡陷入自我迷惘。东施效颦、放弃自身存在之根，抑或复归人文科学之独特性？评价之于人文科学的重要性不言而喻。其既可成为人文科学发展的助推器，亦可是巨大的绊脚石。评价俨然就是一种控制，乃至一种形而上学，形塑研究者认识与思维图式以及对自我的期待。

目前，人文科学的评价普遍存在这样一些现象：(1)功利化，以市场需求、指标化确定人文科学的含金量；(2)技术化，以简化、量化来确定人文科学的标准，将量化方法随意移植，寻求纯技术化的最优方案；(3)自然科学化，用自然科学的模式来评定人文科学，十分关注人文科学研究中的可实证、可计算的方面；(4)统一化，即以统一的无差别的标准要求人文科学研究，即使所谓的分类指导也只是表现为量的不同，不同的学科遵循的评价体系近乎一致。这直接导致人文科学评价中的“外在化”“单一化”等，热衷于将一些没有意义的数值进行计算与排列，使人文科学的发展越来越自我疏离，人文学术的行政化越来越严重被一种典型的“工程主义”“技术主义”思维垄断。

事实上，对这些现象的批判、质疑、声讨之声不绝于耳。然而有趣的是，当代人文科学的发展同时伴随着这种现象的日益加固。人文科学在“去人文化”的质疑和加固中获得了所谓的极大发展。一方面，不断强调加强人文科学的独特性；一方面，又以科学化来替代人文科学，让数字化表达和量化计算成为垄断与权威。结果便是，人文科学的东施效颦，甚至奴性十足的模仿。

相对于人文科学所产生的数量繁荣，我们显然更应该关注人文科学评价所带来的人文精神危机与研究志趣的变异。

首先，方法取代内容。流行的评价是一种方法主义、计量经济学，用量化考核和效率管理人文科学研究，奉行的是简单、可操作、可计算的原理。如此，它就排除了人文科学自身的一些特征：如那些难以量化的、主观化的、所谓的模糊化的东西就会被无情地漠视或排除；或者那些无法被规范的、不能被简单说明的命题，均不具有真正的价值和合理的意义。研究者更多关注如何达到评价目标要求的方法，反而使研究的内容不再获得真正的关心。各种方法层出不穷，领域和方向愈加细小狭窄，人文知识越来越零碎化，反而无法凸显对人文科学最核心的问题——人的价值和存在意义的问询与思索。热衷于解决短暂的具体问题，结果人文科学研究成了人文任务、事务研究，各种自然科学的方法也成了人文科学的确保。由于人文任务、人文指标的旨向，热点、政策、时髦理论成为人文研究的重心和核心，研究的敏锐性等同于时刻嗅到这些东西，并与之亦步亦趋。人文研究愈来愈滑向了短平快和新奇特的状态。短平快成为研究能量的表达，新奇特成了研究创新的标志。朝向于此的各种努力，毫无质疑地被视为革新性的创举而不断向人们炫耀。如此，各种“挖空心思”“投机取巧”“零敲碎打”等现象就越来越烈。不理解人文科学自身，却不断生搬硬套、不加批判地将某些偏见融入自身。人文科学的研究工作可谓五花八门，实为越来越混乱。

其次，研究人的异化。主要表现为：(1)研究与精神的背离，学问与人生的分离，形成了所谓的客观化、中立化的研究及其认识，从而无法给研究者带来自我精神上的提升。如此，研究是研究，和如何生活没有关系，研究者身上的犬儒主义处处可见。(2)人的物化与片面的自我认同。研究者将自身视为一连串的数字和符号，用恰好能够计算的因素来自我认同，自觉地迷恋这种数字化和工程化的世界，从而迫使产生一种具有象征性的理想抱负：对自我进行自觉的控制。哈耶克在《科学的反革命》中写道：“对人类事务的自觉控制越多，人类就能变得越来越像超人。”[29]然而，这却是一种偏见、幻想和迷信，让我们的生命建立在科学主义的专制主义之上。(3)技术化工具人的兴盛。研究者从存在本质上应该将自己改造成一个工具人，能够被纳入评价的体系。唯有能够出现在所谓的评价系统中，才能获得承认和实现价值。即个体价值必须为评价体系和统计数据所支配，服务于此并以此为志向。这意味着人文研究者必须遵循“目的—方法—反馈”的“效率最大化”的思维技术，使自己行为程式化、功能化、套路化。于是，成长起这样一类人，他们的智慧和行为变得如此有影响和如此重要，被视为有学问，然而他们所理解的科学研究的范式却对社会及其生命、价值知之甚少或乏善可陈。

最后，研究精神的委顿。当代人文科学评价营造了一种人文委顿的研究精神气质。一方面，人文环境充斥了一种庸俗的功利主义和粗暴的技术主义，让人文科学研究成为恶性竞争和权威垄断的名利场。在这里，立场大于研究，态度高于学术，形式胜于内涵。另一方面，人文科学自身不断地自我菲薄，既处于自然科学的鄙视链中，又深陷自身的鄙视链中。人文科学研究不再关注那些伟大的永恒的问题，难以体现出对崇高精神的向往，以及宽阔的智识视野。独立的人文精神难以得到自觉的捍卫，不再坚持规范性和恪守人文底线，而往往表现为主动献媚和学术机会主义。没有时间深度体验，没有共鸣，也没有智慧，把精力用于事实和信息的收集。一旦人文研究者自觉地迷恋这种精神气质，它就形成了人文研究者的世界观。

人文科学必须作为一种精神力量，一种自我异化的解毒剂，让人文科学如其所是，回归自身。这意味着人文科学评价必须坚守人文科学的逻辑，尊重人文性和科学性。何为人文科学的逻辑？逻辑在这里至少有三种含义：(1)事物之根据、根源和原因，使事物成其自身之根基。(2)现象之超越，逻辑是事物之本质而非现象，是对现象之超越。(3)理性运作之学问，根据只有逻辑中呈现，逻辑被作为一种理性，心智运作的原则。因此，人文科学之逻辑即人文科学之根据、基础、本质以及运行的规则或理性，它使人文科学成其为自身，呈现为自身。依此，坚守人文科学的逻辑就意味着必须问询三个问题：“何为人文科学”“人文科学之根基”“人文科学如何运作”。

人文科学一般是相对于自然科学、社会科学而言的，是指以人自身精神、价值、思想、信仰等为对象的学问，常常也被当作“人自身的学问”。人文科学主要涉及人的“位格”(personality)，以区别于人的物理与生理的存在。即人文科学就是研究与实践人如何成为人的学问，凸显的是人文科学作为一种功能、活动、展现、示范的意义，而不仅仅是物化或非人格化的产品和结果。因此，人文科学的重心是昭示价值、意义和教化，透显人存在和人类文化的真正深层向度与超越性。基于此，人文科学之为人文科学的根基即要透显人的独特价值，离析出人的精神世界和思想世界的表达，就是建立于人的思想、实践和精神的伟大，建立于生命的原则。在这个意义上，人文科学就是“人如何过美好的生活”，将人类美好生活的各个方面通过理论思考呈现出来。不同于自然科学中的认识论，人文科学关乎本体论和价值论，在乎于给人提供何种品格的精神支撑。在今天的多元主义价值崇拜下，人文科学的价值性关涉会视为宏大叙事，然而，这恰恰是人文科学独特性之所在，是人文科学自身尊严和权威之所在。遗忘了这一点，人文研究不管有多大功能，取得多大成就，都会使人文科学根基不稳、迷失方向。降低了甚至放弃了对人生意义和价值的追求，无法给人的生活、生命提供实质性帮助，不能捍卫人之独特性价值，这是人文科学的权威危机的真正源头。作为一个统称，一个诸种学科的总称，其普遍性和统一性在于此，乃是“方向”与“使命”上的普遍和统一，它们参与了一共同的使命，各安其法地捍卫了同一种价值，各展所长地分享了那些独特的“意义概念”。人文科学不同于自然科学，这意味着其运行法则不能仅仅化约为简单粗暴的数量法则，而应该体现人文理性的特点，涵括人类的想象、体验、批判、感悟、思辨之形式，论列我们以何种方式参与对人类自身及其文化的认识、发现和发展。

人文科学有人文科学的逻辑，不能对之行使科学主义式的“暴君式专断”。要尊重和坚守其自身的逻辑，人文科学评价首先必须避免“一刀切”的懒政，以多元、开放和包容的态度对待人文科学之异质性。其次，人文学科评价需始终问询自身之目的及其在科学发展中的位置、作用，避免僭越和凌驾，包括：(1)是否保护、彰显和促进了一种真正的人文精神；(2)是否真正繁荣了人文科学；(3)是否真正尊重了人文研究者之独特尊严。最后，人文科学评价需营造一种人文教化的气象，使人文研究能够发生一种精神性实践，自觉抵制与化解人文科学中日盛的“犬儒主义”。

注：本文系江苏省社科基金重点项目“教育理论研究进展逻辑及创新路径研究”(项目编号：20JYA002)的阶段性研究成果。

学术创新的条件与评价制度改革

沈文钦

(北京大学教育学院副教授)

当代社会的一个典型特征是评价无所不在。特别是在教育和科研系统当中，评价贯穿每一个环节，评价的结果更是直接决定了人们最为重要的一些生活机遇，例如入学机会、职业获得、研究资源获取，等等。在国家学术创新体系当中，评价也是极为重要的一环。原始创新不足、关键性技术面临瓶颈是我们国家面临的一个突出问题。相应地，如何建立科学的评价制度、促进学术创新成为一个棘手的管理难题。根据波普尔的说法，知识创新是无法规划或者预测的。因此，管理者能够做的是对创新的条件施加影响。[30]创新的条件包括方方面面，就学者个体而言，能否在良好的学术环境中接受科研训练、能否获得从事科学研究的职业机会和相应的资源投入、能否保证充足的科研时间、科学研究的成果能否获得公正的认可形成正向激励，这些都是重要的条件性因素。那么，学术评价如何服务于这些条件性因素的形成？这是本文希望探讨的问题。

人的思维方式受教育经历影响较大，学者是否有创新的意识和能力，和其教育经历紧密相关，这也是为何“钱学森之问”直指教育系统的原因。已有研究也表明，学者对问题的选择、提问的方式，以及是否选择冒险性问题和其所受的科研训练密切相关。[31]同样，在博士生教育中，也有学者指出培养博士生的学术个性(intellectual individuality)非常重要，因为这是很多学术领域得以发展的前提。[32]没有学术个性，很多领域就会满足于重复性工作，停滞不前，在常规范式内循环。因此，在学者接受科研训练的阶段(包括本科生阶段和研究生阶段)，如何在评价环节鼓励冒险精神和学术个性就变得极为重要。这一评价将涉及两个影响学者成长的结果：第一，哪些学生将获得继续接受学术训练的机会；第二，哪些学生将在科研训练阶段获得更多物质资源(如奖学金、研究经费等)和象征性的激励(如各种荣誉称号)。

但是，由于科研训练阶段所涉及知识的一些特点，评价是一件很复杂的工作。首先，正如波兰尼所指出的，在人类知识体系中，默会知识具有极为重要的意义，“所有的知识要么是默会知识，要么就根植于默会知识”[33]，这就意味着在选拔未来的科学家时，默会知识的考察不可或缺。但是，默会知识是不能用外显的符号表达的知识，因此理论上无法完全通过笔试进行考察。正是基于这一原因，高考研究专家秦春华指出，如果完全依据高考分数，高校并不能招到最理想的人才。[34]在研究生的入学选拔阶段，面试的重要性更是已经成为共识。近几年来，各个高校都逐渐推行申请审核制，以选拔优秀的博士生人才。从一些学校的反馈来看，与传统的考核方法相比，申请审核制在不拘一格选人才方面确实具有独特的优势。但另一方面如何确保申请审核制的公正性也不容忽视，因为对“优秀”的定义难免带有社会建构的特点。其次，需要从人才成长的完整周期来考虑学术后备人才的选拔和评价问题。为了提前将适合于从事科学研究的人才选拔出来，我们国家设计了很多相关的制度，如大学本科阶段的各类卓越计划、各类拔尖创新人才实验班等。与其他学生相比，入选这些计划的学生将获得更加充分的指导和更加充裕的资源投入。不可否认，这些计划和实验班在很多方面取得了相当不错的成效，但也存在各式各样的问题。问题的根源在于，拔尖人才在很大程度上是无法提前“预订”的，学者的成长规律在不同个体身上也存在很大的不同，有早熟早慧者，也有大器晚成者。一个好的评价制度不应该是一个单一尺度的筛子，而应该能够将不同的可能性考虑在内，尽量设置少的障碍，让更多的人产生科学研究的兴趣并有机会参与科学研究。

为了促进科研人才的发展、提高科研创新的能力，我国出台了种类繁多的人才计划，这些人才计划都有清晰的年龄限制，其中很多人才计划都将35岁和40岁作为分界线。这一划分建立在一个根深蒂固的传统认知基础之上。根据这一观点，青年学者是知识创新的主要人群。最近二三十年的一些实证研究已经对此观点提出了挑战。大规模问卷与访谈表明，并非青年学者完成了最重要的科学发现，而且青年学者也并不更容易接受新观念和新理论，他们只是更容易进入新的研究领域开疆拓土。[35]有学者对库恩在《科学革命的结构》一书中提到的24个革命性科学家进行了分析，结果表明，如果考虑不同年龄段人口在整个人口中的比例分布，那么中年科学家提出革命性创新的概率更高。[36]由于创新的行为广泛分布在不同的年龄段，因此在评价当中减少各种形式的年龄限制是必要的，例如博士后入站年龄不超过35岁的规定就不甚合理。

科学创造是高度个性化的活动，这就需要在学者的成长过程中为其提供“被保护的空间”和相对宽松的环境。但是，目前高压的竞争环境和量化评估取向会使得大学教师对颠覆性原创研究采取风险规避策略。[37]同时，在新的时代背景下，理工科领域的科研创新越来越依赖于团队，这意味着创新不能仅仅依靠个人的英雄主义。从科研创新的角度来看，如何从评价角度鼓励科研合作和团队合作变得至关重要。在目前我国的科研评价当中，一般只认可第一作者和通信作者的贡献，很多考核和评审都不重视甚至不认可非第一作者或通讯作者的贡献，这无疑不利于鼓励合作。如何在绩效考核、职称晋升等环节考虑非第一作者的贡献是应当考虑的问题。

任何学者都不是孤立的个体，他们能否取得突破性创新，还取决于一些组织和政策性因素。德国学者托马斯·海因兹(Thomas Heinze)长期致力于研究知识创新的制度条件问题，他指出，创新性的研究成果与下列因素有关：较小的群体规模、可以获得不同技术的组织环境、稳定的研究资助、及时获得单位以外的技术和资源、促进性的学术领导力。[38]美国学者罗杰斯·霍林斯沃思(Rogers Hollingsworth)的研究表明，影响知识创新最重要的三个因素是多元性(学科和专业的多样性)、深度(每个领域共同体的规模)以及整合(互动的频率和强度)。规模过大和规模过小都不利于科学创新。在小规模的科研组织中，人员之间的交流会比较频繁，但研究人员的学科结构会相对单一，难以促成跨学科的合作。相反，如果科研组织的规模过于庞大、人员组成过于多元化，个人之间交流的机会就会下降。[39]这一发现也为李友娜等人的研究所证实，他们发现，团队规模和科研的创新性存在倒U型关系。[40]从评价政策的角度来看，这些发现的意义在于，在遴选与评价科研团队、学术组织时，不能过于重视规模因素，一味强调大团队不一定有利于创新。

现代科学研究离不开科研经费的支持。从经费角度，有两个问题特别值得关注。第一个是经费额度与创新的关系。英国2008年RAE评估的物理学学科报告指出：“在提交的材料中，很多世界领先的研究成果源自小额研究经费支持。”[41]因此评估专家建议，在整个欧洲和英国都投入大型研究课题的同时，不能废除小额度的研究基金。第二个是竞争性拨款、一揽子拨款和创新的关系。由于竞争性经费鼓励低风险研究、不鼓励跨学科合作，并且让学者在申请项目过程中耗费大量时间，其最终结果可能对科研创新产生不利影响。[42]从科研评价的角度来看，这意味着我们不能过于依赖建立竞争性科研经费投入制度，对于一些有潜力的研究团队和方向，可以给予长期的支持和投入。

最后一点，学术创新离不开文化土壤的滋养。中国传统文化中的一些观念可能对现代科学创新是不利的。著名的神经生物学家蒲慕明在2004年的一篇文章中指出，中国文化中有尊重习惯和权威的一面，这在某些方面会阻碍学术创新。[43]如何在科研评价环节发扬科学民主，打破服从权威的惯性思维，可能也是需要考虑的问题。

学术国际影响力的内涵及其约束条件

文雯

(清华大学教育研究院副教授)

学术研究的国际性发轫于17世纪中叶的英国，当科学知识被认为具有独立于科学家的真理价值，并且在所有文明中都相同时，这种国际性的取向便使得科学知识的传播能够超越社会部门和地理空间而得以持续。[44]20、21世纪之交，伴随互联网的飞速发展以及不断加速和深入的全球化进程，科学知识生产所需要的各种要素得以在全球范围内快速流动并产生广泛联结。这些变化深刻塑造着科学系统在全球范围内的运作方式：全球科研体系成为一个围绕着资本、信息、技术、人员等要素流动而建构起来的流动空间[45]，跨国交流和合作成为这个流动空间中的生存方式。

中国经济社会发展已深植于世界市场，中国学术系统也已成为全球科研体系的一部分。近年来，随着国家对科研工作前所未有的重视和强大的科研经费注入，我国学术的国际影响力已经有了大幅度提升，在英文发表总量和一部分学科的引用量上已经“跻身世界一流”。而“双一流”建设目标中以中国特色为统领、以创新为驱动，努力成为世界高等教育改革和发展的参与者和推动者的提法则体现了国家对我国高等教育和学术研究在世界舞台上发挥更大影响力的期许。然而，坦率地讲，我国还鲜少出现真正能历史留痕的知识发现或思想发明，我国知识界“自立于世界民族之林”的自信心也未见与发表数量同步增长。如何提升学术国际影响力已成为“双一流”建设中亟待解决的难题。本文将对学术国际影响力的内涵和约束条件进行学理分析，以期为我国提升学术国际影响力提供借鉴。

一、学术国际影响力的内涵：从认可到权力

学术国际影响力本质上是国际学术共同体对学者的认可，是“学术人基于其创新性品质的一种批判性审视、鉴别与集体性的采纳”[46]，亦是学术共同体内部自然形成的一种约定俗成的惯例(norm)，即“承认是科学王国中的基本通货”[47]。毋庸置疑，同行承认是衡量科学家为知识扩展所做贡献的重要表征，对原创性的承认证明了一个人已经成功实现了对科学家最严格的角色要求。[48]这一认可是基于对知识论证过程逻辑是否严密、理论构建是否精巧极致、学术成果竞争与相互批判是否具有理性“共鸣”与“争鸣”而确认的，也正因如此，其往往难以被量化，通常表现为被学术共同体承认的个人或学派思想。

但是，在全球化和互联网催生的流动性社会空间中，学术的国际影响力被更多赋予了权力的内涵，是一种达到特定目标和获取利益的能力和资源[49]，尤其是当学术生产和传播被卷入地缘政治结构中的国家创新竞赛、世界一流大学竞技的全球市场和“中心—边缘”的不平等世界体系中时，这种基于同行认可的学术权力与政治、经济、意识形态等权力形式纠缠在一起，形成了前所未有的张力和复杂性，凸显了学术影响力作为一种权力的合目的性和趋利性。

正是因为作为权力的学术影响力与金钱、利益、地位等相关联，也由于各国政府强化了对高等学校的问责机制，人们不能再以“同行认可”模棱两可地对之进行描述，而需要用更加精巧的定量方法对之进行细致的刻画。产生于20世纪初的科学计量方法在过去20多年来被广泛应用于测量学术影响力，尤其是通过对各国学者合作发表和引用行为的统计描述和分析来表征国际学术影响力的大小和辐射方向。在基于科学计量方法描绘出的全球科研网络结构图景中，学术国际影响力的作用方式表现为不同“交互性”(包括强度、方向等)，不同国家学者合作和引用的频次、方向等形成了学术网络的“权威节点”(authority)和“枢纽节点”(hub),这两类节点是影响力发挥作用的关键。

合作者越多，节点中心性越高，学术影响力就越大；发生联系的权威节点越多，枢纽功能越强。通过不断迭代，枢纽和权威节点可以相互增强。国际科研网络主要是自下而上形成的，这意味着枢纽节点和权威节点的形成是由吸引力引发“流动”而自然生成的结果。目前，各种实证分析的结果都一致指向美国是全球科研合作的中心，甚至有学者评价当代全球科研网络是以美国为中心展开的[50]。中国近年来虽然在论文发表量、部分STEM学科的高被引论文数量上突飞猛进，但整体来看还没有形成国际学术网络的枢纽节点或权威节点，学术国际影响力的发挥有限。

但我们也需要认识到，开放科学系统的国际场域是由出资方、出版集团、中介机构、期刊、编委会、学会、大学、研究者构成的复杂网络，并且形成了学术生产和传播的流动空间中占支配地位的精英组织形式。当前，西方精英大学处于这一网络的中心，在其中占据支配地位。在这一支配性结构下，知识网络中的流动和交互使学术权力源源不断地集中到强者手中，处于边缘地区的学术团体被笼罩在顶尖学术力量的阴影下。可以说，全球化时代学术网络中的不平等远比殖民主义来得更为复杂和深远。学术世界中的西方中心目前仍保持强大力量，虽然世界知识网络日益呈现出复杂性、多重性和更加均衡的趋向——亚洲知识社会作为新兴网络正冲击着既有的支配性结构，但其现有力量似乎尚未从根本上扰动国际学术场域结构。[51]

二、学术国际影响力的约束条件

学术国际影响力的外部约束条件包括地缘政治结构下的国家创新竞赛、世界一流大学构成的全球竞技市场和“中心—边缘”的世界体系。将全球科研体系视为创新的“军备竞赛”意味着学术影响力可以转化为国家在全球范围内的竞争力，国家的地位由科研发表、引用率和大学排名总和决定。这是当下最受各国政策制定者青睐的视角，这种视角固然有助于推动国家层面的科研发展和全球科研投入的增长，但基于零和博弈的军事部署思路容易产生学者通过科研合作窃取科研成果的谬论，也使学术研究极易受到地缘政治格局变动的影响，进而阻碍学术的国际交流与合作，美国当前对中国科研人员采取的一系列限制和制裁措施就是明证。

世界一流大学构成的全球竞技市场极大调动了大学在推动学术国际合作与交流上的能动性，以通过在全球大学排行榜上排名的攀升获取地位资源。这一视角最大的风险在于大学过于关注排行榜用定量指标所定义的学术国际影响力，而忽视了学术国际影响力的真正意涵。大学通过物质奖励、非升即走的惩罚等手段短期内可以增加论文数量、提升发文刊物级别和引用率，长期来看却是损害了学术发展的可持续性和做出重大创新性突破的积累性。

“中心—边缘”的世界体系理论是第二次世界大战后美国社会科学理论家们炮制出的现代化理论的组成部分，该视角将全球政治经济等级体系原封不动地复制到全球科学体系中，将全球科学体系看作是以美国、欧洲等几个主要国家为中心，其他国家位于距中心国家不同距离的边缘位置所构成的等级结构体系，这一科研体系中的等级关系是由政治经济中的权力关系决定的。“中心—边缘”视角对发展中国家社会科学的影响尤为明显，美英等中心国家输出了诸如“民主与专制、法治与人治、市民社会与政权机器、市场机制与政府干预”[52]的一整套社会科学话语体系，认为边缘国家也应该采用这一套具有普适性、绝对性的理论体系来解释自己国家的问题，并最终以“中心”国家作为发展的模板，这实际上削弱了“边缘”国家的内聚力，“边缘”国家越是娴熟使用这一套话语体系，越将丧失在国际上建立学术影响力的可能。

除此之外，影响我国学术国际影响力发挥还有内部约束条件。首先，我国学术的创新能力建设尚需加强。虽然我国在博士培养、论文发表数量上都居于世界前列，但学术成果的原创性还与世界顶尖水平有一定差距，也未能培养出一批获诺贝尔奖、菲尔兹奖这类世界顶级学术成就的卓越人才。陶行知1922年在《新教育》上发表的《对于参与国际教育运动的意见》一文中说道：“即以交换知识论，必先双方有东西可以换来换去，才可算为交换。自己必须有好的东西，才能和别人换得好的东西。因为，‘给的能力’和‘取的能力’大略相等。能给多少，即能取多少。”[53]也就是说，只有自己的学术能力过硬，才有可能在国际学术交流中获得平等的待遇。其次，学术评价制度改革迫在眉睫。现有的学术评价制度价值贫乏、目的本末倒置、标准单一、专业性不强、过于依赖定量指标，评价与金钱、地位、权力捆绑，极大损害了学者对学术的真正兴趣、热情、追求与抱负。再者，学术共同体的文化建设亟需加强，急功近利的学术文化需要得到根本性扭转，要重拾中国传统文化中学以为己、学问与道德相融合的优良传统，重塑自尊、自爱、团结、健康的学术文化。唯有如此，学术工作者才能回归学术初心，真正塑造中国学术的思想、价值、精神与文化。

三、结语

知识生产和传播的国际场域是一个“流动空间”，它将知识的开放性、流动性及自组织的生产力，与声望经济、大学等级和不公平的结构化排挤相结合，这个场域中的每一对张力都有改变和塑造对方的可能性，这也正是科学的实在性和社会性并存的本质。然而，不可否认的是，科学比任何社会系统都开放，虽然受到资金、权力的影响，但最终可以挣脱权力。在此百年未遇之大变局时期，中国比历史上任何时期都更接近开创中国特色社会主义文化建设的新局面，中国学术能否真正屹立于世界民族之林，发出中国学派的声音，于外取决于中华文明在世界发挥影响力的抱负和雄心，于内则取决于中国知识分子从我国学以为己、学以修身的传统文化中汲取养料的深度和广度。

破“唯论文”应以贡献作为学术评价的取向

张东海

(华东师范大学高等教育研究所副教授)

2018年，习近平同志在全国教育大会上提出要扭转不科学的教育评价导向，克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾。此后，“破五唯”成为各类学术评价改革的共同取向，不管是教育部开展的破五唯专项清理行动，还是其高校教师职称制度改革指导意见，抑或是第五轮学科评估中体现出的基本导向，都是贯彻落实习近平全国教育大会讲话精神的具体措施和纠正过往学术评价不良导向的实施方案。

在高等教育领域“破五唯”的各项具体措施中，“五唯”所指的对象各有不同。据罗燕考察[54]，作为学术评价负面清单的“破唯”始于2016年中共中央颁发的《关于深化人才发展体制机制改革的意见》，其中列出唯学历、唯职称、唯论文三项，习近平在全国教育大会上针对各级教育提出“五唯”，教育部关于清理五唯专项行动通知中的表述又有所不同，“破唯”的队伍继续扩大，仅高等教育领域就包括了学历、资历、帽子、论文、项目、奖项、职称等七项，这些都是高校学术评价中司空见惯的评价依据或评价对象，在评价实践中相互交叉，形成盘根错节的关系。举凡高校研究基地评审，硕博导评选，研究生培养指标的分配，针对教师的各类考核、评奖与评优，人才的录用与引进等，帽子、论文、项目、奖项、职称等往往成为主要参考依据。在高校林林总总的各类学术评价中，以学术论著为代表的学术产出是评价的基石，在某种程度上充当了学术评价中一般等价物的功能。因此，在高等教育领域的学术评价中，唯论文是“五唯”的核心病灶所在，“破五唯”的成功落实与否在很大程度上取决于对唯论文倾向的纠正。当然，“唯论文”是一种表达上的修辞，其所指不局限于学术论文这一种形式，而是指对学术论文、发文期刊影响因子或层级、论文引用次数和引用率、学术著作及其出版社等级、发明专利和产品等一系列学术作品外在特征进行计量，并据此做出评价结果的一种学术评价方式。

我国高校以学术论著作为学术评价主要依据的历史并不久远，在引入论著评价之前，高校学术评价长期存在着标准不清晰、程序不透明的弊病。以高校教师最为关切的职称评定为例，在论著评价尚未普及的20世纪80至90年代，评审委员会的合议是职称评定的主要方式，在缺乏其他相对客观的评价标准的情况下，教师的年资往往成为评价的重要参考。在这种制度设计中，职称评定往往沦为部分学术权威把持下以论资排辈为主要工具，辅之以对教学科研业绩定性考察的学术资源分配制度，带有计划经济体制下的平均主义烙印，也存在大量寻租空间。这既不利于青年人才的脱颖而出，也不利于激发教师的学术活力与科研潜力。1990年，南京大学首先将学术论著尤其是SCI论文引入高校学术评价，此举在当时被视为破除学术评价中论资排辈与平均主义弊病的创举，也极大地激发了教师的科研活力，肇始者南京大学的SCI发文数量也连续多年位居全国第一。[55]然而以学术论著作为学术评价主要参照物的做法风靡一时并最终成为众矢之的，却并非出自政府的倡导。罗燕认为以大学排行榜为代表的第三方独立评估是“唯论文”的主要推手[54]，固然能够部分解释其产生的社会机制，但也很难说明高校主动采用论著评价以及政府部门默认这一做法的内部动力。这可能与部分高校的示范效应和学术论著本身所具备的特征有关：一方面，论文数量、发表期刊的层级等指标具有客观性与刚性的特点，在具有淘汰赛性质的各类学术评价中可以对评价对象进行横向比较，通过“点数字”的方式很容易区分高下；另一方面，数量与层级是一种外在于评价者的客观标准，以论文数量与期刊层级进行评价可以降低评价过程的主观性以及人为操作空间，在历史上也曾充当了搅局者角色，破除当时以年资和圈子关系为基础结成的牢固网络，为青年教师发展提供了更好的学术环境。然而量化评价有其固有缺陷，它在形式上以客观和可比较的数字化形式把学术评价简化成了一种点数字游戏，几乎可以脱离论著的内容本身来实施评价，本质上沦为高校科层制的管理工具，而非基于论文实际学术贡献的学术评价，因此很难识别论文真正的学术贡献。

“唯论文”倾向在高校学术评价中大体表现在三个方面。其一是除在职称和人才称号评定、教师绩效分配、年终评优评奖等传统学术评价领域之外，论文作为一个好用的评价工具与计量指标已扩散至几乎所有评价活动，如研究生培养指标的分配，研究生的毕业条件、评优评奖、出国入党资格的评定等，其学术硬通货的角色愈发突出。其二是在各类具体的学术评价中，即使制定了多元评价指标，论文在其中仍然起着一锤定音的作用，典型的如高校教师职称评定中，对论著总量、发表论文的期刊层级及其对应数量、不同层级期刊论文的数量换算比例等均有细致规定，而对教学工作、社会服务工作等，往往只进行数量的底线约束或描述性规定，在评价过程中论著起着决定性作用。其三是当论文作为评价工具时，往往以论文数量、发表期刊层次等外在形式作为评价标准，而忽视对论著内容本身的分析并在此基础上对其研究水平与研究贡献做出判断，体现出强烈的量化评价取向。以层级高低、数量多寡取代研究水平与贡献评价是“唯论文”倾向的底层逻辑。

“破五唯”自上而下的议程设置使高校以执行者的角色出台各自的“破五唯”措施。然而，倘若未能事先明确可行的替代方案，会使高校学术评价面临失去依归的风险。一个可行的替代方案不仅应明确学术论著在学术评价中的地位，更应为学术论著评价设计评价标准和操作规程。

首先，破“唯论文”倾向并非在学术评价中将学术论著弃置不用，学术论著作为学术场域一般等价物和学术评价核心标的物的地位是科学共同体一致认可的，它不仅是科学发现的发布方式和学术交流的平台，也是学术贡献的认可方式和学者个人学术声誉的来源。所谓破五唯，一是要明确学术论著作为评价标准的适用范围，作为一种学术评价标准，学术论著应运用在对学术单位、学术人员的学术业绩与学术水平的评鉴中，将论著评价撤离与学术活动关系不甚密切的诸如研究生招生名额分配、研究生评奖评优、研究生答辩资格审查等领域，使之回归学术贡献与学术水平评价本位，避免将论著评价作为各种甄选的政策工具。二是要纠正学术论著在评价标准中一家独大，乃至成为评价结果唯一影响变量的倾向，例如在学科评估中除学术论著体现的科学研究水平和贡献外，应重视学科在优质人才培养、经济增长、社会发展等方面的贡献；在职称评定中要重视教师在实现立德树人这一高校根本任务中的贡献，在对教师教学业绩的评价中淡化基础教学量的刚性要求，重点考察教师在人才培养制度改革、课堂教学方式革新、课堂教学效果提升等方面的措施与贡献。三是在学术论著评价中要破除以数量、刊物(出版社)层级等外在形式作为评价依据的KPI主义，抛弃精确定量的评价方式，把论著所体现的贡献和研究水平作为评价的主要依据，通过对论著的内容分析，考察学术论著对于人类知识增长、前沿科技突破、重要技术创新以及其他关乎国计民生、社会治理、文化创新等问题的认识与解决的实质性贡献。

要破除论文数量迷局，推行代表作制度不失为一个良好策略。论著代表作在作为评价材料提交评审时，已然经过期刊社(出版社)及其评审人、作者本人以及时间维度上的学术影响力等多重检验，基于代表作的学术评价可以使评审过程更多集中在对论著内容所代表的学术水平与学术贡献进行评价，免于论著发表数目等变量的干扰，因而代表作评价能够较为准确地识别评价对象的学术水平与学术贡献。推行代表作评价制度，可以使高校教师从论著生产的烦琐考核中解脱出来，精心地选择研究问题和组织研究，力图做出最有价值、最有代表性的研究，从而达致引导教师从事高质量研究的目的。尽管实施代表作制度难免导致总产出的降低，但这是提高研究质量与贡献的可承受代价。

落实代表作制度，需要进行相配套的绩效考核制度与绩效激励制度改革。对教师的绩效考核不宜过频，淡化年度考核的终结性评价性质，允许教师以研究内容和研究过程描述作为年度考核材料，为教师投入周期较长的高质量研究提供相对宽松的环境。教师工资、绩效激励不宜与论著产出数量密切挂钩，应以普惠式的生活保障为主要目的，使教师不致为挣工分而片面追求论著数量。

破除“唯论文”倾向，还应改进评审制度。当前主流的同行评审制度，无论是会议评审、无记名投票的审议制度，还是匿名通信评审制度，其决策过程都颇为隐晦，当事人与旁观者无法判定评审者是基于怎样的考量做出评议决策，也无从监督评审者是否基于论著学术价值做出自己的判断。对此，可否考虑将关涉教师发展核心利益的学术评价(如职称评定)从封闭式会议评审改为开放式评审，借鉴学位论文答辩的某些形式，由评审者和被评审者就论著的具体内容、学术贡献和学术水平进行公开的陈述、辩论与评价。在通信评审环节，有条件的高校或学科，亦可考虑引入国内国外双重通信评审。

项目制改革：深化新时代教育评价改革的财政抓手

曹妍

(华东师范大学高等教育研究所副教授)

《深化新时代教育评价改革总体方案》作为我国深化教育评价体制改革的重要指导性文件，为我国未来教育评价和“十四五”规划的编制提供了理论指导方向。教育财政的拨款方式也应与总方案相互协调和配合，才能在我国教育评价改革的顶层设计中充分发挥作用。项目制作为一种特有的资源配置方式具有明确的目标、单一的结果导向和效率优先的基本逻辑，在高等教育发展初期发挥着重要积极作用的同时，也滋生出较多的弊端。配合《深化新时代教育评价改革总体方案》中“破五唯”“重人才培养”等方向性的调整，项目制的拨款方式也亟待加以调整和改革。

一、项目制的基本特征

自2000年开始，我国高等教育拨款主要采取“基本支出加项目支出”的方式。其中基本支出主要用于维持学校的正常运转，通过科学、公开、透明的拨款方式进行自上而下的划拨；而项目支出则是为了激励和引导学校的发展方向，满足学校的特定需求的一种资源配置方式。在高等教育中，中央政府实施的“211工程”“985工程”“中央财政支持地方高校发展专项资金”等都属于项目支出的一种方式。项目制作为一种特殊的资源配置方式具有如下四个特征。

其一，目标明确，靶向精准。由于项目支出是一种专项拨款，拨款的用途和目标指向明确。又由于其具有特定的政治意图，拨款过程并不受到“条块”分割的约束，从中央到地方的多层级关系以及社会各领域进行精准统合与调控。[56]其二，具有结果导向的类市场特征。项目制的运作过程近似于市场中企业招标和投标的竞争性方式。在目标明确的前提下，政府以招标的形式进行“发包”，高校层面在明确目标的前提下，再将不同的项目分别“拆包”和“打包”，由基层完成申请和竞标活动。为获得较高的财政拨款，基层以及高校将以项目目标为导向，自发形成效率的最优配置方案，从而获得充分的激励。[57]其三，具有流程技术化的行政特征。尽管以效率最优为主要的目标和导向，我国高等教育资源的项目制的运行仍然依托政府与高校等行政级别逐级完成，因此也呈现出鲜明的计划经济色彩。[57-58]想要获得项目支出，需要各级基层和高校通过严格而繁杂的流程，完成自下而上逐级的申报和审批，导致项目制的运行在很大程度上受到行政部门的干扰，阻碍整体效率的实现。最后，具有非常规的治理特征。项目制中特定意图的灵活性，决定了项目支出的非常规特征。中央政府在不同的经济发展阶段，将会采取不一样的策略完成不同的目标，由此导致项目支出在各年份、各高校之间的稳定性较低的特征。[57]

二、项目制激励方式的表现

在项目制将高校的产出结果与其所能获得的财政拨款建立联系的导向下，高校实现项目结果或目标的意愿被极大地激励。从34所世界一流大学建设高校2014—2018年的财政拨款数据①(1)①数据来源：高校年度部分收入决算与支出决算(2014—2018年)。34所高校包括清华大学、北京大学、中国人民大学、北京师范大学、中国农业大学、上海交通大学、复旦大学、同济大学、华东师范大学、浙江大学、南开大学、天津大学、武汉大学、华中科技大学、山东大学、厦门大学、南京大学、东南大学、四川大学、西安交通大学、中国科学技术大学、湖南大学、中南大学、兰州大学、大连理工大学、东北大学、吉林大学、中山大学、重庆大学、电子科技大学、中央民族大学、中国海洋大学、西北农林科技大学、新疆大学，其余10所一流大学建设高校因数据缺失未包含在内。可大致了解目前我国高校获得的财政拨款中基本支出和项目支出的基本特征。在用于高等教育的经费中，约有50%的经费来自政府财政拨款。

首先，总体来看，2014—2018年来自财政拨款中的基本支出占比逐渐降低，项目支出占比逐年增加。从使用结构上来看，整体上财政拨款中基本支出占比由2014年的62.79%出现小幅波动后逐步减少至2018年的59.23%。而项目支出占比则由2014年的40.72%上升至2018年的44.79%。其次，项目支出所占比例与高等教育财政拨款的数额存在着较为明显的正相关关系。这表明高等教育财政拨款较高的高校，以项目支出的形式获得的拨款占比也较高。最后，一流大学建设高校之间在项目支出占比上的差距逐年扩大。其中越是项目支出占比高、总财政拨款充足的顶级高校，财政拨款增长速度也越快；相反，中西部经济发展落后地区的高校，总拨款较少、项目支出也相对较少，5年间的财政拨款增长速度也相对较慢。

高校教师作为组织内部的行动者，既实施和执行着任务，同时也用其行动重新诠释着项目制的激励方式。[59]项目制的激励虽然属于非常规的绩效激励，但是在教师收入中占据较高的比重，是教师赖以生存的一个重要部分。在低基本工资高绩效工资的激励机制下，绩效工资以外部激励的方式对教师的科研产出进行激励。教师则根据自身的“理性”思考选择适用于自身的最优策略。由于外部激励具有单一性和短期性，更多的教师在项目制激励场域中放弃需要花更长周期才可能获得的高质量研究，转而关注短平快的科研产出数量；或者忽视教学，将本该用于准备教学工作的时间用来实现科研产出的最大化。由此催生出近年来我国高校科研生态环境的“亚健康”状态，不少高校教师的研究心态被“扭曲”、大量“发水文”，“一篇文章拆成好几篇”，“科研造假”等现象层出不穷。

三、项目制激励方式与高等教育场域的错配

穷其本质，我国目前采用的项目制激励方式忽略了企业组织激励的重要前提假设，与我国高等教育的场域存在错配和不适用问题。

第一，企业组织的激励方式与高校教师的激励机制不相适应。企业组织中一般员工的劳动生产率主要取决于自身能力和劳动时间两个因素，直接采用结果导向的激励可快速传递到个体，激发个体积极性，实现企业内部效率的最大化。然而，高校教师与企业组织中的一般员工存在明显的差异性，他们属于较为特殊的知识创造性员工。其激励机制也有别于传统企业组织的激励过程。相关研究表明，对于专注于学习和发展相关技能的科研人员来说，低绩效激励的场域有助于员工排除外部干扰,激发内在动机，积极主动参与到创新性活动中，为创造力的提高提供了更为广阔的发展空间。而高绩效激励的场域，在探索和专业提升初期可能存在激励作用，当探索和学习行为在达到一定阈值后，由于难以激发员工的内在动机，反而可能抑制员工创造力的发挥。[60]

第二，单一结果或目标导向与高等教育多目标特征不相适应。市场经济中的生产企业具有明确的单一可量化目标，即企业利润的最大化。这一目标不仅是单一无偏的，也具有高度的可量化特征。然而，高校显然比企业组织复杂得多，人才培养和科研产出两者背后具有各自的目标。在人才培养过程中存在知识学习与就业、专业性技能与通用性技能、短期培养与长期培养等诸多矛盾，在科研产出方面更将面临短期产出和长期产出、产出数量与产出质量、基础研究与应用研究等多方面的矛盾。以项目制为主要的拨款方式实则将企业组织的激励方式直接套用于高校，由于项目目标单一且明确，致使高校在资源配置中会更易忽略项目目标以外的其他目标和产出结果。

第三，“非增值”结果的拨款机制与高度等级化的高校特征不相适应。项目制的拨款方式核心关注最终目标的实现，而并非结果的“增值”。在我国高校高度等级化的背景下，顶级高校在项目获得上存在着天然优势，而经济发展薄弱地区的地方类院校则存在天然劣势。[57]项目制拨款比例越高，高校之间差异则会逐渐扩大，高校之间等级化的格局进一步被固化。

四、项目制激励机制的改革方向

《深化新时代教育评价改革总体方案》突出了人才培养的重要地位，强调了科研产出质量、科研产出本土应用性的关键意义。因此，采用单一结果目标的激励机制在总体方案的原则下更不具有适用性和可行性。根据高等教育运行的基本规律，笔者提出以下建议：

一是建立以常规拨款为主、项目拨款为辅的高等教育财政拨款机制。教育的本质是培养人的活动。“双一流”大学的建设要求高校结合人才培养和科学研究两个关键性目标对支出结构进行优化和配置。建议经费投入转变原有的竞争性机制，建立“常规投入为主，专项投入为辅”的基本原则，通过适当减少项目支出比例，逐步增加政府拨款中的基本支出比例，原则上保持常规投入与专项投入7∶3的比例，增加人才培养方面的普惠性支出，激发教师在人才培养和科研方面的积极性和主动性，让高校回归课堂，回归人才培养，回归科研质量本身。

二是在项目拨款中探索以人才培养的增值结果为导向的项目拨款机制。让高校回归人才培养从根本上可通过财政拨款的方式加以激励，可参考国际高等教育拨款的方式，对人才培养的有效性增值结果加以调整。通过探究高校在人才培养中的实际增值和实际贡献，选取有效的增值性指标作为拨款公式的重要组成部分，充分发挥高校和教师人才培养的主观能动性。

三是适当放宽学费收费标准，降低高校对财政拨款的依赖。在当前政府财政拨款有可能缩减的现实条件下，政府应在保持国家主导地位不变的情况下，引入更多市场和社会的力量参与办学。一方面，适当缩减对高水平高校的直接拨款，放宽高水平高校对本科生的学费收费标准，加大针对贫困学生的资助力度；另一方面，将人才培养与教师发展紧密联系起来，应将学费增加带来的高校收入用于补充高校基本支出不足的现状，特别是补充人员支出上的不足，全面改善高校教师的薪酬福利，降低高校对财政拨款的依赖。