大学评估何处去？国际评估在中国一流大学的兴起、扩散与制度化＊

2022-12-23俞蕖

华东师范大学学报（教育科学版） 2022年1期

俞蕖

（北京大学人事部，北京 100871）

一、导言

从20 世纪80 年代开始，伴随高等教育外部环境变化，如高等教育进入大众化阶段、外部资源竞争加剧、社会对高等教育质量保障的日益关注等，越来越多的大学开始经历主动或被动的评估，在英国学者Gregory（1991）看来，20 世纪80 年代甚至可以被视为倡议大学评估的十年。在中国也是如此，早在1985 年的《中共中央关于教育体制改革的决定》中，就提出“定期对高等学校的办学水平进行评估”。1990 年教育部发布的《普通高等学校教育评估暂行规定》则成为我国第一部关于高等教育评估的法规性专门文件，文件明确普通高等学校教育评估主要包括合格评估（鉴定）、办学水平评估和选优评估，特别是提到学校要组织实施自我评估，不断提高办学质量和教育水平。同时，在政府主管部门的推动下，我国第一所专业教育评估机构“高等学校与科研院所学位与研究生教育评估所”于1994 年在北京理工大学成立，也就是日后的教育部学位与研究生教育发展中心的前身。1998 年的《中华人民共和国高等教育法》进一步明确规定了高等学校需接受教育行政部门的监督和其组织的评估。在这一系列法规、政策的推动下，中国高等教育评估事业得到了快速发展，比较有代表性的如1987 年启动的国家重点学科审核评估、1994 年启动的本科教学工作评估以及2002 年开始的一级学科整体水平评估。

以一级学科整体水平评估为例，该评估采取“主观评估和客观评估相结合”的方式，其评估指标涵盖了“队伍与资源”“科学研究”“人才培养”“学科声誉”等4 个一级指标，通过一级学科整体情况来评价学科水平的高低，是一次基本能够完整体现一所大学的学术水准和教育质量的评估（黄滋淳，2018）。首次评估在2002 年4 月30 日启动，迄今为止已经完成4 轮，2020 年启动了第五轮评估工作。参评对象从最早的89 个学位授予单位309 个学科点到第四轮评估时已经发展为512 个单位7 452 个学科点参与评估，高校参评率接近90%，具有博士一级授权的学科参评率更是高达96%（王立生，2017）。可以说，一级学科整体水平评估代表了我国最具影响力的高等教育评估，被视为高校建设的“指挥棒”和“风向标”，评估结果对大学的学术声望、队伍建设、人才培养以及学科发展等有着极其重要的影响，高校群体和社会各界对其关注度极高，地方政府也纷纷围绕评估推出自身的评估体系并择优投入资源支持。

不过，正如盖格（2008，第233 页）指出，“评估系科和大学质量有两个最主要的障碍：一是评估不可能精确无误，结果也就不可能令人信服；二是评估根本无法进行，它进行的评比易招致诽谤”。为此，虽然一级学科整体水平评估的公信力和权威性远强于其他第三方教育评估机构，但也不可避免地存有争议或局限。比如，有学者指出评估实施者虽然一直将自身定位为第三方非行政性评估，但无法改变其隶属于政府部门的属性事实，还是代表了行政意志（包水梅，2019），行政力量并没有保持“一臂之距”，评估的独立性有待商榷（陈学飞，叶祝弟，2016）；在具体执行过程中产生了变服务为管控的现象，出现政策执行偏差（梁彤，贾永堂，2019），而“一级学科绑定参评”原则其出发点本是为避免“拼材料”“摊大饼”（王小梅，范笑仙，李璐，2016），却一定程度上限制了特色学科建设，不利于学科交叉融合发展，甚至出现一些大学以评估为目的，围绕评估需要开展院系、学科的调整和撤并（张应强，2019）；同样，由于评估的权威性、半官方性，虽然秉持自愿原则且评估实施者并不认为评估结果将决定资源配置，但事实上评估结果已经不可避免地与资源配置联系起来（王小梅，范笑仙，李璐，2016；赵立莹，2018），更使其受到高度关注。

可见，由于高等教育系统的复杂性和评估体系自身的原因，对大学或学科进行全面客观的综合评价本身就是一项极具挑战性的工作，而要获得各方一致公认的评估结果则更难。无论是一级学科整体评估还是本科教学工作评估，它们基于自身评估定位重点关注了大学的某些成就，但可能忽视了被评估的组织作为一个有机整体的其他方面，进而无法洞察不同大学学术生态的独特性和深入探究大学内部的真实问题。同时，大学组织的特征和其成就之间关联的复杂性也使得这样的评估在大学组织治理中的作用有限，进而削弱甚至违背了评估的本意。相比之下，以院系组织为评估对象的个性化自我评估恰恰能够在一定程度上解决上述问题，这也促成带有鲜明问题导向的自我评估逐渐在中国的一流大学中兴起并不断得到发展。

与国际专业认证机构进行的认证活动或者一些评估机构开展的大学国际排名不同，本文所讨论的国际评估一般是由大学主动发起，其实质是大学的自我评估，它以特定的院系或者学科作为评估对象，邀请相关领域的国际知名专家学者作为评估者，系统分析相关学术组织的战略规划、优势和劣势、面临的危机与挑战等，进而提出相对应的建设性策略和变革思路。这样的评估不以特定的指标结果为导向，而是以诊断为主要目的，更多关注的是组织的治理问题和持续发展。在获取资料方面，除了已有文献研究外，本研究采用半结构化访谈的方式，先后于2021 年4 月至5 月期间访谈（包括电话访谈）了案例中当时承担和参与评估工作的大学管理部门负责人、院系负责人等相关人员，以获取当时评估情况的第一手信息。

二、院校自我评估及其发展

早在20 世纪30 年代，大学组织的自我评估就开始在美国等高等教育发达国家兴起。自我评估（self-evaluation）也被称为自我研究（self-study）（Kells，1987，pp.33-44），通常是将大学作为一个组织来进行，研究内容包括组织的“目的和项目，设施和设备，组织和管理，治理和财政，学生和教师，以及其他组织特征”，它带有自我反省和自我批判的色彩，关注在给定边界下的大学组织是“如何运行”，以及“运行得好不好”（Pace，1979，pp.114-115）。同时，它是一个发展性的和累积性的行动，而非仅是周期性的活动，从而能够更好地理解被评估的大学组织的有效性、变化动力、适应能力等（Pace，1979，pp.123-132）。简言之，这是“一种反思性的集体实践—是为了增进组织的理解，支持战略目标和改进竞争定位”(Watson &Maddison，2005，p.11)。

在美国，早期的大学自我评估历史一般可追溯至1920 年代，如当时的伊利诺伊大学、俄亥俄州立大学、明尼苏达大学、普渡大学等就建立了相关的教育研究委员会或机构对大学内部运行情况和相关状态进行评估（Pace，1979，pp.115-116）。也有大学将其自我评估的历史追溯得更早，比如麻省理工学院在其评估报告中就指出，从1875 年开始MIT 的学术项目和其他主要学术单元就经历了由强有力的访问委员会进行的常规的、系统性的评估（MIT，2019）。而随着二战后美国高等教育系统扩张带来的教育机构多样化和一定程度的无序，加强控制、效率和审计的呼声增多，并且美国的大学认证机构已把大学自我评估作为认证开始的序曲（Kells，1987，p.36），因此到20 世纪五六十年代，美国大学的自我评估开始快速扩散，根据50 年代末当时美国赠地学院、州立大学协会以及美国州立大学协会对协会中93 所大学的调查，有59 所大学自二战以来已经实施过综合性的自我评估，十分之九的大学已经开展了部分自我评估（Pace，1979，p.119）。美国逐渐成为了引领世界高等教育机构评估研究的先行者，正如Neave 所说，“院校研究（institutional research）①的根与其说是在欧洲还不如说是在美国，这远不是巧合”（Watson &Maddison，2005，p.17）。美国早在1961 年就在芝加哥举行了第一次院校研究年会（the National Institutional Research Forum），1965 年成立了全国性的院校研究协会（Association for Institutional Research，AIR）（李明忠，杨丽娜，2020），这很大程度上就是源于越来越多的大学开始进行自我评估，并将其在大学内部制度化、规范化。以加州大学伯克利分校为例，其大学学术评估方案从1966 年开始就有记录，并确定了五年一轮的评估机制，学校在1971 年开展了第一次官方的评估，由当时的研究生院院长和文理学院院长共同主持对法语系的评估。2002 年，加州大学伯克利分校颁布了《学术战略规划》（UC Berkeley Strategic Academic Plan），其中进一步明确：“相对于覆盖面，质量更重要，在资源有限的情况下，必须确保每一个学术计划保持卓越”。围绕这一原则，学校又提出了自我学术评估的9 项标准（马涛，2010）。在2004 年，加州大学伯克利分校利用参加美国西部学校与学院协会认证的时机，在其学术项目评估基础上进一步提出了加强本科生教育评估要求（郭强，2014）。

相比之下，其他国家的大学自我评估起步较晚。欧洲院校研究协会（European Association for Institutional Research）于1979 年成立，1989 年成为独立的会员组织，是美国院校研究协会的欧洲版。在欧洲，大学自我评估也开始发挥日益重要的作用，如由代表欧洲800 多个大学和大学校长的欧洲大学协会（European University Association）负责的大学评价计划就依赖于大学的自我评估（Watson &Maddison，2005，p.19）。在日本和韩国，大学的自我评估陆续被政府所认可并制度化。在日本，日本大学基准协会在1979 年成立了大学自我评价研究委员会，两年后发表了《关于大学自我评价中间报告书》，指出“大学必须在与发展变化的社会相互作用中，不断地努力，实现其担负的使命。作为前提，大学要不断地进行自我评价，如果没有自我评价，大学就不具有向上、进一步充实努力的具体性和实践性”。日本文部省在1991 年修订《大学设置基准》时，明确要求大学将“自我评价”及结果公开作为各大学应有的义务，大学自我评价正式纳入了大学设置基准，这也标志着日本的大学自我评价的制度化（闫飞龙，2008）。同样，韩国大学教育协会从1988 年起就把自我评估作为大学综合评估的一个环节，2007 年韩国政府开始推行大学评估制度改革，把大学自我评估作为其评估体系的重要基础，2008 年韩国教育科学技术部出台了《关于大学自我评估的规则》，要求大学每两年进行一次自我评估，同时赋予大学充分的自主权，由各大学根据本校需要实施自我评估，自行决定评估的程序、目标、指标和标准等，其结果评判和使用也各不相同（朴大林，2013）。

中国大学的自我评估早在1990 年就在当时的国家教委发布的《普通高等学校教育评估暂行规定》中提出来了，但从评估发展的实际情况看，相比政府部门主导的传统评估，大学具有实质意义的自我评估从创建世界一流大学国家战略启动后才逐步被重视，并随着现代大学治理体系建设发展而不断深入。从2002 年清华大学物理系作为国内首个进行国际评估的大学案例开始，到2015 年“双一流”建设方案启动实施，越来越多的国内一流大学瞄准世界一流甚至更高目标，启动了对自身的综合学术评估，并将国际评估作为自我评估体系的重要组成部分予以制度化。中国大学的国际评估从首次开始到现在已经过去将近20 年，关于其具体实施已有一些大学个案研究（张杰，2007；叶绍梁，2012；蒋笑莉，王征，2013），也有研究对科学院系统从2004 年以来进行的国际评估进行了回顾和展望（徐芳，周长海，2020）。不过，这些研究主要还是聚焦于实际操作层面。对于国际评估这一做法为何在中国的一流大学兴起，如何在中国的一流大学中发展并扩散，继而在大学的自我评估体系中制度化等这些重要问题仍然缺少相应的研究，而这些问题恰恰对于回答如何基于中国的高等教育评估制度环境建设具有中国特色的大学自我评估体系具有重要意义。

三、中国一流大学国际评估缘起—三个早期案例

正如Kells 从欧洲大学的自我评估视角指出，评估的动机对于自我评估而言极其重要。与通常的外部评估不同，自我评估将使大学看到“你的需要”，帮助改进“你的组织”，进而体现在大学自身方面就是“我们的议程是什么”，“我们的需要是什么”，以及“我们认为什么需要关注”（Kells，1987，p.39）。这正是自我评估和外部评估的最大的本质差异，同时也是指引大学开展自我评估的重要原则。在中国一流大学以国际评估形式开展自我评估的早期阶段，可以发现其评估动机与大学组织内部的治理需求有着非常直接的关联。

1.人事改革的“破局者”—清华大学物理系的院系国际评估

作为国内国际评估的先行者，清华大学物理系在2002 年6 月发起了物理系也是清华大学历史上的第一次院系国际评估。时任清华大学校长王大中聘请了诺贝尔奖获得者杨振宁先生，美国科学院院士、加州大学伯克利分校教授沈元壤，香港科技大学教授沈平，美国斯坦福大学教授沈志勋等4 位国际物理学知名学者对物理系进行整体评估。经过历时1 个多月全面细致的工作，评估小组在7 月形成了评估报告，并提交给校长。报告引起了很大震动，因为许多人从来没有见过一份评估报告如此尖锐地指出存在的问题，并明确地指明发展方向（朱邦芬，2017）。这份报告成为了此后物理系提出的《清华大学物理系机构改革方案》的重要基础，并由此拉开了物理系人事改革序幕（清华新闻网，2006）。

物理系这次以国际评估形式进行的自我评估开创了国内大学的先河，看似偶然，实则有其必然性。清华大学物理系是1982 年复建，复系的前期经历不少发展的曲折，不过在学校的支持下发展比较快，1998 年物理系通过评审成为全国高校首批5 个物理学一级学科博士学位授予点之一，到2001 年，教育部开展全国高校重点学科评选时，物理系申报的3 个物理学二级学科全部获评为教育部重点学科，实现了零的突破（朱邦芬，王青，2006）。然而，当时的物理系与学校工科院系们相比仍处于弱势。在2002 年首轮一级学科评估中，清华物理学在全国的整体水平排名居于第7 位，在全部高校排名中居于第5 位。同时，当时的物理系也处于队伍新老更替的关键阶段，教授中将有一多半的人在5 年内面临退休。学校也意识到以工科为主的学科优势要进一步提升的话，离不开独立发展的理科，需要给予理科更多关注。在1994 年至2000 年期间曾担任物理系系主任的顾秉林教授于2001 年3 月正式担任了清华大学副校长及校学科建设领导小组组长，使得学校决策层能够进一步了解物理系的实际情况和潜在的问题。最重要的是，在国际评估启动前两年，物理系就已经在谋划变革，时任负责人之一W 老师就指出，“物理系在评估前就已经成立了一个战略规划委员会，集中了系里非常有活力的几位年轻教授参与到委员会的工作，并邀请了当时还在高研中心的朱老师担任委员会主任，讨论物理系今后应该走一条什么样的路，并将委员会最后形成的意见提给了学校主要领导”。由此可见，物理系的国际评估是有备而来的。之所以做这个评估，除了学校给予的安排，W 老师认为，“是我们自己内部已经孕育出变革的内在动力”，他强调“内生动力非常重要，即使学校没有给太多支持，（我们）要做的咬着牙也得做”。

显然，与通常的评估相比，这次评估对物理系而言是一次极具冲击力的诊断，也打破了其循序渐进的惯性。从2003 年开始担任物理系系主任并启动物理系全面改革的朱邦芬教授谈及这个报告时就指出，“许多人从没见过一份评估报告如此尖锐地指出存在的问题，如此明确地指明发展方向”（朱邦芬，2017）。他认为评估小组提出的“系内实验科研亟待加强”，“选择凝聚态物理为优势学科”，“校方应创造一个以教学为荣的环境”等3 点意见，对“清华物理系之后的发展是纲领性的，对学科布局调整和发展重点的确立起了关键作用”（朱邦芬，2017）。学校也对物理系的改革赋予了重要意义，将其作为清华建设一流师资队伍的改革试点，并以此来促进全校创建世界一流大学深入发展（王敏，2014）。在评估后，物理系从2003 年开始作为首个教学科研单位在清华试行了“教师分系列管理”，准聘-长聘制度等重要改革举措（清华大学新闻网，2006）。

可以说，清华物理系的这次国际评估正是从清华的需要、物理系的关切来探索重塑其管理制度和运行体系，在回顾评估的经验时，W 老师强调，物理系“评估（成功）的核心是我们自己有没有真正的自己（对问题）的看法，如果意见有用就可以拿来使用，也是放到更大视野下看看人家是怎么看的，我们要不要这么做（改革）。如果评估的看法有片面性，我们也可以实事求是，坚持自己的意见”。比如，在学生培养上，是继续探索拔尖学生的重点培养还是回归均质化培养，物理系里就坚持了既有做法。需要指出的是，一些评估意见使得物理系在此后的一些学科方向以及相应的人才队伍建设上出现了截然不同的发展态势，这也打破了原有的学科队伍平衡。

2.推进校院两级管理体制改革—复旦大学的院系国际评估

与清华大学改革试点不同，复旦大学在2009 至2010 年间先后对管理学院、生命科学学院等近10 个院系进行了国际评估，这次国际评估是复旦首次成体系的自我评估。其基本形式与清华大学类似，但两者有着不太一样的目的。复旦大学此次评估的直接目的是对院系学科规划制定工作进行论证，更深层次的目的则是以此作为基础推进学校的校院两级管理体制改革（叶绍梁，2012）。

复旦大学校院两级管理体制改革，其核心是为推进学校治理体系和治理能力现代化，理顺和优化校院两级的权责关系，通过一系列的综合配套改革，扩大学院办学自主权，进而建立健全学校宏观管理、学院自主运行的校院两级管理体制②。其实早在2002 年复旦大学就在个别学院试水了校院两级管理，但因为欠缺配套改革使得具体实施困难重重。2008 年，在“985 工程”二期接近尾声，三期即将启动之际，复旦大学以制定各院系近中期学科发展规划为契机，要求各院系进一步明确定位和发展规划，这也被校方视为是推动校院两级管理体制改革的重要前提条件。在这一过程中，“如何去评判院系的学科规划，特别是如何考量或按什么水准衡量规划，是学校面临的一项急迫的任务”。启动院系国际评估就是要帮助院系“清楚地了解自身的现状，特别是在国际同领域的位置及与先进水平的差距、发展瓶颈等”（叶绍梁，2012），在此基础上明确自身定位和发展规划，进而实现主动向院系放权，增强院系发展活力。这一思路在复旦大学的《“985 工程”总体规划（2010—2020 年）》中也得到充分体现，规划中特别强调了学校将“通过校院（系）二级管理改革，不断增强院系自主建设和发展的主体意识，……在建立责权利统一的治理机制的前提下，向院系放权并配置相应的办学资源，支持院系自主发展、建设和运行”（复旦大学发展规划处，2012）。对于评估在推进改革中的作用，院系负责人Z 老师就指出，“做评估肯定有益处。有些问题我们也知道，但专家说出来更准确，对我们是个好事。他们能够在国际视野下谈对学科的认识、结构的变化以及要采取什么行动”，而且“有的（问题）确实是有点意外，比如，某某学科，（我们）在里面看觉得还可以，但这些专家们一看完全不是那么回事”。不过，他也强调国际评估对于自己所在院系的变革并不是那么一蹴而就，更像是催化剂，因为在评估前“有的基础是已经有了的，比如比较成体系的各类委员会。在评估后，从提出建议到后面（推进），是系里一轮一轮与学校反复沟通和争取，不是简单一次评估就会马上改变。评估可能是告诉我们现在这么做是对的，或者来判断一下这么做对不对。最重要的是一定要有自己的判断”。

与改革前的院系学科建设发展规划论证相比，校院两级管理体制改革显然是一个更加复杂而又系统的工程，它几乎意味着大学组织治理体系的重塑，不仅涉及校内机构的调整，更涉及资源、权力、责任的重新界定和配置，对大学的治理能力提出了新的要求，甚至由此产生新的组织治理文化和治理取向。在通过国际评估完成院系的学科规划论证后，经过两年多的时间，复旦大学在2013 年制定出台了《推进校院两级管理体制改革工作方案》，之后又发布了《关于推进校院两级管理体制改革的若干意见》（姜澎，2014），在2016 年初，复旦大学确立了首批5 个试点院系。

实际上，此前进行国际评估的院系，如物理系、化学系、生命科学学院等，在学校出台这些制度前就已经实现了一定程度的放权，有了校院两级管理体制改革的经验和初步基础。在这些院系的改革进程中，国际评估的作用更像是催化剂，它一方面为它们的改革带来更广的国际视野，另一方面也促使院系从形成模糊的变革意识到凝聚更多的变革共识。就像Z 老师强调的：“（改革）最重要的还是内部要有共识，要做大家都认为要推动的（事情），要达成老师们的共识，这是最大的困难。我们处在其中，可能会当局者迷，这时候就需要有外面的专家来看一看。不过，真正的改变可能需要5—10 年时间，甚至更长”。

3.打破院系边界，促进交叉融合—北京大学环境科学领域的院系国际评估

“当大学的发展演变了，它们很少削减它们多样化的任务。特别是自从第二次世界大战开始，可以说大学的历史差不多是连续扩张的编年史。”（盖格，2008，第366 页）随着大量新兴学科出现、大学自身发展以及满足外部更多需求等需要，在全球大学中学术组织的扩张已经成为一种普遍现象，就像曾担任哈佛大学校长的德里克·博克所抱怨的那样：“现代研究密集型大学天生就是一个‘过度扩张的组织’”（格拉汉姆，戴蒙德，2008，第140 页）。中国的大学亦是如此，甚至因为结构性的原因可能更加突出一些（陈廷柱，2014）。院系的扩张也会带来一些问题，特别是在传统的大学组织结构体系下，院系扩张不仅需要付出更高的管理成本，甚至还会因为领域相近出现同质竞争。并且，一旦一个新院系已经出现，要再想改变（重组）则有可能要付出更大成本。另一方面，学科交叉融合已然成为21 世纪推动科学探索和创新的重要动力，诸多重大原创性研究突破都源于不同学科领域的碰撞与合作。在既有院系格局中如何打破院系间的边界，消除学科的壁垒，促进交叉与合作，实现优势叠加，成为中国研究型大学在走向世界一流大学前列过程中面临的必然挑战。

北京大学提出对院系开展国际评估的时间略晚，但相比前面两所大学，又有着不太一样的着眼点。2013 年7 月，北京大学启动了院系国际评估，其首选的两个院系均布局于环境研究领域，分别是城市与环境学院、环境科学与工程学院。这两个学院在大学内的机构前身均为20 世纪80 年代左右成立，在21 世纪初期经历了一次合并后又各自分立。两个学院的学科布局侧重点有所差别，前者主要聚焦于地理学、生态学领域，后者则更偏重环境工程、环境健康领域，但两者都以大的环境研究作为立足点，且在一些领域有重叠，比如两者都有环境科学本科专业。这意味着两者除了在各自布局的研究领域互有侧重、互为补充外，在某些方面存在一定竞争关系，这对大学的内部治理来说无疑是一个不小的挑战。为了让两个学院充分发挥各自特色，在发展中各有侧重、互相促进，同时也为了贯彻落实学校提出的学科建设“有所为，有所不为”的思路，北京大学于2013 年启动了对城市与环境学院、环境科学与工程学院的国际评估。第一次做这样的国际评估，如何让专家小组能够快速进入角色？参与组织当时评估工作的H 老师就指出，除了预先提供院系全面的自评报告，“首次评估时在小组中专门安排了一位校内专家，对学校基本情况进行必要沟通和介绍，之后开展类似评估时，还增加了管理部门对学校概况做专题介绍的环节，帮助（专家）更好地理解大学现行制度和运行体系”。在评估中，评估小组开门见山地指出两个学院的英文名称都出现了“环境科学”，这会使人误解并对相关领域的研究造成一些障碍。③同时指出，两个学院间由于历史和人为的原因，有重叠的学位项目，但又缺乏合作。不过，评估小组也坦承环境科学属于高度跨学科的学科研究，“在一所大学中划分环境科学并不是容易的事情，所有大学都应对这一问题努力改进”。④为此，评估小组在提出的意见中强烈建议“应建立某种总体架构来协调和促进大学的环境科学领域的研究”，除了涵盖城市与环境学院、环境科学与工程学院外，还应包括那些进行不同方面的环境研究的学院，诸如工程、化学、公共卫生、商业、经济、地球科学、社会学等等，但这并不一定是要合并和成立一个新的学院⑤。对于评估中指出的问题，H 老师认为，“其实院系也看到了问题，需要正视这些问题。可能原来没有那么主动去思考，或者有一些想法但并不成体系”。

这次国际评估的反馈意见涉及人才培养、学科发展、队伍建设等多个方面，特别重要的一点，就是关于如何促进跨院系、跨学科的同领域合作。评估专家小组提出的建议得到了校方的认可，并推动建立了学校层面的总体架构，具体到环境研究领域，校方建立了由不同院系专家学者组成的资源环境生态委员会，并将其作为学科建设委员会下属的专门委员会，为全校范围环境领域的学科发展、整合和优化提供咨询及发挥一定决策作用。此后，北京大学又相继成立“生命科学委员会”“临床医学+X 委员会”等数个专门委员会。这些大学层面的跨院系、跨学科委员会为打破院系边界、促成学科整合发展或促进跨领域合作发挥了积极作用。这样的组织结构安排不打破院系和学科已有的区分，最大限度减少了组织重塑的纷争与矛盾，同时又从大学顶层对学科以及院系发展的路径进行有效指引，打破院系和学科之间的边界，减少资源配置碎片化、学科建设重复等问题，从而通过优化大学的学术治理体系，为学科交叉融合提供有力组织保障。

在提及这次国际评估为什么能顺利实施时，负责评估工作的J 老师认为，这样的评估形象地说更多是“体检”而不是“治病”，“学校明确了不打分、不排名，院系没有压力，是欢迎的；院系是服这些专家的，他们除了学问做得好，不少人还当过院长甚至校长，有丰富管理经验，他们看到的问题，是院系、教师认可的。有些问题（院系）或多或少也意识到了，但专家们直接说出来确实效果不一样”。时任院系负责人之一的Z 老师也持有同样的观点，“（评估专家）他们有很多建议很好，我们也意识到这些问题。但我们好些时候因为各种原因不能改变或者不愿意去碰，需要有外力打破既有格局”。同样，评估也为院系与学校沟通带来了更强的说服力，Z 老师指出：“如果只是我们自己提，学校不一定重视。（专家）把我们的问题、困难和挑战给学校提出来，和光靠自己提很不一样。他们提出来后，我们解决和思考的意愿就更加强烈了，院内召开了多次专题研讨会，形成的相关建议学校也大多听取采纳了”。

在上述3 个早期案例中，3 所大学不约而同地选择将国际评估作为其自我评估的重要载体。就其共同点而言，首先，3 所大学启动国际评估的切入点具有非常鲜明的问题导向。其评估的正是其组织内部治理中需要破题之处，评估要解决的不仅仅是某个院系的具体问题，更反映了大学组织整体治理的需要。其次，在这3 个案例中，在评估前大学内部或者院系内都不同程度有了一定的变革动机或者有对自身问题的初步判断，有的甚至已经形成了一定的改革共识，国际评估很大程度上是帮助这些院系或者大学决策层进一步凝练共识、明确变革路径。第三，三者都具备开展国际评估的基本前提。它们依托的学科或者拥有的人才已经具备与世界一流大学竞争甚至比肩的基本实力，有足够的自信去寻找领域内的世界顶尖专家学者为自己把脉问诊，既有意愿也有能力以更高要求来推动组织的自我变革和完善治理。与此同时，3 所大学的国际评估差异也是明显的，特别是其评估指向非常不一样。从案例中可以看到，在没有外部压力和竞争性评估指标的情况下，大学自己主动发起评估更多带有理性选择的色彩，其做出何种选择（评估谁、怎么评估、评估后做什么）取决于它们直面的治理问题或者需要实施的组织战略。在案例中，3 所大学所选择的评估对象并不是其传统观念上的“最强”学科或院系，而是有赖于其开展评估的动机，动机差异直接带来评估指向差异。比如，清华大学在当时工科院系占据主导地位的情况下选择了物理系这一典型的理科院系作为首个评估试点单位，既是学校学科建设到了一定阶段扶持独立的理科学科发展的需要，也是因物理系本身已具有强烈的变革动机，处于变革的重要窗口期，具有其他院系所不具备的条件。在复旦和北大，校方没有以单个院系的评估为突破口，复旦把院系学科规划论证作为评估的直接目的，选择了近10 个具有代表性的院系作为评估对象，评估的导向是为了建立二级管理体制改革的基础；在北大，对两个环境领域的双子座院系进行的是联合评估，评估专家组有较大交叉，聚焦的是交叉学科发展过程中遇到的院系合作和学科融合问题。可以说，这3 个案例中在国际评估这一共同形式背后蕴藏着的是不尽相同的评估动机，在评估实践中留下了截然不同的烙印，也深深影响其此后的治理变革。

与此同时，随着国际评估日益成为中国一流大学自我评估的重要组成部分，早期以院系作为主要评估对象开始逐渐演变为以院系和学科点相结合或者直接以学科点作为评估对象，国际评估被众多大学视为评判其综合学术实力以及推动大学持续改革发展的必要做法。不过，在国际评估扩散过程中，评估与组织治理中的具体问题的直接关联淡化了，这正是国际评估在中国一流大学评估体系中持续制度化的过程。

四、国际评估在中国一流大学的扩散及其制度化

据不完全统计，截至2019 年末，在36 所“双一流”A 类高校中，有22 所大学已开展过院系或学科的国际评估，占到六成。尚未开展过国际评估的13 所高校，有9 所院校的“双一流”建设方案明确提出将开展国际评估。已经开展或将要开展国际评估的A 类“双一流”高校的合计比例接近90%，几乎覆盖了中国主要的代表性一流高校。除了“双一流”高校外，也有越来越多的其他大学正在加入到这个行列中。同时，一些大学通过有组织地分期分阶段安排国际评估，基本实现了目标院系的全覆盖，有的甚至已经开展了两轮甚至多轮的周期性评估，图1。

图1 “双一流”高校（A 类）院系国际评估发展趋势图（2002—2019）

可以说，在中国一流大学推进自我评估的过程中，对国际评估本身的必要性已经形成了默认的共识，国际评估的理念和实践在中国一流大学群体中开始逐渐扩散。那么是什么导致出现了大学国际评估的扩散？要回答这个问题就需要深入到其所处的场域中去考察，因为“如果离开个人所嵌入的更大文化背景和所处的历史阶段，我们就难以理解个人的偏好和选择”（鲍威尔，迪马吉奥，2008，第204页），对于组织来说也是如此。在解释组织采纳某一制度或采取某种行动时，效率机制和合法性机制都可能发挥作用，但在不同的领域、不同的阶段某个机制可能比另一个机制具有更强解释力。比如，Tolbert 和Zucker（1983）在研究美国公务员改革的扩散时就指出，早期采纳公务员制度的城市与其组织内部的需要有关，组织内部因素能够预测采纳情况，而到了后期采纳与合法性结构的制度界定有关，组织内部因素不再能够预测采纳情况。与效率机制强调限定条件下用“最少的投入获得最大的产出”（周雪光，2003，第31 页）不同，当社会规范、观念制度成为被广为接受的社会事实，在这样的制度环境下，组织就会采用这些广为接受的组织形式或做法，而不管其效率如何，这就是合法性机制发挥作用的逻辑（周雪光，2003，第73—74 页）。这也就是Meyer 和Rowan（1977）指出的组织的结构或行为体现了其制度化环境的神话，而不是其自身技术性活动的要求。对于大学国际评估而言，如果说在早期兴起阶段效率机制在其中还起到了一定作用，即组织的评估对于具体问题有明确指向，评估与此后特定变革存在紧密关联，那么在后期扩散及其持续制度化过程中则是合法性机制发挥了主导作用，体现在评估上其治理指向相对泛化，评估与治理变革之间的关联趋于松散。更进一步，与政府部门或第三方机构发起的学科评估或者大学排名不同，大学自我评估是一个持续的自我批判的过程，不存在竞争性指标或优劣结果，无法基于此类评估结果获得直接外部资源或地位声望，其评估的终极成果是模糊的或者说是复杂的，无法用特定产出来衡量，所谓的成本收益很难去判定。同时，大学自我评估引发或促成的治理变革是一个典型的政治过程，无论是在决策上还是执行层面，都存在不同的利益相关方相互冲突、相互妥协的情形，更何况不同的参与者对变革的有效性或者说效用都带有各自主观的见解和价值判定，这也意味着放之四海而皆准的自我评估的有效性标准并不存在，缺乏效率机制可评判的基础。因此，从效率机制的角度很难解释以国际评估为载体的自我评估在中国一流大学的持续扩散，而合法性机制却能很好地说明这一评估机制为何能够被中国的一流大学广泛接受并逐渐制度化。

首先，制度环境变迁是国际评估扩散的重要基础。“组织内部制度的产生和演变在很大程度上为组织所处的制度环境和合法性机制所制约”（张永宏，2007，序言第8 页），中国的高等教育评估体系是中国大学运行的重要制度环境，也是合法性机制发挥作用的重要基础。无论是国家重点学科审核制度还是一级学科整体评估，其本质都是中国的大学组织所运行的一个制度环境，而组织“必须调适它们的结构和行为与制度环境保持一致，以便确保它们的合法性以及它们生存的机会”（Tolbert，1985），一级学科整体评估中评估参与单位数量的显著变化已经说明了这一点。为了确保学科在相关部门组织的评比中具有竞争力，大学一般都会选择自身最具优势的学科进行申报，一旦相应学科入选重点或取得靠前位次，其实也就赋予了这些大学及其所拥有的学科以更高的社会认可度，确保了其本身在高等教育领域中更强的合法性，进而显著地影响大学获得政策支持和资源的强弱程度。这使得在相当长的一个时期内由政府主导的评估体系及其评价指标成为大学行动的指挥棒，它们受到大学的高度关注，且促使大学在评估中投入巨大精力。

随着中国高等教育事业的蓬勃发展和各界对评估本质认识的不断深化，中国高等教育评估的制度环境出现了一个变化的关键转折点，大学自我评估开始逐渐在官方的高等教育评估体系中占据更多话语权。2014 年1 月，为持续加大行政审批制度改革力度，使简政放权成为持续的改革行动，国务院发布了《关于取消和下放一批行政审批项目的决定》，其中决定的第2 项就明确取消了国家重点学科审批权，这一推行了近30 年的重点学科建设制度从此成为历史。就在一天之后，1 月29 日，由教育部牵头的《学位授权点合格评估办法》（以下简称《办法》）正式发布，《办法》中明确规定学位授权点每6 年进行一轮合格评估，以学位授予单位自我评估为主，学位授予单位的自我评估为诊断式评估，《办法》鼓励有条件的单位和学位授权点开展国际评估或专业资格认证。显然，上述改革意味着大学在学科建设上获得了更大自主性和话语权，以学位授予单位自我评估为主则进一步凸显了大学自我评估的重要性和必要性。不过，自我评估如何得到政府部门和社会公众的认同也成为一个新问题，因为它将决定大学在新的评估制度环境下如何保持甚至获得更强的合法性。其实，在国家和政府相关部门陆续出台的有关政策制度中已经提供了一定指引。比如，在2011 年发布的《教育部关于普通高等学校本科教学评估工作的意见》中就明确提出“鼓励有条件的高校探索聘请相关学科领域的国际高水平专家学者开展本校学科专业的国际评估”。在2015 年中共中央、国务院《关于深化体制机制改革，加快实施创新驱动发展战略的若干意见》中，进一步提出“鼓励高等学校以国际一流学科为参照，开展学科国际评估，扩大交流合作，稳步推进高等学校国际化进程”。国际评估作为大学自我评估的重要载体开始进入越来越多中国一流大学的视野。

其次，对先行者的学习仿效是国际评估扩散的直接动因。在组织制度学派看来，“尽管人们会经常面临选择，但是他们总是借鉴他人在相似情景下的经验，并以社会上通行的行为准则为参照系”（鲍威尔，迪马吉奥，2008，序言第3 页）。在高等教育评估这一场域中，由于评估目标的模糊性和环境变化所带来的不确定性，中国的大学并没有太多可遵循的现成实践和成熟经验，借鉴他人成为一个必然的选择，而“组织倾向于按照它们领域中被它们认为是更加具有合法性或成功的类似组织来模式化自己”（DiMaggio &Powell，1983），在这一过程中，在领域内居于领先地位的大学自然成为其他大学首选的借鉴对象。从大学国际评估的实践来看，在2014 年前，被视为中国一流大学第一梯队的C9 高校绝大多数已有院系国际评估的经历，这为后续开展国际评估的大学提供了可参照的案例。同时，由于这些大学本身在中国高等教育领域中有较大影响力，使得其成为后续开展国际评估的大学的效仿对象。在具体的实现路径上，一方面是点对点直接到已经开展过国际评估的大学进行学习和交流。比如，哈尔滨工业大学在2012 年9 月赴上海交通大学进行国际评估工作的调研，10 月又分别赴清华大学、复旦大学进行了国际评估工作的调研。在上海交通大学的调研中，哈工大调研小组除了与管理部门交流经验做法，还全程参与了某学院的国际评估工作，获得了直接的第一手信息⑥。另一方面，同行间有组织的交流也为国际评估的传播提供了组织学习的空间。比如，2016 年，北京大学主办了学科评估与大学排名暨“双一流”建设研讨会，研讨会由全国30 多所大学的代表参会，并围绕学科评估体系、院系国际评估工作、“双一流”建设举措等进行了交流。无论是点对点的交流还是行业内的有组织交流，这些都为已开展或即将进行国际评估的大学提供了共享评估的理念、思路和做法的土壤，也促成了国际评估在中国的高等教育领域中进一步得到传播。

第三，国际评估扩散过程中存在趋同和趋异并存的倾向。组织的合法性需要通常是伴随着制度化的过程，国际评估扩散的过程也是其制度化发展的过程，制度化意味着“组织实践获得规范与认知的认可，并逐渐被视为当然而广泛接受的过程”（鲍威尔，迪马吉奥，2008，序言第1 页）。在共同的制度环境下，伴随评估的理念、思路、做法共享，以及对国际顶尖大学评估做法的借鉴，自我评估趋同是大学评估中的一个重要趋势，国际评估也不例外。比如，评估主要的做法都会采取自我评估报告和国际一流学者现场评估相结合的方式，评估是以诊断为主要目的，以国际一流为对照系，从大学的学科规划、人才培养、队伍建设、管理运行等多个视角进行评估，进而提出针对性的策略建议。在国际评估扩散过程中差异也逐渐显现。在国际评估兴起早期，如清华大学、上海交通大学、复旦大学等，其评估对象无一例外是聚焦单个院系或一类院系。究其原因，其评估的初衷是从大学组织的具体问题出发，对具体院系进行诊断，进而以点带面促发组织内更广范围的治理变革。同时，学科的边界相对模糊且与国际通行界定不一定完全对接，院系和学科在不同大学呈现出纷繁复杂的关系，这也是这些大学选择将院系作为评估对象的重要原因（叶绍梁，2012）。在后期扩散过程中，一些大学将学科或者学位授权点作为国际评估的对象，其指向性非常明确，即达到主管部门对学位授权点合格评估的要求。在这样的评估中，依托的对象依然是院系这一基层组织，但其评估涵盖内容和范围都超出了院系边界，问题指向性相对弱化，评估结果运用具有一定局限性。差异也体现在大学中组织国际评估工作的主体上。这些主体中既有学科建设部门，也有研究生院，还有的是发展规划部门。评估定位的差异产生了组织中不同的实施者，这些实施者在组织结构中的差异会影响到大学决策者所能接受到的信息，也影响到其对所面对的问题的界定以及考虑有哪些可选项来解决组织中存在的问题，进而使得不同大学开展国际评估趋异的现象更加明显。

第四，国际评估持续制度化并内嵌于大学治理体系。从近些年国际评估发展进程看，那些代表性的一流大学普遍将国际评估作为一种制度嵌入到了自身的治理体系框架中，与大学组织的变革与发展战略紧密地交织在一起。越来越多的一流大学以“发展”的视角来探寻自身变革的路径，国际评估正是提供了这样的制度安排（袁广林，2019），并在促进大学组织变革的过程中其自身制度化程度不断加强。比如，北京航空航天大学通过实施“学院国际评估支持计划”来深入落实学校的“UPS 国际化发展战略”及学院“SPS 国际化发展战略”；同样，华中科技大学明确指出通过国际评估“找差距、谋发展、促交叉、扩影响、创一流”，并通过国际评估“后评估”来促进建立国际评估的常态化机制，进而将评估结果用于指导学科发展、配置学科资源等。实际上，出于发展理念实施国际评估已经与大学组织的变革紧密交织在一起。以清华大学为例，完成首次国际评估后，其在2009 年至2010 年进行了一轮更广范围的国际评估，先后对环境科学与工程、物理学、电子工程、生命科学、计算机科学与技术等12 个学科领域的相关院系开展了评估工作，在清华看来，国际评估最重要的是进行发展式的评估，根本目的在于促进大学自身治理和发展，评估工作也促使“学校下决心解决一些长期的深层次问题”（清华大学新闻网，2011）。事实证明，国际评估在清华大学越来越成为一种常态化机制，像物理系、生命科学学院、工业工程系又陆续进行了第二次、第三次国际评估，帮助其治理能力和治理水平持续提升。有过评估经历的生命科学学院、医学院、经济管理学院都陆续作为试点单位实施人事制度改革。更大范围的改革则在2012 年开始成体系出现，经过评估的工业工程系、环境学院、电子系、计算机系等院系均率先形成了本单位人事制度改革方案并开始实施改革，之后一年清华正式在全校范围建立了以准聘-长聘制度为核心的教师分系列管理制度体系。从2002 年物理系作为首个院系进行国际评估并由此拉开清华人事制度改革的序幕，到2013 年清华大学全面建立准聘-长聘制度为核心的分系列管理制度体系，可以说国际评估在这一系列改革中起到了不可替代的作用。杰普森（2008，第165—166 页）在讨论制度化程度时认为，一种制度越是在制度框架之中存在时间越长或者在制度框架中越处于中心的位置，其嵌入性越强，制度化程度也随之更高。从这个角度来看，国际评估在中国一流大学中无疑已经制度化并在其治理体系中日益居于重要位置。

简言之，在中国高等教育评估制度环境发生显著变化的进程中，国际评估作为大学自我评估的重要载体已经在中国的一流大学群体中兴起并不断扩散。在制度环境发生变化前就已开展国际评估的大学较好地秉持了其评估的治理导向，通过周期性的发展性评估推动了大学变革持续深化，同时兼顾合法性需要。在后期扩散过程中，有更多大学采取同样的评估形式来进行自我评估，但其受到制度环境变化的影响更大，满足合法性诉求在行动中占据更加重要的地位。国际评估在不同大学组织中被寄予的期望各不相同，但作为一种大学治理的制度安排已经深深扎根于中国大学的评估制度体系之中。

五、结语

国际评估作为一流大学进行自我评估的重要载体，它不仅是要实现与国际同行的对话与交流，更是与现代大学制度和治理体系建设密切相关。从这些年中国一流大学国际评估的实践来看，参与评估的专家来自全球各地的顶尖学术机构，是其所在领域最有声望或极具影响力的世界顶级学者，作为局外者他们可以超脱大学组织内部的局限和利益关联，以学者的视角提供专业的诊断性建议。另一方面，与已有评估比较关注结果不同，这些专家学者进行评估时更关注大学组织的运行和发展，他们基于自身任职机构的经历，很有可能为大学打破既有的治理惯性带来不一样的治理答案和经验启发，从而促成其探索更加符合大学自身特质的治理之道。

可以说，国际评估在中国一流大学群体中的兴起和扩散充分说明中国的大学在探索具有中国特色的现代大学治理体系中迈出了重要的一步，越发自信地以开放的国际视野和世界一流水准来评价自身发展，并通过自我评估体系建设不断推动高等教育评估回归评估本源，以问题为导向探索大学的发展，进而推动大学治理持续变革。同时，也要意识到国际评估是自我评估的一种手段，它和其他评估手段相辅相成组成完整的大学评估体系，它们发挥作用的方式各不相同，某一种手段的不足可能就需要通过其他方式来进行弥补和完善，不过无论是自我评估、专家评估还是第三方评价，最终要立足于促进大学的高水平建设和发展，也就是说评估要聚焦于大学发展本源。此外，充分尊重不同大学的差异性和鼓励多元化发展依然是中国高等教育评估体系发展过程中始终要正视的问题。在国家的高等教育制度大环境中，大学需要遵从的外部制度是基本类似的，但差异化发展依然需要鼓励，其中很重要的一点就如Tolbert（1985）指出的那样，组织的制度环境是差异化的，这不是说组织所处的环境不一样，而是说（社会）对不同类型的组织有不同的期待。显然，大学评估体系正是为社会提供了这样一种期待实现的路径，如果评估指标是整齐划一的，那么不同的期待也很可能归于一元化，通常所说的高等教育领域中的“学术漂移”现象将不可避免地发生甚至被加剧，同质化的竞争愈演愈烈。反之，如果大学评估体系能够尊重和认同不同大学的差异化发展，那么我们的高等教育机构体系就能够更加均衡地发展，也更能体现中国特色，从而真正实现扎根中国大地建成世界一流。

（俞蕖工作邮箱：yq207@pku.edu.cn）

注释：

①在美国，自我评估或自我研究更经常被称为institutional research，即院校研究或机构研究。

②详细内容参见复旦大学2014 年发布的《复旦大学关于推进校院两级管理体制改革的若干意见》。

③④⑤引自相关学院国际评估总结报告。

⑥上述信息来源于相关大学主页。