中国大学综合实力排行榜排名方法的比较分析<br/>——基于高等教育机构排名柏林原则的视角

中国大学综合实力排行榜排名方法的比较分析
——基于高等教育机构排名柏林原则的视角

2019-03-27田虎伟王艳丽王雪燕

复旦教育论坛 2019年6期

田虎伟，王艳丽，王雪燕

（1.河南科技大学高等教育与区域经济发展研究中心，河南洛阳471023；2.河南科技大学管理学院，河南洛阳471023；3.河南科技大学高等教育研究所，河南洛阳471023）

政府评估、质量认证和社会组织对大学的排名是我国高等教育外部质量评估体系的重要组成部分。2017年9月21日，在教育部、财政部、国家发展改革委公布了世界一流大学和一流学科（简称“双一流”）建设高校及建设学科名单之后，有关负责人明确表示，在“双一流”建设高校及建设学科的认定遴选程序中，依托专家委员会，确定采用的国内国际评价有：（1）国内第三方评价，包括人才培养类、学科水平类、贡献奖励类、政策导向类等四类；（2）高校认可度较高、客观性较强的国际第三方学科评价[1]。这既是对国内外相关高等教育第三方评价的认可，也凸显了国内一些社会组织和个人主导的大学排行榜在排名方法的科学性、规范性和排名结果的有效性等方面的不足。

虽然目前国内已有不少文献对中国多个大学排名进行了研究，但主要集中在对排名指标体系和算法等方面的研讨。例如：《论“中国大学评价”的科学性、合理性及公正性》[2]，《中国大学综合排名指标体系比较研究》[3]，《基于公信力视角的大学排名研究——对〈2010中国大学评价〉指标体系及算法的质疑》[4]，《我国大学排名评价体系的分析与思考——以中国校友会网大学排名为例》[5]，《大学综合评价的统计研究》[6]，《大学社会评价中的符号资本研究》[7]。很少有针对大学排行榜排名方法特别是排名规范进行的系统研究。

为此，本文选取国内排名持续时间较长或社会影响较大、特色较为鲜明的四个中国大学综合实力排行榜，从国际大学排名的基本规范即国际高等教育机构排名柏林原则（以下简称柏林原则）的角度，对其排名方法进行定量比较分析，并据此提出相关建议。研究的目的在于帮助中国大学排名者（机构）认识自身在排名方法方面存在的局限性和不足，希冀其不断改进排名方法，提升排名质量，以便更好地服务考生、政府、高校和社会等。

一、高等教育机构排名的柏林原则

自1983年《美国新闻与世界报道》（U.S News&World Report）首次发布大学排名以来，泰晤士报世界大学排名（Times Higher Education Rankings），QS世界大学排名（QS World University Rankings）等相继出现。截至目前，国际上凡是高等教育规模较大的国家大多有大学排名。大学排名已发展成为由多机构参与、服务于多个目的的多个排名体系共存的局面。

为了规范大学排名机构的行为，联合国教科文组织、欧洲高等教育研究中心和华盛顿高等教育政策研究所组成的大学排名国际专家组（IREG）于2006年在柏林召开的会议上，讨论通过了一系列高等教育排名的质量标准和操作范例，即“高等教育机构排名的柏林原则”。柏林原则合计16项，从排名的目的、指标设计与权重、数据收集与处理和结果公布等四个方面做出了规范，以作为对高等教育机构进行排名需遵守的共同准则，为大学排名的制作和发布提供了指南[6，8]。本课题组认为，柏林原则的四个方面相互联系、互为支持，构成了一个排名规范的有机整体。方法是实现目的的手段和方式，方法总是与目的相连，因而该原则首先突出了排名目的的规范；其次，方法理所应当包括指标体系设计、数据采集与处理、结果发布的方式等方面的要求。正因为柏林原则在逻辑方面的严密性和对实践的指导意义，柏林原则目前已经成为越来越多的国际大学排名机构的基本评价准则。它对中国大学综合实力排行榜也具有借鉴意义，同时也为社会公众、政府和高校理性认识、评价国内大学排名提供了一个国际观察视角。

二、基于柏林原则的中国大学综合实力排行榜比较分析

（一）研究方法

1.研究对象

以武书连的“中国大学综合实力排名”（以下简称武书连榜）、艾瑞深中国校友会网的“校友会中国大学排行榜”（以下简称校友会榜）、邱均平的“中国大学及学科专业评价报告”①（以下简称邱均平榜）、上海软科教育信息咨询有限公司的“中国最好大学排名”（以下简称软科榜）等四大排行榜发布的相关排名方法文本为比较分析对象。具体材料的主要来源有：

（1）武书连等发表的论文《2010中国大学评价》[9]、武书连出版的《挑大学选专业——2017高考志愿填报指南》[10]、《挑大学选专业——2018高考志愿填报指南》[11]等。

（2）赵德国、蔡言厚、党亚茹出版的《2017中国大学评价研究报告——中国高考志愿填报指南》[12]1-10和《2018中国大学评价研究报告——中国高考志愿填报指南》[13]1-20等。

（3）邱均平的《从高校科研竞争力评价向综合评价的发展——关于“中国高校综合竞争力评价”的说明》[14]，邱均平等编著的《2017-2018中国大学及学科专业评价报告》[15]Ⅰ-Ⅲ，中国科学评价研究中心网站发布的《2017年中国大学综合竞争力评价指标体系（本科院校）》[16]等。

（4）最好大学网的《软科中国最好大学排名2017-排名方法》[17]、《“中国最好大学排名”的特点》[18]等。

2.等级设定与分析方法

以柏林原则16项为基准，参照五级等距量表设置五个等级的吻合度（A为非常吻合，B为比较吻合，C为一般，D为比较不吻合，E为非常不吻合），对四大中国大学综合实力排行榜的排名方法资料进行逐项对照、分析比较，给予量化等级吻合度评价和定性分析。

（二）结果与分析

四大中国大学综合实力排行榜排名方法与高等教育机构排名柏林原则的吻合度见表1。

由表1可知，首先，从总体上看四大中国大学综合实力排行榜均没有获得E级。这说明中国四大榜单在排名方法上均无与柏林原则完全不吻合的情况。其次，从各榜单获得A级、D级的数量来看，武书连榜获4A、3D，校友会榜获3A、2D，邱均平榜获2A、3D，软科榜获4A、3D。这说明各排行榜排名方法与柏林原则总体上有较大差距，但也各有优势和不足。以下把四大中国大学综合实力排行榜与柏林原则的吻合度评价为A级的选项视作优点，评价为D级的选项视作缺点，并按照顺序逐项说明评判依据。评价为B级、C级的选项视作一般，暂不做评析。

1.武书连榜

优点：第2、第4、第9、第11项吻合度高。（1）在《挑大学选专业——2018高考志愿填报指南》的第一章中明确说明了“怎样利用大学排行榜填报志愿”，并首次把758所高校划分了六个层次，给出了“2018中国大学按层次报考顺序”，更进一步明确其目标群体是考生和考生家长。（2）该榜单制作人在《2010中国大学评价》一文中对排名的指标体系及每个指标的意义和采用的时间范围都进行了详细的说明。（3）该榜单的一级指标有人才培养和科学研究两部分，其权重分配是根据大学人才培养投入人力和科学研究投入人力在总投入人力中所占的比重计算而来的，每项三级指标也有具体的权重和赋值。该榜单指标体系长期保持相对稳定状态。（4）该榜单采用的数据来源于教育部、科技部等权威机构公开发布的数据，并在《加州理工学院在中国能排第几名？——复中国科学技术大学大学评价课题组》[19]一文中对每项数据的采集方法进行了说明。

缺点：第3、第14、第16项吻合度较低。（1）该排名对高等教育机构的多样性和不同使命与目标等方面的认识上不到位，使用统一指标体系、统一权重对不同层次、类别的本科院校统一排名，没有分类型、分层次的高校排名。（2）该排名很少通过组建研究团队、召开咨询会等体制性措施增强排名的可靠性；团队成员不公开，具体数量未知，也很少参与学术界的活动，发布结果的时候说明不够详细。（3）该排名很少对其排名的不足和改进进行公开说明，尤其是最近几年，该排名对个别指标进行了微调，但迄今未见发布相关调整信息。

2.校友会榜单

优点：第2、第3、第4项吻合度高。（1）在该排名发布的《2017中国大学评价研究报告——中国高考志愿填报指南》中，明确界定其目标群体为考生和家长。（2）该排名将中国大学分为研究型大学、专业型大学、应用型大学和技术型大学等四种类型，并按投资体制区分出独立学院和民办大学等，进行分类排名，考虑了高等教育机构的多样性和它们不同的使命和目标。（3）该排名数据来源范围明确、含义清晰，且能将不同渠道、不同立场的数据组合起来，组成对被排名院校更全面的评价[6]。

缺点：第7、第16项吻合度较低。（1）该排名指标的恰当性和有效性欠佳。该榜单2017年采用四级评价指标体系：“一级指标由人才培养、科学研究和社会服务三大指标构成。二级指标由教育教学、学科建设、师资队伍、学术科研、社会影响、国际影响等指标构成。三级指标由教育教学、学科专业、杰出师资、科研成果、科研基地、科研项目、办学层次、社会声誉、国际影响等核心指标构成。四级指标由教学水平、创新创业教育、德育、杰出校友、星级学科、星级专业、杰出师资、高端科研成果等核心办学质量指标构成，涵盖的指标观测点有280多项。”[12]3应该肯定的是该排行榜指标体系较为全面，涵盖大学的三大职能，涉及大学的投入、产出等众多方面，但其中不少指标比较高端，如杰出校友中的“世界各国的国家元首”“诺贝尔奖获得者”“国际排名”等指标对于一般本科院校难以达到，没有普遍性，恰当性较差。同时，在2018年高端科研成果中新增了大量“美国工业与应用数学学会杰出贡献奖、国际气象组织（IMO）奖等奖项，其恰当性更差[13]18。（2）该排名指标体系中的“评价指标参数”即采分点达280多项，但缺少对采分点特别是新增采分点的赋值信息，个别采分点的准确性没有保障[13]4-5。

3.邱均平榜

优点：第3、第14项吻合度高。（1）该排名将普通本科院校按照重点大学、一般大学和民办本科院校三类进行分类排行。（2）能够通过组建研究团队，召开咨询会和年度发布会等方式吸收合理化建议。

缺点：第2、第15、第16项吻合度较低。（1）排名目的和目标群体过多。“为政府管理部门的宏观管理和决策提供定量依据，为各高校准确定位、发挥比较优势、明确改革方向提供翔实的参考，为广大考生选择适合自己的大学和专业提供报考指南。”[15]5-10（2）排名信息提供不完整，例如绝大部分年度排名的指标权重、指标赋值、原始数据等信息在纸质版中未见公布，机构网站公布的相关信息也不完整。（3）该排名在消除或降低原始数据中的误差，告知机构和公众排名中曾犯过的错误等方面存在不足。

4.软科榜

优点：第1、第6、第11、第12项吻合度高。（1）排名完全从社会、市场、同行的角度对大学进行评价。该排名共使用9项指标，其中“新生高考成绩”反映了学生和家长对大学人才培养声誉和能力的认可程度，“毕业生就业率”反映了社会对大学人才培养成果的接受程度，科学研究方面的“论文数量”“论文质量”“高被引论文”“高被引学者”四项指标体现了国际学术共同体（通过审稿和引用行为）对大学科研工作成果和影响力的意见，服务社会方面的“企业科研经费”和“技术转让收入”两项指标反映了企业对于大学技术创新能力和贡献的真实判断，国际化方面的“留学生比例”体现了来华留学生对大学国际声誉和国际化教育环境的印象和选择[18]。（2）该排名在其网站上发布的《软科中国最好大学排名-2015排名方法》《软科中国最好大学排名2017-排名方法》中说明了每个排名指标的统计方法和数据来源。（3）该排名在其网站中不但说明了每个排名指标的统计方法和数据来源，且每年都公开了每项指标的原始数据。这是其他榜单所没有做到的。（4）该排名从教育部高考招生信息发布平台——阳光高考网、各高校发布的年度毕业生就业质量报告、Scopus数据库等收集相应数据，数据经过层层审核且口径一致。

缺点：第5、第7、第9项吻合度较低。（1）该排名对院校所处教育体系的语言的、文化的、经济的以及历史的背景没有给予考虑。例如，生源质量和学生国际化指标与区域经济文化发展水平和被评院校的学科结构等因素有关，对于经济欠发达地区、以农林地矿类为主的院校明显不公平。（2）该排名指标的恰当性和有效性欠佳。“中国最好大学排名”应该是人才培养、科学研究、社会服务、国际影响力等均俱佳的大学排名；然而，其指标体系不但指标数量偏少（2015-2017年为9个二级指标，2018年为10个二级指标），而且结构不合理，质量不高，指标的恰当性欠佳。例如，在其人才培养质量一级指标下的二级指标设置中，仅仅设置生源质量、培养结果2个二级指标（2018年又新增一个社会声誉二级指标），这样的指标体系设置难以突出大部分以人才培养为主高校的职能。在科学研究一级指标下，二级指标仅仅使用论文数量、质量、高被引论文和高被引学者作为衡量大学科学研究水平的指标。众所周知，大学的科学研究成果包括但不限于学术论文，仅仅使用学术论文相关指标，只对理科院校有利，难以反映工程技术类等应用性学科院校的真实科研水平。在指标的有效性方面，人才培养、社会服务、国际化等下属的二级指标仅选用1年的数据，科学研究下属的二级指标仅使用5年的数据，周期太短，不足以支撑其研究结论，导致的结果是同一院校在不同年度的名次波动较大。（3）该排名的指标体系及权重分配变动过于频繁。该排名指标体系在2015-2018年间就经历两次变化。例如，该榜单2015年初次发布排行榜时的指标体系共有3个一级指标和9个二级指标。2017年和2018年该排名指标体系变化情况分别是：删除“服务社会”一级指标下的“产学研合作（校企合作论文）”，且把“服务社会”占比由15%降至10%，同时新增第四个一级指标“国际化（5%）”；在“人才培养”一级指标下新增了“社会声誉”二级指标，比重为5%，同时把“培养结果”权重由15%降低至10%。

三、问题与建议

由上述比较分析结果可知，在总计64项评级项目中，四大排行榜仅仅得到了13个A级评价，占到总计64个A级的20.3%。从各个排行榜的具体情况上看，武书连榜和软科榜各获得4个A级、3个D级，较优；校友会榜获得3个A级、2个D级，居中；邱均平榜获得2个A级、3个D级，较差。这说明四大排行榜虽然各有优势和不足，但其排名方法的规范性与柏林原则所要求的排名规范相比还有很大的差距。为此，基于柏林原则的要求和上述分析，为促进中国大学综合实力排名的科学化、规范化，特对排名机构提出如下建议。

（一）参照柏林原则，改进排名方法，提高排名的规范性

我国四大榜单的制作者应以16条（项）柏林原则为基准，逐项对照，肯定成绩，查找差距，采取一切可能措施，努力改进排名方法。

1.排名目的

从总体上看，四大中国大学综合实力排行榜在排名目的板块上与柏林原则吻合度较高，在总评级13个A中占据7个A，但在各排行榜之间存在较大差异，其中校友会榜获得3个A，武书连榜2个A，邱均平榜和软科榜各1个A。但其存在的共同问题是，排名对被排名院校所处教育体系的语言的、文化的、经济的以及历史的背景等考虑不够（武书连榜、校友会榜和邱均平榜均为C级，软科榜为D级），特别是软科榜中的生源质量和学生国际化指标对于经济欠发达地区、农林地矿类为主的院校明显不公平。因为这两个指标均属于投入指标而非产出指标，高考生报考院校的实践证明，院校所处区域的经济发达程度和院校专业设置是考生选报院校的重要因素，且生源质量高和留学生数量多并不能代表院校培养人才质量就必然高。为此，建议四大榜单制作者应适度考虑被排名院校所处的经济环境和院校类型等因素，通过指标权重调整、个别指标适度补偿等方式加以解决。

2.指标设计与权重

在指标设计与权重方面，武书连榜的总体表现较好，特别是其权重分配非常明确且保持稳定与柏林原则的吻合度高，软科榜在排名方法的清楚透明方面吻合度高；但是校友会榜、软科榜在个别指标的恰当性、有效性方面与柏林原则的吻合度欠佳。为此本课题组提出的具体建议如下：

校友会榜：指标设计应保持中国大学校友成就排名的特色，适度删减一些过于高端的指标和采集难度较大的一些指标，并对所有采分点明确赋值。邱均平榜：应明晰评价指标体系权重，突出综合实力排行榜主题。软科榜：“中国最好大学排名”可能源于《美国新闻与世界报道》每年发布的“最佳学府排行榜”（Best Colleges rankings），不一定符合中国人的认知逻辑和认知心理。“没有最好，只有更好”。该排行榜似乎应更名为“软科中国大学综合竞争力排名”更准确一些；同时适度增加人才培养、科学研究和社会服务下属的二级指标，国际化指标在目前情况下应暂缓列入或降低其权重。

3.数据收集与处理

在数据收集与处理方面，软科榜在数据采集的科学性和数据的可核实方面表现优异，数据采集和处理整体比较规范；武书连榜数据的可核实性强，但团队成员少，使用组织方法和组织措施来保证排名质量措施少。为此，建议中国大学综合实力排名机构要采用成立咨询委员会、监督委员会甚至邀请国际排名专家参与等体制性的措施来增强排名的可靠性。

4.结果公布

在结果公布方面，中国四大综合实力排行榜整体表现欠佳。在排名制作信息提供方面，武书连榜仅有纸质报告公布排名过程的有限信息和结果，无网站信息发布；邱均平榜有纸质报告和网站信息发布，但不完整、不系统；校友会榜有纸质报告和网站信息发布大量信息，但采分点指标赋值不透明；软科榜有纸质版报告，在网站有较为完整的信息发布，但未认识到自己排名逻辑和内容上的局限性。在消除或降低原始数据中的误差和告知各自排名曾经犯过的错误方面，四大综合实力排行榜的制作者均无行动。本课题组的建议：一、四大综合实力排行榜均应在各自发布的年度报告或网站中公布有关排名制作的所有信息，包括排名方法、指标体系和新增指标及其权重或赋值的变化情况、依据等；二、要敢于承认各自排名中存在的不足和曾经所犯过的错误。

（二）使用《IREG排名审计手册》开展自我审计，有条件者可申请排名审计

1．《IREG排名审计手册》

2009年10月，在IREG的基础上创建了IREG学术排名和卓越协会（IREG Observatory on Academic Ranking and Excellence）[20]。为提高排名的透明度、提高排名的整体质量，以及为排名用户提供识别可信赖排名的工具，2011年IREG协会执行委员会基于柏林原则，制定了IREG排名审计的标准，并发布了《IREG排名审计手册》。《IREG排名审计手册》的功能是指导排名组织如何在IREG排名审计的所有阶段汇总和提供所要求的信息和其他证据，为IREG秘书处和审计团队的成员准备和执行审计过程的所有阶段（信息收集、团队访问和撰写报告）服务。

2.IREG排名审计标准及一般评估规则

（1）IREG排名审计标准

IREG排名审计标准涉及排名的五个维度：第一，其目的的定义，目标群体及其基本方法；第二，其方法的各个方面，包括指标的选择，数据收集方法和指标的计算；第三，出版物并介绍他们的结果；第四，排名和排名组织的透明度和响应性；第五，在排名中内部质量保障流程和工具的各个方面。其中许多标准都涉及柏林原则，但又补充了自2006年柏林原则出版以来关于排名组织的出版物和结果的陈述、透明度与反应能力、质量保证等方面的最新讨论成果，因而一些新标准与柏林原则无直接关系。

（2）一般评估规则

在审核过程中，评估小组根据该标准的完成程度对每个指标进行评分。审核评分分为6个等级：不够/不存在（Not sufficient/not existing）-1分；边缘应用（Marginally applied）-2分；足够（Adequate）-3分；好（Good）-4分；强（Strong）-5分；杰出（Distinguished）-6分。由于并非所有标准都具有相同的相关性，标准被分为权重为2的核心标准和权重为1的常规标准。因此，每个常规标准的最高分为6，每个核心标准的最高分数为12。根据标准的归属（10个核心和10个常规标准），总分最高为180。

3.IREG排名审计的申请条件及步骤

（1）申请条件

符合IREG排名审计的国家和国际排名：过去四年中至少发布过两次，最后一个版本不应超过两年。

（2）申请步骤

第一，排名组织的审计排名申请书和相应数据表与硬盘拷贝发送至IREG协会总裁。

第二，执行委员会在四周内决定是否接受审计申请并通知排名组织。

第三，排名组织须在收到执行委员会同意审计的决定后，在两周内支付审计费用。

第四，执行委员会任命一个审计小组，由三至五名具有高等教育专业经验的独立国际专家组成；审计过程由审计协调员协调。

第五，排名组织按照《IREG排名审计手册》中的说明准备详细的自我报告（用英文），并在审计开始后两个月内发送给IREG协会秘书处。

审计过程的后续步骤遵循《IREG排名审计手册》规定的程序。

4.排名组织的自评报告

排名组织编制自评报告是审计过程的重要组成部分，也是审计小组在形成关于审计决策的报告和建议时将采用的主要证据。自评报告必须按照规定的格式撰写，内容包括：有关排名活动的先前记录的信息；排名的目的和主要目标群体的概述；区域覆盖范围；详细说明方法；排名内部质量保障的描述工具；排名的公布和使用概要和关于排名对个人（例如学生）、机构和高等教育系统的影响的可用信息。该报告连同附件和其他文件应以电子版方式发送给IREG秘书处，并以电子版和纸质版（双面打印版）发送给审计小组成员和IREG排名协调员。

由此可见，IREG排名审计是IREG学术排名和卓越协会为促使大学排名组织和个人提高排名整体质量的一项重要措施，也是其提供的一项专业服务项目。IREG排名审计需要大学排名组织根据《IREG排名审计手册》的要求自愿申请并提交自评报告，由该协会执行委员会及其审计小组按照IREG排名审计标准及评估方法，经过相应的许多流程，历时12个月以上才能完成。其中，特别是审计标准中涉及排名组织对参与排名的高等教育机构做出回应的情况，排名组织将质量保障措施应用于排名过程本身的情况，审计标准记录质量保障的内部流程、为提高排名可信度的所采取组织措施等情况，只有排名组织自身清楚且主动提供并给予后续配合，才能开展排名审计评估。大学排名研究者作为一个局外人，无法获得上述资料。因此，本课题组只能从柏林原则的角度进行实证研究。

本研究存在的不足和尚待进一步研究问题：一是由于篇幅所限，对评级依据特别是B级、C级的评级依据没有逐一对照列举说明；二是对四大排行榜的个别建议特别是操作层面的建议可能有不妥当之处；三是对于《IREG排名审计手册》的研究需要进一步深入。

注释

①由于“中国大学及学科专业评价报告”发布的榜单多达617个，例如中国一流大学竞争力排行榜、中国重点大学竞争力排行榜、中国一般大学竞争力排行榜、中国本科院校竞争力总排行榜，中国民办本科院校竞争力排行榜等，为了保证不同榜单之间评价对象的一致性和可比性，本文主要抽取其中的“中国本科院校竞争力总排行榜”（含重点大学、一般大学和民办本科院校）为例。