基于替代计量学的世界大学排行榜影响力评价研究

2022-09-01胡文倩

现代情报 2022年9期

胡文倩石进南霞

(南京大学信息管理学院，江苏南京 210033)

近年来，大学排名逐渐成为社会各界关注的焦点，成为衡量世界高校教学科研水平的重要手段[1]。随着高等教育全球化时代的到来，世界大学排名的意义尤为凸显。对于政府，世界大学排名可以为管理、评估大学的绩效和产出提供可选择的工具，有利于辅助高等教育决策。对于高校，依据世界大学排名可以评估自身与世界一流大学的差距，通过研讨评价指标，采取针对性措施提升治理能力和办学水平[2]。对于学子，世界大学排名对其入学决策和择校意愿都具有重要影响。

自世界大学排名产生以来，世界各国、各机构不断发布新的排行榜，其数量不断增加，然而质量却参差不齐，严重干扰了大众对世界大学排名的判断。由此，对世界大学排行榜的评价研究显得尤为重要。目前来看，很多学者通过定性评价的方法，从数据来源、指标选取、权重分配等方面来进行分析，较少有学者采用定量方法。定性评价的优点是简便易行，但主观性较强，而定量评价则更加客观。近几年，替代计量评价方法受到了国内外学者的广泛关注和探讨。众多研究表明，替代计量评价方法拓展了学术成果影响力测度的全面性[3]。基于此，很多学者也开展了大量实证研究，进一步展示了替代计量方法在评价期刊、论文、学者、机构和图书等学术相关实体影响力时的可用性[4-8]。

受此启发，本文应用替代计量方法，以中国具有代表性网络平台为指标来源，利用主成分分析法，对社交媒体上不同世界大学排行榜的受关注程度进行分析，以此评价世界大学排行榜的影响力。同时，在学术科研领域，陈婷婷等以三大世界大学排名及其指标体系为研究对象，将三大排行榜中世界一流大学的共性进行梳理归纳，为中国建设世界一流大学提供方向[9]。这些研究在一定程度上代表了学术领域对排行榜的认可程度。因此，文章进一步选择在研究论文中引用世界大学排行榜作为数据来源或研究对象的文章，获取其文献计量指标，探究学者在科研领域对不同世界大学排行榜的认可程度和研究程度，以此判断世界大学排行榜在学术研究领域的影响力，并将其与替代计量指标进行相关性分析，最终为国内相关群体排行榜使用的选择提供参考和借鉴。

1 相关研究

1.1 国内相关研究

国内方面，学者们依据不同的评价标准和评价角度开展了相应的世界大学排行榜评价研究。在评价标准方面，2006年，IREG讨论通过了关于排名的质量规范——“高等教育机构排名柏林原则”。郭丛斌等以柏林原则为依据，从指标多样性、权重分配、文献数据来源、声誉数据来源、涵盖的学科数量等维度对THE、QS和US NEWS的指标体系设计进行比较分析[10]。王金龙等也基于柏林原则，从排名的目的、指标设计与权重分配、数据的收集与处理和排名结果的公布等四方面考量THE、QS、ARWU和US NEWS四大排行榜，发现ARWU是与柏林原则契合度最高的排行榜[11]。而陆根书等则依据Marginson提出的评价世界大学排名系统的8条标准，包括实在性、客观性、外部性、综合性、特殊性、次序均衡性、绩效校准和透明性，评价了ARWU、THE、QS和US NEWS 4个知名世界大学排行榜，结果显示，ARWU在绝大多数评价标准上都优于其他3个排行榜[12]。

在评价角度方面，威巍等从指标选取、指标赋权、数据采集及数据处理4个维度，对THE和QS的大学排名方法进行评价，最终认为THE和QS是当前较为科学、合理、有效的排行榜，是拥有较高透明度与公信力的全球大学排名方法[13]。赵蓉英等从指标体系设计理念、内容涵盖度和排行榜稳定性3个维度，对THE、QS、ARWU进行详细对比，最终发现各排名方法在评价对象选择、评价体系和权值分配，以及如何获取数据源等方面存在较大差异，但不同排名方法的评价结果有着相对稳定性[14]。邱均平等从评价目的、指标体系、权重分配和影响等方面，对ARWU、RCCSE、THE、QS和US NEWS 5种国际知名度较高的世界大学排行榜进行了深入分析[15]。张勇等将四大世界大学排名ARWU、THE、QS和US NEWS的指标体系的二级指标归为声誉、文献、师资与教学、国际化和科研收入5类，进行横向定量对比分析，最终发现上述四大排行榜虽然在全球范围内备受关注，但也存在不少缺陷。如声誉指标存在地域偏向，被调查者主要来自欧美国家，中国的比例偏低；指标体系对人文社科学科的评价不全面；人才培养相关的指标权重较低等等[16]。

总体来讲，国内学者在世界大学排行榜评价研究中主要采用定性评价，评价标准主要包括Marginson提出的评价世界大学排名系统的8条标准、高等教育机构排名柏林原则等，评价角度主要包括指标选取、指标权重、数据来源、排行榜稳定性等方面，评价对象主要为ARWU、THE、QS和US NEWS等四大知名世界大学排行榜，评价过程整体较为系统。综合学者们的研究结果来看，不同学者得到的排行榜评价结果也有所不同，这也反映了定性评价主观性较强的特点。

1.2 国外研究

国外方面，学者们采用定量和定性方法对世界大学排行榜进行评价。在定性评价方面，亚历克斯和马斯莫以芬尼和厄舍提出的一个大学质量模型为基础，提出了一个质量测评的概念框架，该框架共包含新生质量、教育投入—资源、教育投入—师资、教育产出、最终成果、科学研究和声誉等7个因素。该文从以上7个维度出发，分析评价各世界大学排行榜的评价指标[17]。Charon A等将THES和ARWU作对比，分析了二者在指标设置和权重设置方面的差异，指出THES在数据构建和收集工具方面需要改进[18]。Huang M H对QS排行榜中的声誉调查采用的指标和权重进行了全面讨论，认为QS声誉调查存在回收率和回收问卷不均匀分布、被调查对象的评估者分布不同、部分指标的指标值区分度较低等问题[19]。

在定量评价方面，Aguillo I等通过比较欧洲大学在泰晤士报高等教育增刊排行榜、上海交通大学排行榜、台湾高等教育与认证委员会排行榜以及CSIC排行榜中的排名结果与莱顿大学排行榜的排名结果之间的相似性，来对各排行榜进行评价。结果显示，不同排行榜之间存在合理的相似性[20]。Saisana M等采取一种多模型方法测试了ARWU和THES排行榜排名结果的稳健性，发现排行榜对宏观区域(如欧洲)的排名结果更加稳健[21]。

总的来说，相比国内，国外有更多学者已开展基于定量评价方法的世界大学排行榜评价研究，但其评价焦点基本都在不同排行榜排名结果的相似性以及排行榜自身排名结果的稳健性，较少有学者从影响力角度开展世界大学排行榜的定量评价，因此，本文基于替代计量方法探究各个世界大学排行榜在中国的影响力具有一定的创新性，同时对于宏观把握各排行榜的影响力高低具有重要作用。

2 数据采集与处理

2.1 样本选择

中国社交平台多发展于2010年前后，为了避免排行榜发布时间不同所带来的社交平台曝光度差异，本文拟选取首发时间早于2011年的世界大学排行榜作为研究样本。

通过相关文献阅读以及网络检索共收集25个世界大学排行榜，剔除首发年份晚、发布次数较少、发布周期不稳定的排行榜后，选定12个样本。同时，2014年开始，《美国新闻与世界报道》发布的US NEWS世界大学排行榜、欧盟委员会发布的U-Multirank全球大学排行榜和自然出版集团发布的自然指数排名，虽然发布时间相对较短，但是考虑其影响力以及知名度，故纳入本文研究范围。最终选定15个世界大学排行榜作为研究样本，具体信息如表1所示。

表1 世界大学排行榜基本信息

表1(续)

2.2 指标选择

相对应于国外Altmetrics指标来源平台，中国也拥有多个发展成熟、影响力较大的网络平台，其平台用户量、用户活跃度及用户黏性都较高，替代计量指标较为丰富，适合开展替代计量分析。为获取不同类型用户的数据，文章选定社交媒体、新闻网站、百科、学术社交4种类型的网络平台。基于此，进一步选定微博、微信公众号、今日头条、百度百科和科学网作为数据来源平台，获取世界大学排行榜的替代计量指标。对5个平台进行排行榜名称检索并进行结果分析，最终选取的可用替代计量指标共14项，分别以A1～14标记，如表2所示。

表2 替代计量指标和文献计量指标

同时，在研究论文中引用大学排行榜作为数据来源或研究对象，在一定程度上可以说明该排行榜在学术领域中的认可程度。因此本文选定论文数量、篇均被引量两个文献计量指标，用以表示在科学研究领域对不同大学排行榜的认可程度及其影响力。指标分别以B1、B2标记，如表2所示。

2.3 数据获取

1)替代计量指标的采集

首先，分别以15个世界大学排行榜的中文全称、英文全称以及简称，如“世界大学学术排名”“Academic Ranking of World Universities”“ARWU”，在5个网络平台中进行检索。利用爬虫获取2011年4月1日—2020年4月1日共10年的数据。其次，对检索结果进行分析并去除重复内容，最终获取14个替代计量指标数据。

2)文献计量指标的采集

在中国知网(CNKI)中分别对15个世界大学排行榜的全称以及简称进行高级中英文扩展检索，以世界大学学术排名为例，检索式如下：(((全文=‘世界大学学术排名’) OR (全文=‘Academic Ranking of World Universities’)) OR (全文=‘ARWU’)) AND (发表时间Between(‘2011-04-01’,‘2020-04-01’))。

在发表时间设置方面，由于论文的被引量存在一定的滞后性，并且根据引文峰值理论，学术论文的被引频次的增加量会在发表后的第二年达到最大，之后被引量会逐渐老化。为了避免“论文时滞”带来的影响，本文采集2011年4月1日—2020年4月1日内出版论文的数量数据。同时，将引用时间延长1年至2021年4月1日，采集其引用数据。

对检索结果进行去重，并去掉与大学排行榜研究不相关的检索结果，经过计算后最终获取2个文献计量指标数据。

表3和表4分别展示了本文最终获取的样本及其指标数据。为节约篇幅，各项排行榜以排行榜或发布机构的简称表示。下文将利用Excel和SPSS工具软件对样本数据进行统计与分析。

表3 世界大学排行榜替代计量指标数据

表4 世界大学排行榜文献计量指标数据

3 数据分析与结果

3.1 描述性统计分析

表5和表6分别对排行榜样本的替代计量、文献计量指标进行了描述性统计。可以看到，各指标的平均值差异较大，例如：百科浏览量(A8)的平均值高达312 731.5，而科学网提及量(A11)的平均值却仅为6.1，相较科学网提及量指标，百科浏览量指标反映的影响力范围更加庞大，这说明不同指标在反映排行榜的影响力范围方面存在差异。同时，表5中微博平台的相关指标平均值都相对较高，说明世界大学排行榜在该平台的影响力范围较广，可以看出不同平台在反映排行榜影响范围方面也存在差异。标准差结果显示，绝大多数替代计量指标的标准差都相对较高，其中百科浏览量(A8)的标准差高达893 612.5，这说明各排行榜在网络平台中的影响力差别较大。综合极大值和中位数来看，绝大多数指标的极大值与中位数相差甚远，这也表明高影响力仅仅集中在少数排行榜，大多数排行榜在网络平台中的影响力相对较低。

表5 替代计量指标数据统计

表6 文献计量指标数据统计

3.2 替代计量指标相关性分析

因样本观察量较小，在正态检验中采用Shapiro-Wilk检验，结果如表7所示。由检验结果可见，所有替代计量指标的显著性概率值p均小于0.05，不服从正态分布。因此，下文采用Spearman相关系数检验各替代计量指标间的相关性，结果如表8所示。

表7 替代计量指标数据的正态性检验结果

首先，由表8可以看出，同一平台的替代计量指标间具有较强的显著正相关性，其中以科学网平台最为典型，这可能因为用户在网络平台中的某一行为会影响并触发其他一连串相关行为，进而导致相关指标的相关性较强；其次，百科平台的相关指标与微博、科学网的相关指标相关性均较强，这可能表明以上3个平台在反映排行榜影响力的维度上存在某些相似性，各平台的指标间具有一定的信息重叠。

表8 替代计量指标数据的相关性分析结果

3.3 替代计量指标主成分分析

相关性分析结果显示，某些替代计量指标之间存在较强的显著正相关性，指标间具有一定的信息重叠，因此为进一步明确各指标在衡量排行榜影响力方面的具体维度，采用主成分分析法进行降维。

首先，对替代计量指标进行KMO和Bartlett检验，结果如表9所示。可以看到，KMO值为0.524，p值为0.000，符合p值小于0.05的要求，说明适合对替代计量指标进行主成分分析。

表9 替代计量指标KMO和Bartlett检验

表10为替代计量指标的主成分提取结果，可以看到共提取出3个主成分，其方差贡献率分别为59.246%、17.648%和10.971%，累积贡献率为87.864%，信息丢失较少，这也表明14项替代计量指标可以划分到3个主成分当中。3个主成分对应的加权后方差贡献率即权重依次为：59.246/87.864=67.43%、17.648/87.864=20.08%、10.971/87.864=12.49%。

表10 替代计量指标方差贡献率

分析出每个主成分与分析项的对应关系情况，对14个替代计量指标进行因子旋转，表11为旋转成分矩阵。由矩阵结果可以看出，成分1的载荷主要来自于微博提及量、微博评论量、微博转发总量、百科浏览量、百科点赞量和百科转发量；成分2的载荷主要来自于头条提及量、头条总评论量、科学网提及量、科学网总推荐量、科学网总阅读量和科学网总评论量；成分3的载荷主要来自于微博总点赞量、微信公众号提及量。

表11 替代计量指标旋转成分矩阵

表12展示了替代计量指标的成分得分系数矩阵，由矩阵结果可以得出各主成分得分函数如下：

表12 替代计量指标成分得分系数矩阵

F1=0.108*A1+0.067*A2+0.099*A3+0.101*A4+0.038*A5+0.061*A6+0.073*A7+0.104*A8+0.109*A9+0.112*A10+0.109*A11+0.098*A12+0.104*A13+0.082*A14

F2=0.096*A1+0.272*A2+0.217*A3+0.193*A4+0.252*A5-0.093*A6-0.264*A7-0.040*A8-0.005*A9+0.014*A10-0.034*A11-0.165*A12-0.126*A13-0.222*A14

F3=-0.215*A1+0.288*A2+0.005*A3-0.083*A4+0.340*A5+0.282*A6+0.065*A7-0.293*A8-0.253*A9-0.238*A10+0.097*A11+0.224*A12+0.153*A13+0.159*A14

表12(续)

根据3个主成分对应的加权后方差贡献率，可以得到各世界大学排行榜的替代计量评价综合得分计算公式为：F=0.674*F1+0.201*F2+0.125*F3。依据此公式分别计算排行榜的F1、F2、F3和F值，结果如表13所示。

由表13可知，基于替代计量评价得出的排名前4位的世界大学排行榜分别是QS、THE、AQWU和US NEWS，而经文献调研显示，以上4个排行榜也是目前影响力最高的世界大学排行榜，这表明本文选取的替代计量指标在一定程度上可以衡量世界大学排行榜的影响力，具有一定的可用性。从F值来看，QS排行榜遥遥领先于其他排行榜，这表明QS排行榜在网络平台中的影响力十分突出。从整体来看，除了排名前4位的排行榜，其余排行榜的F值均小于50 000，与前4位形成断层，这在一定程度上说明虽然目前越来越多的机构开始发布世界大学排行榜，但其影响力都远不及QS、THE、ARWU和US NEWS。

表13 基于替代计量的世界大学排行榜评价结果

3.4 与文献计量指标的相关性分析

文章使用Spearman相关系数，进行替代计量指标与文献计量指标的相关性检验，其中B1为论文数量，B2为篇均被引量，结果如表14所示。其中，百科浏览量(A8)、百科转发量(A9)、科学网提及量(A11)与论文数量(B1)和篇均被引量(B2)相关性相对较高。说明科学网及百科作为中国主要的学术交流平台，相关的替代计量指标与文献计量指标呈现出较高相关性。

表14 文献计量指标与替代计量指标相关性分析

所有替代计量指标与文献计量指标的数据来源及表示意义不同，其相关性均为正，但均未呈现出显著相关性，说明在评价结果上二者既存在一定程度的一致性，又有所区别。基于替代计量学指标进行评价，的确可以反映出大学排行榜在以文献计量指标为代表之外的影响力，是对传统评价研究的一个很好的补充。

4 讨论

4.1 替代计量指标的影响力深度呈现层级性

从本文的主成分分析结果来看，世界大学排行榜的14项替代计量指标共提取出3个主成分，其权重分别为0.6743、0.2008和0.1249，可以看出不同成分的权重差距较大，在一定程度上说明成分之间影响力呈现层级性。

1)成分1的载荷来自于百度百科全部指标和微博部分指标

百度百科和微博两个平台具有开放、便捷、易于传播和使用的特点。百度百科是全球最大中文网络百科全书，全球华人地区影响最广的互联网知识平台，拥有最全面的知识系统，已经成为国人获取权威知识的第一通道。百度百科通过与各行业垂直领域权威机构的合作，其词条的专业质量可以得到有效保证。因此，通过百度百科平台传播排行榜，用户接受度更强、认可度更高，相关指标均可以表达较高的价值认同，体现着较深层次的影响力。

同时，微博是基于用户关系的社交媒体平台，主要偏向于开放式传播，具有信息即时分享、传播互动的特点。微博自上线以来一直保持着爆发式增长，尤其在学生等排行榜主要使用群体中，受众很广。用户无需加好友就可以对传播内容进行阅读、评论、点赞和转发，信息传播广度更高。相较于点赞，用户评论和转发的成本更高，因此这两个指标可以代表更高的用户认可度，影响力更大。

2)成分2的载荷来自于今日头条和科学网的全部指标

今日头条和科学网两个平台具有专业性、个性化的特点。今日头条是中国代表性的基于用户兴趣进行个性化推荐的资讯平台。由成分2的载荷分布来看，头条总评论量明显高于头条提及量，这可能是由于相比于提及量，评论量代表了实际用户对排行榜的评价行为，并且通过用户评价可以带动潜在的高相关群体，形成更广泛并有针对性的影响。因此相对头条提及量指标，头条总评论量指标的影响层次更深。

科学网是中国代表性的学术社交平台，主要是为网民提供快捷权威的科学新闻报道、丰富实用的科学信息服务以及交流互动的网络平台，其对排行榜的评价具有更高的权威性更高。但相比于百度百科和微博，其使用群体相对较少，所以影响力较弱。

3)成分3的载荷来自于微信公众号和微博点赞量

微信公众号是开发者或商家在微信公众平台上申请的应用账号，同作为社交媒体平台，与微博相比其发布推送消息以及账号的运营维护，均具有相对高的成本。同时，微信公众号只有在订阅之后才能定向传播信息，信息发布者所发布内容的曝光量都与其粉丝数有很大关联，相比于其他平台更加定向和私密，传播度相对有限。因此，对于世界大学排行榜来说，微信公众号展现出浅层的影响力。

4.2 世界大学排行榜在中国的影响力呈现层级性

由表11的替代计量评价结果可以看出，世界大学排行榜的F值呈现明显的层级性。第一层级为QS、THE、ARWU和US NEWS排行榜，F值大于50 000，并且遥遥领先于其他排行榜，属于著名世界大学排行榜；第二层级为Nature Index、WHU、CWTS、SIR、中国NTU和URAP排行榜，F值大于1 000且小于50 000，属于知名世界大学排行榜；第三层级为WRWU、4ICU、金平果和U-Multirank排行榜，F值小于1 000。

该结果也反映了目前世界大学排行榜在国内的影响力呈现断层，各层次排行榜的发展均相对稳定。换言之，国内大众群体对排行榜的信赖程度已较为固定，这为新兴排行榜的推广带来一定挑战。

4.3 将替代计量指标应用于高校排行榜的影响力评价具有一定可行性

在以往的研究中，很多学者采用定性评价的方式来评估各种高校排行榜，具体评估依据为Marginson提出的评价世界大学排名系统的8条标准，或者是IREG提出的“高等教育机构排名柏林原则”等。然而，随着互联网的迅速发展以及智能手机的日益普及，越来越多的人可以随时随地在网络平台中发表对高校排行榜的看法和评价，由此产生的一系列替代计量指标都可以即时、客观地反映有关排行榜的大众评议结果。

通过主成分分析法对大学排行榜的替代计量指标进行排名，最终的评价结果均显示QS、THE、ARWU和US NEWS在所有世界大学排行榜中位列前四，并且综合得分远超其他排行榜，这与笔者的文献调研结果相吻合。同时替代计量指标与文献计量指标呈现出较低的正相关性，表示通过替代计量指标进行评价的方式可以对传统评价提供补充。

综上，替代计量指标可以在一定程度上应用于高校排行榜的影响力评价，并且相较传统的偏主观的定性评价方法，该方式可以更客观地体现世界大学排行榜在大众群体中的影响力，也为排行榜评价提供了新视角。

5 结论

本文基于替代计量方法对世界大学排行榜在国内的影响力展开了评价，在替代计量指标选取方面，参照国外Altmetrics.com平台的指标来源平台类型，选取国内代表性的学术社交平台——科学网、百科平台——百度百科、社交媒体平台——微博和微信公众号以及新闻平台——今日头条作为本研究的样本来源。在文献计量指标选取方面，选择中国知网(CNKI)作为数据来源。

首先，经过一系列的描述性统计分析、相关性分析、主成分分析发现，世界大学排行榜在国内的影响力呈现明显的断层分布，QS、THE、ARWU和US NEWS排行榜是中国影响力最高的4个世界大学排行榜，并且其影响力遥遥领先于其他排行榜；其次，各指标来源平台的影响力表现层次深浅不一，百度百科和微博展现了更深层次的影响力，这可能是由于平台具有开放、便捷、易于传播和使用的特点；最后，整体的研究结果显示，采用替代计量方法评价世界大学排行榜具有一定的可行性。

相对传统的定性评价方法，该方法拓展了世界大学排行榜评价的研究视角，可以更加客观直接地反映世界大学排行榜在国内的影响力高低，一定程度上反映了国内大众群体对各排行榜的评价结果，具有显见的积极意义。从公众角度，为后续公众选择世界大学排行榜提供了参考；从高校角度，根据不同排行榜的影响力，具体研究排行榜指标，帮助高校更好地进行大学发展规划设计，对中国世界一流大学的建设起到借鉴作用；从政府角度，排行榜有助于政府定义特定国家的高等教育发展情况，可以为国家高等教育的发展提供参考依据，同时为资金分配提供依据。

但是，本文也存在一定的局限性。由于本文的最终目的对替代计量方法应用于世界大学排行榜评价的可行性进行探索性研究，所以研究仅对世界大学排行榜的影响力大小进行了评价，而没有区分影响力的好坏。这在一定程度上会使最终的评价结果产生偏差，因此后续将对各平台中的提及内容和评价内容进行情感分析，力求更全面深入地揭示和评价世界大学排行榜在国内的影响力。