2011—2020年国际高等教育评价研究及启示

2022-04-13王晓凡

湖北成人教育学院学报 2022年1期

王晓凡，马力，汪娟

（湖北大学，湖北武汉 430062）

“双一流”建设是我国高等教育实现内涵式发展的内在要求，是我国提高高等教育质量和实现高等教育强国的内在要求[1]。高等教育评价在规范学校办学、提高教育质量以及完善教育管理等方面都具有促进作用[2]。近年来，我国理论研究者和实践工作者开展一些研究，推动了高等教育评价研究的发展，研究的质量有一定的提升[3]1，但仍然存在一些问题，如理论研究居多，实证研究比例仍然很少；指标体系繁多；评价指标的信效度不够理想。我国开展高等教育评价的时间不长,面临评价主体单一、评价权限的控制性强、评价效率低等问题[4]，对微观层面的教学评价特别是学生反馈的研究较少[5]。国外在高等教育质量标准和保障等方面积累了丰富经验，形成较为成熟的评价模式[6]90，为此，有必要研究近年来国外高等教育评价研究的现状，通过与我国进行比较分析，以期为我国高等教育评价的发展提供理论与实践上有价值的参考。本研究尝试以定量分析取代推理判断，通过Citespace 软件进行可视化分析，探析该领域的主题热点及其前沿趋势，更为直观地呈现国外高等教育评价的研究成果，讨论国外高等教育评价研究对我国高等教育评价研究的启示。

一、研究设计

（一）期刊选择

根据Web of Science 网站中的2019 版引文报告（Journal of Citation Reports，简称JCR）的数据显示，SSCI 收录的学科期刊分类“教育与教育研究”期刊共有263 种，高等教育领域期刊有18 本，其中关于高等教育评价的期刊只有一本，为《高等教育评估与评价》。依据JCR 报告数据，《高等教育评估与评价》在JCR 分区中位于Q1 分区，在高等教育类期刊中排名第8，影响因子高达2.320，可见此刊在高等教育以及高等教育评价领域有一定的国际学术影响力，以该期刊为例，具有较强的代表性。

（二）数据来源

研究以Web of Science 为检索源，将“出版物名称”设置为“高等教育评价”,发表时间限定为2011年1月1日至2020年12月31日，共检索出878 条数据，然后，在文献类型中精炼研究论文，最终筛选出843 篇文献。

（三）研究工具

Citespace 是由陈超美教授开发的文献计量的可视化软件，该软件旨在帮助用户通过科学计量学和信息可视化在引文空间挖掘信息[7]。将筛选出的文献的题录信息以“全记录与引用的参考文献”的格式导出下载。在Citespace 中，进行查重和格式转换，经过转换后的数据再导入至Citespace 中，分别对作者、机构、国家、关键词以及文献共被引等进行知识图谱绘制，并对数据整理分析。

二、高等教育评价研究时空分布

（一）期刊载文量分析

由图1 可知，《高等教育评估与评价》期刊的载文量总体呈现增长的态势，在2019年前后达到峰值，然后有所回落，但依然保持了一定热度。探索其原因，科技的快速发展（大数据、人工智能等）引发了高等教育领域教育形式和学习方式的多样化，对高等教育评价提出了新的挑战，需要一些时间去调整和应对，在一定程度上，解释了为什么近年来《高等教育评估与评价》载文量呈现下降趋势。未来科技发展在对教育评价提出新变革要求的同时，一定也会提供支持，确保高等教育在发展和变化的过程中得到应有的质量[8]。

图1 2011-2020年期刊年度载文量

（二）作者分析

根据普莱斯定律①，本领域发表论文数量最多的学者论文发表数量为9 篇，带入公式中得出M值为2.247，即发表3 篇及以上论文的作者为高产作者（见表1）。排名第一和第二的高产作者大卫·鲍德和菲利普·道森发表论文数量相比其他研究者来说遥遥领先，大卫·鲍德涉及的研究方向有高等教育领域的学生评价和学生的评价能力[9]及基于国际视角研究反馈的评价方法[10]698，菲利普·道森主要研究高等教育领域的自我评价、同伴评价[11]以及反馈的有效性和方法[12]等，他们都在迪肯大学的评价与数字学习研究中心担任教授，合作的方向主要是反馈。

表1 高产作者

作者被引频次如表2所示，作者被引频次中最高的作者是大卫·鲍德，被引频次在200 次以上，远超其他作者，还是排名第一的高产作者，显而易见，大卫·鲍德提出的理论或方法对高等教育评价的研究和发展有很大的影响。由图2 可知，本领域高产作者之间的合作网络比较稀疏，合作发文者较少，合作程度也不太理想。

表2 作者被引频次

图2 作者合作网络图

（三）机构分析

根据普莱斯定律可知发表5 篇及以上论文的机构为高产机构（见表3）。由表3 内容可知，本领域高产机构排名前十中就有6 所是来自澳大利亚的，分别是迪肯大学、昆士兰大学、莫纳什大学、格里菲斯大学、悉尼大学和昆士兰科技大学；还有两所来自中国的香港大学和香港理工大学；排名后两位的是新西兰的奥塔哥大学和奥克兰大学。

表3 高产机构

由图3 可知，各个机构之间的合作不够紧密，研究机构大致可分为以不同的大学为核心的四个群体：如以迪肯大学为核心的机构群，合作研究主要围绕学习成果评价的可变性与评价和标准保证；以莫纳什大学为核心的机构群，合作研究主要围绕课程评价的重要性和同伴评价；以悉尼大学为核心的机构群，合作研究围绕评价的实用性以及有效性等；以香港大学为核心的机构群，合作研究集中于学生反馈。总体而言，这几所核心大学在合作网络图中影响力比较高，尤其是以澳大利亚的大学为代表。除了这些研究机构群，少数大学也单独开展研究，如奥塔哥大学和奥克兰大学等。

图3 机构合作网络图

（四）国家分析

依据表4 发表数量与中心性可知，澳大利亚、英国、美国、中国、新西兰等国家发表的文章相比其他国家比较多，影响力较高。中心性是衡量节点在网络中的重要性，关键节点一般是大于0.1 的节点，起到枢纽的作用。其中，英国和美国的文章发表量和中心性遥遥领先，探究其原因是因为英美等发达国家在高等教育质量标准与质量保障等方面积累了丰富经验，也形成了比较成熟的评价模式[6]90，学者也开展了大量的研究，文献的质量有一定的保证，英国的中心性高达0.37，其原因与《高等教育评价与评价》这本期刊的出版商是英国也有一定的关联。除美国和英国之外，还有一些国家在高等教育评价领域中也处于重要地位，比如澳大利亚（0.14）、加拿大（0.13）、中国（0.12）、新西兰（0.08）等国家。值得注意的是，中国在国际高等教育评价研究领域中占有一定分量，大多是香港地区的大学所发表的，文章数量共82 篇，中心性相比英美等国家较低，为0.12，说明中国还需努力提高在国际社会的影响力与话语权。

表4 高产国家

根据图4的国家合作网络图可以看出各国之间存在错综复杂的合作关系，某些国家之间的合作比较紧密，以一些重要国家为核心，形成了若干国家合作群，例如以美国为核心的合作群、以加拿大为核心的合作群、以新西兰为核心的合作群、以澳大利亚和英国为核心的合作群以及以中国为核心的合作群。

图4 国家合作网络图

三、高等教育评价研究内容分析

（一）研究热点分析

通过对关键词进行统计分析，有助于了解某个研究领域的研究热点和研究主题。在软件Citespace 中，把Note type 类型设置为Keyword 运行得到了高等教育评价研究的图谱（详见图5所示），图谱中节点越大代表关键词出现的频次越高。除了词频之外，关键词的中心度通常也是一个衡量研究主题的重要指标，节点的中心度越高，代表它连接的关键词越多，就越重要。

图5 高等教育评价关键词共现图谱

把关键词按照词频和中心度分别排序，取前20 名得到高等教育评价关键词排序（见表5）。基于关键词共现图谱与关键词排序，在高等教育和教育等共性词汇未能纳入考虑的基础上，可将热点主题划分为三个领域：不同类别评价研究；评价模型和设计的研究；评价质量的研究。

表5 高等教育评价关键词排序

1.不同类别评价研究

根据评价主体的不同，将同伴评价和自评等关键词归纳到该研究中，该类研究主要涉及同伴评价研究、自我评价研究以及多主体合作的评价研究。针对同伴评价研究，菲利普·维克曼具体解决了三个问题，学生对同伴评价经验的看法和意见，学生对同伴评价在获取学科知识和理解方面的影响的看法，形成性同伴评价在培养学生的批判性思维、写作和分析技能方面起的作用[13]225。帕翠亚·卡尼提出同伴评价作为一种工具，使学生能够利用反馈的潜力[14]。关于自我评价研究，学者马格德莱纳等人[15]对自我评价的准确性进行了实证研究，得出的结论是，被认为在学术上更有能力的学生比那些欠缺能力的同龄人更能准确地进行自我评价。对于多主体合作的评价，比较常见的是自我评价和同伴评价的联系，如丹尼尔提出评价周期，将同伴评价和自我评价联系起来，为理解通过同伴评价进行的学习提供了一个理论框架[16]301。肖恩·科尔尼（Sean Kearney）则侧重于自我评价和同伴评价对学习的作用[17]。

根据评价对象的不同，将学生评价与学生评教等关键词归纳到该研究中，该类研究包括学业评价的研究和学生评教的研究。学业评价的研究分为两部分，一部分是学生成绩的影响因素，如情绪智力、学业自我效能和反馈等，从研究内容来看，更多偏向学生自身影响因素，黛比·波普等研究了青少年和成年人的高情商与学业成功之间的关系[18]。克里斯汀·辛巴迪等指出反馈对学生的学习收益有很大影响[19]。还有部分研究是关于提高学习成绩的方法，大部分学者提出了具体的模型或措施，例如大卫·尼可探讨了在评价实践项目的资助下重新设计课程，利用形成性评价和反馈来增强第一年的成绩，并使学生能够发展自我调节学习所需的技能[20]。艾德·皮特等人提倡增加代理、使用表扬和发展反馈素养和培养成长心态等策略提高成绩[21]。坎迪斯则提出了一种灵活的评价方法，通过允许学生个性化他们的学习体验来提高学习成绩[22]。约翰等借助于线性增长曲线模型评价高等教育中一些变量的影响，以预测学生的学习成绩，提出相应的解决方法[23]。

学生评教已成为国际高等教育领域的重要实践，是评价教育教学质量的有利手段，具体内容包括对学生评教有效性的探讨、学生评教的影响因素以及如何提升学生评教有效性等。费萨尔[24]和大卫·詹姆斯[25]都通过方程和模型的方法对学生评价作为教学质量指标的有效性进行了探讨。卡伦·杨等针对在课堂上给予学生充分时间完成课程是否有利于学生评教展开研究[26]，迪恩·甘纳韦等人则探讨了班级规模对学生评教的影响[27]。卡丽·斯泰恩等人征求学生的定性反馈，有利于解决学生评教采用定量评价的缺陷[28]，佩卡·兰塔宁采用多层次分析法分析了可靠的学生评教所需的反馈数量[29]。

2.评价模型和设计的研究

将模型和评价设计等关键词归纳到评价模型和设计研究中，关于模型和评价设计的研究大体涉及到反馈模型和设计、形成性与终结性评价模型和设计、同伴评价和自我评价模型和设计以及可持续评价模型和设计。教师的反馈在教学活动中起到重要的作用，但许多研究表明，教师反馈的增强并不总是促进学生学习的改善，反馈环节还需要学生的主动参与。大卫·鲍德等提出可持续反馈的重点应从提供反馈转移到学习环境的设计与促进学生和教师之间互动[10]705。阿贝拉尔多·帕尔多提出在数据丰富的学习体验中重新定义反馈概念的模型[30]。

反馈在形成性评价中是核心环节，形成性评价也是近十年高等教育评价中的关键词，形成性评价在促进学生学习方面的价值越来越受到重视。菲利普·维克曼提出形成性同伴评价是促进学生学习和发展的积极经验，需要考虑解决个人学习风格的问题，以便最大限度地促进学生的发展[13]227。苔丝·米勒则尝试建立一种形成性评价框架和基于内容分析的四种类型反馈[31]。维克特等人强调了提供明确的学习目标和反馈，让学生参与形成性评价，促进反馈作为对话过程[32]。

在同伴评价和自我评价中，学习者是评价的主体，学生要从被动转为主动，同伴评价与自我评价往往结合在一起。丹尼尔提出一个模型，通过促进自我评价来分析它们支持学习的潜力[16]301。罗伊斯·萨德勒等建议大量使用有目的的同伴评价作为教学策略，教师和学习者之间要形成有效互动，发展复杂评价的能力[33]540。

可持续评价研究主要涉及模型的构成以及模型的有效性研究，格里特等提出发展可持续评价技能的综合模型，包括三个部分：发展可持续评价技能的必要条件、可持续评价的要素和指导学生发展可持续评价技能的教学方法[34]。关于模型的有效性研究，肖恩·科尔尼等提出可持续学习的真实评价(AASL)模型，对评价过程进行了解释，可作为证明其有效性的一种手段[35]。

3.评价质量的研究

将效度、信度与标准等关键词归纳到评价质量的研究中。对效度和信度进行检验可以衡量评价结果的可靠性与有效性。一些研究通过实证调查考察信度和效度，如何建立或提升问卷、量表和模型的信度与效度成为一些研究者所探索的问题。大卫·姆伯等人用克朗巴哈系数和验证性因子分析测试了可靠性，可以确定相对优势和劣势，从而提出建议[36]。普蕾莎丝·哈代等人调整了绩效金字塔的理论模型，提出稳健的36 项六因素解决方案，建立了最终工具的可靠性和有效性[37]。美里·巴拉克等人基于对“创新行为量表”的修改，提升评价个体创新思维差异的自我报告工具的有效性和可靠性[38]。

（二）前沿趋势分析

研究前沿是通过文献共被引聚类的施引文献的研究内容来表征的[39],结合关键词共现知识图谱（见图5）与突现词词谱（见图6）可发现，近三年来，高等教育评价研究领域有两个比较新颖的突现词：同伴反馈和自我效能。

图6 突现词词谱

1.同伴反馈与形成性评价

近年来，在反馈与形成性评价研究的基础上，同伴反馈经常被用作一种教学方法，许多学者主张将同伴反馈从理论推动到实践层面，围绕同伴反馈形成了一个前沿热点话题。在高等教育中，同伴反馈经常与学术任务一起实施，巴特·豪斯曼等人对同伴反馈对学术写作成绩的影响进行了定量研究，结果表明同伴反馈能够提高写作成绩[40]。路易斯等人分析了学生口头报告学术内容的能力和在收到反馈后发生的变化。研究结果表明，同伴评价可有效提高口头表达技能，尤其是当他们获得一些支持工具(视频和量表)时[41]。托马斯（Thomas O’Neill）等使用了同伴反馈系统，团队成员可以访问反馈系统的仪表板完成评价，并存储评价报告，结果表明同伴评分是可靠的[42]。

2.自我效能感与评价/反馈

自我效能感，就是认为自己能够达到预期的目标的信念，在学习中起着重要的作用。围绕自我效能开展的前沿研究主要是自我效能感和评价/反馈的关系。安妮等研究了学业自我效能感在多大程度上，调节学生对反馈的看法和他们的学业成绩之间的关系，结果显示存在积极的联系[43]。桑迪等人针对自我效能对自我评价可靠性的潜在影响进行了探讨[44]。中国的研究者考察了评价者与被评价者同步讨论对自我效能感的影响，结果表明同步讨论可显著提高网络同伴评价中的自我效能感[45]。

（三）知识基础分析

在Citespace 软件中，将Note type 选定为Cited Reference 运行后得到高等教育评价研究的引文共现知识图谱（详见图7），并取前10 名高频共被引文献分析（如表6所示）。从表6 可发现，高频共被引文献集中于反馈和形成性评价的理论与实践效果的研究，可选取高频共被引排名前三的文献进行分析。

表6 前10 名高频共被引文献

图7 引文共现知识图谱

《反思学习反馈模型：设计的挑战》的作者是迪肯大学评价与数字学习研究中心的教授大卫·鲍德等人。该文分析了两种反馈模型：一种方法将教师定位为反馈的驱动者，另一种方法将学习者定位为反馈的驱动者，并且，第二种模型指出了课程设计的重要性，让学生有机会发展自己的能力，以评判自己的学习[10]709。这篇文章对反馈进行了理论与模型构建，是高等教育评价研究领域重要的理论基础之一。

《从独白到对话：改善大众高等教育的书面反馈的过程》的作者是大卫·尼可等。提出当学生人数较多时，可提高反馈对话的性质和质量，而不必增加对教职员工的要求，并讨论了在设计反馈时采用对话方法的优点[46]。这篇文章对反馈进行理论分析，全面分析了书面反馈存在的问题，并提出了相应的解决方案，采用高质量的对话形式，是该研究领域重要的理论基础之一。

《超越反馈：培养学生在复杂评价中的能力》的作者是罗伊斯·萨德勒。该文阐述了学生在应用反馈时，必须具备关键的背景知识，这种知识的性质和学生如何获得这种知识[37]535。该篇文章不仅对反馈进行了理论分析，从同伴评价、复杂评价以及自我评价等方面丰富了反馈的理论，是该研究领域重要的理论基础之一。

四、总结与启示

（一）研究主题

在研究主题上，国际高等教育评价研究呈现一种趋势，即反馈和形成性评价在促进学生的合作学习与深度学习方面的价值越来越受到重视，并注重自我评价、同伴评价等多主体合作，发展复杂评价以促进学习。

国内高等教育评价的研究主题可分为三部分，核心部分是本科教学水平评价；主力部分是涉及高等教育质量的评价，如教师评价、绩效评价和科研评价等；外围部分是与高等教育的不同层面有关的评价，是高等教育研究的触角，如评价指标体系构建与评价方法等。国内高等教育评价存在对学生反馈关注不足的问题，高校教学质量评价中学生参与和反馈缺乏，高校是被评价对象，难以发挥其积极性与自主性。面临上级评价时，多以一种应付的态度应对，学生对于评价的过程和结果大多不知情，难以客观真实地反映高校教学质量[47]53。而学生在学校中是利益相关者，处于学校核心地位，他们参与高等教育服务的全过程，是高等教育质量实现的关键[48]。

未来我国高等教育评价应该注重为了学习的评价，为了学习的评价强调评价本身不是目的，评价的目的在于评价对学生学习所产生的积极影响。通过以上分析，我国高等教育评价研究主题在当今国际化发展中要注意以评价促进学习，注重反馈和形成性评价在学习中的价值。

（二）研究视角

在研究视角上，活动理论、支架理论、适应水平理论以及社会交换理论等出现在近十年高等教育评价研究中的关键词中。由此可见，当今国际高等教育评价研究比较注重从理论视角出发，借鉴心理学、计量经济学等多学科的理论，关注跨学科发展，拓展研究的知识基础。

国内学者对高等教育评价的研究也有从理论视角出发的，王向红的《中国高等教育评价质量保证研究——元评价的视角》一书,运用了“元评价”的理论和方法,采取丰富多样的研究方法,对高等教育评价质量保障进行了深入研究和探讨,具有较强的理论价值和实践价值[49]。还有学者为了培养高素质应用型人才，基于教育评价理论的视角，去探索如何构建应用型本科院校教学质量保障体系[47]53-54。另一方面，从不同的主体视角出发，如学生视角、师生双重视角和满意度视角。总体而言，国内关于高等教育评价研究的研究视角主要从教育层面出发，鲜有涉及其他学科的理论知识基础。未来我国高等教育评价研究在国际化发展中，要注重跨学科研究，借鉴其他学科的优质理论资源，丰富研究视角。

（三）研究方法

在研究方法上，当今国际高等教育评价的研究方法注重采用元分析、混合研究方法、验证性因素分析和计量学等多种研究方法，不难发现，统计方法的专业化是未来研究方法的发展趋势。元分析出现在突现词中，是研究方法的前沿，可解决单个小研究样本的弊端，使分析结果比较全面和可靠，近年来在社会科学领域应用较为广泛。

当前思辨研究在我国教育研究领域仍处于主流，实证研究虽然受到一定重视，但比例仍不足[50]。国内高等教育评价研究采用的研究方法有层次分析法、综合评价法、模糊综合评价法等，理论研究者和实践工作者共同推动了高等教育评价研究的深入发展，且理论结合实践的探索居多，高等教育评价研究的数量和质量都得到了稳步提升[3]1，仍存在一些问题，如经验性指标多，实证性指标少；指标体系繁多；统一性与科学性较差；评价指标信效度不够理想。

未来我国高等教育评价研究在国际化发展中要增强实证研究取向，探索定性与定量相结合的研究方法，多采用元分析和混合研究方法等专业化研究方法，研究者可结合我国高等教育实际情况，开发出具有良好信效度的测量工具和评价模型，使得我国高等教育评价更加规范化和科学化。

［注释］

①普莱斯定律是普莱斯提出的某一研究领域中的高产作者的计算公式，M=0.749（Nmax1/2），Nmax为统计范围中发表论文最多的作者的论文数量，M 值为界定核心作者的论文临界值。