基于信息技术的表现性评价:内涵、作用点与发展路向 *
2023-04-16郑勤华柴唤友王怀波
郑勤华,陈 丽①,柴唤友,王 磊,王怀波
(1.北京师范大学 远程教育研究中心,北京 100875;2.北京师范大学 系统科学学院,北京 100875)
一、引言
随着素质教育的不断发展和新课改的深入推进,表现性评价作为一种超越传统标准化纸笔测验的新型评价方法[1],已在当前教育领域中获得越来越多的关注。相比传统标准化纸笔测验只能考察低水平知识和孤立技能,表现性评价不仅能够测量学生在解决真实任务或复杂问题时的复杂成就与情意表现,而且还能够兼顾学习过程与结果[2],因此其甚至被一些研究者认为是传统标准化纸笔测验的良好替代品[3]。目前,表现性评价已被广泛应用于考察综合素质、复杂能力和高阶思维等跨学科素质[4]以及人工智能教育[5]、创客教育[6]和中高考考试科目[7]等学科教学中的学业成就。然而,总体而言,现有表现性评价在实践层面上普遍存在非纸笔形式的表现性任务相对较少、测评任务真实性不够、评分规则可操作性欠缺、实施成本相对较大等问题[8],从而造成其使用效果难达预期。2020年10月,中共中央、国务院《深化新时代教育评价改革总体方案》明确指出应充分利用信息技术,创新评价工具,提高教育评价的科学性、专业性和客观性。大量研究者也从宏观层面指出,信息技术能够增强与创新教育评价工具,优化教育评价管理,助力教育评价实施,改进教育评价质量[9][10]。鉴于此,本文提出一个新的研究话题——基于信息技术的表现性评价,从当前表现性评价的特点及其存在的问题出发,系统探讨基于信息技术的表现性评价的内涵、作用点与发展路向,旨在采用信息技术变革当前表现性评价实践,以克服其诸多不足,并最终服务于新时代中国特色的教育评价改革与创新发展。
二、表现性评价概述
(一)表现性评价的内涵与特点
尽管表现性评价已在当前教育领域获得广泛应用,但研究者并未对其定义达成一致意见。例如,Appleseed(美国一家以倡导表现性评价而闻名的非营利性组织)将表现性评价理解为一种允许学生展示知识、技能以及问题解决过程的测验方法。Oberg将其描述为衡量学生进步、技能和成就的一种或多种方法[11]。最近,有研究者通过对表现性评价的多种定义进行分析和综合,指出表现性评价能够以一种提供超出实际分数的价值、兴趣和动机的方式,通过对任务执行过程或产品制作过程进行主观评判来衡量学生真实展示知识、技能和过程的能力[12]。通俗而言,表现性评价往往要求学生在特定的真实或模拟情境中,运用先验知识完成任务或解决问题,然后通过人工评判方式考察学生知识与技能的掌握程度或者问题解决、交流合作和批判性思考等多种复杂能力的发展状况[13]。
基于其内涵可知,表现性评价主要包含表现性目标、表现性任务和表现性评分规则三大要素,而表现性评价的设计流程即是逐一确定三大要素[14][15]。第一,确定表现性目标旨在分析并描述所要评价的目标内容及其理论模型。第二,确定表现性任务是指为评价目标内容而选择表现性评价类型并设计真实或模拟情景下的任务或问题。综合来看,除表现性纸笔测验外,表现性评价的常见类型还包括制造/创造、设计、写作、口头表述、实验与调查、模拟表现等。第三,确定表现性评分规则是指基于表现性任务确定测评目标理论模型中具体指标的评分标准并确认评价方式与评价主体。常见的表现性评价方式包括等级量表(为具体指标进行等级赋分)、核查表(考察指向具体指标的特定表现是否出现)、轶事记录(直接记录学生的具体行为表现)等,而评价主体通常由教师、同伴或家长构成。
大量研究者指出,相比传统标准化纸笔测验,表现性评价的优势主要体现在[16][17]:(1)兼顾任务完成或问题解决的过程(动态数据)与结果(静态数据),能够最大化保证评价的全面性、客观性和真实性;(2)注重知识的转化与应用,适用于考察学生的实际任务完成或问题解决能力,尤其是协作问题解决、决策力、批判性思维等高阶思维能力;(3)践行学评融合理念[18],即强调评价的学习性和诊断性的融合,支持学生可持续发展。
(二)当前表现性评价亟待解决的问题
如上所述,针对传统标准化纸笔测验仅仅关注静态、低阶和孤立知识或技能的弊端,表现性评价提倡通过分析测评活动所产生的所有信息以考察高阶思维能力。但在实施过程中,当前表现性评价存在如下问题亟待解决。第一,设计与开发范式相对滞后,缺乏先进的理论体系指引。当前表现性评价无法跳脱“试题-反应”的传统测评话语体系,其设计思维仍受限于传统的“试题”与“答案”模式,拘囿于纸笔测验的传统评价设计范式。由此导致的后果是,非纸笔形式的表现性任务数量无法满足多类别多主体评价实践的需求[19]。第二,测验任务脱离现实,难以支持多样化评价数据采集。当前表现性评价所创设的任务情景常常源自“生编硬造”,与学生的真实生活场景相对脱节,因而难以切实反映其任务完成或问题解决的能力。此外,脱离真实场景的表现性任务往往导致学生的“作答”反应相对受限,从而无法支撑来源广泛、类型丰富的多样化评价数据采集。第三,数据分析过程主观耗力,缺欠实时准确的评价结果输出。当前表现性评价主要采用人工评分方式对各类表现性数据(如课程学习记录、协作活动视频、沟通音频等)进行评分,因此评价质量很大程度取决于评分人员的精通性和评分规则的可操作性。然而,评分过程极易受到个人主观经验的干扰,同时人员培训和具体实施过程需要耗用大量人力成本,这将极大限制表现性评价的应用和推广。
综上所述,当前表现性评价实践亟需超出“试题-反应”传统的理论体系指引,设计融合真实情景且支持多样化数据采集的测验任务,并开发客观简便且准确的数据分析方法,以最大程度克服其现有不足并充分发挥其实质作用。对此,“证据中心设计”(Evidence-centered Design,ECD)理论[20]强调“基于证据进行推理”,主张通过构建复杂的任务情景来获取类型丰富的过程性数据;多媒体技术、通信技术、计算机自适应技术等传统信息技术为呈现真实或模拟任务情景、支持大规模测评活动的组织和实施带来了更多可能,物联网、大数据和人工智能等智能技术为采集和分析多类型表现数据提供了技术支撑。因此,ECD理论和信息技术可被用于变革表现性评价实践,并为解决其实践问题提供切实可行的创新性解决方案。
三、基于信息技术的表现性评价的提出背景与内涵界定
(一)ECD理论及其在教育评价中的应用
ECD理论[21]是一套系统化评价设计方法,强调“基于证据进行推理”,由Mislevy等人于1999年提出初步概念框架,2003年形成完整的理论体系。后来,Shute将其概括为学生模型、任务模型和证据模型三个最为核心的组成成分,并以此来指导高阶思维能力的测评设计工作[22]。第一,定义测评目标的理论结构,即建立学生模型(回答“测量什么”),旨在确定期望测量的知识、技能或者能力、态度,并根据已有理论框架确定其测量模型(包含各个子成分及其相互关系)。第二,确定反映测评目标的指标及计分规则,即建立证据模型(回答“如何测量”)。证据模型分为证据规则和证据模型,前者旨在确定测评任务中与学生模型相联系的可观察指标及其评分规则,后者旨在构建可观察指标与学生模型之间的关系。第三,设计测评任务或情境以支持测评指标的获取,即建立任务模型(回答“用什么测量”),旨在通过构建复杂任务情景诱发受测者特定行为表现而支持测评证据的获得。需要指出的是,三个模型的构建并非简单的线性结构,而是一个不断完善、迭代的环形结构[23]。依据袁建林等的总结,基于ECD理论的测评设计逻辑主要在于:一是建构情境任务诱发个体行为表现,二是依据行为表现抽取反映个体测评目标水平的可靠证据,三是依据证据对个体测评目标水平进行有效推理[24]。
目前,ECD理论已被广泛应用于多种国际大型教育测评项目中,如PISA、ATC21S、NAEP等。例如,ATC21S开发的基于ECD理论的在线测评系统可用于评价13—15岁学生的协作解决问题能力[25];美国教师资格认证标准提倡基于ECD理论指导全国范围内教师数据素养测评工具的开发工作[26]。此外,ECD理论也被国内外学者广泛应用于核心素养、信息素养和21世纪技能等高阶思维能力[27][28]的评价。
(二)信息技术对于教育评价改革的支撑作用
信息技术(尤其是物联网、大数据和人工智能等智能技术)为教育评价改革提供了支撑引领,对于表现性评价而言亦是如此。在针对一般教育评价的宏观层面上,大量研究者分别从不同视角(如技术视角、技术驱动教育评价手段变革的视角、传统教育评价向技术驱动教育评价观念转变的视角、技术革新和发展传统教育评价的视角、技术增强和创新教育评价工具以及优化教育评价管理的视角、技术驱动教育评价数字化转型的视角)论述了信息技术(主要是智能技术)对于教育评价改革的重要意义[29-32]。综合来看,智能技术能够增强与创新教育评价工具(即催生新型评价工具,促进数据采集的多样性、快捷性和准确性),优化教育评价管理(即简化教育评价的开发—实施—反馈流程),助力教育评价实施(尤其针对大规模教育评价的组织和实施),改进教育评价质量(确保教育评价的科学性、伦理性等)。
在针对表现性评价的微观层面上,有学者从技术视角提出可穿戴技术、物联网等信息技术可支持表现性评价的多样化数据采集[33],也有学者提出增强/混合现实技术能够通过复现表现性任务的完成过程而提升数据分析的客观性和信效度,并降低其评价成本[34],还有学者指出电子档案袋有利于采集学生学习的过程和结果数据[35]。袁建林等从技术革新核心素养测量的视角入手,指出借助信息技术能建构复杂多元的任务情景,能获取学生解决真实任务过程的复杂交互表现,能记录复杂动态的过程流数据[36]。
(三)基于信息技术的表现性评价的内涵
综合国内外学者对信息技术运用于宏观教育评价和微观表现性评价的理解,可以看到信息技术具有变革当前表现性评价中任务呈现、数据采集与分析、活动组织和实施的潜力。同时,基于前文提到的当前表现性评价实践的不足并借鉴ECD理论的优势,本文认为“基于信息技术的表现性评价”是在教育信息化背景下,以ECD理论为指引,充分利用多种信息技术变革当前表现性评价实践中表现性任务的呈现方式、表现性数据的采集和分析过程、表现性活动的组织和实施方式,提升表现性评价的数字化、智能化和信息化水平,以实现科学、全面、客观、高效和真实的评价与反馈。
究其本质,基于信息技术的表现性评价是对当前表现性评价实践的反思和创新,旨在通过变革评价活动全流程而形成新的教育评价新范式,而其关键在于以ECD理论为指导,充分运用各类信息技术助力评价活动全流程的数字化、智能化和信息化。具体而言,充分利用多媒体技术、通信技术、沉浸式技术等传统信息技术呈现贴近生活的真实或模拟任务情景和支持大规模评价活动的组织和实施,利用物联网、大数据和人工智能等智能技术采集和分析多样化过程性数据并获得表现性目标推论证据(即过程性数据与表现性目标指标之间的关联机制),以实现表现性评价的现代化和专业化。
四、基于信息技术的表现性评价的作用点
基于信息技术的表现性评价需在实践中克服当前表现性评价的诸多不足并找到适宜的技术作用点,因此本文从测评任务呈现、测评数据采集、测评数据分析和测评活动实施四个环节出发,结合相关典型案例,深入探讨基于信息技术的表现性评价的具体实践。
(一)创新测评任务呈现
表现性任务是表现性评价的基础,关乎能否诱发预期行为表现以获得有效推论证据。目前,信息技术主要被用于从以下三个方面来创新表现性任务的呈现方式:一是采用数字化技术来展示表现性任务。一些复杂表现性任务常常涉及大量任务材料(如化学实验任务需要准备试剂、量杯等)的获取和使用,这无疑会给表现性任务场景的构建带来难度和挑战。借助最新的数字化技术,评价设计者可以依托网络环境将任务场景进行数字化,从而易化任务场景的构建方式。二是采用增强/混合现实技术来丰富表现性任务。虽然评价设计人员试图极力构建真实的表现性任务场景,但囿于真实场景的复杂性、任务材料的可及性等因素,最终呈现的任务场景往往难及预期。对此,增强/混合现实技术可通过向现实物理环境增添一些虚拟物件(如图标、音频、视频等)而增强任务场景的真实性。三是采用计算机自适应技术来定制表现性任务。特定受测者能否准确被测很大程度上依赖于其能力与表现性任务难度的匹配程度,当其能力水平与(尤其是表现性纸笔测验的)任务难度不相匹配时,测评结果极易失真失效。对此,计算机自适应技术可通过测试自行适应受测者能力水平,灵活施测与被试能力水平相匹配的测验项目,从而实现测评的科学、准确与高效。例如,有研究者在线开发了一个可考察学生科学探究能力的虚拟表现性任务场景[37];美国教育考试中心开发了计算机自适应版本的研究生入学考试(GRE)和iSkills评价项目[38]。总体而言,以上三种应用均采用特别设计的表现性任务来支持诱发受测者的相关行为表现,这主要是因为自然条件下的相关行为表现相对稀疏且难以采集,从而导致评价者只能借助抽样方法来获取有代表性的样本数据。最近,蓬勃发展的大数据思维为新时代表现性评价变革提供了重要契机。在大数据视角下,针对特定测评目标的表现性任务不再局限于评价设计者预先创设的有限任务类型,而是囊括受测者在自然条件下参与的所有相关任务类型,从而可以在最大程度上实现测评任务呈现的真实性。然而,现有研究仅从理论上探讨了这类新型表现性任务的潜在可能性,鲜有可供借鉴的典型实践案例。
(二)拓展测评数据采集
表现性数据是表现性评价的核心,只有全面真实的测评数据才能促成测评目标的有效达成。借助视频监控、智能录播、物联网、平台自动记录、网络爬虫等数据采集类信息技术,表现性评价可实现全面采集测评数据的目标,其技术逻辑主要体现在下列三个方面:一是技术驱动数据来源的多样性。表现性数据的来源不仅包括受测者本身,还包括周围的测评场景,如与受测者开展多类型交互的同伴、实体材料或虚拟平台等。多样化数据抓取可以支撑测评数据的交叉验证,确保评价结果的无偏性、真实性和有效性。二是技术驱动数据类型的繁杂性。表现性评价活动一方面能够产生频次、时长、数量等可存储于数据库的结构化数据,另一方面也能产生语音、视频、文本和图片等非结构化数据。多模态数据采集能够丰富评价内容的充实性,确保准确、完整地反映受测者的各类活动表现。三是技术驱动数据分布的全时性。整个表现性任务执行期间,表现性评价活动能够产生关于受测者及其周围测评场景的海量动态数据流。动态数据流捕获有助于衔接受测者参与任务期间的前后状态信息,达成对其表现的实时理解、因果分析和未来预测。例如,Stewart等创建了一个计算机三人协作编程任务来考察受测者的协作问题解决能力。为了全面捕获可反映受测者任务表现的相关信息,研究者采用视频记录法和平台自动记录法综合采集了受测者的面部表情数据、语音讨论数据和计算机编程界面变化数据[39]。
(三)优化测评数据分析
测评数据分析是表现性评价的灵魂,极大程度上制约着证据推论的质量和评价目标达成的效果。最开始,信息技术主要被应用于辅助表现性评价中的主观评判。两种常见做法是:第一,基于视频记录法完整记录受测者在执行表现性任务时的各类表现,然后将活动视频发送给评分专家由其完成评分过程。该做法一方面可以降低召集评分专家所带来的时间和金钱成本,另一方面有助于评分专家通过多次查看而提升主观评判的准确性。第二,采用增强/混合现实技术为评分专家实时呈现评分标准,方便其随时查看和参考。很明显,该做法可通过提升评分专家对于评分标准的熟悉度而助力主观评判的准确性和可信性。例如,有研究者开发了一个基于手机的增强现实表现评价系统(其显著特征是可实时记录任务执行过程和呈现评分标准),针对其使用效果的研究发现:该系统能够有效提升主观评分的准确性[40]。最近,研究者开始尝试采用融合高级统计测量模型的数据分析技术来驱动测评数据分析的智能化、自动化和准确性。目前主流的数据分析方法有两大类:一是依据证据规则编写算法程序,如ATC21S编写的算法程序可以有效识别与协作问题解决能力理论模型中具体成分相关联的行为模式,然后通过对其呈现的有无进行不同赋值以实现受测者表现的自动化评分;二是“机器学习”评分,即采用多种统计模型(如人工神经网络、贝叶斯网络和潜在语义分析模型等)进行数据特征提取或关键模式识别,如Ronald和Adrian应用“人工神经网络”对科学问题解决过程进行评分[41]。
(四)促进测评活动实施
测评活动实施是表现性评价的根本,如果实施乏力,尤其是大规模测评项目,表现性评价难以取得预期效果。综合来看,信息技术可在测评活动的前、中、后三个不同阶段基于差异化措施促进其正常开展。第一,在测评活动前期,测评实施者可借助视频录播、视频会议、动画演示、电子文档等技术平台帮助受测者了解测评任务、熟悉测评流程、明晰测评反应以及练习测评操作,以打消其参与测评时的陌生感、无助感和焦虑感,支持其在正式测试时真实展现自身的技能、能力、思维等。第二,在测评(尤其是在线测评)活动期间,测评实施者可借助视频监控、视频分析、面部表情识别等技术实时追踪并分析受测者的行为表现和心理状态,并利用个性化干预技术在必要时(如动机不足、反应不当)为其提供适宜的测评支架,以协助其克服相关问题并顺利完成测评任务。第三,在测评活动后期,测评实施者可借助可视化技术直观呈现受测者的测评过程和结果表现,通过对比个体与整体的表现差异分析受测者的优势和劣势,并利用个性化推送技术为受测者提供定制化的评价反馈与差异化的发展建议。例如,我国最新开展的“大规模学生跨学段成长研究”项目组在其试测工作中充分利用了信息技术来促进表现性测评活动的一系列实施工作,如试测前的在线操作演示、试测中的问题解答和试测后的建议反馈[42]。
五、基于信息技术的表现性评价的发展路向
整体而言,目前基于信息技术的表现性评价的应用和推广仍处于初级阶段,未来需要从以下四个方面入手合力推进其大规模应用和推广。
(一)树牢改革理念,正确认识表现性评价的内容、形式与方法
推进基于信息技术的表现性评价,第一要务是确立科学合理的评价理念。首先,在测验内容上,不应只局限于孤立的知识或技能,而应聚焦于协作问题解决能力、决策力、批判性思维等高阶思维能力。这些高阶思维能力才是人才综合素质的核心成分,蕴含着智力、情感、态度和品德等多种要素[43]。正如孙宏志等[44]所言,“对学生高阶思维发展的评价是核心素养指向下学业质量评价改革的诉求,也是高阶思维课堂构建的指挥棒”。其次,在测验形式上,需要超越传统标准化纸笔测验甚至表现性纸笔测验,更多关注富含动态性、交互性和真实性的表现性任务场景。在这些场景下,受测者可以相对不受限制地通过多种形式(如面部表情、肢体动作等)展示自身的特定高阶思维能力,因此在测评结果上更为科学可信。再次,在评价方法上,需要正确看待技术的赋能作用,适时适度将信息技术融入表现性评价场景。一方面,信息技术能够给表现性评价的任务呈现、数据采集与分析、活动实施等带来便利;但是另一方面,如果使用不当,受测者就会面临数字分心、技术负载或技术倦怠等一系列问题。
(二)优化技术服务,持续改进表现性评价的可用性、易用性与实用性
技术服务的好坏,直接制约着基于信息技术的表现性评价的应用效果。因此,需要全面优化服务于测评全流程的各类信息技术。第一,针对测评任务呈现,可依据测评目标特点科学识别支持测评数据采集的自然任务场景或结合特定技术参数和具体任务内容合理搭建模拟任务场景,以确保任务呈现的真实性、可行性和可信性。第二,针对测评数据采集,可基于测评场景本身选用、配置或增添适宜的数据采集技术,以确保数据采集的非侵入性、全面性和准确性。第三,针对测评数据分析,可基于测评数据类型选用、升级或开发适宜的数据分析技术,以确保数据分析的准确性、稳健性和智能性。第四,针对测评活动实施,可依据评价活动特点并结合相关信息技术精心设计测评前培训、测评中支架和测评后反馈,以确保活动实施的高效性、科学性和可操作性。此外,需要在总体上借鉴国际、国家和地区技术标准以构建服务于表现性评价的重要技术标准和规范,并通过不断迭代和更新信息技术来降低服务于表现性评价的技术成本和操作难度,以切实推进基于信息技术的表现性评价的大规模应用和推广。
(三)完善数据标准,稳步提高表现性评价的规范性、统一性和效率性
构建规范的数据标准体系,是确保基于信息技术的表现性评价得以顺利开展的重要一环。第一,加快推进数据标准化建设,实现针对不同来源、类型、结构表现性数据的标准化处理规则体系。基于数据标准,使得相关数据能够在信息技术迭代更新后仍可保持优异兼容性,且能在必要时实现相互之间的交换和集成[45]。第二,加强推介数据标准,实现中小学校长、教师和家长等表现性评价利益相关者对数据标准的重要性认识和含义理解,并推动其对表现性数据采集和分析的认可和配合。与此同时,广大表现性评价开发者能够由此在设计任务场景时自觉遵守数据标准规范,从而推动表现性数据采集和分析流程的规范化和科学化。第三,大力深化国际交流合作,扎实推进数据标准的国际化工作。通过承办或参加相关国际化交流活动,我国学者可以深度学习其他国家的数据标准建设经验,加强我国与国际数据标准化组织的联系,并立足我国实际以丰富完善数据标准[46]。
(四)建强人才队伍,大力推动表现性评价的专业性、科学性和可靠性
推动基于信息技术的表现性评价的高效开展,亟需开展专项培训并组建一支多元化专业化的评价队伍。一方面,政府部门可以组织教师群体进行表现性评价的网络课程学习,教育部门可以结合中小学表现性评价工作的实际开展情况进行专门指导和具体培训,第三方机构可以给评价人员提供任务呈现、数据采集与分析、活动实施等方面的专题培训[47]。而且,可充分利用信息技术(尤其是智能技术)对教师群体参与培训时的多模态、全息数据进行全过程采集与分析,以明晰其实际需求和能力短板,从而支持为其提供更具针对性的培训服务[48]。另一方面,表现性评价队伍不仅需要涵盖一线校长、学科教师、家长、学生或同伴、社会人员等多个利益相关主体,而且需要纳入学科教学、心理与教育测量学、信息技术、教育管理等领域的人才储备力量。此外,需要整合教育学、心理学和信息技术学等基础学科的力量培养新型教育评价专门人才,增强其利用跨学科知识开展表现性评价及解决传统评价难题的能力[49]。
六、结语
针对传统标准化纸笔测验的不足,表现性评价具有兼顾测评过程与结果、注重知识的转化与应用、践行学评融合理念等优势。尤其是对于批判性思维、协作问题解决能力、创造力等面向21世纪的高阶思维能力,表现性评价展现出得天独厚的优势。然而,当前表现性评价实践因为设计与开发范式相对滞后、测验任务脱离现实、数据分析过程主观耗力,并未取得预期效果。《深化新时代教育评价改革总体方案》强调充分利用信息技术创新评价工具,为表现性评价变革提供了科学方向。随着人工智能、虚拟现实、物联网等新兴信息技术以及多媒体、通信、计算机自适应等传统信息技术为被日益广泛地应用于教育领域,这些技术正成为推动和加速教育评价变革的关键力量。表现性评价也不例外,势必会受到这些术的强力赋能和深刻影响。未来应大力推动各类信息技术与表现性评价实践的深度融合,切实变革表现性评价的任务呈现、数据采集和分析、活动实施等环节,真正助力表现性评价驱动素质教育变革和立德树人目标达成潜能的实现。