智能技术赋能教师教学评价:理论框架与实践路向
2024-03-25季益龙张家华周跃良
● 季益龙 逯 行 张家华 周跃良
作为新一轮教师评价改革的突破口和落脚点,教师教学评价不仅是反映教师教学能力发展、促进教师教学能力提升的关键抓手,也是落实立德树人根本任务、培育学生核心素养、建设教育强国的基础支撑。[1]2022 年10 月,中共中央、国务院印发的《深化新时代教育评价改革总体方案》(以下简称《总体方案》)重点指出:“改革教师评价,推进践行教书育人使命,特别突出教师教学实绩的考核,评价回归教育本质,把认真履行教育教学职责作为评价教师的基本要求。”[2]同时,教育部联合多部门出台了多个文件和计划,明确提出“要求充分利用物联网、大数据、5G、人工智能等新一代信息技术的优势,以新理念、新技术、新模式、新机制提高教育评价的综合性、科学性、客观性”[3]。然而,传统教师教学的评价理念、评价主体、评价内容、评价方法等多个方面都难以满足教育数字化改革的现实需求。基于此,本文聚焦“教师教学的智能评价”这一核心议题,系统回顾和分析教师教学评价范式的历史演变,并提出智能技术赋能教师教学评价变革的理论框架及实践路向,以期为数智时代教师教学评价改革提供理论借鉴与实践引导。
一、教师教学评价范式的历史演变
教师教学评价是对教师教学过程及成效进行多元、客观、人本的价值判断的活动。[4]智能技术赋能教师教学评价实现逻辑的明确,首先需要追溯教学评价范式的提出及演变。所谓范式(Paradigm),最初来源于自然科学领域,“是一套相互关联的概念,它提供了人类观察和理解特定问题和活动的框架,用于表示某个领域的共有信念、基本观点、价值标准、具体操作规范等认识世界和理解世界的工具、精神定向工具的有机整体”[5]。教学评价范式的形成与发展不能墨守成规,当老的范式不能解决实际问题时,范式便要发生迭代。以物联网、大数据分析、机器学习、知识图谱为代表的智能技术全面赋能教师评价改革,引起教师教学的评价范式正在经历从量化的范式、描述的范式、表现性的范式向数据驱动的第四代范式演化(如图1所示)。不同范式之间既相互联系又有所区别,拥有独特的理论体系、实践模式和技术框架,通过对四种评价范式在评价理念、评价内容、评价方式、评价技术和评价结果等多维度分析,发现当前教师教学的评价范式也正在从经验决策转型到数据驱动,从人工手动变革到机器智能。
图1 教师教学评价范式的历史演变
(一)量化的评价范式
兴起时期的量化测评是教师知识水平和教学能力测评研究中最早期、最成熟的测量方法,具有实施成本低廉、评分易标准化和结果分数化等优势。量化评价范式是一种以测量为特征的结果性评价,主要有三种方式:教师专业标准制定、问卷量表测量和教师资格考试。首先,20 世纪90 年代开始,以欧美发达国家为代表纷纷推出的教师专业标准,是一种较为严谨、标准化的教学能力测评体系,[6]如国际IBSTPI 教师通用能力标准[7]、美国NBPTS 的专业教师教学标准[8]、澳大利亚国家教师专业标准[9]、加拿大安大略省教师能力标准[10]、欧洲教师能力和资质的共同标准[11]等。这些教师专业标准被用作提高教师教学质量、规范教师专业实践、调控教师教学行为的一种手段,促进了世界各国师资优质均衡发展。其次,国内外很多学者根据评价目标编制出相关的教学能力评估量表,借助问卷指标的构成要素进而表达测评对象的能力水平。这种方法主要是依靠教师的自我调查报告,用于对教师的认知水平、教学技能、情感态度、行为规范等教学领域的客观评价。何齐宗等人将乡村小学教师教学能力划分为专业知识、教学能力、职业品格、个人特质等四个维度。[12]王光明等人通过自制教师核心素养和能力的测评问卷研究发现教师的核心素养和能力水平整体较好,教师的思想政治素养得分最高,而研究创新能力得分最低。[13]最后,教师资格认定的测评方法主要通过纸笔测试的方式考查教师候选人的职业道德与基础素养、教育知识与应用、教学知识与能力等三门笔试科目,并邀请学科专家对教师候选人进行标准程序化的教育教学能力面试,对能够胜任教师职业的人员进行资格认证,以规范教师职业准入门槛。这种测评方式是一种典型的标准量化测评,它主要目的在于构建具有一定选拔和鉴别功能的、实践性强的教育教学基础能力和基础素质测评体系。
(二)描述的评价范式
教师作为教育系统内的主体人,其教学评价不能仅用问卷或标准进行衡量,因而量化的评价范式受到教育学界的广泛批评与反对。随后,描述评价范式开始兴起与发展。发展时期的描述评价范式是一种以描述为特征的过程评价,主要通过深度访谈和课堂观察的方式对教师教学能力及教学行为进行观察描述,但其主观性相对较强,过度依赖于人工编码与统计,其测量结果难以得到大规模、常态化、便捷性使用。其中,深度访谈是一种自下而上的访谈方式:从访谈资料中形成结论和理论,通过专家与教师的田野互动,对其教学能力、教学行为和意义建构获得解释性理解和反馈的一种测评活动。通常由一些专家、学者对中小学教师进行深度访谈,用一些描述性的语言呈现评价结果,描述被评价者相关的教学基本信息、教学表现水平、教学行为分析等,并诊断出可能存在的教学问题。[14]这种评价方式一般用于形成性评价,用于教师的教学目标是否达成和教学问题的归纳总结。所谓的课堂观察,是一种从国外引入的课堂教学评价的方法,专家深入一线课堂或通过教学录像对教师的课堂教学过程进行观察、记录和分析。常见的课堂观察评价框架有FFT(Framework for Teaching)[15]、FIAS(Flanders Interaction Analysis System)[16]、CLASS(Classroom Assessment Scoring System)[17]和马扎诺模型(Marzano Model)[18]等。
(三)表现性的评价范式
专业化时期的表现性评价范式是一种基于真实课堂情境、运用评分细则对教师完成真实教学任务的过程表现或成效做出价值判断的真实评价,具有面对真实教学情境、采集伴随性表现数据、聚焦多元教学能力提升三大特征。与前两种评价方式相比,表现性评价更加聚焦真实情境,运用教师成长档案袋进行专业、过程、精准的教学诊断和反馈。但是,由于评价体系依赖于测评专家,人员、技术、精力的限制导致其很难实现大规模、动态性、智能化测评。近些年,世界各国学者和政府在教师评价、教师教育项目和教师资格认证过程中开始采用表现性评价的方案越来越多。例如,美国教师表现性评价edTPA、CAP 和PACT 项目,[19]澳大利亚职前教师表现性评价GTPA、AFGT 项目[20],加拿大安大略省教育部颁布的《教师表现性评价:技术手册》等等。[21]上述教师教学的表现性评价在教学实践中形成了一套完整的运作机制,体现出一些共同的特点:第一,在评价主体上,强调主体责任意识,融合多元评价力量;第二,在评价标准上,搭建精细评价框架,确保结果客观精准;第三,在评价任务上,营造真实教学情境,采集伴随性表现数据;第四,在评价实施上,秉承循证理念,持续促进有效教学。
(四)数据驱动的评价范式
智能化时期的数据驱动评价范式是一种创新的教师教学测评方法,利用智能技术采集多源异构数据,并借助技术工具分析、聚合形成可用信息数据,进而综合、优化形成有用知识,是一种可以服务决策的综合评价。该范式以数据为第一生产要素,其核心在于借助智能技术推动教师教学评价在评价理念、内容、形式和方法上的系统变革,旨在破解教师教学评价的智能化、科学化和精准化三大难题。然而,当前教师教学评价的研究仍然以传统教育评价范式为主,基于数据驱动的智能评价的相关研究相对较少。近些年,也有一些研究开始采用数据驱动方式探索教师评价。例如:Saquib 等人指出,利用机器学习和自然语言处理技术评价教师的教学行为和学生的学习行为,评价结果具有较高的准确度;[22]Prieto 等人综合分析教师眼动追踪、教师行动轨迹、教学音频和视频数据,构建智能课程分析的多维度评价指标体系;[23]Ramakrishnan 等利用CNN 与Bi-LSTM 深度学习算法,自动提取课堂教学视频中师生的面部表情与课堂对话数据,实现课堂教学中积极和消极氛围的智能分类;[24]卢国庆等人基于人工智能引擎,通过对教师教学行为的类型、规律及差异性的自动标注,为改进教师的课堂教学及开展教研活动提供实践案例。[25]但是,这些研究都基于单模态或双模态对教师的认知、言语、情感、行为和生理等数据进行评价,缺少从多源异构数据融合的方式构建教师教学评价体系,难以获得全面、科学的教师教学评价结果。
二、智能技术赋能教师教学评价的理论框架
对于任何评价活动而言,至少需要考虑四个问题:为何评(Why)?评什么(What)?怎么评(How)?评何用(Use)?这些问题的回答阐述就构成了智能技术赋能教师教学评价的理论框架:核心目标、评价内容、评价技术和评价结果(如图2 所示)。该框架以促进教师专业发展为核心目标,以教学准备、教学实施、教学效果和教学反思的全域教学数据链为评价内容,借助智能技术的感知、连接、计算和反馈能力对多源数据融合分析,赋能教师教学“四个评价”,构建了一个集“目标—内容—技术—结果”四位一体的多元、循环、综合的WWHU 理论框架,为保障教师教学的智能评价实践提供一定的理论支撑。
图2 智能技术赋能教师教学评价的理论框架
(一)核心目标:促进教师专业发展
评价理念对教师评价改革起到牵引和导向作用,旨在回答“为何评(Why)”的问题。评价理念是泛在的行动主体进行价值操作的导向,它的历史演变过程反映了学者对教师评价理念认识的不断深化。[26]教师教学评价的核心任务是价值导向,有什么样的价值导向,就会生成何种评价指挥棒。课堂教学是一种培养人的活动。因而,对教师教学的评价,其根本目标不是为了奖罚教师,也不是为了判断是否合格,而是为了促进教师专业成长,全面落实立德树人这一根本诉求。通过对教师教学评价范式的历史演变进行回顾与分析发现,教师教学评价理念的形成不是一蹴而就的,而是随着时代进步和教育变革不断迭代发展的。首先,产生时期的量化评价范式是以奖优罚劣、等级评定为评价目的,通过纸笔测试或能力标准来实现对教师教学的量化评估。其次,发展时期的描述评价范式则是以目标判断、问题分析为评价目的,利用深度访谈或课堂观察来实现对教师教学的定性评估。再次,专业化时期的表现性评价范式结合前两者的优势,以诊断教学问题、提高教师真实教学表现为评价目的,是一种收集教学全过程的真实表现档案来实现对教师教学的混合评估。最后,智能化时期的数据驱动范式是以促进教师专业发展为评价目的,强调通过数据来发现并理解教学,以智能技术与教学评价的融合推动教学效率与效能的显著提升,为创新人才培养提供人力保障。以服务教师专业发展为理念的评价理念,应扭转不科学、功利性的教师评价导向,坚决克服破“五唯”的顽瘴痼疾,真正发挥测评结果的“改进”本质。
(二)评价内容:全域教学数据链
评价内容是一系列耦合教学过程和成效的数据化表征,旨在回答“评什么(What)”的问题。与传统的经验式评价有所区别,智能化教学评价内容多来源、异结构、标准化、伴随式的文本、图片、音频、视频等多模态数据,可实现对教师教学的全过程、全方位、精准化评价。通过分析国内外典型的教师教学标准、课堂观察评价工具和课堂教学评价框架等,我们构建了教师教学评价内容的数据编码体系(如表1 所示)。该编码体系以教学过程阶段为考量视角,旨在建立教育学指标与计算机数据标签的映射关系来表征全域教师教学数据链,具体由四阶段八维度组成:教学准备阶段包括专业基础和教学设计两个维度;教学实施阶段包括课堂氛围、教学行为和课堂管理三个维度;教学效果阶段包括课后测试和学生评教两个维度;教学发展阶段有教学改进一个维度。
表1 教师教学评价内容的数据编码体系
(三)评价技术:融合多源异构数据
评价技术是借助智能技术的感知、连接、计算、反馈等功能,实现教与学全过程的细粒度测评,旨在回答“怎么评(How)”的问题。目前,大多数教师教学的评价方法仍以定量或定性评价为主,评价技术主要包括知识测评、问卷调查、课堂观察、人工编码等方式。这种传统的教师教学评价技术存在主观判断、依赖专家、效率低效等问题,无法做到对教学过程中产生的大量多模态数据进行自动化标注,难以为教师提供及时、个性化的教学反馈与改进信息。相比传统的评价技术,智能评价技术更加注重对多源异构的教学证据进行融合和分析,分别从不同维度对教学过程和结果提供精准刻画和有效反馈。多源异构数据是指由不同的用户和不同的来源渠道产生、具有多种数据类型、描述同一主题的多模态数据集合;[27]基于多源异构数据的评价技术,具有伴随式采集、实时化分析、智能化评价和可视化展示等优势。具体表现在四个方面:其一,借助智能技术的感知能力,利用物联网、区块链、数字孪生、VR/AR 等大数据处理技术,通过无感、自动、实时的方式采集教师教学过程的多源异构数据,并对结构化和非结构化的数据集合进行噪声消除、数据清洗、数据转换、特征值提取等ETL 预处理,确保评价结果的综合客观。其二,借助智能技术的连接能力,将人工专家的教育学指标与计算机的数据标签建立映射关系,将具有典型的特征向量进行聚类数据簇,构建可量化、可操作、可解释的AI 评价模型。其核心在于连接教师教学评价相关理论与教学全过程证据,并通过多源数据簇实现对理论层面的连接。其三,借助智能技术的计算能力,根据拟合好的AI 评价模型选择最优的机器学习算法对教师教学表现证据的一种精确性计算和分析。常见的机器学习算法包括朴素贝叶斯(Naive Bayes)、支持向量机(SVM)、K-最近邻算法(KNN)高斯混合模型(GMM)、长短期记忆网络(LSTM)、卷积神经网络(CNN)、深度神经网络(DNN)等。其四,借助智能技术的反馈功能,将测评结果应用到教学实践中,以发挥测评结果的“以评促教”功能。反馈技术通过教师教学AI 评价系统实现教师教学能力的智能评价、教师教学图谱的可视化、教师群体的聚类分析和教师不良教学行为的预警干预等功能,真正发挥教师教学评价结果的诊断和改进作用。
(四)评价结果:赋能“四个评价”
评价结果是利用智能技术应用于各类教师教学评价场景的价值体现,旨在回答“评何用(Use)”的问题。《总体方案》明确提出“四个评价”,即结果评价、过程评价、增值评价、综合评价。[28]“四个评价”各有特色和不足,急需利用智能技术赋能四种评价类型,促进教师教学评价结果的改革与创新。首先,智能技术促进更加科学的结果评价。结果评价通常是识别教学目标的达成程度,具有目的性、经济性和可操作性等特点。然而,长期以来形成的以“唯分数”“重优秀”为主的纸笔测试,导致传统的结果评价通常不能科学反映出教师真实的教学过程和质量。智能技术主要通过智能教学考试机、智能教学题库、智能教学评分等应用场景,促进更加科学的结果评价。其次,智能技术赋能更加智慧的过程评价。过程评价真实表达教师在教学全过程中的教学与发展水平,具有情景境性、诊断性、过程性等特点。传统的过程性评价主要采用教学档案袋的测评工具,存在主观性强、人力成本大、难以大规模实施等问题。智能技术主要通过伴随式数据采集、课堂情绪感知与行为分析、课堂教学活动编排、教学图谱实时反馈与干预等应用场景,赋能更加智慧的过程评价。再次,智能技术探索更加便捷的增值评价。增值评价以教师教学进步幅度来衡量教师努力程度,具有阶段性、成长性、激励性等特点。传统的增值评价方法基于描述统计和统计归回的概率统计,计算出现的“产出量”与“输入量”之差易,造成过度简化教师教学的复杂性、没有考虑教师个性化变量影响、缺乏促进教师发展等问题。智能技术主要通过教学大数据发展评价、个性化教学资源推荐、教师教学生涯规划等应用场景探索更加便捷的增值评价。最后,智能技术落实更加完善的综合评价。结果评价是从全流程、多维度的视角对教学活动做出系统性判断,具有系统性、多元性、公正性等特点。综合评价正在成为教学评价的主流趋势,但也存在评价模型与数据指标难以匹配、多源异构数据类型复杂性以及评价结果客观公正不足等问题,迫切需要借助智能技术来弥补这些不足之处。智能技术主要通过教学评价智能模型、教师综合素质评价、教师教学数字画像落实更加完善的综合评价。
三、智能技术赋能教师教学评价的实践路向
智能技术赋能教师教育评价改革是一项长期性、复杂性、整体性的系统工程,涉及多个层次工作的协同推进。为进一步充分发挥智能技术优势,更加科学和有效地开展教师教学评价,未来仍需在理念引领、数据融合、平台搭建、机制保障等四条路径持续着力(如图3 所示),以保证智能技术在教师教学评价中的常态化应用。
图3 智能技术赋能教师教学评价的实践路向图
(一)理念引领:秉持科学的教学评价理念
推进智能教育赋能教师教学评价,首要任务就是转变传统的教学评价理念,秉持科学的教学评价理念,扭转不科学的教学评价导向。第一,破除教育测评“唯工具”导向,警惕“唯数据”的测评方式。金生鈜认为,以数据为本的教育测评已经成为现代化教育教学的主导方式,而这种测评方式却无法体现教师的精神内在性,也无法预测什么是真正的“好的教学”。[29]究其原因,智能技术只是服务于教师教学评价的工具和手段,而非评价活动的核心要素和落脚点。其实践目标是正确处理好智能技术与教学评价两个主题之间的关系,以促进智能技术赋能教师教学高质量发展。第二,坚持人机协同教学测评,厘清人机协同评价方式下人类教师与智能机器的角色定位。具体而言,需要坚持人文关怀性与理论科学性的有机统一与双向驱动,探索一种能够结合专家智慧与机器智能的人机协同测评范式,通过迭代的专家标注、机器学习和辅助决策的循环过程,使教学评价指标体系能够更加智能化地构建和实施。第三,以“促进发展”为核心理念,提升教师教学成效。智能教学评价更多体现是方法层面的变革,而其逻辑终点是要服务于教书育人的本质属性,强调以教师的全流程教学证据为观测点,分析教学投入及其成效,充分体现出教师教学评价以人为本的发展性向度。
(二)数据融合:打通全域的教学数据链条
海量的教学数据既是教师教学评价中最重要的“资产”,又是教与学过程和成效信息的集合。根据教师的教学全过程,可以将其分为教学准备证据、教学实施证据、教学效果证据和教学发展证据。然而,智能技术应用于教学测评的最大障碍是无法将多源异构的数据汇聚与融合,难以获得全面、科学、精准的教师教学评价结果。因此,推进智能教育赋能教师教学评价,核心任务就是汇聚与融合这些跨场景、多类型、互通性的数据集,以为教学评价的科学性和客观性提供数据支撑。第一,线上数据和线下数据的融合。线上数据存储于各类在线教学平台中,包含了教师基本信息、在线教学资源、在线学习活动、在线交互活动、教学过程性数据等。线下数据主要是线下教学活动产生的,包含了课堂教案、教学准备、教学活动设计与实施、课堂实录、课后作业、教学反思日记等。第二,“硬数据”与“软数据”的融合。硬数据是基于穿戴设备、传感器、监控仪、实时录播系统等传感设备,将可测量和易量化的“硬数据”通过结构化形式传到云端服务器上。软数据利用各类智能教学平台采集自生成、模糊性、主观性的非结构化数据,如教学投入度、教学注意力、教学反思力、教学成效度等。第三,时域数据与空域数据的融合。时空数据属于横纵坐标系,时域数据依据纵向时间线上累积的时域数据,如课前准备、课中实施和课后改进等。空域数据是横向空间面上布局的空域数据,如虚拟空间、线下教室、泛在环境等。
(三)平台搭建:构建生态的教学评价系统
搭建智能教师发展平台是教师教学评价顺利开展的关键举措,其落脚点在于结合智能技术感知、连接、计算和反馈的赋能表现,构建一个多层次、智能化、立体开放的教学评价生态体系。第一,面向感知阶段的数据基础层,利用软硬设备面向实体教学课堂和虚拟教学空间两大场域采集文本、图像、音频和视频等多源异构数据,加强对数据集无感采集、自动标注、噪声处理等关键技术的研发,实现针对教学大数据的自动化、全流程、大样本、多场域采集和汇聚。第二,面向连接阶段的数据模型层,重点解决的技术难题是如何采用计算机建模技术,从预处理过的测试集中抽象出具有代表性的特征向量,并发现教学评价指标与特征向量的映射关系,甚至通过对多模态数据的分类发现新的评价指标,构建智能教学评价的数据模型。第三,面向计算阶段的数据分析层,以构建完善的教学评价指标为基础,利用文本、声音、图像、视觉等四大AI 分析引擎,分析教师的教学设计、课堂情感、教学行为、姿态动作、位置信息、反思日记等数据观测点。第四,面向反馈阶段的数据应用层,需将教学数据分析的结果以动态可视、精准诊断、个性报告的方式智能推送给每位测评教师,以为其提供专业化教学的改进路径和发展建议。
(四)机制保障:完善立体的教学评价机制
构建立体的评价保障机制,为智能技术赋能教学评价有序实施提供重要保证,使整个教学评价生态体系有效运转。第一,夯实智能化教学环境“新基建”,是推动教师教学智能评价的数据底座。一方面,以物联网、电子平板、智能传感器、智能摄像头、VR 眼镜、数据中心等先进硬件为支撑,建设成具有智能、泛在、交叉、沉浸等功能特征的新型教学环境;另一方面,以云计算平台、智能录播系统、智能导学系统、大数据分析平台等智能平台为依托,构建云端一体化的数字化教师服务平台。第二,提升教学评价主体的数字素养,是推动教师教学智能评价的人力支撑。高校专家、一线校长、学科教师等教学评价共同体不仅需要教育测量、教育评价等专业素养,还应该具备智能时代应该具备的数字素养,能够通过开展智能技术评价相关的教师培训、研训活动和实践应用,积极帮助教师提升数字素养和智能技术应用能力,促进教学大数据驱动的精准化教学。第三,构建数据标准与伦理规范,是推动教师教学智能评价的前提条件。数据标准是从顶层设计的角度制定智能技术赋能教学评价的数据标准规范,[30]包括数据治理制度、数据质量标准、数据技术手册、数据共享机制等方面,以用于对数据定义、分类、格式、编码等标准化管理,保障不同数据源头之间可以做到对同样的数据理解统一和使用统一。数据伦理规范是以符合道德准则及社会责任的方式去获取、存储、管理、解释、分析、应用和销毁数据。利用网络安全、数据恢复、隐私加密、伦理审查等手段,加强对师生数据的隐私保护,以促进教师教学评价的专业、安全、可持续发展。
四、结束语
当前,我国正处于教育评价改革的关键时期,教师教学的智能评价是保证与提升教师教学质量的必由之径,也是教师评价变革的核心问题。但从目前来看,教师教学评价的智能化转型仍处于探索阶段,相关理论模型和技术应用还不够深入,智能测评体系尚未完善,需要借助智能技术推动教师教学评价在评价理念、内容、形式和方法上的系统变革。因此,本研究围绕“教师教学智能评价”这一核心主题,构建了一个集“目标、内容、技术、结果”四位一体的多元、循环、综合的WWHU 理论框架。未来,要推动智能技术赋能教师教学评价的实践落地,应以秉持科学的教学评价理念为目标导向、以打通全域的教学数据链条为核心任务、以构建生态的教学评价体系为关键举措、以完善立体的教学评价机制为重要保障,努力实现我国教师教学评价的智能化、规模化和常态化。