人工智能时代高等教育教学评价的关键技术与实践
2021-09-23胡钦太伍文燕潘庭锋邱凯星
胡钦太 伍文燕 冯 广 潘庭锋 陈 卓 邱凯星
(1.广东工业大学 计算机学院,广东广州 510006;2.广东工业大学 自动化学院,广东广州 510006)
一、背景与问题
教学评价是对教学的价值判断,对教学具有诊断、鉴定、反馈、导向等功能(高巍,2019)。 人工智能教学评价是利用人工智能的智能感知、大数据分析、自动决策等特点,运用人工智能算法对全过程教学行为数据进行智能分析,得出实时的个性化评价结果,并提出干预策略,促进教学积极改变。
目前人工智能教学评价研究主要集中在三方面:一是人工智能教学评价系统研究。孙婧(2021)提出学校可以运用区块链技术构建动态的学生综合评价系统,利用人工智能动态追踪和检测学生的学习过程和成效,对学生个性化诊断;孙等(Sun et al.,2020)开发了在线英语教学辅助系统,利用决策树算法和神经网络,生成基于决策树技术的英语教学评估模型,研究评估结果与各因素之间的潜在联系;陶益等(2019)借助智能平台建立全过程教学评价体系,推动“中药炮制学”课程教学模式改革。二是人工智能教学评价技术研究。如菲恩等(Fawns et al.,2021)认为评价必须考虑教师、学生、机构及其背景,主张数据和非数据交叉,让教师和学生更多地参与;金布鲁等(Kinnebrew et al.,2013)采用分段线性分割算法和差分序列挖掘技术,识别和比较学生的生产性和非生产性学习行为片段,提出探索性的数据挖掘方法,评估和比较学生的学习行为。三是人工智能教学评价应用研究,主要表现为对学生认知和情感状态的监测。帕夫利克(Pavlik,2009)分析学生学习表现,预测学生知识掌握的程度和概率;还有研究者采用贝叶斯知识追踪模型、卷积神经网络(Convolational Neural Network,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)监测学生的认知状态(Chaplot,2018)。如兰(Lan,2020)建立的基于贝叶斯网络的智能教学系统学生模型,不仅可以客观地评价学生的认知能力,还能推断学生的下一个学习行为,以及马克(Mark,2021)用智能教学系统自动检测学生情感状态,引导学生进入积极的学习状态;莱麦丹(Ramadan,2017)采集脑部浅层活动信号,根据特定频率提取特定的脑电波,评测学生的注意力、情绪情感和认知负荷等。
反观我国高等教育教学评价现实却发现:评价模式上,高校对“教师教”的评价甚于对“学生学”的评价,学生没有成为评价的主角;评价指标上,对学生“知识”的考查多于对“能力”的考查,通常借助专家经验设定指标与权重进行评判;评价依据上,由于学生学习过程数据的记录和保存有限,无法对教学质量常态化监测;评价算法上,同一标准评价难以满足所有师生的个性发展需求;评价结果与教学干预上,监测的主要目的是获得“分数”,评价难以真正改善教学,提升质量。这些问题一方面反映出现阶段高等教育教学评价的改革理论与实践存在脱节,另一方面说明人工智能技术融入高等教育教学评价还需方法和技术层面的实践指引。
二、关键技术
构建基于人工智能技术的高等教育教学评价系统涉及顶层评价模式构建、评价指标与权重制定、学习全过程数据采集、个性化算法应用、评价与干预系统设计等五大关键技术。
(一)评价模式的构建
构建人工智能评价模式,就是利用人工智能技术对学习过程的大数据进行分析,实时反馈学生学习情况。具体来说,就是借助人工智能的智能性和自适应性完成学习检测、诊断、提示和帮助等,实现对学生学习行为的动态跟踪、采集、分析和评价。该模式至少涉及四个环节,即构建多元化的评价指标,考查学生能力;收集学习过程数据,建立数据库及学生个人的行为特征库;通过教育算法对数据进行分析,获得学生深度学习行为特征,得出学生个性化评价结果并据此对学生学习进行决策干预。
(二)评价指标的制定
构建高等教育教学综合评价指标体系,不仅要关注教学结果,更要重视教学过程;不仅要保证评价指标的系统性,更要确保评价指标的可操作性;不仅要考虑指标的普适性,也要考虑指标的个性化。本研究依据评价指标的知识水平、学习情绪、课堂参与、综合评价等维度将评价指标分为学习成绩指标、学习情感指标、学习注意力指标、学习参与度指标、综合素质指标等。多维评价指标能提升评价的科学性、公正性和合理性,数据获取途径如下:学习成绩指标从学生的考试测验中获得;学习情感指标从学生对课程或老师的评价数据、摄像头采集的学生表情数据以及录音设备采集的学生声音数据中分析获得;学习注意力与参与度指标从摄像头采集的学生课堂行为姿态数据中分析获得;综合素质指标通过考察成绩、情感、专注度等获得。区别于以往的评价体系,基于人工智能算法实现的学生评价指标的识别与分析使评价更客观公正。
(三)基于智能感知的常态化监测技术
利用智能感知技术开展常态化监测,就是通过智能教学系统收集教学全过程数据,包括学生的语音、姿态、面部表情、生理信号、教学成绩、教学环境物理状态信息、教师教学状态信息等多模态数据。教学全过程数据可分为数值型数据、文本型数据、人体形态图片数据、面部表情数据、生理信号数据以及声音数据等,不同数据需采取不同的处理方法。其中,数值型数据主要为学习行为数据,如云课堂的点击流数据、单元测验或考试成绩等;文本型数据主要为学生对课堂与老师的评价;人体形态图片数据可以反映人体的状态和意图,系统可通过行为姿态识别技术对人体姿势,如起立发言、注视前方、阅读、书写、交谈、转身、使用手机、趴在桌面等进行行为识别(刘新运,2020);面部表情数据能反映学生课堂的情绪变化,系统定时采集学生面部数据,实时跟踪学生的情绪变化,并借助卷积神经网络对面部特征提取并识别生理信号数据,如脑电、心电、皮肤温度等,并通过采集与分析生理信号捕捉情绪变化及身体健康状况;声音数据是传递信息、情感的媒介,系统对声音数据进行分帧,然后提取声学特征,再利用语音识别技术将其识别为相应的文本,进而开展文本处理;眼动数据包含眼睛盯视方向、时间、眼跳频率、瞳孔参数、注视点轨迹等,可反映受试者的专注程度及背后蕴含的信息。眼动数据可通过单摄像机进行追踪,研究者可提取其视线特征后对其视线轨迹进行分析。
以上多种数据组合而成的多模态数据可全面表现学生的学习状态,比单一模态的数据更全面。以往使用单一模态数据的教学评价使分析结果不够全面,而多模态数据可有效解决这一难题。
(四)智能评价算法的选择与构建
智能评价算法是教学评价系统的核心,主要对智能感知过程采集的数据进行分析,对学生进行评价。系统用于教学评价的算法包括卷积神经网络、长短期记忆网络、BERT(Bidirectional Encoder Representations for Transformers)模型等。如孙霞等(2019)使用卷积神经网络和长短期记忆网络组合成混合神经网络预测在线教育辍学问题;冯梦菲等(2020)将BERT应用于学生习题推荐系统,提高习题推荐质量及在线教学效率。其中,数值型数据可采用聚类算法等无监督机器学习算法或决策树等有监督机器学习算法进行分析。聚类算法,如k-均值聚类(k-means)、均值-漂移算法(mean shift)和基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)等,被广泛应用于数据挖掘领域的数据分类。如牟智佳(2020)使用k-均值聚类算法分析学生群体特征的结果显示,学生群体可分为能够完成绝大多数学习内容的积极学习者、能够完成部分内容的活动参与者及完成较少学习内容的活动围观者,据此了解学生学习活动的表现及学习效果。了解学生行为的浅层特征后,系统通过深度学习算法等,将学生学习行为数据根据评价指标分为若干类行为不同的学习者,从而形成不同的评价内容。有监督的机器学习算法,如决策树等可根据学生课堂学习行为特征预测其期末成绩能否及格,进而启动预警系统对学生学习进行干预。如甘甜(2021)提出的基于决策树分类算法的高校远程教学质量评估方法,同时满足了教学质量评估的效率及精度,具有较高的应用价值。
以上各类算法均是对学生学习过程数据的分析,研究者可根据数据类型而选择不同的算法(见图1),实现学生评价的合理、科学。其次,阻碍智能教学评价发展的技术难点在于对多模态数据的分析,即目前教学评价只停留在单一数据的分析上,难以实现评价的全面性。针对该难点,不同评价需采用不同的算法来处理相关数据。
图1 智能评价算法架构
(五)诊断式评价及干预系统的设计
智能评价算法可以得出学生的学习行为、学习状态、学习情感等行为特征数据,数据决策系统可据此自动决策。强化深度学习算法可计算学生后续行为的最优决策序列,及时调整学生学习行为,确保学习进度。当学生评价指标达到预警线,系统可及时进行个性化干预。学生学习情绪变得厌烦时,系统提醒学生休息以调整情绪;而当学生表现积极时,系统可及时加以鼓励,提高学生学习的积极性。
三、研究设计与过程
(一)研究设计
本研究基于智能系统的自决策,采集线上、线下学生的多模态行为数据进行智能分析,并根据评价结果自动进行学习干预,包括推荐学习资源、学习同伴、学习方法,以及开展情感辅导等,构建基于智能系统的自决策流程,其工作流程见图2。
图2 基于智能系统的自决策流程
依据以上核心技术和设计,本研究在广东工业大学教学云平台蕴瑜课堂与智慧课室的基础上,利用人工智能算法建立融智能感知、智能算法、数据决策等模块的教育诊断评价与干预功能系统,展现人工智能评价在规模化、个性化、公平性、实时性、精准干预的优势和特色。诊断评价系统架构见图3。
图3 基于智能的诊断评价与干预系统架构
(二)研究过程
1.数据感知
数据是智能分析的基础。本研究数据包括两部分:一是学生线上学习全过程数据,包括图片、文字、网页点击、观看视频流等;二是通过智能感知技术获取的线下(智慧课室)多模态学习行为数据,包括图像数据、声音数据及眼动数据等。多模态数据用于感知学生的课堂表现,如出勤情况、学习情感状态、抬头率、讨论交流次数等。受硬件设备及环境噪声等的影响,学习行为监测不可避免地存在漏读、多读、错读和实时性低等问题,导致学习行为数据质量下降,数据分析的准确性降低。为解决这一问题,本研究定义了数据质量的四个标准:准确性、完整性、一致性和实时性,以此对数据质量建模,提出评价异构多源多模态学生实时行为数据质量的方法:基于数据质量的学习行为数据获取算法—根据用户给定精度,选择不同数据的传输网络,在保证数据质量的前提下减少网络资源的消耗;将数据根据时间对齐,再依照数据类型根据时间序列存储在数据库中,最后对数据进行智能分析。
本研究以广东工业大学“马克思主义基本原理”实验课程的269名学生为实验对象,获取反映学生课堂专注度、主动学习能力、期末考核情况、交流讨论程度等的多模态数据。
数据统计分析发现,量化处理后的数据类型最小值和最大值呈两极化分布,且平均值位于两极点内,符合统计学规律,证明量化处理后的数据具有合理性。数据感知技术收集的学生全过程数据,可弥补传统教学中老师对学生关注不够的不足。
2.智能评价算法模块
为实现面向学生的个性化数据决策,智能感知采集的数据通过智能评价算法,可以获知学生全过程的真实学习质量。评价算法如下:
1)课堂专注度分析
为分析学生课堂专注程度,本研究使用基于卷积神经网络的目标检测算法提取图像数据,获得学生的图像特征(见图4),并根据专注度权重获得专注度特征,最后通过全连接层进行图像特征表示。应用机器学习分类方法判定目标对象的面部位置,分析学生的出勤率和抬头率。
图4 基于卷积神经网络的目标检测算法
2)学习行为浅层特征分析
学生教育数据包括语言文本和交互数据,诊断评价系统使用长短期记忆网络算法,对学习平台学习者交互行为数据进行人机交互处理,分析其浅层特征(见图5)。系统从收集的视频中提取文本数据、语音数据、图像数据,再通过不同方法提取数据特征,从而得到文本特征、语音特征、图像特征,然后组合传入到组合LSTM模型进行分类。
图5 基于LSTM的浅层特征分析算法
3)学习行为深层特征分析
多个深度学习网络获得同一映射后,为根据这一映射提取高维特征,本研究采取两种方法:判别受限波兹曼机(DRBM)和生成受限波兹曼机(GRBM),组成深度混合判别受限波兹曼机(HDRBM)。得益于深度学习模型强大的学习能力和预测性,基于深度混合判别受限波兹曼机的学习行为分析能保证分析精度,并依此设计神经网络目标函数和优化途径,得出学生的深层学习行为特征。基于波兹曼机的学生深层特征分析见图6。
图6 深度混合判别受限波兹曼机分析
生成受限波兹曼机、判别受限波兹曼机、混合判别受限波兹曼机的多模态神经网络目标函数如下所示:
其中,Dtrain为训练集,p(xi,yi)为一个样本x和一个标签y的联合分布,可调参数α表示生成模型对于整个模型的影响比重。若α较大,则偏重生成波兹曼机,即少量数据集的情况;反之,则偏重于判别波兹曼机。
4)学习行为特征的归因分析
系统利用归因分析算法,追踪学习者行为特征的关联行为。基本的贝叶斯网络结构可以发现学习者行为与主动学习能力等特征的因果关系,从而可基于多元回归分析获取各变量的因果关系影响程度,找出最重要的影响因素,如在线时长、访问课件资源频率等(见图7)。其中,向量V=(v1,v2,…v5)表示变量集,vi依次表示混合数据特征、生理数据特征、心理数据特征、行为数据特征以及学习情境元素,选取n组可观察的数据集X={x1,x1,…,xn}进行训练来发现变量V和学习评价间的依赖关系。采用基于约束的方法进行贝叶斯模型训练后,即可构建出高维变量的贝叶斯网络。贝叶斯结构CH评分函数的形式如下:
图7 基于贝叶斯网络的可解释性流程
3.数据决策模块
数据决策是利用信息技术的诊断评价结果,融合基于深度学习的神经网络预测模型,为学习者提供优化的精准推荐服务,比如知识点推荐、学习方法推荐以及资讯推荐。
学习者诊断评价结果反映某个时间地点下特定的学习者对学习资源的偏好。依据评价结果,学习者若在某一评价指标下表现出的深层行为特征有欠缺,学习管理中心会自动决策改变推荐内容,重点向学习者推荐利于提升该方面能力的服务,如评价模块显示学习者沟通能力下降,推荐模块就会推荐增加沟通能力的相关读物及加强需要沟通技能的作业比重。
相比于统教学过程,基于人工智能的干预系统能实现实时的精准推荐,学习者能准确及时了解自己学习过程的不足,并加以改进。
四、应用效果
为检验本研究的有效性,广东工业大学“蕴瑜课堂”建立了教育诊断评价与干预功能系统,随机选取本校十个实验班共538名学生进行对照测试,其中五个对照组与五个实验组,对照组使用传统教学评价模式,实验组使用人工智能教学评价模式,开展一个学期的对比实验及跟踪调查。
该系统通过人工智能评价算法,对智慧感知的多模态学习行为数据进行分析,实时得出学生个性化诊断评价结果,系统界面见图8。
得益于人工智能评价的普惠性与实时性,每名实验组学生都能够访问自己的实时学习评价结果,该结果有多项学习评价指标。实时的学习评价模块通过呈现智慧学习评价雷达图表现自身能力差距,能力越接近多边形外围,该能力越强。智能评价算法可从多维度对学生进行个性化评价,弥补了传统系统只对学生单一指标描述的局限性。学生了解自身差距后,系统再根据个性化的评价结果干预学生学习行为。
图8 实时教育诊断评价功能界面
为进一步分析人工智能评价的特性,研究首先进行学生成绩归因分析,选取交流讨论次数、抬头率和小测成绩,分析其对学习成绩的影响。表一展示了实验组学生学习行为对学生成绩的影响,每一列表示不同学习行为指标取值对应学生成绩的概率。以交流讨论次数为例,当交流讨论次数小于3时,成绩超过80分的概率仅为6.63%,远低于交流讨论次数大于10所对应的概率(20.42%)。由此可见,交流讨论次数对学生成绩有正面影响,学生交流讨论次数的增加可提高其考试成绩。归因分析结果能指导老师改进教学方法。
表一 学习行为对学习成绩归因分析
表二 应用效果问卷调查结果
其次,研究采用李克特量表设计问卷,分析教育诊断评价与干预效果。研究围绕普惠化、个性化、公平性、实时性与精准干预五方面对实验对象开展问卷调查与访谈,共发放问卷538份,回收问卷531份,有效问卷524份,问卷有效率97.4%,调查结果见表二。
从问卷调查结果可以看出,实验组学生与对照组学生相比,对教学评价、干预模型的满意程度更高,达60%以上(非常同意与同意之和),而对照组的满意度较低。显然,人工智能教学评价模式优于传统的教学评价模式。
综上所述,人工智能教学评价与传统的教师评价相比,优势体现在五个方面,分别是普惠化、个性化、公平性、实时性与精准干预(见表三)。
表三 人工智能教学评价的优势
五、结论与思考
随着人工智能技术的发展,基于人工智能的教学评价带来了评价主体、评价体系、评价结果、教学决策等的积极改变。
1)评价主体发生转变。美国《2019年国家人工智能研究战略计划》指出,人工智能系统可以增强或补充人类的工作能力,人工智能将成为人类工作的专业合作伙伴。人工智能系统的成熟将使劳动力从以人类为主转向人机协同。在教育评价中,它可以有效地增强教育评价系统中教师的工作能力,弥补评价出现的效率低下、主观性强、千篇一律、评价延时等问题。人工智能系统使劳动力从以人类为主转向人机协同,特别是数据获取与分析技术的进步,以及基于学生学习全过程数据的评价,使评价更具针对性,实现了评价的规模化、公平化、个性化、实时化,弥补了传统教学评价的不足。
2)教学评价体系发生重构。在人工智能+教育的发展趋势下,美国国际教育技术协会、联合国科教文组织、全球监测联盟等先后设计了数字能力素养评估框架,这一新素养在人工智能赋能社会的背景下,显得尤其重要。该评估框架包括七个方面的能力板块:软硬件基础知识、信息和数据素养、沟通与协作、数字内容创建、安全、问题解决和与职业相关的能力。可见,素质教育是人工智能+教育的重要培养目标,将更加强调学生的批判意识、知识与能力等综合素质的培养,人的全面发展、满足社会需要将成为衡量教育质量的根本标准。
3)评价结果更公平。人工智能评价充分依赖物联网技术、大数据技术、高性能计算技术以及相应软硬件的支持,评价贯穿于学生学习全过程,有别于传统评价中的唯分数论。智能算法对学生学习全过程数据进行分析,可以实现自学习、自适应、自我优化以及最优的输出结果,能有效地避免因教师主观喜好而造成的评价不公平。
4)教育决策更加以人为本。人工智能算法有着自学习、自适应和自我优化的特性,算法可以根据不同的输入,通过学习训练来调整各参数的权重,得出最优的输出结果。人工智能教学评价要将基于数据和智能系统的自决策,与基于教师的他决策相结合,使教育决策更具人文关怀。自决策应用于教学全过程,智能算法可以实现精准干预、过程优化及个性化学习,但由于自决策基于智能系统数据,分析结果太过客观死板,可能缺乏人文关怀。而基于教师的他决策,可以根据经验判断、情感因素等给出更具人文关怀的学习决策。
综上所述,人工智能技术能改善高等教育教学评价在评价模式、指标、依据、算法、结果以及教学干预等方面存在的不足,使教育教学评价具有普惠化、个性化、公平性、实时性与精准干预等优点,对教育教学方法的重构具有重要价值。因此,探索人工智能支持的教育评价创新,是推动我国智慧教育的必然举措。
本研究从人工智能教学评价的关键技术出发,提出了构建基于人工智能的高等教育教学评价体系的五大关键技术,在此基础上以广东工业大学“蕴瑜在线课堂”的教育诊断评价与干预系统为例,分别从数据感知、智能评价、数据决策三方面进行实践。本研究最后以问卷调查的形式,围绕普惠化、个性化、公平性、实时性与精准干预五方面分析的结果表明,本研究所设计的人工智能教育评价与干预系统各维度均优于传统的教学评价,能为人工智能技术在高等教育教学评价中的应用提供借鉴。
本研究还存在不足: 1)深度学习模型一般为黑盒模型,基于智能算法得出的评价结果可能有异于平常的经验预测,如何增强评价算法的可解释性,使评价结果得到广大师生的认可是需要重点考虑的问题;2)在智慧感知的数据获取方面,学生行为数据获取与分析私隐保护工作有待提高,后续研究应注意在获取学生的行为数据过程中加入隐私保护算法,确保数据安全。