多模态数据支持的学习投入评测:现状、启示与研究趋向*
2020-01-11琪武法提许文静
张 琪武法提许文静
(1.淮北师范大学 教育学院,安徽淮北 235000;2.北京师范大学 教育技术学院,北京 100875)
一、引言
学习投入既是可以被环境塑造的变量,也是学生兴趣、学业成绩、学习留存率的强有力预测指标[1]。在过去的20年中,学术界对学习投入的研究兴趣与日俱增[2],其概念与模型日益成熟,形成了稳定且富有成效的研究领域。虽然学习投入理论方面的研究推动了评测技术的发展,但鉴于学习投入的动态、复杂特征以及直接评估内部状态的困难性[3],导致传统方法很难对其做出有效评价。在教育技术尤其是学习分析领域,“投入”一词经常被使用,但很少被定义。对学习投入评测大多限于对学习行为的记录与采集,其内涵与“学习”复杂性的意蕴相距甚远。
进入智能教育时代,学习环境的显著变化使其容纳了日益增长的真实要素,如,将学习延伸并拓展至课堂之外的空间,学习者聚焦于真实情境中的问题解决。尤其是伴随低成本、高分辨率的模态传感器以及分析工具的日益成熟,多模态学习分析异军突起,这大大提高了研究人员在各种环境中捕获海量数据的能力,从而为更好地理解和表征真实学习环境中的学习投入,提供大数据支撑。多模态学习投入评测借助于脑科学、认知科学、神经科学以及数据科学等多样化研究视角与方法,从多维时空尺度揭示学习的深层机制[4],有助于超越对学生“点击数据”的观察,形成理解学习结果和与学习相关构件的更为有效的方法,为智能教育的创新实践提供了强有力的支撑。
二、学习投入的概念与特征
学习投入是个体学习过程中充沛精力、认知深度、思维灵活性以及情感体验的综合表征,是学习者领悟学习本质、沉浸其中的体现[5]。尽管,学习投入在概念的一致性、理论体系以及评测方式上还存在不完善之处,但始终是教育领域的重要研究内容,而日益受到关注[6]。原因可归为三个方面:一是学习投入是有意义学习的必要条件,是长期成就和学业成功的关键要素[7],如,Kuh等就指出,教育质量高低的核心要素是提升学习者的投入度[8];二是学习投入会影响学习者兴趣、心理和社交经历;三是学习投入会对学术适应能力以及应对压力方面产生作用,进而影响学习者的长期学术思维[9]。
学习投入是学习者在学术、社交和情感方面取得的积极成果。相反地,“脱离投入”也会产生严重后果,尤其对弱势背景学生更是如此[10]。此外,学习投入在科学学习中的作用尤为突出,是成功获得学习科学技能、概念以及STEM学习经历的重要因素,对于解决低成就和高辍学率至关重要[11]。
(一)学习投入的概念化
鉴于学习投入构造的复杂性与观察的间接性,很难对其进行精准定义。在过去,研究者倾向将动机与投入置于同一理论框架内进行阐释,其理论假设是学习投入与学习中的脱离状态相关联,由此产生了大量利用学习行为表征学习投入的研究。当前,相对共识的观点,是将动机与投入概念化为不同的结构,即投入本身是一个多维构造,由此产生了学习投入的二维、三维与四维模型。例如,Martin提出了包含认知和行为维度的二维模型[12];Fredricks等在二维模型基础上增加了情感维度[13],已有大量研究采用该模型框架开展研究;Appleton等添了学术成分的第四维度[14],包括任务时间、获得的学分和完成作业情况。学习投入维度的差异性,使得研究结果很难统一进行比较。也有研究表明,上述分类并不容易迁移至混合或在线教育环境中[15]。到目前为止,教育技术界对这类环境如何定义和衡量投入,依然缺乏共识[16]。
(二)学习投入的境脉特征
新的投入理论已取得了一定进展,不再将学习投入概念化为学习个体的属性,而将其视为是一种被师生、任务、资源等因素影响的可塑性状态[17],即学习投入是由个体与情境的相互作用而产生。由于学习者参与学术任务的行动部分是可被观察的,因此,可以从个体层面进行跟踪。代表性的理论体系是ICAP (Interactive, Constructive, Active, Passive Mode)框架[18]。该框架以差异性知识变化为基础,定义和区分了学习行为的不同模式,提出了能够预测不同水平学习成果的假说。其中,互动性行为可以最大程度促进学习;其次,是建设性行为、主动行为和被动行为。ICAP框架能够指导设计更利于投入的课程内容与学习活动,并被大量实证研究所支持。
从“情境交互”的更广义范畴,Anderson提出了分析学习投入的连续频谱[19]。该频谱考虑极短时间内发生的学习行为,包括较低频段中的生物与认知频谱,以及影响人类行为的更大的理性与社交频谱。基于该分析频谱,学习投入可以从生物数据 (百微秒)、认知数据(数秒)、理性思考数据(数十秒至数分钟)以及社会交流数据(数小时至数月)等方面进行分析,通过多维数据的基本融合、特征级融合与决策级融合,可以全面地表征学习投入水平,从而为多模态学习投入建模,提供了理论支撑。
三、多模态数据的建模
经典学习分析,多关注e-learning环境中学习者的过程性学习行为与表现,在各类在线学习分析系统或模型中,均能得到较好的解释与验证。很多学习平台在初期可能未考虑为分析而建设,但也倾向于采集过程性行为数据。通常以学习者的可视化交互情况、丰富的行为记录以及成熟的算法,使其成为学习分析理想的实践领域。相比之下,在非数字化环境中的学习者动作难以被记录,即便在e-learning环境中,经典学习分析也鲜有考虑学生发生困惑的面部与肢体等信息。这种对在线环境研究的偏爱,很可能导致“路灯效应”(Streetlight Effect),即学习分析的研究者专注于寻找易于建模的方案,而回避涉及“真实场景”中的问题。过度依赖在线学习环境的模型来理解与优化学习过程,是早期学习分析应用的弊端。因此,学习分析领域应专注于如何从现实世界自动收集各种细粒度的学习痕迹,并纳入新的数据来源,从不同学习源融合分析作为多模态数据建模的主要目标。
多模态数据的建模可以追溯至上世纪90年代,Ambady等基于视频“切片”,来量化学习者肢体与非语言行为,以预测期末成绩的研究[20],这类早期发现,为多模态研究范式铺平了道路。从社会学的视角,人类交流的形式本身是互补的,学习者也通过多种形式来表达意图与情感。因此,多模态方法更符合人类交流的本质,“多模态”即隐喻不同形式的信号如何相互作用与互补,以使传达的意义“致密化”。
学习是一个复杂而多维的过程[21],学习投入的评测也已由传统的问卷测量,转向交互行为数据以及多种模态数据的综合应用,从而契合学习投入的动态、多维、境脉特征。与之对应,智能技术的成熟,也必将有助于研发易用、适用的学习自诊断系统[22]。借鉴Nigay等对多模态的界定,“多”指的是 “多样化”,意味着广泛获取的数据源;“模态”代表“形态”与“模式”。其中“形态”是用于传达和获取定义数据交换的信道类型;“模式”是指信息的上下文的状态[23]。学习投入的多模态数据,包括学习行为(序列)、肢体动作、面部表情、眼动、脑电、事件相关电位、皮肤电反应、心电、红外光谱等[24]。学习投入的多模态建模,试图将不同的学习痕迹源纳入学习投入的表征与评价中,形成学习分析的子领域。若可以从不同的模态中提取学习痕迹,则可以使用学习分析工具提供连续的实时反馈循环,以优化学习过程。
多模态数据支持的学习投入研究正在成为教育技术,尤其是学习分析领域的研究热点。其兴起不仅是源于技术的发展或物联网等的应用,更是基于人类对真实环境交互连接的需求,藉此来探索协作学习和集体意识形成[25]。对于学习分析领域同样如此,多模态数据中的生物指标,对认知负荷、学习情感、心理状态等非常敏感,适用于评估引起学习者认知、情感状态发生变化的外在因素与交互事件,具备精准性、动态性、客观性等优势,从而可通过刻画更为全面的学习图景,帮助我们洞察学习过程。在分析不完整的数据集时,多模态数据的信息补偿有利于对数据集整体意义的还原[26]。此外,跨越多个时间尺度的分析,则有可能会改善相应事件的建模精度。
四、基于多模态数据的学习投入评测
学习投入的多模态数据建模源于技术发展。其中,模态传感可用于收集微观行为事件的高频和细粒度特征,或者采集学习者交互行为中的情景特征;物联网方法可以在传感器与学习者、环境之间建立连接。从数据源的获取方式对学习投入建模研究,进行分类,符合多模态建模的应有之意。本文采纳了多模态的广义界定,将多种学习行为特征的组合研究,以及模态传感器建模亦纳入研究范畴。根据模态传感器的有无及种类,将其分为交互情景中的行为分析、单模态传感器与多模态传感器三个方面。表1梳理了三类典型案例在建模场景、数据源、精度等方面的结果。
表1 基于多模态数据的学习投入建模典型案例
建模维度 研究者 建模场景 数据源 标注方式 算 法 建模结果Sinha等(2014)MOOC平台点 击 (播放、暂停、前后搜索、上下滚动等)与论坛交互数据无 LibSVM平均AUC分别为0.692与0.623无交互行为Coffrin等(2014)MOOC平台显示频率计数、学生活动时间的折线图和条形图、社交网络图、沟通活动的Q-Q图、论坛和学生学习日志状态转移图、视频浏览与作业提交转移图准确率51.5%至52.7%Motz等(2019)MOOC平台19个日志行为变量 无聚类、回归、马尔科夫模型准确率42.9%至48.6%Gobert等(2015)Inq-ITS虚拟实验环境日志文件(动作总数、动作间隔时间、最长暂停时间等)无决策树等11种分类算法平均AUC为0.81 Natasha等(2014)MetaTu tor智能教学系统眼动数据 自动随机森林、朴素贝叶斯、逻辑回归和SVM最佳准确率66.17%单模态传感器Bixler等(2016)计算机阅读 眼动数据 在线自我报告贝叶斯 PR值为0.70 Whitehill等(2014)认知技能培训 面部视频 专业人员编码Gabor滤波器与SVM、Boost、MLR在2AFC量度实现0.73的准确率Raca等(2014)课堂环境面部视频(包含眼动特征)在线自我报告Lucas Kanade光流法PR值为0.58 Arroyo等(2009)智能导师系统面部表情、头部动作、姿势倾斜、运动变化、鼠标传感器的压力在线自我报告线性回归 准确率47%Bosch等(2015)教育物理游戏日志文件(难度、行为、反馈和响应时间等)、面部视频专业人员编码基于面部模型和交互模型建立回归模型平均AUC为 0.5,非任务行为AUC为0.816 Bosch等(2016)教育物理游戏日志文件、面部视频SVM、C4.5等14种算法平均AUC为0.69多模态传感器人工、BRO MP协议、FACET Yun等(2018)儿童交互式阅读面部视频 专业人员编码卷积神经网络 准确率91%Ashwin等(2018)信息技术课堂面部视频、上半身肢体动作专业人员编码卷积神经网络平均AUC分别为0.89与0.86 Cohn等(2015)圆桌交谈场景日志、网络摄像机视频、皮肤电导和Kinect视频手动注释与CERT贝叶斯信息准则、逐步线性回归平均类内相关为0.89、马修斯相关系数为0.61 Bandara等(2016)俄罗斯方块心电、皮肤电、脑电在线自我报告贝叶斯分类器、回归树、K近邻最高准确率93.93%曹晓明等(2019)MOOC平台面部表情与脑电专业人员编码融合策略的深度学习算法准确率87%
(一)交互情景中的行为分析
测量投入度的常用方法,是对学习行为进行建模。该方法基于技术环境中学习者交互产生的系统日志文件,来识别学习行为。在技术与教育深度耦合的情境中,学习系统会产生丰富的日志数据,其涵盖了学习者的点击行为、交互行为、响应反馈等。学习投入的建模,会因为记录日志的粒度以及对学习投入的界定不同而产生差异。
1.智能导学系统
智能导学系统在模拟教师教学的基础上,采用自然语言与学生对话,引导学生构建理想答案,使用提示引导学生的反应。其多维度、丰富的交互行为,可以作为学习投入建模的有效变量。D’Mello等较早阐释了基于行为分析的情感投入测量。学习者使用Auto Tutor导学系统学习课程,研究者基于对离线视频编码,以识别无聊、走神、困惑、沮丧、愉悦和中性的瞬间事件,从日志文件中的瞬时信息、响应信息、应答质量评估、与教师连接性等维度抽取特征变量,建立学习情感投入监控模型[27]。类似的,Pardos等基于BROMP观测方法协议[28],对使用ASSISTments导学系统的学习者情感状态进行标注,提取日志文件的行为特征变量,来区分不同的情感状态[29]。在此之后,Ocumpaugh等通过追加更为丰富的数据集,以提升该模型的泛化性,在对城市、郊区和农村的独立样本进行测试时,模型的平均精度提高了18%、16%与6%[30]。
2.在线学习平台
低投入度、高辍学率一直是远程教育领域面临的核心问题[31]。以MOOC为代表的在线学习平台的兴起,使得海量学习行为数据易于采集与存储,为学习投入的评测提供了重要的数据支撑。Sinha等基于MOOC平台细粒度的视频交互行为,包括点击 (播放、暂停、前后搜索、上下滚动、速率增减等)与论坛交互数据,利用时间戳排序形成N-gram行为序列,进而探索导致或诱发学生辍学的活动结构。据此构建社会网模型和行为序列模型,可用于比较两种模型预测辍学的可能性[32]。研究发现,社会网模型的识别精度(0.692)优于行为序列模型(0.623),学习者一周内的交互活动,比持续数周内交互活动的预测辍学效能更精确。
在粗糙粒度下,相关研究利用学习环境中行为数据的加权指标进行分析,以衡量或比较学习投入的水平。Hernández等通过对教学序列的差异性来分析学习投入度[33]。Coffrin等对学习者特殊时段观看视频的情况、参与评估情况以及开始两周的成绩趋势,来衡量学习投入水平[34]。Motz等利用跨校区的大规模数据集,验证了活动日志评估学习投入的有效性。研究抽取了19个行为变量,将学习者聚为6类,对每类群体进行回归建模[35]。研究发现,学生在LMS内的互动特征与教师对学生投入水平的主观评价之间,存在正相关关系,“投入”行为在课程之间存在差异性,在特定群体中模型判定优于教师的主观判断。
3.虚拟实验环境
虚拟实验环境中的学习者具有高自主权,学生通过提出科学现象的假设,模拟实验收集、分析数据来佐证假设,该类环境通常被用来识别更为细粒度的投入指标。Gobert等开发了Inq-ITS“微观世界”虚拟实验环境[36],将与学习任务相关但与设计目标或激励无关的行为,定义为“非生产行为”(DTG)。该研究利用日志文件的片段对其进行编码,根据动作总数、动作间隔时间、最长暂停时间和模拟运行次数等,建立机器学习模型。研究发现,在区分DTG与其他学习行为时,采用最小生成树建模精度的平均值,达到了较高的水平。该研究对于深化学习投入的理解、开发有效的干预策略,具有显著意义。
(二)单模态传感器
利用摄像头、麦克风、眼动设备、心率传感器、姿态记录仪等模态传感器,可以脱离“在线”学习场景,对学习过程中的生物数据进行采集。在现阶段,学习投入评测多使用相对成熟的摄像头识别情感状态,或利用眼动数据挖掘与认知投入相关的指标,部分研究还结合日志文件进行投入的测量。
1.眼动指标
眼动数据能够量化认知过程与注意力分配状态,从而深化对认知规律的理解,这已成为教育技术领域进行学习评价的新范式[37]。Natasha等聚合学习者眼动数据特征,包括注视次数与时间数据,以及眼跳长度、连续眼跳角度等指标,分析给定兴趣区(AOI)上的注视持续时间、注视所占比例以及每对兴趣区之间注视转移的数量和比例[38]。研究聚焦于无聊和好奇的情绪分类,利用随机森林、朴素贝叶斯、逻辑回归和支持向量机进行数据建模。结果表明,逻辑回归呈现出最佳的效能。研究还发现,不同情绪的学生会呈现出明显的眼动数据特征。例如,学习内容固定长度增加与学习内容之间的转移增加,可以有效预测好奇心。
根据脑科学加工机制,眼动指标属于浅层认知加工,会出现心智游移(Mind Wandering)。作为认知投入的重要指标,心智游移是注意力从学习任务转移到与任务无关想法时的状态反映[39],是一种复杂、内隐的认知状态。如,Bixler等通过眼动凝视分析学习者计算机阅读时的心智游移[40]:研究者设计了不同难度的文本,文本划分为若干个探测页面,学习者在触发页面探针时做出反应,以提取不同时间间隔的眼动特征。凝视特征包括全局与局部两个层次:前者集中在一般眼睛注视模式上,包括注视次数、注视持续时间、注视持续时间的变化性以及扫视长度;后者是某类型的注视长度,包括对单词的第一次注视与回视等。凝视特征是与情境相关的特征,包括正在阅读的当前页面、阅读时间和文本难度等。由此,可建立涵盖全局凝视特征、局部凝视特征以及情境特征的机器学习模型。研究发现,在控制先验知识的前提下,该模型的预测效能超过学生的自我报告测量。该研究团队[41]在后续使用模型的变体时,对学习者心智游移进行再评估,模型预测的心智游移率与阶段性问题表现的相关系数,再次证明了客观测量方法的有效性。
2.面部特征
面部识别技术可以从静态图像或动态视频序列中分离出特定的表情状态,从而确定学习者的情感投入水平。Whitehill等利用摄像头录制移动学习环境中的面部视频,对学习投入水平进行人工标注,发现学习投入的二值性判断(是与否)标注可靠性较高[42]。该研究对视频进行标签化处理与人脸配准,提取视频面部特征,利用Gabor滤波器与支持向量机(SVM),对面部细节进行记录。使用自主设计的表情识别工具箱(CERT),对面部肌肉动作进行编码,训练模型精度以及模型估计值与评估成绩之间的相关性,表明了系统的预测效度。
与其他研究方法不同,Raca等依据双眼追踪理论建立学习投入模型[43]。双眼追踪理论认为,学习协作质量与理解程度可以通过分析学习者凝视模式的一致性来评估[44]。该研究利用空间金字塔Lucas Kanade光流法[45],建立凝视模型,以此评判学习投入水平。同时,整合了面部识别与眼动研究范式,不仅提供了关于学习者的实时信息,还提供了学习者注意力水平随时间的综合测量方式,从而建立了评测学习过程的新方法。
(三)多模态传感器
对于单模态数据无法充分诊断的情景,可以根据其它数据源以及上下文信息的数据融合,提升建模精度,从而获得对学习过程更为清晰的图景。Arroyo等较早进行了计算机教室环境中的多模态建模研究。学习者使用智能辅导系统进行数学课程学习,对学习兴趣、自信、兴奋和沮丧程度进行自我评估[46]。研究提取了面部表情、头部动作、姿势倾斜、运动变化、生理唤醒量以及鼠标传感器上的压力等特征,结合日志文件建立多元线性回归模型预测模型。
视频采集过程中面部特征度量通常是有限的,由于遮挡、光线、对焦等因素,在很多情境下无法进行视频测量。为了解决这个问题,Bosch等结合日志文件中的数据(难度、行为、反馈和响应时间等)以及面部模型,建立回归模型,验证了多种环境下模型的有效性[47]。考虑到真实教学场景的复杂性,该研究尤其具备推广价值。该团队后续基于物理教育游戏的互动数据、学生脸部和上半身视频,进行综合建模[48]。使用BROMP观测方法协议对学习者无聊、集中、困惑、沮丧等状态实时注释;利用FACET工具[49],评估面部动作单元、头部姿势;基于滤波算法,从视频中分析身体运动状态。研究表明,该模型在跨时间、班级、性别方面均具备稳定性。
近年来,深度学习技术被广泛应用于多模态数据的建模中,拓展了学习分析的应用场景并提升了数据精度。Yun等利用网络摄像头和Kinect体感设备,记录人体运动的骨骼特征,利用卷积神经网路(CNN)算法,提取与学习者面部相关的特征,建立深度学习模型,验证了该算法在学习投入建模上的精度与稳健性[50]。Ashwin等建立了真实教学情境中基于深度学习的学习投入评测系统[51]。该研究通过网络摄像机捕捉视频信息,基于YOLO目标检测对视频进行坐标定位,并进行逐帧裁剪与注释,利用卷积神经网络算法,将学生划分为非常投入至非常不投入4个层级,据此建立数据模型。教学实验表明,该模型的平均分类精度与AUC评价指标分别为0.89与0.86,高于其他评测模型。学习成绩与机器学习建模结果的皮尔逊相关检验,也验证该模型的准确性。由于该评测系统几乎不具备入侵性,设备需求低,因此,在真实的课堂中更具应用前景。
相对于面部表情、头部动作、姿态等建模的研究,基于心电、皮肤电、脑电建模的研究相对稀少。生物电数据可以反映学习者的认知能力与情绪唤醒水平[52],能更加精准地描述学习者的学习投入状态。Cohn等建立了包含学习过程的数据库日志、网络摄像机视频、皮肤电导和Kinect视频的学习投入评测系统[53]。该研究利用手动注释与计算机表情识别工具箱(CERT),对精细面部动作(由眉毛高低、眼睑收紧和嘴角凹陷等)进行标注,构建逻辑回归模型,验证了利用CERT进行面部识别的准确性与精度。基于上述特征,研究者使用贝叶斯信息准则(BIC),建立包含学习持久性、时间需求、沮丧特征的投入预测模型。结果表明,特定的面部运动可以预测投入、困惑和学习效果。例如,眉毛下垂与困惑有关;嘴部凹陷能预测学生学习任务的成功表现。Bandara等将学习者心电数据与情感投入之间的关系,拓展到人机交互领域,以记录学习者在完成不同难度多媒体学习材料中的心电(ECG)、皮肤电(EDA)以及被近红外光谱(fNIRS)数据[54]。研究表明,朴素贝叶斯分类器在组合三类生物数据时,准确度更高。曹晓明等基于MOOC中学习者的面部表情与脑电数据进行多模态建模,基于后期融合策略与卷积神经网络,构建多模态融合深度学习模型[55]。研究表明,多模态融合模型比单模态具有识别精度的优势,再次验证了综合使用生物电数据,表征学习投入的可能性以及建立生物数据集的必要性。
五、分析与讨论
教育技术不仅要重视理论体系建构,更应侧重于探索可操作的模式与适合落地的工具。对于学习投入而言,如果没有合适的指标结构以及行之有效的数据采集与建模方法,这种理想的综合评价方式就会成为空中楼阁。相比投入理论的探索,对学习投入的评测研究却一直处于滞后状态,其关键原因不仅在于理论体系本身,更在于数据获取的及时性、丰富性与便捷性等问题迟迟未寻找到有效的解决方案。在学习投入理论体系尚未完全建立、数据可获取性还未完全解决的条件下,有必要通过循环迭代的方式来展开研究。一方面,无论是衡量学科投入还是课堂学习投入程度,首先面临的是投入的界定问题。研究者必须确定学习投入的研究边界与分析粒度,提炼有针对性的理论模型与指标框架;另一方面,应结合现有的数据,从测量建模流程、核心技术与未来发展等视角审视问题。只有从教育学规律、脑科学神经机制和数据的聚合三个维度相向而行,才能确保形成具有科学性与可操作性的解决方案。
(一)多模态数据建模的价值
尽管学习理论经历了由“行为主义”“建构主义”到“联通学习观”的更迭,但“最优”的教育方式依然存在争论。除了教育方式适用性的问题,数十年来的心理测量学和标准化测试研究表明,“直接指导”方法更易于测试和量化,而建构主义教学策略更多依赖于不确定性的干预与相对复杂的研究方法。“明确定义内容的直接教学”与“以学生为中心探索不明确领域”之争的背后,映射出教育领域对学习测量与干预研究的滞后性。
在教育智能化时代,学习者在开放的学习环境中与同伴开展互动,“人机协同”以创建解决问题的独特方案,其过程性学习的评估与反馈显得尤其困难。多模态数据建模的“全景”与“精细”数据收集和分析,有助于形成新的研究范式,揭示特定学习活动中学习者的轨迹,并对复杂的认知能力进行更全面的评估,有助于弥合“评价反馈”的不对称性,并帮助研究人员设计更好的干预策略与学习内容。鉴于全球范围内对协作教室、项目式学习以及学生导向学习的需求日益增加,多模态数据建模范式的实践,比以往任何时间都更显必要。
(二)学习投入的分析粒度
传统教育研究中的学习行为投入,多通过对学习、课堂以及任务过程的描述来阐释;也有学者从遵守规则、课堂配合程度以及积极行为的角度来阐释。此外,时间、努力程度和参与性也是学习行为投入的重要因素。认知投入研究的差异,可归结为评估学习内部过程的不同方法导致。直接评估要求学习者报告学习课程及参与活动的过程;间接评估则利用可观察的指标或问卷进行测量。
对于情感投入,相对共识的界定是学习者对学科领域或学习过程中的情绪反应。Pekrun等的情感分类假设认为,学习情感投入存在积极/消极、激活性/失活性的情感分类[56]。其中,激活性情感与投入相关;失活性情感则会让学生注意力不集中,不再关注材料或文本。积极情感在提高投入水平方面效果优于消极情感[57]。与认知投入相同,情感投入通常通过外部指标来评估,这也导致了研究内涵与外延的泛化。
相对而言,教育技术领域的投入评测指标相对明确。在学习投入方面,多采用交互度、流体验、脱离任务目标、成功表现以及辍学率等指标;在行为投入维度,多采用适应性行为、持久性以及时间需求等指标;在认知投入维度,多采用凝视特征、认知能力、认知负荷以及心智游移等指标;在情感投入维度,多采用积极与消极的情感状态、兴趣、好奇心以及情绪唤醒水平等指标。总的来看,当前的研究多聚焦在学习投入的单个组件,鲜有针对多个维度综合的分析以及内在相互作用的研究。
(三)多模态数据表征学习投入的实质
在瞬时状态下,多模态数据对学习投入不同粒度的状态以二元形式(0或1)来表示。但在持续时间内,如果研究者能够明确投入维度,界定各维度的重合情况与边界,并给出其计算模型,则各数据在时间维度的聚合,能够构建反映注意力被捕获、保持兴趣、消失时段以及何时重新出现等状态,进而能够表征分析粒度数值。当对多个组件进行建模时,时间序列分析可以说明,各个组件随时间表现出的相互作用。例如,时间推移下兴趣与心智游移的相关关系分析,两者的滞后关系分析,这些关系如何随时间展开,以及它们如何影响行为和其他心理状态等。多模态数据建模既利用质性方法进行标注,又具备精确的自动化测量特征,其模型一旦建立起来,就很容易规模化推广与应用。此外,基于细粒度时间分辨率的机器学习建模,可以反映投入的动态与跨场景特征,有可能突破单一数据源难以实现的逻辑整合问题,对其的深度应用,有利于推动数据驱动范式进行教与学规律的研究。
(四)多模态数据的建模过程
基于上述分析,学习投入的多模态数据建模遵循“数据表征—数据转换—数据融合—系统应用”的研究思路,如图1所示。即基于理论体系框架建立投入指标,在学习者特定学习情境中采集数据信号,从原始信号计算特征,进行特征提取。随后从学生自我报告、外部观察者或通过其他方法,获得反映各种投入维度的人工注释,利用有监督机器学习方法,计算模型特征与同步注释之间的关系。最后生成模型,计算投入度估值,并与人工提供的注释比较,以验证其精确度。
图1 学习投入的多模态数据建模流程
与手工标注相比,自动数据标注已有了突破性的进展,专业自动化的标注技术,大大提高了标注的精度与效率。例如,计算机表情识别工具箱(CERT),由美国加利福尼亚大学圣地亚哥分校开发,可以对来自面部动作编码系统的30个面部动作单元,进行检测与标注。FACET(CERT的商业版本)基于细粒面部特征或面部动作单元,可以在视频帧中检测、定位和跟踪面部特征,并使用基于支持向量机的分类器,输出一组面部表情的逐帧检测概率。BROMP则是对学生行为和情感的定量田野观察方法,其执行程序运行于移动终端,以菜单形式提供情感或行为类别的编码,并自动列出潜在的行为序列类别。
在建模算法方面,常用监督式学习算法被广泛使用在学习投入建模中。近年来,研究者试图利用深度学习建立更为复杂的神经网络,或处理存在少量未标识数据的数据集。在算法的应用场景方面,面部特征提取一般采用支持向量机与卷积神经网络;肢体动作与姿势多采用马尔科夫模型;皮肤电数据多采用过滤分类器与LAD Tree;肢体交互模式、心率、面部纹理的提取、眼球运动以及语境线索的分析,多采用动态贝叶斯网络来完成。在模型有效性的判定方面,则综合利用识别率PR值、AUC值以及准确率进行衡量。上述案例的PR值集中在0.58至0.70之间,AUC值集中在0.5至0.89之间,准确率集中在42.9%至93.9%之间。其中,识别率为机器学习分类结果与人类提供的注释相匹配情况的比例;AUC值是被试ROC曲线(工作特征曲线)与坐标轴围成的面积;准确率是预测正确的结果占总样本的比率。此外 ,Pardos 等[58]、Gobert 等[59]、Bosch[60]、Bixler 等[61]、Yun等[62]研究,还提供了评测模型对新样本的预测效能,进一步验证了模型的泛化性能。
(五)研究之局限
学习投入的评测涉及复杂心理结构的推理以及多层次的模糊判断问题。学术界越来越认识到,“具身特性”的认知情感身心系统,并不是一个“刚性”映射的机器,而是具备一定的容差特性,可以对不同的输入持续产生相同的输出。这也进一步表明,心理状态与生理信号之间的关系还有待进一步被解释。虽然有大量的研究证明,从学习中的面部表情可以分离出相应的一组离散情绪,但面部表情和情绪之间的关系似乎更加复杂[63],各种生物信号之间也存在弱相关[64],这无疑增加了理论框架设计的难度。此外,机器学习方法依赖于人类提供的注释标注,但外部观察者与自我报告之间的一致性却非常低。虽然也有研究引入参考框架以保证观察者之间的一致性,但并未增加学习者与观察者之间的一致性[65]。
当前,研究对噪声的鲁棒性未有足够重视。在很多情况下,面部的遮挡与变形、照度的变化以及背景噪声对建模的阻碍等,都未纳入研究的范畴。对于课堂环境中的建模,噪声数据更为常态,这直接导致了各类评测系统,只能在“理想”环境中具备使用价值。因此,需要在建模前进行约束与界定,而不是盲目的利用清洗提高数据精度。此外,尽管有一些研究通过对新样本的准实验研究以评估建模的泛化性,但只有极少数研究考虑到跨越时间和跨地域的泛化性能。
六、发展趋向
基于实践导向,从原始多模态记录中提取学习痕迹并非易事。计算机视觉、语音处理、骨架识别和其他计算机科学领域开发的技术,必须以学习科学、教育研究和行为科学提供的理论作为指导。正如Tytler等[66]所指出的:需要一个更好的理论模型,来解释学生的投入和“脱离”状态。最近研究人员强调了在现有的教育研究和理论基础上进行计算分析的重要性。然而,在“在线”与“混合”学习环境研究中,理论性的投入文献却很少受到关注。未来应重点关注在“互联网+”环境中学习投入的概念与内涵,了解学生投入度、衡量标准和中介因素,探索数据表征理论结构的能力;同时,确保对这些结构的测量是有效解释学习过程和影响学习结果的因素。进一步厘清学习投入与学习动机、沉浸感之间的区别,从学习活动的心理状态和质量的指标 (学习坚持性、心理韧性、专注情况、学习热情等),来表征学习投入。
其中,注意力机制的研究值得重视。在人工智能社区中,注意力机制已成为神经架构的重要组成部分,并在自然语言处理、统计学习、语音和计算机视觉中大量应用。此外,可以通过定义和识别与脱离相关的行为,界定学习投入,明晰脱离行为与学习投入的关系,围绕识别与脱离投入的相关指标、模型与系统展开探索,鼓励开发针对特定种类的干预措施。
将“体态”纳入多模态学习投入建模,是富有潜力的研究领域。先前有限的研究多集中于学习者头部位置的分析,捕捉动作最常见的解决方案是录制主体视频,其采集分辨率取决于使用视频进行的特征提取类型,对于身体动作的建模还比较稀少。自动提取人体运动最常用的设备是Kinect,通过视频和深度捕捉设备的混合,能够为研究人员提供每个捕获帧的重建骨架。Kinect新版本也能够提取手势特征,各类低成本2D与3D传感器,可以实时提供骨架的空间位置。
未来应加强两个方面的研究:一是分析教师不同肢体形态对学习者的影响。例如,教师的指示手势(敲击强调某一问题或用作停顿)、情意手势(握拳或摆臂)、面对学生的身体靠近、倾听时的身体微斜等。二是分析不同阶段学习者体态的层级作用,确定其与学习方式的关系。体态包括姿势(Posture)、手势(Gestures)和动作(Motion),从具身认知的视角看,这三类运动模式是相互关联的。学习者采用的姿势一般与获得的技能有关。手势来自身体不同部位的协调运动,这种非言语形态的信号往往是有意识的,被用于在学习过程中提供短反馈循环(如,专注过程中的握拳)或强化某种信号特征(如,面对困难时的垂头)。非动作技能领域的动作,很多是无意识身体运动的结果,在学习过程中揭示了学习者的内在状态。例如,学习者表现出紧张或怀疑的不稳定动作。
将激励措施嵌入技术平台以增加投入度[67],促进学习者愉快、高效、有效的学习,是学习投入的重要实践领域。良好的学习体验,需要确定脱离产生的原因。脱离投入可能源于多种因素,应聚焦对投入发生的机制与“弹性范围”的经验数据展开探索。对脱离投入的学习者,需要超越无聊、兴奋、倦怠等状态的评测,应重点评估导致每种状态的先导性因素[68],建立使学习者“重新投入”的干预措施,从而支撑新一代学习投入的理论体系构建。
生理与身体信号反映了学习者身体内部的快速变化,但这种反应是非特异性的,且可能由社交面具(Social Mask)产生,并且不能以外部观察来进行。未来应继续聚焦于学习者生物属性、心理特征与学习环境之间的关系的研究,从更高水平的身体、生理信号以及交互情境方面展开探索。要充分借助脑科学、教育神经科学的技术手段(例如,脑机接口以及红外光谱技术),从“突触—神经元—神经网络—生物系统—学习行为”的逻辑,对学生投入提供因果解释,深入探寻学习者的外部行为表现、认知过程与内部生理机制之间的相关关系。
生物数据库的建设,是开展深度学习技术建模学习投入的基础。从生理学与模态数据的映射关系考量,眼睛凝视和中枢生理学适用于认知投入表征;面部特征和外周生理学适用于情感投入表征;行为投入源于交互特征分析。目前,国际还鲜有上述开放数据集,即便在研究相对集中的面部识别领域,也大多采用非学习场景的面部识别数据库,并且存在跨文化或种族准确率差异的弊端[69]。除了识别率的问题,通用数据库很难解决学习过程中学习者的瞬时、微表情等问题。因此,建立开放、共享、协同创作的本土学习者生物数据集,更具迫切性与现实意义。
七、结语
伴随低成本可穿戴设备、无线传感器、物联网设备等的成熟,给学习投入的多模态评测带来了新机遇。多模态数据建模的重要意义不仅归咎于技术本身,更源于跨媒体智能的诉求。多模态数据建模通过“数据融合与推理”,跨越和消除语义鸿沟和异构鸿沟[70],实现对世界的感知和理解,从而为知识的发现提供了新视角。学习投入的多模态数据建模,有助于我们更为深入地了解智能时代的学习机理及其社会化过程,从而为智能时代的个性化学习提供“增值”。