深度学习支持下多模态学习行为可解释性分析研究

2021-11-26胡钦太伍文燕冯广潘庭锋邱凯星

电化教育研究 2021年11期

胡钦太伍文燕冯广潘庭锋邱凯星

[摘要] 当前，学习行为分析已成为研究热点。基于大数据技术挖掘学生的学习行为特征，能为学习过程的改善、学习评价的优化提供重要依据。然而，现有研究却存在分析数据类型单一、实时性不强、结果准确度不高、缺乏可解释性等问题。文章从利用深度学习算法进行多模态学习分析入手，采用HDRBM（Hybrid Deep Restricted Boltzmann Machine，深度混合判别受限玻尔兹曼机）神经网络模型，建立多模态学习分析模型，为教育技术领域中利用多模态大数据挖掘学习者行为特征提供了新范式;接着从可解释性分析的角度，阐述利用深度学习算法进行多模态学习行为分析的算法设计与实现过程;通过实验表明，研究中所采用的方法与技术路线对提高学习行为分析的可解释性有较好成效。

[关键词] 深度学习; 多模态; 学习行为分析; 可解释性

[中图分类号] G434 [文献标志码] A

[作者简介] 胡钦太（1964—），男，广东惠来人。教授，主要从事教育技术学、智能信息技术与教育研究，E-mail：huqt8@gdut.edu.cn。伍文燕为通讯作者，E-mail：wuwy@gdut.edu.cn。

一、引言

人工智能、大数据、物联网等新一代信息技术的迅速发展和深入应用，给社会各领域带来了巨大的变革，同时也对教育教学产生了深远影响，推动新时代智慧教育的产生与发展。当前，基于智慧教育环境的研究重点逐渐从学习平台开发、资源与内容设计、传统普适性研究、应用模式与实证探究等转向基于行为全过程分析的精准助教与评价研究上。学生个体千差万别，其行为表现一定程度上反映了学生的学习风格、心理特征和情感特征，通过智慧课堂感知系统、教学管理平台采集学习行为过程数据，并通过大数据技术挖掘学生行为特征，能为学习过程的改善提供重要依据。

目前，已有的学习行为分析大多针对各类在线教学平台采集的数据进行分析，数据来源单一、分析指标简单，学生学习行为研究呈现较大的局限性和割裂感（如Abdelrahman等人[1]、Eradze等人[2]、姜强[3]、黄昌勤[4]等）。随着传感器、可穿戴设备、眼动仪和脑电仪等智能信息技术的发展，学习分析领域有了新的突破，研究者逐渐意识到，只有尽可能捕捉学生学习全过程数据（包括声音、视频、表情、生理等多模态数据），才能更加全面准确地了解学习过程，挖掘学生学习规律，拓宽学习行为分析研究的深度与广度，多模态学习分析研究应运而生。

多模态学习分析通过语音、图形图像、肢体与面部表情等识别技术，充分捕捉或感知各种信息，通过对这些多模态数据的统一表征，从而更准确地判定学情[5]。国内主要以北京师范大学、华东师范大学、华南师范大学等师范大学研究团队为主，从学习科学的角度进行多模态学习分析，研究主要集中于理论探讨（如穆肃[6] 、汪维富[7]）、框架搭建（如周进[8]、张琪[9]、牟智佳[10]、李卿[11]等），较少从计算机科学、数据科学等视角将理论应用于实践，深化研究。

国外有关多模态学习分析的研究较国内成熟，研究多结合机器学习方法，围绕学习行为建模、模态传感器建模、算法模型以及新技术的介入等形成系列研究。如挪威科学技术大学的研究者收集了自适应学习活动中学习者的多模态数据，并采用模糊集定性比较分析（fsQCA）方法来描述学习者参与模式与学习绩效的关系[12]。Vicente等人提出了基于物联网技术和可穿戴设备实时监测数据的可穿戴教育物联网（WIoTED）系统，并使用机器学习技术和多模態学习分析方法来构建能够“解释”学生参与度的模型。该研究基于一组相关变量选择决策树和规则系统，获得的规则很容易被非专业人士解释[13]。

学习分析多考虑数据的“源息性”问题，收集哪些数据、采用何种方法分析以全面、准确地体现学习者的全部特性[14]。可见，学习分析多关注数据的准确性、全面性，而可解释性在传统技术上很难实现，近几年才越来越受到关注。可解释性，是指可以在观察的基础上进行思考，最终合理地得出事物变化的原因、事物之间的联系和事物发展的规律的一种性质。如Kaur等人采用局部可解释不可知模型（LIME），通过在本地训练可解释模型，以可解释的方式分析预测模型[15]。有研究者采用LSA（滞后序列分析法）[16]、K-Means算法[17]等解释了学习行为与学习成绩之间的变化关系，有助于研究者对学习行为的过程与机理的了解。

本研究基于多模态数据（包括各类学习平台、教室视像信息和各种传感器信息等），将最大限度采集发生在各种时空维度割裂的学习行为数据结合关联起来，以教育心理学和行为科学为依据，构建能更贴近真实的学习情境的学习行为数据模型。然后在数据模型上提高数据分析的可解释性，使得人们不仅知道分析的结果，也清楚结果产生的原因，从而更有针对性地为学生提供指导与帮助，进而提高学生学习成效。

二、基于深度学习算法的多模态

学习行为数据分析模型研究

学习行为分析是一个复杂的高维的分析过程，传统分析方法对多模态数据分析比较困难，大数据与智能算法的出现，给学生学习特征分析、教育大数据挖掘提供了新方法。本文提出利用深度学习算法进行多模态学习分析，为教育技术领域中利用多模态教育大数据挖掘学习者行为特征提供了新范式。

（一）深度学习支持下的学习行为分析模型设计

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。构建面向多模态学习行为数据的大数据采集框架，采集实时的课堂、实验室和教学平台等时序多模态数据，根据数据模态特征及因素特点，对多模态学习行为数据进行清洗与预处理，再使用智能算法进行浅层特征分析，然后将他们进行归一化与深度融合。依据高维数据处理需求构建一种新型的流形深度学习分析模型，对深度融合的多模态数据进行分析。鉴于HDRBM（Hybrid Deep Restricted Boltzmann Machine，深度混合判别受限玻尔兹曼机）神经网络具有降维、分类、回归、协同过滤、特征学习以及主题建模等优势，集合了目前主流深度学习的特征提取、高精度和速度等优点，是目前最适合处理多模态数据的深度学习框架。因此，本研究中运用HDRBM神经网络处理智慧学习环境下多模态学习行为数据，以此建立多模态学习行为分析模型（如图1所示），并进行学习者行为特征分析。

1. 多模态数据获取

数据是学习行为分析的基础，相比于单模态数据，多模态数据来源多样化、格式不统一、关系与结构复杂，给数据采集与分析带来了很大的困难。本研究中按照数据所携带信息的特性对多模态学习行为数据进行采集，包括生理层数据、心理层数据、行为层数据和混合型数据四类，如图2所示。

混合型数据。对教学管理平台存储的数据可使用日志搜索技术采集学习者点击流、测验等数据，获得使用者在平台中留下的学习行为痕迹，主要包括浏览课件次数、互动频率、错题、测验成绩等数据，这些数据皆来自于教学平台的存储。通过传感技术等获得学习地理位置、时间、湿度、温度等基本情境信息，以及学习者的活动数据等。

图2 多模态学习行为数据分类

生理层数据。采用生物数据采集技术采集学生的眼动频率、脑电波、心电、皮肤电反应等神经生物层面的数据，这些数据能反映学生的情绪及身体健康状态;采用物联网感知技术和可穿戴设备采集学习者的体温、血压、心率等人体体征数据，以了解学习者的专注度、活跃度等信息。

心理层数据。采用网络爬虫技术获取学习平台中的非结构化数据，如学习者在讨论区发布的评论等;采用情感识别技术获取学习者和教学者的面部表情等情感信息;采用自动识别等语音识别技术采集学习者和教学者的话语内容。

行为层数据。通过校园一卡通分析学习者在校园内的各类活动情况，比如进出图书馆次数、借书频率等;采用智能录播技术采集课堂教学数据，如教师行为、学生行为等;通过网评网阅技术分析学习者的知识薄弱点;使用点阵数码比技术对学习者的手写文本数据进行实时采集;使用拍照搜题技术获取学习者测验、作业情况等数据。

2. 基于多模态数据的学习行为分析过程

基于已获取的多模态数据，利用深度学习算法进行学习行为分析，包括两个方面的内容：

第一方面是浅层特征分析。根据上面的描述，多模态数据包括混合型数据、生理层数据、心理层数据以及行为层数据。我们首先对这些数据进行数据抽取、数据转制和数据载入等预处理;然后根据不同模态的数据的不同表示方式，采用对应的深度学习算法进行特征提取。例如，跨专业教学过程中产生的数据，对学习结果的影响是非线性的，存在线性不可分的特点，而BP神经网络具有很强的模式分类和多维函数映射能力，因此使用BP神经网络来提取混合型数据的浅层特征;生理层数据、心理层数据以及行为层数据，这些数据是由各种传感器进行采集，数据之间存在前后依赖关系和有序关系，而LSTM（长短期记忆网络）是一种时间循环神经网络，专门用以解决数据之间的长期依赖问题，因此采用LSTM网络对这三种数据进行浅层提取。

第二方面是隐含特征分析。首先获取浅层特征的学习概率分布，充分利用多模态数据的特点以及玻尔兹曼机学习算法的特点，设计出新的混合判别受限玻尔兹曼机（HDRBM），通过输入的浅层特征来学习概率分布;其次，建立基于多模态数据与半监督学习的深度学习体系框架;最后是设计响应的玻尔兹曼机，根据具体的研究方案，突破已有的研究中只使用单模态数据进行分析的局限性，在高维的多模态数据特征中挖掘出用户隐含的心理、情感等特征以及这些特征之间的联系。

（二）多模態学习行为数据分析算法设计与实现

多模态学习行为数据分析首先是采用不同的深度学习算法对不同模态的数据进行浅层特征分析，然后把浅层特征进行归一化与融合，获得全局浅层特征表达，作为隐含特征分析的输入，最后采用HDRBM深度学习网络获得隐含特征。

1. 多模态数据的获取与归一化

多模态深度学习方法是一类充分利用多种模态数据进行对应深度表示特征学习的方法。针对不同模态的数据，首先进行数据清洗。对于文本类信息，采用去除停用词、标点符号、空白符以及特殊字符等操作，然后对词干进行强化，通过N-Gram分析将字符按照最小单元分割为连续字串;对于视像信息，根据环境光线、镜头灰尘以及传输信号丢失程度等因素进行图像增强处理，包括但不限于白平衡、伽马矫正和小波变换增强等;对于传感器时间序号信息，通过高低通滤波和凹陷滤波等对信号进行过滤，对数据不好的进行插值处理等操作。

经过若干操作的数据清洗后，将清洗后的数据输入到相应模态的深度学习网络中进行归一化，最后采用特征堆叠的方式融合各个模态的局部特征，从而获得更具鲁棒性和区分性的全局浅层特征表达，作为玻尔兹曼机的标准输入。

将不同模态数据通过对应深度学习网络映射到深层的同一个融合层中，此方法将跨模态数据的浅层特征提取到同一个框架下进行归一化。现有的BP网络、计算机视觉和LSTM等为本文深入研究提供了大量研究方法，通过修改不同模态对应网络的优化方法和激活函数等超参数，构建基于多模态数据的深度学习方法。

2. 基于HDRBM的学习行为特征提取

在上一个环节中，多模态数据通过对若干个深度学习网络获得同一映射后，为了根据这一映射进一步提取高维特征，采用判别受限玻尔兹曼机和生成受限玻尔兹曼机的结合，即深度混合判别受限玻尔兹曼机（HDRBM，Hybrid Deep Restricted Boltzmann Machine）。生成模型可以解决训练数据集数量较少的问题，在少量数据集情况下的效果要好于分类问题中使用的判别模型，但随着多模态数据不断增加，在拥有大量训练数据的情况下，判别模型好于生成模型。为了兼顾两者的优势，本研究拟在多模态深度学习建模中混合组成生成受限玻尔兹曼机和判别受限玻尔兹曼机，组成混合判别受限玻尔兹曼机，并依此设计相应的多模态神经网络目标函数和优化途径。

对于训练集Dtrain，生成玻尔兹曼机以最小化负对数似然为目标函数，即最小化目标函数：

生成玻尔兹曼机能得到学习行为特征与学习评价之间的联合概率分布。判别玻尔兹曼机能够对输入的学习行为特征进行精准的学习评价标注，考虑负对数似然，目标函数为：

为了既能适应前期数据量较少的情况，又能满足日后数据集充足情况下对性能的要求，结合（1）（2）的目标函数，混合判别受限玻尔兹曼机的目标函数为：

其中，可调参数α表示生成模型对于整个模型的影响比重。若α较大，则更偏重生成玻尔兹曼机;反之，则偏重于判别玻尔兹曼机。对于实验中α的选取，我们借鉴在强化学习（Reinforcement Learning，RL）中成熟且广泛运用的e-greedy策略，使得混合判别受限玻尔兹曼机可以在数据集增多时自动降低生成模型对整个模型的影响比重，从而获取更为灵活、更为准确的模型效果。

另一方面，在玻尔兹曼机训练时，随着网络层数的增加，会出现梯度不稳定场景，比如梯度弥散和梯度爆炸问题，在靠近输入层的隐藏层中或会消失，或会爆炸。为此，我们引入批归一化（Batch Normalization， BN）方法来规避梯度弥散问题，它应用于每层激活函数之前，就是做均值和方差归一化，对于每一批次数据还作放大、缩小、平移，为了梯度下降的时候收敛速度更快。另外，在前期数据集数量较少且网络层数较多的情况下，很容易使整个模型产生过拟合的现象，因此引入神经网络中常用的Dropout策略，以提高模型的泛化性能。在训练过程中，Dropout策略会把一层单元中的一部分随机置0，也就相当于舍弃该单元与下一层神经元的连接，以此降低模型过拟合的概率。

三、学习行为可解释性分析研究

以上基于深度学习的多模态学习行为分析，能保证分析的精度。然而，深度学习模型是黑盒模型，解释性比较差，因此，对于影响因素分析和相关性分析等所需的解释性工作需要有更进一步的设计，从而建立学习行为与特征之间的因果关系，得出不同的行为对特征的贡献度，增加结果的准确度与师生的满意度。

贝叶斯网络在基于概率计算的基础上，其概率图模型能清晰描述多个变量间的依赖关系，找出影响学习成绩的因素。联合树推理算法，能帮助在现有结果情况下进一步探究各因素影响的程度。因此，采用贝叶斯网络进行建模，在已构建的多模态数据中找出影响学习成绩的各个因素，最后通过联合树推理计算各因素的影响度。

（一）基于贝叶斯网络的学习因果关系分析

1. 贝叶斯网络结构学习

为挖掘学习成绩和多模态数据特征间的因果关系，构建双层贝叶斯网络结构，如图3所示。

图3 贝叶斯网络结构

贝叶斯网络结构学习是通过分析样本数据集，获得先验信息，进而求得各个节点之间的相互关系，并建立相应的网络结构。贝叶斯网络结构的学习主要分为两大类，分别是基于评分搜索的方法和基于依赖统计分析的方法，其中前者过程简单且规范，因此较为常用。评分函数用以评价网络拓扑结构与样本集数据集拟合的程度，评分函数会基于一个空白的网络，按照节点次序遍历待求节点前面的所有节点，随后选择后验概率值最大的节点作为该节点的父节点，然后通过有向边相连，一直遍历直到网络构建完成。常用的评分函数如公式（4）所示：

上式中，D为数据集，G为拓扑结构，n为节点数，Γ（α■）为伽马函数，ri表示节点Xi的状态数，αij=∑kαijk，qi表示节点Xi的父节点的所有取值组合。Nijk表示当节点值为k时，其父节点状态值为j所对应的样本数。

2. 贝叶斯网络参数学习

通过结构学习算法学习完贝叶斯网络的拓扑结构后，接下来需要使用参数学习算法对贝叶斯网络的参数进行学习，也就是求出变量相对于父节点的条件概率分布，作为后序推断的先验信息。若变量服从贝叶斯分布，则贝叶斯参数先验分布如下：

通过贝叶斯公式习得网络参数，将先验信息和样本数据集D有机结合起来，有效提高了参数学习的精度。

向量V=（v1，v2，…，v5）表示变量集，vi依次表示混合数据特征、生理数据特征、心理数据特征、行为数据特征以及学习情境元素，选取n组可观察的数据集X={x1，x2，…，xn}进行训练，得出变量V和学习行为评价间的因果关系。采用基于约束的方法进行贝叶斯模型训练后，即可构建出高维变量的因果网络，即基于因果关系的贝叶斯网络模型（如图4所示）。

（二）基于联合树算法的影响度判别

联合树算法（Junction Tree）是现在比较流行的效率较高的贝叶斯分析算法的一种，可以把贝叶斯网络转换成相应的联合树结构。在本研究中，通过联合树算法，把学习到的贝叶斯网络以及相关参数进行分析与推理，就可以得出学习行为对最终学习评价结果的影响。算法流程如图5所示，具体表示如下：

1. 生成Moral图

对图中的每一个节点X，将他们的父节点用无向边连接在一起，然后将图中所有的有向边改成无向边。新添加的边被称为Moral边。

2. Moral图的三角化

通过添加边来使Moral图中不存在超过3个点的环，从而得到三角化图。

3. 找出所有子团

步骤2中生成的三角图中的极大完全子图就是子团，找出三角图中所有的子团。

4. 建立联合树

建立的联合树会包括所有的团节点，并且他們之间的交集作为连接两个团节点的分隔节点。

联合树推理分为三个步骤：初始化、消息传播和计算推理结果。初始化就是将贝叶斯网络中的条件概率表转换到联合树中，通过分布函数φ_c把节点中所有变量的取值映射到0～1之间。消息传播包括证据收集和证据扩散两个阶段，前者消息自底向上传播，后者信息自顶向下传播。计算推理结果阶段可以通过分布函数φ_c计算在当前证据下任意随机变量的概率分布。

推断的意义在于根据证据求出条件概率、联合概率、后验概率以及最大可能后验概率，进而对未知事件的发生与否进行判定，具有高度的可解释性。条件概率可以由原因推知结论，根据已知的原因（证据），从而求出在该原因下结果发生的概率。后验概率可以实现诊断推理，在已知结果时，找出产生该结果的原因所对应的概率。最大可能后验概率则是在当前证据下，最后可能出现的结果。概率可以表示特征变量与结果之间的影响程度。

四、学习行为可解释性分析机制的效果验证

本研究对UCI公开学生在线学习行为数据集xAPI-Edu-Data进行研究，数据集包含了学生成绩相关的17个变量，数据集的大小为：480条。应用贝叶斯网络和联合树算法推理学生学习行为对学习成绩的影响程度（见表1和表2的条件概率表所示）[18]，在保证有效性的基础上表现出较好的可解释性，与多项 logistic 模型相比贝叶斯网络学习的结果平均绝对误差值更小（贝叶斯网络：多项logistic模型 = 0.0007：0.0131），学习精度更高，说明本研究模型更加有效。推理结果指出，在6种收集的在线学习行为特征中，有5个因素对学生在线学习成绩产生影响，其中直接影响因素有学生浏览在线课件次数以及学生缺席天数，间接影响有举手次数、浏览学校公告次数和课堂讨论次数。

五、结语

随着智能信息技术的新发展，学习分析迎来了新的发展春天，以往的学习分析数据往往只来源于在线学习平台，数据来源单一、结构简单，然而学生的学习不仅发生在线上，也发生在实际物理学习空间中，因此，采集来自多种途径的数据源，分析多模态数据能更全面、准确地把握学生的学习状态。着眼于数据分析的可解释性，本研究利用大数据技术，采用深度学习算法对多模态数据进行分析与建模，在特征分析的基础上，利用贝叶斯因果分析法对影响学习者学习成绩的要素进行归因分析，以找出影响学习成绩的核心要素，并采用联合树算法对各要素的影响程度进行判别。最后，本研究设计了一系列实验，分别从学生浏览在线课件次数、学生缺席天数、举手次数、浏览学校公告次数和课堂讨论次数等对学习成绩的影响进行验证，结果表明本研究所采用的算法能在保证有效性的基础上表现出较好的可解释性。

[参考文献]

[1] ABDELRAHMAN Y， VELLOSO E， DINGLER T， et al. Cognitive heat：exploring the usage of thermal imaging to unobtrusively estimate cognitive load[J].Mobile，wearable and ubiquitous technologies，2017，1（3）：1-20.

[2] ERADZE M， LAANPERE M. Lesson observation data in learning analytics datasets observata[C]// Proceedings of the 12th European Conference on Technology-Enhanced Learning.Tallinn：Estonia， 2017：504-508.

[3] 姜强，赵蔚，王朋娇，王丽萍.基于大数据的个性化自适应在线学习分析模型及实现[J]. 中国电化教育，2015（1）：85-92.

[4] 黄昌勤，朱宁，黄琼浩，韩中美.支持个性化学习的行为大数据可视化研究[J]. 开放教育研究，2019，25（2）：53-64.

[5] 陈凯泉，张春雪，吴玥玥，刘璐. 教育人工智能（EAI）中的多模态学习分析、适应性反馈及人机协同[J]. 远程教育杂志，2019，37（5）：24-34.

[6] 穆肃，崔萌，黄晓地. 全景透视多模态学习分析的数据整合方法[J]. 现代远程教育研究，2021，33（1）：26-37，48.

[7] 汪维富，毛美娟. 多模态学习分析：理解与评价真实学习的新路向[J]. 电化教育研究，2021，42（2）：25-32.

[8] 周进，叶俊民，李超. 多模态学习情感计算：动因、框架与建议[J]. 电化教育研究，2021，42（7）：26-32，46.

[9] 张琪，李福华，孙基男. 多模态学习分析：走向计算教育时代的学习分析学[J]. 中国电化教育，2020（9）：7-14，39.

[10] 牟智佳. 多模态学习分析：学习分析研究新生长点[J].电化教育研究，2020，41（5）：27-32，51.

[11] 李卿，任缘，黄田田，刘三女牙，屈杰. 基于传感数据的学习分析应用研究[J]. 电化教育研究，2019，40（5）：64-71.

[12] PAPAMITSIOU Z， PAPPAS I O， SHARMA K， et al. Utilizing multimodal data through fsQCA to explain engagement in adaptive learning[J]. IEEE transactions on learning technologies， 2020， 13（4）： 689-703.

[13] CAMACHO V L， GUIA E D L，et al. Data capture and multimodal learning analytics focused on engagement with a new wearable IoT approach[J]. IEEE transactions on learning technologies， 2020， 13（4）： 704-717.

[14] 钟薇，李若晨，马晓玲，吴永和. 学习分析技术发展趋向——多模态数据环境下的研究与探索[J]. 中国远程教育，2018（11）：41-49，79-80.

[15] KAUR， HARMANPREET， et al. Interpreting interpretability： understanding data scientists' use of interpretability tools for machine learning[C]// Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. 2020：1-14.

[16] XINYU Y， BOHONG L， MENGHUA C， et al.Analyzing student behavior in online programming courses[J].计算机教育，2018（12）：48-56.

[17] BIENTZLE M， HIRCIN E， KIMMERLE J， et al. Association of online learning behavior and learning outcomes for medical students： large-scale usage data analysis[J].JMIR Med Educ 2019，5（2）：e13529.

[18] 馮广，潘霆锋，伍文燕.基于贝叶斯网络模型的在线学习行为分析[J]. 广东工业大学学报doi：10.12052/gdutxb. 210067.