课堂环境双模态情感评价系统设计与效果分析

2019-08-06郭雯雯杨凤梅

教学研究 2019年3期

郭雯雯杨凤梅

[摘要]学生的面部表情和姿态反映学生的学习状态，是课堂教学评价的重要观察指标。然而，由于表情和姿态的即时性以及观察时间和精力的限制，影响了传统课堂观察的持续性和有效性。针对传统课堂情感观察和识别的局限性，设计开发了基于课堂视频监控数据的双模态情感评价系统。首先对视频数据提取SLTOP特征得到复合时空特征集，然后依据最近邻方法对其进行分类，由于表情和姿态在识别上具有互补性，进一步将分类结果在每个情感状态类别上进行交叉验证，得到各自权值和后验概率，导入云滴融合模型得到最终的情感状态分类结果，最后计算输出课堂双模态情感评价结果。测试结果表明评价效果比较理想，并与人工统计结果作比较，整体准确率不低于80%，证明本系统对于传统课堂的评价具有有效性。

[关键词]课堂环境;人体检测;情感识别;教学评价

[中图分类号]G40-057

[文献标识码]A

[文章编号]1005-4634（2019）03-0027-07

教学过程是一种信息交往与传播过程，在这一过程中，学生的表情和姿态是其学习状态的自然流露，真实地反映了学生的学习状况。传播学的创始人威尔伯·施拉姆曾说过：“传播不是全部（甚至大部分不是）通过言词进行的。一个姿势，一种面部表情……都携带着信息。”[1]

课堂环境中，学生的面部表情和姿态携带了很多有用的信息。当学生处于倾听状态时，面部表情是轻松和自然的，身体放松并伴随着前倾，这代表学生对当前教学内容的学习状态良好，能持续思考;当学生处于疑惑状态时，会伴随倾斜身体、低头或歪头、眉目紧蹙等动作，这代表学生对当前教学内容的学习已有疑问且无法独自解决;学生理解时，会略有点头动作，同时眉目和肩部自然舒展;学生抗拒和不屑时，会有长时间的低头或扭头动作，且面部表情不自然，这代表学生由于某些原因不接受当前的教学内容。传统的课堂教学中，教师只能通过近距离的课堂观察解读学生的面部表情和姿态所传递的情感信息。然而，表情和姿态的即时性和课堂教学师生一对多的特点增加了课堂情感观察的难度。

近年来，随着大数据时代的到来，基于模式识别的情感识别技术日趋成熟，為课堂情感识别和评价提供了技术支持。情感识别技术就是通过计算机自动、高效地识别人脸表情所传递的信息，进而了解人的情绪状态，比如高兴、悲伤、愤怒、恐惧、惊讶、厌恶等[2]。虽然情感识别技术目前主要被应用于人机交互、安全、机器人制造、医疗、通信和汽车等领域，但是，随着《教育信息化2.0行动计划》的实施，“数字校园建设覆盖全体学校”[3]，大中小学课堂中覆盖式的视频监控网络、视频数据为基于模式识别开展学习评价提供了便利条件。

与传统的课堂观察相比，基于视频帧的情感识别可以随机抽取和重复检测，对于稍纵即逝的细腻情感变化可以进行实时、主动、跟踪性的分析和判断，实现了高效率的课堂管理和学习评价。利用情感识别技术进行学习评价不仅适用面对面的班级课堂，对于无法通过直接观察获取表情信息的在线学习和远程同步课堂更具有使用价值和意义。

1 课堂双模态情感评价系统的技术设计

双模态情感识别是指利用计算机识别人的面部表情和上身姿态，分析人的情绪和心理状态，通过识别课堂环境中学生的情感迁移，了解学生的学习状态。课堂双模态情感评价系统由人脸表情和上身姿态的检测与获取、数据预处理、特征提取、分类识别、决策融合和计算评价结果6部分组成，其系统流程如图1所示。首先，利用FABO数据库中的人脸表情和上身姿态数据作为训练样本，以视频监控采集的课堂教学视频作为测试样本，通过检测算法提取出人脸表情和上身姿态视频帧序列，经过数据预处理之后，分别提取SLTOP（spatio-temporal local ternary orient-ational pattern，SLTOP）特征，得到训练样本和测试样本的SLTOP复合时空特征集，然后依据最近邻方法分别对训练样本和测试样本的每个情感状态类别进行分类和交叉验证，得到各自权值和后验概率，导入云滴融合模型得到情感状态分类结果，最后计算输出课堂双模态情感评价结果。

为了对课堂环境下学生的学习效果进行评价和分析，需要对学生在课堂中的情感状态进行分类。在对学生的面部表情进行情感分析的研究中，韩丽[4]等学者在基于课堂静态图像的分析中将学生的听课状态分为倾听、疑惑、理解、抗拒、不屑5种类型。笔者对课堂环境下学生的情感状态的界定借鉴了韩丽的分类方式。但是，考虑到抗拒和不屑都是对当前教学内容不感兴趣，所以，把不屑和抗拒归为一类，即不屑状态，同时还增加了一种不确定的情感状态类型，即笔者所定义的课堂环境下学生的情感状态包括倾听、疑惑、理解、不屑和不确定5类情感。

为对课堂双模态情感评价系统进行验证，笔者分别采用FABO双模态情感数据库和采集的山东省潍坊市昌乐二中不同年级、不同年龄段的200段视频作为训练样本和测试样本。在试验之前，由于FABO数据库原为生气、厌烦、高兴、害怕和不确定5种情感状态而设计，所以需要对数据集按照倾听、疑惑、理解、不屑和不确定5类情感进行重新标注。标注后的FABO数据部分示例如图2所示。

1.1 人脸表情与上身姿态的检测与获取

通过课堂智能监控设备，可以获取学生面部和上身姿态的视频帧序列。从视频画面中对人脸进行检测分析，一般常用的方法是利用人脸肤色和背景色之间的差异，对人脸肤色所处区域进行处理，得出面部所在区域。但是，光照和类肤色背景等因素对该方法有很大影响，检测效果鲁棒性较差，一般只能作为其他算法的补充。为提高人脸检测的稳定性和鲁棒性，笔者采用YCbCr肤色空间与 Adaboost相结合的方法[5]来检测人脸。

笔者利用旋转与尺度不变的人体分割方法[6]来提取人体目标所在区域，不仅考虑到了四肢与躯干的关系，还考虑到了空间与时间上的连续性以优化课堂视频帧中上身姿态的检测与分割。尤其在复杂背景、实时要求、遮挡等苛刻条件下，该方法用于课堂视频环境具有较好的鲁棒性。

1.2 数据预处理

检测到人脸和上身姿态区域后，为了后续的特征提取，需要对人脸和姿态区域进行预处理操作，一般主要包括尺度归一化、去噪、直方图均衡化等。尺度归一化是指统一图像的尺寸大小，以方便后续的特征提取;图像去噪是指去除图像数据中包含的不必要或多余的噪声，图像噪声会对特征提取造成很大的干扰;直方图均衡化的目的是为了减弱光线和光照强度的影响、增强对比度，以此达到图像灰度归一化，使图像结构轮廓更清晰。数据预处理的操作步骤可以概括为：首先将视频数据转化为单帧序列图片，利用检测算法提取表情和姿态序列;然后利用均值聚类算法[7]分别对人脸表情和上身姿态序列图像进行聚类处理，得到帧的图像序列。用聚类得到的图像序列对每一帧的图像进行尺度归一化处理，得到大小均匀的局部矩形子块，然后利用BM3D算法[8]进行去噪、直方图均衡化。数据预处理效果如图3所示。图3 数据预处理流程图

1.3 特征提取

特征提取是指使用计算机用映射的方法把原始特征转换为数量较少的新特征的过程。依据不同的分类标准可以将特征提取划分为不同的类，按照提取方法可将其划分为几何特征、纹理特征及多特征融合。按照作用区域划分可将其划分为局部特征、全局特征及混合特征。

基于紋理的特征提取方法主要包括局部二值模式（Local Binary Pattern，LBP）及其优化算法、Gabor小波和 HLAC（Higher Order Local Autocorrelation）特征等[9]。局部二值模式是一种有效的局部纹理描述算子，根据像素值之间大小关系对灰度图的纹理信息进行算子编码和提取。LOP 算子[10]是在 LBP 特征基础上加入方向角信息。笔者采用了姜明星等人[11]提出的时空局部三值方向角模式（SLTOP）特征提取算法，SLTOP特征是为了弥补LOP算子在描述方向角差时对图像噪声及剧烈光照变化不够敏感的不足，通过利用自适应阈值，将LOP算子拓展为三值编码模式。由于课堂环境下视频帧特征集规模庞大，笔者结合灰度共生矩阵思想降低其特征的稀疏性，以此达到表征课堂环境下视频帧和实时处理目的。

以上身姿态的三维时空特征图谱为例，如图4所示，首先在上身姿态视频关键帧序列中从前向后选择连续的8帧图像，然后对图像进行分块并提取其SLTOP特征，最后进行特征级联，得到上身姿态的特征图谱。

1.4 分类识别

表情分类本质就是选择合适的分类算法对前期提取的图像特征进行分类判别，属于一个模式识别的过程。支持向量机（SVM）在处理小样本、多维度和非线性等分类问题上具有突出效果，因此在模式识别领域被广泛运用。但是选取合适的核函数以及设置相应的参数常常成为影响最终识别效果的关键，这也是该分类算法的难点。笔者采用最近邻分类（Nearest Neighbor， NN）[12]算法对测试样本进行分类，其核心思想是在训练样本特征空间集里选择与待测样本的距离最近的样本所属类别为待测样本所属的类别，距离函数主要包括切空间距离、欧氏距离和 Minkowski 距离等。当然，不同的距离函数会直接影响最近邻分类最终的识别效果，不同的距离函数有各自适用的具体场景。

1.5 决策融合

在双模态情感评价系统中，信息融合技术分为特征级融合和决策级融合两类。笔者采用云加权决策融合的方法[13]，即首先利用最近邻分类算法对训练样本的人脸表情和上身姿态进行粗分类识别，其次分别对人脸表情和上身姿态在各个情感状态类别上的分类结果进行交叉验证，并依据交叉验证的结果得到人脸表情和上身姿态各自的云滴模型权值。然后针对测试样本利用最近邻算法求得人脸表情和上身姿态分别属于5类情感状态的云滴后验概率。最后用人脸表情和上身姿态各自的权值和分属于不同情感状态的后验概率相乘并分别求和，得到最终测试样本所属的情感类别。

1.6 评价结果

课堂双模态教学评价系统可以统计学生的课堂参与度与课堂偏离度。当学生处于倾听和理解状态时，统计为学生的课堂参与度;当学生处于不屑和疑惑状态时，统计为学生的课堂偏离度。如果某一段时间学生的课堂参与度下降明显且持续偏低，说明就整体而言，学生对于课堂内容产生厌倦情绪或者到达了课堂的低潮期。也可以在课堂上任意选择跟踪某位学生某段时间内的状态，系统最后给出统计分析结果，以此作为课后对跟踪学生进行单独辅导或者矫正的依据。此外，系统在整体统计课堂参与度与偏离度的同时，如果有持续保持在不屑或不确定的情感状态的学生个体，还会向教师发出提醒信号，方便教师对该学生进行即时的关注或引导。

2 课堂双模态情感评价系统的测试与效果评价

2.1 测试样本

为了检测课堂双模态情感评价系统的应用效果，笔者采集了山东省潍坊市昌乐二中不同年级、不同年龄段的200段课堂监控视频作为测试样本。测试样本中单视频时长为45分钟，每个课堂中共50位学生。为了将后续的系统评价结果与人工评价结果进行比对，随机挑选了20位教师对200段视频中的学生情感状态进行标注，并做归一化处理。部分测试样本及其标注结果如图5所示。

2.2 效果评价

1）学生个体情感评价的测试与检验。笔者在采集的200段课堂教学视频记录中随机选择了学生A作为被试样本，跟踪了学生A在45分钟内情感的变化。图6是课堂双模态情感评价系统统计的学生A各种情感变化的时间图，每15秒统计1次其情感状态，由图6可以看出学生A在45分钟内情感变化较小，整体处于认真听课的状态，但在第25分钟后注意力进入低潮，产生不屑和疑惑情绪，在后期又回到倾听状态。

为了验证课堂双模态情感评价系统的有效性，笔者又通过人工的方式对学生A进行情感统计，并将两种结果进行对比分析。本文随机选择了20位教师对该学生在课堂中的情感状态进行标记，然后对标记结果做均值处理，最后得到的情感状态类别和评价结果如图7和图8所示，图中对角线填充的矩形为人工评价值，横线填充的矩形为系统评价值。其中，倾听、疑惑、理解、不屑和不确定的准确率分别为90%、82%、88%、80%、80%，整体准确率不低于80%，证明本文提出的评价体系对于单个学生个体在传统课堂中表现的评价具有有效性。

2）学生整体情感评价的测试与检验。课堂双模态情感评价系统不仅能针对学生个体进行情感识别和评价，也可以统计分析课堂内全体学生的情感变化。

针对实际教学中情感变化的有效时间，笔者设定整体评价的时间间隔。本文随机选择50段课堂教学视频，并在时间间隔上进行情感评价分类，即每隔2秒做1次情感状态分类，最后把50段视频的分类结果做均值处理。图9是从45分钟的课堂视频中随机选择的5个时刻点的情感状态分类结果，课堂中共有学生50人。从图中可以看出，5个时刻点学生整体处于倾听状态，但是有部分学生处于不屑、疑惑和不确定情绪，这时系统就会向教师发出提醒信号，有利于教师对这些学生进行即时的关注或引导，提高课堂的教学质量。

可以计算课堂全体学生倾听和理解的有效时间以此来反映学生的整体参与度，相应地，计算学生不屑和疑惑的有效时间可以用来反映学生整体的课堂偏离度。

为了验证课堂双模态情感评价系统对学生整体的有效性，笔者通过人工的方式对采集的200段课堂教学视频中的学生每隔2秒进行一次情感标记，并与系统检测的结果进行比较。最后得到的情感状态分类结果和评价结果如图10和图11所示。图中对角线填充的矩形为实际值，横线填充的矩形为系统评价值。其中，倾听、疑惑、理解、不屑和不确定的准确率分别为80%、89%、86%、80%、83%，整体准确率不低于80%，证明本系统对于传统课堂的评价具有有效性。

学习过程中的情感识别是课堂观察和评价的重要指标，也是情感计算研究领域的热点问题。本文设计开发了基于面部和姿态的课堂双模态情感评价系统，创新性地将姿态引入课堂教学评价中，重新定义了课堂环境下学生的情感状态，包括倾听、疑惑、理解、不屑和不确定5类情感，且该评价系统主要由人脸表情和上身姿态的检测与获取、数据预处理、特征提取、分类识别、决策融合和计算评价结果6部分组成。最后，从学生个体和学生整体两个角度对该系统进行验证，具有较高的评价准确率。与人工统计结果做比较，整体准确率不低于80%，证明本系统对于传统课堂的评价具有有效性。但还有很多相关问题有待进一步研究，比如如何评价教师在课堂中的情感状态，如何分析和评价学生之间、师生之间情绪上的相互影响等。

参考文献

[1]Adler R B，Rodman G R，Du Pré A.Understanding human communication[M].New York：Oxford University Press，2016.

[2]闫静杰，郑文明，辛明海，等.表情和姿态的双模态情感识别[J].中国图象图形学报，2013，18（9）：1101-1106.

[3]徐靖程.教育部印发《教育信息化2.0行动计划》[J].中小学信息技术教育，2018（5）：4.

[4]韩丽，李洋，周子佳，等.课堂环境中基于面部表情的教学效果分析[J].现代远程教育研究，2017（4）：97-103.

[5]毕雪芹，惠婷.基于肤色分割与 AdaBoost 算法的人脸检测[J].国外电子测量技术，2015（12）：82-86.

[6]薄一航.视频中旋转与尺度不变的人体分割方法[J].自动化学报，2017，43（10）：1799-1809.

[7]Kanungo T，Mount D M，Netanyahu N S，et al.An efficient k-means clustering algorithm：analysis and implementation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence，2002（7）：881-892.

[8]Lebrun M.An analysis and implementation of the BM3D image denoising method[J].Image Processing On Line，2012（2）：175-213.

[9]Tan X，Triggs B.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].IEEE transactions on image processing，2010，19（6）：1635-1650.

[10]付曉峰，付晓鹃，李建军，等.视频序列中基于多尺度时空局部方向角模式直方图映射的表情识别[J].计算机辅助设计与图形学学报，2015（6）：1060-1066.

[11]姜明星，胡敏，王晓华，等.视频序列中表情和姿态的双模态情感识别[J].激光与光电子学进展，2018（7）：167-174.

[12]Mehmood R M，Lee H J.Emotion classification of EEG brain signal using SVM and KNN[C]//2015 IEEE International Conference on Multimedia & Expo Workshops （ICMEW）.Turim：IEEE，2015：1-5.

[13]刘海军，柳征，姜文利，等.基于云模型和矢量神经网络的辐射源识别方法[J].电子学报，2010，38（12）：2797-2804.