面向个别化指导的深度可分离卷积课堂微表情识别研究*

2021-08-19古沐松高朝邦汪海鹰李立游磊

数字技术与应用 2021年7期

古沐松高朝邦汪海鹰李立游磊

(成都大学计算机学院,四川成都 610106)

在课堂教学实际过程中,学生在课堂中的面部表情,直接反映了该生在上课时的投入程度和学习状态。通过对学生课堂微表情的识别和判断,对学生的学习结果会有直接和间接的影响。但由于课堂上学生众多,教师很难同时关注所有学生的学习状态,并给出及时的指导和反馈[1]。因此,利用最新的基于深度神经网络的微表情识别算法在课堂上辅助教师实时感知学生的学习状态,并给予针对性的提示和指导会对提升学生学习效果起到重要的作用[2]。通过将人工智能技术与课堂教学深度融合,获取学生的微表情数据,更好地实时进行监测和评价,将大大提高课堂的整体学习效果。

1 面向个别化指导的课堂微表情识别中存在的问题

针对课堂教学中的微表情识别,通常由数据预处理,微表情图像特征提取以及微表情分类三部分组成。其中最核心的是微表情图像特征提取,表情特征主要有几何特征和纹理特征。Li等在文献[3]提取面部特征点和特征点之间的角度作为面部表情特征进行识别。但面部特征点定位的准确度易受到光照、姿态等因素的影响,从而直接影响几何特征的稳健性。此后卷积神经网络成为微表情识别的主要算法,刘汝涵等通过视频放大的方法,结合深度学习算法在微表情识别上进行应用,获得了良好的可视化效果[4]。宋剑桥等提出一种面向时空神经网络的潜在情绪识别方法,使用KPCA降维,减少了冗余特征,结果表明提取的深度特征能明显增加表情识别能力[5],但仍存在特征维度高,计算量大,部分区分度小的微表情识别率较低等问题。简而言之,目前通过微表情识别的方法还很匮乏,较多难题急需解决,这些难点的攻克对教育质量的提升特别是在线教育质量的提升具有巨大帮助。

2 基于深度可分离卷积的课堂微表情识别算法

本课题正是针对目前智慧教学环境中,学生微表情识别率较低,识别速度较慢等问题进行研究。根据高效课堂教学的应用需求,结合现有的智能采集设备,构建智慧学习环境深度感知模型,提出了面向个别化指导的深度可分离卷积课堂微表情识别方法,实时多目标智能检测学生人脸信息并进行高效的微表情分析,推导出学生的听课状态(倾听、疑惑、理解、漠视、抗拒、不屑等),统计学生在课堂教学中的参与度、关注度与活跃时间。通过对每一个学生的微表情识别辅助教师分析课堂教学效果,跟踪及分析教学过程中学生的整体状态,从而让教师有效地掌控课堂教学过程。同时还可指定跟踪对象,对指定对象在课堂中的状态进行实时分析,以对学生个体进行针对性的个别化指导以及学习问题的及时矫正。这样的研究对于智慧学习环境中学习者的自我监管和外部监管、以及提高教学效果等提供强有力的技术支撑,对开展课堂智慧教学、促进教学管理具有一定的创新意义和研究应用价值。

对学生的微表情进行识别主要采用传感器、摄像头等设备进行监测,然后将采集数据传回后台云端进行识别检测,但由于数据运算量及存储量都非常大,原有的云平台解决方案普遍存在带宽负载不足,实时性反馈较差,网络连接不稳定等诸多缺点。在此情况下,我们考虑将边缘计算应用到以上的物联网监测及识别系统中[6]。该系统主要由三层组建,最底层为传感器或摄像头等终端设备,中间层为边缘计算节点,具备一定的计算能力和存储能力,相对于云平台更贴近终端设备,能够及时提供运算、存储等支持,大大缩短信息反馈的延迟。最上层为后台的云平台,主要用于大规模的模型训练。我们可以将云平台训练好的模型部署到边缘计算设备上,达到快速识别学生微表情的目的。因此,研究主要内容有以下几点:

(1)分析目前智慧环境下课堂学习的研究现状和存在的突出问题,针对人脸微表情识别技术在智慧学习中的应用研究现状和技术指标,探索高可靠性指标。

(2)建立基于边缘计算的人脸微表情识别系统。通过摄像头获取实时画面,并在边缘计算设备上识别人脸微表情,及时反馈检测结果,大大提高系统的实时性。

(3)研究基于深度可分离卷积网络的课堂微表情识别算法,该算法适用于边缘计算的轻量级微表情识别。现有的深度神经网络模型由于整体网络复杂度高、数据训练量大,整体计算时间较长且需要通过网络反复进行数据传输,大大延缓了识别结果。因此我们需要对原有深度神经网络算法进行合理改进,研究适合部署于边缘设备的轻量级深度神经网络算法,在保证较高精度的前提下,实现对微表情的实时、快速甄别,达到及时对学生个别化指导的效果。

(4)设计基于深度可分离卷积课堂微表情识别的学生个别化指导策略。为学生提供不同的指导方案,激发学生潜能,促进学生的个性化成长。该个别化指导策略强调以课堂微表情数据为基础、以微表情统计数据为依据,同时基于该数据做出客观的分析和评估。教师依据数据得出结论之后,可以从资源、路径、评价等多个角度实施指导策略。

对于卷积层的梯度计算,实际上就是求损失函数对卷积层权重和偏置的导数,其权重的梯度就是卷积层误差项与池化层输出的卷积,表示为:

其偏置的梯度就是卷积层所有误差项之和,表示为:

对于全连接层的梯度计算,实际上就是求特征向量与输出向量之间的权重和偏置的导数,分别表示为:

得到CNN中各参数的梯度后,可根据梯度下降法对各参数进行调整,使损失函数最小。

式中, η为学习速率,范围在 (0,1) 之间。

综上所述,CNN的训练方式也是采用基于误差反向传播和梯度下降方法,通过计算各层相应的误差项从而得出各层参数的导数,最后采用梯度下降法调整各层参数。针对边缘节点设备的有限计算资源进行优化,本文利用深度可分离卷积网络改进该VGG网络,降低模型特征提取器的参数量和运算量。深度可分离卷积主要采用depthwise和pointwise操作对原卷积神经网络进行构造,它可以在基本保证网络原有特征信息的同时,减小网络参数、压缩网络结构从而减小计算量,提高网络的运行速度。具体结构如图1所示。

图1 深度可分离卷积结构图Fig.1 Structure chart of depthwise separable convolution

我们利用深度可分离卷积的方法改进基于标准卷积的VGG-16网络。由于深度分离卷积方法极大地降低了模型的大小,而且同时可以达到和标准卷积近乎相同的卷积效果,因而可以和大规模特征提取模型一样用于完成图像分类、检测、分割等任务。改进后核心网络为深度可分离卷积神经网络,主要包括分离卷积层(Conv dw,Conv pw)、Max Pool层(平均池化层),输入图像大小为224×224,经过一系列的分离卷积、再通过最大池化、全连接(Full Connection,FC)和Softmax分类器处理,最终输出7维特征,作为最终7分类的计算分析结果。算法流程图如图2所示: