基于深度学习技术的在线教学效果评价研究
2021-04-12沈同平王元茂黄方亮许欢庆
沈同平,王元茂,黄方亮,许欢庆
(安徽中医药大学 医药信息工程学院,安徽 合肥 230012)
0 引 言
2020年初,一场突如其来的新型冠状病毒,打乱了国人正常的生活节奏,也严重影响全国各个层次的教育工作。为了响应教育部的“停课不停学”的号召,各级教育部门积极搭建教育资源应用平台,提供丰富多样的优质在线教学资源,全力保障教师在线教学、学生居家学习[1]。同时,教育部出台《关于加快建设高水平本科教育全面提高人才培养能力的意见》,提出建设国家级、省级一流线上和线下精品课程各一万门(“双万计划”),鼓励教师和学生利用在线教学平台,积极进行教学改革,实现人人皆学、处处能学、时时可学的泛在化混合学习新环境、新模式。
1 在线教学概念和相关评价研究
在线教学,是互联网+教育的一种形式,指的是利用互联网技术,借助相关智能设备(电脑、平板、手机、电视等)开展教育教学活动,可以突破时间和空间的限制,以最经济、最可行的方式实现异地教学,促进教育资源的均衡配置。
在线教学环境下,一般可以通过学习者的面部表情来判断学习状态和学习效果。情绪,主要是指情感性的反应,客观事物的态度体验以及相应的行为反应,是非常短暂但强烈的体验。美国心理学家Paul Ekman通过研究发现人的6种基本情绪:高兴、生气、惊讶、恐惧、厌恶和悲伤的面部表情、生理和行为反应具有跨文化一致性。心理学家Mehrabian通过研究发现:情绪表达=7%的语言+38%的语音表情+55%的面部表情。因此,面部表情成为情绪识别研究领域主要的数据类型[2]。
传统教学环境中,教师随时通过观察学生听课的状态(面部表情、坐姿等)来改变教学方式,调节课堂氛围,提高教学效果。在线教学环境中,因为时空的限制,无法实时获取学生的情绪表现。随着人工智能、情感计算等研究领域的发展,计算机具备识别学习者面部表情、判断学习者内在情绪状态的能力,帮助教师掌握学生对知识点的理解程度和兴趣度等信息,采取相应的教学手段,提高在线教学课堂教学质量。江波等设计了一组基于在线测评的困惑诱导实验,提出了一种基于面部表情的学习困惑自动识别算法,通过设定不同难度的测试题诱导被试者产生困惑情绪,同时利用摄像设备实时捕捉学习者的面部表情,提取面部重要特征点,进而利用机器学习算法进行困惑识别,可为下一代智能教辅系统的学习者情绪建模提供技术支撑[3]。韩丽等结合现有智能监控设备设计的课堂教学评价系统,利用多姿态人脸检测和面部表情识别技术,及时获取学生在学习过程中的情绪变化,反馈给教师,帮助教师准确全面地掌握所有学生在课堂教学中的参与情况。该系统不仅能够自动跟踪及分析教学过程中学生的整体状态,有效掌控课堂教学过程,还可指定跟踪对象,对指定对象在课堂中的状态进行统计分析,以便进行个体的针对性指导以及学习问题的及时矫正[4]。陈盛等提出采用基于阵列摄像头获取全体学生课堂面部表情、判断知识点教学效果的实时反馈系统,可以辅助教师动态了解学生的学习状态,以便及时调整教学方式或进度。通过课堂实验及课后问卷调查结果,表明此反馈系统可有效提高教学质量,从而达到更理想的教学效果[5]。何秀玲等提出一种提取并融合表情图像的局部几何特征、KPCA降维的CLBP全局浅层纹理特征和CNN全局深度网络特征,构建一个全新的自发学习表情数据库,将课堂学习中的情绪分为困惑、快乐、疲倦、惊讶和中性等5种类型,用于CNN模型的训练。该方法能够有效获取课堂中学生情绪变化,帮助教师准确全面地掌握班级学生的整体情况,促进课堂教学质量的提高[6]。
本文在现有研究的基础上,针对在线教学环境的特点及教学评价模式,重点研究学习者面部表情与教学效果之间的关系,并采用深度学习技术对在线教学效果进行评价。本方法可以通过对在线学习者的面部表情进行实时识别,并及时跟踪和分析学习者的学习状态,辅助教师把握在线课程教学效果,有效掌控在线教学过程。
2 深度学习技术在教学评价中的应用研究
通过对学习者面部表情变化的识别和分析,研究学习者内心的情绪状态,评价在线学习效果,因此面部表情识别的准确率至关重要。目前,面部表情识别主要通过以下几个步骤实现:(1)人脸检测;(2)面部表情特征提取;(3)面部表情分类算法。面部表情特征提取难度较大,容易受个人差异、光线、动作等因素干扰,同时很多面部表情特征依赖于人工提取,不同特征的选择对算法性能存在巨大的影响。
深度学习(deep learning,DL)是机器学习算法最新的研究方向,使计算机具备人类的自主学习能力,在搜索推荐、语音识别、图像处理、自然语言处理等领域,取得了突破性进展[7]。深度学习,可以让计算机自我构建对事物的描述、理解,实现事物特征的自动提取。在面部表情识别过程中,深度学习算法首先提取表情低层特征,然后逐层将低层特征组合成高层特性处理。其中,卷积神经网络(convolutional neural network,CNN)是深度学习代表算法之一。1962年Hubel等人通过对猫视觉皮层细胞的研究,提出了感受野这个概念;1980年,日本学者福岛邦彦仿造生物的视觉皮层(visual cortex)设计了以“neocognition”命名的神经网络。随着计算机计算能力的进一步发展,卷积神经网络的表征学习能力得到了关注,AlexNet、ZFNet、VGGNet、GoogLeNet和ResNet等CNN模型进一步提升深度学习的效果[8]。
CNN深度神经网络模型主要由卷积层、池化层和全连接层等部分组成。卷积层对输入图像进行卷积操作,提取图像特征;池化层尽可能去除图像冗余数据,保留图像核心特征;全连接层将图像特征传递给分类层进行图像分类输出,如图1所示。
图1 CNN模型基本结构
(1)卷积层
卷积层由若干个卷积单元组成,对输入的图像进行卷积运算,提取图像不同特征,如图像边缘、纹理和线条等。
(1)
(2)池化层
池化层在卷积层之后,通过降采样来压缩数据和减少参数量,提高数据执行效率,减小过拟合。常用的方法有Max pooling(最大池化)和average pooling(平均池化),而实际用的较多的是Max pooling。
(2)
(3)全连接层
全连接层中的每个神经元与其上一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。假设x1、x2、x3为全连接层的输入,a1、a2、a3为输出。
a1=W11*x1+W12*x2+W13*x3+b1
(3)
a2=W21*x1+W22*x2+W23*x3+b2
(4)
a3=W31*x1+W32*x2+W33*x3+b3
(5)
全连接层中的每一个神经元都与上一层的所有神经元进行全连接,用来把前边提取到的特征综合起来。每个神经元激励函数一般采用Relu函数,输出层一般采用Softmax函数作为分类器,输出不同预测结果的概率分布,选择其中最大的数据作为输入数据的测试标签。
实验采用的环境为
软件环境:Windows 7下的Tensor Flow 1.11.0版本;
硬件环境:Intel(R)Core(TM)i5-4590 CPU@3.30 GHz;
内存:8.0 GB。
3 表情数据库介绍
Jaffe(the Japanses female facial expression database)数据库,即日本女性面部表情数据库,该数据库共有213张表情图片,如图2所示。213张表情图片由10名女性的7种表情组成,分别为angry(愤怒),disgust(厌恶),fear(恐惧),happy(高兴),sad(悲伤),surprise(惊讶),neutral(中性),如图3所示。
图2 Jaffe数据库表情数据
图3 Jaffe表情库7种基本表情示例
4 实验结果分析
考虑到Jaffe数据库中数据量较少,因此模型训练参数选择为:batch_size=10,epochs=100,lr=0.0001。在进行100次迭代运算后,模型网络达到收敛的程度。模型训练的准确率和损失值的变化曲线如图4(a)和图4(b)所示。
图4(a) 模型训练acc(%) 图4(b) 模型训练loss(%)
由图4(a)可以看出,训练准确率随着迭代次数的增加而逐渐增加,随后开始趋于稳定。由图4(b)可知,损失值随着迭代次数的增加而逐渐减小,随后开始稳定在较小的值附近,说明训练好的网络模型具有较好的稳定性。
为了进一步验证本文模型的有效性,采用通过精确率(P)、召回率(R)和F1值对模型进行评价。
(6)
(7)
(8)
其中,Tp表示真正例,Fp表示假正例,Fn表示假负例。模型效果分别如图5和表1所示。
图5 模型在Jeffe数据库上的混淆矩阵
表1 不同表情的识别效果 %
5 结 论
本文在对在线教学效果评价分析的基础上,重点研究面部表情变化与教学效果之间的关联关系。研究表明学生面部表情变化直接反映学生内心的学习状态,进而判断学生的学习效果。因此,本文提出一种利用深度神经网络技术构建面部表情识别模型,采用TensorFlow平台,对Jaffe数据库进行测试、验证。实验结果表明,该模型在测试集的准确率达到1。为了验证模型的适应性,后期将面部表情识别模型在CK+数据集和Fer-2013数据集上进行测试、验证,也可以考虑构建自发表情数据集,来验证本文方法的有效性和适应性。