APP下载

基于残差网络的学生课堂行为识别

2019-08-20蒋沁沂张译文谭思琪杨耀祖

现代计算机 2019年20期
关键词:步长残差准确率

蒋沁沂,张译文,谭思琪,杨耀祖

(四川农业大学理学院,雅安625000)

0 引言

课堂是学生学习知识、接受教育的重要场所。随着社会技术的不断发展,教育改革的不断深入,对课堂教学质量进行信息化、智能化分析的要求越来越急迫。用信息化手段对课堂中学生的行为进行实时的观测、处理和分析,不仅可以提醒学生注意规范自己在课堂上的行为,帮助教师管理课堂,也可以反映出课堂氛围好坏,帮助教师改进教学方式。

目前专门研究学生课堂行为识别的论文较少。周鹏霄等人[1]通过人脸检测、轮廓检测、主体动作幅度检测得到数据集,将贝叶斯因果网作为判定主体行为特征的推理模型对课堂教学行为进行识别。党冬利[2]则通过提取动作的Zernike 矩特征、光流特征、全局运动方向特征并结合朴素贝叶斯分类器[3]来对动作进行描述和判断。张鸿宇[4]通过对人体骨骼向量进行特征提取,再用SVM 分类器[5]对动作向量进行分类和识别。上述方法主要运用的是传统的机器学习方法,需要大量的人工操作步骤并且准确率较低。廖鹏等人[6]通过摄像头采集学生课堂行为,并通过背景差分提取目标区域输入VGG 网络[7],成功识别了睡觉、玩手机、正常三种课堂行为。该研究通过将深度学习技术运用在课堂教学的图像识别上,为课堂行为识别的研究提供了新的思路和方法,但是其识别学生数量较少,识别学生在课堂中的动作也较为简单并且准确率仍然较低。

近年来,深度卷积神经网络飞速发展,AlexNet[8]、VGGNet[7]、GoogLeNet[9]等深度神经网络模型相继被提出。但是,当网络层数不断加深,深度神经网络在训练过程中的梯度爆炸或梯度消失问题会变得越来越明显。为了解决这种问题,何恺明等人提出了深度残差网络ResNet[10]。该网络很重要的特征之一就是加入了残差模块,通过在卷积层之间加入Shortcut 结构,成功地缓解了当网络层数过深时带来的网络退化问题。

为了能识别更多学生在课堂中表现出来的行为,同时提高识别的准确率,本文将深度残差网络用于课堂行为识别。通过实地采集大量学生课堂行为的图片,搭建课堂行为识别数据集,并根据残差模块的特点,搭建出适用于该数据集的深度残差网络,为识别学生课堂行为提供了新的技术方法。

1 残差结构

残差网络是一种深层次卷积神经网络。对于卷积神经网络而言,加深网络层数可以增强其拟合能力。但随着网络层数的加深,卷积神经网络会变得非常难以训练,当网络层数超过某个值后,网络的识别能力反而会呈现下降趋势[11]。在梯度反向传播的过程中,由于网络层数过深,靠近输出层的网络参数会很快收敛,而靠近输入层的参数则收敛得很慢。为了避免当网络层数过深引起的识别准确率下降的问题,残差网络引入了残差单元,即通过在卷积层之间加入Shortcut 结构,这种结构使网络要训练的目标函数变为了减去输入函数后的残差,该结构如图1 所示。设f(x)为原始网络输出,在引入Shortcut 结构后实际输出设为h(x),有h(x)=f(x)+x,即实际输出为原始输出与原始输入相加,从而将网络对f(x)的拟合转变为对h(x)的拟合。这种结构没有增加新的参数与额外的计算量,同时也解决了网络反向传播过程中梯度弥散的问题。

图1 残差单元

图2 残差网络结构图

2 深度残差网络的结构

本文用于识别学生课堂行为的深度残差网络的结构如图2 所示。包括1 个卷积层、2 个ReLU 层、3 个池化层、1 个卷积模块、2 个恒等模块、2 个全连接层以及最后的分类层,该网络中卷积层的填充方式均为“same”。输入图像首先经过卷积层,该卷积层含有64个大小为2×2 卷积核,操作步长为2,由ReLU 激活函数激活从而进行初步特征提取,之后经过一个卷积模块、两个恒等模块进行深度特征提取,再用两个大小不同的全连接层依次进行特征降维,后一个全连接层的输出神经元个数为6,分别对应学生在课堂中表现出来的6 种行为,最后通过分类层输出分类结果。

恒等模块的结构如图3 所示,卷积模块的网络结构如图4 所示。

图3 恒等模块

图4 卷积模块

恒等模块包括3 个卷积层、3 个ReLU 层和一个Shortcut 连接操作。其中,卷积层1 含有64 个大小为1×1 卷积核,操作步长为1;卷积层2 含有64 个大小为3×3 卷积核,操作步长为1;卷积层3 含有256 个大小为1×1 卷积核,操作步长为1。Shortcut 连接操作用于将恒等模块的输入与经过三次卷积操作后的输出相加,该操作体现了残差网络的基本思想。

卷积模块包括4 个卷积层、3 个ReLU 层和一个Shortcut 连接操作。其中,卷积层1 含有64 个大小为1×1 卷积核,操作步长为2;卷积层2 含有64 个大小为3×3 卷积核,操作步长为1;卷积层3 含有256 个大小为1×1 卷积核,操作步长为1;卷积层4 含有256 个大小为1×1 卷积核,操作步长为2。相比于恒等模块,其在Shortcut 连接操作之前先对网络输入x 先进行了一次卷积操作。

3 数据库搭建与网络训练

3.1 搭建课堂行为识别数据库

对深度神经网络的训练需要大量已标记的训练数据,由于网络上没有公开的课堂行为识别数据,故本文通过实地收集数据构建了一套专门的课堂行为识别数据集。

视频通过安装在教室中的摄像设备采集,分辨率为2560×1536。收集包括上课、睡觉、玩手机、做笔记、东张西望、看书等学生在课堂中出现频率较高的6 个动作。在视频收集好后,首先对视频进行均匀帧采样,将视频转换成图像,再将图像裁剪成含有单个学生的图片并重塑成128×128 的分辨率大小,对每个图像里的学生课堂行为进行标记后,总共得到1020 张带有标签的课堂行为图片。通过镜像对称的数据增强方式对原始数据集进行扩充,最终得到包含2040 张图片的课堂行为识别数据集。数据集中的部分图片如图5 所示,其中每个行为的图片数量都相同。随机抽取其中的1560 张图片作为训练集,剩下的480 张图片作为测试集。

图5 课堂行为识别数据集图片示例

3.2 训练残差网络

本文实验在开源深度学习框架TensorFlow 上进行,搭载平台为Anaconda3。实验所用CPU 为Intel Core i5-8300H,主频为2.30GHz,可睿频至3.96GHz,内存为8GB,操作系统为Windows 操作系统,显卡为GTX 1050Ti,显存4G。

卷积神经网络拥有强大的拟合能力,能够学习从输入到输出的复杂映射关系。即使不知道从输入到输出的精确数学表达式,卷积神经网络也能通过对从输入到输出之间的特定模式的学习,较为准确地建立两者间的映射关系。对卷积神经网络的训练一般采用监督训练的方法。其训练过程主要分为两个阶段,即前向传播阶段和反向传播阶段。

在前向传播阶段中,为了提高模型准确率,同时使网络迅速收敛,本文先将训练集随机打乱,再结合机器情况在每一次迭代过程中选择固定数量的小批量图片作为网络输入。输入经过构造好的网络架构逐层向前传播,最后通过Softmax 分类层输出对每个行为的识别概率。

在反向传播阶段,首先以交叉熵作为损失函数计算出误差值,然后通过Adam 优化器[12]使误差反向传播,更新网络权重,逐步使得损失函数接近最优值,以优化整个网络。

另外,本文在对标签类别进行编码时采用One-hot编码方式,网络学习率为0.001,在全连接层使用Dropout 技术[8],即每次训练时使神经元随机失活,从而缓解网络过拟合,达到正则化效果。

4 实验结果分析

实验对比了带有残差单元的深度残差网络(ResNet)和不带残差单元的深度卷积神经网络(DCNN)在课堂行为识别数据集下的表现情况。其中不带残差单元的深度神经网络是指将原残差网络中的Shortcut 连接去掉以后,由其余部分组成的神经网络。

深度残差网络和深度卷积神经网络的最终准确率如图6 所示。从图中可以看到,深度残差网络与深度卷积神经网络相比,泛化准确率较高,前者的泛化准确率为89.46%,而后者为91.91%,说明在加入了残差结构后,网络能取得更好的性能。其中,深度残差网络识别准确率迭代更新细节如图7 所示。

图6 不同网络结构识别准确率对比

图7 深度残差网络训练迭代图

深度残差网络识别出的各个行为的准确率如表1所示,其中睡觉和看书分别达到了97.06%、94.12%的较高识别准确率,而玩手机、做笔记、上课、东张西望的识别准确率分别为92.65%、89.71%、91.18%、86.76%。东张西望和上课的识别准确率都相对较低,经分析可能是由于学生分散坐在教室的各个位置,上课时其头部会有一定的偏向,导致在数据集中,学生上课的行为与东张西望的行为有一定的相似度,从而致使网络误识别,降低了其识别准确率。

表1 深度残差网络识别各个行为的准确率

5 结语

传统的机器学习方法识别课堂行为需要复杂的操作对图像进行特征提取,并且其分类准确率较低。相比于传统方法,卷积神经网络能自动提取图像特征,根据从输入当输出的端到端训练完成网络的训练,使网络具有识别课堂行为的能力,在提升了准确率的同时降低了操作复杂度。然而,随着网络层数增加,对网络的训练会变得更加困难,甚至带来网络性能退化的问题。本文将残差结构引入卷积神经网络,提出了一种适用于课堂行为识别的深度残差网络模型,实验结果证明了该网络相比于深度卷积神经网络在性能上有更好的表现,但仍存在需要进一步研究的地方。首先,本文中收集的课堂行为数据还不够丰富,识别的行为还不够多,研究成果到实际应用还存在一定的距离。其次,网络在识别具有细微差异的行为时准确率还有待提高。对于这些问题,将在后续的研究中做进一步探讨和解决。

猜你喜欢

步长残差准确率
基于残差-注意力和LSTM的心律失常心拍分类方法研究
融合上下文的残差门卷积实体抽取
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
一种改进的变步长LMS自适应滤波算法
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于残差学习的自适应无人机目标跟踪算法
基于变步长梯形求积法的Volterra积分方程数值解