基于深度学习的学生课堂行为识别研究
2023-07-12王禹钧马致明
王禹钧,马致明
(新疆师范大学计算机科学技术学院,新疆 乌鲁木齐 830054)
0 引言(Introduction)
近年来,深度学习技术在教育领域中的应用越来越深入。《中国教育现代化2035》《关于加强新时代教育管理信息化工作的通知》等都不约而同地提及要充分且正确利用现代技术,大力发展智慧课堂[1]。在课堂中,学生是学习活动的主体,学生的行为是课堂教学质量好坏最直接的反映[2]。通过对课堂中学生行为进行识别,能更好地分析学生的上课情况、了解学生的学习兴趣。因此,利用深度学习技术实时掌握学生课堂学习情况是非常必要的。然而在课堂环境下对学生行为进行识别是一项极其复杂的任务,由于学生课堂行为识别模型规模较大,因此课堂中的行为识别困难问题仍然存在。
1 学生课堂行为识别研究现状(Current state of research on student classroom behaviour recognition)
目前,国内对课堂行为研究主要集中在学生表情识别、班级抬头率及课堂异常行为识别。魏艳涛等[3]利用迁移神经网络模型VGG16,实现了课堂上7种典型的学生行为识别。曾劼伦[4]对YOLOv3(You Only Look Once version 3)模型的损失函数进行改进,同时通过网络优化、多尺度特征融合的方法,将其改进后的YOLOv3模型用于学生行为检测,得到较好的准确率。黄勇康等[5]提出了一种基于深度时空残差卷积神经网络的算法,用于实时识别学生在课堂中的行为,首先将目标检测、跟踪技术相结合获取学生图像,然后利用深度时空残差卷积神经网络学习每个目标的时空行为特征,实现了对课堂场景中多个学生的行为进行实时识别。郭俊奇等[6]根据课堂场景提出了经过改进网络结构和损失函数的YOLOv5模型,并以多目标为主要特征,对学生课堂行为进行识别,并采用对比实验对该方法有效性进行验证。UDDIN 等[7]在研究中,利用深度递归神经网络,建立了一个以人体感应器为基础的行为识别系统,通过多个身体传感器进行数据融合,如心电图等,采用主成分分析对所抽取的特征进行强化,再对循环神经网络(RNN)进行训练,最后将其应用到行为识别中,取得了较好的结果。
尽管课堂行为研究领域不断涌现出新方法,但对于学生课堂行为的识别依然存在一定的不足,主要体现如下:数据集缺失、模型计算量大、实时性差、后排学生难以识别等。为此,本文提出了一种智慧课堂环境下基于深度学习技术的学生课堂行为识别模型YOLOv5-GC,并在标注真实智慧课堂场景的学生行为数据集的基础上开展相关研究,通过实验验证了本模型在识别速度与精度等方面均有一定提升,对推进智慧课堂的建设,实现智能化教学和管理具有现实意义。
不同学者思考与诠释学生课堂行为的视角不同,界定亦不相同。本文参考皮连生等对学生课堂行为所做的定义,定义学生课堂行为是学生课堂上在特定时间内表现的一切行为的汇总[8],其中有符合课堂行为规范、促进教师教与学生学的积极行为,如认真听课、记笔记、积极答题等;也有不符合课堂行为规范,给教学造成干扰,并给教师和同学都造成消极影响,需要教师及时干预的消极行为。
2 基于改进YOLOv5 的学生课堂行为识别(Improved YOLOv5-based student classroom behaviour recognition)
2.1 模型介绍
本文提出YOLOv5-GC模型用于识别学生课堂行为,首先融入重影网络(Ghost Net)实现YOLOv5轻量化,接着加入Coordinate Attention增强对学生关键特征的提取能力。模型结构如图1所示。
图1 基于深度学习的学生课堂行为识别模型(YOLOv5-GC)算法结构图Fig.1 Algorithm structure diagram of student classroom behavior recognition model YOLOv5-GCbased on deep learning
本文将轻量化Ghost模块引入YOLOv5,替换其主干网络中的普通卷积层。将原网络的普通卷积模块替换成Ghost Conv层,Ghost模块与C3组成新的C3Ghost模块,极大地减少了参数量。将Coordinate Attention加入主干网络末层,使其在通道间建立特征映射关系,充分利用全局特征、提高特征层有用信息的占比,减少误检、漏检情况,具有较好的性能。
2.2 融合Ghost模块
由于要把模型部署到教室中,因此具体部署时要考虑设备必须具备足够的计算能力,才能达到网络正常工作的要求。在网络参数多、计算量大的情况下,对设备存储和计算能力有很高的要求。YOLOv5主干网络层均采用大量卷积操作,会造成网络参数多、计算量大等问题。王立辉等[9]提出Ghost Net,它提供了一种全新的Ghost模块,Ghost Net将线性操作与普通卷积相结合,通过以前生成的普通卷积特征图线性变换为相似特征图生成高维卷积效果,如图2所示。
图2 Ghost模块原理图Fig.2 Schematic diagram of ghost module
Ghost Net通过线性变换降低模型参数及计算量。Ghost Net使用Ghost模块取代传统卷积层,采用输出特征层个数较少的卷积层,以及可提高冗余性、计算量少的线性操作替代传统卷积层。它既确保了精度,也降低了计算量,核心思想是利用较少的参数产生更多的特征,达到网络结构轻量化的目的。本文将Ghost模块引入YOLOv5,替换主干网络中的普通卷积层,极大地减少了参数量。
2.3 嵌入Coordinate Attention
有研究显示:当加入少量运算复杂度时,加入注意力机制可以改善轻量化模型的性能[10]。课堂场景下,尽管YOLOv5模型能提取出富有细节的特征图,但课堂情景具有复杂性,如何使模型能够学习重要场景中的特征以增强关键特征提取的能力成为必须解决的问题。Coordinate Attention获取通道之间的特征信息时,实现了空间方向上准确位置信息及感兴趣区域的获取[11]。这种注意力机制的每个权重都包含通道间信息、横向与纵向空间信息,可以帮助网络更加准确地定位目标信息,提高识别能力。它不但得到通道之间的信息,与方向有关的位置信息也被考虑在内,能帮助模型对目标进行定位与识别,并且灵活轻量,能在网络核心结构上进行简单插入。Coordinate Attention的具体构造如图3所示,依次实现坐标信息嵌入模块和坐标注意力生成模块两个功能。
图3 坐标注意力机制结构图Fig.3 Coordinate Attention structure diagram
YOLOv5模型大部分由卷积神经网络组成,如何能更加高效地抽取特征信息是比较关键的,并且在实际课堂环境下学生被遮挡的问题尤为严重,存在小目标学生难以识别的问题。为此,本文提出加入Coordinate Attention改善模型的特征提取能力,使模型的关键特征提取能力有了很大的提升。YOLOv5的主干网络的主要工作是提取输入处理后照片的特征,也就是说抽取特征的能力在很大程度取决于主干网络。为使网络能自主学习关键特征并摒弃其他不重要的特征,所以在主干网络上增加了Coordinate Attention。
3 实验与结果分析(Experimentation and analysis of results)
3.1 数据集构建
由于课堂类数据集场景具有独特性与保密性,因此学生课堂行为识别的数据集相对缺乏。目前,并不存在专用公开数据集,需要自行构建数据集完成模型训练。研究人员观察大量课堂视频后发现,课堂教学过程中学生的行为是多样的,不同行为能够体现学生不同的学习状况。结合上述文献的行为分类及观察课堂实录中的学生行为,本文确定书写、听课、举手、低头、左顾右盼、小组讨论6种行为类型用于学生课堂行为数据集的构建。数据集来自小学公开课视频分帧形成的图片,视频来源网站为国家教育资源公共服务平台,共采集50节不同课堂的教学视频,每节课的时间平均为40 min左右,作为原始实验数据。考虑到视频识别模型会更加复杂,难以应用于智慧课堂,尽管本文收集到的原始数据为课堂视频,但仅是针对单帧图片的学生行为进行识别。数据处理的流程如下:使用Python进行脚本的编写,将间隔设置为30 s,以均匀采样帧并按照一定帧数间隔将视频解码成图片。经过多轮删减筛选,筛选出清晰的课堂学生图片。处理完成后,收集并整理获得3 002张小学生课堂图片数据,截取数据集图片如图4所示。
图4 数据样例图片Fig.4 Sample data images
由于收集的学生课堂行为图像过少,为达到训练所需的样本量,对现有图像数据做了扩充处理。在智慧课堂实际应用中,存在各类不同的场景,例如光照的强弱、教室的环境不同等。可以通过对数据集进行增强以增加不同条件下的数据,从而提高训练模型的适应力。本文利用一些常见的数据增强方式对训练集进行扩展,包括图像旋转、将噪声随机加入原始图像中、随机变换图像色彩等方法。扩增数据集之后,重新过滤图像数据集,共得到4 120 张学生课堂图片,行为数量共71 016个。
3.2 实验环境
实验硬件环境配置如下:处理器为intel(R)Xeon(R)E5-2699v3,显卡为RTX3060 12 GB显存。软件环境配置如下:编程语言为Python,深度学习框架为Py Torch1.9.0,操作系统为Windows 10。训练集、验证集、测试集的比例按照7∶2∶1进行划分。epochs为200,Batch-size为16。在训练期间,各训练轮次会根据训练情况调整学习率的取值,初始学习率设定为0.001,模型采用余弦退火算法更新学习率的动态取值。输入端采用Mosica数据增强包括随机尺寸拼接等技术进行叠加处理等。
3.3 评价指标
mAP为类别平均像素准确率,能衡量模型在所有类别的效果,它是评价算法性能的最终指标之一。除了评价精度的指标,还有检测速度的指标如FLOPs(浮点运算数),处理一张图片所需的浮点运算量可以衡量模型的复杂度;Inference Time为推理时间,是指检测每张图片需要使用的时间,用来衡量模型推理速度的快慢;Params为参数量,指模型训练中需要训练的参数总数,模型参数量决定了模型的体积,也影响推理时间。
3.4 对比实验
为了验证YOLOv5-GC融合模型对学生课堂行为的识别效果,同时方便对比原始模型的提升程度,本文选取快速区域生成网络(Faster R-CNN)、YOLOv4、YOLOv5几种经典模型进行对比实验,这些模型常用于目标检测任务。为了更好地比较改进模型和传统模型,需要将基础参数保持一致,以免因参数不一致而影响结果。
运用改进后的YOLOv5模型对6种行为的识别精度都明显上升,相对其他算法表现出了更高的精度,如表1所示。
表1 不同模型识别学生行为结果Tab.1 Recognition results of student behavior using different models
如表2所示,分别从4个方面对Faster R-CNN、YOLOv4、YOLOv5等经典模型进行对比实验。本文所提方法的mAP高于除Faster R-CNN 外的其他相似的算法。Faster R-CNN是两阶段算法,它的精度较高,但是占用的内存也较大。根据智慧课堂的建设需求,YOLOv5-GC模型更加适用于真实课堂中学生行为的识别。由于最终目标是将模型应用于课堂终端,因此模型的参数规模、运算符点数、推理耗时也是重要的衡量指标。
表2 对比实验结果Tab.2 Comparison of experimental results
由表2 可知,mAP从高到低排序为Faster R-CNN、YOLOv5-GC、YOLOv5、YOLOv4。YOLOv5-GC 的mAP为86.2%,较原模型有了明显的提高,Faster R-CNN是两阶段算法,有精度高的优势,它的mAP达86.5%,虽然优于YOLOv5-GC融合模型,但是Faster R-CNN的参数量巨大,不符合智慧课堂的应用要求,难以部署在真实的课堂场景中。本文所提模型使用的参数量最少,较原模型降低2.7 MB,更加轻量且方便在教室环境下布置。YOLOv5-GC 模型比原模型推理时间减少16.7%,耗时越短,模型实时检测能力越好。从浮点运算量这个指标来看,YOLOv5-GC模型的复杂度大大降低,方便在智慧课堂部署。综上可知,本文提出的模型速度指标上表现最好,它具有精度高、参数量少、识别耗时短等优点,平衡检测速度与精度,满足实时检测的条件,符合智慧课堂设备的应用要求。
3.5 消融实验
为验证实验的延展性和适用性,本小节选取YOLOv5、YOLOv5+Ghost、YOLOv5+Coordinate Attention、YOLOv5+Ghost+Coordinate Attention进行研究,融合形成四种模型进行消融实验,消融实验结果如表3所示。
表3 消融实验结果Tab.3 Results of ablation experiments
由表3可知,融合Ghost Net+Ghost+Coordinate Attention在各个指标上都表现最好,相较YOLOv5模型,mAP上升3.5%,参数量减少2.7 MB,运算量、推理时间也显著减少,模型的复杂度降低,使得模型更加轻量化,在降低模型复杂度的同时提升了模型检测的精度。只加入Ghost Net后,mAP上升较小,但是参数量和推理时间显著减少,识别速度显著提升,由此可见,Ghost在轻量化参数量方面具有优越性。轻量化网络替换后,可以达到实时检测的要求,对部署设备要求较低,易在于课堂安装。只加入Coordinate Attention后,mAP上升3.1%,提取特征能力的提高,使能够关注到关键特征,但是参数量和速度略微增加。Coordinate Attention是为轻量级网络设计的,它可以让轻量化后的网络在更大区域拥有注意力,同时弥补Ghost Net轻量化但特征提取不足的缺点,达到了提升mAP的效果。所以,从几个指标来看,加入Ghost Net和Coordinate Attention对模型轻量化、提升关键特征有很大的帮助。本文提出的YOLOv5-GC实现YOLOv5网络轻量化和识别精度的提升。通过改进YOLOv5模型,并将其应用于学生课堂行为的识别,同智慧课堂的建设需要紧密结合起来。
4 结论(Conclusion)
考虑到实时检测的速度与精度,本文根据真实课堂场景在YOLOv5的基础上改进学生课堂行为识别模型。在分析当前学生课堂行为识别方法存在的问题后,提出一种基于YOLOv5改进的YOLOv5-GC模型,并在轻量化模型、注意力机制添加等方面提出了改进策略,对效果进行验证。通过对比实验验证模型的泛化能力,使用消融实验验证各模块的有效性。本文提出的YOLOv5-GC模型参数规模显著减少,识别精度和速度也有一定的提升,便于在移动设备端部署,可应用于智慧课堂中对学生的行为进行精确识别,具有一定的应用价值。后续将开展教师行为研究,探究师生互动行为如何影响学生学习行为,为优化智慧课堂环境下师生互动效果提供一定依据,其理论意义和现实意义更值得期待。