基于轻量化卷积神经网络的大学生在线课堂行为检测

2024-05-27何富江

科技风 2024年13期

摘要：为实时掌握学生线上学习情况，提高学生线上课堂教学质量。针对移动设备端、学生图像尺寸大小不一、背景复杂易遮挡等问题，本文设计了一种基于轻量化卷积神经网络检测模型。首先以YoloV5s为基准，轻量化改进其主干特征网络，从而减小模型体积；并通过改进DIoU作为损失函数，进一步优化模型，提升检测框质量。实验结果表明，本研究改进的模型大小仅为6.8MB，平均检测精度达到96.5%，每幅图像的平均检测时间为0.025s，与经典目标检测模型比较，表现出较强的鲁棒性和泛化能力，是一种有效的学生在线课堂行为识别方法。

关键词：轻量化模型；实时性；特征增强；行为识别；YoloV5s

1 背景介绍

随着互联网及教育事业的发展，每年大学生接受线上教育人数都在不断地增多。在线课堂中学生学习质量难以保证，一部分缺少自制力的学生在线上课堂上的专注度不高。另一方面，授课教师在线上授课的同时做到监督规范学生学习行为。本文引入轻量化卷积神经网络，用以解决大学生在线学习行为识别问题。

引入人工智能技术用于线上教学，采用人工智能算法来识别学生在線课堂学习行为，以此随时掌握学生的学习情况，对于推进线上教学创新发展有重要意义。

卷积算法代表着深度学习方法的发展趋势，被广泛应用各个行业。深度学习算法简单有效，进一步改进了现有技术和方法，取得了显著成果。王泽杰等采用Yolov3算法提取的交互物体局部特征［1］，对学生行为进行了识别分析，提高了识别精度；改进了模型结构，压缩并优化了模型，降低了空间与时间的消耗。该检测与识别方法在验证集上的精度达到了95.45%。白捷等使用Faster RCNN算法进行检测［2］，该模型的查准率均值可达76.32%，在原有算法基础上提升了12.22个百分点，取得较好的检测效果。郭俊奇等改进了Yolov5模型的损失函数［3］，在教育场景下课堂行为识别工作中，展现了较好的性能。闫兴亚等提出了基于深度学习的课堂行为识别方法［4］，采用改进的Yolov5目标检测算法得到人体检测框，对人体各个部位的识别平均准确率最高达到了82.6%，能够有效应用于课堂的多种行为识别。

然而，更深层的神经网络结构会导致参数总数增多，增加了测算压力，对设备内存、计算速率也提出了更高的要求。为了找到计算模型精度、体积和效率之间的平衡点，本文在YoloV5s的基础上，轻量化改进其主干特征网络，从而减少整体的参数数量。后使用改进的DIoU作为损失函数，改善检测框的准确性和稳定性，采用自行构建的数据集，模拟在线课堂环境中的真实场景和行为，以确保模型在教学过程中的鲁棒性和稳定性。

2 目标检测网络YoloV5s轻量化改进模型

2.1 YoloV5s模型

YoloV5系列是一组基于回归方法的单阶目标检测模型。与传统的检测方法不同，YoloV5在前向传递中同时执行目标检测和定位，使其在速度和准确率方面表现出色。YoloV5进一步细化为四个不同版本，包括V5s、V5m、V5l和V5x，以满足不同场景和需求。本文的主要目标是设计一个高准确率、实时性强以及相对较小的检测模型。本文通过选择YoloV5s作为基础模型，进一步优化，实现在线课堂行为检测。

在YoloV5s模型的骨干部分引入了Focus结构，用以实现对输入图像的切片操作。这一创新性改进能有效地处理输入图像，将其分割为更小的输出特征图以便进行后续处理。主干网络的设计采用了YoloV4的CSP结构，主干网络借助残差网络结构，从输入图像中提取重要的特征，能够高效地捕获图像中的信息，从而提升模型的感知能力和特征表达能力。YoloV5s模型在卷积运算操作过程中，兼顾模型的复杂度和参数数量，可以在保持良好性能的前提下，有效地控制模型的规模和计算效率。

2.2 轻量化改进

2.2.1 融合MobilenetV3模型

MobilenetV3通过倒置残差块、深度可分离卷积和注意力机制等设计，在轻量级神经网络中成功实现了实时性、速度和准确率的平衡。MobilenetV3在资源有限的环境下具有更好的推理速度和适应性［7］，这使得它在YoloV5s模型轻量化改进方面具有一定优势。

标准卷积输入尺寸为H×X×Y（H表示高度，X表示宽度，通道为Y），经过Z个K2×Y卷积后输出的尺寸为H×X×N（H表示高度，X表示宽度，通道为Z）。标准卷积的参数量：

P1=k2×Y×Z（1）

深度可分离卷积是MobilenetV3中的重要组成部分，由两个部分组成：深度卷积和逐点卷积。深度卷积阶段使用独立的卷积核，卷积核参数数量计算：P1=k2×Y×Z，共有Y个卷积核，每个通道都有对应的卷积核。逐点卷积也称为1×1卷积，卷积核为1×1×Y，其中有Z个卷积核，进行通道之间的特征变换。深度可分离卷积的参数量：

P2=k2×1×Y+1×1×Y×Z=Y×（k2+Z）（2）

因此，深度可分离卷积与标准卷积参数量相比计算如下：

P2P1=Y×k2+Zk2×Y×Z=1k2+1Z（3）

2.2.2 损失函数改进

原始的Yolov5s网络中使用GIou-loss作为损失函数，用以评价预测框和边界框的距离：

lossGIou=1-IoU+Ac-UAc（4）

lossGIou指的是GIou的损失函数，IoU是预测框和真实框的交集面积除以它们的并集面积比，Ac是指的是最小包围框面积，U是指并集面积。但是GIou-loss存在一个问题，如预测框在人工标注框内部时，GIou-loss惩罚项为0，因此GIou-loss也退化回了Iou-loss，已无法反映检测效果的优劣，也就无法对检测框进一步优化。

本篇论文引入了一种改进后的损失函数，其主要创新在于通过计算预测框和真实框的中心点之间的距离，更加精准地引导模型找到准确的位置。损失函数如下：

lossDIou=1-IoU+ρ2b，bgtc2（5）

式中：b、bgt分别为预测框、真实框中心点，ρ2为两个中心点的欧氏距离。c为最小包围框的最短对角线，c用以调控模型收敛的速度。相比于GIou-loss和Iou-loss，在这种情况下能够进一步优化模型，提升检测框质量。

2.2.3 多特征融合检测结构改进

在初始的YoloV5s神经网络设计中，系统构建了一个包含3个尺度特征检测层的框架，在8、16、32倍的图像下进行采样，以便适应不同尺寸的检测目标。在原始框架下，高层特征图经过多次卷积操作，容易导致特征图的分辨率持续降低。与此同时，在线上教学环境下，学生图像的尺寸多种多样，呈现出来的形式丰富。因此在YoloV5s原有结构中，采样倍数较大可能导致小目标的信息特征模糊，导致高层特征图难以有效捕获小目标的信息特征。

为了解决这一问题，本研究引入微尺度特征检测层，针对多特征融合检测结构进行改進。引入微尺度特征检测层，实现了低层和高层特征图的有机融合，通过将多层次的特征信息有效地整合，系统能够在不同尺寸的目标上表现出更优越的性能，为系统的性能提升带来了显著的影响。

3 实验

3.1 学生在线课堂行为识别数据集

针对在线课堂教学环境，主要针对学生上课经常出现的饮食（diet）、交头接耳（talk_others）、玩手机（play_phone）、阅读（read）、睡觉（sleep）和写字（write）6种行为进行数据采集。考虑到学生在线课堂环境复杂多变，受到电脑的摆放位置、学生的坐姿等影响，为此采集数据时加入这些影响因素，使得学生在线课堂行为识别研究更具有现实意义。

本次实验选取150名高校同学作为研究对象。通过模拟在线课堂环境，采集150名同学进行上述6种行为的数据。每位同学的一种行为需做两组，这样可保证至少有一组是考虑坐姿等影响因素下采集的数据。每种行为的数据都是视频文件，总共采集到1800组视频、图像，并按照3∶1∶1比例，划分为训练集、验证集和测试集。

3.2 实验环境与配置

实验硬件环境的配置为：两张TeslaT4（GPU），32G显存，Intel I7（CPU），128Ｇ内存；实验所用的编程语言为Python，实验使用Pytorch框架。

3.3 实验结果与分析

随着训练的进行，损失值逐渐减小，趋近于零。损失值越接近零，意味着模型有更高的准确度和泛化能力，训练结果更优。

图1、图2呈现了轻量化改进模型和标准模型的损失值变化曲线。随着训练的进行，两种模型的损失值逐渐降低，并最终趋向平稳。通过对比发现，本研究中的改进模型在训练集和验证集上的损失值明显低于标准模型的训练损失值，这也意味着轻量化改进模型在效果方面表现出色，相对于标准模型具有更好的性能、泛化能力。

3.4 模型改进的性能比较

研究中，将MobilenetV3模型取代标准模型的骨干网络，旨在降低模型的大小。标准模型大小为14.2MB，通过以上尝试，成功地将YoloV5sMobilenetV3模型的大小压缩为6.8MB，相较于标准模型，体积减小了7.4MB。

由上表得出，本文提出的轻量化改进模型相较YoloV5s标准模型，在达到进一步轻量化目标的同时，平均检测精度也有所提升，增加了1.6%。轻量化改进模型的召回率、检测时间均优于YoloV5s模型，进一步证明用MobilenetV3替换标准YoloV5s模型Backbone结构可以降低模型复杂度，减少检测时间，提升平均检测精度，说明本文提出的轻量化改进模型能有效提高检测效率。

结语

本文提出一种轻量化卷积神经网络的大学生在线课堂行为检测方法，在YoloV5s的基础上，将轻量级网络MobilenetV3作为主干特征提取网络，并使用改进的DIoU作为损失函数，进一步优化模型。结果表明，本研究改进的模型平均检测精度为96.5%，召回率为94.99%，每幅图像的平均检测时间为0.025s，模型体积减小了7.4MB，进一步提高了工作效率。经过实验比对，本研究的改进模型在成功实现轻量化目标的前提下，具有较优的检测结果，证实了本文提出的轻量化卷积神经网络的大学生在线课堂行为检测方法的可行性。

参考文献：

［1］王泽杰，沈超敏，赵春，等.融合人体姿态估计和目标检测的学生课堂行为识别［J］.华东师范大学学报（自然科学版），2022（02）：5566.

［2］白捷，高海力，王永众，等.基于多路特征融合的Faster RCNN与迁移学习的学生课堂行为检测［J］.广西师范大学学报（自然科学版），2020，38（05）：111.

［3］郭俊奇，吕嘉昊，王汝涵，等.深度学习模型驱动的师生课堂行为识别［J］.北京师范大学学报（自然科学版），2021，57（06）：905912.

［4］闫兴亚，匡娅茜，白光睿，等.基于深度学习的学生课堂行为识别方法［J］.计算机工程，2023，49（07）：251258.

［5］WANG Z，JIANG F，SHEN R.An Effective Yawn Behavior Detection Method in Classroom［C］.International Conference on Neural Information Processing，2019：430441.

［6］李云，邱述金，赵华民，等.基于轻量化YoloV5的谷穗实时检测方法［J］.江苏农业科学，2023，51（06）：168177.

［7］DANG Q，YIN J，WANG B，et al.Deep learning based 2d human pose estimation：A survey［J］.Tsinghua Science and Technology，2019，24（6）：663676.

［8］黄勇康，梁美玉，王笑笑，等.基于深度时空残差卷积神经网络的课堂教学视频中多人课堂行为识别［J］.计算机应用，2022，42（03）：736742.

［9］刘新运，叶时平，张登辉.改进的多目标回归学生课堂行为检测方法［J］.计算机工程与设计，2020，41（09）：26842689.

［10］刘清堂，何皓怡，吴林静，等.基于人工智能的课堂教学行为分析方法及其应用［J］.中国电化教育，2019（09）：1321.

［11］李晨，何明，王勇，等.基于深度学习的视频行为识别技术综述［J］.计算机应用研究，2022，39（09）：25612569.

［12］INGH K K，LEE Y J.Hideandseek：Forcing a network to be meticulous for weaklysupervised object and action localization［C］.2017 IEEE international conference on computer vision（ICCV），2017：35443553.

［13］JIAO S，MIAO T，GUO H：Image Target Detection Method Using the Yolov5 Algorithm，3D Imaging Technologies—Multidimensional Signal Processing and Deep Learning：Springer，2021：323329.

［14］SUZUKI S，AMEMIYA Y，SATO M.Enhancement of grossmotor action recognition for children by CNN with OpenPose［C］.IECON 201945th Annual Conference of the IEEE Industrial Electronics Society，2019：53825387.

作者簡介：何富江（1989— ），男，汉族，江西上饶人，硕士，助教，研究方向：深度学习。