基于YOLOv5的学生课堂行为分析系统设计

2023-11-07贺子琴黄文辉肖嘉彦蒋勋泽胡俊杰

电脑知识与技术 2023年26期

贺子琴，黄文辉，肖嘉彦，蒋勋泽，胡俊杰

（湖南工商大学计算机学院，湖南长沙 410000)

随着现代教育体系的不断发展，教育领域利用人工智能的优势，对教育方式不断进行创新。学生课堂行为作为课堂质量的一个重要衡量指标，系统采集学生课堂上的行为，将数据进行可视化，有利于对课堂的过程分析以及学生的多元化评价。

学生行为分析主要是针对学生在课堂上写字、玩手机、站立、端坐四种行为进行识别分析。通过对学生的课堂行为进行分析，教师可以了解学生的课堂状态，掌握学生的情况，以此针对课堂氛围制定不同的教学计划。利用该学生行为分析系统可以采集学生的课堂行为，将采集的数据进行可视化，对学生的课堂行为进行多元化评价。

1 研究现状

目前在学生课堂行为分析方面，随着人工智能技术发展愈加成熟，越来越多的技术不断发展与成熟。

1.1 初代学生课堂行为分析

利用课堂教学视频分析软件替代部分人工的工作量进行学生课堂行为分析，主要包括S-T课堂教学分析法、兰德斯互动分析系统以及基于信息技术的互动分析系统[1]。薛新国等利用并改进S-T课堂分析法对融入信息技术的语文课堂教学过程中的教师行为、学生行为以及师生互动行为进行了分析。

通过人工观察视频编码学生行为的方式，本质上还是依赖人的观察对课堂教学进行分析，没有充分利用人工智能、计算机视觉等技术的优势，耗时耗力且效率不高。

1.2 传统的机器学习法

基于传统的人工提取特征方法可以根据具体需求提取相应的特征，其中大多采用轮廓特征、人体骨架特征和轨迹特征等识别方法。针对传统的学生课堂行为分析，马喜茹[2]采用Viola-Jones 和肤色检测算法分别对学生的起立与举手行为进行了识别。邓淼磊[3]采用Hu矩进行轮廓特征提取后，使用线性分类器(SVM)进行举手、正坐、低头姿态分类。此方法利用人体骨骼特征和传统机器学习进行结合，且需在教室里架设专门的kinect 设备采集数据，操作较复杂且准确率不高。

此类传统的机器学习方法相较于初始的分析法具有较高的稳定性和可靠性，但是在课堂视频中往往存在学生目标众多，有遮挡严重的情况，存在一定时序性上的局限性。

1.3 深度学习方法

深度学习方法是模拟人脑的认知机制建立的具有分析学习能力深度神经网络，学习数据的特征，摒弃依赖人工设计提取特征，通过对大量的数据进行训练和学习，自动学习到有效的特征可用于目标和行为识别。廖鹏[4]基于卷积神经网络(VGG)来预训练网络模型和迁移学习，搭建学生课堂行为识别数据集，并通过反复多次训练得出分析结果。

图1 系统结构图

综上所述，传统的机器学习方法相较于初代学生课堂行为分析更智能科技化，但其操作复杂，准确度不高，在检测速度和检测精度上都存在着较大的缺点，在复杂的课堂环境中往往存在着光线不足、动作遮挡等问题，给学生课堂行为分析带来了巨大的挑战。

2 系统设计

本系统通过计算机软件与硬件的结合，主要通过三个模块来实现对学生的课堂行为识别分析，分别如下：图像采集模块、行为检测模块、输出分析模块。如图1所示。

学生课堂行为分析系统通过摄像头对学生的课堂行为进行图像采集，在系统的检测识别下判断学生行为的类别，通过可视化显示输出端，提醒教师把握好课堂氛围，提高课堂效率。系统将会在复杂环境中，显示班集体四种学生课堂行为的具体人数，分别为玩手机、站立、端坐、写字四种具体学生课堂行为。

2.1 图像采集模块

目前，针对学生的课堂行为识别分析上并没有公开的数据集，因此数据采集是该系统行为分析的基础，系统主要通过摄像头对教室课堂学生行为实时检测获取。

2.2 行为检测模块

在异常检测模块中，主要通过制作大量各种环境下真实的课堂数据集，对不同角度下的数据进行数据清洗与比例筛选图片，对数据集进行预处理和训练，训练采用YOLOv5 算法模型，最后测试集测试模型后对训练结果进行分析。

2.2.1 数据集制作

本设计从网络上收集各级各类学校的高清公开课堂视频，并分割为图片帧，为了还原真实的课堂环境，对分割的图片采用改变亮度、高斯模糊等数据增强手段进行处理。实验通过不同环境下不同群体的课堂行为视频，获得正面拍摄、侧面拍摄和背面拍摄三个视角下面的：玩手机、写字、站立和端坐4 种类别的数据，共计5 639张数据图片，部分数据集如图2所示。

图2 多角度数据集

文中采用LabelImg 标注工具构建学生课堂行为数据集，利用标注工具对生成的文件标签进行调整，为了增强实验的有效性和可说服力，对4种学生课堂行为制定了标准，如表1所示。

表1 4种行为标准

图3 YOLOv5s网络模型

2.2.2 YOLOv5介绍

基于PyTorch框架的YOLOv5s 模型是YOLOv5 系列中网络宽度和深度较小的模型,与其他目标检测模型相比，参数量较少。

YOLOv5 算法继承了之前的YOLO 系列的网络架构[5]，主要由4 个部分组成，分别是输入端(Input) 、主干网络(Backbone) 、网络的颈部(Neck)和预测输出端(Prediction)，在4 个部分分别进行了不同程度的改进，展现出了更精确、更及时、更适用于小目标检测的特点。YOLOv5s 网络模型结构如图3所示。

1)在输入端主要采用了K-means 算法的自适应描框计算，自适应图片填充，以及目标检测领域发展以来提出的加速训练方法，即数据增强方法[6]。通过数据增强的方法对图像的随机处理，不仅丰富了数据集，而且减少GPU 的处理量，自适应的描框计算方法通过聚类的方法自适应地计算出当前数据集的最佳描框尺寸，并将其直接嵌入代码中，增强了算法的健壮性和稳健性。

2)在主干网络部分，YOLOv5引用了新的结构，创新性地采用了Focus 切片技术对图像进行切片，遍历图像，提取像素值，提高运算速度，并采用CSP结构结合空间金字塔SPP结构来兼顾各个层次的特征提取，丰富网络可以进行处理的各种图片类型，使网络可以输入任意比例的图像。

3)在网络的颈部主要采用特征金字塔FPN 以及路径聚合网络PAN进行特征融合，可以利用低层特征的高分辨率信息和高层特征的高义信息兼顾不同目标的识别，从而网络可以学习和提取更大范围的特征信息。

4)输出端主要对损失函数进行优化，在YOLOv5模型中定位损失采用的是GIOU，GIOU[7]是在IOU的基础上面增加了一个非重叠面积的惩罚项，解决了真实框和预测框两框不相交的时，梯度无法进行回传的问题。

YOLOv5 算法的创新性不断提高，其速度和精度都得到了极大的提升，比其他同类别的网络拥有更好的性能。

2.2.3 实验流程

关于学生课堂行为识别的方法，主要包括数据集的采集与制作、模型的训练与改进。学生课堂行为识别实验流程如图4所示。

图4 学生课堂行为识别实验流程图

2.2.4 实验环境

模型训练的环境为Windows 10系统、Python 版本为3.6、深度学习框架为PyTorch[8]，框架版本为1.7.0。

2.2.5 实验分析

数据集训练的过程中设置epochs 为300，当训练迭代次数达到了300后，模型达到收敛[9]。训练集、验证集和测试集按照8:1:1随机分配划分。

使用训练好的YOLOv5 模型对数据集进行测试，结果如图5所示：

图5 训练结果

3 系统实现

该学生课堂行为分析系统使用方便，应用范围广泛，在课堂教学环境下可以通过该系统分析学生的行为，判断该行为对课堂和学生自身是积极影响还是消极影响。采用PC 端进行系统设计，将可视化结果更好地展示在屏幕上，有利于教师及时掌握学生的课堂行为。

该系统主要包括图片检测和视频检测两类。当导入的图片帧中含有学生课堂行为时，系统将会检测出学生具体的课堂行为，如图5所示。

图5 系统结果展示

4 结束语

本文通过对学生的课堂行为进行检测分析，帮助学生养成良好的课堂行为并提高课堂效率，针对传统的课堂行为识别方法识别率不高等问题，提出了基于YOLOv5的学生课堂行为识别分析的方法。

本文主要通过输入设备对学生课堂行为进行图像采集，在正面、侧面和背面不同的角度对数据进行采集，用所训练的权重模型对不同的学生课堂行为均能达到较高的检测识别，并且延迟度较低。该方法应用范围广泛，具有实用价值，帮助教师判断学生课堂行为，辅助教师进行课堂评估，进一步提高课堂效率，改善教师教学方法。未来，笔者将会进一步改进扩充数据库，提高学生课堂行为识别的精确度，同时轻量化模型并提高其实用性。

致谢

在此感谢导师黄少年副教授对我们的指导和帮助，以及在设计中被我引用或参考的论著的作者。在此表达衷心的感谢！