基于轻量化YOLOv7的井下高压场景安全识别研究

2024-05-10柏跃屹华心祝

煤炭工程 2024年4期

柏跃屹，华心祝

(安徽理工大学安全科学与工程学院，安徽淮南 232001)

结合全国煤矿事故分析报告汇编、煤矿安全生产网公布的事故案例，聚焦2000—2021年公布的安徽省61起机电事故进行统计分析[1]。以杨柳煤矿为工业背景，建立机电事故不安全行为库，其中“未确认高防开关是否有电，且未对开关负荷侧进行验电、放电的情况下，带电作业”是杨柳矿井下机电人员关键不安全行为。高压场所佩戴绝缘护具严格按照安全规章操作可以有效避免事故发生。因此，通过计算机视觉技术对高风险区域重点人群作业过程进行安全识别具有科学的实际意义。

佟瑞鹏[2]、刘浩[3]、李雯静[4]等对安全识别与人工智能技术进行结合归纳，主要研究对象分两类，一类是利用表示深度信息的深度图像识别物的不安全状态；另一类是提取人体关键点骨骼位置信息实现对典型矿工不安全行为的识别。杜青[5]基于YOLOX算法检测矿井人员安全帽是否规范佩戴。赵红成[6]改进YOLOv3网络结构提高复杂施工环境下安全帽的检测精度。张磊[7]基于改进YOLOv5s实现对煤矿综采工作面危险区域人员擅闯的识别。李华[8，9]通过YOLOv5检测高处临边人员安全带、安全帽等防护装备的佩戴情况以及防护网是否破损，探究复杂作业情况施工人员安全帽的智能化识别。崔铁军[10]改进YOLOX算法解决电气工人防护设备检测问题。郭师虹[11]基于YOLOv4提出轻量级建筑工人安全帽检测方法。伏德粟[12]对传统电力工人关键装备的检测加入了绝缘手套和人员识别。

煤矿生产过程中存在的大量粉尘和降尘装置产生的雾气会导致监控画面辨识度降低。由于防爆摄像头的部署情况，高压绝缘护具在画面中表现为小尺寸物品，要求识别精度较高。现阶段基于目标检测领域YOLO模型的快速发展，为满足煤矿安全监测快速响应要求，选取轻量化YOLOv7设计井下高压场景安全识别框架。

1 安全识别框架设计

实地考察杨柳矿工业背景，以中央变电所为监测场所，采集机电人员作业画面制作数据集，并对光照、人数等影响条件进行数据增强预处理，输入到YOLOv7检测模型进行训练。高压场所安全识别流程如图1所示。

图1 高压场所安全识别流程Fig.1 Safety identification process of high voltage place

首先，构建高压绝缘护具监测数据集。通过现场及实验室拍摄方式采集违章数据，为防止过拟合情况，应用数据增广手段丰富数据集。借助LabelImg工具对检测物品标注，包含person、helmet、no_helmet、gloves、no_gloves、boots这六个类别的目标。

其次，训练井下高压作业场景安全监测模型。选取YOLOv7-tiny网络结构，引入部分卷积融合快速神经网络并添加时间空间注意力机制。此处理方法旨在复杂环境下保证安全监测识别精度的同时极大程度提高检测速度。训练好模型部署于安防系统并对高压场所画面进行实时监控。

最后，考虑现场实际意义，先判断监控画面中人员与高压设备接触重合面积(即交互比)是否超过安全阈值。未达阈值可视为人员仅从设备旁经过，未进行高压作业行为，现场播报安全提示。已达阈值则先判定人员在进行作业，此时检测是否佩戴安全护具(绝缘手套、绝缘靴)。若未佩戴则视为高危不安全作业，及时报警并记录响应。

1.1 YOLOv7检测模型

YOLOv7于2022年7月推出[13，14]，代码整体继承了YOLOv5的网络架构、配置文件的设置和训练、推理、验证等过程。在正样本匹配时仿照了YOLOX的SimOTA策略，其速度和精度在5 f/s到160 f/s区间内优于当下大部分目标检测器。

本文结合工业背景，基于YOLOv7-tiny进行改进处理，轻量化YOLOv7网络结构如图2所示。Input部分首先输入尺寸为640×640×3的RGB图片，再使用Mosaic数据增强与自适应锚框计算等方式进行预处理。Backbone部分由数个CBL模块、C5变体模块与MP层构成，其中CBL模块由conv层、BN层与Leaky ReLU函数组建，MP层由Maxpool与CBL模块构成。C5_1为YOLOv7提出的高效模块，其结构由5个CBL模块组成，如图2左上角所示。C5_2、C5_3是将部分卷积(PConv)与不同位置CBL替换得到的轻量化变体。SPP(空间金字塔池化)通过13×13、9×9、5×5、1×1(即无处理)四种尺寸的池化核进行最大池化处理。SPPCSP是数个CBL与SPP的结合，二者结合减少计算量的同时提升速度，融合不同特征尺度的信息输入Neck部分。Head部分将输出图片通过三个Rep层分别对大、中、小三个不同尺度预测结果。为提高检测速度，故在Small检测头前融合FasterNet模块。

图2 轻量化YOLOv7网络结构Fig.2 Structure of the lightweight YOLOv7 network

1.2 部分卷积

由于监控画面中远端检测目标过小、不清晰甚至缺失等问题，易造成漏错检现象。部分卷积(PConv)的提出来自于Nvidia研究团队[15]，首次成功训练神经网络对任意非中心不规则图像孔洞进行修复。借用图像修复的原理可以极大程度提高小目标检测精度。

传统卷积在检测任务中将每一个像素都当成有效值计算，然后普通卷积以滑动窗口方式来提取局部特征。使用普通的端到端卷积神经网络进行图像补全，通常把损坏的图像作为输入，完整图像作为标签来学习。当普通卷积作用在图像的损坏区域时，修复的图像中会存在一些孔洞，即需要对孔洞内外加以区分。然而卷积核在做运算时不能区别损坏和未损坏的区域，对两部分的信息差并不敏感。这样就导致大多数计算被浪费[16]。

部分卷积用式(1)表示：

式中，x′为输入图片经过卷积后的输出；W为卷积核权重；X为当前卷积窗口的特征值；M为相应的二进制掩码mask；b为偏置；⊙为逐像素相乘。对于第一层部分卷积中的M，1为未损坏区域，0为损坏区域。

其mask掩码更新表示为式(2)：

式中，m′为输入源码经过卷积后的输出，则M中只要有一个元素为1，那么更新后的m′就为1；反之为0。

部分卷积通过加入Mask掩码参与到卷积运算中，动态地使得不同层的掩码对损失表现出不同的贡献，使得训练学习过程表现出从孔洞外面逐渐缩小孔洞学习的机制。底层网络学习孔洞外围，高层网络学习孔洞里面，大大提升了运算效率，且将损坏与未损坏区域的像素区分开来，提升了其敏感性。

1.3 快速神经网络

为了更好的用户体验、及时响应和安全原因，比起投入昂贵的计算设备，更倾向于设计具有低延迟和高吞吐量的快速神经网络。当下快速神经网络工作重点都集中在减少浮点运算(FLOPs)的数量上，未考虑FLOPs的减少并是否和降低延迟之间存在线性关系。如MobileNet、ShuffNet、GhostNet等利用深度卷积(DWConv)和组卷积(GConv)提取空间特征，碎片计算效率低，额外的数据操作反而会受到内存访问增加的副作用影响[17]。

轻量化网络内部结构如图3所示。可分为四个层次的阶段，每个阶段都有一个堆叠的FasterNet块，并在其之前有一个嵌入或合并层，用于空间下采样和通道数扩展。每个FasterNet块内部结构如图3右下角，由一个部分卷积层和两个常规卷积层组成。它们一起呈现为倒置的残余块，其中中间层具有扩展的通道数量，并且放置了快捷连接以重用输入特征。

图3 轻量化网络内部结构Fig.3 Internal structure of the lightweight network

式中，h为输出高度；w为输出宽度；k为卷积核尺寸；cp为网络通道数。

当通道数为常规网络的十分之一时，由上式可知，部分卷积的FLOPs仅为常规卷积的百分之一，内存访问量变化甚微。以部分卷积为基础设计的FasterNet，使计算量保持在低于常规卷积高于深度卷积、组卷积的区间内，减少计算冗余以及内存访问数量，具备硬件友好性。

1.4 注意力机制

轻量化模型受到参数和计算量的限制，难于捕捉全局特征和目标细节。绝缘护具通常以小目标形式出现易受复杂场景影响。为增大模型感受野，提升对关键目标的感知能力。本文采用注意力机制为卷积块注意模块(CBAM)[18]。

CBAM算法结构如图4所示，给出一张输入图像，输入特征图F。在通道维度上，通道注意力模块(CAM)利用了平均池化和全连接网络，学习通道权重，得到特征Fc，关注“是什么”。在空间维度上，空间注意力模块(SAM)学习空间位置权重，得到空间矩阵Ms，关注“在哪里”。最后二者特征图做乘法计算得到注意力特征Fa。

图4 CBAM算法结构Fig.4 Structure of CBAM algorithm

2 识别模型训练

2.1 井下高压场所绝缘装备图像数据集构建

2000—2021年公布的安徽省61起机电事故均属于淮南矿业集团、淮北矿业集团和皖北煤电集团，杨柳矿为淮北矿业集团智能化建设代表煤矿，选取21起属淮北矿业集团的机电事故为数据基础。统计不安全行为18类，涉及23人。相关指标包括人员类型、人员层级、违章类型、人次数、总次数等内容。选取杨柳煤矿代表性不安全行为，建立机电事故不安全行为库见表1。

表1 机电事故不安全行为库Table 1 Electromechanical accident unsafe behavior library

不安全行为发出者的工种信息记为人员类型和人员层级。不安全行为涉及的人员数量记为人次数，涉及的事故起数记为总次数。不安全行为违章类型包括违章操作、违章指挥、违章行动。结果表明，“未确认高防开关是否有电，且未对开关负荷侧进行验电、放电的情况下带电作业”是井下机电一线员工频繁发生、涉及人员较多的不安全行为，即杨柳矿机电人员关键不安全行为。

基于现有监控系统采集井下中央变电所现场图像数据，人工标注安全装备(绝缘手套、绝缘靴)佩戴特征，考虑光照条件、人员数量对识别模型的影响，在实验室完成数据集的补充融合。为避免数据集样本少造成的过拟合影响算法对绝缘装备检测效果，再对融合后的数据集进行数据增强，通过旋转、镜像、随机裁剪、调整分辨率、对比度、亮度等方式将图像扩充至2598张。构建YOLO模型通用VOC数据集格式，按照8∶1∶1的比例，将标记好的数据集随机分成训练集、验证集和测试集。

2.2 训练平台搭建

模型训练平台的操作系统为Windows11，采用Pytorch1.12.0+cu116深度学习框架，Python编程语言。硬件配置为：CPU为12代英特尔i9处理器，NVIDIA GeForce RTX 3060显卡。算法训练的超参数设置见表2。

表2 算法超参数Table 2 Algorithm hyperparameters

2.3 模型训练指标

利用整体平均精度(mAP)和模型参数量、占用大小以及推理时间等指标衡量模型性能。其中准确率(P)，召回率(R)，整体平均精度mAP具体表示为：

式中，TP为正样本目标被正确检出的数量；FP为正样本目标被错误检出的数量；FN为样本未被检出的数量；n为类别数；AP为某个类别的平均精度。

3 实验结果与分析

3.1 消融实验

根据模型训练结果表明，原模型对于待测目标均能保证较高精确度，但由于小目标的特点导致推理时间较长，不满足安全要求。本文采取以下三种轻量化处理方法，分别为P(使用部分卷积替换原有卷积)、F(融合快速神经网络)和C(引入时间空间注意力模块)。

在原数据集上设计了消融实验，分别验证以上操作对改良模型的贡献程度。重点关注未佩戴安全帽、未佩戴绝缘手套和绝缘靴的AP和最终mAP结果以及模型参数量、计算量(GFLOPS)、推理时间等，见表3：

表3 消融实验结果Table 3 Results of the ablation experiment

表中，“√”代表引用该方法，“×”表示未引用该方法。检测实验采用测试集220张图片，将平均单张推理时间作为检测速度的表征。结果表明，部分卷积结合快速神经网络结构的方法对模型检测速度提升最为明显，缩短为原来的52.4%。使模型参数量减少30%，体积缩小29.7%。引入时间空间注意力机制后，增加0.09 MB的体积大小、1%的参数量和损失0.4 ms速度使平均检测精度高达97.3%。由此证明，本文采取的轻量化操作让模型在保证精度的前提下，极大提升检测速度，缩小模型体积，可以很好的满足井下高压作业场景的安全需求。

3.2 对比实验

为满足快速响应要求，实验以推理时间表征速度，在改进策略上对比当下主流轻量化网络结构，结果见表4。

表4 对比实验结果Table 4 Comparison of experimental results

轻量级卷积神经网络专为推理速度更快的移动设备上的应用程序。GhostNetv2着力于硬件友好，新架构提出一种基于全连接层的注意力机制，可以聚合本地和远程信息同步。与改进模型对比，虽然速度较快但于原模型精度较低，体积较大[19]。

视觉Transformer(ViT)已普遍用于各种视觉识别任务，基于ViT的模型主要效率瓶颈在于资源受限设备上的推理，MobileViTv2弥补了移动设备上基于CNN和基于ViT的模型之间的延迟差距，同时使用相似或更少的参数保持性能。与改进模型对比，各项性能指标都不占优[20]。

综上，改进模型以损失0.4%的精度代价，换来减少90.0%的计算量，缩小88.3%的体积，单张图片检测速度提升21.5 ms的良好性能。

3.3 检测图像对比

针对井下高压场景代表性特征，模拟现实安全监测情况，将YOLOv7和本文改进轻量化网络做对比，如图5所示。从图5第一张图片中图像右上方，中央变电所远侧入口处存在一名手持手电筒的机电人员，由于监控画面显示尺寸较小难以发现导致漏检发生，在实际安全监测中就会出现较大安全隐患。a组原算法检测中出现的漏检现象在b组得到改善。