基于FBEC-YOLOv5s 的采掘工作面多目标检测研究

2023-12-06张辉苏国用赵东洋

工矿自动化 2023年11期

张辉，苏国用，3，赵东洋

（1.安徽理工大学深部煤矿采动响应与灾害防控国家重点实验室，安徽淮南 232001；2.安徽理工大学机械工程学院，安徽淮南 232001；3.矿山智能技术与装备省部共建协同创新中心，安徽淮南 232001）

0 引言

煤炭作为我国的主体能源，是能源供给的“压舱石”[1-3]。近年来，我国煤矿智能化发展迅速，煤炭开采正在迈向“少人化、无人化”阶段[4-6]，对于实时检测的需求也逐渐从运输巷、变电所等简单场景转向采掘工作面等复杂场景。但受煤矿井下采掘工作面高粉尘、低照度等环境因素影响，传统的目标检测方法存在目标尺度跨度大、多目标间相互遮挡严重及检测精度低等问题，因此研究一种可以适应煤矿采掘工作面复杂环境的多目标检测算法，对煤矿井下的多目标检测具有重要意义。

基于深度学习的多目标检测算法逐渐成为研究热点[7-8]。基于深度学习的多目标检测算法可分为两阶段多目标检测算法和单阶段多目标检测算法[9]。两阶段多目标检测算法主要以Fast R-CNN[10]、Faster R-CNN[11]及Mask R-CNN[12]为代表。杨文斌[13]采用Faster R-CNN 算法检测刮板输送机中的角铁和锚杆等多种异物，识别精度达90%以上。郭永存等[14]以Mask R-CNN 模型为基础，通过引入压缩-激励模块与混合空洞卷积，提高了模型对煤矿井下巷道中的信号灯和小石块等多目标的检测精度。史凌凯等[15]采用K-meansⅡ聚类算法和Laplace 算子优化Mask R-CNN 模型，提高了模型对角铁、钢板及铁锹等异物的检测精度和检测速度。但上述算法模型体积大，检测速度慢，无法满足实时检测的需求。

单阶段多目标检测算法主要以YOLO[16]系列算法、SSD[17]系列算法、CornerNet[18]系列算法等为代表，其中YOLO 系列算法检测效率高且泛化能力强[19]。王科平等[20]以YOLOv4 为基础，通过引入残差自注意力机制和深度可分离卷积，平衡了模型的参数量、计算量及检测精度，并在此基础上提高了模型对综采工作面的采煤机、刮板输送机及行人等多目标的检测精度。杨艺等[21]先使用CSPDarknet 网络、空间金字塔池化（Spatial Pyramid Pooling，SPP）模型及路径聚合网络（Path Aggregation Network，PANet）提取综采工作面视频特征，再使用深度可分离卷积对YOLOv4 模型进行轻量化处理，从而提高了模型对线槽、采煤机、行人等6 种目标的检测精度。郭永存等[22]采用K-means++算法、四尺度预测网络及SPP 模块对YOLOv4-Tiny 算法进行改进，提高了模型对矿井巷道中的碎石、行人及电机车等多目标的检测精度；樊红卫等[23]使用Partial Conv 模块、Res2Net 网络和ECA 注意力机制优化YOLOv5 模型，提高了模型对带式输送机中的煤、矸石和螺母等多目标的检测精度，降低了模型参数量和计算量。上述研究通过在YOLO 系列算法中引入轻量化网络、注意力机制、深度可分离卷积等，一定程度上提升了煤矿多目标检测速度与精度，但其所针对的应用场景较为简单，而煤矿采掘工作面环境恶劣，同时还存在人机相互遮挡、目标尺度变化剧烈等复杂工况，容易引起误检、漏检与检测精度降低等问题。

因此，为实现煤矿井下复杂环境下的多目标实时检测任务，本文以YOLOv5s 为基础，通过FasterNet网络、双向特征金字塔网络（Bi-directional Feature Pyramid Network，BiFPN）、ECIoU 损失函数对模型的各部分进行改进，提出了一种基于FBEC-YOLOv5s的采掘工作面多目标检测算法，并通过实验验证了该算法的有效性。

1 YOLOv5s 算法

YOLOv5s 网络主要包括输入端（input）、骨干网络（backbone）、颈部（neck）和预测端（head）4 个部分。输入端主要是对数据进行预处理，包括Mosaic数据增强、图像大小缩放及预定义候选框尺寸计算等；骨干网络进行物体的特征提取，由跨阶段部分网络（Cross Stage Partial Network，CBS）、BottleneckCSP/C3 卷积块及快速空间金字塔池化（Spatial Pyramid Pooling-Fast，SPPF）等组成；颈部能够连接不同尺度的特征层并进行特征融合，一般由特征金字塔网络（Feature Pyramid Network，FPN）和PANet 组成；预测端对图像特征进行预测，生成边界框和预测类别。

2 FBEC-YOLOv5s 算法

FBEC-YOLOv5s 的网络结构如图1 所示。

图1 FBEC-YOLOv5s 的网络结构Fig.1 Network structure of FBEC-YOLOv5s

2.1 FasterNet

为提高模型检测精度与训练效率，本文在原YOLOv5s 模型中引入FasterNet[24]网络（图2），凭借其残差连接与批标准化模块，增强模型的特征提取和语义信息捕捉能力，并减少数据传输中的噪声干扰与数据交错频次。FasterNet 网络共有4 个阶段，每个阶段前均有1 个嵌入层（Embedding）或1 个合并层（Merging），用于空间下采样及通道数扩展，且每个阶段均有少量FasterNet 模块（FasterNet Block）以循环使用输入特征，最后的全局池化层（Global Pool）、卷积层（Conv 1×1）、全连接层（Full Connected，FC）则被用于特征分类。图2 中，Cn（n=1，2，3，4）为FasterNet 网络第n个阶段的通道数，h，w分别为输入图像的高和宽，ln为FasterNet 网络第n个阶段的数量。

图2 FasterNet 网络架构Fig.2 Architecture of FasterNet

2.2 BiFPN

由于煤矿井下采掘工作面工作人员及采掘装备在多种作业场景中的姿态持续变化，导致多种目标尺度跨度增大，模型检测精度降低。BiFPN[25]能够进行高效的双向跨尺度连接与加权特征图融合操作，实现多尺度特征的快速捕捉与融合。因此，本文采用BiFPN 结构替换PANet[26]结构，以增强YOLOv5s网络模型的多尺度适应能力，如图3 所示。

2.3 ECIoU

YOLOv5s 模型的损失函数由边框回归损失、置信度损失及分类概率损失3 个部分组成。原YOLOv5s 模型中主要采用CIoU[27]与EIoU[28]作为损失函数，其中，采用CIoU 进行回归计算时，易限制模型检测框与真实框的相似性优化；当检测框存在较远边缘时，采用EIoU 损失函数易引起模型收敛速度降低。因此，本文采用ECIoU[29]损失函数提升检测框定位精度和模型收敛速度。

ECIoU 损失函数先采用CIoU 调整预测框的长宽比，再采用EIoU 调整预测框的每条边。

式中：I为预测框与真实框面积的交并比；α为平衡尺度的权重参数；ν为预测框和真实框间纵横比的一致性度量；ρ2(bgt，b)为预测框和真实框中心点之间的欧几里得距离平方值；ρ2(hgt，h) 和ρ2(wgt，w)分别为预测框和真实框高度和宽度的平方差值；a,d,f分别为两框最小闭包区域的对角线长度、高度和宽度；b为预测框中心；wgt,hgt,bgt分别为真实框的宽、高、中心点。

3 实验及结果分析

3.1 数据采集与标注

本文所使用的数据集来源于多个煤矿采掘工作面的生产监控视频，通过对视频进行抽帧处理，得到500 张图像，再采用高斯噪声（noise）、随机对比度（contra）、水平翻转（H-flip）、垂直翻转（V-flip）、HSV 变换及随机剪裁与填充（Cr-pad）等数据增强方法对图像进行处理，处理后的部分图像如图4 所示，最终将500 张原始图像扩充至2 000 张图像，作为本文实验的数据集。

图4 数据增强部分图像Fig.4 Data enhanced partial images

采用LabelImg 工具对数据集进行标注，将标注后的2 000 张图像按8∶1∶1 的比例划分为训练集、验证集及测试集，分为person（行人）、R-cutting（掘进机截割头）、S-cutting（采煤机截割头）、AjuMibtolter（机载锚杆钻机）、H-juMibtolter（手持锚杆钻机）及Support（液压支架）。部分标注图像如图5所示。

图5 图像标注部分图像Fig.5 Image annotated partial images

3.2 参数配置及评价指标

参数设置：图像大小为640×640，通道数为32，批次样本数为16，动量因子为0.937，迭代次数为300，权重衰减系数为0.000 5，学习率初始值为0.01。本文实验所有算法的训练、验证及测试均在同台计算机的ubuntu20.04 上进行，环境配置见表1。

表1 网络训练环境Table 1 Network training environment

本文采用准确率、平均精度及平均检测精度均值作为模型的评价指标。

式中：P为准确率；NTP为被正确检测为正确目标的采掘装备及工作人员数量；NFP为被错误检测为正确目标的采掘装备及工作人员数量。

平均精度是指模型对某个单一目标的平均检测精度，以精确率P为横坐标，召回率R为纵坐标，绘制P-R曲线，P-R曲线与横纵坐标轴围成的面积即为平均检测精度。

式中：M为平均精度均值；Q为各分类的平均精度；n为待检测目标的类别数量。

3.3 消融实验

为验证各改进模块的有效性，本文以相同训练策略开展消融实验，结果见表2。可看出优化模型1（YOLOv5s+ECIoU）的准确率较YOLOv5s 的准确率提升了0.7%，平均检测精度均值提升了0.8%，平均检测速度（Frames Per Second,FPS）提升了0.3 帧/s；优化模型2（YOLOv5s+BiFPN）的准确率较YOLOv5s的准确率提升1.4%，平均检测精度均值提升了1.6%，参数量上升了1.06 MiB，FPS 下降了5.6 帧/s；优化模型3（YOLOv5s+FasterNet）的准确率较YOLOv5s 的准确率提升了0.9%，平均检测精度均值提升了1%，参数量上升了1.03 MiB，FPS 下降了3.8 帧/s；优化模型4（YOLOv5s+ECIoU+BiFPN）的准确率较YOLOv5s的准确率提升了1.3%，平均检测精度均值提升了1.9%，参数量上升了1.06 MiB，FPS 下降了5.6 帧/s；优化模型5（YOLOv5s+ECIoU+FasterNet）的准确率较YOLOv5s 的准确率提升了0.9%，平均检测精度均值提升了1.7%，参数量上升了1.03 MiB，FPS 下降了10.7 帧/s；优化模型6（YOLOv5s+BiFPN+FasterNet）的准确率较YOLOv5s 的准确率提升了3.1%，平均检测精度均值提升 2.5%，参数量上升了1.12 MiB，FPS 下降了13.5 帧/s；优化模型7（YOLOv5s+ECIoU+BiFPN+FasterNet）即FBEC-YOLOv5s 模型的准确率较YOLOv5s 的准确率提升了3.6%，平均检测精度均值提升了2.8%，参数量上升了1.12 MiB,提高了模型的检测精度，由于网络结构的改进使得网络层数增加，导致参数量上升1.12 MiB，FPS 下降10.1 帧/s，但仍满足煤矿井下实时检测的要求。

表2 消融实验结果Table 2 Results of ablation experiments

3.4 对比实验

为进一步验证FBEC-YOLOv5s 算法的先进性，将其与YOLOv3-tiny、YOLOv5s、YOLOv7 及YOLOv7-tiny 模型进行对比实验，实验结果见表3。可看出与YOLOv5s 模型相比，YOLOv3-tiny 模型的平均检测精度均值下降了5.4%，参数量上升了1.65 MiB，FPS 上升了17.4 帧/s；YOLOv7 模型的平均检测精度均值上升了1.2%，参数量上升了29.48 MiB，FPS 下降了54.2 帧/s；YOLOv7-tiny 模型的平均检测精度均值下降了8.7%，参数量下降了1.01 MiB，FPS 上升了41.6 帧/s；FBEC-YOLOv5s 模型的平均检测精度均值上升了2.8%，参数量上升了1.12 MiB，FPS 下降了10.1 帧/s。综合上述分析可见，FBEC-YOLOv5s 模型的综合检测性能比其他模型好，平均检测精度均值为92.4%，能够满足实时检测要求。

表3 对比实验结果Table 3 Comparison of experimental results

将不同模型在测试集上进行3 组实验，部分检测结果如图6 所示。第1 组实验在环境恶劣（背景与待检测目标灰度值接近）的工况下进行，其中，YOLOv3-tiny 和YOLOv7-tiny 模型对person 和Scutting 的检测精度较低，平均检测精度均值均低于86%，而YOLOv7、YOLOv5s 及FBEC-YOLOv5s 模型对person 和S-cutting 的检测精度相对一致。第2 组在多目标间相互遮挡的工况下进行实验，YOLOv3-tiny 模型出现漏检情况且检测精度低（平均检测精度均值＜86%），YOLOv7-tiny 模型对被遮挡人员的检测精度低（平均检测精度均值＜82%），YOLOv5s 和FBEC-YOLOv5s 模型对被遮挡人员的检测精度高，平均检测精度均值分别为90%～95%和92%～93%，FBEC-YOLOv5s 模型检测效果较优，而YOLOv7 模型对被遮挡人员的平均检测精度均值高于97%，但其参数量约为FBEC-YOLOv5s 模型的4.5 倍，检测速度较慢（FPS=84.7 帧/s），难以满足煤矿井下的实时检测需求。第3 组在多目标位姿持续变化且尺度跨度大的工况下进行实验，YOLOv3-tiny和YOLOv7-tiny 模型对工作人员的检测精度较低（平均检测精度均值＜86%），YOLOv7、YOLOv5s 及FBEC-YOLOv5s 模型对工作人员的检测精度分别为90%～97%、92%～95%和94%～95%，其中，FBECYOLOv5s 模型对工作人员的检测精度范围跨度最小且鲁棒性最高。综合上述分析可知，本文提出的FBEC-YOLOv5s 模型的综合检测性能最好，能够在恶劣环境、多目标间相互遮挡严重及目标尺度跨度大导致检测精度降低等情况下表现出良好的实时检测能力且具有更好的鲁棒性。

图6 不同算法部分检测结果Fig.6 Partial detection results of different algorithms

4 结论

1）3 种改进措施能够不同程度地提高模型的检测精度。在YOLOv5s 模型主干网络中融合FasterNet网络，以增强模型的特征提取和语义信息捕捉能力，使得模型平均检测精度均值提升了1%；在YOLOv5s模型颈部引入BiFPN 网络，以实现多尺度特征的快速捕捉与融合，使得模型平均检测精度均值提升了1.6%；采用ECIoU 代替CIoU 损失函数，以提升检测框定位精度和模型收敛速度，使得模型平均检测精度均值提升了0.8%。

2）与YOLOv5s、YOLOv7-tiny 及YOLOv7 等其他YOLO 系列算法相比，FBEC-YOLOv5s 算法综合检测性能最好，平均检测精度均值达92.4%（最大提升2.8%），实时检测速度达128.8 帧/s。该算法能够为煤矿井下生产场景的智能感知与安全管理提供技术支持与有效保障。