基于SD-YOLOv5s-4L 的煤矿井下无人驾驶电机车多目标检测

2023-12-06赵伟王爽赵东洋

工矿自动化 2023年11期

赵伟，王爽，3，赵东洋

（1.安徽理工大学深部煤矿采动响应与灾害防控国家重点实验室，安徽淮南 232001；2.安徽理工大学机械工程学院，安徽淮南 232001；3.矿山智能技术与装备省部共建协同创新中心，安徽淮南 232001）

0 引言

煤炭是我国的主体能源[1]，在保障能源需求和推动经济增长方面发挥着关键作用。2020 年2 月25 日，国家八部委联合印发《关于加快煤矿智能化发展的指导意见》，对煤矿运输设备无人驾驶、智能感知等提出了更高要求[2-3]。煤矿电机车作为主要的运输装备，承担着煤炭、物料、人员与相关设备的辅助运输任务[4]。由于矿井电机车运输作业场景多样，常运行于高噪声、窄巷道、低光照等恶劣环境[5]中，容易引起驾驶员疲劳驾驶，从而造成电机车脱轨、追尾等事故。因此，研究煤矿无人驾驶电机车的智能化感知技术具有重要意义。

环境感知是无人驾驶技术的重要组成部分，准确的目标检测对提高无人驾驶电机车的安全性和效率至关重要。传统的目标检测方法难以适应煤矿井下的复杂环境，随着深度学习的快速发展，基于深度学习的目标检测算法得到广泛应用[6]。目前以R-CNN[7]、Mask R-CNN[8]、YOLO 系列[9]、SSD[10]等为代表的深度学习算法在目标检测中已取得优异表现。李伟山等[11]在Faster R-CNN 上构建了一种区域候选网络（Region Proposals Network，RPN）结构，解决了煤矿井下行人检测的多尺度问题。He Deqiang等[12]在Mask R-CNN 模型中引入了ResNet[13]骨干特征提取网络，提高了模型的检测精度。郝帅等[14]在YOLOv5 网络模型中引入注意力机制，有效解决了复杂环境条件下输送带中非煤异物难以检测的问题。郑玉珩等[15]基于YOLOv5 单阶段检测算法，采用BiFPN 特征融合结构，解决了遮挡目标的检测问题。杨艺等[16]提出了一种LiYOLO 模型，该模型在面对综采工作面动态变化、煤尘干扰等复杂情况下，表现出了良好的鲁棒性。葛淑伟等[17]通过改进SSD算法，提升了模型对锚孔的检测性能。尽管研究者们在目标检测领域取得了一定成就，但针对运行于光照不均、高噪声等复杂环境中的矿井电机车多目标检测精度低的问题有待深入研究。

为解决上述问题，本文提出了一种基于SDYOLOv5s-4L 的煤矿井下无人驾驶电机车多目标检测模型。在数据预处理阶段，采用高斯噪声、运动模糊和随机光照等方式对数据集进行增强处理，以提升数据集多样性和算法鲁棒性。在损失函数方面，用SIoU[18]替换了原有的CIoU[19]，使网络可以更好地学习目标的位置信息。在YOLOv5s 检测头部引入解耦头[20]，缓解分类任务和回归任务之间的冲突，使模型可以快速捕捉目标的多尺度特征；引入小目标检测层，以增强网络对小目标的特征提取能力和检测精度。

1 YOLOv5s 模型及其改进策略

1.1 YOLOv5s 网络结构

YOLOv5s 网络结构主要由骨干网络（Backbone）、颈部段（Neck）及头部端（Head）3 个部分组成，如图1所示。Backbone 由CBL 模块、C3 模块和SPPF 模块组合而成，负责提取多尺度特征信息。CBL 是由1 个卷积层（Conv）、1 个批标准化层（Batch Normalization，BN）和1 个SiLu 激活函数组成的卷积块；C3 模块包含3 个卷积层和多个Bottleneck 模块；SPPF 模块在空间金字塔池化（Spatial Pyramid Pooling，SPP）基础上，将原结构中3 路并行的Maxpool 改为串行，使网络模型能够在不影响性能的同时提升计算速率。Neck 采用特征金字塔网络（Feature Pyramid Network,FPN）与路径聚合网络（Path Aggregation Network，PAN）结构来融合不同尺寸的特征图，从而获取丰富的特征信息。其中FPN[21]是自顶向下，将高层的语义信息传递到底层；PAN[22]是自底向上，将底层的位置信息传递到高层。Head 根据前向传递的特征信息，在图像上生成带有特征的边界框，且边界框上显示有类别名称及检测概率。

图1 YOLOv5s 网络结构Fig.1 YOLOv5s network structure

1.2 YOLOv5s 改进策略

1.2.1 损失函数改进

损失函数用来估量模型的预测值与真实值之间的不一致程度，目标检测的准确性在很大程度上依赖于所使用的损失函数，因此选用适当的损失函数有利于模型检测精度的提升。

在YOLO 系列目标检测模型中，损失函数主要由分类损失、置信度损失和定位损失[23]组成。其中，定位损失对于目标检测算法具有重要意义。通过优化定位损失，算法可更准确地确定目标位置和边界框，并且能够在复杂场景中更好地区分目标和背景，从而提高模型的检测精度和抗干扰能力。

目前YOLOv5 网络模型采用CIoU 作为定位损失函数，CIoU 综合考虑了真实框与预测框之间的重叠面积、中心点距离和长宽比，克服了GIoU 的退化问题，同时解决了DIoU 无法区分中心点重合时交并比一样的情况，但忽略了真实框与预测框之间角度不匹配的问题。当检测目标尺度差异较大时，模型的收敛速度会变慢，从而影响模型的检测精度。因此，本文引入SIoU 作为YOLOv5 网络的定位损失函数。SIoU 计算公式为

式中：IoU为预测框和真实框的交并比；Δ为距离损失；Ω为形状损失；Λ为角度损失；ρt为衡量预测框中心点与真实框中心点之间坐标偏差的归一化指标，t=x 表示横坐标，t=y 表示纵坐标；ch为真实框与预测框中心点的高度差；σ为真实框与预测框中心点的距离；ωr为预测框和真实框之间的偏差，r=w 表示宽度偏差，r=h 表示高度偏差；θ为权重系数。

SIoU 在CIoU 的基础上引入了角度损失，降低了损失的总自由度，使预测的边界框更加准确地适应目标的形状和方向。

1.2.2 解耦头

在目标检测中，分类任务与回归任务所关注的特征信息不同。分类任务需要确定图像中目标的类别，因此专注于特征图中的突出区域；回归任务则专注于目标的边缘信息，以此来准确预测目标在图像中的位置和尺度。

在YOLOv5 网络模型中，分类任务和回归任务通过共享的卷积层完成。由于参数共享，分类任务和回归任务无法专注于各自的目标区域，使得2 个任务之间相互干扰，导致模型性能降低。为解决上述问题，本文在YOLOv5s 头部引入解耦头替换原耦合头，解耦头结构如图2 所示，H，W，C分别为图像的高度、宽度和通道数。首先，采用1 个1×1 卷积对输入的FPN 特征进行降维，将特征维数减少到256；然后，经过2 个平行的分支，一个用于分类任务，一个用于回归任务，每个分支后面均接有2 个3×3 卷积；最后，分类分支再经过1 个1×1 卷积进行分类操作，回归分支中2 个平行的定位与置信度分支里各经过1 个1×1 卷积进行定位和置信度操作。

图2 解耦头结构Fig.2 Decoupled head structure

解耦头通过2 个分支分别处理分类任务和回归任务，使得2 个任务之间相互独立、互不干扰。这种结构有利于模型快速准确地捕捉目标的多尺度特征，并在不同层级上进行特征融合与重定位，以提升目标检测的定位准确性与适应性。

1.2.3 小目标检测层

YOLOv5s 网络模型通过多个下采样层来增强感受野，这导致图像分辨率降低，使得小目标的细节特征在较大感受野的特征图中变得模糊。此外，由于小目标与背景之间的尺度差异较大，模型更易聚焦于特征明显的区域，从而忽略小目标的微弱特征，导致网络模型对小目标的检测效果不佳。

为了提高网络模型对小目标的检测性能，本文在YOLOv5s 网络中增加了1 层小目标检测层。将原三尺度检测层增至4 层，增强了网络模型对小目标的关注度，使得更底层的特征信息得到进一步融合，对小目标检测精度的提升有着积极作用。结合前述改进方式，将改进后的网络模型命名为SDYOLOv5s-4L，其网络结构如图3 所示。

图3 SD-YOLOv5s-4L 网络结构Fig.3 SD-YOLOv5s-4L network structure

2 实验与分析

2.1 数据集创建

本文所采用的电机车图像数据采集于淮南矿业（集团）有限责任公司顾桥煤矿、淮北矿业股份有限公司袁店一矿及中煤新集能源股份有限公司新集二矿3 个不同矿井中电机车运行的多段运输巷。为进一步提高数据集多样性与检测算法鲁棒性，除YOLOv5s网络模型本身的数据增强方法外，本文还采用高斯噪声、运动模糊及随机光照等方式对数据集进行增强处理。经整理后共得到4 500 张图像，包含辅助运输作业过程中低照度、高噪声、人机多目标混杂及运动模糊4 种生产环境。部分数据集图像如图4 所示。采用标注工具LabelImg 对数据集进行标注，标注类别有“person”“stone”“signal light”，分别表示行人、石块和信号灯。最后将标注好的图像按照8∶1∶1 比例随机划分为训练集、测试集和验证集。

图4 部分数据集图像Fig.4 Partial dataset images

2.2 实验环境及评价指标

2.2.1 实验环境

本文实验环境为Ubuntu 18.04 操作系统下搭建的PyTorch 1.9.0 深度学习框架Python 3.8 及CUDA11.1编程软件，具体配置见表1。

表1 实验环境Table 1 Experimental environment

为获得最优训练模型，在网络模型训练前，需对模型配置文件中的超参数进行设置，具体见表2。batch-size 为一批训练样本的数量，该值根据实验设备性能而定；momentum 为动量，表示网络每次迭代更新的变化程度，调整梯度下降达到最优值的速度；decay 为权重衰减系数，用来防止模型过拟合；learning rate 为初始学习率，用以控制参数的更新速度；epochs 为迭代次数。网络模型的优化器为SGD。

表2 超参数设置Table 2 Hyper-parameter setting

2.2.2 评价指标

在目标检测领域中，常用的评价指标包括准确率P、召回率R、平均精度（Average Precision，AP）、平均精度均值（mean Average Precision，mAP）及调和均值F1。有关评价指标的计算公式为

式中：TP为正样本被正确识别为正样本的数量；FP为负样本被错误识别为正样本的数量；FN为正样本被错误识别为负样本的数量；mAP为mAP 的值；N为类别总数。

2.3 实验结果分析

2.3.1 不同网络模型检测效果对比

为了直观说明SD-YOLOv5s-4L 网络模型的检测效果，将其与YOLOv5n、YOLOv5m 和YOLOv5s网络模型进行对比，检测结果如图5 所示。

图5 不同网络模型检测效果对比Fig.5 Comparison of detection results of different algorithms

由图5 可看出，在对信号灯和行人的检测中，YOLOv5n、YOLOv5m 和YOLOv5s 网络模型出现了目标置信度得分低的问题，而SD-YOLOv5s-4L 网络模型的目标置信度得分较高；在对小目标（石块）的检测中，YOLOv5n 网络模型出现了错检情况，YOLOv5m 和YOLOv5s 存在漏检现象，而SDYOLOv5s 网络模型能够实现精准检测且检测精度较高。因此，SD-YOLOv5s-4L 网络模型更能满足煤矿井下电机车的多目标检测需求。

2.3.2 消融实验

为了验证不同的改进策略对YOLOv5s 网络模型的优化作用，设计了5 组消融实验，实验结果见表3。

表3 消融实验结果Table 3 Ablation experiment results

表3 中每组消融实验mAP 值的对比如图6 所示。实验结果表明：引入SIoU 损失函数，mAP 为0.940，较YOLOv5s 提升了1.3%，说明角度损失的加入降低了损失的总自由度，对模型检测精度的提升有着积极作用；引入解耦头后，mAP 提升了1.6%，其中对行人、信号灯和石块分别提升了1.1%、0.5%及3.2%，说明解耦头的引入有利于增强网络模型的检测性能；添加小目标检测层后，mAP 提高了4.1%，其中对石块的检测精度为97.1%，提高了8%，有效提升了网络模型对小目标的检测能力；将解耦头、SIoU及小目标检测层全部加入原YOLOv5s 网络模型中，mAP 为0.979，提升了5.2%，其中行人检测的平均精度提高了3.5%，信号灯检测的平均精度提升了2.2%，石块检测的平均精度提升高达9.8%。实验结果验证了各个改进策略对YOLOv5s 网络模型均起到了较好的优化作用，有效解决了多目标检测精度低、小目标检测困难的问题。

2.3.3 对比实验

为了进一步验证SD-YOLOv5s-4L 网络模型的检测性能，将其与YOLO 系列的主流网络模型YOLOv5n，YOLOv5m，YOLOv5s，YOLOv7及YOLOv8进行对比，实验结果见表4。

表4 对比实验结果Table 4 Comparative experimental results

表4 中不同网络模型的mAP 值对比如图7 所示。实验结果表明：SD-YOLOv5s-4L 网络模型对多种目标都有较高的检测精度，mAP 较YOLOv5n，YOLOv5m，YOLOv5s，YOLOv7，YOLOv8 分别提高了6.7%，2.5%，5.2%，3.3% 和2.6%。调和均值F1为0.96，较YOLOv5n，YOLOv5m，YOLOv5s，YOLOv7，YOLOv8 分别提高了7%，3%，5%，2% 和4%，表明SD-YOLOv5s-4L 网络模型具有更优异的性能。

图7 不同网络模型的mAP 对比Fig.7 Comparison of mAP for different network models

3 结论

1）为解决真实框与预测框方向不匹配问题，引入损失函数SIoU，以降低损失的总自由度，使网络可以更好地学习目标的位置信息；为了缓解模型回归任务与分类任务之间的冲突，引入解耦头，使模型可以快速捕捉目标的多尺度特征；为解决小目标识别困难的问题，在YOLOv5 的基础上增加小目标检测层，提升网络模型对小目标的检测性能。改进后的网络模型SD-YOLOv5s-4L 的mAP 较原YOLOv5s网络模型提升了5.2%，达97.9%。

2）SD-YOLOv5s-4L 网络模型对小目标的检测精度高达98.9%，较YOLOv5s 网络模型提升了9.8%，改进后的网络模型大幅提高了对小目标的检测能力，有效解决了小目标识别困难的问题。

3）将SD-YOLOv5s-4L 网络模型与YOLOv5n，YOLOv5m，YOLOv5s，YOLOv7，YOLOv8 进行对比，实验结果表明：SD-YOLOv5s-4L 网络模型对多种目标的检测精度均为最高且调和均值F1更逼近于1，为实现煤矿井下电机车的无人驾驶提供了技术支撑。