基于改进YOLOv7的煤矿带式输送机异物识别

2023-01-30毛清华李世坤胡鑫薛旭升姚丽杰

工矿自动化 2022年12期

毛清华，李世坤，胡鑫，薛旭升，姚丽杰

（1.西安科技大学机械工程学院，陕西西安 710054；2.陕西省矿山机电装备智能检测与控制重点实验室，陕西西安 710054）

0 引言

煤矿井下开采环境复杂，带式输送机煤流中掺杂锚杆、角铁、木条、矸石、大块煤等异物，若异物没有及时被分拣出来，容易导致输送带撕裂、转接处堵塞甚至断带等事故，严重影响煤矿安全高效生产。通过带式输送机巡检机器人对异物进行检测识别[1-2]，可降低带式输送机发生故障的风险。

带式输送机巡检机器人通过深度学习结合机器视觉的方法对带式输送机异物进行检测。吴守鹏等[3]提出了一种基于Faster−RCNN和双向特征金字塔网络的输送带异物识别模型，提高了输送带异物识别精确率。吕志强[4]利用改进的Faster−RCNN完成了对输送带上矸石和铁器的识别。任志玲等[5]提出了一种基于改进CenterNet的输送带异物识别方法，降低了异物的误检率和漏检率。胡璟皓等[6]使用Focal Loss函数替换YOLOv3模型中的交叉熵损失函数，提升了模型对锚杆、角铁、螺母3种非煤异物的置信度。Wang Yuanbin等[7]优化了单步多框检测（Single Shot MultiBox Detector，SSD）模型的损失函数、特征提取位置和锚框比例，提高了对输送带异物识别的准确率。郝帅等[8]针对煤尘干扰和输送带高速运行等问题，通过向YOLOv5模型中引入卷积块注意模块（Convolutional Block Attention Module，CBAM），并替换普通卷积和损失函数，提高了模型对异物的识别准确率和速度。程德强等[9]提出了一种融合残差信息的轻量级网络，在提高输送带异物分类识别准确率的同时，识别速度也有了较大提升。Xiao Dong等[10]对带式输送机异物检测模型实施了基于通道和层的剪枝，提高了模型检测速度。然而上述模型均部署在地面高性能服务器上，因防爆和体积要求，不能将高性能服务器直接部署在井下带式输送机巡检机器人上。此外，受煤矿井下光照不均和带式输送机高速运行的影响，难以实现带式输送机异物的精确识别。

相比于其他YOLO系列模型，YOLOv7模型额外采用高效聚合网络、重参数化卷积、正负样本匹配策略、辅助头训练和模型缩放，使得模型对目标的特征提取能力得到了显著提升，对目标的识别精确率大大提高，但也导致识别速度较慢[11]。因此，本文提出一种基于改进YOLOv7的带式输送机异物识别方法。该方法采用限制对比度自适应直方图均衡化对图像进行增强处理，提高图像清晰度；在YOLOv7的基础上，加入轻量化无参注意力机制（Simple and Parameter-Free Attention Module，SimAM）提升对图像中异物的特征提取能力，并引入深度可分离卷积（Depthwise Separable Convolution，DWConv）提高识别速度；通过TensorRT将改进YOLOv7模型部署到带式输送机巡检机器人上，实现对异物的高效识别。

1 带式输送机异物识别方法

1.1 基于限制对比度自适应直方图均衡化的图像增强

煤矿带式输送机监控图像受光照不均等因素影响导致画面不清晰、物体轮廓不明显，极大地影响了数据集的标注和异物识别精确率。

自适应直方图均衡化通过提升图像对比度进行图像增强处理。与一般的直方图均衡化相比，自适应直方图均衡化先计算多个直方图，每一个直方图对应图像的一个部分，然后使用它们重新分配图像亮度来改善图像质量。因此，自适应直方图均衡化更适用于改进图像的局部对比度，以获得更多的图像细节。但其往往会因为图像近恒定区域中的直方图高度集中而放大图像近恒定区域中的对比度，导致噪声在近恒定区域中被放大。限制对比度自适应直方图均衡化会对对比度放大进行限制，从而减少了噪声放大的问题[12]。因此，使用限制对比度自适应直方图均衡化对图像进行增强，可以提高图像中物体轮廓的清晰度，方便数据集标注并为后续的异物识别奠定基础。

限制对比度自适应直方图均衡化的实现主要包括以下步骤[13]。

（1）分块。将输入图像划分为大小相等的不重叠子块rk（k=0，1，…，L−1，L为子块数量）。

（2）计算子块直方图h (rk)。

（3）用剪切阈值剪辑每个子块的直方图，剪切规则为

式中：h′(rk)为每个子块的剪辑直方图；Nclip为定义的实际剪切阈值；Navg为要重新分配到每个直方图的像素的平均值。

（4）像素点重分配。对于每个子块，使用步骤（3）中多余的像素重新分配。

（5）直方图均衡化。

（6）采用双线性插值方法对像素点灰度值进行重构。

1.2 改进YOLOv7

YOLOv7主要由Input、Backbone、Neck和Head等部分组成[11]。在Backbone部分引入SimAM，并将ELAN−B中的普通卷积替换为DWConv，改进YOLOv7结构如图1所示。

图1 改进YOLOv7结构Fig.1 Structure of improved YOLOv7

1.2.1 SimAM

煤矿井下带式输送机监控视频图像较模糊，影响YOLOv7模型对图像中异物特征的提取，造成带式输送机异物识别精确率不高。相比于通道注意力机制和空间注意力机制，SimAM直接在网络层中推理出三维的注意力权重，在考虑空间和通道维度相关性的同时，不会增加多余的参数量[14]。SimAM原理如图2所示。

图2 SimAM原理Fig.2 Principle of simple and parameter-free attention module

SimAM在处理视觉相关任务时会对带有更多关键信息的神经元赋予更高的权重。SimAM通过对异物的相邻神经元产生空间抑制，减少煤矿井下复杂背景对异物识别的干扰，凸显异物的关键特征，增强了提取异物关键特征的能力，其计算过程如下。

式中：为异物增强后的特征图；E为每个通道上的能量函数，能量越低，表明目标异物神经元与相邻神经元的区分度越高，为防止E值出现过大的情况，通过sigmoid函数来限制E值；⊗为点积运算；X为输入的异物特征图；σ2为输入的异物特征图中每个通道上的方差；λ为超参数；t为目标异物的神经元；µ为输入的异物特征图中每个通道上的均值；xi为第i（i=1，2，…，Q，Q为通道数量）个通道中输入特征的其他神经元。

1.2.2 DWConv

为满足煤矿井下带式输送机巡检机器人实时识别异物的要求，通过DWConv提高异物识别速度。

YOLOv7大量使用常规卷积，造成异物识别速度低，因此引入DWConv代替Backbone主干特征提取网络中的普通卷积，可在提高模型检测速度的同时，仅损失较少的精度[15]。假设输入的异物特征图尺寸为DX×DY×M（高×宽×通道数），YOLOv7中若使用大小为DK×DK×1的卷积核进行卷积，则每个卷积会产生M个DX×DY，然后使用N个大小为1×1×C的卷积核进行卷积，可得尺寸为DH×DW×N（高×宽×通道数）的输出特征图。

普通卷积的计算量为

DWConv的计算量为

DWConv与普通卷积的计算量之比为

由式（9）可知，改进YOLOv7模型在对异物特征进行提取时，计算量会得到较大缩减。

1.3 TensorRT

为了使改进YOLOv7模型能够快速、高效地部署在带式输送机巡检机器人上，使用TensorRT进行优化部署。

TensorRT使用流程如图3所示，分为预处理阶段和推理阶段，主要步骤如下：①导出网络定义及相关权重；②解析网络定义及相关权重；③根据显卡算子构造出最优执行计划；④将执行计划序列化存储；⑤反序列化执行计划；⑥进行推理[16]。

图3 TensorRT使用流程Fig.3 TensorRT usage process

TensorRT会产生一个优化决策并用于网络的前向传播，对网络进行转换和优化：删除未使用的网络层以避免不必要的计算，将多个层融合形成单层；对网络和张量进行融合操作，其中垂直融合是将Conv层、BN层或偏移层、激活层整合为一个CBR（Convolution，Bias and ReLU），水平融合是将几个相同输入融合，降低网络的深度和宽度，减少相同函数的重复调用，提升推理速度。此外，TensorRT将改进YOLOv7模型中的连接层移除，将预先分配的缓冲区中的结果直接输入到下一网络层中；部署阶段，当收到待处理数据时，执行前期的优化决策并进行推理识别，最终实现对改进YOLOv7模型的加速。1.4带式输送机异物识别流程

带式输送机异物识别流程如图4所示，主要包括数据集制备、模型训练、模型转换和异物识别4个部分。首先对采集的数据集进行基于限制对比度自适应直方图均衡化的增强，并对增强后的数据集进行异物标注。其次，将整个数据集按比例随机划分训练集和测试集。然后，将训练集导入改进的YOLOv7，在服务器上训练得到异物识别模型。最后，使用TensorRT引擎对训练后的异物识别模型进行转换并部署在NVIDIA Jetson Xavier NX上，完成对带式输送机异物的精确、实时识别。

图4 带式输送机异物识别流程Fig.4 Belt conveyor foreign object recognition process

2 实验设备及数据

2.1 实验设备

实验中所使用模型训练设备的参数：操作系统，Windows 10；GPU，NVIDIA GeForce RTX 3080；CPU，12th Gen Intel（R）Core（TM）i7−12700K 3.61 GHz；深度学习框架，Torch 1.9.0+CUDA 11.1。模型部署平台为 NVIDIA Jetson Xavier NX。

2.2 实验数据

实验所用数据集来自某煤矿井下输送带工作时的监控视频图像，输送带运行速度为3.5 m/s，煤矿井下监控视频所用相机的拍摄帧率为25帧/s，图像像素为1 920×1 080。为提高改进YOLOv7模型对异物在不同角度和亮度环境下的识别能力，对数据集中所有图像进行水平翻转、镜像翻转、明暗增强等处理。数据集经过数据增强后一共包含2 013张异物图像样本。随机选取1 610张图像作为训练样本，其余403张图像作为测试样本。数据集中采集的异物包括锚杆、角铁、木条、矸石和大块煤，为便于辨认和显示，用FB1代表锚杆，FB2代表角铁，FB4代表木条，FB6代表矸石，FB7代表大块煤。

3 实验结果及分析

3.1 图像增强结果

带式输送机监控图像经过限制对比度自适应直方图均衡化增强前后的对比如图5所示。可看出经过图像增强后，带式输送机较暗部位的煤块变得轮廓清晰、特征明显。

图5 图像增强前后对比Fig.5 Comparison of the images before and after image enhancement

为客观评价本文图像增强方法的有效性，选取Entropy函数和Brenner函数来衡量图像增强前后清晰度的变化，这些函数的值与图像清晰度呈正比例关系，值越大，图像轮廓越清楚[17]。图像增强前后清晰度评价结果见表1，可看出增强后图像的Entropy值和Brenner值均大于原图，说明经过增强的图像更加清晰。

表1 图像清晰度评价结果Table1 Evaluation resultsof imagedefinition

3.2 改进YOLOv7的识别结果

为验证改进YOLOv7的优越性，将改进YOLOv7与YOLOv5L、YOLOv7模型进行对比分析，3种模型的平均精确率、平均召回率及识别速度见表2。可看出YOLOv5L虽然比YOLOv7的平均精确率高出1.6%，但识别耗时却是YOLOv7的1.74倍；改进YOLOv7的平均精确率、平均召回率和识别速度均优于YOLOv5L和YOLOv7，精确率达93.1%，检测每帧图像耗时0.025 s，即识别速度为40帧/s，大于监控相机的拍摄帧率25帧/s，能够达到实时识别的要求。

表2 不同模型的平均精确率、平均召回率和识别时间Table2 Average precision,average recall and recognition timeof different models

5种异物在YOLOv7改进前后的识别精确率和召回率见表3。可看出YOLOv7改进后，锚杆、角铁、木条、矸石和大块煤的识别精确率分别提高了2.8%，1.4%，6.4%，1.5%，6.4%，召回率分别提高了3.4%，3%，1.4%，4.4%，2.2%。

表3 YOLOv7改进前后异物识别精确率和召回率对比Table3 Comparison of foreign object recognition precision and recall beforeand after YOLOv7 improvement

3.3 消融实验结果

通过消融实验验证图像增强、SimAM和DWConv对整体模型的影响，实验采用相同的数据集和软硬件设备，所得识别精确率和耗时见表4（表中第1行为YOLOv7模型的识别结果）。

表4 消融实验结果Table 4 Ablation experimental results

从表4可看出，当进行图像增强处理后，识别精确率提高了0.9%；在YOLOv7模型中融入SimAM后，增强了模型提取异物关键特征的能力和抗干扰能力，识别精确率相比于YOLOv7提升了4.6%；当引入DWConv后，识别精确率相比于YOLOv7下降了1.3%，但识别速度相比提升了11.1%；通过结合图像增强、SimAM和DWConv，改进YOLOv7的识别精确率比YOLOv7提升了3.7%，且识别速度提升了7.4%，可实时对带式输送机异物进行精确识别。

3.4 模型部署实验结果

为验证改进YOLOv7能否满足煤矿井下带式输送机巡检机器人高效、准确识别异物的要求，通过TensorRT将YOLOv5L、YOLOv7及改进YOLOv7模型部署到带式输送机巡检机器人的控制平台NVIDIA Jetson Xavier NX上[18]，得到的平均精确率和识别时间见表5。可看出改进YOLOv7模型在识别精确率与速度方面均最优，识别精确率为92.8%，识别1张图像耗时为0.039 s，即识别速度为25.64帧/s，大于带式输送机监控相机帧率，能够满足精确、高效识别异物的要求。

表5 不同模型平均精确率和识别时间Table 5 Average precision and recognition time of different models

为验证本文方法对煤矿带式输送机异物识别效果，将改进YOLOv7模型部署到NVIDIA Jetson Xavier NX平台后，对煤矿井下多段分辨率为1 920×1 080的带式输送机监控视频进行识别，结果如图6所示。从第1组图像识别结果可看出，本文方法由于加入了限制对比度自适应直方图均衡化预处理，将大块煤的轮廓增强得更加清晰，使得改进YOLOv7模型正确识别出了1个大块煤和2块矸石，且识别的置信度较高，没有出现漏检和误检，识别效果优于YOLOv5L和YOLOv7；从第2组和第3组图像的识别结果可看出，引入SimAM的改进YOLOv7模型对杂乱的不相关背景具有更强的抗干扰能力，同时也增强了模型提取异物特征的能力，使得第2组图像中的大块煤、矸石及第3组中的锚杆被精确识别出来，没有出现漏检情况，识别效果优于YOLOv5L和YOLOv7。

图6 不同模型识别结果Fig.6 Recognition resultsof different models

4 结论

（1）采用限制对比度自适应直方图均衡化方法，提高了煤矿井下带式输送机监控画面清晰度；在YOLOv7的主干特征提取网络中加入轻量化SimAM，能够减弱复杂、不相关背景干扰并有效提升对异物的识别精确率，并引入DWConv代替主干特征提取网络中的普通卷积，提升识别效率；通过TensorRT优化部署改进YOLOv7模型，进一步提升异物识别速度。

（2）在自建的带式输送机监控视频数据集上进行实验验证，结果表明改进YOLOv7模型识别效果优于YOLOv5L和YOLOv7模型，异物识别精确率为93.1%，识别速度为40帧/s。

（3）将改进YOLOv7模型部署到带式输送机巡检机器人的控制平台NVIDIA Jetson Xavier NX上，对煤矿井下带式输送机监控视频进行识别，结果表明本文方法识别精确率为92.8%，识别速度为25.64帧/s，无漏检、误检的情况，满足精确、高效识别异物的要求。