基于CED-YOLOv5s模型的煤矸识别方法研究
2024-03-15何凯程刚王希葛庆楠张辉赵东洋
何凯, 程刚, 王希, 葛庆楠, 张辉, 赵东洋
(1.安徽理工大学 深部煤矿采动响应与灾害防控国家重点实验室,安徽 淮南 232001;2.安徽理工大学 机械工程学院,安徽 淮南 232001)
0 引言
煤炭开采过程中夹杂的矸石不仅影响标煤的燃烧值,还会造成严重的环境污染[1-2],煤矸分选是提高煤质、高效利用煤炭资源、实现绿色开采的重要途经[3-4]。《关于“十四五”大宗固体废弃物综合利用的指导意见》中提出要大力发展绿色矿业,推广应用矸石不出井模式,实现“煤矸石井下充填+地面回填”[5-6]。煤矿井下煤矸分选及就地填充将是未来智慧矿山建设和绿色高效生产的发展趋势。受煤矿井下空间小、开采扰动大、环境恶劣等因素的影响,传统煤矸分选方式在煤矿井下的适用性较低且不宜推广。因此,研究煤矿井下智能化分选意义重大,而煤矸的分类、识别是实现井下智能化分选的重要前提。
目前国内外学者针对煤矸智能识别、分选展开了多方面研究。Pu Yuanyuan等[7]基于迁移学习技术改进VGG16网络识别模型,优化了全连接层参数,减少了训练时间,但煤矸识别准确率较低。雷世威等[8]通过改进加深YOLOv3模型的网络结构,增强了煤矸特征提取能力,提高了检测精度。徐志强等[9]基于深度神经网络构建了煤矸图像识别模型,经剪枝优化后,减小了模型大小,同时提升了识别精度。郭永存等[10]针对小目标煤矸样本提出一种融合迁移学习与结构优化的煤矸识别方法,构建了多尺度煤矸的高效识别模型。李博等[11]通过采集模拟生产环境下煤矸图像样本数据,研究了光照、淋水、粉尘环境对煤矸石图像特征的影响。赵明辉[12]提出了CornerNet Squeeze网络模型,依据图像灰度直方图的三阶矩阵特征参数进行煤矸分类,提高了存在背景干扰情况下的煤矸识别准确率。沈科等[13]提出了一种改进YOLOv5s模型,提高了煤矸识别的速度和精度。张磊等[14]采集选煤厂生产环境中的煤矸样本图像作为输入,通过对比实验发现5种基于YOLOv5s模型的改进算法在识别具有运动模糊、低照度特征的小目标煤矸图像时,识别精确率下降明显。
基于可见光成像的煤矸识别方法在获取煤矸图像时易受到光源、噪声、震动和物料表面等不确定因素影响。而在实际煤矿井下分选场景中,普遍存在高噪声、低照度、运动模糊等干扰因素,影响获取的煤矸图像质量,导致现有的煤矸可见光图像识别方法对图像中煤矸特征的提取能力急剧下降。此外,在煤矸输送过程中易出现煤矸目标聚集与粘连问题,进一步影响算法对煤矸目标分类与定位的准确性。
针对上述问题,本文在YOLOv5s模型的基础上进行改进,提出一种基于CED-YOLOv5s模型的煤矸石识别方法。通过引入坐标注意力(Coordinate Attention,CA)模块来提高模型在煤矿复杂背景中对目标关键特征的提取能力,采用EIoU边界损失函数和轻量化解耦头(Decoupled_Detect)来提高模型在目标聚集、背景干扰情况下的分类定位能力。
1 CED-YOLOv5s模型结构
YOLOv5s是一种单阶段目标检测模型,由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)与检测头(Head)4个部分组成,具有检测速度快、灵活度高、模型易部署的特点。输入端主要进行图像数据增强、自适应锚框计算等预处理操作。主干网络采用CSP-Draknet53网络进行特征提取,主要由CBL、C3、快速空间金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)3个子模块组成。其中CBL模块是由卷积层(Conv)、批量归一化层(Batch Normalization,BN)、SiLU激活函数组成的基本卷积单元,用于增强网络的非线性表达能力;C3模块由3个标准卷积层及多个BottleNeck模块组成,采用残差网络框架提升模型的特征提取能力和表达能力;SPPF模块由CBL模块及串行池化层组成,用于拼接不同感受野的特征图。颈部网络采用特征金字塔网络(Feature Pyramid Network,FPN)[15]和路径聚合网络(Path Aggregation Network,PAN)[16]双层架构进行特征融合。检测头使用3种不同尺度的检测层对大、中、小目标进行检测,并输出目标类别与目标框回归结果。
CED-YOLOv5s模型是在YOLOv5s的基础上进行了改进。首先,在主干网络中引入CA模块,提高模型在煤矿复杂背景中对目标关键特征的提取能力;然后,在检测头部分采用EIoU作为模型回归损失函数,以加快收敛速度,提升模型的检测性能和抗干扰能力;最后,使用轻量化的解耦头替换原模型的耦合头(Coupled_Detect),以提高模型的检测精度和抗干扰能力。CED-YOLOv5s模型结构如图1所示。
图1 CED-YOLOv5模型结构Fig.1 CED-YOLOv5 model structure
2 YOLOv5s模型改进
2.1 特征提取模块改进
受到煤矿井下实际分选场景的复杂工况影响,所采集到的煤矸图像丢失了大量纹理特征信息,使得YOLOv5s的主干网络难以提取到煤矸的有效特征。为提高YOLOv5s模型对煤矸目标关键特征信息的提取能力,在其主干网络中引入CA机制[17]。CA机制是一种高效的注意力机制,通过将坐标信息嵌入信道关系和长程依赖关系中对特征图进行编码。相较于传统注意力机制,CA机制能够充分利用通道注意力信息和空间注意力信息,使模型更加关注重要特征,抑制无用信息。CA模块结构如图2所示,Cr为聚合后的通道。
图2 CA模块结构Fig.2 Structure of coordinate attention
对于输入尺寸为C×H×W(通道数×高×宽)的特征图,使用尺寸为(H,1)和(1,W)的池化核分别沿横轴X和纵轴Y对每一个通道进行编码,生成水平方向尺寸为C×H×1的特征图Z w和竖直方向尺寸为C×1×W的特征图Zh。
式中:zhc(h),zwc(w)分别为高度变量h和宽度变量w在第c个通道的特征输出;xc(h,i)为输入特征第c个通道的第h行第i列的数值;xc(j,w)为输入特征第c个通道的第j行第w列的数值。
利用一维池化操作将生成的2个特征图在空间维度上进行特征聚合,生成一对方向可知的特征图,使得注意力模块在获取一个空间方向长程关系的同时,还保留另一个空间的空间位置信息。将2个空间方向的特征图进行拼接,使用1×1卷积函数F1对通道数C进行压缩,归一化处理后,再通过非线性激活函数δ进行特征转化,得到特征图:
将特征图ƒ沿空间维度再拆分为沿水平方向和竖直方向的特征图ƒh,ƒw,分别利用1×1卷积函数Fh和Fw将通道数扩展回C,再用Sigmoid激活函数σ得到水平和竖直方向的特征张量gh和gw:
将输出的gh和gw分别扩展、相乘并作为注意力权重,再与输入特征I相乘,得到添加CA模块后的输出特征O:
坐标注意力机制强调了水平与垂直方向的位置信息,使得特征提取网络能获得更大区域的信息,避免无效冗余信息对识别准确率的影响及更多的计算开销。
2.2 损失函数改进
边界框回归损失函数是目标检测中预测边界框与真实边界框之间差异的度量指标,在目标检测中起关键作用。YOLOv5s中采用CIoU函数作为回归损失函数[18],其考虑了预测框和目标框之间交并比、中心距离和宽高比等因素影响,相较于传统的损失函数有良好表现,但是依赖于边界框回归指标的聚合,无法准确描述真实框和预测框宽高之间的差异,易造成预测框回归不准确,降低网络模型的收敛性和训练效率。在井下实际分选场景中,煤矸石易发生聚集与粘连现象,使得YOLOv5s模型对煤矸目标的定位能力急剧下降。为解决该问题,本文采用EIoU函数[19]代替CIoU函数,以增强目标的位置和边界信息,提升模型对煤矸石的定位精度。EIoU计算公式为
式中:LIoU,Ldis,Lasp分别为重叠损失、距离损失和宽高损失;U为预测边界框与真实边界框的交并比;s,sw,sh分别为能包裹两框最小外接矩形的对角线长度、宽和高;ρ1为预测边界框与真实边界框中心点距离;ρ2为预测边界框与真实边界框的宽的差值;ρ3为预测边界框与真实边界框的高的差值。
EIoU损失函数将目标框与锚框的宽高差异最小化,考虑了重叠面积、中心点距离及宽、高、边长的真实差异,使模型在回归过程中专注高质量锚框,加快模型收敛速度,使回归预测更精确,同时保持较强的抗干扰能力。
2.3 检测头改进
YOLOv5s模型中,检测头采用的是耦合头部,分类任务和回归任务以共享权重的方式实现。分类任务主要考虑的是煤矸样本间的差异,而回归任务考虑更多的是煤矸图像的边界信息。这种联合处理方式会造成分类任务和回归任务之间相互干扰[20-21],从而造成检测模型的性能损失。为解决耦合预测头中分类任务与回归任务的矛盾,提升井下实际分选场景中算法的定位能力和识别精度,本文参考YOLOX[22]算法中的解耦头,并对其进行轻量化改进,解耦头可解耦出单独的特征通道,分别用于分类和回归任务。轻量化解耦头结构如图3所示。
图3 解耦头结构Fig.3 Decoupled head structure
解耦头首先对不同维度的输入特征图进行1×1卷积,使得多个输入特征图获得相同的通道维度;将特征图输入2个并行分支中同步进行分类与回归任务,每个分支都包含2个用于特征提取的3×3卷积;通过1个1×1卷积进行通道整合,得到分类、回归和目标3个输出。解耦头将分类和回归任务解耦,解决了传统耦合头分类与回归任务间的冲突问题,但其新增了多个卷积模块,使得模型计算量大幅提升。针对该问题,本文在YOLOX解耦头基础上进行了精简设计:删除输入部分的1×1卷积模块,采用模型主干网络与颈部网络的宽度系数对解耦头的通道维度进行共同缩放;在分类与回归分支中各删除1个3×3卷积模块,以最大程度降低网络优化难度,在不增加计算成本的情况下提高检测性能。
3 实验验证
3.1 数据集获取与预处理
通过煤矸图像采集实验台(图4)采集分辨率为2 448×2 048的不同大小和形态的煤矸组合图像,共获取原始图像617张。为模拟井下分选现场的复杂环境,提高算法的鲁棒性与泛化性,以旋转、添加噪声、图像模糊及亮度调节等方式进行数据增强,对原始数据集进行扩充,最终得到3 085张样本图像,使用Labelimg工具对图像进行标注,将标注好的图像按照8∶2的比例划分为训练集和验证集。
图4 煤矸图像采集实验台Fig.4 Experimental platform for coal gangue image acquisition
3.2 模型训练
实验硬件设备为Intel(R) Xeon(R) Platinum 8350C CPU@2.60 GHz处理器,64 GiB内存,NVIDIA GeForce RTX 3090显卡,显存大小为24 GiB。软件环境为ubuntu20.04操作系统、python3.8、pytorch1.11.0深度学习框架,cuda版本为11.3。设定训练轮次为301,批量大小为32,图像输入尺寸为640×640,采用随机梯度下降法进行模型优化,以防止模型陷入局部最优解。此外,采用余弦学习率衰减方法,初始学习率为0.01。
3.3 评价指标
为验证改进模型的有效性,选用精确率P、召回率R、平均精度均值(mean Average Precision,mAP)、每秒传输帧数(Frames Per Second,FPS)、模型权值文件体积(Volume)和平均检测时间T作为评价指标。其中P,R,mAP用于衡量模型检测性能;Volume用于衡量模型复杂程度;FPS和T用于衡量实时检测速度。相关评价指标的计算公式为
式中:TP为检测结果为正的目标数;FP为误检为正确的目标数;FN为漏检的目标数;AP为平均精度;APk为第k个类别下的平均精度;n为总类别数。
3.4 消融实验
为验证各改进模块对YOLOv5s模型的性能影响,设计了消融实验,各组实验采用相同的超参数设置,消融实验结果见表1。模型A为原YOLOv5s网络模型,模型B在模型A基础上引入了CA模块,模型C在模型B的基础上引入了EIoU损失函数,模型D在模型C的基础上引入了轻量化解耦头结构。模型A-D的mAP迭代收敛曲线如图5所示。
表1 消融实验结果Table 1 Results of ablation experiments
图5 消融实验mAP曲线Fig.5 mAP curves of ablation experiment
1) 模型A→模型B:将CA模块添加至YOLOv5s模型中,目的是提高对图像关键信息的提取能力,避免复杂的背景信息干扰。实验结果表明,引入CA机制后,模型B的mAP曲线在50轮迭代后逐渐上升并高于模型A的mAP曲线,mAP值从91.7%提升到93.2%,精确率P和召回率R分别提升了1.2%和2.2%,平均检测时间缩短了1.6 ms,检测精度和速度都有明显提升。
2) 模型B→模型C:用EIoU损失函数替换YOLOv5s模型的CIoU损失函数,目的是提高模型的定位精度和预测框收敛速度。实验结果表明,引入EIoU损失函数后,模型C的mAP曲线收敛速度明显加快,在第75轮后逐渐上升并高于模型B的mAP曲线,mAP值从93.2%提升到93.9%,有效提高了算法模型的检测精度。
3) 模型C→模型D:引入轻量化解耦头的目的是拆分分类任务与回归任务,解决二者间的计算冲突;删除部分卷积层的目的是避免因参数量过度增加而影响最终检测效率。实验结果表明,引入轻量化解耦头结构后,模型D的mAP曲线在50轮迭代后逐渐上升并高于模型C的mAP曲线,mAP值从93.9%提升到94.8%,检测速度与模型A基本保持一致,在不影响检测速度的前提下,进一步提升了检测精度。
3.5 对比实验
模型改进后,复杂程度相应增加,从而造成模型Volume增加和FPS降低,为进一步验证CEDYOLOv5s模型的有效性和性能优势,在相同的数据集与实验设备下,选用5种YOLO系列目标检测模型YOLOv5n,YOLOv5s,YOLOv5l,YOLOv7-tiny,YOLOv7与CED-YOLOv5s模型进行对比实验。
为了直观展示对比模型之间的实际检测效果,分别使用6种模型对正常、运动模糊、噪声与低照度4种工况环境下的煤矸聚集样本图像进行检测,并提供初始人工标注结果(图6)作为参考,图6中煤的表面呈现黑色光亮且具有少数裂纹,用红框标注,而矸石表面则暗淡粗糙且呈现黑灰色,用蓝框标注。对比实验结果见表2。
表2 对比实验结果Table 2 Comparative experimental results
图6 初始人工标注结果Fig.6 Initial manual annotation results
从检测精度、检测速度和复杂程度3个方面对6种检测模型进行对比。
1) 检测精度:CED-YOLOv5s模型的mAP值为94.8%,在6种算法中最高,相较YOLOv5n,YOLOv5s,YOLOv5l,YOLOv7-tiny,YOLOv7分别高6%,3.1%,1.7%,5.7%,0.9%,表明CED-YOLOv5s模型的检测精度具有明显优势。
2) 检测速度:CED-YOLOv5s与YOLOv5s模型的FPS相差不大,检测速度快于YOLOv5l和YOLOv7模型,能充分满足实时目标检测任务需求(≥60 帧/s)。此外,虽然YOLOv5n模型检测速度较快,但检测精度远低于CED-YOLOv5s模型,难以适应复杂工况下的煤矸分选任务。
3)复杂程度:CED-YOLOv5s模型相较于YOLOv5s使用了更复杂的结构,所以在权值文件大小上有少量提升。对比mAP较高的YOLOv5l与YOLOv7模型,CED-YOLOv5s模型权值文件大小仅为YOLOv5l与YOLOv7模型的26.5%和32.8%,而FPS为YOLOv5l与YOLOv7的120.5%和144.2%,优势较为明显。
选取部分检测结果进行可视化呈现,如图7所示。正常环境下,CED-YOLOv5s模型对煤和矸石的检测置信度得分较高,检测效果最佳。在噪声环境中,YOLOv5s与YOLOv7-tiny模型均出现预测回归框不准确现象,YOLOv5n模型出现了多处误检。在低照度环境中,YOLOv5l模型出现预测回归框不准确现象。在运动模糊环境中,YOLOv5s模型出现误检与预测回归框不准确现象,YOLOv7-tiny模型在多处出现了预测回归框不准确现象。而在上述复杂工矿环境的检测任务中,CED-YOLOv5s模型均未出现误检、漏检及预测回归框不准确的问题,且置信度得分整体较高。
图7 不同算法在4种工况环境下的部分检测结果Fig.7 Partial detection results of different algorithms under four operating conditions
综合衡量不同的检测模型,CED-YOLOv5s模型在少量增加模型权值文件大小的前提下,获得了显著的精度提升,兼顾了检测精度与速度,具有较大的优势。
4 结论
1) 提出一种基于CED-YOLOv5s模型的煤矸石识别方法。通过引入CA机制,提高了煤矿井下复杂分选环境中煤矸关键特征的提取能力,提升了识别精度与速度;使用EIoU回归损失函数替换CIoU损失函数,提高了模型在煤矸目标聚集情况下的定位能力,从而提高了模型的收敛速度及边界框预测回归精度;将原模型的耦合头替换为轻量化解耦头,在兼顾检测速度的前提下,显著提高了复杂背景与煤矸聚集影响下的煤矸识别精度。
2) 构建不同工况下的煤矸目标数据集,进行了消融实验与对比实验。消融实验结果表明,各改进模块对模型检测精度的提升均有贡献,CED-YOLOv5s模型的平均检测精度在YOLOv5s模型的基础上提升了3.1%。对比实验结果表明,与其他5种YOLO系列检测模型相比,CED-YOLOv5s模型对不同工况下的检测任务适应性最强,综合检测性能最佳。