APP下载

基于改进YOLOv5s模型的煤矸目标检测

2021-11-30沈科季亮张袁浩邹盛

工矿自动化 2021年11期
关键词:锚框聚类尺寸

沈科, 季亮, 张袁浩, 邹盛

(1.中煤科工集团常州研究院有限公司,江苏 常州 213015;2.天地(常州)自动化股份有限公司,江苏 常州 213015)

0 引言

我国已将煤炭清洁高效开发利用作为能源转型发展的立足点和首要任务[1],煤矸分选作为现代化煤矿清洁生产的重要环节,为推动煤炭清洁利用贡献了力量。随着智能检测和机器人技术的发展,煤矸自动化分选逐渐成为可行及具有前景的方案,其中,煤矸识别是煤矸自动化分选方案的基础环节。传统的煤矸识别方法有射线识别法[2]、重介法[3]、硬度识别法[4]等,射线识别法的射线辐射强度大,重介法增加了重介质的净化回收工序,工艺流程相对复杂,硬度识别法对破碎力大小要求高且应用理论研究少。

近年来,机器视觉技术在煤矸识别领域应用广泛,主要分为图像处理算法与深度学习算法2种。图像处理算法[5-7]通过设计特定的卷积滤波器对煤矸的颜色、灰度、边缘、轮廓等特征进行提取,然后通过图像分割算法检测出煤矸目标,但实际应用中需根据不同场景人为调整参数,且算法鲁棒性较差、实用性不强。深度学习算法识别率较高且鲁棒性强,在煤矸识别方面得到快速推广[8-10]。在煤矸目标检测应用中,王中举等[11]提出了一种基于深度学习网络的煤矸图像分类方法,识别率较高,但没有进行准确的煤矸目标位置和尺寸检测。来文豪等[12]利用多光谱系统采集3个波段构成伪RGB图像数据集,再利用改进后的YOLOv4[13]模型进行煤矸目标检测,但单帧检测时间长达4.18 s,无法实现煤矸实时检测。本文在YOLOv5s[14]模型的基础上,将自校正卷积网络(Self-Calibrated Convolutions,SCConv)[15]嵌入到YOLOv5s模型的Backbone区域中,删除Neck和Prediction区域的19×19特征图分支,对K-means算法聚类得到的锚框进行线性缩放,提出了一种改进YOLOv5s模型,并将其应用于煤矸目标检测,在检测速度和检测精度上都有一定的提升。

1 煤矸目标检测流程

基于改进YOLOv5s模型的煤矸目标检测流程如图1所示。具体步骤:在煤矸分选处进行相机参数配置和启动,采集实时图像;采用改进YOLOv5s煤矸目标检测算法读取实时图像并检测;将检测到的所有矸石的坐标信息传给机械臂,机械臂执行矸石分拣动作;若相机终止采集,流程结束;反之,则继续图像采集。

图1 基于改进YOLOv5s模型的煤矸目标检测流程

2 改进YOLOv5s模型

2.1 YOLOv5s模型

YOLOv5s模型在YOLOv4模型的基础上,主要实现了对模型大小和性能的灵活配置,同时引入最新的网络模块和训练技巧,如马赛克数据增强、DropBlock机制、Hardswish激活函数、GIoU边界框回归损失等。YOLOv5s模型主要由输入、Backbone、Neck、Prediction等区域组成,每个区域由CBL(Conv+BN+Leaky_Relu)、CSP(CBL+Res unit+Concat+BN+Leaky_Relu)、Focus、SPP等模块构成,如图2所示。

图2 YOLOv5s模型架构

2.2 Backbone区域改进

YOLOv5s的Backbone区域主要采用多组残差模块堆叠而成。然而,残差模块无法充分融合多尺度特征信息,因此,引入SCConv,SCConv是一种在不改变模型架构的前提下,通过加强特征图内在通信,达到扩增感受野效果的网络组件。SCConv结构如图3所示,其中,C×H×W为输入特征图X的维度,X1,X2为被拆分后的特征图,K1—K4为卷积核,F1—F4为处理后的特征图,r为平均池化降采样倍数,Y1,Y2分别为分支1和分支2输出的特征图维度,Y为输出的特征图。SCConv按照通道维度分为2个分支,分支1利用下采样来增大特征图感受野,分支2用于常规的卷积操作,合并2个分支通道信息,从而增加模型的特征提取和表达能力。

图3 SCConv结构

本文将SCConv结构嵌入YOLOv5s模型的Backbone区域,如图4所示,在不明显增加YOLOv5s模型复杂度的情况下,改善Backbone区域的特征提取能力。

图4 改进的Backbone结构

2.3 Neck和Prediction区域改进

YOLOv5s模型中的Neck区域采用多路径结构聚合特征,增强网络特征融合能力。由于煤块和矸石的尺寸相对整张图像过小,使得Neck区域进行大目标检测变得冗余。为提高模型检测速度,对YOLOv5s模型Neck区域进行适当精简,将其中拥有最大感受野、适合检测较大尺寸对象的19×19特征图分支进行删除,如图5所示,从而降低模型复杂度并提高检测实时性。

图5 改进的Neck和Prediction结构

2.4 锚框生成改进

在YOLOv5s模型训练过程中,锚框集合是对数据集中的目标边界框进行K-means算法聚类生成的。由于Neck区域中删除了预测大目标的19×19特征图分支,所以将聚类的锚框数量由9组降低为6组。经过标准K-means算法聚类后获得的6组锚框尺寸分别为(41,63),(47,94),(54,69),(54,51),(64,84),(64,120)。

通过K-means算法聚类生成的锚框尺寸相对比较集中,有相当一部分物体真实标记框尺寸与K-means算法聚类得到的锚框尺寸存在较大差异,聚类得到的锚框尺寸无法很好地覆盖数据集中绝大部分标记框的真实尺寸,致使模型收敛较慢且很难达到最优状态。因此,将K-means算法聚类生成的6组锚框进行线性尺度缩放,缩放公式为

(1)

(2)

(3)

(4)

经过缩放后的锚框尺寸分别为(20,31),(39,79),(62,80),(62,59),(96,126),(96,180)。

3 实验与结果分析

3.1 数据集

模型训练平台为NVIDIA GeForce GTX 2080Ti,推理平台为矿用本安型边缘计算设备,该设备具有14TOPS算力。模型输入图像尺寸为608×608,通道为3。模型训练时设置动量系数为0.937,权重衰减系数为0.000 5,学习率为0.01,学习率更新采用warm-up方法,批尺寸为16,训练迭代次数为300。

采集原始分辨率为1 280×960的图像样本526张,每张图像包括的煤矸数量在4个以上,且含有煤矸堆叠和遮挡等情况,总计约3 000个煤矸目标。为了降低人工标注成本,使用辅助标注工具对煤矸数据集进行初步标注,之后通过开源工具LabelImg进行可视化,完成煤矸数据集制作。实验过程中训练集和验证集分别包含373和77张图像样本,测试集包含76张图像样本。

3.2 检测结果

为验证本文改进YOLOv5s模型的检测效果,在YOLOv5s模型基础上进行不同改进来做对比实验,结果见表1(FPS为每秒传输帧数,mAP为平均精度均值)。可看出YOLOv5s模型大小为6.74 MB,测试集上的mAP为87.5%,FPS为30.5帧/s;YOLOv5s-SCC模型在Backbone区域嵌入SCConv网络作为主干特征提取网络,在模型大小增加0.26 MB、FPS降低0.9 帧/s的前提下,mAP相较于YOLOv5s模型提高了0.7%,表明SCConv网络能够改善模型检测精度;YOLOv5s-TA模型在Neck和Prediction区域删除19×19特征图分支,在模型大小降低1.69 MB、FPS增加3.2帧/s的前提下,mAP相较于YOLOv5s模型仅降低了0.7%,表明YOLOv5s-TA模型能够提高模型检测速度;YOLOv5s-DS模型对K-means算法聚类生成的锚框进行线性尺度缩放,在模型大小降低1.69 MB、FPS增加3.1帧/s的前提下,mAP相较于YOLOv5s模型仅降低了0.1%,表明YOLOv5s-DS模型在检测精度趋于稳定的前提下能够提高模型检测速度;改进的YOLOv5s模型大小相较于YOLOv5s模型降低1.57 MB,FPS增加了2.1帧/s,且mAP提高了1.7%,表明改进的YOLOv5s模型在检测速度和检测精度上均有提升。

表1 不同改进YOLOv5s模型检测结果对比

以精确率P为横轴、召回率R为纵轴绘制YOLOv5s及4种改进模型的P-R曲线(图6),P-R曲线与横纵坐标围成的面积即为平均检测精度。由图6可知,改进YOLOv5s模型检测精度最高,性能最优。

图6 各模型在煤矸识别测试集上的P-R曲线

煤矸目标检测结果如图7所示。可看出改进YOLOv5s模型能准确检测出相应的煤块和矸石,且检测精度相较于YOLOv5s模型有所提升。

(a)YOLOv5s模型检测结果

4 结论

(1)在YOLOv5s模型的Backbone区域嵌入SCConv作为特征提取网络,解决了模型多尺度特征提取不充分问题;删除YOLOv5s模型的Neck和Prediction区域的19×19特征图分支,有效降低了模型大小;对通过K-means算法聚类得到的锚框进行线性缩放操作,提高了模型检测精度。

(2)相较于YOLOv5s模型,改进YOLOv5s模型大小降低了1.57 MB,减少了模型参数,FPS增加了2.1帧/s,mAP提高了1.7%,表明改进YOLOv5s模型在检测速度和检测精度上均有提升。

猜你喜欢

锚框聚类尺寸
基于YOLOv3锚框优化的侧扫声呐图像目标检测
锚框策略匹配的SSD飞机遥感图像目标检测
基于SSD算法的轻量化仪器表盘检测算法*
基于GA-RoI Transformer的遥感图像任意方向目标检测
CIIE Shows Positive Energy of Chinese Economy
基于K-means聚类的车-地无线通信场强研究
D90:全尺寸硬派SUV
基于高斯混合聚类的阵列干涉SAR三维成像
佳石选赏
一种层次初始的聚类个数自适应的聚类方法研究