APP下载

基于改进SOLOv2 的煤矿图像实例分割方法

2023-12-06季亮

工矿自动化 2023年11期
关键词:特征提取实例煤矿

季亮

(1.中煤科工集团常州研究院有限公司,江苏 常州 213015;2.天地(常州)自动化股份有限公司,江苏 常州 213015)

0 引言

煤矿井下环境复杂,获取的图像大多较模糊且存在图像中目标物体轮廓不清晰等问题,影响图像识别效果[1-2]。随着深度学习技术的飞速发展,深度学习模型被应用于煤矿特殊环境中。图像分割作为深度学习方法中的一项关键技术,对煤矿复杂场景解析意义重大。

依据算法的训练模式和数据集给定标签形式的差异,图像分割方法主要分为以有监督、弱监督及无监督为基础的方法[3]。其中有监督方法能够充分学习带有标签的训练图像中包含的大量语义信息,因此是目前使用最频繁且分割精度能够达到最优的方法。按网络架构不同,有监督方法分为掩膜建议分类法[4]、先检测再分割法[5-7]、标记像素后聚类法[8]和密集滑动窗口法[9-10]。Xie Enze 等[11]提出了一种实例分割建模方式,将实例分割问题表述为通过实例中心分类和极坐标中的密集距离回归来预测实例轮廓;Wang Xinlong 等[12]提出将分割问题转换为位置分类问题,不需要锚框和边界框,而是根据实例的位置和大小,对每个实例的像素点赋予一个类别,从而达到对实例对象进行分割的效果。随着图像分割方法理论研究逐渐成熟,图像分割算法在煤矿井下多场景得到应用[13-14]。冯文彬等[15]提出了一种融合边缘优化模块的语义分割方法,对已完成清晰化后的煤矿图像进行分割,图像分割难度较低;杨潇等[16]针对煤矿图像缺少标注信息的问题,提出了一种用于解决合成图像与煤矿图像域间差异的双对齐网络,能够很好地分割出不同类别的物体,但煤矿图像分割模型步骤较多,且在煤矿井下低照度、高粉尘环境下的适应性有待验证;左纯子等[17]针对较小目标物分割时存在深层信息易丢失等问题,提出了一种基于改进DeepLabV3+的煤尘图像分割方法,实现了对小目标物体的分割,但分割准确度为89.23%,有待提高;司垒等[18]提出了一种基于改进U-net 模型的煤岩分割方法,实现了对综采工作面煤岩的精准分割,且煤岩图像质量较优。现有的图像分割方法用于清晰度较好的煤矿井下图像时效果良好,但煤矿井下大部分场景光线不足且粉尘较大,致使传感器采集的图像模糊,从而影响目标物体的分割精度。

为解决煤矿井下图像模糊且图像中目标物体轮廓不清晰的问题,本文选择SOLOv2 作为基准模型,提出一种基于改进SOLOv2 的煤矿图像实例分割方法。在SOLOv2[19]模型的基础上,用ResNeXt-18 网络替换ResNet-50 网络;引入坐标注意力(Coordinate Attention,CA)[20]模块,用于提升模型特征提取能力,保留精确的位置信息;采用ACON-C[21]激活函数替换ReLU 激活函数。

1 SOLOv2 模型改进

1.1 SOLOv2 模型

SOLOv2 模型由ResNet-50 网络、特征金字塔网络、卷积核分支、特征分支、语义分支5 个部分构成,如图1 所示。H,W,C分别为特征金字塔的输出特征图I及特征图F的高度、宽度和通道数;S为对齐后的特征图宽度和高度;Z为实例分割总的类别数;D为掩膜内核G的通道数。

图1 SOLOv2 模型结构Fig.1 SOLOv2 model structure

SOLOv2 模型原理:将输入图像均分为S×S的网格,通过ResNet-50 网络与特征金字塔网络进行特征提取,进而判别实例的中心是否落入某一个网格中,若满足条件则进入语义分支和掩码分支,分别对实例的语义、掩膜大小和位置进行判别。

1.2 主干特征提取网络改进

SOLOv2 模型的主干特征提取网络采用ResNet-50 网络,由于该网络参数量较大,使得模型分割速度较慢。为提升实例分割速度,本文在ResNet-50 网络的变体ResNeXt-50 网络的基础上,提出一种轻量化主干特征提取网络ResNeXt-18,其结构参数见表1。ResNeXt-18(16×2d)中的16 指进入模块1 的分组数量A(即基数)为16,2d 表示每个分组卷积的通道数为2。

表1 ResNeXt-18 网络结构参数Table 1 Parameters of ResNeXt-18 network structure

ResNeXt-18 中4 个组合模块用于传递不同维度的特征信息。以组合模块1 为例,其结构如图2 所示。组合模块1 通过平行堆叠相同网络结构卷积层的方式,将通道数为64 的输入特征图通过3×3 卷积核处理,分成16 组通道数为2 的特征图,特征图输出大小不变;16 组通道数为2 的特征图分别经过3×3 卷积核处理后,得到16 组通道数为64 的输出特征图,输出特征图输出大小不变;16 组通道数为64 的输出特征图相加后再与输入特征图融合,最终输出的特征图大小和通道数不变。通过调整分组数量C,不仅能增加网络宽度和深度,促使特征充分融合,简化网络设计难度,还可以加速模型收敛速度。

图2 ResNeXt-18 网络的组合模块1 结构Fig.2 The structure of combination module 1 in ResNeXt-18 network

1.3 CA 模块

由于主干特征提取网络忽略了对实例分割精度影响较大的位置信息,为了提高实例分割精度,在主干特征提取网络的所有组合模块中均引入CA 模块,CA 模块结构如图3(a)所示,r为缩减率,X,Y为坐标。CA 模块将通道注意力分解为2 个沿不同方向聚合特征的1D 特征编码过程,其优点是不仅可以沿着一个空间方向捕获长程依赖,而且可以沿着另一个空间方向保留精确的坐标信息。引入CA 模块后主干特征提取网络ResNeXt-18_CA 结构如图3(b)所示,其融合了CA 模块的空间坐标信息。

图3 CA 模块及ResNeXt-18_CA 网络结构Fig.3 The structures of the coordinate attention module and the ResNeXt-18_CA network

1.4 激活函数

在深度学习神经网络中,需要用激活函数实现神经网络的非线性化。激活函数在神经网络中的作用是加入非线性因素,使神经元之间的特征得以充分组合,提高模型的特征表达能力。

SOLOv2 模型中使用ReLU 作为神经元的激活函数。然而,ReLU 激活函数因稀疏处理而出现神经元“坏死”和无负值等问题,导致相应参数一直得不到更新,直接影响模型的实例分割精度。为了提高模型实例分割精度,改善模型泛化性能,利用ACON-C 激活函数替换ReLU 激活函数。ACON-C激活函数为

式中:p1,p2,β均为可学习参数,且p1≠p2;x为上层神经元的输出;σ(·)为Sigmoid 函数。

ACON-C 激活函数通过 β来控制是否激活神经元(β为0 时,不激活)。因此,需要设计一个计算 β的自适应函数:

式中xc,h,w为第c通道特征图上宽为w、高为h位置的数值。

β随着选取的样本不同而发生对应的变化,对应激活函数的激活状态也不同。因此,ACON-C 激活函数能够自适应地控制神经元是否激活,有利于提高模型的泛化能力,保证特征充分融合。本文采用ACON-C 作为ResNeXt-18 网络的激活函数,其精度随着模型网络层的加深而提升,效果优于ACON 系列的其他激活函数。

2 实验结果及分析

2.1 实验设计

模型训练平台环境为Ubuntu18.04,CPU 为Intel®Core™ i7-9800X CPU @3.8 GHz,GPU 为NVIDIA Tesla P100,显存为16 GiB,编程框架为Pytorch 开源框架;模型部署平台为NVIDIA Jetson Xavier NX。

采用实际煤矿视频图像制作数据集,图像分辨率为640×480,对数据集中图像目标物进行实例分割,实验中包含4 个实例分割的类标签,类别分别为人、护帮装置、梭车、打钻机器。依照COCO 数据集格式,通过LabelMe 软件对1 560 张图像进行标注,形成标注文件,再通过labelme2coco 工具包转换为标准的COCO 标注文件。在煤矿图像数据集中随机选取1 000 张图像作为训练样本,280 张图像作为验证样本,280 张图像作为测试样本,选择Mask AP(掩膜平均精度)作为实例分割图的评价指标。

利用COCO 数据集对改进SOLOv2 模型进行预训练,得到预训练权重文件,用于加快改进SOLOv2模型在煤矿图像数据集上训练的收敛速度。模型训练时参数设置:输入图像大小为480×480;动量系数为0.9;权重衰减系数为0.000 1;初始学习率为0.01;批尺寸为8;训练迭代轮数为300。学习率更新策略:经过100 轮迭代训练后,将学习率降低为0.001;迭代训练到第200 轮时,再将学习率降低为0.000 1。

2.2 实验结果

为验证改进SOLOv2 模型的分割效果,在SOLOv2 模型基础上进行消融实验,结果见表2。可看出SOLOv2 模型的权重文件大小为384.7 MiB,Mask AP 为98.3%,帧速率为20.8 帧/s;改进模型1 将ResNeXt-18 作为主干特征提取网络,其权重文件大小降低了91.7 MiB,帧速率为26.39 帧/s,Mask AP 相较于SOLOv2 模型增加了0.1%,表明ResNeXt-18 能提高模型分割速度;改进模型2 将ResNeXt-18_CA 作为主干特征提取网络,其权重文件大小相较于改进模型1 略增加了8.4 MiB,帧速率为26.10 帧/s,Mask AP 相较于改进模型1 增加了0.2%,表明在ResNeXt-18 的基础上并联CA 模块能够提高模型分割精度;改进模型3 使用ResNeXt-18 作为主干特征提取网络,并采用ACON-C 激活函数作为主干特征提取网络的激活函数,其权重文件大小为293.0 MiB,帧速率为26.37 帧/s,Mask AP 相较于改进模型1 增加了0.4%,表明将ResNeXt-18 的激活函数ReLU 替换为ACON-C 能够提高模型分割精度;改进SOLOv2 模型权重文件大小为301.5 MiB,帧速率为26.10 帧/s,Mask AP 为99.4%,相较于SOLOv2模型,权重文件大小降低了21.6%,Mask AP 提高了1.1%,帧速率提高了5.3 帧/s,表明改进SOLOv2 模型在分割精度略有提升的基础上,提高了分割速度。

表2 在煤矿图像数据集上的改进SOLOv2 模型的消融实验结果Table 2 Ablation experiment results of improved SOLOv2 model on coal mine image dataset

改进SOLOv2 模型与经典图像分割模型的对比实验结果见表3。可看出Mask R-CNN 和SOLOv2由于网络参数量较大且结构复杂,在煤矿图像分割速度和分割精度上都处于劣势;改进SOLOv2 模型的分割精度略优于Mask R-CNN 和SOLOv2 模型,且保证了分割速度。

表3 不同网络模型实验结果比较Table 3 Comparison of experimental results of different network models

4 张煤矿图像的实例分割效果如图4 所示。可看出基于改进SOLOv2 的煤矿图像实例分割方法能够有效分割煤矿井下的不同物体,且在边缘处的分割效果更显著。

3 结论

1)在SOLOv2 模型的基础上,用ResNeXt-18 网络替换ResNet-50 网络,增加了网络宽度和深度,促进了特征充分融合。在主干特征提取网络中引入CA 模块,有效提高了实例分割精度。用ACON-C激活函数替换ReLU 激活函数,进一步提高模型的实例分割精度,同时改善模型的泛化性能。

2)相较于SOLOv2 模型,改进SOLOv2 模型的Mask AP 提高了1.1%,模型权重文件减小了83.2 MiB,推理速度提高了5.30 帧/s,在煤矿图像实例分割精度和推理速度上均有提升。

猜你喜欢

特征提取实例煤矿
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
大型煤矿自动化控制系统的设计与应用
上半年确定关闭煤矿名单513处
去年95.6%煤矿实现“零死亡”
基于MED和循环域解调的多故障特征提取
完形填空Ⅱ
完形填空Ⅰ
瞬变电磁法在煤矿防治水中的应用
Walsh变换在滚动轴承早期故障特征提取中的应用