基于改进U-net 的少样本煤岩界面图像分割方法
2024-03-02卢才武宋义良
卢才武 宋义良 江 松,3 章 赛 王 懋 纪 凡
(1.西安建筑科技大学资源工程学院,陕西 西安 710055;2.西安市智慧工业感知、计算与决策重点实验室,陕西 西安 710055;3.西安优迈智慧矿山研究院有限公司,陕西 西安 710055;4.陕西财经职业技术学院大数据与人工智能学院,陕西 咸阳 712000)
实现综采工作面的“无人化”开采是煤矿智能化建设的重要内容之一,采煤机作为综采工作面的核心设备,其智能化程度对于实现综采面“无人化”起着决定性作用[1]。 采煤机通过自动判别煤岩分布情况获取煤岩分界线,实现智能调节截割轨迹并代替人工操作,因此对综采面煤岩分布的自动判别技术是实现采煤机智能化作业的关键技术之一[2-5]。 目前,采用机器视觉方法进行煤岩界面识别的研究主要通过目标检测或语义分割技术对煤岩图像中的煤层和岩层进行自动化识别。 这些技术的研究主要基于深度学习方法,需要使用大量样本数据来训练网络模型。 在机器视觉技术应用于煤岩界面识别的研究中,缺乏大量已标注的煤岩图像数据,从而限制了深度学习网络模型的训练效果。 因此,解决煤岩图像数据不足的问题成为当前研究的关键[6-8]。
近年来,随着煤矿智能化的不断发展,国内外已有学者对基于机器视觉技术的煤岩界面识别方法进行研究。 杨潇等[9]针对煤矿获取的图像缺乏标注信息等问题,提出了一种双对齐网络模型,该模型分别从特征级和像素级对图像进行处理,可以有效降低煤矿监控图像受到纹理、光照等复杂环境的影响,提升煤矿监控图像的语义分割效果。 张斌等[10]将目标检测算法YOLOv2 与线性成像模型相结合进行煤岩识别与定位,设定实际坐标与计算坐标进行对比分析,反映出该方法可以快速准确地识别煤岩。 孙涛等[11]提出了一种基于卷积神经网络和煤岩智能语义分割混合的煤岩识别系统,构建了用于煤岩图像识别的CA-Poly-DeepLab v3+网络模型,通过进行数据增强等处理可以取得较理想的煤岩界面图像语义分割效果。 DONG 等[12]通过改进边缘检测Canny 算法进行煤岩界面图像边缘特征提取,据此进行煤层和岩层分界线识别。 伍云霞等[13]通过使用字典学习和最大池化稀疏编码技术对煤岩图像特征信息进行提取,并进行了煤岩界面识别。 司垒等[14]提出一种基于改进的U-Net 网络模型进行煤岩界面识别,并通过井下现场试验验证了其可行性。 孙继平等[15]提出了一种二进制十字对角纹理矩阵对煤岩图像的纹理特征进行提取和分析,并通过煤层与岩层的不同纹理特征识别了煤岩界面。 孙传猛等[16]提出了一种融合改进YOLOv3 与三次样条插值的煤岩界面识别方法,通过使用深度可分离卷积运算对原算法进行改进,有效提升了煤岩界面的识别精度和效率。 闫志蕊等[17]提出了一种基于改进DeepLabv3+和迁移学习的煤岩界面图像识别方法,并对实际煤岩图像进行试验,验证了改进模型的有效性。 上述研究表明:机器视觉技术在煤岩界面识别方面的研究取得了一定的进展,但目前尚未出现公开的煤岩图像数据集,此外由于煤矿实际场景较为复杂,难以采集较高质量的煤岩界面图像,并且获取图像后需要耗费大量人力对数据集进行标注,因而可用于机器视觉算法训练的数据集较少。 基于深度学习的机器视觉算法往往是通过大量已标注的图像数据进行训练,可用的煤岩图像数据较少导致该类算法在煤岩界面识别方面的研究与应用受到一定的影响。
本研究通过对U-net 网络进行改进,并使用迁移学习方法训练模型,实现在使用煤岩图像数量较少的小样本数据集进行训练的情况下,提升煤岩界面检测精度。 研究反映出,通过少样本数据集训练能有效解决煤岩图像语义分割中存在的数据不足问题,有助于推动机器视觉技术在煤岩界面识别方面的应用。
1 基于改进U-net 的煤岩界面图像语义分割网络设计
1.1 U-net 网络模型改进
U-net 网络模型结构呈“U”形,由编码器和解码器两部分组成[18],其模型结构如图1 所示。 编码器部分经过多次卷积操作和池化操作对输入的图像进行特征提取,多个卷积层和池化层可以更有效地提取丰富的语义信息,同时将数据空间逐渐缩小[19]。 解码器由多个卷积层和上采样层构成,将编码器部分提取的特征映射还原到原始分辨率,并生成分割结果。在编码器和解码器之间建立跳跃连接,用于将编码器部分的高层次、语义丰富的特征传递到解码器中,以帮助解码器对前面网络丢失的部分信息进行一定的补充,从而使得分割结果更精确[20]。
图1 U-net 网络模型结构Fig.1 Structure of U-net network model
针对现有的机器视觉算法在网络模型训练时受到图像数据数量限制的问题,本研究对经典的语义分割模型U-net 网络进行改进。 U-net 模型因其出色的网络结构设计使其在小样本数据集的语义分割中表现优异,但针对不同的数据集和应用场景,模型实际性能可能存在一定的差异。 因此,对于具体的煤岩界面图像,要取得理想的分割效果,有必要对网络结构进行有针对性的调整和优化。
本研究改进的U-net 模型网络结构如图2 所示。在U-net 网络结构的编码器部分,将U-net 的骨干网络替换为裁剪后的VGG16 特征提取网络,裁剪后的VGG16 共有5 个块结构,主要由卷积核为3×3 的卷积层(Conv-3)、Relu 函数和最大池化层(Maxpool)组合而成。 改进后的模型增加了网络深度,同时减少了参数量,对骨干网络的替换提高了模型的特征提取能力,降低了由小样本训练引起的过拟合风险。 另外,在解码器部分引入两类注意力机制模块,在跳跃连接层添加了注意门机制(Attention Gate)并在解码器部分的上采样模块中添加了卷积块注意力模块(CBAM)来提高模型对关键信息的感知能力,降低图像中噪声或无关信息对模型的干扰。
图2 改进U-net 网络模型结构Fig.2 Structure of improved U-net network model
1.2 骨干网络替换
采煤机智能化作业的实际应用场景需要对煤岩分布状况进行精确快速的自动识别。 因此,本研究改进模型在使用小样本煤岩界面图像数据集进行模型训练时,要求具有较强的特征提取能力,即需从有限的图像数据中提取尽可能多的煤岩特征信息[21]。 同时,为达到快速识别,本研究尽可能减少模型参数量,参数量较小的模型在进行训练和预测时不仅可以减少所需的计算资源,还有助于降低过拟合风险,更易于训练和部署。 本研究对经典U-net 网络结构的主干网络部分进行改进,使用裁剪后轻量化的VGG16特征提取网络替换经典U-net 网络编码器部分的主干特征提取网络[22]。 本研究所使用的VGG16 特征提取网络参数如图3 所示,图像以512×512×3 大小输入,图中“Conv-3”表示卷积网络层,该网络中的卷积层全部为3×3 的卷积核,“MaxPool”代表池化网络层。
图3 VGG16 特征提取网络参数Fig.3 Parameters of VGG16 feature extraction network
1.3 迁移学习训练方法
在模型训练时,样本数据集太小会使模型出现过拟合问题。 因此,本研究采用迁移学习方法,将模型在大规模数据集上进行预训练,有效提高了模型的泛化能力,可以更好地适应新的煤岩图像数据集,避免出现过拟合现象。 同时,使用预训练模型的便利在于可以采用已经学到的特征和知识加速训练过程,提高模型性能和运行效率[23]。
本研究迁移学习训练流程如图4 所示。 具体步骤为:① 在Pascal VOC 2007 数据集上对VGG16 模型进行预训练,获得预训练参数,再根据预训练权重对煤岩界面图像数据集的特征进行微调,以更好地适应煤岩识别任务;② 冻结U-net 网络模型的骨干网络部分,使用煤岩界面数据集对模型进行训练,监控模型性能并根据需要微调模型以适应煤岩图像的数据分布特征;③ 解冻模型的骨干网络部分,再次使用煤岩界面数据集进行训练,选择预测结果最佳的模型进行保存,完成预训练之后获取权值文件,再使用改进的U-net 模型对煤岩界面数据集进行训练,导入预训练权重文件完成知识迁移。
图4 迁移学习训练流程Fig.4 Training process of transfer learning
1.4 引入注意力机制
注意力机制的加入可以更加准确地定位感兴趣的目标区域,减少误差和漏检情况,提高煤岩图像分割精度。 此外,注意力机制的加入可以减少网络对无关区域的关注,有助于减少计算量、提高计算速度和效率。 考虑到在经典U-net 网络上采样过程中存在信息丢失和模糊的问题,通过添加注意力机制模块有助于提高网络对特定区域的关注度,提升对图像边缘信息等细节特征的提取能力[24]。 本研究针对图像语义分割模型特点,结合相同数据集和模型架构下不同注意力机制的表现,在经典U-net 模型基础上进行改进,在3 处上采样和跳跃连接部分加入Attention Gate注意力机制模块[25],在编码器上采样处加入CBAM注意力机制模块[26]。
CBAM 注意力机制结构如图5 所示。 CBAM 包含2 个连续的子模块,分别是通道注意力模块和空间注意力模块,输入的特征层按顺序依次获得通道注意力特征和空间注意力特征。 输入特征层首先在通道注意力模块进行最大池化(Maxpool)和平均池化(Avgpool);然后通过一个共享卷积层(Shared MLP)计算每个通道的权重,再将输出的特征进行元素相加(Element-wise addition),并通过Sigmoid 激活函数获得1 个权重向量,即通道注意力特征权重(Mc),将该权重与输入特征层进行相乘运算获得加权特征层。将该特征层继续输入到空间注意力模块,首先经过最大池化(Maxpool)和平均池化(Avgpool),然后将获得的2 层特征层进行向量拼接后进行卷积操作,最后经过Sigmoid 激活后输出得到1 个权重向量,即空间注意力特征权重(Ms),将其与输入特征层相乘获得加权特征层并输出加权后的特征层。 Attention Gate 注意力机制结构如图6 所示。 其中,2 个输入特征层分别为编码器当前层x和解码器下一层g,输入特征层通过1×1 卷积使2 个特征层通道数一致,再进行元素相加操作。 将通过元素相加所获得的特征向量依次通过Relu 函数、1×1 卷积和Sigmoid 函数后获得注意力系数,再通过Resample 模块将特征层尺寸大小进行还原,最后将获得的注意力系数α对特征层x进行加权并输出加权后的特征层。
图5 CBAM 注意力机制结构Fig.5 Structure of CBAM attention mechanism
图6 Attention Gate 注意力机制结构Fig.6 Structure of Attention Gate attention mechanism
2 试验与分析
2.1 试验准备
本研究试验所使用数据集有2 个,用于预训练的数据集是网络公开数据集Pascal VOC 2007,可直接通过网络下载获取;用于训练本研究模型的数据集是自制的煤岩界面图像数据集,如图7 所示。 将实地拍摄的煤岩图片首先进行初步筛选,去除由各种因素导致的内容无法辨识的图片;然后将图片进行裁剪使图片大小统一为512×512;再使用Lableme 对数据集进行标注,将图片中的像素分别标记为coal(煤)、rock(岩)、background(背景)3 个类别,制作完成的数据集共有625 张图片。
图7 煤岩界面图像部分数据示例Fig.7 Part data examples of coal-rock interface images
本研究试验平台具体配置参数见表1。 考虑到试验平台性能,在模型训练中采用具有动量更新和自适应学习率的Adam(Adaptive Moment Estimation)优化器对网络模型进行优化,初始学习率为0.01,迭代次数为100,批量处理大小为8。
表1 试验平台配置参数Table 1 Configuration parameters of experimental platform
本研究采用准确度(Accuracy)、平均交并比(Mean Intersection over Union,MIoU)、类别平均像素准确率(Mean Pixel Accuracy,MPA)以及模型推理时间(Inference Time)等指标进行模型性能检验。 其中,平均交并比是计算真实标签和模型预测结果的交并比,类别平均像素准确率是每个类别在进行预测时像素被正确进行分类的比例。 计算公式分别为
式中,i为真实值;j为预测值;Pii为预测正确个数,Pij表示i预测为j即预测错误的像素个数;k为除背景外预测类别的数目。
2.2 骨干网络性能验证试验
为验证骨干网络的替换对改进U-net 网络性能的影响,分别使用深度学习中常用的特征提取网络ResNet-50、VGG16 作为骨干网络对U-net 模型进行改进,并与未更换骨干网络的经典U-net 模型进行煤岩界面分割试验对比。 试验中使用相同的煤岩图像数据集进行训练,采用精确度和训练用时作为评价指标,衡量不同骨干网络模型的预测精度和运行速度。
试验结果见表2。 由表2 可知:VGG16 网络作为U-net 模型的骨干网络进行煤岩界面图像分割时在精确度及运行速度等方面均优于其余骨干网络。 在精确度方面,使用VGG16 作为骨干网络的模型达到了92.08%,高于ResNet-50 骨干网络,相较于经典U-net模型提升了1.93%。 在训练用时方面,使用VGG16作为骨干网络的模型训练时间为37.31 帧/s,相较于ResNet-50 骨干网络训练速度更快,训练速度相较于经典U-net 模型提升了8.78%。 试验反映出:VGG16作为骨干网络可以提升原模型精确度,更好地提取煤岩界面图像特征,从而更精确地分割图像;使用VGG16 网络的模型训练用时更少,模型训练效率更高。 可见,VGG16 网络在保证高精确度的同时,也具有较好的运行速度。 因此,本研究采用VGG16 作为改进U-net 模型的骨干网络。
表2 骨干网络性能对比结果Table 2 Comparison results of backbone network performance
2.3 迁移学习方法消融试验
为验证迁移学习方法对于本研究改进模型性能的影响,将改进的U-net 模型分别在采用迁移学习方法与不采用迁移学习方法的情况下进行训练,并对模型训练过程进行分析。
试验所得平均交并比(MIoU)曲线如图8 所示。由图8 可知:采用迁移学习方法的MIoU值一直高于未采用迁移学习方法的情况,在训练的前10 个轮次,不论是否采用迁移学习,模型MIoU均在快速增长,训练轮次为10~20 次时,未使用迁移学习方法的MIoU曲线出现下降波动,在25 次左右开始继续增长最后达到平稳收敛;采用迁移学习时未使用迁移学习MIoU曲线一直呈现增长趋势,在训练轮次达10 次以后开始逐渐达到平稳收敛。 因此,采用迁移学习方法可以使模型更快速地收敛,减少模型训练用时。 此外,通过MIoU值对比也表明使用迁移学习方法进行训练时模型分割精度更高。
图8 迁移学习方法消融试验对比结果Fig.8 Comparison results of ablation test with transfer learning method
2.4 注意力机制模块消融试验
将注意力机制加入U-net 网络模型中可以对不同部分特征层的信息进行加权,从而减少噪声和无关信息的干扰并突出目标的相关特征。 为了验证注意力机制加入对模型性能的影响,使用更换了VGG16作为骨干网络的改进U-net 模型在小样本煤岩图像数据集上进行训练,对引入注意力机制前后的2 种情况进行训练并分析。 试验结果如表3 所示。
表3 注意力机制消融试验对比结果Table 3 Comparison results of attention mechanism ablation experiments %
由表3 可知:引入注意力机制时模型的各项指标均高于未加入注意力机制的模型,添加注意力机制后的模型准确度提升了5.62%,平均交并比提升了2.09%,类别平均像素准确率提高了5.31%。 试验结果表明:注意力机制有助于模型更好地关注图像中的重要区域,从而提高模型的分类准确率和分割性能。 加入注意力机制后,模型准确度、平均交并比(MIoU)和类平均像素(MPA)等指标均得到提升,反映出注意力机制的添加提升了模型对于小样本煤岩界面数据集的分割效果。
2.5 不同网络模型对比试验
为了检验本研究改进的U-net 网络模型在小样本煤岩图像数据集中的实际应用效果,将该模型与现有常用的一些网络模型进行对比分析。 分别将本研究改进的U-net 网络模型、经典U-net 网络模型、DeeplabV3+网络模型、HRNet 网络模型和PSPNet 网络模型在自制的煤岩界面数据集上进行训练,以模型训练过程中的准确度、平均交并比(MIoU)、类别平均像素准确率(MPA)、检测速度(帧/s)以及损失函数作为评价指标,对各模型性能进行对比分析。
由于本研究试验数据集较小,在不进行迁移学习的情况下直接进行训练会导致网络性能较差,缺乏对比性。 因此,本研究在网络模型对比试验阶段,均使用了迁移学习方法优化网络模型性能。 同时通过设置125 张图片集(a组)作为小样本数据集和625 张图片(b组)作为正常数据集的2 组试验,分析本研究改进的网络结构对小样本数据集的语义分割效果。试验过程中的平均交并比曲线和损失函数值曲线如图9 所示,各个网络模型的性能指标取值见表4。
表4 各网络模型性能对比Table 4 Performance comparison of various network models
图9 模型训练性能曲线Fig.9 Curves of model training performance
通过对比各网络模型在a组和b组的试验结果可以看出,虽然各模型的MIoU曲线都呈增长趋势,并随着训练轮次增加逐渐平稳,但在少样本训练情况下,所有网络对煤岩界面图像的分割性能均有不同幅度下降。 通过经典U-net 网络在a组和b组样本的性能对比可知,模型在使用了小样本数据集进行训练后,U-net 网络的分割准确度下降了3.43%,平均交并比下降了4. 46%,类别平均像素准确率下降了1.92%。 由a组小样本煤岩图像分割性能检验结果可以看出,本研究改进的U-net 网络模型在相同的小样本数据集情况下,相较于经典U-net 模型准确度提升了1.84%,平均交并比提升了5.34%,类别平均像素准确率提升了0. 48%。 同时,与HrNet、PspNet、DeeplabV3+相比,本研究改进的U-net 网络模型在小样本煤岩界面数据集上有着更为显著的语义分割性能,模型在检测速度上略低于PspNet 、DeeplabV3+,但相较于经典U-net 模型有所提升。 试验结果反映出,本研究改进U-net 模型在小样本煤岩界面数据集上的综合性能最优。
进一步采用图7 案例中的原图作为测试集进行语义分割预测,获得的语义分割预测结果如图10 所示。 由图10 可知:虽然参与测试的所有网络模型都可以对煤岩界面进行分割,但是HrNet 、PspNet、DeeplabV3+和经典U-net 模型在煤岩边缘处的分割效果并不理想,HrNet 和PspNet 在分割煤岩分界面时灵敏度较低,导致分割的边缘不够精确,预测分界线与实际界面有着许多不匹配之处,DeeplabV3+和经典Unet 模型相较前两者虽然分割精确度有所提高,但是在图像细节方面精确性依然不理想。 由图10(a)和图10(b)可知:经典U-net、HrNet、DeeplabV3+和Psp-Net 模型在煤岩边缘分割时,存在将煤岩间阴影较深的部分识别为背景的情况,导致分界线不够精确。 由图10(c)可知:DeeplabV3+在识别时出现较大部分的误判,将煤层中亮度较高的部分识别为岩石,在本研究改进的U-net 模型中可以看到识别结果较为准确和完整,图像上部面积较小的煤层区域也能够识别。由图10(d)可知:经典U-net、HrNet、PspNet 模型对煤岩界面的识别存在边缘不匹配真实情况的问题,相较之下,本研究改进模型的识别结果更符合实际情况。由上述试验可知:本研究改进的U-net 模型对煤岩边界的识别更准确,在同样使用小样本训练集进行训练的情况下能够获得较理想的识别结果。
图10 5 种模型煤岩界面图像分割效果对比Fig.10 Comparison of the segmentation effects of coal-rock interface images of 5 models
3 结 论
(1)针对现有的机器视觉方法进行煤岩界面识别中存在的煤岩图像数据集不足的问题,提出了一种基于改进U-net 模型的小样本煤岩界面图像分割方法。 在U-net 模型基础上使用VGG16 更换原有骨干网络,并将Attention Gate 和CBAM 两类注意力机制模块添加到U-net 网络解码器部分,在训练过程中采用迁移学习方法,使得模型在小样本煤岩图像数据集训练下取得较好的分割效果。
(2)通过试验验证了模型改进的有效性,使用VGG16 作为改进U-net 模型的骨干网络相较于经典U-net 模型在准确度上提升了1.93%,引入Attention Gate 注意力机制和CBAM注意力机制模块后,精确度相较经典模型提升了5.62%,反映出改进模型在较少煤岩图像数据训练情况下的分割精度优于经典模型。 此外,在采用相同小样本煤岩界面数据集训练的情况下,改进模型相对于DeeplabV3+、HRNet、PSPNet 等模型,综合性能依然占优势。
(3)本研究从优化小样本训练能力角度对U-net模型进行了改进,为煤岩图像分割技术研究与应用提供了新思路。 后续工作中,需要针对井下低照度环境对模型进行适当优化,同时扩充数据类型,使其具备更精准的判别能力。