基于改进U-NET模型的煤岩图像识别算法研究
2023-09-28赵杰赵浩徐晗
赵 杰 赵 浩 徐 晗
(黑龙江科技大学,黑龙江 哈尔滨 150022)
目前,中国的远景煤炭资源量已达6.02万亿t,其中1.71万亿吨属于保有查明储量,约占中国已探明化石燃料资源的97%。相比之下,煤炭资源的数量大大超过了其他化石资源的数量总和[1],采煤机如何快速、准确地识别煤层和岩石层的分布情况成为煤炭开采领域内的技术难题,在采煤机工作面中含有大量的煤岩特征信息,因此,大量研究者利用图像处理方法来对煤岩识别进行研究。另外,深度学习技术已经运用于智能采矿领域中[2],司垒等[3]通过优化U-NET网络模型并加入Res2Net来增强模型读取特征值的功能,提高了识别煤岩交界区的精准度[4]。史健婷等[5]改进U-NET++算法,采用“剪枝”操作对数据集进行预测,提高了运算速度和分割精度。该文采用循环卷积模块(RCL)代替原来U-NET中的常规卷积模块,并在下采样过程中添加卷积注意力机制(CBAM),在提高模型运行效率的同时提高特征提取能力,与传统U-NET模型相比,其具有更高的分割性能。
1 传统U-NET模型
在U-NET网络模型中,左侧为编码部分,右侧为解码部分,编码部分采用典型的卷积网络结构,分为2个3×3卷积核,每个卷积运算操作后面有 1 个RELU单元和2×2的最大池化层,可以实现向下采样,在每个向下采样步骤中,特征通道的容量都会增加1倍。解码部分中每一项都包括特征映像的向上采样,然后用2×2卷积核通过卷积运算使特征映像的个数减半,然后将编码部分中裁剪的特征映像串联并加上2个3×3卷积核,最后一层使用1×1卷积核进行卷积运算,将每个64维的特征向量映射到输出层,网络总共有23个卷积层。
2 改进后的模型
由试验可知,U-NET网络提取的特征信息不够丰富,存在局部信息丢失的问题,其原因是下采样阶段和上采样阶段的特征图在语义上并不具有相似性,当网络进行训练时,直接向解码阶段传递高分辨率的特征图将导致分割结果在语义上具有不一致性,使分割结果变差,因此对U-NET进行改进,改进后的网络模型结构如图1所示。在编码部分使用循环卷积网络,利用循环卷积层进行特征积累,有助于提取特征;同时,引入卷积注意力机制(CBAM)为特征赋予权重值,使网络可以提取更丰富、更有意义的特征并筛选更重要的特征。由图1可知,输入图像在第一层编码阶段先通过循环卷积操作提取特征,然后经过注意力模块重新校准特征图,最后对特征图进行池化操作,使图像尺寸变小;第二、第三和第四层编码与第一层操作相同,只是通道数扩大,最后进行1次循环卷积操作并经注意力模块将特征图传输至解码阶段。在每层解码阶段依次进行上采样和反卷积操作,最后经过1×1卷积输出预测值。试验结果显示,改进后的模型比U-NET网络具有更高的分割性能,解决了分割结果中图像信息丢失的问题。
图1 改进后模型
2.1 循环卷积模块
在循环卷积模块中,前馈连接和循环连接都具有本地连接和不同位置之间的共享权重。循环卷积模块的状态在离散步长上演化。某层网络输入计算方式如公式(1)所示。
式中:i、j为2个像素定位;k为第k个特征图;zijk(t)为某个单元内时间t的输出;u(i,j)为普通反馈网络的输入;x(i,j)(t-1)为某个单元内循环输入;wfk和wrk分别为第k个特征图的标准前馈卷积层的权重和循环卷积层的权重;f为标准前馈卷积层;r为循环卷积层;bk为偏差。
公式(1)第一项用于标准卷积层,第二项用于诱导循环连接,可以解决网络模型中网络退化的问题。
2.2 卷积注意力机制
卷积注意力机制(CBAM)将通道注意力机制与空间注意力机制串行连接,其结构如图2所示。首先,通道注意力机制对特征图进行最大池化和平均池化操作。其次,对池化的结果进行全连接层计算,再经过Sigmoid激活函数得到输入特征图每个通道的权值。最后,将权值与原输入特征图相乘,得到最终的通道注意力特征图。空间注意力机制用于压缩空间,首先,通过2个池化操作聚合1个特征图的通道信息。其次,将信息连接起来并进行1×1卷积操作,得到通道为1的特征图。最后,使用Sigmoid激活函数进行标准化操作,以得到最终的空间注意力特征图。
图2 注意力机制
3 仿真测试
3.1 数据集处理
试验所用样本全部拍摄于黑龙江科技大学,共拍摄120张,精简后剩余100张。
拍摄的100张数据样本通过MATLAB进行亮度变换、添加噪声以及图像模糊操作,以扩充数据集,共获得600张图片,500张用于训练,另外100张用于测试。
常见的语义分割标注工具(例如Labelme)通常都是采用勾画多边形的方法进行标注的,如果图像不规则,就会延长标注时间,并且需要进行二值化转换,相比之下,Photoshop中的套索工具可以高效、迅速地划分物体边界区域,简单、易掌握且时间成本低,因此考虑使用该工具来完成数据标注任务。
3.2 模型训练
将所准备的数据集分别导入传统U-NET网络和改进模型进行训练,训练的准确率如图3所示(改进后的模型训练准确度变高)。
图3 训练准确率
3.3 结果对比
采用训练好的模型对测试集进行测试,为了便于观察,对识别结果进行二值化处理,从左至右依次为输入图像、U-NET识别结果和RU-NET识别结果,该文选取4张测试结果如图4所示。结果显示,2种模型一般都能够大致地区分煤和岩石的范围,但是RU-NET模型对煤和岩石的交界处分割得更精准。
图4 测试结果
通常采用像素准确度(Pixel Accuracy)和交并比(Intersectionover Union)对语义分割结果进行分析。
识别正确的图像像素数量与原图像像素总数之间的比率PA如公式(2)所示。
式中:k为图像像素类别的数量;Pij为i类同时预测i类的像素总数;Pii为i类被预测j类的像素总数。
分割结果与原始图像真值的交并比为IOU,在目标检测中表示系统预测的检测结果与原图片中标记检测结果的重合度,其最理想的值为1,IOU如公式(3)所示。
式中:A为预测区域;B为实际标注区域。
该文语义分割结果的4张测试图的PA评估得分如下:U-NET得分分别为88.85、89.24、86.35和87.20,平均分为87.91;RU-NET得分分别为89.90、90.88、89.40和90.26,平均分为90.11。改进后的模型比原有模型4张测试图的PA得分分别提高了1.05、1.64、3.05和3.06,平均得分提高了2.2;该文语义分割结果的4张测试图的IOU评估得分如下:U-NET得分分别为81.92、82.03、79.10和80.66,平均分为80.93;RU-NET得分分别为82.90、83.88、81.40和82.26,平均分为82.61。改进后的模型比原有模型4张测试图的IOU得分分别提高了0.98、1.85、2.3和1.6,平均得分提高了1.68。结果表明,改进后模型对图像的识别精度变高。
4 结语
该文将循环卷积模块引入传统U-NET网络模型中,以替换原来的卷积单元,并且添加了卷积注意力机制,循环卷积模块在提高了图像上下文语义信息利用率的同时,还扩大了图像特征提取范围,卷积注意力机制模块对提取到的多维度特征进行权重校准,使重要特征得到更多关注,使网络模型可以提取更多有意义的特征,从而更精准地分割图像。在试验测试中,改进后的RU-NET网络模型在视觉上取得了更好的效果。