APP下载

基于DeeplabV3+改进的煤岩显微组分组自动化测试模型

2023-11-06胡晋玮奚峥皓徐国忠李忠峰

煤田地质与勘探 2023年10期
关键词:显微组分煤岩语义

胡晋玮,奚峥皓,徐国忠,李忠峰,刘 翔

(1.上海工程技术大学 电子电气工程学院,上海 201620;2.辽宁科技大学 化工学院,辽宁 鞍山 114051;3.营口理工学院 电气工程学院,辽宁 营口 115000)

煤炭作为主要化石燃料之一,在满足日益增长的能源需求方面发挥着不可或缺的作用,在可预见的未来仍将是全球能源体系的支柱[1]。煤岩显微组分组的差异表明其物理化学组成的差异,这些差异影响煤的性质(如功能和反应性)[2]。因此,煤的显微组分及其含量对煤的化学工艺性质有着重要影响[3],在显微镜下,煤岩显微组分组可以通过颜色、反射率、突起和形态来区分。近年来,煤岩学快速发展,并形成了一系列煤岩学国家标准,而基于图像处理的煤岩组分自动化识别技术是今后煤岩学研究的重点目标[4]。

长期以来,很多方法可以识别煤岩显微组分组。传统的人工分析取决于操作人员的经验,且耗时耗力。近年来,机器学习在煤岩显微组分分析领域取得了显著进展[5]。P.K.Singh 等[6]通过主成分分析选择了10 个纹理特征,基于多层感知器识别惰质组。宋孝忠等运用K 均值聚类的方法识别煤岩图像[7],此外,并通过剔除假边界的方法[8]提高了煤岩显微图像识别的准确率。Wang Hongdong 等[9]使用聚类方法自动将整个显微照片分割成离散的区域,使每个区域只包含一类显微组分组,再使用随机森林方法识别,其像素准确率为90.44%。

但上述机器学习的方法存在两个显著弊端。第一,现有分类器依赖手工特征,这些特征是专家为一般图形分类设计的,而非为识别煤岩显微图像设计的。第二,由于煤岩显微图像复杂,且显微组分组内存在过渡组分,类内差异较大。因此,现有机器学习方法在识别复杂的煤岩显微图像时性能较差。

基于深度学习的语义分割方法对煤岩显微组分组进行识别则避免了上述问题[10]。DeeplabV3+[11]是一种常见的语义分割模型,用于各种语义分割任务均取得了较好的结果[12],但是其特征提取网络(Deep Convolution Neural Network,DCNN)模块全局特征提取能力较弱,并且其空洞空间卷积池化金字塔模块(Atrous Spatial Pyramid Pooling,ASPP)处理各尺度特征的能力很弱。较DCNN,Swin Transformer[13]的全局信息交互能力有助于特征提取器快速建立全局感受野[14-15],提高场景理解准确性[16],更全面地提取上下文位置信息,避免全卷积神经网络下采样时丢失过多语义细节特征。较基于窗口注意力机制的Vision Transformer[17],Swin Transformer 的自注意力感受视野不局限于固定范围,且计算量较低。而SkNet 处理多重特征信息能力较强[18],可以在多重特征上筛除冗余特征并加强重要特征。因此,笔者提出一种使用Swin Transformer网络和SkNet 对DeeplabV3+改进的语义分割模型。

1 网络模型结构

利用图像处理技术进行煤岩显微组分组分割时,因显微组分组特征的较高复杂性和煤岩煤粒尺度的较大差异性,使得一般分割模型的分割准确率并不理想[6]。并且煤岩显微组分组的分割过程亦可视为对不同组分组特征表征的语义进行分割过程。

由此,本文提出了一种改进DeeplabV3+的语义分割模型,以改善通过计算机对煤岩显微组分组分割时准确率不高的问题。该模型将SwinTransformer[13]骨干特征提取网络替换DeeplabV3+[11]网络的主干特征提取网络,使模型具有移动窗口自注意力性,以提升煤岩显微组分组特征的信息交互能力。并且在DeeplabV3+的空洞空间卷积池化金字塔模块(Atrous Spatial Pyramid Pooling,ASPP)中加入选择核单元网络(Selective Kernel Networks,SkNet)[18],使所提模型可用3 个不同扩张率的空洞卷积提取出最重要的特征,且抑制不重要的特征信息。改进的DeeplabV3+网络结构如图1 所示。

图1 改进的DeeplabV3+网络结构Fig.1 Improved DeeplabV3+network architecture

1.1 基于DeeplabV3+的煤岩显微组分组语义分割模型

DeeplabV3+语义分割模型主要由编码器和解码器两部分构成,编码器包括深度卷积神经网络(Deep Convolution Neural Network,DCNN)模块和ASPP 模块。ASPP 模块的加入,使单依赖DCNN 工作的编码器在深层特征图中具有更大感受野[11]。ASPP 模块主要使用不同膨胀率的空洞卷积,从而获得不同大小的感受野;其大尺度感受野有助于全局特征的获取,而小尺度感受野则可以防止小目标信息的丢失;使得所提取的深层特征图包含的特征信息更加全面,从而更有利于提取具有尺度差异的煤岩显微组分组的特征。在ASPP 模块,可由Pooling、1×1 卷积核和3 个扩张率(rate=6、12、18)空洞卷积分别提取5 个特征图像。将其并联,再经1×1 卷积核压缩特征通道数后,输入至解码器。在解码器中,完成对输入特征图的2 次上采样,获得与原输入图像一致的语义分割图像。

但是在DeeplabV3+模型中的DCNN 仅通过全卷积操作无法同时提取局部和全局的特征信息,更无法直接处理跨尺度信息;在ASPP 模块中提取的图像特征存在大量冗余,含有大量冗余的特征图通过一个卷积层后直接进入解码器,这会导致大量有效特征的丢失。

1.2 基于Swin Transformer 网络改进的Deeplab-V3+编码器

由于煤岩显微图像中各组分组交织杂糅,图像结构复杂,特征提取困难,而Swin Transformer 具有提取复杂细节特征的能力[13]。因此,本文采用Swin Transformer 替代DCNN 作为骨干特征提取网络,利用Swin Transformer 网络改进的DeeplabV3+结构如图2 所示。

图2 基于Swin Transformer 网络改进的DeeplabV3+编码器Fig.2 Improved DeeplabV3+encoder based on the Swin Transformer network

SwinTransformer 骨干网络共有4 种系列结构Swin-Tiny,Swin-Small,Swin-Base 和Swin-Large,经实验验证,当煤岩数据量较少时,使用过大的网络会导致过拟合,因此,本文使用Swin-Tiny,其网络结构如图3 所示。

图3 Swin Transformer 的Swin-Tiny 网络结构Fig.3 Swin-Tiny architecture of Swin Transformer

记高H和宽W的输入图像为I(H×W×3)。本文Swin Transformer 网络操作流程如下。

(1) 将I(H×W×3)经RGB 三通道输入Patch Partition 模块,可得48 个大小为H/4×W/4 的图像块。在通道维度上重新拼接48 个图像块,即拼接后的图像为I1(H/4×W/4×48)。

(2) 将I1(H/4×W/4×48)在Stage1 中沿通道维度展开,经线性嵌入层(Linear Embedding)得到C个大小为H/4×W/4 的特征图。在Swin-Tiny 结构中C=96。再将特征图放入移动窗口注意力模块(Swin Transformer Block)。

(3) Stage 2 到Stage 4 中,为提取不同尺度特征,用块合并层(Patch Merging)替换Linear Embedding 层。设每层输入特征图为I2(H/n×W/n×C×n/4),n分别为8、16、32。在Patch Merging 中将I2分为4 个块,再在通道维度上进行拼接为I3(H/2n×W/2n×C×n)。I3经1×1卷积后得到I4(H/2n×W/2n×C×n/2)。过程中每次进入Swin Transformer Block 后都不改变特征图的大小和通道数,故从Stage 1 到Stage 4 任一阶段输出的特征图与其输入时相比大小均减半且通道数翻倍。

Swin Transformer Block 主要由窗口多头自注意力[9](Windows Multi-head Self Attention,W-MSA)模块和移动窗口多头自注意力(Shifted Windows Multi-head Self Attention,SW-MSA)模块构成,如图4 所示。

图4 Swin Transformer Block 结构Fig.4 Structure of the Swin Transformer Block

其中,LayerNormal 负责层内归一化,多层感知机(Multi LayerPerceptron,MLP)以Gule 为激活函数。Swin Transformer Block 的这种结构特点可使其在固定窗口内通过自注意力构建上下文语义信息的同时,实现不同移动窗口内语义信息交互,如图5 所示。

图5 基于移动窗口的自注意力计算流程Fig.5 Self-attention calculation process based on shifted windows

1.3 基于SkNet 改进的ASPP 模块

由于煤岩显微图像组成复杂,煤颗粒尺度差异大,导致煤岩显微组分组特征提取较为困难。将骨干网络提取的特征图输入ASPP 模块获得不同尺度的特征可解决此类问题。但是,ASPP 模块所提取不同尺度的特征图会保留大量冗余特征。而SkNet 不但处理多重特征信息能力较强,而且可以从输入的特征图中筛选出重要的特征,自适应地学习特征,从而提高网络模型的自适应能力。因此,本文提出了利用SkNet 改进ASPP 模块的方法,将不重要的特征筛除,突出有效特征。经SkNet 改进的DeeplabV3+模型如图6 所示。

图6 基于SkNet 改进的DeeplabV3+Fig.6 Improved DeeplabV3+based on the SkNet

使用SkNet 改进的ASPP 模块如图7 所示。将1.2 节的输出特征图X 作为SkNet[18]输入,分别经rate 为6、12、18 的空洞卷积,得到U1、U2和U3。令U=U1+U2+U3,通过全局平均池化层Fgp,将U压缩为长度为L的向量s。利用全连接层FFC将s的长度缩放为L/r,得到向量z,r为控制参数。

图7 SkNet 网络改进的ASPP 模块Fig.7 Improved ASPP module based on the SkNet

为强化重要特征且抑制冗余特征,利用下式所示的softmax 回归得到长度为L的空洞卷积特征图权重a1、a2和a3。

式中:AL,BL,CL∈R为z的参数矩阵。将式(1)代入式(2)可得经空洞卷积处理后的特征图VL。

2 实验数据采集与实验设置

2.1 实验数据集构建

实验所用数据样本为合作单位采集,包含60 个不同变质程度的单种煤样本,制样和数据获取过程遵循GB/T 8899—2013[19]《煤的显微组分组和矿物测定方法》,镜质体最大反射率为0.61%~1.70%。样本图像由光学显微镜蔡司Axioskop 40 放大500 倍获得,其分辨率为2 048×1 536,且均为在黄色滤镜下采集的RGB 格式。根据我国煤岩显微组分组分类标准[20],煤岩显微组分为镜质组、惰质组、壳质组和矿物质。研究中,邀请3 位煤岩专家对本文所用79 张样本数据进行像素级一致标注,标注中黄、蓝、粉、绿、红分别代表镜质组、惰质组、壳质组、矿物质以及环氧树脂,煤岩显微 图像和标注结果示例如图8 所示。

图8 煤岩显微图像原图(左)和标注结果示例(右)Fig.8 Original microscopic coal images (left) and the example of manual annotation results (right)

2.2 实验数据预处理

深度神经网络训练需要固定图像样本尺寸,但样本数据较少时,训练结果泛化性不强,易造成模型过拟合。为此,本文对每张图像样本进行随机裁剪、按比例缩放、随机翻转和亮度调节处理。在原单个图像样本中任意裁剪大小为512×512 像素子图,将子图按照0.8~1.2 倍比例进行缩放,若缩放后子图较512×512 像素小则使用镜像补全至512×512 像素,若缩放后子图较512×512 像素大则再次裁剪至512×512 像素。对缩放后的子图随机进行翻转操作后,依据原图像样本的亮度对翻转图像进行0.8~1.2 倍处理。过程中,每步操作均生成多张过渡图像以及对应的标注,将其补充进数据集,可获得图像样本共7 900 张。

3 实验结果分析

3.1 模型训练

实验结果均为五折交叉验证得出,即所有数据被均匀分为5 份,其中4 份用于训练,一份用于评价模型性能。模型训练和评价指标均为5 次求和平均。

实验在OpenMMLab 框架下完成。硬件采用Inteli7-10700KCPU+NVIDIA GeForce GTX3080GPU。软件采用Ubuntu16.04 系统,搭载Cuda11.6+PyTorch1.9.0+Python3.8。模型均训练200 个epoch,批量大小为8,使用Adam 优化器,初始学习率为10-3。模型使用的损失函数均为交叉熵损失函数。改进的DeepLabV3+模型和DeepLabV3+模型的训练集和测试集的准确率曲线、损失曲线如图9 所示。损失曲线在迭代开始时迅速下降,并逐渐收敛。2 个网络模型的训练集和测试集的损失曲线趋势一致,训练集和测试集的准确率曲线在开始迭代后迅速上升,随后保持在一个较高的准确率,最终趋于稳定。

图9 2 种模型下损失曲线和模型像素准确率(PA)曲线对比Fig.9 Comparison of the loss curves and PA curves for improved DeeplabV3+and DeeplabV3+

3.2 评价指标

本文采用常用的3 个语义分割指标对模型性能进行评价[8],如下面3 个关系式。分别为像素准确率(Pixel Accuracy,PA)、平均像素准确率(Mean Pixel Accuracy,MPA)、平均交集与并集比(Mean Intersection over Union,MIoU)。

式中:N为煤岩图像划分类别的总数;Pmij为第m个样本中被预测为第j类而实际属于第i类的像素个数;Pmii为第m个样本中预测为第i类实际也属于第i类的像素个数;M为煤岩显微图像样本总数。

3.3 实验结果

不同煤岩显微组分组分割模型的预测结果如图10所示,其中Swin-Deeplab 由DeeplabV3+模型的深度卷积神经网络替换为Swin Transformer 获得。由图10可知,改进的DeeplabV3+模型预测结果细节更丰富,对细小煤粒预测错误率更低,在各煤岩显微组分组间的交错边缘处细粒度更强,预测更加准确。

图10 不同煤岩显微组分识别模型预测结果Fig.10 Prediction results of different identification models for coal maceral groups

3.3.1改进的DeeplabV3+模型性能评价

将改进的DeeplabV3+模型与随机森林[9]、FCN-16s[21]、U-Net[22]、DeeplabV3[23]、DeeplabV3+模型进行性能指标比较,实验结果见表1。

表1 不同煤岩显微组分组识别模型预测结果Table 1 Pediction results of different identification models for coal maceral groups 单位:%

由表1 可见,改进的DeeplabV3+模型在PA、MPA和MIoU 这3 个指标均显著高于其他模型,其中,改进的DeeplabV3+模型在煤岩显微图像测试集上的像素准确率为92.06%,比随机森林方法提高9.48%,比UNet 语义分割模型提高6.90%,比DeeplabV3+语义分割模型像素准确率提高了3.40%。分析其原因,改进的DeeplabV3+模型可以更好地提取和利用煤岩显微图像特征,从而得到更好的分割结果。

3.3.2改进的DeeplabV3+模型消融实验

为验证改进的DeeplabV3+模型各模块有效性,将本文所提方法与Swin-Deeplab 和DeeplabV3+进行性能比较,结果见表2。

表2 改进的DeeplabV3+模型消融实验Table 2 Ablation experiment results of the improved DeeplabV3+model 单位:%

由表2 可见,改进的DeeplabV3+模型在PA、MPA和MIoU 这3 个指标上都取得了最好的分割效果。与DeeplabV3+相比,Swin-Deeplab 因Swin Transformer的引入,提高了模型特征提取能力,且更加注重特征间关联。改进的DeeplabV3+模型在Swin-Deeplab 中补充了SkNet 网络,提升了模型针对不同特征的选择性能,突出了重要特征。

3.3.3Swin-Transformer 系列骨干网络选择

在1.2 节中,在选择Swin-Transformer 系列骨干网络中选择使用Swin-Tiny,而非Swin-Small、Swin-Baes 和Swin-Large,以避免模型过大而导致过拟合。本文选用Swin-Small 骨干网络加入模型训练,其预测图像如图11 所示,其训练损失曲线和像素准确率如图12 所示。由图12 可见,在迭代轮次小于500 时Swin-Small 分割模型的训练集和测试集损失曲线一同降低,但在500 个迭代轮次之后,随着模型迭代轮次的增加,训练损失逐渐减小,但测试的损失却逐渐增大;且模型的测试集像素准确率在提升到70%附近不再增加,但是模型的训练集像素准确率却一直在增加;模型明显过拟合。如果使用参数量相对Swin-Baes 和Swin-Large 较少的Swin-Small 时已经出现过拟合现象,若使用Swin-Baes 和Swin-Large 也必然会出现过拟合。

图11 使用Swin-Tiny 和Swin-Small 的分割模型预测结果Fig.11 Prediction results of Swin-Tiny and Swin-Small segmentation models

图12 使用Swin-Small 分割模型的损失曲线和模型像素准确率曲线Fig.12 Loss curves and PA curves of the Swin-Small segmentation model

3.4 混淆矩阵分析

本文使用混淆矩阵来评估每类煤岩显微组分组分割的准确率,结果见表3-表5。改进的DeeplabV3+模型对所有组分组的分割正确率均高于对比模型,其中壳质组分割正确率相较于DeeplabV3+模型提升了10%,壳质组分割正确率显著提升。

表3 改进的DeeplabV3+模型识别煤岩显微图像混淆矩阵Table 3 Confusion matrix of the improved DeeplabV3+model for identification of microscopic coal images

表4 Swin-Deeplab 模型识别煤岩显微图像混淆矩阵Table 4 Confusion matrix of the Swin-Deeplab model for identification of microscopic coal images

表5 DeeplabV3+模型识别煤岩显微图像混淆矩阵Table 5 Confusion matrix of the DeeplabV3+model for identification of microscopic coal images

3.5 煤岩显微组分组定量分析

显微组分组的定量分析在煤岩应用领域有重要作用。为了验证本文方法的有效性,对比了改进的DeeplabV3+方法和人工点测方法对显微组分组的测试的结果。改进的DeeplabV3+方法对煤岩显微图像的每个像素都会测定出所属显微组分组类别。每张图片每个显微组分组的占比计算方式如下:

式中:Pb为图像中第b类显微组分组所占比例;J为本图像中所有的像素数量;hb为b类显微组分组的像素数量;h0为图像中制片黏结剂像素数量。

如图13 所示,改进的DeeplabV3+方法对79 张煤岩显微图像各显微组分组的预测结果与人工方法测定的结果相近。

图13 各显微组分组的比例Fig.13 Proportions of various maceral groups

为了定量对比改进的DeeplabV3+方法与人工点测方法测试结果之间的差异,使用平均绝对误差EMA(Mean Absolute Error,MAE),计算方法如下:

式中:Pbm与分别为人工点测方法和本文方法测定的第b张图像的第m类显微组分组的比例;M取79。

本文计算了的4 个显微组分组的EMA值,镜质组、惰质组、壳质组和矿物质的EMA分别为5.05%、4.23%、5.19%和2.09%。

4 结论

a.针对煤岩显微图像组成复杂,特征提取困难的问题,将Swin Transformer 网络引入DeeplabV3+语义分割模型作为特征提取网络,增强了模型对煤岩显微图像特征的提取能力;其次,针对ASPP 模块所提取的特征中存在大量冗余特征的问题,在ASPP 模块中融入SkNet,使模型拥有了强化有效特征,抑制非重要特征的能力。

b.将改进的DeeplabV3+语义分割模型在煤岩显微组分组识别任务上与先进的深度学习语义分割模型进行性能对比实验;结果表明改进的DeeplabV3+语义分割模型的PA、MPA 和MIoU 指标分别为92.06%、74.66%和63.51%,显著高于对比模型。分别使用改进的DeeplabV3+方法和人工点测方法对79 张煤岩显微图像进行测试;2 种方法测定的镜质组、惰质组、壳质组和矿物质的平均绝对值分别为5.05%、4.23%、5.19%和2.09%。结果表明改进的DeeplabV3+方法与人工点测方法测试结果相近。

c.改进的DeeplabV3+方法在煤岩显微组分组自动识别任务上展现出较强的潜力,可作为一种强大的计算机辅助人工识别煤岩显微组分组的手段,具有一定的实用价值,为煤岩显微组分组自动化识别提供了新的研究思路。

猜你喜欢

显微组分煤岩语义
玉华矿4-2煤裂隙煤岩三轴压缩破坏机理研究
宁东中高硫煤显微组分富集物的热解硫释放规律
语言与语义
贵州大河边矿煤显微组分解离规律及其分选
“上”与“下”语义的不对称性及其认知阐释
祁连山冻土区木里三叠系烃源岩地球化学特征
半煤岩巷金属支架锚杆联合支护在白源矿应用
综掘机在大坡度半煤岩巷中的应用
基于测井响应评价煤岩结构特征
认知范畴模糊与语义模糊