高变质煤HRTEM图像中芳香晶格条纹的MASK R-CNN识别

2021-03-24王绍清常方哲王小令李雪琦

煤炭学报 2021年2期

王绍清，常方哲，陈昊，王小令，李雪琦

(中国矿业大学(北京) 地球科学与测绘工程学院，北京 100083)

中国工程院战略研究表明，我国煤炭资源总量丰富[1]，2050年以前以煤炭为主导的能源结构难以改变[2]。近年来，人工智能作为一门融合多方面知识的交叉学科，在自动驾驶、语音服务、人脸识别、地物分类等方方面面影响和改变着人们的生活[3]。人工智能的兴起也给煤炭行业带来了巨大的影响，在其推动下，煤炭行业向着网络化、机械化、自动化等方向前进，主要表现为:① 仪器仪表性能改进，网络化全覆盖;② 推动自动化的实现，提高操作系统精确度;③ 智能监测、事故预防诊断一步到位[4]。在煤炭领域推广人工智能技术，有助于推动我国煤炭行业向绿色环保、智能生产等方面发展和进步。

煤是非均质可燃沉积岩[5]，其有机部分化学组成复杂，包含芳香族、脂肪族等多种化合物[6]，其中芳香族化合物构成了煤的基本骨架[7]。深入开展煤化学结构研究，是煤炭高效清洁利用的重要前提[8-9]。利用高分辨率透射电子显微镜(HRTEM)可以检测出煤的芳香层片结构[10]。到目前为止，对煤HRTEM图片中提取芳香晶格条纹的方法主要有以下2种:① 依靠人眼识别的人工解译[11](人工)，在识别过程中存在人工解译慢、周期长和工作量大的问题;② 基于像素级的定量拓扑计算(传统)，采用先二值化图像再进行骨骼化处理[12]。如NIEKERK 和MATHEWS[13]通过ImageJ和Adobe Photoshop等软件调整HRTEM图像的阈值进行图像二值化，进而人工提取出芳香晶格条纹;YEHLIU等[14]借助图像处理函数库，使用MATLAB语言编写骨骼化程序，成功提取芳香晶格条纹;康倩楠和张志强[15]利用MATLAB语言开发了名为VirtualFringe的程序，通过阈值与灰度的调整、高斯模糊、傅立叶变换、二值化、骨架提取、分枝剪切与修剪等方法，从煤的HRTEM图像中抽取出芳香晶格条纹。以上传统方法具有相同的局限性，主要表现为:① 二值化操作会丢失图像的部分像素信息，降低了数据的可靠性;② 通过软件设置阈值进行二值化操作，存在着人为主观性的问题，降低了结果的可靠性;③ 传统方法中采用批量提取芳香晶格条纹的核心是骨骼化算法，该算法存在着计算量大、负荷高、提取结果的边缘混乱和堆叠严重等问题。

最近十多年来，人工智能神经网络的研究已经取得了很大的进展，在资源、生物、医学、经济等领域，已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。人工智能神经网络与传统的图像处理方法相比，其特点是跳过了各种复杂的前期预处理过程，实现端到端的输入和输出，避免人为主观性对识别结果的影响，保证原始数据的可靠性。基于此，笔者将人工智能、计算机图形学和煤化学等学科进行结合，通过多学科、多领域的交叉融合，解决传统方法识别芳香晶格条纹过程中存在的实际问题。

1 MASK R-CNN神经网络

1.1 MASK R-CNN

卷积神经网络的概念，始于HUBEL和WIESEL[16]提出的感受野(数字矩阵中的一个数字所对应的原图中的区域大小)及FUKUSHIMA[17]提出的神经认知机。随后LECUN[18]提出的反向传播算法推动了卷积神经网络进一步发展。但是受当时环境的影响，卷积神经网络并未进行更深入的普及和发展。直到2012年，KRIZHEVSKY等[19]提出的AlexNet网络，在ImageNet竞赛上取得冠军，使得卷积神经网络再次成为图像分析的主流。2012年以后，卷积神经网络开始了家族式的发展，短时间内RCNN[20]，Fast RCNN[21]，Faster RCNN[22]，ResNet[23]到MASK R-CNN[24]相继被提出。MASK R-CNN是由何凯明等提出的双步检测框架，目前在RCNN家族中进化程度最高、性能最优。与其他RCNN相比，MASK R-CNN可以在完成语义分割的同时进行实例分割，即MASK R-CNN可以在对物质进行分类的同时，分割出该类物质的每一个独立个体。凭借这个优势，MASK R-CNN正在快速应用到目标识别和检测分割的各个领域。

1.2 卷积神经网络提取图像特征的原理

数字图像由二维的元素组成，每一个元素具有一个特定的位置(x,y)和幅值f(x,y)(可以是多元组，例如RGB图像是三元组)，这些元素称为像素。图像卷积的过程是计算每一个像素点的邻域像素和滤波器矩阵的对应元素的乘法再相加，并作为该像素位置的值(图1)，其中的滤波器矩阵被称为卷积核，滤波器矩阵的对应数值被称为权重，卷积核的初始值可以通过人为设定或者函数随机生成。每个卷积核可以提取一种特定的特征，如图1(a)中以3×3的卷积核计算图像卷积，所得结果中矩形对应的卷积特征值较大，因此对比于三角形和圆形，该卷积核的权重更适合提取矩形特征。图像卷积能够提取出超越人脑理解的图像特征，图1(b)展示了高变质煤HRTEM图像的像素特征，其中红蓝条纹的区间即为芳香晶格条纹，表现为前景像素值稳定、与背景值差别较大、条状特征明显，因此适合进行卷积特征提取。

图1 图像卷积提取特征Fig.1 Image convolution to extract features

1.2.1卷积——提取图像特征

图像由背景和前景组成，前景分为多个目标，每一个目标包含多个图像特征。一般认为图像的空间联系中局部的像素联系比较密切，而距离较远的像素相关性较弱，因此，每个卷积核只能对局部进行感知，然后在更高层通过全连接将局部的特征综合起来得到全局的分类信息。在图像特征提取的过程中，计算机依靠反馈神经网络自动调整卷积核的权值，经过大量的测试和验证，可以找到最能表现图像特征的卷积核权值(卷积层输出值最高)。

1.2.2池化——分离主要特征

卷积层从图像中提取特征，卷积核越多则权重参数越多。池化层可以减少参数的数量，仅保留最有用的图像信息，如图2所示。

图2 池化示意Fig.2 Schematic diagram of pooling

1.2.3全连接——局部特征全连接构建分类器

将某一目标对应的全部卷积核所计算的卷积特征值连接起来作为该目标的分类器，如图3所示，分别连接S2:feature maps中所有表示矩形、三角形和圆形的卷积特征值部分(120个卷积核)，形成矩形、三角形和圆形的3个分类器。根据以上3个目标的特征值分类器，可以实现在各种图像中识别出矩形、三角形和圆形的功能。

1.3 结构和代码流程

MASK R-CNN是一个2阶段的识别框架，包括:① 扫描图像并生成候选框(Proposals);② 对proposals分类(Classes)和边框回归(Bounding boxes)并生成掩膜(mask)。

MASK R-CNN的训练流程如图4所示，该网络在主干结构(Backbone)中实现卷积特征提取(Feature maps)以及特征金字塔(FPN)融合，在区域生成网络(RPN)中生成Proposals，随后进入池化层(ROI align)进行池化(Pooling)，池化结果分成2条并行的线路进入顶端(Head)部分:① 分别通过Bounding boxes和Classes，实现边框回归和多元分类(softmax算法);② 在掩膜分支(Mask branch)中反卷积出与class结果大小相同的Mask。MASK R-CNN的网络流如图5所示，其具体流程为:

图3 卷积网络提取特征示意Fig.3 Schematic diagram of feature extraction by convolutional network

图4 MASK R-CNN训练流程示意Fig.4 Schematic diagram of the training process of MASK R-CNN

图5 MASK R-CNN网络流程Fig.5 Network flow chart of MASK R-CNN

训练样本在backbone的ResNet101进行卷积特征提取。ResNet101网络包括第1卷积层、第2卷积层、第3卷积层、第4卷积层和第5卷积层，样本在每一层经过卷积(Convolution)、正则化(BN)、激活函数(RELU)3步提取特征，获得不同尺度的Feature maps:[C1,C2,C3,C4,C5]进入FPN网络。FPN网络利用[C2,C3,C4,C5]建立特征图金字塔，通过卷积、池化、融合等操作获得各尺度融合后的Feature maps:[P2,P3,P4,P5,P6]，其中P6是将P5按一定步长进行最大池化操作得到的。Feature maps:[P2,P3,P4,P5,P6]进入RPN网络，为了提取Proposals对Feature maps:[P2,P3,P4,P5,P6]的每一个像素点，按一定的大小和长宽比生成9个的锚点(Anchor)。分别计算每个Anchor为前景的得分或为背景的得分(分类)，以及Anchor与真实框(Ground truth)之间的偏移量(回归)。根据RPN网络的损失函数(Softmax分类函数的交叉熵损失函数和Bounding boxes回归算法的SmoothL1Loss损失函数)计算分类得分和回归偏移量的损失值(Loss)。根据损失函数求导后的结果，指导下一次分类和回归的参数更新，即通过更新权重实现反向传播。经过无数次的反向传播，逐渐拟合到分类和回归的最优Proposals，同时得到最优的权重参数模型。在ROI align layer网络中将Proposals进行Align pooling，映射成固定大小的Feature maps，且每个像素点保持准确的坐标。最后Feature maps并行进入2条路线，一条进行最终检测的Classes和Bounding boxes，另一条经过FCN网络中将特征映射到与原始图片大小相同，输出Mask结果。

图5参数的说明:

(1)Backbone:用于提取图像Feature maps的一系列卷积层。MASK R-CNN包含ResNet50和ResNet101两种结构，训练过程中选择的是ResNet101结构。

(2)ResNet:残差网络，是以跳跃连接的方式，将前若干层的输出结果作为后面数据层的输入数据的结构，可以加速提取Feature maps。

(3)Feature Pyramid Networks:特征金字塔网络简称FPN，包含纵向路径和横向路径。纵向路径的其中一条是自下而上的卷积路径，Feature maps在该路径上经过卷积核的计算，通常会越变越小;另一条是自上而下的池化路径，把更抽象、语义更强的高层特征图进行上采样;并通过横向路径连接至前一层特征，使每一层的Feature map都融合不同分辨率、不同语义强度的特征。

(4)Region Proposal Network:区域生成网络简称RPN，是通过前景、背景分类和边框回归，进行候选框提取的网络。

(5)ROI Align layer:通过双线性插值的方法，将像素点上的坐标精度，提高到浮点数级别的池化网络。

(6)Fully Convolution Network:全卷积网络简称FCN。通过反向卷积(Deconvolution)，将最后一层的Feature map进行上采样，得到与原图大小一致的热图(Heatmap)，即每个位置输出该点所对应的类别概率。

(7)Head:包括目标检测最终的Classes,Bounding Boxes和通过FCN生成的与Class结果大小相同的mask。

1.4 精度评价方法

混淆矩阵是一种评价分类型模型最直观的方法。通过混淆矩阵可以计算准确率(A)、精准率(P)、召回率(R)和交并比(I)等指标。评价指标的数值越大，模型的精度越高。混淆矩阵如图6所示，混淆矩阵计算原理如图7所示。

图6 预测结果与真实结果的混淆矩阵Fig.6 Confusion matrix of predicted results and real results

图7 混淆矩阵计算原理Fig.7 Calculation principle of confusion matrix

各指标计算公式为

A=(TP+TN)/(FP+TP+FN+TN)

(1)

P=TP/(TP+FP)

(2)

R=TP/(TP+FN)

(3)

I=TP/(TP+FP+FN)

(4)

2 MASK R-CNN识别芳香晶格条纹的过程

MASK R-CNN识别芳香晶格条纹的过程，包含样本制作、模型训练、精度评价和结果对比4部分。整个过程的流程如图8所示。

图8 芳香晶格条纹识别对比流程Fig.8 Comparison flow chart of aromatic lattice fringe recognition

2.1 样本制作

图9展示了骨骼化方法提取芳香晶格条纹的过程中，表现出的边缘混乱和堆叠严重的现象，因此解决传统提取方法中存在的问题是样本制作的重要内容。在正式的模型训练之前，进行了一次预实验。预实验制作了一批以二值图为基础的样本集，随后将该样本集投入模型进行训练。预实验结果显示，以二值图为样本训练生成的模型，其精确度只有50%。导致该预实验结果较差的原因，与传统提取方法存在的问题具有一定的相似性。首先是二值图丢失了图像信息导致了精度下降;其次是基于PS等软件的二值化操作，存在着人为主观性的问题，降低了数据的可靠性。针对以上问题，新制样方法改进了预处理过程。具体样本制作方法如下:

样本来源于某高变质煤在不同温度下的HRTEM图像。HRTEM中芳香晶格条纹表现为形态大小不一的碎小斑块或条状斑块，识别难度较高。为了降低肉眼的识别难度，需要先对样本进行预处理。首先将HRTEM图像的像素范围按照自然断裂法分为9级(图10(a))。其次对图像中的像素进行重分类，提取第一、二、三类为1，其他类为0。最后对重分类后的HRTEM进行边界清理，获得肉眼可辩的芳香晶格条纹底图(图10(b))。此操作可以避免人为选择阈值造成可靠性降低的问题，保证标注矢量的准确性和客观性。

图9 骨骼化堆叠、混乱示意Fig.9 Schematic diagram of stacking and chaotic skeletonization

图10 样本标注示意Fig.10 Schematic diagram of sample labeling

在处理后的HRTEM上进行手工标注，作为样本集的矢量数据(图10(c))。将矢量数据与原始HRTEM叠加后作为基本样本集。使用原始HRTEM作为样本底图，保证数据的完整性和可靠性。通过自编写python工具将基本样本集裁剪为计算机能够处理的合适分辨率，如128像素×128像素和192像素×192像素(为保证裁剪边界的芳香晶格条纹也能被学习到，裁剪为2个不相交的样本集)。再通过python工具将裁剪样本集转换为MASK R-CNN可以识别的标准格式(coco数据集格式):annotations,train2014和val2014三个文件夹。最终训练样本为2 786张图片，验证样本为310张图片，测试样本为252张图片。

2.2 模型训练和测试

进行MASK R-CNN训练过程中，通过不断调整config参数和优化网络结构，最终获得识别芳香晶格条纹最优的权重参数。训练的硬件环境包括显卡NVIDIA Quadro P2000、处理器Intel Xeon Silver 4110等。编译的软件环境为python语言，训练过程中使用的python依赖库为GPU版本的Tensorflow 1.15,keras 2.2.5,GDAL和arcpy等。

在config参数设置方面，ResNet网络层数设置为101，GPU个数设置为2，STEPS_PER_EPOCH设置为1 200。为提高训练速度，先设置高学习率(l=0.002)进行训练，找到当前最优的权重参数，再使用低学习率(l=0.000 1)进行迁移学习。根据低学习率训练过程中产生的训练集Loss和验证集Val_loss曲线拟合图(图11)，选择最优的权重参数(Val_loss稳定后的最低值)。使用获得的权重参数对测试集进行识别测试，并根据混淆矩阵计算精确度，以80%为阈值判断该模型是否需要进行调整和再训练。

图11 Loss曲线拟合Fig.11 Loss curve fitting diagram

3 芳香晶格条纹识别结果及对比分析

为了验证智能提取方法的有效性，以人工解译结果为标准，进行与传统提取结果的对比实验，包括识别效果、评价指标和提取参数3个方面。

3.1 识别效果对比

将原始HRTEM图像(图12(a))二值化(图12(b))后，分别进行人工识别和骨骼化处理，获得人工解译(图12(c))和传统提取(图12(d))的结果。通过MASK R-CNN识别原始HRTEM图像，获得智能提取结果(图12(e))。图13展示了以上提取结果的局部对比情况。从整体视觉效果来看，相对于传统提取结果，智能提取结果与人工解译结果更接近。同时可以观察出，传统提取结果存在漏检、断线、堆叠和混乱的情况。而智能提取结果的线条更平滑，连接性更好。

图12 人工、传统和智能识别结果示意Fig.12 Schematic diagram of manual,traditional and intelligent recognition results

图13 芳香晶格条纹识别对比Fig.13 Aromatic lattice fringe recognition comparison chart

3.2 评价指标对比

以人工解译作为真实结果，依据混淆矩阵原理，分别将智能提取结果和传统提取结果记录到混淆矩阵如图14，15所示，并根据公式计算评价指标记录到表1。对比表1中2组数据，智能提取方法在4个指标上均超过了传统提取方法，特别是在精准率上表现的尤为突出。根据评价指标的性质(数值越大，精度越高)，可以判断出智能提取方法在提取精度方面是优于传统提取方法的。

图14 智能识别混淆矩阵结果Fig.14 Intelligence recognition confusion matrix results

图15 传统识别混淆矩阵结果Fig.15 Traditional recognition confusion matrix results

3.3 长度和取向分布对比

对人工、智能和传统提取的结果，进行芳香晶格条纹取向和长度的统计，其中参考NIEKERK和MATHEWS[13]的分类方法，依据高变质煤HRTEM的图像特性，增加了噪音和异常的属性划分，完成HRTEM芳香晶格条纹归属分类表(表2)，得到取向和长度分布如图16所示。在取向趋势方面，根据图16(a)～(d)可以看出智能提取结果与人工解译结果的取向趋势更相近，而传统提取结果在-60°(120°)附近多了一些误差。另外从长度分布统计(图16(e))来看，智能提取结果与人工解译结果相近，而传统提取结果噪音更多(长度小于0.3 nm)。

表2 HRTEM芳香晶格条纹归属分类Table 2 Classification of HRTEM lattice fringes

4 结论

(1)智能提取方法与人工解译方法相比，通过计算机算法进行识别芳香晶格条纹，降低工作成本，提高工作效率。

(2)智能提取方法与传统提取方法相比，提高了准确率。① 智能提取方法跳过了前期预处理，直接从原始HRTEM中提取芳香晶格条纹，既避免了人为选择阈值的主观性问题，又保证了数据的完整性;② 在芳香晶格条纹的取向和长度统计方面，智能提取结果与人工解译结果基本一致;③ 在评价指标方面，智能方法的准确率和精准率分别为91.2%和85.2%，高于传统方法的89.9%和62.1%，说明了该智能提取方法的可靠性更高;④ 智能提取方法在各种复杂条件下提取的结果更趋向于智能化，表现为提取的线条平滑度更高，连贯性更好，同时也能够自动去除噪音。