基于迁移学习的煤岩壳质组显微组分识别模型

2022-02-26王培珍薛子邯张代林

煤炭科学技术 2022年1期

王培珍，余晨，薛子邯，张代林

(1.安徽工业大学电气与信息工程学院,安徽马鞍山 243032；2.安徽工业大学工程实践与创新教育中心,安徽马鞍山 243032；3.安徽工业大学煤的洁净转化与综合利用安徽省重点实验室,安徽马鞍山 243032；4.安徽工业大学冶金减排与资源综合利用教育部重点实验室，安徽马鞍山 243032)

0 引言

煤岩显微组分的组成影响煤的反应性、热破碎性质、黏结性和对CO的吸附性等[1-2]。壳质组是煤岩三大组别之一，实现对煤岩壳质组中显微组分的自动分类与识别对煤的清洁高效利用具有重要意义[3-4]。目前国内外对于煤岩显微组分辨识别大多采用人工观测法，自动化程度低，结果易受主观因素影响。针对上述问题，已有研究者尝试采用图像处理技术对煤岩显微组分进行分析与识别，如：BRIENA等[5]利用反射光与SEM图像系统测量煤显微组分区域面积等参量；SKIBA等[6]提出一种结合多层感知机和Haralick纹理特征的煤岩惰质组显微组分识别方法。笔者课题组也对煤岩显微组分自动识别作了一定的研究[7-11]，分别采用多重分形去趋势波分析、轮廓波变换等方法对煤岩显微图像的纹理特征进行分析，进一步采用主成分分析法(PCA)、局部保留投影(SLPP)等对特征量进行抽取，并构建基于径向基函数的支持向量机(RBF-SVM)，使用极限学习机等分类器对煤岩显微组分进行分类，并取得了一定的效果。但是采用这些方法提取煤岩显微组分特征量需要大量的人工参与，难以实现完整的自动分类。

卷积神经网络能自动学习图像特征从而可以避免传统方法中特征提取环节的人工参与。2012年AlexNet网络在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)中的卓越表现确立了深度学习在计算机视觉领域中的地位[12]，此后新的卷积神经网络优化模型陆续出现，典型的如VGG网络模型[13]、GoogleNet模型[14]及 ResNet模型[15]等，其在大型数据集ImageNet上识别准确率不断提高。由于煤岩显微组分样本数较少，由此独立地训练上述网络模型易产生过拟合，难以达到预期效果。迁移学习可以利用在大型数据集上已经训练好的网络参数根据目标数据集进行再次优化，对小样本数据识别问题是较好的解决方案。基于此，采用深度学习技术构建预训练网络模型，在ImageNet数据集上完成预训练网络的训练，结合煤岩壳质组显微组分样本对模型进行迁移学习，实现壳质组显微组分特征量的自动提取，由此实现对煤岩壳质组显微组分的自动识别。

1 特征分析及数据集的构建

依据煤岩显微组分的分类标准[3],壳质组共含10种显微组分，其中某些组分较为罕见。因此，选择较为典型的孢粉体、角质体、沥青质体、木栓质体、树皮体、碎屑壳质体和藻类体7种显微组分为研究对象，其在油浸反光下典型显微图像[16]如图1所示。

图1 部分壳质组组分反射光下显微图像

由图1所知，孢粉体含大孢子体、小孢子体2类亚显微组分，大孢子体多为压扁长环形，呈封闭状态，小孢子体呈扁环形、蠕虫状等(图1a)；角质体多呈长条状，且外缘平滑、内缘呈锯齿状(图1b)；沥青质体来源于藻类、细菌等降解物，常分布于其他组分之间，没有固定的形态和结构(图1c)；木栓质体常为叠瓦状(图1d)；树皮体多呈扁平的长方形，排列比较规则(图1e)；碎屑壳质体大多呈棱角状或不规则形态(图1f)；藻类体呈纺锤形或不规则形态(图1g)。壳质组中不同显微组分形态各不相同，亮度、纹理具有一定差异，但某些类别间又存在一定的相似性,若用传统方法从亮度、纹理、形状等角度提取特征信息，存在大量信息冗余，特征量间存在较强的相关性，影响识别准确率。

鉴于此，选取壳质组7种类显微组分共315幅显微图像作为样本，从中随机抽取210幅构成训练集，其余105幅为测试集。由于训练集样本数有限，采用数据增强技术对样本数据进行扩充，用于迁移学习的参数再次训练。根据样本特点，扩充主要采用随机缩放、随机平移等方法，扩充后的训练样本集图像数为1 260幅。

2 网络模型的构建

2.1 迁移学习

深度学习是一类含有多隐藏层、多感知器的网络结构，通过多层处理对外部输入的数据进行更抽象、更深层次的特征提取与表示，更适合于完成复杂的分类任务[17]。卷积神经网络作为深度学习重要方法之一，在解决拥有大数据集的图像分类与识别问题时具有明显优势；但对于小样本条件，样本数据量不足其训练出的分类器易过拟合，且较差。迁移学习可以将在大型数据集上训练完成的网络模型，结合新的数据集经过微小的修改与调整，在另一数据集上得到模型权重参数的复用[18]。

迁移学习的方法主要有2类：特征迁移和模型微调。特征迁移方法在训练新的模型时，移除在大型数据集上训练好的预训练模型网络的最后一层，将预训练模型卷积基(池化层和卷积层)中所提取的特征向量移植至新的分类器进行训练。模型微调方法需要在新的数据集上重新训练分类器，且在预训练好的网络模型上微调网络的权值；为防止过拟合，该方法仅对靠近顶部的权值进行微调，其优点在于可大幅度降低时间消耗；模型经由大数据集预训练，具备较强的泛化能力。

因此，采用微调模型迁移学习方法构建分类器，对煤岩壳质组显微组分进行分类识别。

2.2 预训练网络模型的选择

卷积神经网络的基本结构[19]由输入层、卷积层、池化层、全连接层及输出层构成。卷积层为特征提取层，通过图像与卷积核的卷积运算实现。池化层对由卷积得到的特征图进行降维，减少计算量。全连接层将由卷积层和池化层学习得到的特征量映射至样本的标记空间，最终经过Softmax分类器计算出各样本所属类别的概率。

模型构建阶段的重点工作是在预训练网络模型的基础上，根据壳质组的训练样本数据对模型参数进行微调，所以选择适合的预训练网络(基础网络)至关重要。通过对现有卷积神经网络性能的初步分析与比较，选择VGG16、InceptionV3、ResNet50这3种具有良好性能的网络进行分析与尝试。

2.2.1 VGG16网络

VGG16网络[13]的核心思想，是通过3×3的小卷积核来提取更细小的特征，并通过对多个3×3卷积核的组合达到与7×7卷积核的同等效果。小视野卷积核具有更好的非线性表达能力，且可减少训练参数。网络由13个卷积层和3个全连接层(共16个权重层)组成，结构如图2所示。

图2 VGG16网络结构

2.2.2 InceptionV3网络

InceptionV3网络[14]在VGGNet的基础上继续加深网络结构，其主要创新点在于其进行全卷积运算的inception 块。该模型将较大尺寸的n×n维卷积核分解成分别为1×n和n×1的2个一维卷积核，从而减少网络参数。此方法在加快训练时间的同时，可以将1个卷积层分成2个卷积层，增加网络的深度，以增强网络的非线性特征。Inception V3模型的典型inception 块结构如图3所示，其中Base的大小是17×17。

图3 InceptionV3模型的典型inception块结构

2.2.3 ResNet50网络

随着网络深度的不断增加，梯度消失问题越来越严重，数据的初始化和正则化可以在一定程度上解决梯度消失问题，但会致使网络的性能退化。ResNet50[15]在现有深度网络模型的基础上引入跨层连接，提出深度残差学习框架，以解决退化和梯度问题，其残差结构如图4所示。

图4 ResNet50的残差结构

跨层结构中，H(x)和F(x)之间的关系为

H(x)=F(x)+x

(1)

式中：x为输入图像；F(x)为经过卷积运算之后的输出；H(x)为理想映射输出。

为解决上述问题，需找到一个拟合函数，使H(x)=x成立。由式(1)可得，当F(x)趋近于0，恒等映射关系式H(x)=x成立，问题转换为残差函数F(x)=H(x)-x。

虽然InceptionV3与ResNet50网络直接训练大型数据集能够获得较好的识别效果[19]，但加深了网络深度，使其用作煤岩显微组分识别的预训练网络模型时，微调过程较为复杂。VGG16模型结构简单，泛化能力强，深度特征学习能力较强，其中卷积层对图像中曲线、边缘、轮廓等特征具有较强的提取能力[20]，这些优势适合于煤岩壳质组显微图像的形貌特征，且VGG16拥有大量可以用来移植的已经训练好的权重参数。

因此，将在ImageNet数据集上训练好的VGG16网络作为壳质组显微组分识别的预训练模型，通过微调迁移学习的方式，将预训练模型的参数共享至本文模型，结合壳质组显微图像样本数据进一步优化模型的全连接层参数，训练顶部的卷积层和全连接层继而更新模型的权值参数，最终完成对壳质组样本的识别。

2.3 基于迁移学习的分类器构建及模型训练

2.3.1 分类器构建

根据上述分析，以VGG16为预训练模型，构建基于迁移学习的微调模型，包括输入层、特征提取层(池化层与卷积层)及分类层(图5)。首先，为了减少模型的训练时间和参数，将输入图像尺寸调整为128×128。然后，从预训练模型中导入第5个卷积块(conv block 5)之前各层的权重。最后，利用本文壳质组训练样本图像对模型中微调部分进行训练。

图5 以VGG16为基础的微调网络结构

VGG16原模型是为1 000个分类类别而设计的，而本文壳质组显微组分样本仅有7类，因此，在分类器构建中设置2个全连接层，第1个全连接层的神经元个数为1 024，第2个全连接层神经元个数为7。由于煤岩样本数有限，加入Dropout层以避免过拟合现象的发生。同时在结构中引入BN层，以提高网络的收敛速度。

2.3.2 模型训练

训练基于Keras深度模型框架，在Windows 10系统下，搭载Intel(R)Core(TM)i5-8300H CPU及GeForce GTX 1050Ti显卡。采用模型的收敛速度、识别准确率、混淆矩阵等作为评价指标，训练过程中采用交叉熵作为损失函数。

交叉熵定义为：

(2)

式中：pi(j)和qi(j)分别为第j个训练样本在第i个类别下的真实值和分类器输出值。

基于VGG16的网络模型训练过程如图6所示。获取在ImageNet大型数据集上预训练的基础网络模型，进而采用迁移学习的技术结合煤岩壳质组训练样本数据对模型参数进行微调。

图6 VGG16模型训练流程

参数微调步骤如下：①样本预处理。以2∶1比例将壳质组显微组分样本分为训练集和测试集，对训练集采用随机缩放、随机平移等方式进行数据扩充。②初始识别模型构建。随机初始化模型参数，将3个全连接层优化为2个全连接层。③模型迁移。通过微调迁移学习方法，将预训练网络中的模型参数迁移至本识别模型中，确定卷积层和池化层的参数。④煤岩壳质组识别模型构建。设定学习率和训练次数，通过式(2)进行迭代，固定相应的卷积层与池化层参数，在壳质组训练样本集上重新训练第5个卷积块和全连接层的参数，得最终分类器。

3 试验与结果

试验用煤样来源于河南平顶山煤田、东升煤矿和山西大同矿区及山西河东、霍西煤田。制样后采用光学显微镜油浸反射光下获取显微图像，放大400倍。分别选取壳质组7种显微组分图像各45幅，其中训练样本各30幅，测试样本各15幅，原始样本大小为224×224。为防止模型过拟合，利用数据增强将每类训练样本扩充至180幅，共计1 260 幅。

为验证基础网络选择的合理性，分别以VGG16、InceptionV3、ResNet50网络为预训练网络，根据壳质组显微图像训练样本对模型参数进行微调,比较采用不同预训练模型迁移学习时模型的收敛性。在此过程中，模型权值参数的更新采用Adam优化算法，batchsize的大小设置为8，初始学习率为10-5，训练周期为60。

此外，试验对比了采用迁移学习与不采用迁移学习构建的网络识别模型的性能及对本文研究问题的适应性。不采用迁移学习的方法(原模型)用壳质组样本直接对模型进行训练，即卷积神经网络每一层权值系数都在本文研究对象样本数据集上训练而得。

3.1 模型参数比较

分别以VGG16、InceptionV3、ResNet50直接学习(原模型)和以这3种网络为预训练模型进行迁移学习，网络训练参数及训练时间见表1。

表1 不同模型训练参数个数及时间

由表1看出，相比于VGG16、InceptionV3、ResNet50原模型，本文构建的3种迁移学习网络模型参数量有效减少、训练时间均缩短45%以上。新构建的迁移学习网络模型中，以VGG16为基础的网络模型其训练时间缩短约80%，训练时间最短。

3.2 收敛速度

将采用不同预训练网络模型迁移学习后所得模型分别记为F-VGG16、F-InceptionV3和F-ResNet50，对其收敛性进行比较分析。从图7看出，F-VGG16模型在第7个周期基本达到收敛，训练样本的识别准确率稳定在90%以上；F-InceptionV3、F-ResNet50 模型震荡明显，且准确率相对较低。上述结果表明，F-VGG16网络性能优于其他2种网络。

图7 不同模型收敛性

3.3 识别准确率

识别准确率A定义为

A=Nc/N

(3)

式中：N为测试集中所有样本图像的个数；Nc为被正确识别的样本数。

表2是传统深度学习(原模型)和与其对应的迁移学习网络模型在测试样本中的识别准确率。

表2 不同模型对测试样本识别准确率

从表2看出，相比于迁移学习模型，传统深度学习模型在壳质组显微组分识别中准确率较低，其中InceptionV3原模型准确率仅为85.71%。3种迁移学习模型的识别准确率均达到90%以上，相比于原模型均有较大幅度提升。其中，以VGG16为基础模型的迁移学习模型F-VGG16准确率可达98.10%，比VGG16原模型其识别准确率提高了9.53%；相比于以InceptionV3和ResNet50为基础的迁移学习模型，其识别准确率亦有明显提高。

3.4 混淆矩阵分析

为更深入地分析模型对每类显微组分的识别准确性，利用混淆矩阵对本文构建的迁移学习网络模型进行对比分析，结果见表3—表5。表中行表示样本真实类别，列表示识别结果。采用F-VGG16模型，孢粉体、角质体、沥青质体、木栓质体、藻类体和碎屑壳质体均被正确识别，树皮体有2个样本被错误识别(表3)。采用F-ResNet50模型，孢粉体、角质体、木栓质体、藻类体识别均正确，树皮体有2个样本分别被错分至孢粉体和碎屑壳质体，沥青质体、碎屑壳质体均有1个样本被错分(表4)。采用F-InceptionV3模型，角质体、沥青质体识别正确，树皮体中3个样本被错分至角质体与沥青质体中，其余组分均有1个样本被错分(表5)。

表3 F-VGG16模型的混淆矩阵

表4 F-ResNet50模型的混淆矩阵

表5 F-InceptionV3模型的混淆矩阵

图8为采用3种迁移学习模型对壳质组7类显微组分测试样本识别准确率的分布直方图，可以直观地看出F-VGG16网络有6种显微组分可以被正确识别，F-ResNet50正确识别4种组分，而F-InceptionV3仅有2种组分被正确识别。结果显示，以VGG16为基础网络的迁移学习模型F-VGG16在组分数和样本数的正确识别上均优于另2种迁移学习模型。

综上所述，本文构建的以VGG16为基础的迁移学习方法具有一定的优越性，一方面可以较好地实现煤岩壳质组显微组分的自动识别，另一方面采用深度学习方法可以避免传统方法在特征提取阶段所需的大量先验知识和人工干预。