基于卷积神经网络迁移学习模型的矿岩智能识别方法*
2023-11-03赵兴东王宏宇
赵兴东,王宏宇,白 夜
(东北大学,深部金属矿采动安全实验室,辽宁沈阳 110004)
岩石是地质学、资源勘探、隧道与地下工程、地质灾害识别与防控等的工作对象(张庆松等,2009;李术才等,2017),由矿物、结构构造等组成;常采用人工鉴定(贾承造等,2012)、物理检测(Geoffrey et al.,2006;陈国俊等,2009;付光明等,2017)等方法辨识岩石的矿物成分、结构、粒径、颜色等识别岩性,但人工鉴定法要求鉴定人员专业性强并且实践经验丰富,识别结果受主观因素影响较大;物理测试法对检测仪器精度要求高,受实验设备的精度和检测环境限制,因此,如何有效、精准并快速地识别岩性是一个极具应用价值的问题(Lawrence et al.,2002;黄颖端等, 2003;Mohsen et al., 2014)。随着人工智能科学逐步应用于多元化场景,许多地质学者引入人工智能理论和技术进行学科交叉的地质工程问题研究(高婷等,2020),例如岩性智能识别分析算法,克服了传统岩性识别方法的缺陷,提高了识别结果的精确性(徐述腾等,2018),不仅大大降低了研究人员的工作量,还减少了对识别设备的依赖,已经开始应用于地质学研究领域(徐晗等,2021)。
深度学习主要是指通过神经网络对信息进行处理,从而实现特征提取的一种算法(金长宇等,2006;Daneshfar et al.,2014;蒋树强等,2016),在岩性识别领域中传统机器学习方法需要人工对岩石的颜色、形态、纹理等特征进行提取。例如Singh等(2010)从玄武岩岩石薄片图像中提取了局部纹理信息等特征,实现了对玄武岩岩石样本的较好分类。周永章等(2018)总结了大数据与数学地球科学的核心应用技术,提出机器学习是人工智能的核心,是使计算机具有智能的根本途径。马泽栋等(2022)基于岩石图像的大数据深度学习提出了多尺度岩性识别方法,可以较好的识别岩石岩性。王杰等(2022)基于机器学习技术,采用BP 神经网络学习算法建立了神经网络识别岩性模型,可以较好地利用钻井参数进行岩石预测。Inception 模型是Google 在2014 年ILSVRC大赛中提出的一种卷积神经网络模型(冯雅兴等,2019),其采用多个不同的卷积核对目标图像的不同尺度信息进行提取,最后融合以得到图像的高维特征。迁移学习是一般机器学习的一种优化(黄家才等,2019),是在考虑任务间的特定关联之后,将前一个任务中得到的模型结构、参数权重等知识进行调整并迁移到岩性识别的任务中(Fan et al.,2020)。该方法不仅可以减少重复性的工作,极大地提高建模速度(Zhuang et al., 2015),还能解决岩石图像数据量不够庞大的问题,降低建模难度。因此,本文基于Inception-v3 卷积神经网络模型建立岩性分类的迁移学习模型,与传统的机器学习模型相比,该模型具备如下优势:第一,通过迁移学习提取岩石图像的高维特征,对图像数据量要求低;第二,模型自动搜索提取图像的特征,无须通过人工提取。
1 迁移深度学习理论
1.1 迁移深度学习及模型构建
使用Inception-v3 卷积神经网络迁移学习模型提取岩石图像的高维特征。模型的数据流向如图1所示,输入的岩石图像首先进行特征提取,迁移使用Inception-v3 模型中的卷积层与池化层提取出图像特征信息,这些特征信息用向量描述并且存储在缓存文件中。完成全部岩石图像的特征提取操作之后,描述所有图像特征的向量被存储到缓存文件中,最后利用缓存文件中描述特征的向量训练Softmax神经网络以进行岩石图像的分类。由于Inceptionv3 模型提取的图像特征信息可以被储存下来,当需要对每张图像都进行多次提取时,已储存的特征信息不用再重复提取,所以该模型可以更高效地获取图像信息。
图1 Inception-v3迁移学习模型构建Fig.1 The overall Inception-v3 transfer learning model
岩石图像的特征提取过程如图2 所示,Incep‐tion-v3预训练模型提取岩石图像的高维特征。由于岩石的种类繁多且形态各异,岩石的特征不能仅仅通过轮廓、颜色等进行简单概括,还需要采用更深的卷积神经网络提取矿物成分、结构、粒径等更丰富的抽象特征,所以在原预训练模型的基础上连续加入3个FClayer层;岩石颜色提取层和纹理提取层用于提取岩石的颜色和纹理特征;Inception-v3 预训练模型提取的岩石图像高维特征与基本的岩石特征相融合,该融合特征使用向量描述并保存在缓存文件中,用于后续在Softmax模型中进行分类。
图2 岩性分类的迁移学习模型Fig.2 Lithological classification model with transfer learning
由于迁移学习可以将上一个任务中提取的特征迁移到新任务中,所以其训练用时较深度学习训练用时少,对训练集的数据量要求也更低。Inceptionv3 卷积神经网络迁移学习模型会自动进行特征提取,不需要手动提取特征,只需要在训练数据集图像上为不同种类的岩石进行标注,模型会自行识别图片特征。
1.2 Softmax回归模型
训练集{(x(1),y(1)),…,(x(m),y(m))}可取y值为1-k,即y(i)∈{1,2,...,k}。针对每一个测试数据x,计算出每个数据所对应的概率值,在计算过程中假设函数将使用k维向量来近似接近概率值,该函数的数学形式为一式将对公式进行归一化操作。
式中,θ为m 阶矩阵,最终模型的目的是找到最优化参数θ,使Softmax 回归模型的预测结果接近于最终的正确结果,在此不断迭代的过程中使用代价函数来进行逼近,该函数为
该式中,当1{}⋅中函数的值为真时取值为1,当其中函数的值为假时取值为0。
J(θ)函数可采用梯度下降法进行求解,并且由于可以通过修改权重使得J(θ)函数为严格凸函数,则可以保证使用梯度下降法求得的最优解是唯一解并且是全局最优解,所得的梯度公式如下
最终通过添加权重项可以得到一个新的J(θ)公式即
通过求解J(θ)的最小值即可得到Softmax 回归模型。
2 岩性识别实验设计
2.1 岩石图像数据集采集和预处理
通过现场收集、国家岩矿化石标本资源共享平台和互联网查询等途径,获得赤铁矿、磁铁矿、金矿石、铜矿岩、铅锌矿、大理岩、花岗石和片麻岩8 种岩石的图像样本453 张。这8 种岩石的性状有较大差异,其中赤铁矿为红褐色的菱面体,磁铁矿为灰白色的块状构造,金矿石为不规则粒状,铜矿石为青绿色,铅锌矿为灰黑色块状,大理岩为白色粒状变晶结构,花岗岩为浅肉红色粒状结构,片麻岩具有片麻状构造。每种岩石图像样本中随机抽取4 张,共32 张图像作为测试集进行测试,剩余421 张岩石图像归为训练集,全部岩石图像数量和分别用于训练集和测试集使用的岩石图像数量如表1所示。
表1 采集的岩石图像样本数量Table 1 The number of sample data,trained data and tested data of rock images
已采集的岩石图像中部分存在成像距离远、背景杂乱、特征不明显等问题,该部分岩石图像先进行预处理。如成像距离较远、目标岩石较小或偏离中心的图像使用等比例截取的方法,保证目标岩石的特征足够明显。背景杂乱、具有多种岩石样本的图像进行背景消除处理,保证一张图像只包含一种岩石样本。为使训练集更加健壮以及多样化,在训练集中随机抽取100 张图像进行随机翻转、镜像反转、随机平移、改变色度、改变亮度及对比度等处理。预处理后的训练集岩石图像样例如图3所示。
图3 预处理后的训练集岩石图像样本示例a.赤铁矿;b.磁铁矿;c.金矿石;d.铜矿石;e.铅锌矿;f.大理岩;g.花岗岩;h.片麻岩Fig.3 The image sample in trained data set after processinga.Hematite;b.Magnetite;c.Gold ore;d.Copper ore;e.Lead-zinc ore;f.Marble;g.Granite;h.Gneiss
2.2 模型训练与测试分析
模型默认的训练轮次为100,批处理参数为10,标注数量共613 个。每次抽取4 张图片进行交叉验证,每迭代10 轮对过程评估后再继续训练,共迭代500轮,学习率为0.01。在迭代过程中模型训练集的准确率和测试集的准确率逐渐升高,经过300 次迭代后保持在90%左右。训练集的准确率,即该模型识别训练集中岩石图片的正确率;测试集的准确率,即该模型识别测试集中岩石图片的正确率;交叉熵反映了学习过程的效果,交叉熵越小说明学习效果越好。
为了使结果更加精确,笔者针对单个岩石图片中存在多个同种类岩石块的情况,尽可能使标注的每个标签中只包括一块独立的岩石,除此之外,对图片的大小、像素和清晰度没有其他要求。
使用Inception-v3 卷积神经网络迁移学习模型对训练集图片进行训练,当训练到第200 张图片时,训练集的准确率与测试集的准确率均快速提高,当训练到第300 张图片时训练集的准确率趋近于100%,测试集的准确率也接近90%,训练集的准确率和测试集的准确率均随着训练的进行而逐渐增加直至达到一个较高值,而交叉熵在训练前90 张图片的过程中下降较快,在训练第90 到第500 张图片时下降较为平缓,通过这三者的变化可知该模型的学习效果较为理想。
3 岩性识别实验结果分析
3.1 训练集图像识别分析
使用Softmax 神经网络模型识别并分类训练集的岩石图片。随机选择训练集中赤铁矿、磁铁矿、金矿石、铜矿石、铅锌矿、大理岩、花岗岩和片麻岩图像各4张进行测试。识别分类的结果如表2所示,图像正确率,即每张图片被归类成功的概率。根据表2可以发现,32幅岩石图片的分类均正确无误,而且识别结果的正确率都在85%以上,部分结果的正确率达到了97%,表明模型对训练集的全部岩石图片都具有较强的识别分类能力。
表2 训练集岩石图像识别结果Table 2 The results of tested rock images in trained data set
由表2 可知,大理岩训练集的平均识别正确率最高为93.75%,且只高出平均识别正确率最低的金矿石4 个百分点。该模型对训练集中不同种类岩石图片的识别正确率没有明显区别,整体识别效率较高且不受岩石种类的影响。
3.2 测试集图像识别分析
使用Softmax 神经网络模型识别并分类测试集的岩石图片,测试集图片的识别结果可以反映模型的泛化学习能力,即该模型对未训练图片的识别分类能力。测试集图像的识别结果如表3 所示,图像正确率即每张图片被归类成功的概率。
表3 测试集岩石图像识别结果Table 3 The results of rock images in test data set
由表3 可知,所有岩石图像的分类结果均正确,但其中赤铁矿图像b 的正确率只有76%,通过对该图片的观察可以发现,赤铁矿图像b 的背景中包含了多个不完整矿石,可能会干扰识别过程,从而导致赤铁矿在该图像中的特征不明显。
表3中磁铁矿图像b、图像c 和图像d 的识别正确率都超过80%,但是磁铁矿图像a 的正确率只有73%。观察图像a 可以发现该图片拍摄距离较近且边缘有虚化现象,这对该图片的特征值的提取造成了一定困难,进而导致了识别概率较低。
金矿石图像b、图像c 和图像d 的识别正确率都超过了80%,但金矿石图像a 的识别正确率只有77%。通过对金矿石图像a的观察可发现,该图片中的金矿石特征不明确,且背景中有较多其他不完整矿石的干扰,因此造成模型对该特征的提取困难。
铜矿石全部图像的识别正确率都超过了80%,其中铜矿石图像a的识别正确率达到了90%,表明无论是对于训练集的铜矿石图片或者未参加训练的铜矿石测试集图片,该模型已经可以对该类图片进行准确的识别,并能够有效地提取目标特征。
铅锌矿全部图像的识别正确率都超过了80%,其中铅锌矿图像a的识别正确率达到了90%,但铅锌矿图像d 的识别正确率较低,通过观察该图发现其清晰度较低并且没有正确对焦,但其正确率仍然超过了80%,表明该模型已经可以对未参加训练的铅锌矿测试集图片进行准确的识别并有效地提取目标特征,对于清晰度较低的图像也能得到较好的分类结果,鲁棒性较好。
大理岩全部图像的识别正确率都超过了80%,其中大理岩图像b 的识别正确率达到了93%,表明无论是对于训练集的大理岩图片或者未参加训练的大理岩测试集图片,该模型已经可以对该类图片进行准确的识别,并能够有效地提取目标特征。
花岗岩全部图像的识别正确率都达到了90%,其中花岗岩图像b 的识别正确率达到了95%,表明无论是对于训练集的花岗岩图片或者未参加训练的花岗岩测试集图片,该模型已经可以对该类图片进行准确的识别,并能够有效地提取目标特征。
片麻岩图像a、图像b 和图像c 的识别正确率都超过了80%。片麻岩图像d的识别正确率为80%,通过对该图的观察可以发现,该图片中的片麻岩的片麻状特征并不明显,导致特征的提取困难,进而使识别正确率偏低。
总的来说,赤铁矿有一张图片分类效果不佳,磁铁矿有一张图片分类效果不佳,金矿石有一张图片分类效果不佳(存在识别正确率低于80%的图片),铜矿石、铅锌矿、大理岩、花岗岩和片麻岩的分类效果则较好(所有图片的识别正确率都达到了80%)。其中,大理岩、花岗岩和片麻岩的总体分类效果好于赤铁矿、磁铁矿、金矿石、铅锌矿和铜矿石。对Inception-v3 迁移学习模型来说,识别岩石的正确率要普遍高于识别金属矿石的正确率。部分图片识别分类效果不好的原因是用于测试的岩石图片质量不佳,难以获取到图片中岩石的特征信息。
3.3 岩性分类的实际应用
为了进一步验证该岩性分类模型具有实用性,再分别用相机拍摄8 种岩石样本的图片每种10 张,共80 张图片进行岩性分类实验。为使岩石图片最接近现场实地拍摄情况,所有图片均在自然光照下以适当距离拍摄,每张图片只包含一个岩石个体,并且不进行任何裁剪、放大等后期处理,部分拍摄图片样例如图4所示。
图4 岩石样本图像示例a.赤铁矿;b.磁铁矿;c.金矿石;d.铜矿石;e.铅锌矿;f.大理岩;g.花岗岩;h.片麻岩Fig.4 The rock image samplea.Hematite;b.Magnetite;c.Gold ore;d.Copper ore;e.Lead-zinc ore;f.Marble;g.Granite;h.Gneiss
表4给出了Inception-v3 迁移学习模型对这8 种岩石实际分类的平均成功率和平均识别正确率,由结果可知,该模型能够对这8 种岩石进行正确分类,且分类成功率为100%。平均识别正确率与测试集图像的结果相近且均在80%以上,这表明该模型具有较强的实用性以及泛化能力,可以对现场拍摄的岩石图像进行分类工作。
表4 相机拍摄岩石图像识别结果Table 4 The results of actual pictures taken
4 结 论
(1)文章建立Inception-v3卷积神经网络迁移学习模型,用于识别并分类训练集岩石图片和测试集岩石图片,大部分岩石图片的识别正确率达到了80%,有些识别结果达到了95%以上,没有错误的分类结果,也没有识别正确率不足70%的分类结果,表明了该模型可以高效准确地提取目标中的特征信息。
(2)在岩石高维特征提取过程中发现铅锌矿、铜矿石、大理岩、花岗岩和片麻岩的结构特征明显,容易提取特征;赤铁矿、磁铁矿和金矿含有较多的杂质,矿石的品位变化范围很广,不容易提取特征。其中,赤铁矿的聚集体形多种多样,有片状、鳞毛状等,色泽有红棕、钢灰等;磁铁矿主体颗粒是中性斜长石和角闪石,部分含钾长石,黑云母等;金矿岩则为不规则粒状、纤维状等的聚合体。因此,矿石的复杂多变提高了分类的困难程度。
(3)使用Inception-v3卷积神经网络迁移学习模型进行岩性识别具有现实可行性,在模拟现场应用时的分类效果较为理想。在下一步研究中,笔者将以现场实际应用入手,扩大训练集并添加更多岩石类型,以进一步提高模型的精确性和实用性。