APP下载

基于GA-SVM的岩心铸体薄片图像分类研究

2023-07-29潘少伟琚泽彬林师瑶蔡文斌

计算机仿真 2023年6期
关键词:薄片岩心适应度

潘少伟,琚泽彬,林师瑶,蔡文斌

(1. 西安石油大学计算机学院,陕西 西安 710065;2. 中国石油集团川庆钻探工程有限公司川西钻探公司,四川 成都 610051;3. 西安石油大学石油工程学院,陕西 西安 710065)

1 引言

岩心是根据油气田地质工作需要,使用环状钻头从取心井内取出的圆柱状岩石样品。岩心的分析化验在油气田地质研究中具有重要的作用,矿物性质和多孔介质渗流特性多是通过岩心分析获得。岩心分类是确定其矿物性质和多孔介质渗流特性的前提,也是油气田开展基础地质研究工作的开始。在传统的岩心分类工作中,通常是由人工查看岩心铸体薄片图像然后对它们分类[1]。这种依靠油田研究人员知识和经验对岩心铸体薄片图像分类的方法主观性较强、正确率较低、重复性较高。

近年来,越来越多的学者将机器学习应用于图像分类中[2-6],并且涉及诸多研究领域。具体有:许鑫等利用支持向量机(Support Vector Machine,SVM)对剪纸图像进行分类[2];杨学斌等采用卷积神经网络(Convolutional Neural Networks,CNN)对藏文图像识别与分类[3];常政威等通过梯度方向直方图和支持向量机对闯入警戒区域的人员进行捕获[4];Okwuashi等在高光谱图像分类中引入支持向量机[5];Meher将具有知识编码粒度空间的深层自动编码器神经网络应用于遥感图像的分类[6]。机器学习在当前的岩石图像分类中也得到了广泛应用:张蕊等提出一种对岩石表面指纹图谱分析及分类的方法[7];白林等基于深度学习方法,建立应用于岩心铸体薄片图像分类的VGG模型[8];张野等采用Inception-V3深度卷积网络模型和迁移学习方法,建立岩石岩性的自动分类模型[9];张艳等利用贝叶斯分类方法对岩心铸体薄片图像进行分析[10]。上述机器学习方法在一定程度上提高了岩石图像分类的效率与准确率,但仍存在不足:传统机器学习方法的分类准确率较低,而深度学习方法又需要大量的数据样本,无形中增加了构建岩石图像分类模型的难度。

支持向量机是一种广泛应用于统计分类与回归分析的机器学习方法,它具有分类思想简单、计算速度快、所需样本量少等优点。因此,本文在利用方向梯度直方图(Histogram of Oriented Gradient,HOG)提取岩心铸体薄片图像中孔隙轮廓信息和喉道轮廓信息的基础上,引入支持向量机作为岩心铸体薄片图像的分类器,同时采用遗传算法来优化支持向量机的关键参数,确定它们最优的取值组合,最终实现对研究区大孔粗喉、中孔中喉和小孔细喉3种不同岩心铸体薄片图像的识别分类。

2 相关方法

在岩心铸体薄片图像分类研究中,主要涉及了方向梯度直方图、支持向量机和遗传算法(Genetic Algorithm,GA)。

2.1 方向梯度直方图

方向梯度直方图是图像处理领域中一种用于目标检测的特征描述器,它的基本原理是通过统计和计算待处理图像局部区域的梯度方向直方图来构成描述特征[11]。本文采用方向梯度直方图提取岩心铸体薄片图像中的孔隙轮廓信息和喉道轮廓信息,并把提取到的孔隙轮廓信息和喉道轮廓信息作为不同岩心铸体薄片图像分类的主要依据。

2.2 支持向量机

支持向量机建立在VC维理论和结构风险最小原理的基础之上[12]。它的基本原理就是有限的样本特征值在分类模型的复杂性和自学习能力之间寻找最佳的平衡点,使目标函数达到最佳的泛化能力,最终以结构化风险最小化为原则,得到一个分类器使得超平面和最近的数据点之间的距离最远。通常来说,该距离越远,则平面越优。

图1 支持向量机示意图

现考虑n维两类线性可分的情况。给定训练样本集{(xi,yi),i=1,2,…l},其中xi∈Rn,yi∈(-1,1)。

设超平面H的方程为

wTx+b=0

(1)

其中,如果yi=1,那么wTx+b>0,否则wTx+b<0。按照超平面的性质,任意样本点xi到H的有符号距离为:

(2)

假定,所有样本点与超平面之间的几何距离至少为D,则寻找最大的超平面也就是寻找最大的几何距离D、相关的全系数向量w以及偏置b。将这个问题转化为以下的优化问题:

(3)

寻找最优超平面即在最大化它的宽度准则情况下,去选择一个合适的w和b。

2.3 遗传算法

遗传算法是一种进化计算算法,其基本原理是通过基因遗传学模拟自然界的进化过程[14]。遗传算法在遗传操作过程中采用了3种算子,分别是选择算子、交叉算子和变异算子,从而使得整个种群的进化发展在优胜劣汰的选择机理下进行[15],最终趋近于最优状态。

遗传算法的具体实现步骤如下:

1)确定适应度函数。适应度函数是支持向量机和遗传算法之间的桥梁,它作为一个指标去判断群体中个体的优劣程度,并通过所求问题的目标函数来进行评估。本文适应度函数的表示如下

f=Ac

(4)

(5)

式中,f为适应度函数,Ac为预测精度,N训练样本总数,Nf为错误分类的样本数。

2)选择。选择操作选出的个体在旧种群中属于适应性较强的染色体,需将其放入匹配集,以便在染色体交换以及变异运算时产生新种群。个体被选中的概率为

(6)

式中,Ps为个体被选中的概率,Fs为个体适应度,N为种群数量。

(7)

(8)

式中,a为常数,在0到1之间取值。

4)变异。变异运算通过一定的概率去随机地改变遗传基因的值,从而保证相应种群的多样性。其中,对个体中每个基因都以一定的概率将其指定为变异点,在每一个变异点,对基因值进行取反运算或者代换为它的等位基因,这样新的个体就会随之产生。

2.4 遗传算法优化的支持向量机模型

把遗传算法优化的支持向量机模型简记为GA-SVM。

诸多研究表明多项式核函数、径向基(Radial Basis Function,RBF)核函数和Sigmod核函数是目前应用最为广泛的3种支持向量机核函数,在图像分类领域具有较好的应用效果。径向基核函数可通过较少的参数实现非线性映射[16],故本文采用径向基核函数来构建基于支持向量机的岩心铸体薄片图像分类模型。在支持向量机的核函数确定后,还需确定核函数中的核参数σ和判别函数中的惩罚因子c。核参数σ体现训练样本数据的范围特性,它对基于支持向量机的岩心铸体薄片图像分类模型的学习能力有直接影响;惩罚因子c对岩心铸体薄片图像分类模型的复杂度和训练误差有一定影响。

使用遗传算法对基于支持向量机的岩心铸体薄片图像分类模型进行优化,寻找其最优的核参数σ和惩罚因子c的组合。基本的算法步骤如下:

1)利用二进制编码对支持向量机参数进行处理;

2)确定种群数量N,根据种群数量随机生成支持向量机核参数σ和惩罚参数c的初始值,进而构造成初始群体;

3)基于随机生成的支持向量机参数的初始值,通过训练数据集训练支持向量机模型,然后依据其训练精确度确定个体适应度值Fs;

4)应用轮盘赌选择机制选择若干适应度大的个体,直接遗传给下一代;

5)按照一定的交叉概率交换配对个体基因,产生新的个体;

6)按照一定的变异概率改变选中个体染色体的等位基因,增强种群的多样性;

7)判断新种群是否达到了最大进化代数,若没有达到则跳转到步骤2)继续进行计算,若达到了就把当前种群中具有最大适应度的染色体基因值作为支持向量机参数的最优取值组合;

8)终止计算,基于已获得的核参数σ和惩罚参数c的最优取值,建立基于支持向量机的岩心铸体薄片图像分类模型。

3 仿真研究

3.1 数据集来源

利用金相显微镜对做好的岩心铸体薄片扫描拍照,就获得一系列二维的岩心铸体薄片图像。根据岩心样品孔隙和喉道的具体发育特征,把它们划分为3类,典型结构如图2所示。图2中,白色区域与灰色区域为岩石颗粒;浅红色区域和粉红色区域为注入到岩心铸体薄片中的液体,黑色区域为储存于岩心样品中的原油或油泥,红色区域和黑色区域对应了岩心样品的孔隙和喉道,孔隙和喉道构成了岩心样品的微观孔隙结构。图2(a)为大孔粗喉型孔喉结构对应的岩心铸体薄片图像,具体表现为岩石颗粒较大,孔隙也较大,喉道较粗;图2(c)为小孔细喉型孔喉结构对应的岩心铸体薄片图像,具体表现为岩石颗粒较小且结合致密,孔隙较小,喉道较细;图2(b)为中孔中喉型孔喉结构对应的岩心铸体薄片图像,孔隙和喉道的大小介于大孔粗喉型和小孔细喉型之间。

图2 3种不同孔喉结构的典型代表图像

把分成3类的200余幅岩心铸体薄片图像再进行图像增强、图像尺寸统一等预处理操作,就得到应用于构建岩心铸体薄片图像分类模型的数据集。按照7:3的比例,将岩心铸体薄片图像数据集划分成训练数据集和测试数据集。

3.2 评价指标

采用准确率(Accuracy)和Kappa系数作为评价不同岩心铸体薄片图像分类效果的指标。

准确率是衡量分类结果中被正确分类的样本所占总样本的比例,一般用百分数表示,其计算公式如下

(9)

式(9)中,TP是实际为正例且被划分为正例的实例数(样本数),TN是实际为负例且被划分为负例的实例数,FP是实际为负例但被划分为正例的实例数,FN是实际为正例但被划分为负例的实例数。

Kappa分析作为评价分类精度的一种多元统计方法,其Kappa系数表示被评价分类比完全随机分类产生错误减少的比例,通常Kappa系数是落在0-1之间,越接近1代表分类效果越好,其计算公式如下

(10)

式(10)中,Kappa就是Kappa系数,r是误差矩阵的行数,xii是i行i列(主对角线)上的值,xi+和x+i分别是第i行的和与第i列的和,N是样本总数。

3.3 实验参数设置

基于GA-SVM的岩心铸体薄片图像分类实质上是以遗传算法的最优参数提取为基础,并通过采用最优参数组合的支持向量机模型去实现岩心铸体薄片图像的分类。经过多次测试后,把遗传算法的参数设置为表1所示。

表1 遗传算法的参数设置列表

表1中,适应度函数是进行自然选择的依据,其作用是确定群体中个体的优与劣,把岩心铸体薄片图像分类器的准确率作为适应度函数;种群个体数目是遗传算法中的重要控制参数,将其设置为20;变异操作是遗传算法中保持种群多样性的有效手段,将变异率设置为0.015;交叉率控制着交叉操作的应用频率,一般它的取值范围为0.6-1.0,将交叉率设置为0.9;支持向量机的惩罚参数c和核参数σ对岩心铸体薄片图像分类器的容错性具有较大影响,将它们的取值范围都设置为[0.001,1]。

3.4 实验过程

采用上述参数设置,利用训练数据集完成对遗传算法优化的支持向量机的训练,建立3种不同岩心铸体薄片图像的分类模型;利用测试数据集对3种不同岩心铸体薄片图像的分类模型进行测试,所得结果如表2所示。

表2 GA-SVM模型与其它模型的测试结果表

3.5 实验结果与分析

上述遗传算法在进化过程中会获得一个最优个体,分解这个最优个体,即得到应用于岩心铸体薄片图像分类的支持向量机惩罚参数c和核参数σ的最优值,分别是0.911和0.554,这样就建立起基于GA-SVM的不同岩心铸体薄片图像的分类模型。

为检验基于GA-SVM的不同岩心铸体薄片图像分类模型的有效性,在相同的参数下,利用相同的训练数据集分别对未经参数优化的支持向量机(SVM)、网格搜索法(Grid Search,GS)优化的支持向量机(GS-SVM)和粒子群算法(Practical Swarm Optimization,PSO)优化的支持向量机(PSO-SVM)分别进行训练。训练完成后基于相同的测试数据集对上述3种方法的相应模型和基于GA-SVM的不同岩心铸体薄片图像分类模型分别进行测试,所得的结果如下(表2)。

由表2可看出,在对3种不同岩心铸体薄片图像的分类中,GA-SVM的综合表现最为优异。GA-SVM对大孔粗喉、中孔中喉和小孔细喉3种不同岩心铸体薄片图像的分类准确率分别达到了100%、94%和94%;SVM虽然对中孔中喉型和小孔细喉型岩心铸体薄片图像的分类准确率均达到了100%,但它对大孔粗喉型岩心铸体薄片图像的分类准确率过低,为71%;同时,在GS-SVM和PSO-SVM对3种不同岩心铸体薄片图像的分类准确率中均出现了低于90%的情况。并且,GA-SVM、PSO-SVM、GS-SVM和SVM产生的Kappa系数分别是0.94、0.90、0.87和0.78,这也说明GA-SVM和PSO-SVM在3种不同岩心铸体薄片图像分类中的综合表现最好,SVM的综合表现最差,GS-SVM综合表现介于上述三者之间。

为进一步检验GA-SVM和PSO-SVM的性能,截取它们在训练过程中的适应度变化曲线,如图3所示。图3中,横坐标为进化代数,纵坐标为适应度值,蓝线是PSO-SVM的适应度变化曲线,红线是GA-SVM的适应度变化曲线。由图4可看出,相比PSO-SVM,GA-SVM的适应度在迭代寻优前期随迭代次数的增加而出现较大的波动,这说明它没有陷入局部最优解;并且随着进化代数的增加,GA-SVM可通过上下波动逐渐跳出局部最优解区间,迅速收敛至全局最优解。由此可见,遗传算法可在训练过程中帮助支持向量机迅速获得最佳参数组合,以达到快速提高不同岩心铸体薄片图像分类准确率的目的。

图3 GA-SVM和PSO-SVM的适应度曲线

4 结论

1)在利用方向梯度直方图获取岩心铸体薄片图像孔隙与喉道轮廓信息的基础上,引入支持向量机作为岩心铸体薄片图像的分类器,采用遗传算法优化支持向量机的关键参数,确定它们的最优组合,建立遗传算法优化的、可实现对3种不同岩心铸体薄片图像分类的支持向量机模型。

2)为检验遗传算法优化的支持向量机的有效性,通过相同的训练数据集分别对SVM、GS-SVM和PSO-SVM进行训练,利用准确率和Kappa系数作为评价不同岩心铸体薄片图像分类效果的指标,最终结果发现:GA-SVM在3种不同岩心铸体薄片图像分类中的综合表现最好,SVM的综合表现最差,GS-SVM和PSO-SVM的综合表现介于上述二者之间。

3)在油气田基础地质研究中涉及的岩心铸体薄片图像种类繁多,本文仅从孔隙和喉道大小的角度对它们进行分类,所以本文研究带有一定的局限性。在今后的工作中,要进一步利用机器学习和深度学习,研究针对更多岩心铸体薄片图像种类的识别与分类方法。

猜你喜欢

薄片岩心适应度
改进的自适应复制、交叉和突变遗传算法
来自森林的植物薄片
你真好
你真好
一种页岩岩心资料的保存方法
Acellular allogeneic nerve grafting combined with bone marrow mesenchymal stem cell transplantation for the repair of long-segment sciatic nerve defects: biomechanics and validation of mathematical models
基于空调导风板成型工艺的Kriging模型适应度研究
长岩心注CO2气水交替驱试验模拟研究
非均质岩心调堵结合技术室内实验
少数民族大学生文化适应度调查