基于近似支持向量机的裂缝分类方法
2020-04-04聂文亮刘松鸣
何 健,武 刚,聂文亮,刘松鸣,黄 伟
(1.成都理工大学地球物理学院,成都 610059;2.油气藏地质及开发工程国家重点实验室·成都理工大学,成都 610059;3.中国石油化工股份有限公司胜利油田分公司勘探开发研究院,山东东营 257015)
0 引言
裂缝型油气藏具有分布范围广,遍历地质历史时期的特征,它也是隐蔽型油气藏的重要组成部分,其油气产量在全球油气总产量中所占比重也越来越高[1-2]。因此,开展裂缝分类方法的研究对于提高采收率,解决与日俱增的石油需求量问题具有重大意义。
裂缝型油气藏通常具有孔隙度低、裂缝带分布复杂及非均质性强等特征[3-4]。因此寻找裂缝型油气藏的关键就在于研究致密岩层内的裂缝密度及分布范围。传统的岩心观测法虽然能准确地识别出裂缝发育带的位置等信息,但因岩心有限且仅能反映观测点及其附近区域,所以很难对三维空间进行裂缝带识别[5-6]。为此,越来越多的学者开始研究如何从地震波的响应特征中寻找裂缝带的分布及方位等信息。由于地震波传达到缝隙密度明显增大并有一定延伸范围的岩体时,其传播速度会明显降低,振幅、频率和相位等动力学特征也会发生明显变化[7],所以各种基于地震资料对裂缝带进行预测和识别的方法层出不穷,例如边缘检测[7-8]、体曲率分析[9]和反射强度[10-11]等。这些方法虽然各有所长,但是单独使用都很难避免多解性问题[12]。因此,如何综合利用多个地震属性与井中裂缝发育状况之间的非线性对应关系进行裂缝带的精细刻画是裂缝带准确分类的一个难题。
很多学者[13-15]已经证明一些机器学习算法能高效准确地实现多属性的融合分类,是完成多属性分析的一种重要方法,并且在金融学、医学和制造等领域均有广泛的应用。近年来已有学者将一些机器学习算法应用于裂缝带的识别[16-17],但大都仅限于对测井数据进行裂缝预测。作为机器学习算法中的近似支持向量机(PSVM)算法不仅可以提高处理大数据样本时的运算效率[26],还可以避免过于依赖经验造成的分类结果准确率下降的问题[18],一些学者已将其应用于岩性预测、储层预测等方面,例如Zhao 等[19]应用PSVM 算法对页岩的岩相进行识别;Zhang 等[20]应用PSVM 算法对目标地层的脆性进行分类;刘佳乐等[21]应用PSVM 算法识别储层流体;李文秀等[22]应用PSVM 算法判别AVO 类型。这些应用均展现出了PSVM 算法的优越性能,但该算法是否适合对大尺度的地震数据所反映的裂缝带进行准确分类尚须进一步研究。
基于上述研究现状,首先从叠后地震资料出发,计算出3 种刻画裂缝带的地震属性,再从井旁道的各地震属性中按井上裂缝带的发育程度提取特征参数,建立各地震属性与井中裂缝发育信息之间的对应关系。最后,应用PSVM 算法对裂缝带进行综合判别,以期实现研究区域内裂缝带发育状况自动分类的目标。
1 原理
1.1 支持向量机
支持向量机(SVM)算法是Tong 等[23]、Tsochan‐taridis 等[24]、Vapnik[25]根据统计学习理论中的相关原理提出的采用结构风险最小化原则的一种最优化学习算法。通过对凸二次优化问题求解可以确保找到的极值解为全局最优解,因此可以用于样本分类。
若有一个定义在n维空间的训练数据集{(xi,yi),i=1,2,…,m},其中xi=[xi,1,xi,2,…,xi,n]T∈Rn为n维空间的样本,在样本中所有的属性都和向量中的元素一一对应;yi∈R为与该样本所对应的输出值,在SVM 算法中常用的两分类问题中,可用yi=+1 与yi=-1 分别表示样本输出的类别标签。因此可考虑决策函数f(x)的形式来表示类别标签。
式中:ω=[ω1,ω2,…,ωn]T为n维系数向量;x为样本数据;b为常数。
由式(1)可知,n维向量空间的超平面g(x)=ω x+b将数据划分为+1 类和-1 类。超平面中的2 个参数ω和b需要SVM 算法根据训练数据集进行确定。根据最大间隔原则引入惩罚参数C(C>0,C越大则惩罚越严重)和松弛变量ξi,(i=1,2,…,n),则可构建SVM 算法的最优化问题
通过求解式(3)的最优化问题可得到最优解ω∗和b∗;最后结合式(1)和式(2)即可求得决策函数
1.2 近似支持向量机
PSVM 算法是Fung 等[26]在传统SVM 算法的基础上进行改进之后得到的。该算法考虑到误差项ξi小于零时,可令其等于零来满足表达式相应的不等式约束。因此它将SVM 算法中的ξi由1 范数形式改为了2 范数形式,从而把约束条件中的不等式约束换成了等式约束,同时将常数项引入目标函数中。因而达到了将凸二次优化问题变为了求解一次线性方程组的目的,使得该算法在保证准确率不低于SVM 算法的前提下突破了运算效率低下的瓶颈。其具体形式为
当有一个含有m个样本n个属性的两分类训练样本集,则该样本集可用矩阵Am×n来表示;将该训练数据集的标签yi按顺序依次排列,则可组成对角矩阵Dm×m。那么,可将式(5)推广为针对整个样本的最优化问题
式中:e为单位向量。
通过对式(6)进行求解同样可以获得最优解ω∗和b∗,再将最优解带入式(4)可求得满足该训练数据集的决策函数f(x)。最后通过该函数对预测数据集进行判别,判别结果f(x)=+1 则该样本所在的类与标签y=+1 属于同一类,当f(x)=-1 时,该样本与标签y=-1 属于同一类。由式(6)可知,PSVM算法的目的就是为了让数据中的正类尽可能地靠近g(x)=+1,使数据中的负类尽可能地靠近g(x)=-1,并且让g(x)=+1 和g(x)=-1 之间的间隔最大化。另外,训练结果g(x)=0 表示所划分的超平面是线性的,若将核函数引入最优化问题,那么就可以实现对预测数据集的非线性划分。
1.3 PSVM 的多类分类算法
近年来,PSVM 算法已经从两类分类的基础上推广到了多类分类。目前基于PSVM 算法实现多类分类的方法主要有对余类算法和成对分类算法[27-28]等2 种。
采用对余类算法对裂缝带的发育情况进行预测,先将一个含有M类的训练数据集中的某一类样本数据视为+1 类样本,然后把所剩余的样本视为-1类样本,以此递推就可以构建M个两类分类问题。当划分好+1 类和-1 类后,再利用PSVM 算法进行学习就可以得到满足当前情况下的预测函数,简记为f1=sgn[g1(x)]。用PSVM 算法对训练数据集进行M次学习以后,即可得到含有M个判别式的判别函数集:f1,f2,…,fM。利用该判别函数集对预测数据集进行决策时,需要将预测数据集中包含每一个属性值的样本数据分别依次代入判别函数集中的每一个判别函数的gi(x),(i=1,2,…,M),寻找gi(x)的最大值,则该值对应的上标所属的类就是此样本数据所属的类。
2 近似支持向量机分类性能验证
2.1 数据选取
为了验证PSVM 分类算法和SVM 分类算法的分类效果。将其应用于测井数据中,测井数据来源于川东北YL 地区。选取2 组数据作为实验数据,第一组为该地区内173 井的测井数据,第二组为该地区内171 井的测井数据。分别在173 井和171井油气储层裂缝发育带和油气储层裂缝欠发育带所在区域选取声波时差(AC),补偿中子(CNL),密度(DEN),自然伽马(GR),自然电位(SP)和深、浅侧向电阻率(RLLD,RLLS)等7 种测井参数作为训练数据集(表1)和预测数据集。
表1 基于井的裂缝带预测训练数据集(部分)Table 1 Fracture zone prediction training data based on well
2.2 预测流程
将从173 井和171 井测井数据中挑选的参数分别作为训练数据集和预测数据集。通过实验分别测试SVM 算法和PSVM 算法的分类效果。
将基于173 井制作的训练数据集按照井中裂缝发育状况分为裂缝发育带和裂缝欠发育带,并分别附上+1 类和-1 类标签。然后分别利用SVM 算法和PSVM 算法对该附上标签后的训练数据集进行学习,分别生成判别函数fSVM(x)和fPSVM(x)。再利用这2 个判别函数对基于171 井所制作的预测数据集进行判别,若判别结果f(x)=+1 则表示该样本数据来自于173 井的裂缝发育带,当f(x)=-1 时则该样本数据来自于171 井的裂缝欠发育带。最后将预测结果pyi,(i=1,2,…,n)与实际标签yi,(i=1,2,…,n)进行对比,若pyi=yi说明预测结果正确,若pyi≠yi说明预测结果错误,则
式中:CR为正确率,%;CQ为预测正确的样本数量,个;n为样本总数,个。
2.3 预测结果
将含有164 个裂缝不发育带样本数据和234个裂缝发育带样本数据的预测数据集分别使用SVM 算法和PSVM 算法对其分类预测,预测的正确率如表2 所列。
表2 预测结果Table 2 Prediction results
预测结果显示PSVM 算法对该预测数据集进行分类预测的正确率和SVM 算法相同,而使用PS‐VM 算法和SVM 算法对这398 个样本进行预测所需的时间分别为0.03 s 和0.32 s。PSVM 算法将不等式约束改为等式约束后对算法的预测正确率的影响较小,同时通过求解一次线性方程组大幅度地缩减了PSVM 算法的计算量,达到了不损失判别精度的前提下进行快速学习的目的。
3 近似支持向量机的裂缝带预测
与测井数据相比,地震数据属于大尺度数据,这样的数据虽然很难识别单条裂缝,但对于大量裂缝组成的具有一定规模的裂缝发育带有一定的识别能力。以川东北YL 地区上三叠统须家河组为例,检验PSVM 算法对裂缝带的分类能力。
3.1 研究区地质概况
YL 地区位于川东北,工区内三维地震勘探的面积约3 906.28 km2。选择该区内九龙山构造带东南翼、通南巴背斜带西南侧及川中低缓构造带北部的结合部位作为实际研究区。区域内有6 口产气井,单井日产量及测试段裂缝地震相类型如表3 所列,其中17 井,171 井和173 井均为高产井,单井日产量均大于10 万m3/d。
表3 单井日产量统计Table 3 Single well daily output
研究区内主要目的层位是上三叠统须家河组四段和下侏罗统自流井组珍珠冲段,其中须四段具有“大面积含气、局部富集高产”的特征,同时也是3口高产井的主要产气层。根据地震资料、测井解释、单井精细解剖、成像测井图像及大量岩心分析(图1)表明,该区须四段有效裂缝带的分布主要受到北西向“对冲、背冲式”断层控制,有效裂缝带发育规模较大且裂缝带倾角以中—高倾角为主。其中3 口高产井的紧闭型对冲断层夹持的地层整体表现为空间不连续,不连续性分布范围受对冲断层之间的距离控制,宽度均在1 000 m 以上。
3.2 应用实例
3.2.1 训练数据集的选取
由表2 可知,将SVM 算法中的不等式约束变为等式约束后,并不影响测井数据预测结果的正确率,而且PSVM 算法的运算速度远高于SVM 算法,能够满足处理大数据样本的要求。因此,将PSVM算法引入川东北YL 地区对基于大尺度的地震数据所反映的裂缝带发育状况进行分类。考虑到反映地震波场界限的边缘检测技术、反映层面弯曲程度的体曲率分析技术以及反映地震反射波能量强度变化的反射强度分析技术在识别裂缝发育状况方面各有所长,但这些地震属性单独使用又很容易引起多解性和不确定性等问题,将边缘检测属性、体曲率属性和反射强度属性引入PSVM 算法对裂缝带的类型进行综合判别。
图1 须家河组四段岩心特征与成像测井图像(a)高倾角裂缝,细砂岩,4 553~4 554 m,17 井;(b)高倾角裂缝,砂岩,4 541~4 542 m,171 井;(c)高倾角裂缝,砂岩,4 570~4 571 m,173 井Fig.1 Core characteristics and imaging logging image of the fourth member of Xujiahe Formation
井中的裂缝发育信息可以通过观测岩心和井壁成像等方法获取,较为真实可靠,可通过基于测井数据得到的合成地震记录与地震数据对须四段顶、底位置进行标定,然后提取研究区内6 口井对应的井旁道地震属性组成训练数据集,再根据井中裂缝带的发育程度,将训练数据集分为裂缝发育带、裂缝较发育带以及裂缝欠发育带3 类。
3.2.2 裂缝带的PSVM 分类
首先通过该地区叠后地震资料分别求取所选研究区内的边缘检测属性、体曲率属性和反射强度属性。然后将各地震属性(图2)的数据有序排列组成预测数据集。最后利用PSVM 算法对须四段顶的裂缝带进行分类。
图2 YL 地区须四段各属性切片Fig.2 Attribute slice of the fourth member of Xujiahe Formation in YL area
如图2 所示,依据边缘检测技术的预测结果[图2(a)]来判别17 井、171 井和173 井3 口高产井是否位于裂缝发育带上均有一定的困难,主要产气层位于须四段之外的172 井、175 井和176 井及其附近区域是否位于裂缝带欠发育地区也难以准确识别。体曲率属性[图2(b)]中不仅显示裂缝信息,也凸显地层的起伏,难以准确地从该属性中判别各井及其附近区域裂缝带的准确发育状况。虽然可以根据反射强度属性[图2(c)]判别出17 井和171井位于裂缝发育带的边缘,175 井和176 井位于裂缝带欠发育地区,但是173 井和172 井附近区域裂缝带的发育状况难以准确判别。综上所述,利用单一地震属性对裂缝发育状况进行识别所引起的多解性较强。
依据PSVM 多类分类算法中的对余类算法对川东北YL 地区须四段顶进行裂缝分类。首先依次将训练数据集中裂缝发育带、裂缝较发育带和裂缝欠发育带样本数据视为+1 类,除该类数据之外的其他样本数据视为-1 类,以此构建3 个两类分类问题,然后利用PSVM 算法对这3 个两类分类数据进行学习并形成判别函数集f1,f2,f3,再将预测数据集中每一个由边缘检测属性、体曲率属性和反射强度属性组成的测试样本数据依次代入判别函数集中,最后将计算得到的g1(x),g2(x),g3(x)中的最大值所对应的标签所属的类视为该样本数据的判别结果,当完成所有的判别即可得到该地区裂缝带的分类结果(图3)。图中白色区域表示裂缝带欠发育地区,绿色区域表示裂缝带较发育地区,红色区域表示裂缝带发育地区。
如图3 所示,17 井、171 井和173 井3 口高产井及其附近区域皆为裂缝带较发育地区,而172井、175 井和176 井均位于裂缝欠发育地区。这与研究区内须家河组四段岩心特征、成像测井图像及单井日产量等资料相吻合。利用PSVM 算法能够准确地对裂缝带发育类型进行分类识别。
图3 YL 地区须四段裂缝PSVM 分类结果Fig.3 PSVM classification result of the fourth member of Xujiahe Formation in YL area
4 结论
(1)PSVM 算法将SVM 算法中的凸二次优化问题简化为一次线性方程组,不仅保证了该算法运算的正确率还大幅提升其运算效率,使得该算法在处理大数据样本时表现出更加优越的性能。
(2)针对大尺度大样本量的地震数据,利用PSVM 算法对储层裂缝带进行精确分类,得到了YL 地区的储层裂缝带发育信息。实际应用表明该方法能较为准确地对裂缝带发育类型进行分类,PSVM 算法在储层裂缝带自动分类方面具有较高的应用价值。