基于支持向量机与地球物理测井资料的煤体结构识别方法
2021-06-08郭建宏杜婷张占松肖航秦瑞宝余杰王灿
郭建宏,杜婷,张占松,肖航,秦瑞宝,余杰,王灿
(1.长江大学 地球物理与石油资源学院,湖北 武汉 430100; 2.长江大学 油气资源与勘探技术教育部重点实验室,湖北 武汉 430100; 3.中海油研究总院,北京 100027; 4.湖北省地质局 水文地质工程地质大队,湖北 荆州 434020)
0 引言
我国煤炭资源丰富且拥有广阔的开发前景,煤层气勘探也是近年来非常规油气资源开发的重点研究方向[1-2]。煤岩煤体结构的多样性与复杂性一直是煤层气资源开发的制约因素[3],不同煤体结构对煤层的储气能力、吸附能力,物性、岩石力学性质及后续开采中压裂等施工方案存在较大影响[4-7],因而有效评价、预测煤体结构对煤层气开发尤为关键。
最早识别煤体结构相对直接有效的方法有煤心编录或井下直接判别,但煤层取心过程中由于其机械强度差容易破碎,取心率低,且煤井下条件受限,因而这类相对直接的方法获得的岩心数据等资料完整度差且资料数量受限[8]。地球物理测井技术在煤体结构识别中的应用也一直是研究热点[9],相对于利用AVO反演[10]等三维地震技术划分煤体结构的高成本方法,地球物理测井技术具有连续性强、可靠性高且性价比突出的优势,并且已取得了较为丰硕的成果,这类方法总体可概括为三大类,分别为曲线形态分析法,定量计算法与数学统计法。曲线形态分类法即是早期学者利用煤层测井资料呈现的响应趋势结合取心实验结果,绘制图版[11],二分类[12]等方法识别原生煤与构造煤,取得了一定效果。定量计算法是在测井曲线形态分析法的基础上,将定性与定量方法相结合,这类方法相比曲线形态分析法能提升煤体结构识别精度,例如利用地球物理测井资料与煤岩骨架参数计算煤体结构指数[13],以及利用电阻率与井径测井资料响应变化结合其他测井资料进行煤体结构识别[14]。也有学者分析地球物理测井资料在不同煤体结构段的响应差异,结合实验参数及响应机理找到对应区块趋势,并以此为基础,结合公式构建新的评价参数,例如CI指数法[15]等这类方法,这类方法多以放大不同煤体结构在测井资料响应上的差异为主。数学统计法目前也被较多地引入煤层煤体结构识别,主要包括多元回归法与机器学习法。多元回归法中有学者将地质强度因子(GSI)引入并利用多元回归建模以识别煤体结构[16],或利用对应分析技术识别多类煤体结构[17]等,但煤层极其复杂,对应地球物理测井资料响应受众多因素影响,其与煤体结构为非线性关系。机器学习方法对非线性问题有明显优势[18],目前已有学者将机器学习应用于煤体结构识别中,主要使用BP神经网络法,例如将煤体结构与声波测井等资料构建BP神经网络模型[19],或通过因子分析对地球物理测井资料中的曲线进行优选后,结合地质强度因子与地球物理测井资料的BP神经网络模型[20]。
相比之下,在定性识别煤体结构的研究中,地球物理测井资料体现出的规律性可适用于同煤阶的多区块,但准确性相对较低;定量识别法能有效提高精度,但这一方法由于区块间地球物理测井资料呈现的响应差异难以进行推广,泛化性较差;数学统计法对样本数据量要求相对较大,难以表征复杂变量与目标间的非线性关系;BP神经网络在非线性逼近关系上存在优势,但也存在对样本需求量大、参数选择复杂、目标函数优化过程繁琐且易出现过拟合现象的缺点。煤层由于机械强度差导致取心率低,对应资料数量少,结合前人利用支持向量机(Support Vector Machine,以下简称SVM)这一对数据量要求较小的算法在煤层参数评价中取得良好的应用效果[21],本文将SVM结合地球物理测井资料对煤体结构进行评价识别,并对该方法的有效性进行评价。
1 工区概况及数据分析
煤体结构是宏观上对煤体构造变形程度的一种描述方式,指的是地下煤层因构造运动形成的结构特征,是煤层各组成部分对应的颗粒大小、形态特征及组合关系的一种表现。对煤体结构的划分国际上提出了许多标准,国内通常根据煤体结构在宏观上的破碎程度进行划分,大体上可分为原生结构煤与构造煤。相对原生结构煤,构造煤受地下地质构造作用,经挤压、摩擦、拉张、剪切及破碎,其理化性质发生改变,构造煤包含碎裂煤、碎粒煤及糜棱煤[22-23]。
本次研究沁水煤田柿庄北地区参数井3号煤层数据,沁水煤田为石炭—二叠纪煤田,资源储量丰富,开发潜力巨大[24]。沁水盆地为大型复式向斜构造,柿庄北区块位于沁水盆地东南部的斜坡上,地层较平缓,该区块先后经历了印支期、燕山期和喜山期构造运动,构造线多为 NE—NNE 走向[25]。柿庄北区3号层厚度相对较大且分布稳定,埋深在830~1 600 m。通过对取心得到的煤样进行观测,得到对应煤体结构种类,包含原生结构、碎裂结构,碎粒结构及极少糜棱结构。经对不同煤体结构储层的孔裂隙特征及其渗透率间的关系实验与实际生产开发中得到的结果认为,碎裂结构煤与原生结构煤对煤层气产出相对有利[26],原生结构煤裂隙系统完整,碎裂结构煤适度的变形产生的裂隙系统对储层渗透率的提供有益,而碎粒结构煤及糜棱结构煤破坏程度大,渗透率极低且改造工艺难度大,制约对应煤层的产能提升[27]。从以上因素考虑,将煤体结构分为Ⅰ类结构(原生结构)、Ⅱ类结构(碎裂结构)以及Ⅲ类结构(碎粒结构和糜棱结构),其中Ⅰ类结构煤与Ⅱ类结构煤为有利产出煤,Ⅲ类结构煤为不利产出煤,其特征如表1所示。
对参与研究的参数井进行测井曲线标准化处理,结合煤层取心报告及现场图片,提取对应深度段地球物理测井资料响应,并对提取出的地球物理测井资料响应进行数据预处理,预处理内容包括深度校正,对受扩径因素影响的测井系列进行扩径校正,并对数据进行清洗,主要清洗夹矸高灰段,半幅点等响应值。此外,由于样本数量不均衡,Ⅲ类结构煤数量极少,结合取心长度与测井曲线采样间隔进行数据扩充,共得到不同结构煤的测井资料响应数据117组,其中Ⅰ类结构煤37组,Ⅱ类结构煤与Ⅲ类结构煤均为40组。表2为各类煤体结构对应的地球物理测井资料响应范围,图1为其箱线图。
下面通过理论结合实际测井资料响应,分析不同煤体结构与地球物理测井资料响应间的关系。在岩性测井系列中,多使用井径测井与自然伽马测井识别煤体结构。井径测井表征的是钻孔直径。煤岩中煤体结构类型存在差异,对应裂缝体系不同,导致不同煤体结构对应煤岩段在钻井过程中坍塌程度不一[28],理论上煤体破坏程度越高,对应结构相对疏松,越容易出现井壁垮塌导致井径测井曲线响应出现扩径现象,因而通过观察井径测井资料,响应值越大,对应煤体结构破碎程度越大来区分煤岩煤体结构[11]。但根据柿庄北区3号煤层实际测井资料响应发现,三类煤体结构对应的测井资料响应中均出现明显扩径现象。图1b中展示的为井径响应范围,钻头直径为21.59 cm,发现三类结构对应的深度段均出现不同程度的扩径,且每一类结构也存在未扩径段。以Ⅱ类结构煤与Ⅲ类结构煤为例,随着煤体结构破坏程度的增加,井径扩径范围仅略微增加,但Ⅰ类结构煤变化趋势不明显,难以从二维角度区分,这可能是由于三类结构煤镜质组含量相对较高所致,也可能与当时煤层钻井中井壁加固技术不成熟存在关系。
表1 柿庄北区3号煤层煤体结构类型Table 1 Coal structure types of No.3 Coal Seam in Shizhuang north area
表2 不同煤体结构对应的地球物理测井资料响应范围Table 2 Response range of geophysical logging data corresponding to different coal structures
自然伽马测井表征的是岩层中自然伽马射线的强度,多用于计算放射性元素含量。理论上,煤岩自然放射性会由于孔、裂隙变化导致的放射性物质含量改变而出现响应差异,即煤岩的放射性多与泥质含量、黏土矿物以及灰分于沉积过程中吸附的次生放射性物质相关。煤体结构破碎程度增大一定程度上表明构造活动强度增加,可能导致对应煤岩与围岩及其流体中的溶解物质和沉淀物质间的交换作用更活跃,而煤岩本身放射性低,这一现象会使得煤岩放射性大,对应自然伽马测井资料响应值增大[14]。结合实际数据分析,如图1a展示,三类煤体结构随着破坏程度增加,自然伽马测井资料响应值略有上升趋势,三类结构煤的响应范围重合段较多,这与煤岩非均质性密不可分,仅能从整体上得到变化趋势,且不同区块自然伽马测井响应值变化趋势不一定相同,研究区块3号层自然伽马测井响应趋势与上述理论情况不相悖。
在三孔度测井系列中,多使用补偿密度测井资料和声波时差测井资料判别煤体结构,补偿中子测井资料难以用于煤体结构识别。补偿中子测井反映的是地层含氢指数,结合其变化程度反映含水量继而计算孔隙度。煤岩含氢元素较多,组成煤的碳氢化合物的含氢指数与水几乎无差异[29-30],煤岩中裂隙越发育,水越容易填充,但并不会引起含氢指数的变化,结合实际数据箱线图1d也可以发现三类煤体结构对应补偿中子测井响应无明显区分度。
补偿密度测井用于评价地层密度,这类测井资料与煤岩储层孔、裂隙发育关系密切。由于煤体结构破碎程度增大使得结构疏松,且裂隙系统发育越好,水也越容易填充,且破碎程度越大的煤体结构比表面积相对大,对气的吸附能力更强,均使得对应结构煤密度减小,因而随着煤体结构破坏程度增加,补偿密度测井资料响应多呈减小趋势[31]。结合实际数据箱线图1e可分析得到,实际数据变化趋势与理论相符,但也存在数据点重合。
声波时差测井资料表征的是地层剖面的岩石声学性质。不同种类的岩石由于各方面差异导致其声波传播速度、衰减规律与频率特征存在较大区别,理论上,由于煤体结构破碎程度增加,结构相对更为疏松,声波传播速度减小,时差增大[12,32]。结合实际数据箱线图1c,发现三类煤体结构随着破碎程度增加变化趋势增大,但Ⅰ类结构与Ⅱ类结构重合部分较多,Ⅲ类结构声波时差测井资料响应值为高值数据点较多,整体趋势较复杂,这也与岩石密度、围压,含水量和含气性相关。
图1 三类煤体结构对应地球物理测井资料响应值范围Fig.1 Response range of geophysical logging data corresponding to three types of coal structure
在电阻率测井系列中,多用能反映原状地层的深侧向电阻率测井系列来识别煤体结构。电阻率测井资料表征的是地层电阻率的变化情况。理论上有学者认为随着随煤体破碎程度增加,煤岩中水分等增加,煤体中自由基浓度及小分子含量增加,其与煤岩中水分子共同作用使其导电性能增强[33],电阻率减小;但也有学者认为随着煤体结构破碎程度增大,煤体比表面积增大,吸附的煤层气更多,而煤层气含量的增加会使得电阻率上升,且高阶煤中煤岩强度相对大,破碎程度的增加对其裂隙结构和含水性变化产生的影响可能较小,因而认为电阻率测井曲线的变化趋势更适用于中阶煤煤体结构识别[34]。事实上电阻率受多因素影响,响应极为复杂,不同区块间煤层电阻率都存在较大差异,在标准化过程中也存在人为修正因素带来的误差,因而不同煤体结构的电阻率响应值变化趋势难以确定。结合本区块实际数据箱线图1f可以发现,柿庄北区电阻率值均较高,但其中随着煤体结构破碎程度的增加,Ⅱ类结构煤与Ⅲ类结构煤出现了电阻率特低值,对应取心资料中发现取心岩样中存在侵入状况,使得部分取心样品段对应的电阻率测井响应值相对减小。
综上分析,不同煤体结构在地球物理测井资料上呈现出的响应变化存在一定差异,但在煤储层中,裂隙结构与其分布特点、矿物质含量、含水性及煤层气含量等均会对测井响应产生影响。结合实际数据分析发现,不同煤体结构在自然伽马、补偿密度、声波时差、深侧向电阻率及井径测井资料上虽然存在一定趋势,但不同结构类型煤对应的测井资料响应范围重复度较大,为非线性响应。当实际数据响应与理论情况下响应差异较大时,利用线性关系方法放大不同煤体结构间测井响应趋势难以准确判别。因而使用机器学习方法,结合高维特征空间数据,建立非线性关系识别煤体结构更为合适,由于数据样本相对较少,使用SVM进行分类研究。
2 方法实现
2.1 方法原理
SVM是基于统计学习理论发展出的一种模式识别方法,具有通用性、鲁棒性,计算简单等优点[35],尤其在面对小样本、非线性以及高特征维度识别问题中优势明显,相较于BP神经网络,该方法具有人为参数设置少、能找到全局最优解的优点[36]。SVM主要思想为通过建立决策面将正例与反例分隔开,本质上是一个两类分类器,但实际应用中需要解决多分类问题,因而通过分解机重构将多分类问题转变至二分类问题。针对柿庄北区3号煤层煤体结构特点,本文应用SVM二分类与“一对多”分类模式解决煤体结构识别问题。
2.1.1 二分类
SVM通过非线性映射θ(x)将输入向量xi映射至高维特征空间中的向量zi,并在高维空间中找到最优超平面(图2)。在特征空间中利用式(1)即可实现对变化后的线性分类[37]:
K(xi,xj)=θ(xi)·θ(xj)。
(1)
2.1.2 “一对多”分类
“一对多”分类[38],即在构造第一类分类器时将归属该类的样本标记为正,其余所有训练样本定位负,得到分类器S1,随后按上述步骤构造其他类别分类器,按照需要得到相应个数的分类器,后将测试数据输入至对应分类器,结构如图3所示。“一对多”分类应用相对广泛,这类方法分类速度快,不会出现分类重叠和错误累积现象,但可能会出现不可分现象[39]。相对于二分类方法,此类方法需要两个参数:核函数(kernel function)与惩罚因子(C)。核函数多分为多项式内积函数、RBF核函数与Sigmoid核函数。本文使用的为RBF核函数,RBF核函数相对多分类问题准确率高且受控参数少,其公式为:
(2)
式中:σ为核函数参数。在实际使用中,需对核函数参数σ与惩罚因子C进行寻值,即利用“网格搜索”寻值,在给定的范围内,根据各组参数分类正确率的高低,判断是否为最优参数,当出现多组参数预测正确率均为最高时,为避免泛化性能力降低,通常选取惩罚因子C最小的组。这一过程的实现可利用matlab工具包实现。
图2 低维特征向量映射至高纬特征空间Fig.2 Mapping low dimensional feature vector to high latitude feature space
图3 “一对多”方法结构Fig.3 Structure diagram of “one to many” method
2.2 方法步骤
结合SVM原理和柿庄北区3号煤层煤体结构类型特点,使用两种模式进行煤体结构识别分类。方法一为结合煤体结构类型使用双二分类模式,即是经过两次二分类进行判别,其结构图见图4a。首先利用二分类方法确定有利产出煤与不利产出煤(Ⅲ类结构煤),在有利产出煤中再次使用二分类对Ⅰ类结构煤与Ⅱ类结构煤进行区分。方法二为直接利用“一对多”方法对三类结构煤进行区分,结构图见图4b。
图4 煤体结构判别流程结构Fig.4 Flow chart of coal structure discrimination
2.3 实际数据使用
结合柿庄北区参数井3号煤层地球物理测井资料,选取井径、自然伽马、补偿密度,声波时差与深侧向电阻率这5个与煤体结构存在相关趋势的测井序列作为特征向量,利用SVM建立煤体结构识别模型。为了有效评估SVM模型的有效性,利用交叉验证(cross validation)进行检测。K折(K-CV)交叉验证,即将原始数据分为k组,对应每组子集均作为一次测试集,则另外k-1组子集为训练集,这样共可得到k个模型,然后利用上述k个模型的测试集预测得到结果,k个误差和平均即为k折交叉验证误差。本文使用4折交叉验证,流程图见图5a。结合实际分类问题,用预测正确率进行表征。结合实际工区数据,Ⅰ类结构煤37组,Ⅱ类结构煤与Ⅲ类结构煤均为40组。为了保证能正确评价模型的有效性,用于最终验证的样本集不参与建模。随机选出3类煤体结构数据各16组作为验证集,将剩余三类煤体结构数据均分至4个组,除第4组Ⅰ类结构煤相较于其他组多1个外,各组各类煤体结构数量一致,交叉验证结果如图5b所示。双二分类模式与“一对多”分类模式交叉验证结果分别为78.2% 和84.1%,结果并未出现较大波动,交叉验证中测试集预测结果的错误个数大多在1~2个间,由此可见用SVM判别煤体结果具有有效性与泛化性。
图5 交叉验证流程图与结果Fig.5 Cross validation flow chart and results
将用于交叉验证的所有数据作为训练集,对验证集进行煤体结构预测评价。结合取心结果,双二分类模式与“一对多”分类模式的正确率分别为 83.3%与89.6%,其具体预测结果分别如混淆矩阵表3所示。
两种模式均能对煤体结构进行判别,在煤样取心中由于存在破碎煤心,煤层部分段煤体结构未知。在对已知结构的煤层段煤体结构的识别结果中,“一对多”分类方式与煤心结果匹配度相对高,尤其在Ⅲ类结构煤的识别上准确率明显较高,双二分类模式在Ⅰ类结构煤判别的准确率来说相对较高,三类煤体结构识别能力相对较弱。即在实际数据验证中,利用SVM与常规测井数据相结合识别煤体结构具有准确性与实用性,在无其他特殊测井资料的情况下具有适用性。柿庄北区块参数井及非参数井开采时间较早,技术与使用的测井方法相对匮乏,本文利用SVM结合常规地球物理测井资料能有效识别煤层不同类型的煤体结构,实用性较强,且对后续区块产能评价具有指导意义。
表3 SVM对煤体结构识别结果Table 3 Recognition results of coal structure based on SVM
2.4 误差讨论
针对SVM模型在验证集上的表现,“一对多”分类模式相对双二分类模式精度更高。双二分类模式在实现过程中,区分有利产出煤与不利产出煤时,两者数量存在较大差距,且第一次二分类时会产生误差,使得第二次二分类时存在误差累积。结合验证集结果的混淆矩阵,双二分类模式在有利产出煤与不利产出煤的判别上存在误差,而“一对多”分类模式未产生类似误差,仅在判别有利产煤中两类结构煤存在较小误差,就性能而言,“一对多”分类模式精度更高。
对单井整层段结果而言,误差多来自于不同煤体结构交会处,这取决于测井方法在纵向上的分辨率,尤其是针对厚度较小的煤体结构段,这类误差较为明显。此外,煤层夹矸段对测井资料响应的影响也会导致判别出现误差。在实际煤岩中,大段煤层会存在泥质夹矸,对应测井资料会呈现出自然伽马测井响应值与补偿密度测井响应值为异常高值,电阻率测井资料会呈现减小趋势,具体趋势变化程度取决于夹矸厚度对测井资料响应的影响。这一异常趋势容易导致判别结果出现偏差,这也是造成煤体结构识别正确率下降的原因之一。
3 结论
本文通过煤层取心资料,结合产能效益,总结了柿庄北区3号层各类煤体结构类型,通过测井资料分析测井曲线与煤体结构间的响应特征,应用SVM双二分类模式和“一对多”分类模式有效识别各类煤体结构,并用实际井资料进行判别,达到了煤体结构识别的目的,并得到以下结论:
1) 柿庄北区块3号煤层煤体结构可分为3类,将3类煤体结构对应的地球物理测井资料响应进行分析,可以得到自然伽马测井资料、补偿密度测井资料、声波时差测井资料,深侧向电阻率测井资料与井经曲线在响应上和煤体结构存在非线性关系。
2) 利用SVM两种模式结合相关测井资料,可以有效识别煤体结构,交叉验证结果也表明这类方法具有泛化性,且“一对多”分类模式正确率高于双二分类分类模式。
3) SVM误差主要由测井手段分辨率的限制与夹矸段导致。
4) SVM两种分类模式的样本空间是基于常规测井资料建立的,在无其他特殊测井资料时仍具有适用性。
利用SVM结合地球物理测井资料能有效识别煤体结构,对实际生产开发具有指导意义,有广阔的应用前景。