基于机器学习的煤层含气量测井评价方法<br/>——以沁水盆地柿庄南区块为例

基于机器学习的煤层含气量测井评价方法
——以沁水盆地柿庄南区块为例

2023-02-09秦瑞宝叶建平李铭宇

石油物探 2023年1期

秦瑞宝,叶建平,李利,余杰,黄涛,李铭宇

(1.中海油研究总院有限责任公司勘探开发研究院,北京100028;2.中海石油(中国)有限公司勘探部,北京100016)

煤层气开发利用的最主要价值是其环境效益[1-2]。中国的煤矿众多,但煤矿瓦斯事故频发,而瓦斯的抽取不仅可以减少煤矿事故的发生,还可以防止资源浪费,降低瓦斯排放对大气臭氧层的污染破坏。煤层气与常规天然气不同,其主要成分是甲烷,燃烧只生成水和二氧化碳,不产生灰渣、二氧化硫或其它重金属有害物质,因此煤层气是清洁能源。其次,我国煤层气资源储量丰富,是良好的天然气后备资源[3-4],能缓解我国能源短缺的问题。煤层含气量是评价煤储层的关键参数,如何准确评价煤层含气量直接影响煤层气勘探开发,因此煤层含气量是煤层气勘探开发中研究的热点与重难点[5-6]。

煤层气为非常规油气资源,其储集与渗流机理与常规天然气相比差异明显[7],煤层含气量受控于煤层储层厚度、煤体结构分布、煤岩变质程度、煤层储层埋深及储层温度压力等多类型因素[8-12]。目前用于测定或评价煤层含气量的方法从数据来源分为实验法和地球物理测井方法。实验法中有通过井壁取心后对煤样进行解吸校正后得到煤层样品含气量的方法,这一方法最为准确且直接,但煤层机械强度差、易碎,使得煤层取心完整率低进而导致对应实验资料数量受限[13-14];另一种方法则是通过等温吸附曲线等实验公式法求取,这些方法都受制于实验数据,不适用于实验数据缺乏的区块。地球物理测井资料因具有性价比高,连续性强及可靠性高的特点被广泛应用于煤层气含量评价中。随着对煤层含气量评价精度要求的不断提高,加之煤层问题的特殊性,机器学习方法被逐渐应用于煤层气勘探开发中[15]。机器学习方法能挖掘数据间的非线性关系[16],尤其面对地球物理测井资料响应与煤层含气量间的复杂关系,侯俊胜等[17]、孟召平等[5]将BP神经网络、支持向量机[18]等方法用于煤层含气量预测,证明了这类方法在该领域的可行性;李泽辰等[19]建立了煤层含气量的支持向量机、神经网络、随机森林和梯度提升树模型,重点介绍了训练模型的过程,分析了4种模型的性能;郭建宏等[20]基于地球物理测井资料运用随机森林方法预测了煤层气含量,详细介绍了超参数的选择等问题,且该方法在实际区块得到了验证。以上方法主要集中在机器学习方法的研究上,但在实际应用中超参数如何选择,实际井应用效果如何,样品数据的多少对模型有何影响等没有明确结论,很难在新区块中得到推广应用。

基于上述问题,结合前人的研究,将BP神经网络、支持向量机与随机森林3种机器学习方法应用于沁水盆地柿庄南区块煤层含气量的评价预测。训练集数据利用交叉验证与网格寻优方法确定各机器学习模型超参数,对3种模型进行盲井检验,根据盲井检验结果对3种方法进行对比分析,以确定3种模型的优劣及适用条件,并将模型运用于生产井中,与实际生产数据进行对比,以检验模型的实用性和可推广性。

1 机器学习所用模型

1.1 BP神经网络模型

BP(Back Propagation)神经网络是一种函数信号前向传播、误差信号反向传播的多层神经网络,是一种通过网络自适应映射进行反向传播的多层前馈网络,可完成输入至输出的非线性运算。整个BP神经网络结构由输入层、隐含层和输出层构成,其中隐含层的结构相对复杂,为多层复合层,层与层之间仅相邻的神经元间可产生反馈连接。BP神经网络模型的本质是基于求解目标结果最理想时对应的网络权值并将其返回至输入层进行计算,重复这一过程直至网络误差值减小至满足要求后输出结果。

理论上这一网络可对任何复杂非线性关系进行逼近求解,信息由输入层向输出层方向传递,网络权值与偏置值的修正与信息传递的方向相反。

BP神经网络模型通过输出层逐层计算各神经元的输出误差,并根据梯度下降的方式对权值与偏置值进行调整,在训练中不断调试、修改使得误差降低至期望误差内,该模式即是误差反向传播。

1.2 支持向量机模型

支持向量机(support vector machine,SVM)模型具有通用性、鲁棒性、计算简单等优点,这一模型在解决小样本、高维模式识别及非线性问题时优势明显。以模式分类的二分类问题为例,其主要思想为:对于给定训练样本,采用核函数方法,让支持向量机建立一个使正例和反例之间的隔离边缘最大化的最优超平面。

对于由输入值x和相应输出值y组成的训练样本,该样本在低维空间中的线性回归函数为:

y=wx+b

(1)

式中:w是权重向量;b是偏置量。该样本在高维特征空间的回归函数为:

f(x)=wφ(x)+b

(2)

(2)式中的非线性变换φ(x)为低维空间到高维空间的映射。

1.3 随机森林模型

随机森林模型是一种以决策树为基础的集成类模型,以单一决策树对目标建立的模型进行组合得到新的模型。随机森林模型预测的结果为各单棵决策树结果的平均值。随机森林模型中为防止模型出现过拟合或训练不充分导致的精度过低问题,将套袋和随机子空间思想引入至模型中。套袋思想指的是对原始n个样本进行有放回n次抽取以生成训练样本,并基于每个训练样本生成回归决策树K。

套袋思想一则可以保证决策树建立的多样化与随机化,二则还可以保证各决策树间的相互独立性。随机子空间思想与套袋思想类似,即在构建单棵决策树时,各分裂节点的特征数选取多为从总特征空间F中随机抽取f个特征,并依照基尼指数作为指标选取最优特征进行分支生长,这一思想可以保证不同树节点与其节点间的特征子集的差异性,进而促进各决策树的独立性与多样性。因而在随机森林回归中,决策树K与特征数f对模型预测性能存在显著影响。

2 研究区块概况与含气量预测模型

2.1 研究区块概况

柿庄南区块位于沁水盆地东南部,构造带对应东南部向西北倾的斜坡带,西部发育NE向展布的寺头断层,该区块经历印支期、燕山期和喜山期等多期构造运动[21]。柿庄南区块自下而上发育奥陶统峰峰组(O2f),中石炭统本溪组(C2b),上石炭统太原组(C3t),下二叠统山西组(P1s)、下石盒子组(P1x),上二叠统上石盒子组(P2s)、石千峰组(P3sh)以及新生界新近系等地层。山西组3号煤层在区块内广泛展布,煤层平均厚度5.95m,平均埋深816m,厚度较大且埋深适中,是本文主要研究的层位(图1)[22]。

2.2 原始数据情况

2.2.1 测井原始数据

本文用于评价煤层含气量的井为22口参数井,它们在柿庄南区块中分布较均匀。参数井测井曲线主要包括井径、自然伽马、自然电位、电阻率(深、浅侧向)与三孔隙度(补偿密度,声波时差与补偿中子)测井曲线,参数井共8条常规测井曲线,无特殊测井资料。

2.2.2 含气量原始测试数据

以SZN-1井为例,展示其含气量数据来源,该样品含气量测定遵照GB/T19559-2004《煤层气含量测定方法》。SZN-1井中3号煤层共采集11个解吸样(表1所示),各参数井在3号煤层采集样品个数平均为8个,共收集到柿庄南区块煤层含气量实验数据185组,总含气量主要在5～25cm3/g,含气量值的分布如图2所示。由图2可见,含气量数据分布合理。

2.3 煤层含气量预测模型

2.3.1 煤层含气量评价步骤

1) 数据预处理。包括岩心数据深度归位、测井数据标准化、扩径校正、数据清洗等。

2) 针对样本数据,进行机器学习方法建模。为了保证模型的正确性与泛化性,将数据按照7:3的比例分开,对70%的数据进行模型训练,为保证模型训练的有效性,利用K折交叉验证(K-Cross Validation)和网格寻优进行超参数选择及模型正确性验证,具体操作是将参与训练的数据分为k组子集,针对每组子集使其成为一次测试集,其它k-1组子集为训练集,重复这一步骤可得到k个模型,利用这k个模型对k个测试集进行预测而得到结果误差,计算误差平均值得到k折交叉验证结果,在交叉验证的基础上,通过网格寻优的方式对超参数进行遍历求解,找出最优组合建立煤层含气量评价模型。

3) 评价各方法在煤层含气量预测中的效果。针对测试集进行分析,并利用完全未参与训练和测试的新井检验模型的泛化性。

2.3.2 煤层测井响应特征分析

柿庄南区块于2007年开始勘探开发,地球物理测井曲线资料较少,仅有常规测井曲线资料,这也是该区块煤层参数评价的制约因素之一。共收集到8条测井曲线,分析认为煤层含气量的变化与地球物理测井资料响应存在密切关系[23-25],例如,煤层产气能力随着煤化作用的增强而增加,煤层气密度较低使得随着煤层含气量的增加,补偿密度减小,这也表明了利用地球物理测井资料建立含气量评价模型的可行性,且地球物理测井资料相对实验资料在数量上更加丰富,具有更好的推广性。基于此,选取自然伽马测井曲线、补偿密度测井曲线、声波时差测井曲线、补偿中子测井曲线和深浅侧向电阻率曲线为特征向量,建立煤层含气量评价模型。

图1 研究区区域位置及柱状地层

表1 SZN-1井3号煤层含气量测试结果

图2 实验含气量数据分布

2.3.3 煤层含气量评价模型的建立

2.3.3.1 BP神经网络模型

将样本数据划分为训练集与测试集,利用BP神经网络结合训练集数据建立含气量评价模型,当隐含层个数为1,隐含层神经元个数为7,学习率为0.1,迭代1000次时,传递误差达到目标设置值,其对应权值分布如表2所示。

表2 BP神经网络权值及阈值

基于BP神经网络模型超参数建立训练模型。图3a为训练集回判结果,其中平均绝对误差为1.27cm3/g,平均相对误差为11.6%,结合交会图及零误差线分析发现该模型训练结果针对高值与低值预测效果不佳,存在一定有偏现象;图3b为测试集预测结果,测试集预测结果平均绝对误差为1.58cm3/g,平均相对误差为15.6%。

2.3.3.2 支持向量机模型

利用支持向量机模型评价煤层含气量时,需要确定核函数(Kernel Function)与惩罚因子(C),其中核函数包括:多项式内积函数、高斯径向基(RBF)核函数与Sigmoid核函数。结合前人经验[26-27],本文选用高斯径向基(RBF)核函数,该核函数应用准确率高且受控参数少,如(3)式所示。

(3)

式中:σ为核函数参数;K(xi,x)为核函数。在建模过程中,需对核函数参数σ与惩罚因子C进行网格寻优,在给定的范围内根据每个组合参数预测误差率的高低进行判断,选择最优参数。为了初步确定核函数与惩罚因子的范围,利用粒子群优化(PSO)进行初寻使其快速收敛,后得到核函数与惩罚因子的适应范围,结合交叉验证与网格寻优进行超参数计算,最终确定核函数σ为12.59,惩罚因子C为3.15。

图3 BP神经网络模型评价煤层含气量a BP神经网络模型训练集回判结果; b BP神经网络模型测试集预测结果

基于支持向量机模型超参数,建立训练模型。图4a 为训练集回判结果,其中平均绝对误差为0.78cm3/g,平均相对误差为7.2%,结合交会图及零误差线分析发现该模型训练结果无偏;图4b为测试集预测结果,其平均绝对误差为1.24cm3/g,平均相对误差为12.2%。

图4 支持向量机模型评价煤层含气量a 支持向量机模型训练集回判结果; b 支持向量机模型测试集预测结果

2.3.3.3 随机森林模型

利用随机森林模型评价煤层含气量时,结合算法原理及李泽辰等[19]在小样本数据下的研究结果,需要确定分裂特征数与决策树的棵数,选择的测井曲线为6条,因而确定分裂特征数为1～5,将决策树棵树寻优步长设置为50,从1棵模型树寻至600棵。在网格寻优的基础上,再利用每棵决策树未参与建模的袋外数据误差进行评价,其计算公式为:

(4)

利用交叉验证与网格寻优,确定分裂特征树为3,模型树棵数为500时,评价得分最高,如图5a所示;对应袋外误差曲线如图5b所示。结合袋外误差曲线图,当特征分裂数为3时,模型树棵数在500时袋外误差已经收敛且稳定,证明了超参数的有效性。

基于随机森林模型超参数建立训练模型。图6a为训练集回判结果,其中平均绝对误差为0.56cm3/g,平均相对误差为5.2%,结合交会图及零误差线分析发现该模型训练结果无偏;图6b为测试集预测结果,其平均绝对误差为1.44cm3/g,平均相对误差为13.4%。

图5 随机森林模型建立过程a 随机森林模型网格寻优结果; b 随机森林袋外误差曲线

图6 随机森林模型评价煤层含气量a 随机森林模型训练集回判结果; b 随机森林模型测试集预测结果

2.3.4 盲井检验及有效性分析

利用机器学习方法结合柿庄南区块数据资料中的训练集建立了煤层含气量评价模型,并用测试集对模型的正确性进行了检验,结合测试集误差(表3)证明了模型的有效性。但由于测试集与训练集数据可能为同井同层数据,无法验证模型的泛化性,因此在完成煤层含气量评价模型的基础上,通过引入同地质构造背景下的新参数井作为验证集进行泛化性检验,即用未参与模型建立的数据进行验证,结果如图7所示。共有20个岩心实验样本,其中支持向量机模型和随机森林模型计算的含气量与实验室煤层解吸含气量吻合度高,随机森林模型在低含气量预测中效果最好。同时展示了验证集盲井SZN-013井的预测效果(图8),并结合表3实际误差数据进行分析。统计各类方法在不同数据集上的表现并进行评价,3种机器学习模型在训练集与测试集中平均误差均较低,但BP神经网络模型评价会将高值预测偏低,将低值预测偏高,对含气量相对高值与低值预测效果差,对含气量数据集中段具有较好的评价效果,这也导致BP神经网络模型泛化性差,在盲井验证集上误差最高且在SZN-013井含气量预测中出现异常现象,在扩径段与夹矸段出现异常波动预测结果,这也表明了该方法抗干扰能力差,不适用于不均衡数据训练。支持向量机模型与随机森林模型整体表现效果好,但随机森林模型在盲井验证集上表现最好,各类误差均为最低。误差数据也表明了3种机器学习方法的有效性与泛化性,BP神经网络模型训练难度大且对数据质量要求高,只能有效预测数据分布集中段范围的含气量;支持向量机模型适用于小样本数据,且具有泛化性,但在含气量低值区预测能力相对较弱;随机森林模型由于采用重采样模式建模,因此,能平衡数据分布不均的问题,在含气量低值数据较少的情况下也能有效训练模型,模型准确性高且具有泛化性。

表3 机器学习方法评价煤层含气量误差

图7 验证集煤层含气量评价效果

图8 验证井SZN-013井煤层含气量评价

3 开发井应用效果

煤层气产量受地质和工程等多种因素影响,含气量是地质因素中的一个因素,是产气量高的基础,含气量的准确预测在一定程度上可以指导煤层气开发。我们利用优选评价模型对柿庄南区块62口开发井进行煤层含气量评价,得到各开发井含气量曲线。为了呈现平面效果,计算3号煤层含气量均值,对含气量进行了平面绘制,绘制3号煤层含气量等值线热图如图9a所示;并根据开发井排采生产数据,计算出对应62口开发井平均有效日产气量,绘制等值线热图如图9b所示。由图9可见,除了个别区域存在含气量预测误差外(如研究区西南部),含气量高值区基本对应平均有效日产气量高值区,整体分布趋势相近,即可以通过评价煤层含气量指示出开发有利区块。将开发井3号煤层含气量均值与3号煤层平均有效日产气量进行交会分析(图10),两者皮尔逊(Pearson)指数达到0.76,拟合优度为0.57,从数据上也表明了两者相关性强,但从样本点分布分析,煤层含气量评价的准确性与排采制度及压裂改造等施工因素制约着两者的相关性,与实际生产情况相符,这也进一步验证了开发井煤层含气量评价的正确性。开发井应用效果表明了煤层含气量对煤层气勘探开发具有重要的指导作用,也进一步证实了机器学习方法在煤层含气量评价中的可靠性与可推广性。

图9 柿庄南区块3号煤层含气量评价与排采生产数据分析a 3号煤层含气量等值线; b 3号煤层平均有效日产气量等值线

图10 柿庄南区块3号煤层含气量评价与排采生产数据交会分析结果

4 结论

1) 利用BP神经网络模型、支持向量机模型和随机森林模型可以有效评价煤层含气量,但是在实际应用中这3种模型的评价效果有所不同。其中BP神经网络模型受制于原理与实际数据质量,评价效果差;支持向量机模型与随机森林模型因适用于小样本数据,评价效果良好;随机森林模型因重采样抽取方式能平衡数据样本分布不均的问题,使得这一模型在含气量低值区的评价效果更为可靠。这为今后含气量评价提供了方法选择的依据。

2) 为了验证模型的泛化能力,应用盲井对3种模型进行检验,3种方法平均相对误差分别为17.6%、11.7%和10.4%,误差数据表明3种机器学习方法评价煤层含气量的有效性与泛化性存在差异。

3) 将最终形成的煤层气评价方法直接应用于实际开发井含气量预测,与实际生产数据对比符合率较高,说明优选出的模型的适用性和可推广性更强;对实际煤层气勘探开发具有指导意义。