基于随机森林算法的煤层气产能模式识别模型

2022-02-24谭辰阳张占松周雪晴郭建宏秦瑞宝

煤矿安全 2022年2期

谭辰阳，张占松，周雪晴，郭建宏，肖航，陈涛，秦瑞宝，余杰

（1.长江大学地球物理与石油资源学院，湖北武汉 430100；2.油气资源与勘探技术教育部重点实验室（长江大学），湖北武汉 430100；3.中海油研究总院，北京 100027）

煤层气作为新型清洁资源[1-3]，历经近30 年的勘探开发，减少开发成本、提升开发产量、合理分配开发优先顺序等，已经成为煤层气当前勘探开发领域的热点之一。煤层气产能模式的划分研究是煤层气的勘探开发不可或缺的一部分，不同井往往具有不同的排采规律。近年来我国学者对煤层气的产能模式和排采类型提出了多种的分类方法和分类依据，如：依据解吸压力、废弃压力和产气量提出“五段三压”法的排采控制技术[4]；结合稳产时间，排采曲线形态上的差异提出的4 种产能模式，8 个亚类[5]；根据煤层气井的产水、产气特征提出的煤层气排采阶段的六段划分法[6]；参照煤层气的稳产期产气量以及排采曲线形态提出的5 种产能等级、3 种产能模式，7 个亚类[7]；统计大量生产数据的基础上由产气量，峰值产气量，排采曲线形态上确定了4 种产能模式，共8 种亚类[8]；根据压力下降幅度、下降速度及压力曲线的变化形态特征将生产井分为了3 类[9]。

柿庄南区块位于沁水盆地东南部，具有丰富的煤层气资源[10]，是勘探开发煤层气的主战场之一[11]，但该区块各井产气量差异较大，而且低效井较多。目前，煤层气产能预测的方法主要有：数值模拟[12]、BP 神经网络[13]、支持向量机[14-15]、多元回归[16-17]、灰色系统[18-19]、随机森林[20-21]等，这些方法在各自研究区块取得了不错效果，但这些方法模型适用范围、模型实际预测精度都有待探究和提高。例如，数值模拟的理论计算与实际结果相比，预测精度不高；BP 神经网络和数字模拟两者模型的建立往往需要大量生产数据和储层参数数据，这大大制约了其使用范围；支持向量机在解决二分类问题时效果较好，但在实际煤层气产能预测过程中往往要解决的是多类问题，单一的线性关系远远不能满足预测建模的需要，这对算法本身提出了更高的要求，所以改善支持向量机模型的泛化性和过度拟合是需要解决的问题；由于煤层气储层参数受地质因素影响较大，并不能用简单的线性关系进行多元回归分析，因此回归模型的精度无法保证，与实际不相符；利用灰色理论方法形成的灰色模型预测精度不高，且容易出现过拟合的现象。

基于前人研究的基础上，结合柿庄南区块120口生产井实际排采数据，根据其4 个排采曲线特征值：平均日产气量、峰值日产气量、从见气到峰值日产气量所经历的时间、生产时间，与排采曲线形态相结合，将120 口开发井的产能特征分为3 类产能模式，并对其进行深入地分析和解释。不同于以往的产能划分标准，提出的类别划分方法，主要目的在于为实际勘探开发过程中的开发优先顺序提供指导，对实现产区煤层气的勘探开发具有指导作用，尽可能地提升产区经济效益。在提出3 类产能模式后结合不同开发井在地球物理测井资料上表现出的不同响应值，利用随机森林算法，对地球物理测井资料与上述提出的产能模式进行相关性分析，进而建立了基于测井曲线的预测煤层气产能模式的随机森林分类模型。

1 煤层气井产能特征及产能模式划分

根据排采曲线的特点，基于沁水盆地柿庄南区块的120 口开发井的排采数据，选取了排采数据中的4 个变量：峰值日产气量、平均日产气量、见气到峰值日产气量的时间、生产时间。根据这4 个特征值可以充分表征出某口煤层气生产井的排采特点，结合排采曲线形态特征将这120 口井分为3 类产能模式，煤层气井产能模式示意图如图1，不同产能模式对应的排采特征值范围见表1。

图1 煤层气井产能模式示意图Fig.1 Schematic diagram of CBM well productivity model

表1 不同产能模式对应的排采特征值范围Table 1 Range of drainage characteristic values corresponding to different production capacity modes

1.1 产能模式Ⅰ

模式Ⅰ的数量占参与研究的开发井数量的36.7%，该类井多为低产井，对应的平均日产气量普遍偏低或基本不产气，其中86%的开发井日产气量小于500 m3，峰值日产气量普遍小于1 000 m3。生产时间在1 213～2 840 d。排采曲线连续性差，曲线幅度变化小，日产气量峰值普遍小于900 m3。模式Ⅰ的开发井可分为2 类：Ⅰ-1 持续低产，无稳产阶段，出现持续产气波动；Ⅰ-2 持续低产，稳产时间很短，稳产日产气量也很低，整体产气周期呈现缓慢上升再下降的趋势。

选择其中2 口具有代表性的井进行分析，产能模式Ⅰ代表性井排采曲线图如图2。

图2 产能模式Ⅰ代表性井排采曲线图Fig.2 Representative well drainage curves diagram of productivity model I

由图2（a）可知，A1 井平均日产气量为427.58 m3。该井从见气开始经历了持续1 100 d 左右的低产状态，期间平均日产气量为142 m3，产量波动不明显。经过持续低产阶段后，该井产气量逐渐上升，从排采曲线上看不见明显峰值，稳产时间较短，持续有600 d 左右，稳产期间日产气量稳定在600～864 m3，但始终无法达到中高产，并在600 多d 的稳产后出现产气量下降的趋势。整体排采过程中出现了1次排采不连续的情况，出现在持续低产阶段，打断排采的时间较长，持续了175 d，导致产气量直线下降，通过对实际排采资料核实发现机器故障发生断电是打断排采连续性的主要原因。由图2（b）可知，A2 井整体平均日产气量仅有180.24 m3，该井经历了长期不产气只产水的阶段，持续500 d 左右，并在500 d 以后进入见气阶段，随之产气量快速上升到达峰值后，便开始迅速下降，经过数次波动后产气量再次下降为0，产气持续波动持续2 年以上。该井的前期排水较为持续，且在产气波动阶段产气峰值较低，峰值日产气量有680 m3，稳定低产阶段持续最长时间仅150 d 左右。所以该井整体含气量较低，开采潜力弱。

1.2 产能模式Ⅱ

模式Ⅱ的数量占参与研究的开发井数量的35%，多为中产井，部分中高产井，对应的开发井主要排采特征：峰值日产气量大于500 m3以上，平均日产气量在500～2 755 m3，峰值日产气量为1 440～6 350 m3，见气到峰值产气的时间为369～2 389 d，整体生产时间为1 576～2 718 d。模式Ⅱ的开发井排采曲线可分为2 类：低产-稳产（Ⅱ-1）和低产-稳产-低产（Ⅱ-2）。模式Ⅱ-1 对应的开发井见气后经历了较长时间的低产阶段，经过持续低产阶段迅速达到产气峰值阶段，并能保持较高日产气量持续产出。模式Ⅱ-2 对应的开发井见气后经过较长时间的低产阶段，但在低产阶段整体呈现缓慢上升的趋势，随后迅速到达稳产阶段并在稳产时期出现产气峰值，经过一段时间的稳定高效地产气后，再次迅速回落到低产阶段。模式Ⅱ的煤层气井由于低产阶段时间较长，导致其整体产气量往往达不到高产井的标准。但其峰值日产气量较为理想，均高于1 000 m3，且有71%的井高于2 000 m3。同时模式Ⅱ的开发井产气下降阶段出现的时间都比较晚，这样是维持该模式下中产井出现的原因之一。

选择2 口具有代表性的井进行分析，产能模式Ⅱ代表性井排采曲线图如图3。

“哼哼叽叽”、“唱唱咧咧”这两个词中的“哼”和“唱”是可以单独成词的，而“叽”和“咧”不可以。重叠后也是一样，AA式“哼哼”和“唱唱”是可以独立使用的，而BB式“叽叽”和“咧咧”一般不能单独使用。但“叽叽”作为叠音词时改变声调，音为“jìji”时变成动词是可以单独成词的，当然，这种情况是比较少见的。

由图3（a）可知，A3 井在见气后经历了较长时间的低产气阶段，持续有4 年左右的时间，整体低产阶段具有缓慢上升的趋势。随后在短期内（10 d）迅速达到产气峰值，并进入高效稳产阶段，该阶段持续有700 多d。如图3（b）可知，A4 井在见气后同样经历了持续低产阶段，但该井的低产阶段整体上升趋势更为明显，由低产到稳产的曲线连续性更好，由低产到稳产的过度时间更长，且具有明显阶梯趋势。该井低产阶段持续有2 年多时间，其中产量由低产到高效稳产的上升阶段经历了250 d 左右，呈阶梯式上升。高效稳产持续为500 多d，随后产气量波动迅速回落到相对较低的900 m3，并持续了较长时间。

图3 产能模式Ⅱ代表性井排采曲线图Fig.3 Representative well drainage curves diagram of productivity model Ⅱ

1.3 产能模式Ⅲ

模式Ⅲ的数量占参与研究的开发井数量的28.3%，多为中高产井，部分井达到高产井的产气水平，该模式下的生产井主要排采特征：峰值日产气量为888～4 815 m3，平均日产气量为397～1 358 m3，见气到产气峰值的时间为34～2 274 d，整体生产时间为2 169～3 022 d。该模式下的主要特点表现为稳产时间长，持续有2 到4 年，其中有82%的井平均日产气量大于500 m3。整体生产时间均超过2 000 d以上，该类型开发井排采曲线连续性都有明显波动，见气阶段储层气解吸速度快，产气量上升迅速，上述特点说明该模式下的开发井具有较高的开发潜力。产能模式Ⅲ代表性井排采曲线图如图4。

图4 产能模式Ⅲ代表性井排采曲线图Fig.4 Representative well drainage curves diagram of productivity model Ⅲ

由图4（a）可知，A5井平均日产气量为1 358.47 m3，峰值日产气量为2 356 m3，从见气到产气峰值仅用了262 d 的时间。该井在产气上升阶段产量上升速度很快，上升至产气峰值后持续稳产时间很长，稳产阶段产气量始终维持在1 000～2 000 m3，整体稳产阶段呈现小范围的缓慢递减趋势，并在稳产阶段出现多次产气量上下波动，但波动幅度不大。该井煤层气含量较高，资源富集，所处的地质条件和储层条件都对煤层气的高效产出十分有利，日产气量始终保持在较高的水平。由图4（b）可知，A6 井平均日产气量为675.66 m3，峰值日产气量为1 270 m3。见气迅速，开采的第26 d 就开始产气，产气期间排采曲线波动很小，一直持续产气。从见气后，到达产气峰值之前，产气持续且呈现缓慢上升的趋势，整体稳产时间较长（2～3 年），具有良好的产气潜力。但在稳产阶段后产气量迅速回落到500 m3左右，随后产气量逐渐递减，稳产阶段后的产气递减阶段持续时间长达2～3 年，最终导致该井累计产气不高，整体产量偏低，导致产气迅速回落的原因可能是排采制度的改变或者是机器故障打断了排采的连续性。整体来看，模式Ⅲ下的开发井，稳产时间较长，峰值产气较高，产气下降时间较晚，生产时间较长，整体含气量较高，具有较高开采潜力。

1.4 产能模式测井曲线相关性分析

结合箱线图分析3 种不同产能模式对应3 号煤层段地球物理测井曲线响应均值之间的关系，3 类产能模式对应3 号煤层测井响应值范围如图5。

图5 3 类产能模式对应3 号煤层测井响应值范围Fig.5 Three types of productivity models correspond to the logging response value range of No. 3 coal seam

煤是一种相对基质密度较低的物质，在补偿密度测井曲线上表现出较低值。甲烷气体的密度相对煤的密度要小很多，所以煤层气含量的增加会导致相应煤的体积密度减小。故反映在测井补偿密度曲线上时，煤层气含量的增加，补偿密度曲线值减小。由图5（a）可知，模式Ⅰ对应的大多为低产井和无效井，其煤层含气量较低；模式Ⅱ和模式Ⅲ对应的多为中高产井，含气量相对较高，3 类模式下的密度响应值并未呈现出理论角度上的下降趋势。根据实际参数井岩心资料响应分析，产能模式Ⅰ中的开发井煤体结构多可判别为碎粒结构，结合参数井取心结果证实，碎粒结构煤一定程度上受到泥浆和地层水侵入影响，导致其补偿密度测井资料响应值偏小；另一方面，产能模式Ⅱ和产能模式Ⅲ产气较好，其煤体结构多判别为原生结构和碎裂结构，均为有利产气煤，经观察煤样取心照片，存在原生结构和碎裂结构的破碎程度差异性不明显的煤样，两者孔裂隙空间均发育良好，且镜质组含量较高，利于实际开发中的压裂作用，故产能模式Ⅱ和产能模式Ⅲ的密度测井值比较接近。综合来看，3 类模式的密度测井影响因素众多，呈现复杂的非线性关系，难以利用箱线图这种一维方法进行区分展示。

煤的自然放射性很低，表现出的放射性主要取决于黏土等，放射性物质吸附在灰分上，吸附在灰分上的矿物质会影响煤层对气体的吸附能力，使得煤层有效孔隙度减少。故煤层随着灰分的增加，自然伽马值增大，煤层气含量也随之减少。结合图5（b）可知，3 类产能模式随着排采潜能的提高，自然伽马测井曲线响应值呈现下降趋势，3 类产能模式之间的下降趋势十分明显，尤其是模式Ⅰ对应的低产井与模式Ⅱ、模式Ⅲ对应的中高产井之间的下降趋势。但在模式Ⅱ、模式Ⅲ之间存在小部分重合。

煤层的电阻率影响因素众多，煤层气含量越大，电阻率越高，所以深侧向电阻率曲线响应值较大时，煤层中含气量越大，深侧向电阻率曲线响应值也随之增大，通过对比深侧向电阻率曲线的差异，可以分析煤层气含量的差异。由图5（c）可以看出，3 类产能模式对应的深侧向电阻率曲线响应值表现出的上升趋势明显，但模式Ⅱ、模式Ⅲ之间存在较多重叠部分。

综上分析，3 类产能模式在不同地球物理测井资料上表现出的特征存在一定的差异性，但生产井的煤层气实际排采过程中影响因素过于复杂。通过测井曲线箱线图分析发现不同产气模型测井响应值重叠部分较多，导致这一现象的原因可能是实际测井资料受到扩径、煤体结构的不同、泥质夹矸段的存在等的影响。简单的线性方程无法表征测井资料与产能模式之间的关系，所以需要引入机器学习的方法探究不同产能模式与地球物理测井资料之间的复杂非线性关系。考虑到3 种产能模式井数量之间存在比例相对不均衡且整体数据量偏小的情况下，采用随机森林的算法挖掘测井曲线与不同产能模式之间在高维空间的非线性关系。

2 方法实现

2.1 随机森林原理

随机森林是一种基于集成学习的思想，借助Bagging 算法和随机子空间技术的机器学习算法。Bagging 算法的训练过程是对训练集样本进行N（训练集样本大小）次随机有放回式的抽样，形成1 个基分类器，重复n 次，得到n 个基分类器，即1 个基分类器集合。在Bagging 分类过程中，各基分类器同时参与测试集中的样本分类过程，并对各基分类器的分类结果进行统计，同一样本得到最多的分类器认可的类别就是这一样本的最终类别。随机子空间技术是一种分类算法，与Bagging 算法的不同在于是对训练集的特征数据中进行无放回式的随机抽取部分特征形成新的特征子集。

随机森林通过自助法（bootstrap）重采样技术，从原始的训练集中随机并有放回地抽取n 个样本，从而形成1 个新的训练子集，在新的训练子集M 个特征中随机抽取m（m＜M）个特征，从m 个特征中优选最佳的特征作为决策树分裂的依据，重复进行直到获取N 棵决策树，这些树的集合就是最终的训练模型。随机森林将每个决策树联合在一起，建模得到的每棵树都依赖于每次独立抽取的样本，预测分类的误差取决于每棵决策树的分类能力和每棵树之间的相关性。

大量研究表明[22-24]，随机森林的特点主要集中在以下几点：自助法重采样使得高维特征数据更容易被处理；二维采样的方式使得数据得到平衡处理并获得较高精度的计算结果；对训练集规模较大、特征较多的数据进行快速训练，并形成高精度的分类器；可以有效地避免对训练集或者测试集中某个特征的遗失现象；决策树的形成过程中，内在的误差评估和相关性对比可以在总体上提升算法的精度。

2.2 基于交叉验证和网格搜索的参数优选

交叉验证是机器学习建模过程中模型精确度评估的处理手段，其中K-fold 叉验证[25-26]是较为常见的模型评估的方法。K-fold 交叉验证可以大大降低预测结果的偶然性，提高模型的泛化性，主要步骤：将原始训练集数据随机分为K 组，分别将每个训练子集做1 次验证集，剩余的K-1 组子集作为新的训练集，用新的训练集建立模型测试验证集，重复得到K 个模型，计算每次测试的错误率，取K 次误差率的平均值作为K-fold 交叉验证最终误差结果。

由随机森林的原理可知，树的数量（ntree）和节点分裂特征的个数（mtry）对随机森林模型的效果具有决定性作用。对于超参数的选择，理论上来说，随机森林树的棵树越多，模型效果越好，但是达到一定棵树后，模型效果提升空间很小，而大量棵树会带来计算的负担，所以树的棵数选择在一个稍微大的范围内即可。网格搜索就是寻找最优模型对应的参数组合，可以有效地避免模型过拟合或者欠拟合造成的误差值。ntree 和mtry 分别在一定范围内随机取值，对应的参数组合训练出不同的随机森林分类模型，再根据K-fold 交叉验证法对每组ntree 和mtry对应的分类模型学习精度进行评估，进而对比每组分类模型学习精度优选出最佳的参数组合方式。Kfold 交叉验证与网格搜索相结合的方式，可以有效提高确定参数的效率及参数的优度，大大提高分类模型的可靠性，降低随机选取训练集对模型准确率的影响。随机森林分类算法和网格搜索均在python语言平台中实现，产能模式分类流程图如图6。

图6 产能模式分类流程图Fig.6 Production capacity model classification flowchart

2.3 实际数据使用

结合柿庄南区块120 口开发井的实际测井曲线，选取补偿密度、自然伽马、深侧向曲线、自然电位这4 条测井曲线在对应每口生产井3 号煤层的响应均值作为特征向量，利用随机森林算法建立产能模式划分模型。利用网格搜索法对随机森林算法模型进行参数优选，优选mtry 参数的范围为（1、2、3、4），优选ntree 参数的范围为（100、200、300、400、500）。mtry 和ntree 两两组合，形成20 种参数组合方式。考虑到Ⅰ类产能模式有44 口井，Ⅱ类产能模式有42 口井，Ⅲ类产能模式有34 口。将这些井分成训练集样本和测试集样本，其中96 口井数据为训练集，24 口井数据为测试集，测试集数据不参与实际建模过程，仅用于评价模型精度。所以选择3 折交叉验证，对随机情况下的96 组训练集进行评估，最终优选出mtry、ntree 分别取1 和300 ，对应的交叉验证结果为85.4%，此时训练集建立的模型相对于其他参数组合最具有泛化性和有效性。利用优选的mtry 和ntree 参数并结合96 组训练集对测试集进行产能模式预测分析，最终结果正确率为91.7%，随机森林产能模式分类结果与实际模式的混淆矩阵见表2，测试集中预测正确代表井展示图如图7，测试集中预测错误代表井展示图如图8。

表2 随机森林产能模式分类结果与实际模式的混淆矩阵Table 2 Confusion matrix between the classification results of random forest productivity model and the actual model

图7 测试集中预测正确代表井展示图Fig.7 Display diagram of the representative well predicted correctly in the test set

图8 测试集中预测错误代表井展示图Fig.8 Display diagram of representative wells with prediction errors in the test set

结果显示，随机森林模型对产能模式Ⅰ、模式Ⅱ判别精度很高，有2 组模式Ⅲ的井被错误的预测为模式Ⅱ，造成误差的原因：实际生产过程中，排采受到各种地质因素及生产工艺的影响，生产制度的改变、停井检修、卡泵等都会对实际排采曲线的形态，排采特征值造成改变；由区块现有数据发现，在3 号煤层段中普遍存在泥质夹矸，夹矸段的岩性和煤层的岩性存在较大差异，导致实际测井曲线响应发生改变和失真。例如自然伽马曲线响应和补偿密度曲线响应在夹矸段发生异常偏高情况，深侧向电阻率曲线响应发生异常偏低情况；模式Ⅱ和模式Ⅲ多为中高产井，由前文测井曲线箱线图也可以看到，虽然3 类产能模式在自然伽马、深侧向曲线、自然电位相关性趋势较为明显，但模式Ⅱ和模式Ⅲ之间存在不同程度的重叠部分，这也可能是测试集中2 口模式Ⅲ的井预测错误的原因之一。