基于机器学习的页岩气井产量评价与预测

2022-01-04何佑伟贺质越汤勇秦佳正宋俊杰汪勇

石油钻采工艺 2021年4期

何佑伟贺质越汤勇秦佳正宋俊杰汪勇

西南石油大学油气藏地质及开发工程国家重点实验室

0 引言

常规储层天然气产量已不能满足市场需求，全球页岩气藏已成为非常规天然气勘探开发的重要领域。中国页岩气资源量丰富，在国家产业政策的指导和支持下，该产业快速发展。截至2020年2月，长宁、威远和昭通页岩气示范区块已累计提交探明储量10 610×108m3，累产页岩气超200×108m3［1］。加大页岩气开发和利用对保障能源安全，改善能源结构，减少环境污染，建设清洁低碳、安全高效的能源体系具有十分重要的战略意义。

页岩气藏孔隙度和渗透率极低，单井一般无自然产能或自然产能低于工业气流下限，需要采用水平井和水力压裂改造技术进行开发，形成天然裂缝和压裂裂缝相互连通的复杂裂缝网络，提高气体在储层中的渗流能力［2-4］。但压裂后缝网关系复杂、裂缝动态变化、多井平台中井间压窜现象显著、气-水-压裂液多相流动规律复杂，导致页岩气井产量难以预测，致使后续开发方案设计与调整缺乏科学依据。高效、准确地评价与预测页岩气井产量对于提高页岩气资源开发效果至关重要。

国内外学者采用经验公式、解析方法及数值方法开展了大量页岩气产量预测方面的研究。其中，经验公式及解析模型难以考虑页岩气藏复杂渗流特征，不同模型的适用条件及适用阶段都各有不同，导致预测结果与实际相差较大［5-6］；基于数值模型的产量预测方法对实际储层特征进行了简化，包括对复杂动态缝网刻画不够精确、未考虑井组压窜干扰特征等［7-10］，且页岩气井组缝网数值模型计算量较大，历史拟合难度大，产量预测效率较低，结果不确定性高，故现场推广性一般。因此，需借助新方法开展页岩气井产量预测研究。

机器学习是一种多领域交叉学科，其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题［11］，包括在石油与天然气领域［12-18］。刘巍等［19］根据实际油藏静态资料和开发动态资料，使用机器学习方法实现油井日产油量预测；辛欣等［20］基于机器学习方法构建水合物降压开采传热—流动—力学数值模拟模型及可以替代数值模拟模型的机器学习模型，找到了累计产气量最优值与地层稳定性的关系。在页岩气产能预测方面，Gong等［21］及Yu等［22］针对页岩气产量预测中的不确定性问题进行了研究；马文礼等［23］提出了一种基于机器学习的页岩气产能非确定性预测方法；李菊花等［24］通过对储层物性和压裂施工参数分析，引入随机森林算法对页岩气压裂水平井产量进行预测，并指出测深、垂深、延伸压力、脆性指数、密度测井值和总液量是多段压裂井产量的主要影响因素；严子铭等［25］基于涪陵页岩气藏水平井的现场数据，分别采用深度神经网络、支持向量回归以及极限梯度爬升等3种机器学习方法，建立了从储层和施工参数到采收率的预测模型，分析了各类模型的优缺点，以及相关参数的重要性。目前，基于机器学习方法的页岩气井产量预测多以部分因素(地质因素或压裂因素等)为基础进行研究，指标体系不完善，结果可靠性有待进一步验证。

鉴于产量评价及预测需要全面考虑页岩气地质、钻井、压裂、生产等多方面因素，并精细处理地质及工程数据，笔者利用机器学习方法进行页岩气井产量评价及预测研究。首先对初始数据进行缺失值分析，利用多重插补法对缺失值进行插补。之后运用皮尔逊相关系数法对各类数据进行相关性分析，利用分析结果对数据进行异常值处理。由于因素数量较多，使用主成分分析对其进行降维处理，基于最终降维的结果进行页岩气井产量的聚类分析，并划分A区块页岩气井产量等级，最后采用随机森林方法对页岩气井产量进行预测。

1 随机森林原理

加利福尼亚数学教授Breiman于2001年完善并推广了随机森林这一经典机器学习模型［26］，其所拥有的出色性能以及解决问题领域的宽泛性已经得到了学术界的广泛认可。随机森林作为一个集成评估器，其基评估器是决策树［27］。对于决策树模型，其回归、分类的能力有限，存在过拟合风险［28］，数据微小波动可能导致结果出现较大偏差，因此使用集成算法(随机森林)来解决上述问题。集成算法综合考虑多评估器建模结果，以此获取相较于单评估器更好的回归或分类表现。随机森林是由多个决策树组成的集成评估器，其原理见图1。

图1 随机森林原理示意图Fig. 1 Schematic principle of random forest

2 基于聚类分析的页岩气井产量评价

首先进行数据处理，使用的数据类型全为连续型，数据质量需要进行相关性分析。观察原始数据发现缺失值较多，需要插补。插补过后需要进行异常值分析，处理异常值。此次所用数据的特征较多(表1)，若将全部特征放入模型进行训练，将大幅增加模型复杂程度及计算量，因此通过主成分分析将可能存在相关性的特征变为线性不相关的特征，来对数据进行降维以提高模型计算效率，转换后的特征称为主成分。

表1 A区块页岩气井产量影响因素Table 1 Factors influencing the production rates of shale gas wells in A Block

2.1 缺失值处理

对原始数据进行分析，结果表明缺失数据高达34.61%，因此不建议采用众数与平均数替换方法插补缺失值。笔者采用多重插补法对缺失值进行插补：基于除缺失值外的变量建立线性模型，以此预测要填补的数据。对插补后的数据进行分析，未出现明显异常值，因此多重插补结果可信度较高，但仍需进一步进行异常值检测来检查插补数据的质量。

2.2 异常值处理及相关性分析

现场数据量大且复杂程度高，因此存在一定的误差。明显异常的数据(如数量级异常)易于分辨，而对于不明显的异常，人工筛选效果较差。在异常值处理中可以选用的方法有很多，例如：箱型法、马氏距离法、库克距离法等。最简单的是箱型法，其可判断单个因素中的异常值，但对于多个因素相关性较强的情况而言，箱型法得出结论较片面。在进行异常值判断时，需找到不同因素彼此之间的关联：对于独立性较强的因素(如主压裂液量)采用箱型法筛选异常值，对于与其他因素相关性较高的因素(如返排率)采用马氏距离法来筛选异常值。

在异常值处理后，采用皮尔逊相关系数法对连续数据进行分析(图2)，结果表明大多数变量间的相关性是正常的(如压裂段数、射孔簇数及改造体积等)，部分相关性存在异常，例如：总有机碳含量、脆性指数与平均累产气量为负相关，表明该特征对应的数据不合理，因此需要进一步处理数据，删除相关性异常的因素。

图2 皮尔逊相关系数法分析结果Fig. 2 Analysis result of Pearson correlation coefficient method

将与平均累产气相关性较弱的因素剔除，在确保数据量充足的前提下提高计算效率，筛选后的与累产气相关的备选因素剩余15个：压裂段数、射孔簇数、改造体积、水平段长、压裂段长、入地液量、入地砂量、渗透率、孔隙度、总含气量、最小水平主应力、脆性矿物、黏土矿物、井间干扰影响比例、井间干扰恢复比例。分别确定上述15个因素对应的相关因素，结果见表2。

表2 各备选因素对应的相关因素Table 2 Correlation factors corresponding to different candidate factors

除最小水平主应力外，其余备选因素皆有与其相关的因素，因此选用箱型法筛选最小水平主应力异常值，马氏距离法筛选其余因素异常值，筛选结果见表3。除最小水平主应力存在2个异常值，其余插补后的数据均未见异常值。并且最小水平主应力异常值数量很少，可删除。

表3 异常值筛选结果Table 3 Outlier selecting result

2.3 主成分分析及聚类分析

在聚类分析时若使用全部因素进行分析，那么数据噪声过大，若直接删除与累产量相关性较差的因素，可能损失部分有用信息。针对异常值处理及相关性分析后得到的15个备用因素进行主成分分析，对数据进行降维，以此提取得到由备用因素组合形成的影响因子，最终选定其中5个特征值大于1的变量。计算得到影响因子与备选因素之间的相关性矩阵见表4。

表4 影响因子与备选因素对应系数矩阵Table 4 Corresponding coefficient matrix of influential factors and candidate factors

利用k均值聚类法对样本进行分析(表5)，优等井、中等井、劣等井分别占比36.4%、37.8%、25.8%，其中优等井、劣等井的聚类中心差值绝对值最大的为Y1影响因子，因此其对A区块页岩气藏产量评价结果影响最大，Y1影响因子的主控因素为压裂因素(压裂段长、压裂段数、射孔簇数、入地液量)，在压裂因素中占比最大的为压裂段长。

表5 聚类分析结果Table 5 Cluster analysis result

3 基于随机森林的页岩气井产量预测

基于Python语言，采用随机森林算法对A区块页岩气井进行产量预测。由于不同评价指标往往具有不同量纲，各指标之间可比性较差，因此首先将数据归一化，以进行综合对比评价。归一化使预处理数据被限定在［0，1］之内，让数量级较小的指标也具有“发言权”。随后确定数据标签及特征(标签为平均累产气，特征为其余14个因素)，并随机划分训练集和测试集，以避免偶然性。最后将随机森林回归器实例化，通过交叉验证观察模型稳定性：将数据划分为10份，依次使用其中1份作为测试集，其他作为训练集，通过多次计算检验模型精确度及泛化性，交叉验证得到均方误差(MSE)为0.083 5。为进一步检查模型的准确度，随机生成测试集放入模型进行预测，4口井预测结果的均方误差(MSE)为0.014 2，预测准确率为89.32%。

对随机森林模型调参，首先调整最优随机状态值，绘制学习曲线，选出最优随机状态值为30。固定随机状态值，针对树模型数量绘制学习曲线，寻找最优树模型数量。以此类推，遍历各变量寻找最优参数，包括：树模型数量、树最大深度、分枝时考虑最大特征数、叶子节点最少样本数，中间节点分枝所需最小样本数。结果表明在对中间节点分枝所需最小样本数进行调参时，模型准确度不增反降，认为此时模型达到最优，此时调参后模型交叉验证结果MSE为0.055 7，最优参数见表6。