APP下载

基于机器学习与模型融合的大庆油田SN区块油井压裂效果预测技术

2023-02-13蒋文超

大庆石油地质与开发 2023年1期
关键词:产油量油层油井

蒋文超

(1.国家能源陆相砂岩老油田持续开采研发中心,黑龙江 大庆 163712;2.中国石油大庆油田有限责任公司勘探开发研究院,黑龙江 大庆 163712)

0 引 言

大庆油田开发已经超过了60 年,其中压裂是一项重要的增产与提高采收率的手段[1⁃6]。由于水力压裂的成本整体较高,压裂效果不但影响了油井产量,而且决定了压裂投资是否能够产生预期的效益。因此,建立一个精度较高的预测模型对压裂效果进行精确判断对于大庆油田开发具有非常重要的意义。目前,很多学者将机器学习方法应用于油田开发中[7⁃15],特别是用来评估完井和增产措施[16]。油井压裂效果预测实际上就是评估地质、生产和压裂工程等因素对于压裂后产量的重要性。目前对于压裂效果的研究很少在模型中考虑地质特征[17],或者假设储层是均质的;有学者利用油井位置坐标来代替地质特征,但这需要油层在所研究的区域范围内有很强的趋势性变化[18]。部分研究在建立模型时,还存在参与训练与测试数据量少的问题[19]。另外,国内外大部分基于数据建模的压裂井研究都是针对致密油、页岩气与页岩油等[10,19⁃25]非常规油气藏的新钻水平井压裂进行评价,而大庆油田的压裂很多都是针对正在开发的油井开展,需要考虑生产前的动态指标,将这类生产动态指标考虑在模型中的报道文献较少。目前,大庆油田对油井水力压裂效果的预测大多数是依靠油藏工程师对压裂相关参数的人工分析和经验,存在着不确定性大、预测精度低的问题。本文通过数据统计分析、机器学习和模型融合技术对大庆油田SN区块的油井压裂情况进行了数据挖掘,建立了精度较高的预测模型,并应用该模型对SN区块进行了压裂方案辅助决策。

1 模型基础信息

1.1 区块概况

本文数据来自大庆油田SN区块。该区块发育萨尔图、葡萄花和高台子3个油层,共分8个油层组、35个砂岩组。萨Ⅱ、萨Ⅲ及葡Ⅰ油层砂岩厚度分别为30.7、16.7、24.3 m。这些油层的沉积环境为河流―三角洲,属于碎屑岩储层,根据密闭取心资料统计结果,油层的储集空间以原生孔隙粒间孔为主,孔隙间大部分连通。平均渗透率为913.1×10-3μm2,平均孔隙度为27.3%;岩性以细砂岩、粉砂岩为主,细砂岩质量分数为42.4%,粉砂岩质量分数为33.8%,粒径中值为0.124 mm,分选系数为4.15。葡Ⅱ和高台子油层均为三角洲外前缘亚相沉积,砂体厚度较小,油层物性较差,由北向南油层数减少、厚度变薄。该区块所有开发井都处于5点法面积井网中。

1.2 数据来源

本文从措施数据库中提取了压裂相关数据,删除缺失数据后共888井次。数据集中的特征可以分为3类:地质信息、压裂前生产信息和压裂工程信息。地质信息中包含了压裂井的井位坐标、压裂目的层深度、砂岩厚度、孔隙度、渗透率、沉积相类型和破裂压力。其中,孔隙度和渗透率采用厚度加权平均法计算得到,沉积相采用目的层位累计厚度最大的沉积相。另外,压裂前生产信息能代表压裂前油井的生产能力,对压裂后的产油量有很大影响。模型中考虑的参数包括压裂前的日产油量、日产液量、含水率以及沉没度。压裂工程信息也会对压裂结果作出一定贡献。在模型中,该类信息包含加砂量、压裂液体积、混砂比、压裂液类型、裂缝条数和压裂方式。加砂量和压裂液体积能够在一定程度上描述裂缝的大小,这会在一定程度上影响着压裂增产效果。不同的压裂方式(如选择性压裂、限流法压裂等)由于压裂工艺不同,也会造成压裂效果的差异。本文研究采取的目标变量是油井压裂后稳定的日产油量。

2 研究方法

2.1 特征工程

2.1.1 数据预处理

为了保证样本具有代表性,删除有缺失值样本。另外,为了消除特征间单位差异的影响,以便每个特征被同等对待,对特征集的数据进行了标准化,使得每维特征的平均值为0,标准差为1,计算公式为:

式中:zi——第i个样本标准化后的数值;xi——第i个样本标准化前的数值;μ——所有样本的平均值;σ——所有样本的标准差;n——样本的数量。

对于数据集,按照75%和25%的比例将整个数据集随机地划分为训练集和测试集。训练集用来训练和优化各个算法的模型,而测试集则用来评价模型的精确度。为了保证评价的公正性,测试集在整个过程中不参与任何模型的训练,仅用于模型性能的评估。

2.1.2 特征重要性评估及特征选择

特征重要性评估能够帮助理解数据的特点,成功的特征选择更能够提升模型的性能,使模型泛化能力更强,减少过拟合。本文采用基于LightGBM模型[26]的封装法进行特征重要程度计算与特征选择,其中,特征重要程度通过特征分裂后的增益大小来衡量。为了特征重要性结果的稳定,本文采用7折交叉训练的方式计算。按照计算获得的特征重要性程度由大到小,向模型中逐个加入特征,得到特征数量与模型精度和稳定性的关系。最终,优选能够使模型的平均得分高且得分标准差低的特征集作为预测模型的输入变量。

2.2 机器学习模型的建立与调优

2.2.1 模型的训练与优化

为了评价超参数能够使模型达到的精度,进而选择得到最佳超参数组合,采取7折交叉验证方式对给定范围的超参数进行优化,具体操作:将训练集随机分成7个子集,每个子集包含10%的训练集。每次不重复地取一个子集作为交叉验证集来评估当前模型得分,而训练集中剩余数据则用来训练模型。通过这种方式,可以获得7个模型,用这些模型验证误差的平均值来评估超参数组合性能。对于所有超参数组合都采用这种7折交叉验证的方式,通过对比平均测试误差来获得最优超参数组合。最后,利用最优超参数组合在整个训练集上进行训练,再用测试集评估该算法的最高精度(图1)。

图1 7折交叉验证示意Fig. 1 Schematic diagram of 7-fold cross validation

2.2.2 机器学习算法

目前,支持向量机[27]、神经网络[28]和集成学习是机器学习算法中较为成熟、适用性较广、精度较高的几类算法,它们在大部分数据集上都有着较好的表现。这几类算法的结构有很大差异:支持向量机算法是将输入向量非线性地映射到一个很高维的特征空间,在该特征空间中求解一个最优超平面;神经网络算法是通过训练集数据来训练计算各个层、各个节点之间连接的权重值,从而形成神经网络模型;集成学习算法则是通过将大量弱学习器组合在一起,从而形成一个性能较好的强学习器。算法结构的差异性使这些算法适用的数据集结构不同,基于“没有免费午餐”理论[29],本文利用下文中4种算法开展机器学习建模。

2.2.2.1 支持向量机

本文采用的支持向量回归(Support Vector Regression,SVR)是支持向量机的一种,它使用ε-不敏感损失函数作为损失函数,其中,不敏感损失函数表达式为

式中:L(z)——不敏感损失函数;z——样本值;ε——不敏感损失系数。

支持向量回归算法在模型调参时主要考虑4个超参数:核函数,不敏感损失系数ε,惩罚参数C和支持向量影响因素γ。

2.2.2.2 神经网络

本文选取神经网络模型中的多层感知机,该网络结构由输入层、输出层和若干隐藏层组成,隐藏层中每个神经元可以用一个偏差、一个权重值和一个激活函数来描述,表达式为

式中:yi——当前层节点i的输出值;ωij——前一层神经元j与当前层神经元i之间的权值;xj——前一层节点j的输出值;bi——当前层神经元i处的偏差或阈值;f()——传递函数或激活函数;m——前移层神经元的数量。

当神经网络层次深、结构复杂时,可能出现过拟合现象,降低模型的泛化能力。除了本文已采用的7折交叉验证之外,采取的L2正则化和早停技术(early stopping)(图2)这2种正则化方法也能够有效地防止过拟合现象发生。神经网络需要调整的参数有激活函数类型、优化器类型、学习率、隐藏层数和神经元数。

图2 早停技术示意Fig. 2 Schematic diagram of early stopping

2.2.2.3 随机森林

随机森林[24]是一种由大量决策树组合而成的集成学习方法,采用了Bagging集成技术。森林中每棵决策树会随机选取特征,并进行有放回的抽取样本。本文对影响随机森林精度的几个重要超参数进行优化:子模型的数量、节点分裂时参与判断的最大特征数、决策树最大深度和内部节点再划分所需最小样本数。

2.2.2.4 LightGBM

LightGBM属于boosting算法中的一种,是GBDT 算法的一个工程实现[26]。LightGBM在算法结构上作了以下优化,使它的速度更快、效率更高:通过直方图算法降低分裂点的数量,通过基于梯度的单边采样技术降低样本的数量,通过互斥的特征捆绑算法减少了特征的数量。除此之外,在树的生长策略上,通过叶子生长策略提高了模型的精度。另外,LightGBM支持类别特征,并且采用多对多的切分方式将类别特征分为2个子集,实现类别特征的最优切分。最后,LightGBM还进行了工程上的优化,通过特征并行、数据并行和投票并行的方式实现高效并行,通过直方图算法对Cache的命中率进行优化。本次研究对lightGBM中树的最大深度和每棵树叶子的最大数量等12个超参数进行了优化。

2.2.3 支持库、超参数调整与模型评估

本文采用Scikit-learn库[30⁃31]来实现支持向量回归、随机森林和LightGBM算法,利用基于Py⁃thon的Keras库[32]来构建神经网络模型。超参数调优采用网格搜索方法。另外,采用均方误差EMSE和决定系数R2来评估模型的精确度,公式为:

式中:n——样本数量;Yi——第i个样本的实际值;̂——第i个样本的预测值;——所有样本的平均值。

2.2.4 模型融合

模型融合是把多个具有不同算法结构的强学习器进行融合,使得融合后的模型效果更强。本文在对每种机器学习算法进行独立调参优化的基础上,将4种机器学习算法进行模型融合,最终得到一个强学习器。研究中采取的模型融合方法有算术平均融合、加权平均融合和堆叠法。其中,算术平均融合与加权平均融合的公式分别为:

式中:hi(x)——第i个学习器对于样本x的预测值;H(x)——融合模型对于样本x的预测值;αi——第i个学习器的权重,本研究将模型得分作为权重;T——参与模型融合的学习器数量。

堆叠法是一种多层模型,将已训练好的多个模型作为初级学习器。然后将这几个初级学习器的预测结果作为新的训练集,来学习得到一个次级学习器。堆叠法可以看成是一种结合策略,使用另外一个机器学习算法来将个体机器学习器的结果结合在一起。为了防止过拟合,本研究的次级学习器选用最简单的模型,即线性回归。

3 结果分析与讨论

3.1 数据统计

本次研究分析了SN区块油井的压裂历史数据。影响油井压裂后产油量的因素较多,单因素分析很难描述各个因素与产油量的关系。然而,仍然可以用箱形图来描述变量之间的一般趋势。

图3为各种影响因素与压裂后产油量的关系。在箱形图中,箱形范围从分组数据集的第1个四分位数(25%)到第3个四分位数(75%)。

图3 各种影响因素与压裂后产油量的关系Fig. 3 Relationship between various influencing factors and oil production after hydraulic fracturing

从图3可以看出,压裂后产油量随措施前日产油量的增加而增加,随含水率增加而减小。

图3(a)显示,压裂前含水率对压裂措施效果起着重要的作用,这是由于该生产指标能够在一定程度上描述井周围储层的含油情况。某些油井含水率较低,有着一定的产油潜力,但由于存在着近井地带堵塞等情况,降低了油井的产液能力,使油井的产油量有所下降,需要通过压裂来增产。

图3(b)显示,当埋深在800~1 000 m时,目的层深度对压裂效果影响不显著,而超过1 000 m时,压裂效果明显变差。这是由于SN区块较为发育的萨Ⅱ、萨Ⅲ的埋深为800~973 m,葡Ⅰ油层埋深为946~1 032 m,这3个油层的物性和储量丰度相近,只是在葡Ⅰ油层底部略有变差;而埋深普遍超过1 000 m的葡Ⅱ油层为三角洲外前缘亚相沉积,砂体厚度较小,储层物性和含油性都较差,在葡Ⅰ油层底部和葡Ⅱ油层中,同一埋藏深度也存在不同程度的相变甚至不连通的情况,同时储量丰度也随着深度增加而变低。

3.2 特征重要性及特征选择

箱形图进行的单因素分析只能在一定程度上表示各个因素与目标变量的关系,无法描述变量之间复杂的非线性关系。图4显示了基于LightGBM封装法评价特征重要性的计算结果。由图4可知,在生产因素中,压裂前的产油量、含水率和产液量对压裂后产油量有着很大的影响,这3个因素能在一定程度上代表油井压裂前的产油能力,然而压裂前沉没度对模型性能的贡献不是很大。在压裂工程因素中,加砂量对模型的影响较大,而压裂液用量和混砂比对目标变量的影响非常小;压裂液类型对压裂的效果也有一定的影响。在地质因素中,对模型的贡献程度由大到小依次为:压裂目的层平均深度、x坐标、压裂目的层破裂压力、压裂层厚度、y坐标、压裂目的层渗透率和孔隙度、沉积相类型。对于油井的坐标,油层南北向的延展主要是通过横坐标的变化来描述,大庆油田的物源方向为由北向南,油层发育在这个方向上变化更为明显,因此,x坐标在模型中的贡献大于y坐标。总的来说,压裂前的生产因素对目标变量影响最大,其次是地质因素,最后是工程因素。这说明了对于SN区块来说,及时监测油井情况并根据生产动态正确地选井选层对于压裂效果更为重要。

图4 各个特征的重要程度Fig. 4 Features importance

在特征重要性评价的基础上,将特征按照重要程度由高到低逐个加入模型,在整个数据集上进行7折交叉验证。要使预测模型达到精度高而且性能稳定的效果,需要模型R2在交叉验证中取得较大的平均值和较低的标准差。如图5所示,R2的平均值在特征数量达到6之后基本趋于稳定,而达到15时获得了较低的标准差,即稳定的性能。因此,在后续研究中,选取这15个特征作为输入变量。

图5 交叉验证中模型R2平均值和标准差与特征数量的关系Fig. 5 Relationship of mean value and standard deviation of R2 vs. features amount in cross validation

3.3 机器学习建模及模型融合

图6显示了支持向量回归、神经网络、随机森林和LightGBM这4种算法建立模型的预测性能。结果显示,经过超参数调整后,4种算法最优模型在测试集上展示的性能由好到差依次为神经网络、支持向量回归、LightGBM、随机森林。效果最好的神经网络在测试集上的决定系数R2为0.603。

图6 各种算法及融合模型在数据集上的预测性能Fig. 6 Prediction performance of algorithms and ensem‐ble models on data set

在4种算法分别调优的基础上,采用堆叠法、加权平均和算术平均这3种方法对4种强学习器进行了融合。结果显示,融合模型在测试集上的性能均远超单个模型,其中堆叠法融合效果最好,其融合模型的R2高达0.899,均方误差仅为2.16,模型预测值与真实值对比见图7。其他2种融合方法的R2也均超过0.700。分析可知,这种高精度的融合效果是由2个方面同时作用而产生的:第一,参与融合的每个基础模型性能都较高(在本研究中,4种算法的最优模型在测试集上的R2均接近或超过0.600);第二,参与融合的各个算法结构和原理不同,融合模型能够充分发挥每种算法的特点(本研究中4种算法之间的计算过程都存在着较大差异)。随机森林与LightGBM虽然都是基于决策树的集成学习,但随机森林采用了Bagging集成技术,该技术在集成学习中产生的基学习器之间属于并列生成,不存在强依赖关系。与之不同,LightGBM使用了Boosting集成技术,集成学习中的基学习器是通过串行训练而获得的,即每个新学习器都是根据已训练出的学习器的性能来进行训练。支持向量回归、神经网络和两种集成学习的算法结构则相差更大。因此,本研究中模型融合获得了非常突出的效果。

图7 堆叠法融合模型的压裂后产油量预测值与真实值对比Fig. 7 Comparison between predicted values and real values of stacking ensemble model

4 应用实例

建立效果预测模型的一个重要目的就是优化压裂方案。本研究在SN区块6口油井上成功地应用了高精度融合预测模型来进行压裂方案的设计与优化。根据SN区块的油井动态指标变化情况,选取注采关系完善、与周围注入井连通关系好、剩余油饱和度高、地层能量充足但产液量有明显下降趋势的采油井进行压裂方案设计。预测模型中需要输入的参数包含压裂前生产参数、压裂目的层地质参数和压裂工程参数,当油井选定时,油井的压裂前生产参数就已经确定了,压裂方案的设计主要涉及地质参数和工程参数。首先,压裂目的层位的选取直接决定了模型中的全部地质参数。根据油井产液剖面情况,每口井初步选取3种选层方案。压裂工程参数主要优化对模型影响较大的加砂量与压裂液类型。加砂量选取12、15、18、21、24 m3,压裂液类型则选取全部的3种类型。将每口井的3种选层、5种加砂量及3种压裂液类型进行逐一组合,共产生45个压裂设计方案(表1)。将6口油井共270个方案作为样本输入融合模型进行运算,根据模型结果优选6口油井的最佳压裂方案如表2所示。2019年5—7月,按照设计方案对这6口油井进行了压裂施工,压裂后实际产油量如表2所示。结果表明,油井的实际压裂效果与预测结果非常接近,融合模型的预测能力非常强。利用该数据驱动模型,可以对大庆油田SN区块的水力压裂设计进行优化,对砂岩油藏垂直井水力压裂工艺设计也具有指导意义。该模型具有较强的可移植性和易用性,只要提取相应的措施信息库,经过简单的参数修改,即可应用于其他开发区块的压裂增产措施效果预测。

表1 待选压裂参数Table 1 Hydraulic fracturing parameters to be selected

表2 压裂参数优化结果Table 2 Optimization of hydraulic fracturing parameters

5 结 论

(1)统计分析结果显示,影响油井压裂的各因素与压裂后产油量有着一定程度的定性关系;特征重要性分析结果显示,对压裂后产油量影响程度最大的3个因素分别是压裂前产油量、压裂前含水率和加砂量。

(2)数据集在4种有监督学习方法上的建模及调优结果表明,神经网络的表现优于其他算法,在测试集上的R2为0.603;模型融合结果表明,融合模型的性能要好于单个算法构建的模型,其中,基于堆叠法的融合模型精度在测试集的R2高达0.899,高于算术平均和加权平均融合方法。

(3)应用预测模型对SN区块油井压裂措施方案进行设计优化。结果表明,模型推荐的最佳方案实际效果较好,与模型预测结果接近。该数据驱动建模技术对SN区块压裂方案设计有实际指导意义,且有较强的易用性和可移植性。

猜你喜欢

产油量油层油井
甘蓝型油菜的产油量分析
油层重力分异对泡沫驱气液比的影响
新型油井水泥消泡剂的研制
一种油井水泥用抗分散絮凝剂
不同海拔条件下春油菜光合生理和产油量的响应
柴达木盆地昆北油田厚油层隔夹层研究
鄂尔多斯盆地合水地区长8段裂缝发育特征及其对产油量的影响
七里村油田薄油层测井识别技术研究
尼日尔Agadem区块古近系Sokor1组低阻油层成因
CO2混相驱油井产能预测方法