APP下载

基于机器学习的单井套损预测方法

2020-07-29赵艳红姜汉桥李洪奇刘洪涛韩大伟王英男刘灿超

关键词:单井特征参数水井

赵艳红, 姜汉桥, 李洪奇, 刘洪涛, 韩大伟, 王英男, 刘灿超

(1.中国石油大学(北京)石油工程学院,北京 102249; 2.中国石油大学(北京)石油数据挖掘北京市重点实验室,北京 102249; 3.中国石油大学(北京)人工智能学院,北京 102249; 4.中国石油大庆油田第七采油厂,黑龙江大庆 163517)

套管损坏是地质、工程、开发等因素长期共同作用的结果[1-6],其中地质因素和工程因素是内因,开发因素是外因。套管损坏直接影响油田的正常生产,如何确定套损主控因素、建立套损预测模型、科学地指导套损井的防控治理具有重要意义。国内外学者将多个领域的技术相结合展开大量研究工作,主要分为套损机制研究和机器学习方法研究。套损机制研究大多以定性分析为主,从单项技术或者单因素切入[7-18],相应的研究方法有数值模拟法[19-22]、有限元法[23-24]等。由于影响套管损坏的各个因素之间存在着非线性、不确定性和时变性等特点,使得该方法具有一定的局限性和独立性。随着数据科学的发展,机器学习技术为石油勘探开发的智能评价提供一种新思路和新方法[25-34]。数据是机器学习的基础,对模型效果的评估起着重要作用,而石油数据的复杂性使得机器学习数据集的创建面临严峻挑战。选择不同的影响因素,即使采用相同的算法参数,模型应用效果也会千差万别。因此明确业务主题、融合多源数据、提取特征参数、构建机器学习样本集至关重要。笔者基于数据驱动的理念,选择油水井的开发动态数据生成时间序列集,然后提取特征参数建立机器学习模型,实现单井套损主控因素的分析与预测。

1 单井套损评价指标

套损开发影响因素包括高压注水、区块压差、配注完成情况、钻关规律等因素,这些影响因素最终表征在数据上。例如油水井的生产数据能够体现生产状况,测压数据反映不同时期油水井的静压、流压等地层参数与生产能力,吸水剖面资料可以了解水井各小层的吸入状况、显示井下工具以及判断套管的窜槽,措施数据库记录为使油水井达到增产增注的目的所采取的各种作业。在大数据时代,这些油水井的动态分析资料为套损井的智能化分析与预测提供最基础的数据支撑。套损开发影响因素与数据之间的关系如表1所示。

表1 套损开发影响因素与相关数据

根据套损开发影响因素在不同数据对象中的表现特征,设计注水井和采油井的套损评价指标,如表2所示。注水井指标包括最大允许注水压力、高压注水天数、压差、注水强度、配注完成百分比等17项,采油井指标包括油压、产液强度、含水率等12项。

表2 单井套损开发指标计算

2 单井套损样本构建技术

基于机器学习的应用研究一般包括数据预处理、特征工程、模型训练与评估、模型应用。样本是各类机器学习算法的输入,样本质量、大小以及维度对模型的训练结果有着直接的影响。单井套损样本构建的主要技术为数据预处理、特征参数计算及特征降维。

2.1 数据预处理

2.1.1 缺失值处理

油田开发过程中,由于钻井、井下作业、工况等各种原因,某些月份的生产监测数据(例如油压、套压、注水量等)缺失,此时需要进行缺失值的处理。在多元时间序列中,数据缺失的情况十分普遍。时间序列缺失值处理方法主要有3大类:第1类是直接删除法,该方法可能会舍弃数据中的一些重要信息;第2类是基于统计学的填充方法,如均值填充、常用值填充、中值填充,但是此类方法忽略数据的时序信息;第3类是基于机器学习的填充方法,比较常见的是基于KNN、RNN、EM和矩阵分解的缺失值填充算法[35-37],然而这类方法也很少考虑到两个相邻数据间的时序信息。在处理缺失值的时候,要具体问题具体分析。特别是石油数据,每一个数值都反映当时复杂的物理意义、地质含义或者工程含义,需要在对业务和数据充分理解的基础上,采用专业的方法进行处理。例如在计算指标配注完成百分比的时候,需要提取不同日期的日注水量和日配注水量。日注水量在注水井生产过程中会实时监测,数据的连续性比较好。但是日配注水量来源于注水方案的调整,存在很多缺失值,如图1(a)所示。由于缺失值的存在,导致对应日期的配置完成百分比无法计算。为了确保样本的完整性,在对油田注水开发业务了解的基础上,对此类缺失值,可以将时间向前追溯,采用最邻近时间数据进行补齐。处理后的日配注水量与日注水量时间变化曲线如图1(b)所示。

图1 缺失值处理前后日配注水量与日注水量

2.1.2 平滑

图2 注水压力不同平滑方法拟合

2.1.3 数据差分

时间序列平滑后,需要通过有效的手段提取序列中蕴含的确定性信息。大量的案例证明差分运算是一种非常简便、有效的确定性信息提取方法[39],可以避免单个数据异常值对整体趋势的影响(图3)。

图3 注水压力一阶差分时序

2.2 时间序列特征参数提取

在建立的套损开发指标中,有11个时间序列指标。由于时间序列数据维数高,数据量大,直接使用时间序列进行机器学习建模会增加模型的复杂度。通过提取时间序列的基本统计特征和时域特征来实现时间序列的降维处理。基本统计特征包括均值、中位数、众数、四分位数、极差、方差、标准差、变异系数、变化率、幅度和、波峰、波谷以及偏度和峰度。在实际应用中,时间序列是由趋势、周期性、随机波动通过加法模型或者乘法模型组合而成的序列[40]。

加法模型公式为

Yt=Tt+St+It,t=1,2,…,n.

(1)

乘法模型公式为

Yt=TtStIt,t=1,2,…,n.

在校企共同育人过程中,双方根据每门课程的特点,制订了详细的授课计划,由专人负责,除《草坪基础》、《制图技术》等几门课程是由校内老师负责外,其他课程都是有校内教师和合作球场技术人员共同负责,有些课程直接由企业技术人员讲授。双方共同制定每门课程的考核方案,根据学生理论课和实践表现综合评定最后成绩。在企业学习阶段,在授课过程中根据俱乐部工作计划,制定出上课时间和形式,一般是周一、周二、周三以理论讲述为主,周四至周六以实践操作为主。

(2)

式中,Tt表示趋势,是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动;St代表序列的周期性变化,是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式波动;It代表随机波动,是由于偶然性因素对时间序列产生的影响。

对注水压力进行时间序列的波动趋势分解,并提取序列的主要成分,如图4所示。在油田开发过程中,由于钻井施工、酸化压裂等作业的影响,需要对部分井进行长时间或者短时间关井。关井后,油水井各项生产指标为0,此时的随机波动较大。在进行套损影响因素分析的时候,钻关是其中的一个因素,可以通过时间序列特征量化钻关指标。

图4 注水压力时间序列分解

最终提取的时间序列特征项如表3所示。

表3 时间序列特征项

2.3 特征参数相似性分析

针对每一个时间序列指标,提取波峰、波谷、趋势、周期等17个特征项,最终一个单井样本就有上百个特征。事实上并不是特征越多,模型效果就越好。当特征数量超过一定阈值的时候,模型性能下降,甚至出现维度灾难现象[41]。一般情况下,训练样本的数量是随着特征维度的增加而呈指数增长的,否则就会出现过拟合。但是在石油勘探开发领域能够得到的样本数量一般是有限的。高维数据一般包含许多无关或者冗余特征的观测值。图5中给出某断块注水井特征参数的相关性检测矩阵图,对于相关性较高的特征参数,只保留一个即可。例如油层中深、破裂压力、最大允许注水压力、油层顶深的相关性为1,存在冗余属性,保留其中一个即可;时间序列的分布参数四分位数、众数、平均值相关性大于0.75,保留平均值。

图5 特征参数相关性检测矩阵

根据相关性系数,对特征参数进行分类,如图6所示,自右向左各个特征逐层进行合并。纵坐标表示特征参数,横坐标代表该高度特征之间合并的判定值,即一类中的点与其他类中点的平均距离。

图6 注水井特征参数层次聚类

3 基于机器学习的套损分析方法

机器学习算法在大数据分析技术中占据着重要的地位,涵盖分类与预测、聚类方法、关联分析等上百种算法。然而机器学习算法的重要理论基础是经典统计学,其主要研究内容是样本数目趋于无穷大时的渐进理论。由于石油探勘开发的主要特点,经过区块、井、层、时间等限制后,用于建模的样本一般是有限的。随机森林和支持向量机是常用的小样本机器学习方法,在解决小样本、非线性及高维模式识别中表现出许多特有的优势,笔者主要采用这两种算法建立单井套损预测模型。

3.1 样本生成

选择PB4断块47口注水井(套损井25口,非套损井22口)进行分析,数据范围涵盖自投产日期开始,直至2018年12月的所有生产动态数据,包括生产数据、措施数据、测压数据、配水方案数据以及吸水剖面数据等。其中注水井生产数据约25×104条记录。对原始数据进行数据预处理、时间特征参数提取、特征降维,最终形成单井套损分析样本集(表4),包括11个指标、85个特征参数。

表4 单井套损分析样本

3.2 特征重要性评估

在很多情况下,统计学习建模的目的不仅是建立一个准确的预测模型,一般也希望能够评估输入特征对模型预测的重要性。在输入特征维度较高的情况下,可以考虑选择随机森林算法进行重要性评估。随机森林特征重要性计算方法包括MDI(mean decrease impurity)重要性和MDA(mean decrease accuracy)重要性2类。MDI方法主要汇总随机森林各树各节点在分割前后的不纯度降低作为特征重要性评估。MDA方法对于随机森林中的各树,以某特征随机交换前后该树的 OOB(out of bagging)准确度估计下降作为该特征的重要性评估,汇总各树重要性评估得到整个随机森林的 MDA 重要性评估。采用随机森林算法分别对套损井、非套损井进行特征重要性评估,如图7所示。MDA衡量把一个变量的取值变为随机数,随机森林预测准确性的降低程度,该值越大表示该变量的重要性越大。Mean Decrease Gini通过基尼(Gini)指数计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性,该值越大表示该变量的重要性越大。可以看出高压注水天数比例、月平均关井次数、注水压力最大值、月注水量波动幅度对单井套损特别敏感。允差平均值、邻井套损率、注水强度、趋势项、配注完成情况对单井套损比较敏感。

图7 MDA与MDI特征重要性评估

Boruta遵循所有相关的特征选择方法,可以捕获结果变量有关的所有的特征,而且该方法最大限度地减少随机森林模型的误差,最终形成一个最小化最优特征子集。采用Boruta算法对单井套损特征重要性进行分析,如图8所示。通过Boruta算法最终优选出13个特征参数(绿色盒状图)。

图8 基于Boruta算法的单井套损特征重要性评估

针对上述特征重要性评估方法,建立4套特征组合方案,如表5所示。可以看出高压注水天数比例是影响该区块注水井套损的最重要因素。

表5 单井套损分析特征组合方案

3.3 模型建立与评价

针对表5特征组合方案,分别采用随机森林算法和支持向量机算法建立单井预测模型。为了验证模型的有效性,采用随机抽样方法,按照2∶1比例将样本划分为2部分,一部分用于训练,一部分用于测试,如表6所示。

表6 单井套损预测训练集与测试集

3.3.1 基于随机森林的单井套损预测模型

随机森林是一种分类器集成学习算法,利用随机模拟的思想,构建出N棵随机决策树(一般N数量必须足够大,本研究中设置为800)形成森林,并综合森林中各决策树的预测结果做出最终的预测。具有不依赖任何模型假设、高维空间自适性、不易发生过拟合等优点。基于不同的特征组合训练集,建立相应的随机森林识别模型,然后对测试集中的样本单元进行预测,模型的准确率和召回率如表7所示。可以看出选择Boruta特征组合方案时,随机森林模型的性能较好,准确率约为86.67%,套损井召回率为75%,非套损井召回率达到100%。

表7 基于随机森林的不同特征组合单井套损预测性能参数

3.3.2 基于支持向量机的单井套损预测模型

支持向量机(support vector machine,SVM)采用结构风险最小化的思想,通过非线性变换低维转换为高维,然后计算超平面将数据进行分类。基于SVM的不同特征组合单井套损预测性能参数如表8所示。由表8可以看出,选择MDA特征组合方案时,SVM模型的性能较好,准确率约93.3%,套损井召回率87.5%,非套损井召回率达到100%。

表8 基于SVM的不同特征组合单井套损预测性能参数

4 结束语

基于数据驱动的理念,给出机器学习技术在单井套损预测中的应用流程,包括套损评价指标分析、样本构建、特征重要性评估及模型应用与评估等。高压注水是影响研究断块注水井套损的主要因素,采用MDA特征组合方案建立的支持向量机模型能够较好地预测套损,准确率达到93.3%,为套损井的防控治理提供科学依据。随着数据科学的发展,融合多源数据,深入挖掘出数据样品的频繁项集、具有领域专家知识的树状判别规则或者模型,辅助业务专家判断岩性、含油性、构造、圈闭等具有重要的意义。但是石油数据是一个复杂的系统,跨越的时间范围和空间范围都很大,即使是一项简单的业务分析,也涉及到地质、勘探、测井、开发等多个学科,数据质量、数据完整性、数据噪声以及数据集的不均衡性等,使得机器学习数据集的构建面临巨大挑战。因此石油数据建设将会是石油大数据智能化分析的必经之路和重中之重。

猜你喜欢

单井特征参数水井
基于视频图像序列的船用雷达目标检测和目标特征参数提取
山西发现一口2000余年前的大型木构水井
冕洞特征参数与地磁暴强度及发生时间统计
融合LPCC和MFCC的支持向量机OSAHS鼾声识别
水井的自述
基于交通特征参数预测的高速公路新型车检器布设方案研究
凡水井处皆听单田芳
采油“一井一策”全员效益目标的构建与实施
单井成本核算分析
乌龟与水井