APP下载

基于机器学习的气井产量预测方法

2024-05-19孟雅蕾贺姗关晓琳

电脑知识与技术 2024年9期
关键词:随机森林决策树

孟雅蕾 贺姗 关晓琳

摘要:气井产量评价预测对气田高效开发具有重要意义。由于不同气井储层物性及生产特征存在较大差异,因此开发策略急需改善。针对这一问题,文章提出了一种基于机器学习的气井产量预测方法。首先,通过对特征参数进行皮尔逊相关分析,筛选出用于气井产量预测的12种储层特征。然后,采用改进的ID3算法建立基学习器,并采用随机森林算法对基学习器进行优化组合。其次,利用训练集数据完成模型训练并调整参数。最后,对相关区块的储层进行气井产量预测。研究结果表明,文章提出的气井产量预测方法预测结果良好,准确率为95.3%。该预测方法提高了气井产量预测的实效性,降低了人为判断的主观性,对气田产量预测和开发策略的制订具有一定的指导意义。

关键词:气井产量;储层特征;随机森林;决策树;ID3

中图分类号:TP391    文献标识码:A

文章编号:1009-3044(2024)09-0119-03

开放科学(资源服务)标识码(OSID)

全球非常规油气资源量占油气总储量的 80%,非常规天然气资源的勘探、开发、投产在我国能源安全中发挥着重要作用[1-2]。中国非常规天然气资源储量大,但储层物性差、单井产量低,且天然气储层非均质性强,同一区域内气井生产特征和生产效果参差不齐[3-4]。因此,对气井进行合理、精准、高效的分类预测,有利于制订合理开发措施,降低勘探开发成本,提高气田收益。

本文通过特征参数的皮尔逊相关分析,筛选出用于气井产量预测的12种储层特征;然后,采用改进的ID3算法建立基学习器,并采用随机森林算法对基学习器进行组合;其次,采用训练集数据完成模型训练并调整参数;最后,对相关区块进行气井产量预测。

研究结果表明,本文提出的气井产量预测方法预测结果良好,准确率为95.3%。该研究提高了气井产量预测的实效性,降低了人为判断的主观性,对气田产量预测和开发策略的制订具有一定的指导意义。

1 储层相关因素分析

1.1 储层特征

储层的特征包括了储层的物性、岩性、含油性、含气性等方面的特征,这也是储层预测的主要方向。储层岩性是描述储层矿物质组成成分的主要特征,反映了岩层的储藏性能和储层特征,常用参数包括储层岩石物理结构、分布范围、储层厚度等。储层物性是描述储层的物理性质,广义上包括了储集层岩石的骨架性质、孔隙性、渗透性、含流体性、热学性质、导电性、声学性质、放射性及各种敏感性等;狭义的一般指储层岩石的孔隙率和渗透率,既物性参数性质、物性空间展布等。

储层含油气性主要指储层内的流体性质、流体类型等特性。对储层含油气性评价,可以利用测井等资料对地找出渗透层,然后对含油性进行评价预测,识别储层的油层、气层、水层、干层等不同层位,就可以对油气富集区域即进行预测,为油气钻探指明位置,为开采方案的制定提供参考依据[5-7]。

1.2 影响因素

本文将气井产量影响因素分为地质、工程、排液因素几个方面[8-9]:

1) 地质因素是储层的固有特征,包含有效厚度、电阻率、密度、泥质含量、泊松比、孔隙度、含气饱和度、基质渗透率、射孔厚度等。

2) 工程因素指与气井开采过程相关的各项参数,包含稠化酸、降阻酸、顶替液、含砂濃度、破裂压力、停泵压力、垂向压力、砂比等。

3) 排液因素可以提升返排效能,达到稳定高效地排液。与排液相关的参数有关井油压、关井套压、累计排液量等。

1.3 数据处理

原始数据的数据量大且复杂程度高、数据缺失多,存在一定的异常值。可以进行储层评价的数据类型为连续型,且评价因素要进行相关性分析。因此,在评价之前,需要对大量的储层原始数据进行预处理。

1) 缺失值处理。对原始数据进行分析,数据缺失高达23.4%,因此采用多重插补法对缺失值进行插补:基于除缺失值外的变量建立线性模型,以此预测要填补的数据[10]。对插补后的数据进行分析,未出现明显异常值,因此多重插补结果可信度较高,不影响后续气井产量预测。

2) 异常值处理及相关性分析。对于简单的异常数据(如数量级差距较大)易于分辨,而对于不明显的异常,人工筛选效果较差。本文选用箱型法,可迅速判断单个因素中的异常值,但对于多个因素相关性较强的情况而言,箱型法得出结论较片面[11]。在进行异常值判断时,需找到不同因素彼此之间的关联。对在异常值处理后,采用皮尔逊相关系数法对连续数据进行分析[12-13]。

1.4 特征筛选

本文用皮尔逊相关系数筛选出用于产量预测的12种储层特征。皮尔逊相关系数r检验两个变量之间的相关程度,其中r的取值[-1,1]。假设两个储层特征含气饱和度和泥质含量分别用X和Y表示,Xi、Yi是随机的样本值,[X]和[Y]随机样本的平均值,则随机变量X和Y的皮尔逊相关系数r的计算公式如式(1) 所示[14-15]:

[r=i=1n(Xi-X)(Yi-Y)i=1n(Xi-X)2i=1n(Yi-Y)2]    (1)

优质储层是一个相对的概念,并没有绝对评价指标,在不同的气田和不同的储层中,评价指标也是完全不同的。本文通过研究鄂尔多斯某区块目的层12口井、58个显示层的试气数据,根据皮尔逊相关系数,筛选出的12个储层特征因素相关性较小,但对该储层具有较大影响的特征指标,这些储层特征指标的皮尔逊相关系数如表1所示。

2 气井产量预测算法

我国天然气资源丰富,市场需求发展旺盛,创新勘探开发技术,实现气井产量的智能化预测对增加气田产能、降低开发成本和促进气井管理精细化发展具有重要意义。近年来,国内外专家学者产出了大量气井产能预测的方法。但是由于储层因素复杂,每个气田产量的主控因素都有较大差别,且很多参数是无法量化的,无法直接加入机器学习的预测模型中。气井产量作为一个预测目标是一个有监督学习问题。在气井产量预测中,本文选择使用ID3决策树和随机森林这两种机器学习器来进行训练和预测。

2.1 ID3决策树

传统的ID3算法存在倾向选择取值较多的属性,因此本文使用改进的ID3算法。首先,基于均衡系数对ID3算法得到的信息增益进行优化;当某个条件属性的取值个数非常接近总数时会导致增益率修正补偿过度,引入属性偏向阈Q避免属性偏向问题;引入均衡系数的概念,平衡多值偏向对信息增益的影响和信息增益修正补偿过度;每一次搜索都使用全部数据训练样本,在一定程度上降低了个别噪声数据对构建决策树的影响,改进的ID3算法如下:

[I=-i=1znpjlog2(pj)]           (2)

[EBj=j=1mpBjIBj=-j=1mZ1j+…+ZmjZi=1npijlog2(pij)]    (3)

[GBj=I-E(Bj)]        (4)

其中,[E(Bj)是条件熵]、[GBj]是信息增益[,I]为信息熵,[pij]是指训练集[Zi]中第j类样本的概率,[ pj]是指训练集[Z]中的任意样本数据元组属于第j类的概率,[pj=ZjZ]。

[ G'Bj=fm1GBj]          (5)

其中,[G'Bj]是对属性[Bj]的信息增益[GBj]进行修正得到修正信息增益,f(m1)为修正参数,其中m1表示各决策属性的取值个数,[f(m1)=1m1]。

[Q=1m1j=1mE(Bj)]         (6)

属性偏向阈Q通常取值为所有条件熵[E(Bj)]的平均值,m1表示条件属性的个数。

[TBj=1m1GBj×1m1E(Bj)1m1GBj+1m1E(Bj)]      (7)

[GBjnew=GBj×TBj]   (8)

均衡系数[TBj]由修正信息增益[G'Bj]和属性偏向阈Q得到;优化信息增益[GBjnew]利用均衡系数[TBj]对信息增益[GBj]进行优化。

重复公式(2) -公式(8) ,使用改进的ID3算法,利用优选好的储层特征因素建立基学习器。

2.2 随机森林算法

集成学习属于机器学习中的一种思想,通过结合多个弱学习器进行联合预测形成精度更高的模型。随机森林是一种集成学习算法,随机森林以决策树为基本单元,通过集成大量的决策树构成了随机森林。由多个决策树共同组成的随机森林模型可以提高最终预测值的准确率和健壮性[16-17]。

随机森林算法中的决策树能够对模型进行可视化展示,对结果的控制因素级数由决策树的最上层往下层依次减弱[18]。当随机森林模型用于预测问题时,输出为所有决策树输出值的平均值:

[Q(X)=1Mi=1Mwihij(x)]     (9)

其中[hi(x)]为每一个子决策树的输出,[wi]为子决策树的权重,[hij(x)]为[hi(x)]在基学习器上的输出。在使用随机森林进行基学习器组合时,首先在每个训练集上采用随机森林分类算法独立地训练出M个预测结果,最终采用投票的方式,投票多的决策树最终进行决策。

[Q(X)=argmaxi=1Mwihi(x)]    (10)

3 实验与分析

本文选取鄂尔多斯某区块的12口单井的相关数据作为训练集Y,将数据集按照8:2的比例分为训练集和测试集,训练集用于构建机器学习模型,测试集用于模型预测和参数调整[19-20]。实验中对随机森林模型进行调参,调参结果如表2所示:

实验的运行环境为Intel Core-i7,内存16GB的PC机,操作系统是Windows10,编程语言是Python, 每个实验独立运行10次,使用训练后的模型对20%的预测集进行预测,预测值与实际值的对比如图1所示。

从预测值和实际值的对比可知,用随机森林算法构建的机器学习模型在对测试数据做预测时,预测值与实际值出现偏差情况较少,预测值曲线变化趋势与实际值曲线几近重合,拟合效果良好,预测准确率分别达到了95.3%,本文提出的基于机器学习的气井预测方法的准确率和稳定性较高。

4 总结

随着鄂尔多斯盆地勘探的不断深入,多变的地质条件、日趋复杂的储层物性及油水关系,使得勘探开发工作变得更富有挑战和难度。本文提出的基于机器学习的气井产量预测方法预测结果良好,准确率高、稳定性高。该项研究可以提高气井产量预测的实效性,降低人为判断的主观性,本研究具有良好的推广应用前景,对气田产量预测和开发策略的制订具有一定的指导意义。

参考文献:

[1] 刘豪.二氧化碳压裂地面射流混砂装置设计及其性能研究[D].西安:西安石油大学,2021.

[2] 付金华,牛小兵,李明瑞,等.鄂尔多斯盆地延长组7段3亚段页岩油风险勘探突破与意义[J].石油学报,2022,43(6):760-769,787.

[3] 刘长春,杨永兴,方铁园,等.鄂尔多斯盆地页岩油优质储层评价方法[J].录井工程,2023,34(3):49-54,62.

[4] 柳洁,田冷,刘士鑫,等.基于复合机器算法的致密氣井产能预测模型:以鄂尔多斯盆地SM区块为例[J].大庆石油地质与开发. 2023(8):10-18.

[5] WANG H Y.What factors control shale-gas production and production-decline trend in fractured systems:a comprehensive analysis and investigation[J].SPE Journal,2017,22(2):562-581.

[6] JOSHI K G,AWOLEKE O O,MOHABBAT A.Uncertainty quantification of gas production in the barnett shale using time series analysis[C]//Day 5 Thu,April 26,2018.April 22-26,2018.Garden Grove,California,USA.SPE,2018.

[7] LOLON E,HAMIDIEH K,WEIJERS L,et al.SPE Hydraulic Fracturing Technology Conference - Evaluating the Relationship Between Well Parameters and Production Using Multivariate[C].Spe Hydraulic Fracturing Technology Conference,2016.

[8] 聂云丽,高国忠.基于随机森林的页岩气 “甜点” 分类方法[J].油气藏评价与开发,2023,13(3):358-367.

[9] 刘佳慧.基于数据驱动的多联机系统用能评估与诊断[D].武汉:华中科技大学,2019.

[10] 张文浩,苗苗青,姜鲲鹏,等.中国油气资源勘探开发特点、趋势及生态管理[J].地质与资源,2019,28(5):454-459.

[11] 张凯兵,马东佟,孟雅蕾.基于双源自适应知识蒸馏的轻量化图像分类方法[J].西安工程大学学报,2023,37(4):82-91.

[12] 路兆阳.基于大数据分析的致密气藏气井产量预测方法研究[D].成都:西南石油大学,2019.

[13] VIKARA D,REMSON D,KHANNA V.Machine learning-informed ensemble framework for evaluating shale gas production potential:case study in the Marcellus Shale[J].Journal of Natural Gas Science and Engineering,2020,84:103679.

[14] 祝元宠,咸玉席,李清宇,等.基于大数据的页岩气产能预测[J].油气井测试,2019,28(1):1-6.

[15] 纪磊,李菊花,肖佳林.随机森林算法在页岩气田多段压裂改造中的应用[J].大庆石油地质与开发,2020,39(6):168-174.

[16] 黄家宸,张金川.机器学习预测油气产量现状[J].油气藏评价与开发期刊, 2021,11(4):613-620.

[17] 王建波,冯明刚,严伟,等.焦石坝地区页岩储层可压裂性影响因素及计算方法[J].断块油气田,2016,23(2):216-220,225.

[18] 陈桂华,肖钢,徐强,等.页岩油气地质评价方法和流程[J].天然气工业,2012,32(12):1-5,123.

[19] 陈桂华,肖鋼,徐强,等.页岩油气地质评价方法和流程[J].天然气工业,2012,32(12):1-5,123.

[20] 马永生,蔡勋育,赵培荣.中国页岩气勘探开发理论认识与实践[J].石油勘探与开发,2018,45(4):561-574.

【通联编辑:梁书】

猜你喜欢

随机森林决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的飞机发动机故障诊断方法的研究
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
基于随机森林算法的B2B客户分级系统的设计