APP下载

基于灰色关联投影随机森林算法的水平井压后产能预测及压裂参数优化

2021-10-21王永辉车明光廖锐全

关键词:决策树投影灰色

潘 元,王永辉,车明光,廖锐全,郑 恒

(1.中国石油天然气集团公司采油采气重点试验室 长江大学分室,湖北 武汉430100; 2.长江大学 石油工程学院,湖北 武汉430100; 3.中国石油集团 科学技术研究院,北京 100083)

引 言

随着国内对致密储层认识的深入,逐渐形成了以水平井多段压裂为主的开发方式[1-2],但由于其与常规储层的差异,如何准确地预测产量与选取压裂参数仍是研究的热点。致密油层压后产量预测方法主要分为机器学习法、解析法与数值模拟法[3-5],但解析法与数值模拟法存在模型简化、求解单一、计算成本大等问题。

目前主流的机器学习算法有树形算法、支持向量机算法、神经网络算法等[6-11]。对于大多数机器学习算法而言,确定模型参数与训练样本规模是精准预测的前提,例如支持向量机算法存在内核参数、惩罚参数难以确定等问题;随机森林算法虽能有效降低泛化误差,但对于回归问题其训练样本存在数量多且部分样本关联度低等问题,在某些噪声过大的数据点也会发生过拟合。

因此采用灰色关联投影随机森林两阶段混合算法(GCPRF)[12],通过引入加权的灰色关联投影法(GCP)来选择合适的训练集训练随机森林模型,起到减小数据集规模提高模型预测精度的目的。产量预测实例证明,该两阶段混合算法相较随机森林算法(RF)和梯度提升决策树算法(GBDT)具有更好的性能;在此基础上采用响应面分析的方法对压裂施工参数进行了优化,该方法为致密储层水平井压裂参数优化提供了一种新的思路。

1 灰色关联投影-随机森林模型建立

1.1 灰色关联投影方法筛选训练样本

灰色关联投影方法在灰色关联度分析方法的基础上进行改进,通过引入加权和投影的概念克服了灰色关联系数评价的劣势。首先使用熵算法突出关键因素,其次计算每个因素在参考因素上的投影值,在高纬度空间中识别出哪个样本与预测样本更相似。其中,待预测样本特征向量与第i个样本的特征向量可表示为

X0=[x0(1),x0(2),x0(3),…,x0(n)];

Xi=[xi(1),xi(2),xi(3),…,xi(n)],

i=1,2,3,…,m。

(1)

灰色关联投影方法选择相似数据集的过程如下:

(1)选取影响产量的关联因素如水平段长度、一类油层钻遇率、孔隙度、渗透率、含油饱和度、压裂段数、裂缝簇数、总入井液量、加砂量、压裂液返排率,对数据进行归一化预处理,即

(2)

(2)构建灰色关联判断矩阵ε,设置待预测样本特征向量X0为母序列,Xi为子序列,计算关联度

(3)

式中,ρ为分辨系数,这里取0.5。

(3)计算权重向量W与加权后的灰色关联判断矩阵。

计算单个因素对参考数列影响权重大小,具体方法为当前关联值除以所有因素权重值之和,即

(4)

得到的权重向量形式为

W=[w1w2w3…wn]。

(5)

计算权向量加权后的灰色关联判断矩阵,即

(6)

(4)计算各训练样本在待预测样本上的灰色投影值,即

(7)

Di表示各样本在待预测样本上的投影值。与常规的灰色关联系数方法相比,该方法更为全面。

(5)设定一个阈值,从数据中筛选灰色投影值较大的样本组成随机森林算法的训练集。

1.2 随机森林算法回归预测

随机森林算法是一种有监督的集成学习模型,相较于传统决策树模型具有更好的泛化能力,具有抗过拟合、调节参数少等优势。随机森林算法总体来说是将许多棵决策树整合成森林,并通过多棵决策树作用得到最终结果。

本算法中随机森林构建的流程如下:

(1)从数据集中随机选出m个样本,构成一个训练集A,其余作为测试集B,再从训练集A中采用自助采样法进行T次采样,形成T个采样集。

(2)对于T个采样集建立含有T棵回归树的随机森林模型进行训练,各个模型的节点参数可由网格搜索方法进行优选得到。静态产量预测属于回归问题,最终的预测结果可由各决策树模型的回归结果之和的平均得到。

1.3 预测模型评价指标

常用的回归模型评价指标有均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)。各指标的大小随着业务不同而不同,不具有普遍可读性,因此采用决定系数R2(R-Square)方法作为随机森林的评价指标,即

(8)

式中:Ya为实际值;Yp为预测值;Ym为平均值。

分母部分表示原始数据的离散程度,分子部分表示预测数据与原始数据的误差,二者相除可以消除原始数据离散程度的影响。一般来说,R2的取值范围为[-∞,1],越接近1,表明模型对变量的解释能力越强,拟合效果越好。

在上述理论的基础上构建用于产量预测的灰色关联投影-随机森林算法模型,算法流程如图1所示。

图1 产量预测算法流程Fig.1 Flow chart of yield prediction algorithm

2 产量预测分析

以新疆玛湖油田某井区8口井共2 928条样本作为初始数据集,具体参数包括工艺参数(水平段长度、压裂段数、裂缝簇数、入井压裂液量、加砂量等),储层参数(平均孔隙度、平均渗透率、含油饱和度等),生产参数(井口压力、压裂液返排率、日产油量等)。

以该井区M1井为例,水平段长度994 m,一类油层钻遇率92.28%,平均孔隙度11.56%,平均渗透率3.06×10-3μm2,含油饱和度55.56%,压裂段数17,裂缝簇数33,总入井液量18 565 m3,加砂量1 122 m3。首先根据灰色关联投影方法计算各样本的灰色关联投影值,并筛选投影值大于0.9的1 613例样本作为随机森林模型的输入样本,见图2,将输入样本按70%测试集、30%训练集进行划分,其中1 130例作为训练集,483例作为测试集。

图2 灰色关联投影方法筛选M1井样本集Fig.2 Screening M1 well sample set by grey relation projection method

随后采用网格搜索交叉验证方法对灰色关联投影-随机森林预测模型参数进行优选,图3中横坐标为交叉组合编号,纵坐标为得分情况。最终优选结果为:决策树个数20,决策树最大深度9,中间节点、叶子节点最小样本数分别为5、3。

将灰色关联投影法筛选后的样本集带入训练好的随机森林模型进行回归预测,预测该井生产360 d内日产油随时间变化规律。为充分评价模型预测效果,同时采用未筛选的2 928条样本作为样本集训练随机森林、梯度提升决策树预测模型,在控制3者训练集R2相近的情况下计算其测试集R2情况,计算结果如图4、表1所示。

图4 M1井不同预测算法日产油量对比Fig.4 Comparison of production of well M1 predicted using different algorithms

从表1计算结果可以看出,经过训练后3种算法的训练集R2为0.9~0.92,此时模型拟合效果较好,且3种算法的训练程度相同,此时随机森林算法较梯度提升决策树算法而言与实际曲线更为贴近,且在训练样本、训练程度相同的情况下随机森林算法测试集R20.857 8高于梯度提升树算法测试集R20.734 1,这是由于随机森林算法采用多棵树进行决策,降低了预测的泛化误差,同时随机森林本身的自助采样方法也增加了决策树间的不相关性,减少发生过拟合的风险。

表1 不同预测算法R2值Tab.1 Score of different prediction algorithms

在此基础上对比灰色关联投影随机森林算法与随机森林算法预测结果,采用灰色关联投影方法筛选样本集后再使用随机森林算法预测的两阶段混合算法相较直接预测的随机森林算法有更好的预测效果,测试集R2得分由0.875 8提高到0.918 9,M1井实际日产油与预测值之间的误差为9.6%。

为验证灰色关联投影随机森林算法的可靠性,用训练好的模型对M2井、M3井进行产能预测,M2井、M3井计算参数见表2,预测结果见图5。

表2 M2井、M3井计算参数Tab.2 Calculation parameters of wells M2 and M3

图5 M2、M3井日产油量预测值与实际值对比Fig.5 Comparison of forecast and actual production of wells M2 and M3

图5中M2、M3井实际日产油与预测值之间的误差为1.2%、1.1%,说明该算法在训练程度相同的情况下能起到缩小数据集规模、提高预测精度的效果。

3 压裂参数优化分析

选取待压裂井的压裂施工参数结合实际情况进行中心组合设计,将灰色关联投影随机森林算法模型预测的不同施工参数下的产量作为试验结果,利用响应面分析法选择预测产量最大值,即可得到产量最大值下对应的施工参数,进而达到优化目的。

仍以M1井为例,在确定地质参数的基础上,根据中心组合设计方法设计3因素共20组试验。需要说明的是,为避免试验设计中出现高段数低簇数等不合理的试验方案,这里只将裂缝簇数作为影响因素,压裂段数随裂缝簇数变化(默认单段三簇的压裂方式),试验参数与结果如表3所示。

表3 中心组合设计试验结果Tab.3 Experiment results of central composite designs

利用试验结果开展响应面分析,从曲面上找出预测产量最大点,其对应的施工参数可作为压裂施工参数优化的依据。以裂缝簇数、加砂量对日产油影响的响应面(图6)为例,当总入井液量为21 000

图6 裂缝簇数、总砂量对日产油量响应面Fig.6 Effects of crack cluster number and total sand amount on daily oil production

m3时,共有9种解决方法,对应的最优解为:裂缝簇数34,总砂量1 181.86m3,对应日产油为44.356 m3。

4 结 论

(1)利用灰色关联投影随机森林算法对新疆油田某区块进行产量预测,结果表明该算法的测试集决定系数0.918 9高于随机森林算法0.875 8、梯度下提升决策树算法0.734 1,3口井的日产油量实际值与计算值之间的误差为9.6%、1.2%、1.1%。

(2)在确定地质参数的基础上,采用中心组合设计试验方法对M1井压裂参数进行优化,当总入井液量为21 000 m3时,裂缝簇数为34、总砂量为1 181.86 m3,此时对应日产油为44.356 m3。

猜你喜欢

决策树投影灰色
全息? 全息投影? 傻傻分不清楚
投影向量问题
浅灰色的小猪
简述一种基于C4.5的随机决策树集成分类算法设计
找投影
找投影
灰色时代
她、它的灰色时髦观
决策树学习的剪枝方法
感觉