基于深度长短期记忆神经网络的油气井产量预测优化方法
2023-12-25张春晓
张春晓
(西安石油大学石油工程学院,陕西西安 710065)
随着非常规致密储层的快速开发,油气田生产数据量迅速增加。油气井产量预测在油藏管理、投资决策和资源配置中发挥着关键作用。同时,油气井生产数据之间的非线性和动态特性,使准确预测油气井产量具有一定挑战性。1993 年,俞启泰[1]推导了不同阶段定产液量条件下的水驱产量递减曲线公式。但传统的产量递减曲线公式法,通常基于简单的模型,忽略了油藏内部的复杂物理、化学和地质过程,也无法灵活的适用具体的油气田。1995 年,计秉玉[2]从相对渗透率曲线和物质平衡原理推导了双曲型、调和型和指数型产量递减方程式。虽然,相对渗透率曲线和物质平衡原理推导的方程拟合效果较好,但是公式中一般假设储层属于均质,但实际中储层多为非均质,且缺失相关的物理解释。2004 年,张雄君等[3]建立了灰色关联分析产量递减预测方法,辅助产量预测、提高采收率。但是灰色关联法受限于历史产量数据的质量,直接影响到预测结果的准确度和可信度。同时它难以适用复杂的产量变化机制和多影响因素之间的相互关系。虽然灰色关联法在一定情况下可辅助产量预测,但实际应用中该方法难以量化预测结果的不确定性,需要结合更全面、更精确的数据和分析方法以及深入理解油气田开发的复杂性,来做出更准确的预测和决策。总之,针对传统方法难以捕获油井生产数据中的复杂时间特征以及对储层性质、水力压裂参数与油气井产量之间的非线性关系;针对开发过程中影响因素多、建模和计算难度大、时间长、成本高等问题。2009 年,周彩兰等[4]提出了一种BP神经网络模型进行油气井产量预测。但传统BP 神经网络及其改进产量预测方法并不适用于时间序列预测问题。2019 年,谷建伟等[5]提出利用长短期记忆神经网络(LSTM)模型实现具有长期记忆能力的时间序列产量预测模型。LSTM 模型通常需要经过适当的特征工程,包括数据标准化、序列长度设定等。所以,不恰当的特征处理可能导致模型性能和准确度下降。随着人工智能领域的发展,机器学习正在成为油气井产量预测的替代方案[6]。本研究提出一种基于深度长短期记忆神经网络(DLSTM)油气井产量预测优化方法,以华北油田某区块生产数据为例,运用深度学习模型,提高了预测准确度,为今后油气井产量预测工作提供参考。
1 深度长短期记忆神经网络
LSTM[7]是循环神经网络[8](RNN)的一种变形结构,擅长捕获序列数据中的远程依赖性和时间特征。不仅能够将t 时刻的输入与输出相关联,并且能够与t 时刻之前的序列信息相关联。它解决了RNN 在记忆长期依赖关系时梯度消失的问题,通过记忆门和遗忘门控制恒定误差流的打开和关闭。由于增加神经网络的深度[9]是提高神经网络性能的有效途径之一。DLSTM 是由深度递归网络的连接方式堆叠几个LSTM 块而构成。不仅能够减少原始数据的噪声,利用每单个LSTM 层处理每个部分,并且能够传给下一层做汇总输出。将每个层的隐藏状态在不同的尺度上进行,对长期依赖关系的数据或处理多变量数据序列有很大帮助,使模型具有更好的泛化性。
2 深度长短期记忆神经网络产量预测优化模型
LSTM 能够捕捉序列上的依赖信息,适于对油气井生产的动态和演变性质[10]进行建模。利用DLSTM 优势,解决复杂时间特征依赖与超参数优化配置调整等问题,研究了一种DLSTM 预测优化模型。其中涉及数据预处理、DLSTM 架构的设计、使用遗传算法[11](GA)超参数优化以及对该模型的综合评估。
2.1 数据预处理
首先,需要进行数据清理、数据标准化,确保数据在合适的范围内。DLSTM 的输入数据由历史生产数据序列组成,每个序列代表先前生产值的一个窗口,输出数据对是预测目标后续生产值。其中,将几个输入序列进行加权平均,利用差分来消除趋势,生成平滑的时间序列。从而减少噪声,可以将非平稳数据呈现特定趋势,并将趋势特征添加到预测模型。
2.2 模型架构
油气井产量预测的DLSTM 架构能够捕获生产数据中短期、长期依赖性和固有的复杂时间关系,从而提高产量预测准确性。DLSTM 由多层长短期记忆单元组成,是一种特殊类型的RNN。输入层是将训练数据、批量大小(Batch-size)、迭代轮次(Epoch)、神经元数量(Neurons)作为输入。将训练数据分割为滞后特征(Lag)和目标值。
随后,将序列模型初始化构建LSTM 架构。深层架构包含多个LSTM 层进行相互堆叠,每个LSTM 层都包含一组记忆单元和门控机制捕获时间依赖性。第一个LSTM 层添加指定数量的神经元,并为下一个LSTM层返回序列。第二个LSTM 层添加指定数量的神经元,但不返回序列。在LSTM 层之间插入Dropout 层,不但防止了过拟合,而且增强了模型的泛化能力。输出层是一个全连接的密集层,产生预测的生产序列(图1)。
图1 产量预测模型架构图
在训练期间,涉及到数据通过网络的前向、后向传播,用Adam 优化器进行权重更新。其中,Epoch 数量、神经元和批量大小等超参数直接影响着整个DLSTM的性能。GA 常被用于寻找最优解、优化问题和参数调优等领域。为了最优化超参数配置,采用GA 来有效探索超参数空间并输出最大化预测精度的最佳配置。GA通过模拟自然界的进化过程,不断选择、交叉和变异逐步优化模型的Epoch 数量、神经元和批量大小等超参数的配置方案。GA 通过在超参数空间中搜索,逐步改进LSTM 模型的性能。该方法通过自动化调参过程,不但节省了时间和精力,而且准确的优化了模型配置。但是GA 的性能还取决于参数的选择和适应度函数。随后,通过将最小化预测生产值和实际生产值之间的均方误差损失作为目标函数,采用多个LSTM 层来有效捕获油井生产数据中固有的复杂时间依赖性,构建DLSTM 架构。并且DLSTM 模型集成了Dropout 层,能够防止过度拟合,确保模型的泛化能力。随后,通过DLSTM 模型对历史生产数据进行训练和预测。
2.3 模型评价
采用均方根误差[12](RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)性能指标对该模型预测效果进行评估。RMSE 是一种常用的统计指标,用于评估预测模型的性能,尤其是在回归和预测任务中。它通过计算的平方根来量化预测值和观测值(实际值)之间的差异。由于不同尺度的序列的误差不能直接用来对比,基于RMSE 更为合理。
在DLSTM[13]的油气井产量预测优化方法中,RMSE将用于量化预测和观测石油产量值之间的差异。RMSE值越小,模型预测的能力越强。
均方根百分比误差(RMSPE)是一种统计指标,也用于衡量预测模型的准确性。它量化了预测值和观测值(实际值)之间的相对差异,同时考虑了观测值的大小。针对比较不同预测性能缩放的数据集,最常用的就是RMSPE。首先,计算预测值和观测值之间的平均平方百分比差。然后,取结果的平方根。平方百分比差异通过观察值的幅度来缩放,以确保度量对相对误差而不是绝对误差敏感。通过比较预测的石油产量值与实际观测值,来评估DLSTM 模型的准确性。
3 实验分析
DLSTM 作为油气井产量预测模型,优点在于捕捉长期依赖关系和解决梯度消失的问题,同时能够提高预测的准确度。以华北油田某区块生产数据为例,运用DLSTM 进行产量预测。该模型基于Keras 深度学习框架,损失函数设置为RMSE 函数,架构为两层LSTM层,一层Dropout 层,一层输出层,并用GA 优化预测模型中的超参数(Epoch 数量、神经元数量和批量大小)配置方案。
3.1 实验设计
该实验运用DLSTM 产量预测优化模型,分别选取隐藏单元(Hidden units)、迭代轮次(Epoch)、序列长度(Look back)两组数据对预测的准确度进行对比。当DLSTM 产量预测模型架构较简洁时,数据越多,步长越小,对短期预测越准确;当DLSTM 产量预测模型架构较复杂时,需要数据量大,对长期预测更准确(表1、图2)。
表1 不同规模参数及测试集均方根误差、测试集均方根百分比误差
图2 不生产数据与深度长短期记忆神经网络油气井产量模型预测数据对比图
根据表1 实验数据可知,隐藏单元为4,迭代轮次为1 000,序列长度为5 时,DLSTM 油气井产量预测测试集RMSE 低至0.221。由此可见,该模型预测具备产量预测的有效性以及捕获复杂时间特征的准确性。
4 结论
基于深度长短期记忆神经网络(DLSTM)油气井产量预测模型,集成了数据预处理、DLSTM 架构、超参数配置优化等模块,同时捕获了潜在的长期依赖关系和时间复杂性,提高了油气井产量预测的准确性。该油气井产量预测模型:
(1)捕获了长期依赖关系和时间特征,适用于对油气井生产数据的动态行为进行建模;
(2)使网络能够学习分层特征并捕获油气井生产数据短期[14]波动和长期趋势;
(3)多个长短期记忆神经网络(LSTM)层结合Dropout层,避免过度拟合,同时提高了产量预测的准确性;
(4)能处理油气井生产数据的非线性关系,捕获了复杂的油气井生产开发过程。
DLSTM 架构通过捕获数据中的时间依赖特征和复杂线性关系来增强油气井产量预测效果,有助于提高准确性和泛化性。未来可进一步的研究和探索混合模型和其他数据源,以提高该方法的稳健性。