APP下载

基于深度残差收缩网络的油气柱高度预测

2023-09-14杜睿山程永昌孟令东

计算机技术与发展 2023年9期
关键词:残差油气卷积

杜睿山,程永昌,孟令东

(1.东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318;2.油气藏及地下储库完整性评价黑龙江省重点实验室(东北石油大学),黑龙江 大庆163318)

0 引 言

断层对油气的运动、聚集等有明显的影响,对油气流体的影响很复杂。一些断层允许流体通过断裂传递,一些断层不允许流体通过,从而产生多个复杂的油气隐藏。在探索研究的早期阶段,通过对断层封堵研究断层中承载的油气柱高度,判断圈闭的封闭资源,估计各层储量,选择油气井的位置,具有重要意义。

建立断层封闭定量评价标准的目的是确定断层属性与封闭油气柱高度的关系,最终通过已知的断层属性数据预测油气柱高度。

目前,提出了3种系列定量评价方法:(1)基于岩性对接提出的定量评价方法[1];(2)基于断裂带SGR预测,定量评价断层封闭性[2-4];(3)基于断层稳定性,根据应力状态去定量评价断层封闭性[5]。这3种方法实际是从毛细管封闭和水力封闭2个角度去定量评价断层的封闭性。这些方法一般需要在具有一定特性的断层上使用,模型缺乏泛化能力,需要大量的人工操作。

近些年油气柱高度预测研究又有些新的进展,2019年Ma C等人[6]使用基于地层超压的盖层最大油气柱高度计算方法预测油气柱高度,2019年Edmundson I等人[7]将前景的尺寸和埋深与其他地下技术因素一起使用确定油气柱高度,2020年Grant N T[8]使用蒙特卡罗模型预测油气柱高度,2020年张鸿妍[9]使用SGR法预测油气柱高度,等等。

随着计算机技术的飞速发展,机器学习和神经网络在地学领域的研究越来越广泛。例如,2019年,Mukherjee T等人[10]使用机器学习方法对天然气产量进行预测,Al Ghaithi A[11]使用人工神经网络对剪切测井进行预测,Das V等人[12]使用卷积神经网络从叠前地震数据预测岩石物理特性;2020年,Glubokovskikh S等人[13]使用机器学习方法对声波测井进行预测,Sang等人[14]使用多任务残差网络同时进行阻抗和含气饱和度预测;2021年,Feng S等人[15]使用时空CNN监测和预测Sleipner地区的CO2储存;2022年,秦峰等人[16]使用深度学习来模拟油气藏大幅提升模拟速度,于红岩等人[17]从机器学习、智能优化理论两个方面阐述人工智能在油气勘探开发中的研究进展,证明了其具有一定的优越性等等。

可以看出,近年来,神经网络在测井、地震、储量等方面得到了广泛的应用。由此看出目前油气柱高度预测技术大多局限于传统的地质方法,很少涉及机器学习和深度学习方面。

因此,该文决定使用一维残差收缩网络(One-dimensional Residual Shrinkage Network,1DRSN)进行建模预测,该模型在每次卷积时使用一维的卷积核能够侧重对每一维特征的提取,更符合本实验数据的特性;其次,模型在传统卷积神经网络(Convolutional Neural Network,CNN)的基础上加入了残差块,该模块使用链接跳跃方法来缓解由于深度神经网络深度增加产生的梯度损失和网络退化问题。并通过绕过输入信息直接输出来保护信息完整性;最后,收缩网络模块能够用以提高从高噪声数据中学习特征的能力,并达到较高的预测精度。并对CNN、一维卷积神经网络(One-dimensional Convolutional Neural Network,1DCNN)和残差网络(Residual Network,ResNet)、一维残差网络(One-dimensional Residual Network,1DResNet)、GoogLeNet、DenseNet、1DRSN在圈闭数据上的应用进行了比较和分析。综合考虑模型运行效率和准确率,选取最合适的模型。

1 相关基础

1.1 残差网络

1.1.1 ResNet

随着网络深度的增加,训练也会变得越来越困难。在训练时可能会有梯度爆炸的现象,这种现象制约了网络深度的增加,在训练快完成时,训练误差也会增加。对此,何凯文学者[18]提出了残差网络,有效解决了这个难题。残差收缩的主干网络主要是残差网络,因此残差收缩网络也具有残差网络的基本特征,可以有效解决随着网络深度的增加产生的梯度消失和梯度爆炸问题。

1.1.2 残差块

包含以及不包含1×1卷积层的残差块如图1所示。

图1 包含以及不包含1×1卷积层的残差块

假设某段网络的输入为x,期望输出为H(x)。在残差网络结构中,通过捷径连接直接将输入x传到输出作为初始结果,网络学习的将是输入和输出的差值,即残差H(x)=x+F(x),训练的目的是使残差结果逼近于0,相比于训练一个等价映射,这样训练的难度要大大降低。

1.1.3 ResNet18基本结构

文中模型是在ResNet18的基础上进行调整建模,ResNet18模型的组成包括:第一大层包括卷积层、最大池化层、批量归一化层,接着是四个残差块组成的模块,首个残差块保持数据的通道数不变,随后的每个残差块将保持通道数翻倍、高宽减半的特性,最后在残差块后接全局平均池化层、全连接层。

1.2 残差收缩网络

深度残差收缩网络(Deep Residual Shrinkage Network,DRSN)本质是ResNet上的一种新型改进,然后再将软阈值化作为非线性层加入到ResNet的网络结构之中,目的是提高深度学习方法在含噪声数据或复杂数据上的特征学习效果。软阈值化所需要的阈值,本质上是在注意力机制下设置的。

1.2.1 软阈值

软阈值化是许多降噪方法的核心步骤[19-20]。其主要作用是将绝对值小于某个阈值的属性置零,进而使其他属性也朝零调整,称之为收缩。这里,阈值也是一个必须预先确定的参数,它的值直接影响降噪效果。软阈值化的运算关系如下。

(1)

其中,x代表一个输入特性,y代表一个输出特性,τ代表一个阈值。

由公式(1)可知,软阈值化是一种非线性变换,它在某些方面有着与ReLU激活函数一致的处理方式:函数变换梯度是0或1。因此,软阈值化可以看作是一种激活函数。实际上,已经有学者将软阈值应用到神经网络中。

更重要地,目前的收缩网络中的软阈值是结合了较为流行的注意力机制而自动学习的[21]。意思是,[-阈值,阈值]范围的确定,是可以根据样本自身情况、自动调整的,避免了人工设置阈值的问题,同时能够提升精度。

1.2.2 残差收缩模块

从本质上来看,残差收缩模块是残差块、注意力机制和软阈值函数的集成。

注意力机制就是将重点集中于某个局部信息,使模型能更快收敛。具体可以分为两个阶段:一是通过整体扫描寻找局部有用信息;二是加强有用信息,限制冗余信息。

SENet是一种经典的基于注意力机制的算法。它还能够使用一种小型的子网络,通过自动学习得到一个权重,对特征图的所有通道都进行了加权。其意义在于,一些特征通道中的信息对于结果来说是较为重要的,而另一部分特征信息则是冗余的。所以,模型就能够利用这些方法加强有用特征、减少冗余特征。基本的SENet模块如图2所示。

图2 SENet的基本模块

一维深度残差缩合网络的基础模块与注意力机制模块非常类似,其中C、W、H分别代表输入数据的信道数目(批)、宽度和高度,该模块由一个小的子网来学习一套阈值,再对其进行软阈值处理。在此基础上,增加了恒定路径,减少了建模的困难。既能兼顾模型的时间损耗,又能提高模型的准确性。基础模块如图3所示。

图3 残差收缩网络的基本模块

1.3 一维残差收缩网络的预测方法

该文利用一维残差网和软阈值相结合的方法,将二者的优点结合起来,既能有效地减少退化信息在网络中的损失,又能把网络资源集中到对油气高度预报更为关键的特点上[22]。如图4所示,展示了一个完整的深度残差收缩网络,由一个输入层,许多基本残差收缩模块和一个全连接层等组成。

图4 深度残差收缩网络的整体结构

2 实例研究

2.1 数据集构建

数据来源于辽河油田校企合作科研项目,筛选出12个具有代表意义的圈闭,通过对断层进行解释和油藏解剖提取的圈闭结构化特征数据约有20万条,然而就目前提取的数据来看存在着一些问题,如:噪声数据(特指:属性间的冗余、因地层位置原因导致的属性对应测量的油气柱高度与实际所能封存的油气柱高度不符等)、不平衡数据等,因此需要先对数据进行处理。

2.1.1 数据清洗

数据清洗是用来测试、修正(或移除)数据集中会对训练结果造成负面影响的异常数据。从广义上说,数据的删除是将不正确的、不完全的、不相关的数据替换、修改或移除。模型准确率主要由数据和模型共同决定,数据清洗的好坏直接影响到最后模型预测的结果。对于本数据出现的异常问题,仅仅占总体数据的很少一部分比例,经过查阅相关文献并与地质专业人士讨论后选择删除数据;对于某些明显无效特征,如出现全是0,或***,也将删除。

2.1.2 数据预处理

经过数据清洗后剩余有效数据约17.5万条,对清洗后的数据进行特征选择来降低属性的冗余度,拟采用Pearson相关系数法剔除相关性较高的属性,如图5所示,再拟用XGBoost算法对断层属性进行特征重要性分析,如图6所示,最后结合地学专家给出的建议进行属性的选取,选取Throw、OA等10个权重较高的属性。

图5 Pearson相关系数

图6 XGBoost属性权重

对于因地层位置原因导致的属性对应测量的油气柱高度与实际所能封存的油气柱高度不符问题,该文仍采用Pearson相关系数法对每条记录进行计算,它可以避免评分等级膨胀(grade inflation)的问题。根据专家经验当相关系数值大于0.999时认为其具有相同特征,进而将测量的油气柱高度赋值为相对较高的结果。

然而对于数据出现的样本不均衡问题,该文采用三次样条插值的方法,它具有较好的光滑性,更能反映数据的真实情况,插值规则为:记录数量少于4则删除(三次样条插值数量低于4无法插值),记录数低于2 200条的插值到2 200条,插值结果如图7所示。最后,由于原始数据的差异较大,为了消除量纲的影响,需要对数据进行归一化处理,该文使用z-score标准化。

图7 数据插值结果

2.1.3 数据集划分

因为卷积神经网络的输入一般为矩阵形式,因此,需要将归一化后的数据划分适当大小的矩阵,并以7∶3比例划分训练集和测试集。

2.2 建立预测模型

2.2.1 实验参数设置

数据集构建完成后,建立如图4所示的深度残差收缩网络模型,其具体模型结构包括:卷积层、批量归一化层、最大池化层和四个残差收缩网络模块(如图3所示)以及最后的全局平均池化层、全连接层。

网络参数包括可训练的参数和不可训练的超参数,其中可训练的参数一般是各个神经元的权重和偏置,它们是通过模型训练过程中自动学习得到的,而超参数一般是各层卷积核数量、大小、步长,池化层的大小、步长等,这些是通过人为主动设置的,并且需要综合考虑其对网络预测效果及训练时间的影响。经过反复实验对比,最终确定的超参数设置为:模型首个同维卷积特征层的一维卷积层的卷积核数量为32,核大小为5×1,步长为1,而最大池化层的核大小为3×1,步长为1;8个残差收缩模块的核数量分别为32、32、64、64、128、128、256、256,核大小均为3×1,其中跳跃连接层的核大小为1×1,步长分别为2、1、1、1;最后一个特征层中的自适应平均池化层设为1,全连接层结果设为1。除此之外,文中网络模型是基于Pytorch框架实现,算法优化器选择Adam,学习率、批次、批大小分别设置为0.000 5、100、128。

模型的准确率是由模型本身和数据共同决定的,输入矩阵大小的设定对模型准确率存在一定影响,将经过特征提取后的数据和原数据对比送入模型训练,发现采用特征提取后的数据且大小设定为30*10,模型将达到比较好的结果。

对于训练结果采用双重评价指标,第一是均方根误差(RMSE)作为评价指标:

(2)

第二是模型预测的准确率。模型实验数据是通过对圈闭进行地震勘测得到的地震数据解析后的标准化数据,由于地震勘探方法、设备等的差异,会导致检测到的地震勘探数据精度较低[23],因此,实验认为的模型误差小于10是正确输出。

(3)

(4)

2.2.2 模型结构分析

为验证文中方法的合理性,将对ResNet模型中的每一步改进进行消融性实验,观察不同改进模型的好坏。实验结果如表1所示。

表1 不同组合方式的ResNet模型的预测效果

由表1可以看出,将ResNet的核变成一维后准确率有所提升,同时大大降低了时间的消耗,说明一维的卷积核能够侧重对每一维特征的提取,更符合该实验数据的特性;随着模型中加入注意力机制后,对比1DResNet,在保证时间消耗几乎不变的情况下模型准确率有小幅度提升,验证了注意力机制对重要特征加权的能力;模型再将注意力机制部分改进为残差收缩网络(软阈值),模型变为DRSN,由实验结果可以看出一维神经网络模型效果更好,最后模型采用更适合该实验数的1DRSN模型,实验结果表明模型准确率有所提升,且在时间消耗上有明显的改进,验证了该方法的可行性。

最终选择1DRSN模型进行实验,模型的RMSE和Accuracy如图8所示。

2.3 对比实验

将文中方法与深度学习中常用的CNN、1DCDD、GoogLeNet、DenseNet算法进行对比实验。CNN、1DCNN模型采用与1DRSN算法有相同超参数的模型进行实验,GoogLeNet的Inception块由常见的四条并行卷积层路径组成,四条路径分别为1×1ConV层;1×1ConV层、3×3ConV层;1×1ConV层、5×5ConV层;3×3ConV层、1×1ConV层;该模型的其余参数均与1DRSN算法一致,而DenseNet的结构采用除跨层连接上与ResNet有区别(使用相加和使用连结)外均相同的模型。实验结果如表2所示。

表2 对比实验结果

表中模型训练结果如图9、10所示。

图9 对比实验训练ACC

图10 对比实验训练RMSE

由表2及图9、10可以看出,CNN、1DCNN、GoogLeNet和DenseNet的准确率分别达到69.6%、70.1%、82.1%,80.8%,1DRSN模型准确率最高(84.0%),表明文中方法表现出较好的预测效果,虽然文中方法较其他方法结构更复杂,但是时间的消耗也在可接受范围内,满足了预测的要求。但综合图表来看,1DRSN模型在训练集上能达到相对较高的准确率,但却在测试集的准确率达到最高,说明模型有着比较好的泛化性能。

3 结束语

该文主要分析了1DRSN模型的原理和构建过程,利用合作项目地区选取的12个圈闭提取的近20万条结构化数据,通过数据清洗、数据预处理、数据集划分等操作完成数据集的构建;模型在ResNet18模型的基础上进行改进,使用控制变量法对模型输入数据矩阵大小、卷积核大小、卷积核数量等进行相对的最优值选取,同时使用类似的方法对CNN、1DCNN、GoogLeNet、DenseNet模型进行建模比较,最终建立1DRSN模型。虽然文中方法较其他方法结构更复杂,但时间的消耗仅略微增加,且泛化性能也较好,满足了预测要求,为预测未知圈闭的油气柱高度提供了一个良好的借鉴。

猜你喜欢

残差油气卷积
基于双向GRU与残差拟合的车辆跟驰建模
基于3D-Winograd的快速卷积算法设计及FPGA实现
平凉,油气双破2万吨
“峰中”提前 油气转舵
《非常规油气》第二届青年编委征集通知
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
油气体制改革迷局