基于全卷积神经网络的地震初至波拾取*
2018-11-19刘佳楠
刘佳楠,武 杰
(1.中国科学技术大学 近代物理系,安徽 合肥 230026;2.中国科学技术大学 核探测技术与核电子学国家重点实验室,安徽 合肥 230026)
0 引言
在地震勘探过程中,检波器最先接收到的有效地震波称为“初至波”。初至波的拾取,是地震数据处理的一个基础而又重要的工作,在折射波静校正、垂直地震剖面解释和地震层析成像等过程中起着重要的作用。
随着地震勘探采集技术的不断提高,单位地震勘探工程得到的数据量随之剧增。同时,勘探的地形日渐复杂,初至波波形变化较大,各种波相互干扰,常常难以获得准确的初至时间,一直是初至拾取方法的难题[1]。因此,需要耗费大量的人力资源来进行初至波的拾取工作,这极大限制着数据处理的效率。
在地震记录中,初至波作为纯噪声与有效信号之间有明显的分界,具有能量强、起跳明显的特点,与图形的边界特征类似。
李辉峰等人[2]和牛沛琛等人[3]使用图像处理技术来检测初至波,把地震记录数据转化成灰度图,再对灰度图进行二值化处理。基于图像处理技术对于二值化阈值的确定要求很高,在初至波与背景噪声的边界模糊的时候,无法得到很好的拾取效果。尽管牛沛琛等人采用自适应阈值算法来确定二值化阈值对于信噪比高的地震数据能取得不错的效果,但是当信噪比降低,出现异常道时,需要通过人工多次交互确定二值化的阈值。
深度学习是机器学习中一种基于对海量数据进行表征学习的方法,当前已经成为机器学习领域富有生命力的研究方向[4],在图像处理、文本处理和语音识别等方面取得了成功的应用。
2014年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale Visual Recognition Challenge, ILSVRC),SZEGEDY C等人[5]提出的GoogleNet获得图像分类组第1名,将错误率从15.3%降到了6.67%。语音方面,2017年8月,微软亚洲研究院将语音识别错误率从5.9%下降到5.1%,超过了专业的速记员[6]。
2015年LONG J等人[7]首次利用全卷积神经网络(Fully Convolutional Networks, FCN)来进行图像语义分割。该结构实现了像素级别的预测,分割的效果远远高于传统的分割算法。
本文结合初至波的特点,参考FCN在图像语义分割和边缘检测的成功应用,把初至波拾取看成二分类问题,利用全卷积神经网络来进行拾取。
接下来对FCN进行介绍,然后说明数据的处理流程,最后对三种不同深度的网络进行测试,将性能最优的结构与TomoPlus拾取的结果进行对比。
1 全卷积神经网络FCN
如图1所示,FCN是在卷积神经网络的基础上进行延伸,将全连接层全部换为卷积层。在最后一层池化层之后开始连接反卷积层,池化层实现下采样,而反卷积层实现上采样,逐渐地将数据恢复到原来大小。
图1 FCN结构图
这里以具有三层卷积层网络3layer为例来对FCN进行介绍,如图2所示。在此说明一下,参考SIMONYAN K等人[8]提出的VGG网络结构的设计思想,每一层卷积层由连续多个卷积核构成。本文搭建的网络结构中,池化核大小均为2×2,除了最后一个池化层采用最大值池化,其他池化层均采用平均池化。卷积核大小均为3×3,反卷积核大小均为2×2。
如图2所示,每经过一层池化层,数据的长和宽均变为之前的1/2。对最后一层池化层的输出进行上采样,此时反卷积之后得到的数据的长和宽为反卷积前数据的长和宽的2倍,与第二个池化层(Pool2)输出的数据尺寸一样,将这两层数据相加,得到融合层Fuse1,目的在于融合更多前层的信息,增强模型的预测效果。同理,一步一步地进行反卷积,直到恢复到输入数据的大小。可以看出,FCN对输入数据的大小并没有要求。
2 数据处理
对多个地震勘探数据文件进行解析,得到多个真实地震勘探共炮集数据,地震道数在300~400道不等。然后手动分类标注数据,初至波为一类,背景为一类。在标注过程中,本文标注初至时刻之后第一个半波,而不是初至时刻,因为多个点携带的信息更多。然后将样本裁剪成统一大小的样本。
对于不同的炮、不同的勘探地形所测得的地震数据的差别很大,甚至差几个数量级。对数据进行训练时应该保证数据有相近的尺度,能够有效地帮助梯度下降算法更快地收敛。因此,需要对数据进行归一化。本文采取先对每个数据取绝对值,然后再采用“简单缩放法”,即对每一道地震数据进行统计,选取最大值和最小值,两者相减,得到数据的长度。然后每个样本依次减去最小值,之后再除以数据的长度。归一化公式如式(1)所示:
(1)
式中,x*为每一道样本点归一化后的数据值,xi为每一道样本点的绝对值,xmax和xmin分别为每一道样本点绝对值的最大值和最小值。
3 实验分析
3.1 不同深度网络性能测试
本文中搭建了三种不同深度的FCN,图2为3layer结构,依次增加卷积层和池化层,对应地增加反卷积层和融合层,得到4layer和5layer结构。测试样本为20炮地震数据,每一炮的道数各异。
评价这三个网络性能的指标为IoU(Intersection over Union)和拾取率(Picking Rate, PR)。
图2 3layer结构图
在此强调一下,每一地震道的初至信息标注的是一个半波,模型预测的也是多个数值。IoU表示两个集合的交集的元素个数与并集的元素个数之比,IoU值越大,表示测量与预测之间的相关度越高。
在本文的实验中,对于每一个测试样本,先计算每一道地震道的IoU值,然后求平均值作为该样本的IoU值。计算公式如式(2)所示:
(2)
式中,n表示每一个样本中地震道的道数,Apred i和Atrue i分别表示每一道地震道模型预测和手工标注的情况。
拾取率PR的计算如式(3)所示:
(3)
其中,npred表示模型拾取的道数,ntrue表示手工拾取的道数。
不同模型测试20炮数据的IoU值如图3所示。
图3 不同深度的网络的IoU值
拾取率的平均值和方差情况如表1所示。
表1 三种不同深度的网络拾取率平均值和方差比较
从表1可看出,4layer以94.5%的拾取率居这三种网络结构之首,其方差值也最小,说明4layer对于各道的拾取率的离散程度最小。
综上,从IoU和拾取率这两个指标对三种不同深度的网络结构的性能进行比较,4layer的性能最好。
3.2 与TomoPlus拾取结果对比
TomoPlus是GeoTomo公司的一款地震数据处理软件,主要用于解决二维及三维静校正与动校正问题。实验中利用TomoPlus的时间拾取模块来自动拾取,拾取的是初至波波峰所在的位置。
3.1小节提到,4layer模型拾取的是多个数值,从4layer模型拾取的位置所对应的地震数据中挑选出幅度值最大的数值,该值对应的位置作为初至时刻。
评价4layer与TomoPlus的性能的指标为拟合度和拾取率。拾取率与3.1小节中拾取率的计算方法一致。
拟合度的计算,以手工标注的初至信息的波峰为基准,分别计算每一炮中TomoPlus和4layer模型拾取的结果与手工标注的距离,计算公式如式(4)所示:
(4)
式中,Ptrue表示手动拾取的位置,Ppred表示TomoPlus或4layer拾取的结果,n表示每一炮中地震道数目。
TomoPlus和4layer拾取率和拟合度如表2所示。
表2 4layer与TomoPlus性能比较
从表2可看出,在拾取率方面,两者相差不大,在拟合度方面,TomoPlus拾取结果的拟合度的离散程度比较大。因此,4layer性能更优,具有更好的稳定性。接下来以两份炮集数据的拾取情况来进行说明。
图4为某一背景噪声较低的共炮集数据图,图5和图6分别为TomoPlus和4layer的拾取情况。可以看出,在背景噪声较低时,两者都能很好地对初至波进行拾取。
图7为某一背景噪声较高的共炮集数据图,图8和图9分别为TomoPlus和4layer的拾取情况。可以看出,背景噪声较高时,TomoPlus拾取的情况不如4layer,如图8中椭圆标识所示,TomoPlus没能很好地对地震道进行拾取,出现拾取错误和拾取遗漏的问题。而4layer的表现相对高效稳定。
4 结论
在地球物理领域,利用深度学习技术在地震油气储层预测、地震去噪、地震断层识别、地震速度拾取等方面已有相关的研究,然而,并不像图像识别和语音识别领域一样取得成功的应用,目前仍处于起步阶段。
本文提出了利用全卷积神经网络来拾取初至波,这是初至波拾取的一种新的方法,也是在地球物理领域使用深度学习技术的一个尝试。在对原始的地震数据进行剪裁、归一化和标注处理后,使用三个不同深度的神经网络分别对数据进行训练,然后对这三个网络的性能进行测试,将性能最优的网络与商业地震软件TomoPlus自动拾取的结果进行对比,结果表明,利用全卷积神经网络拾取初至波具有一定的可行性。当前得到的模型,其性能还有很大的提高空间,接下来还需要使用更多类型的地震数据来对模型进行训练,提高模型的泛化能力。
图4 某一背景噪声较低的共炮集数据图
图5 背景噪声较低时TomoPlus的拾取情况
图6 背景噪声较低时4layer的拾取情况
图7 某一背景噪声较高的共炮集数据图
图8 背景噪声较高时,TomoPlus的拾取情况
图9 背景噪声较高时,4layer的拾取情况