基于循环神经网络的重力异常数据推估研究
2021-03-11佘雅文付广裕
佘雅文 付广裕
1 南京大学地球科学与工程学院,南京市仙林大道163号,210023 2 中国地震局地震预测研究所地震预测重点实验室,北京市复兴路63号,100036
获取高空间分辨率的重力异常场对研究地球形状、地球内部结构和物质迁移活动等重要地球物理问题至关重要,但受限于仪器精度和时间经济成本,现阶段难以直接通过地表重力观测手段获取高空间分辨率的重力异常场,而通常是通过对观测结果进行推估获取[1-2]。随着重力观测数据的不断积累,不同区域的重力观测数据覆盖率逐渐提升[3-4],同时大数据分析技术的兴起,使深度神经网络在各个方面取得广泛应用[5]。深度神经网络中的循环神经网络主要应用于序列数据分析,在数据趋势推估方面具有良好的效果[6]。
基于循环神经网络在数据推估方面的优势,本文首先对观测的自由空气重力异常数据进行随机采样,作为训练循环神经网络模型的数据集;然后基于长短期记忆循环神经网络,结合训练数据集对神经网络进行训练;最后通过比较分析神经网络和传统克里金方法计算结果的差异,对2种方法进行评价。
1 自由空气重力异常数据
为方便对比循环神经网络和传统克里金插值方法的结果,采用2014和2017年鄂尔多斯西南缘地区的自由空气重力异常数据[7],该数据包含385个重力观测点。图1为观测点空间分布图,圆点不同颜色表示自由空气重力异常值。重力异常观测仪器为Burris相对重力仪,采用A-B-C- … -C-B-A观测方式来提高观测精度,平差处理软件为LGADJ[8]。在经过正常场改正和高程改正后,可得到自由空气重力异常。
2 长短期记忆循环神经网络
2.1 循环神经网络
图2为循环神经网络结构图,由输入层Ii、隐藏层Si和输出层Oi组成,其中I、S和O为向量。U
图2 循环神经网络结构Fig.2 Structure of recurrent neural network
为输入层到隐藏层的权重矩阵,V为隐藏层到输出层的权重矩阵,W为上一神经元的输出权重矩阵。上述各变量的关系可表示为:
Oi=g(VSi)
(1)
Si=f(UIi+WSi-1)
(2)
式中,f和g为激活函数,本文采用反正切函数作为激活函数[8]。
由式(1)和(2)可得:
Oi=g(Vf(UIi+Wf(UIi-1+Wf(UIi-2+
Wf(UIi-3+…)))))
(3)
2.2 长短期记忆神经元
式(3)也同时表明该神经网络存在不足:在训练模型时需要采用梯度下降法,通过反向迭代来求解隐藏层Si,当数据序列很长时,在模型训练计算时会出现梯度爆炸和梯度弥散问题[9],即Si过大或趋于0。出现梯度爆炸和梯度弥散都将影响序列数据之间信息的传递,进而造成循环神经网络计算结果较差,无法满足应用研究的需求。为解决梯度爆炸和梯度弥散问题,长短期记忆神经元被引入到循环神经网络中,并已取得良好效果[6,10]。
LSTM将RNN中Si替换为2个输出值进行处理,即神经元的当前状态值Ci和输出值hi。Ci可保存序列数据的长期状态,通过遗忘门(Fi)、输入门(Ii)和输出门(Oi)进行控制。图3为LSTM神经元结构图,其中各变量之间的数学关系见式(4):
Ini=tanh(WxInIi+WhInhi-1+bi)
Ji=sigm(WxjIi+Whjhi-1+bj)
Fi=sigm(WxfIi+Whfhi-1+bf)
Oi=tanh(WxoIi+Whohi-1+bo)
Ci=Ci-1⊙Fi+Ii⊙Ji
hi=tanh(Ci)⊙Oi
(4)
式中,tanh和sigm分别为反正切函数和sigmoid函数,sigmoid函数取值范围为0~1,可对信息进行筛选,控制上一层信息进入该层的程度。⊙为元素积符号,W*和b*分别为权重矩阵和偏置项。结合图3和式(4)可知,通过LSTM神经元可控制需要记忆和遗忘的数据信息,使隐藏层输出合适数值,并将数据信息状态通过Ci进行传递,从而解决梯度爆炸和梯度弥散问题。
图3 长短期记忆神经网络结构Fig.3 Structure of long short-term memory
神经网络训练的核心工作是对训练数据集进行多参数拟合。循环神经网络训练主要分3步进行:一是输出前向计算神经元;二是反向计算神经元的误差项δi,该项为误差函数对神经元i的加权输入矩阵的偏导数;三是计算每个权重的梯度,并利用随机梯度下降算法更新权重。同时,通过随机抛弃部分神经元参数的方式,防止出现过拟合情况,以获取最优的训练模型。在本文研究中,将输入层对应为训练数据集中重力观测点的位置信息,输出层则为训练数据集的自由空气重力异常。基于LSTM方法对自由空气重力异常数据进行训练,以获取合适的深度神经网络模型,并将其用于推估其他位置的重力异常值。
3 不同推估方法对比分析
为研究循环神经网络对自由空气重力异常的推估能力,将传统克里金方法[11]获取的推估结果与LSTM循环神经网络的结果进行对比分析。LSTM循环神经网络采用4个隐藏层和每层72个神经元的网络结构进行训练,迭代次数为3 000次。基于图1的观测数据,随机抽取50、100和150个点作为训练数据集,将剩余点作为测试数据集。对每个采样点数进行100次随机采样,各自生成100组训练数据集。使用LSTM和克里金方法分别进行推估计算,将推估结果与测试数据集进行求差并计算差异的标准差,结果如图4所示。
Mean和Std分别表示平均值和标准差,Num为训练集数据量
通过比较LSTM和克里金方法的结果可知,LSTM方法获取的100组随机数据的推估结果和测试数据集差异的标准差分布符合正态分布,结果较为稳定,且测试标准差小于克里金方法,相对而言克里金方法获取的结果较为分散。基于以上训练结果,本文认为利用LSTM循环神经网络方法推估的自由空气重力异常结果比传统克里金方法更为可靠。但训练神经网络所需的时间远大于克里金方法的计算时间,即使在使用GPU (Nvidia Tesla P4)训练的情况下,使用包含100个数据点的训练集,训练4层72个神经元所需的时间超过120 s,而克里金方法耗时则小于1 s,从效能角度考虑克里金方法仍占优势。随着计算机硬件能力和神经网络基础研究的发展,相信未来基于神经网络的推估方法会逐渐替代传统方法。
为进一步测试LSTM方法和传统克里金方法对实测数据的推估能力,基于图1中数据分别使用2种方法推估计算鄂尔多斯西南缘的自由空气重力异常场(图5)。为方便对比分析,分别绘制鄂尔多斯西南缘EIGEN-6C4模型[12]自由空气重力异常场(图5(a))和高程空间分布结果(图5(b)),高程数据提取自ETOPO1模型[13]。图5(c)和5(d)分别为克里金方法和LSTM方法的推估结果,这2组结果是基于经度和纬度的二维推估计算结果,推估计算点为0.1°×0.1°网格数据。由图5(a)、5(c)和5(d)可知,受限于观测点的分布(图5中黑点),虽然2种方法推估的自由空气重力异常结果均不理想,但相对于克里金方法,LSTM方法推估的重力异常分布特征与模型数据更为接近,特别是在研究区中部和北部,LSTM方法可正确推估重力异常低值和高值区域。图5(e)和5(f)为2种方法基于图1中385个观测点数据的经度、纬度和高程数据进行的三维推估结果,推估计算点与二维方法一致。除经纬度信息外,还加入对应点的高程信息(图5(b))。LSTM方法获取的结果与模型数据基本一致,且明显优于克里金方法,该结果表明加入高程数据作为约束条件对神经网络的训练更为有利,这与前人的研究结果一致[14]。
图5 基于不同推估方法的鄂尔多斯西南缘自由空气重力异常场Fig.5 Free-air gravity anomaly field in the southwestern margin of Ordos based on different estimation methods
4 结 语
基于观测的自由空气重力异常数据,对LSTM循环神经网络的推估能力进行分析,并与传统克里金方法的推估结果进行比较,得到以下结论:1)LSTM循环神经网络可利用有限的数据获取较好的推估结果。2)LSTM循环神经网络的推估能力优于传统克里金方法,但在运算效率上克里金方法表现更优。3)利用鄂尔多斯西南缘的观测数据对整个区域进行推估,结果表明,LSTM方法明显优于克里金方法,加入高程数据作为约束条件可有效提高LSTM方法推估自由空气重力异常场的精度。