APP下载

基于Attention 机制的CNN-BiLSTM 瞬变电磁实时反演方法

2023-11-06解海军周子鹏

煤田地质与勘探 2023年10期
关键词:反演电磁卷积

古 瑶,解海军,周子鹏,李 璐

(1.西安科技大学 地质与环境学院,陕西 西安 710054;2.自然资源部煤炭资源勘查与综合利用重点实验室,陕西 西安 710048)

瞬变电磁法作为时间域扫面性方法被广泛应用于矿产勘查、地下水调查等领域[1]。在其数据解释方面,线性反演虽取得一定的应用效果,但存在过于依赖初始模型、易丢失细节信息且分辨率低等缺点[2],不适用于高精度反演;而模拟退火、人工鱼群优化算法等完全非线性方法又受限于复杂的正反演理论和数据处理过程而难以真正投入使用[3-4],因此,寻找简洁快速、具有高分辨率的实时反演方法是亟待解决的问题。

Today, it’s all about bargains and Black Friday’s dark roots are for the history books.

近年来,神经网络凭借其突出的学习能力、非线性映射和泛化能力,被大量应用于地球物理领域的反演成像问题[5-7],该方法可避免复杂的正演计算,极大地提高了反演效率。在瞬变电磁反演方面,李实[8]、王秀臣[9]等基于反向传播(Back Propagaton,BP)算法设计了瞬变电磁实时反演系统;秦善强[10]利用遗传算法优化的BP 神经网络实现了瞬变电磁的即时反演;闫国才[11]利用3 层人工神经网络分析了孔隙度与瞬变电磁数据的关系,成功预测了岩层的富水性。以上研究虽利用神经网络达到了实时反演的目的,但未考虑到瞬变电磁数据的时间序列性和时空相关性,且从深度学习角度来看,BP 神经网络适用性较低,不利于复杂地质条件下的精细化反演。此后,范涛等[12]利用专门解决时序问题的长短时记忆神经网络(Long-Short Term Memory,LSTM)实现了基于大量正演数据的瞬变电磁实时反演成像,并验证了其在3 层、5 层模拟地层结构上的应用效果,证明了LSTM 反演在理论层面的合理性。但单一的LSTM 对于空间特征的提取能力相比时间特征而言略显薄弱[13],这使得该网络压制随机干扰、提取空间局部信息的能力不足,而瞬变电磁反演的主要目的是突出高阻或低阻异常区,因此,需要对其进行优化或与其他算法联合使用,进一步提高反演精度。从实现难易程度和应用效果来看,算法的联合使用更为适用,且联合算法已经在地球物理领域成功开展。袁英淏[14]利用深层卷积神经网络(Convolutional Neural Network,CNN)实现了层位的自动追踪,利用基于前馈注意力机制(Attention)的LSTM 实现了全剖面弹性波阻抗的预测;Cao Wei 等[15]利用架构在编码器-解码器(Encoder-Decoder)模型的卷积-长短期记忆神经网络(CNN-LSTM)算法成功进行了地震速度反演;冼锦炽等[16]基于CNN-LSTM 组合结构研究了拖曳式地面瞬变电磁的快速成像问题。以上研究证明了CNN-LSTM算法适用于反演领域,但将该方法联合Attention 机制用于地面瞬变电磁勘探还未见论述。

本文在综合考虑瞬变电磁数据时空特征和不同神经网络优势情况下,以正演和常规反演结果为学习基础,在特定地电模型条件下,将瞬变电磁反演思想与机器学习方法相结合,研究了瞬变电磁反演电阻率的预测方法,以期快速、准确地实现资料反演。

1 AC-BiLSTM 反演方法原理

根据不同的网络组合特性、反演需求及数据集大小,本次AC-BiLSTM 反演算法整体框架使用Encoder-Decoder 模型,编码器(Encoder)部分使用CNN 和Bi-LSTM;解码器(Decoder)为LSTM[15-16]。整体反演流程如下:首先,将各测点数据归一化后输入二维卷积神经网络(2D CNN),通过卷积层挖掘数据间的空间相关性并剔除随机干扰,再将处理后的数据作为整体传入双向长短时记忆神经网络(Bi-LSTM)中提取时间特征,获得具有深度向长期相关性的数据体;最后,利用Attention 机制计算不同数据点的注意力权重,将加权平均后的数据输入全连接层,对输出数据进行反归一化计算,获得反演结果。详细流程如图1 所示。

图1 AC-BiLSTM 模型工作流程Fig.1 Flow chart of the AC-BiLSTM model

1.1 卷积神经网络(CNN)

CNN 作为深度学习代表算法之一,是仿造生物的视知觉机制构建,可进行监督学习或非监督学习,其不完全连接、卷积核参数共享、池化等特性可显著降低网络复杂度,提高模型的运算容错能力[17],目前已广泛应用于大地电磁[18]、地震[19]、测井[20]等领域。经典CNN 结构包括输入层、卷积层、池化层、全连接层和输出层,其中池化层通过舍弃部分信息实现数据降维,然而在反演过程中,计算成本远小于图像处理,因此,本文设计的CNN 包括1 个输入层、2 个卷积层、1 个全连接层和1 个输出层。

多个瞬变电磁测点在空间上处于相邻位置,故数据以二维张量X(t×n)的形式输入神经网络,X为一个t行n列的二维矩阵,t为时间道数,n为测点数。为保留多个测点的空间相关性,本次使用二维卷积神经网络进行数据处理,卷积核按照测道和测点两个方向进行卷积。根据范振宇[21]、王琪凯[22]等的研究,对于二维矩阵的卷积计算公式如下:

式中:g(l,j)为第l测点第j时间道的卷积结果输出,l∈n,j∈t;X(l-m,j-k)为以第l测点第j时间道数据为中心的尺寸为 (m,k)的 实数矩阵;h(m,k)为二维卷积核及尺寸,按照滤波需求,设置二维卷积核尺寸为3×3,即∑长度∑m为3,宽度k为3,核数组首次输入为随机值;m∈nk∈t为遍历输入特征;b为 偏置参数;σ()为非线性激活函数。

1.2 双向长短时记忆神经网络(Bi-LSTM)

LSTM 是循环神经网络(Recurrent Neural Network,RNN)的变体算法,其通过增加输入门、遗忘门、输出门来保持和更新细胞状态,以门控结构解决一般循环神经网络处理长序列数据时所产生的梯度爆炸或梯度消失问题[23]。其单元内部结构如图2所示。

图2 LSTM 单元内部结构Fig.2 Internal structure of the LSTM unit

超参数用于定义模型的高层次概念,它的选取对深度学习算法的质控起到直接作用,不同超参数的组合会定义不同的反演模型性能。

式中:ωxi、ωx f、ωxo、ωxC为Xn对应的权重矩阵;ωhi、ωhf、ωho、ωhC为ht-1的 权重矩阵;bi、bf、bo、bC为偏置向量;tanh()为激活函数。

Bi-LSTM 是前向-后向长短时记忆神经网络的拼接,即利用concat 函数将前向隐藏状态与后向隐藏状态拼接为最终隐藏状态记为[h1,h2,···,ht]。该网络可对瞬变电磁数据按时间序列进行双向学习,以保证数据在深度向的前后依赖关系[12,26],相比单向LSTM 在地层预测方面有更好的效果。

1.3 Attention 机制

地层信息复杂多变,Encoder 中仅以最后一层网络对应的隐藏层作为输出结果容易忽略数据中的部分关键内容,同时,对所有信息赋予相同的权值亦不能满足精细反演需求,因此,引入Attention 机制对不同层次的数据进行偏向性选择,以大权重聚焦关联性大且重要的信息,以低权重分配给特征平淡的信息,以此对数据进行更深层次的特征提取,降低多步预测的误差[27]。

本次根据实际权重计算需要,选择Bahdanau Attention 计算方式。详细架构如图3 所示。

图3 Attention 详细架构Fig.3 Detailed architecture of the Attention mechanism

本次实测数据使用V8 电法工作站在陕北某煤矿勘测获得,施工参数同表1。选取已知采空区附近500 个实测数据和钻孔附近的28 个正演数据共同作为实测数据集。加入正演数据的目的是提高模型稳定性和准确率,使神经网络更好地控制地层视电阻率、深度及厚度变化。

式中:V、W、U、b为模型学习参数矩阵或向量;为Bi-LSTM 隐藏层输出值对当前输入的临时权重,经softmax 转换为网络使用的注意力权重αti;[h1,h2,···,ht]为对应输入序列的隐藏层状态值。以上参数随模型训练过程不断更新。

大幅提高平时考核的比例,从改革前的30%提高到50%,根据学生平时上课的出勤率、课堂活动参与情况等环节进行综合考察,有利于教师对课堂教学活动的管理,引导、督促和激励学生积极参与课堂活动,突出其主体地位。

需要提醒的是,在使用Attention 机制判断不同层次样本对结果贡献度的过程中,需将Bi-LSTM 的隐含层状态输出值从双向转化为单向,再对LSTM 的输出值和转换顺序后的隐含层数据执行矩阵乘法,否则会产生关于维度不匹配的报错命令。

2 数据集与评价指标

瞬变电磁反演的主要思想是利用神经网络接收原始数据,用训练好的模型预测出相对精细的地层分布情况,并尽可能地使其与实际地层分布误差最小。本次以采样时间-视电阻率作为输入特征进行参数训练,规定模型的优化目标为最小化拟合误差[12]。

由于各个镇的建设用地变化量代表了城市发展潜力,其反方面正好代表了城市建设用地减退的城市衰减潜力,因此,可由各个镇的建设用地变化量计算出三地区各个镇集体建设用地减量面积分别为 7.14km2、17.01km2、21.55km2。

此外BIM技术还可在施工组织阶段中得到应用,通过BIM技术可帮助施工人员更好地了解施工计划安排、施工方案设计以及施工场地实际情况,从而确保施工组织的合理安排。值得注意的是,施工地形各有差异,有些地方较低,有些地方较高,通过BIM技术便可对施工现场情况进行模拟,对工作平台加以构建,为后续施工的开展奠定基础。基于BIM技术下可实现施工质量的全面管理,确保施工质量的有效提升,施工人员可通过移动设备来查询施工方案、建立数据模型,将分布式云平台技术运用其中,以便施工人员在施工现场及时发现问题,促进施工管理效率的提升。

2.1 模拟数据集

在模型训练过程中,由于实测数据准确性无法判断,故设计了模拟数据集。首先对区内28 个钻孔的测井曲线进行归一化,按照曲线变化规律提取层间视电阻率,设计出28 个趋势相同但细节不同的6 层地电模型,基于该28 个模型正演得到模拟数据集,在理论层面展示并论证算法的可行性和准确度。训练期间通过超参数优化提升模型性能,用设定的评估指标分辨模型的优劣,最终得到的训练模型用于瞬变电磁数据反演。

正演模型参数设置与实际采集参数相同,详细参数见表1。

表1 参数设置Table 1 Parameter settings

2.2 实测数据集

假设共有t个时间步的输入,Encoder 第t时间步的输出表示为ht;Decoder 第i时间步的输出为si,则第i时间步的Ci(Context vector)计算过程及公式如下[27-28]:

2.3 评价指标选取

评价指标用来计算反演数据与实际地层情况的拟合程度及偏差,以便对模型进行定量评价[29-30]。本次选用以下指标,从拟合程度、偏离程度和模型相似度3 个方面对算法有效性和准确率进行评估。

由图7可见,换流器MMC1阀侧发生A相不对称短路故障时,对端MMC2、VSC同样感应到故障导致A相电压降低,非故障相BC电压升高,且有幅值相等的故障电流流入各换流端中性点。各换流端中性点故障电流与接地电阻R成反比,当直流系统接地电阻取2.0 kΩ时的中性点电流明显减小,如图8所示。

1)决定系数(R2)

决定系数主要计算模型的拟合优度,值越接近于1,则说明拟合程度越好。用于非线性回归模型时,其计算公式如下:

2)均方根误差(ERMS)

本研究包括以下变量:①自变量。针对障碍人士提出的无障碍网络课程设计及其有效性;②因变量。实验对象的学习兴趣、活动参与积极性等;③其他变量。实验对象本身并不是残障人员,因此不能够完全客观的站在他们的角度去辨别有效性。另外还会受到遮挡物本身的影响等。

该指标反映预测值的精密程度,值越小,表明预测值与真实值的偏离越小。

3)平均相对误差(EMR)

该指标通过各点之间的绝对差值衡量预测地层结构与真实地层结构的相似程度,值越小,说明相似程度越大,即预测地层结构越接近实际。

顾青有些歉疚,房子是太简陋了,没有厨房没有客厅,只有小小的一间,放了床、桌子和一台电脑之后,空间就占掉了大半。温简在楼梯口生了个炉子,烧蜂窝煤,味道很浓呛,她总是一边炒菜一边咳嗽,但她并不觉得苦。

式中:N为数据总个数,yt、分别为真实地层结构曲线第t道数据和数据平均值;分别为反演地层结构曲线第t道数据和数据平均值。

3 超参数选择

令第n测点处数据为其中为第t时间道的视电阻率数据,令Xn为当前输入,则LSTM 对于t时刻的工作流程如下[24-26]:每一个当前时刻,LSTM 单元通过遗忘门(ft)、输入门(it)、输出门(ot)接受上一时刻隐藏状态ht-1与 当前状态Xn两类信息的输入,其中遗忘门决定上一时刻ht-1保留到当前单元状态Ct的比例,输入门决定Xn输入到当前单元状态Ct的比例,输入门的信息经过非线性变换后与经遗忘门变换的记忆状态叠加,形成新的临时记忆单元;输出门决定上一输出ht-1和 当前Xn输 入到当前隐藏层状态ht的比例,为临时细胞状态;最后,当前记忆单元Ct与ot输出信息经过运算,形成了当前单元的输出ht。

3.1 学习率

学习率是梯度下降过程中判断如何根据损失函数梯度调整网络权重的超参数。学习率过低会增加网络复杂度,使整个网络困在局部最优点;过高会使损失函数梯度在最小值附近震荡,甚至造成模型无法收敛[31]。

本次选择均方误差作为目标损失函数,图4 为不同学习率损失曲线对比。如图所示,学习率为0.5 和0.1 时,训练一定轮次后误差几乎不再改变,出现梯度爆炸;学习率为0.01 和0.001 时误差下降趋势近似一致,但值为0.001 时收敛更好;学习率为0.000 1 和0.000 01 时,网络的损失值衰减较慢,经多轮训练后最终误差较小。

图4 不同学习率误差对比Fig.4 Errors under different learning rates

6.外部资源获取与整合。培育自身能力的同时,建筑施工企业也应成为资源整合方,广泛整合专业领域的设计机构、设备制造商,提升整体实施能力,满足业主需求。

基于上述误差对比结果,本次学习率设置选用离散下降法,即首先设置一个较大的学习率,使网络的损失值快速衰减,再随着迭代次数的增加降低学习率。设定初始学习率为0.1,规定每迭代50 轮,学习率下降为上50 轮次的1/10,共迭代250 轮[15]。

3.2 Dropout

考虑到精细反演需求,本次设定Dropout 取值范围为[0,0.5],详细取值及测试效果如图5 所示。由图中可以看出,加入Dropout 后,损失函数快速收敛,除0.000 1 外,其他取值的损失函数均下降至极小。综合考虑反演性能和数据要求,本次选定Dropout 值为0.01,误差下降趋势如图6 所示。

在深度神经网络训练过程中,当数据集较少而模型参数较多时,容易产生过拟合现象,主要表现为测试数据集损失函数大于训练集、预测准确率低于训练集。针对该问题引入Dropout 技术以丢弃传播过程中部分神经元,增强模型泛化能力。

图5 不同Dropout 值误差对比Fig.5 Errors under different dropout rates

图6 Dropout 值为0.01 时误差对比Fig.6 Errors under a dropout rate of 0.01

3.3 隐藏层节点数

在模型监督学习和反馈过程中,设定训练集∶验证集∶测试集=0.8∶0.1∶0.1。最终确定模型超参数及其他相关参数见表2。

“嗯,一开始肯定不适应,不过我相信,学习成绩好的孩子,到哪里都是好的。我也是希望你能带动成绩不好的同学,给他们一点压力和动力!”周老师说起这次“行动”还挺高兴的。

图7 为隐藏层不同节点数误差对比,图8 为不同节点数均方根误差对比。如图8 所示,当隐藏层节点数为16 时,网络均方根误差较大,损失的信息过多;当节点数为32、64 时,两组误差变化在前期较为相近,训练后期64 节点误差略小于32 节点,此时网络的质量提升达到瓶颈;当节点数为128、256 时,网络的均方根误差降低但网络整体质量下降。综合考虑网络性能,最终设置隐藏层节点数为32,与输入节点数较为相近,保留地质信息的同时节省了训练时间。

图7 隐藏层不同节点数误差对比Fig.7 Errors under the different nodes in the hidden layer

图8 隐藏层不同节点数均方根误差对比Fig.8 Root mean square errors under different nodes in the hidden layer

不同的隐藏层数及隐藏层节点数会对神经网络性能产生一定影响,在一定限度内,隐藏层层数越多、节点数越多,网络性能越强。经研究以往资料[15],本次数据量较少,同时考虑过拟合现象,设定隐藏层数目为3 层。在其他参数不变的情况下,以2n为变化基准研究16~256 个隐藏层节点数对反演效率及准确率的影响。

表2 超参数设置Table 2 Hyperparameter settings

4 实际应用效果

4.1 单点分析

图9 为AC-BiLSTM 最终误差下降趋势曲线图,从图中可以看出误差快速下降至收敛,未产生过拟合现象,说明该算法对地层数据具有较强的拟合能力。图10 为从模型正演数据中随机选取的2 组数据的反演结果,如图11 所示,预测曲线虽与目标模型曲线有微小差异,但趋势基本一致,说明该模型具备预测出6 层地层结构的能力。

壮拳不仅是壮人生存斗争的工具,更是狂欢时刻“手之舞之足之蹈之”的娱神娱人之手段。壮人有着自己独特的事关宗教信仰的民俗和节庆活动,如“三月三”歌节、牛魂节、蚂拐节、中元节等壮族特有的节庆以及节庆中的民俗体育活动无不体现着对天神、雷神、牛神、蛙神、“布洛陀”、祖先、大树等信仰中的“自然崇拜、鬼魂崇拜、祖先崇拜、英雄崇拜、图腾崇拜、动植物崇拜”[12],神祗众多,信仰繁杂。

图9 AC-BiLSTM 误差下降趋势曲线Fig.9 Downward trend curves of AC-BiLSTM errors

图10 正演模拟数据单点反演结果与目标对比Fig.10 Single-point inversion results of data from forward modeling vs.target values

图11 实测数据不同反演方法结果对比Fig.11 Results of different inversion methods on measured data

为进一步验证该方法的有效性和优越性,引入LSTM 及Occam 方法进行效果对比。图11 为不同反演方法结果对比图,图11a 为实测数据3 600 点反演结果,图11b 为3 900 点反演结果,如图,3 种方法均能较好地预测出地层整体趋势,但AC-BiLSTM 反演结果与地层结构偏差程度最小。

表3 为不同方法的反演结果精度对比,其中评价因子为多个测点的平均值,由表中可以看出,相比其他两种方法,AC-BiLSTM 反演的决定系数R2最高;均方根误差ERMS最小;平均相对误差EMR最小,即反演结果的准确度最高。

上世纪七十年代,微电子、IT和通讯技术的发展,使电气自动化实现了质的飞跃,融入了信息、通信、系统工程及人工智能等成果。

表3 不同方法反演结果精度对比Table 3 Accuracy of the results of different inversion methods

4.2 剖面对比

为进一步验证反演效果,分别利用Occam、LSTM、AC-BiLSTM 方法对已知采空区附近部分实测数据进行反演(数据经相同预处理),结果如图12 所示。图中黑色虚线为煤层位置,灰色阴影部分

猜你喜欢

反演电磁卷积
反演对称变换在解决平面几何问题中的应用
基于3D-Winograd的快速卷积算法设计及FPGA实现
三维多孔电磁复合支架构建与理化表征
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
基于低频软约束的叠前AVA稀疏层反演
基于自适应遗传算法的CSAMT一维反演
掌握基础知识 不惧电磁偏转
叠前同步反演在港中油田的应用
一种基于卷积神经网络的性别识别方法