APP下载

基于条件对抗增强的Transformer 煤矿微震定位方法∗

2024-04-17丁琳琳胡永亮李昱达王凯璐王慧颖

计算机与数字工程 2024年1期
关键词:微震集上特征向量

丁琳琳 胡永亮 李昱达 王凯璐 王慧颖

(1.辽宁大学信息学院 沈阳 110036)(2.国网辽宁省电力有限公司信息通信分公司 沈阳 110065)

1 引言

近年来,由于煤矿生产采掘深度的逐渐增大和煤矿企业开采掘进速度的逐渐加快,频繁发生一系列因采矿引发的煤矿动力灾害,比如煤矿冲击地压灾害和瓦斯突出灾害等[1]。为了减少事故灾害造成的人员伤亡,及时组织救援,同时监测矿区的微震能量变化,目前大多数矿区均采用微震监测系统作为煤矿动力灾害的主要监测手段,如波兰的SOS系统、南非的ISSI系统和加拿大的ESG系统以及国内的部分系统等[2]。

微震监测系统通过组网台站接收的震源时空数据来反演震源位置,反演出微震事件发生的位置并对定位结果做出适当的评价。但是定位结果受到监测台组网布置、定位算法选取、到时拾取、可用定位震相、地壳速度模型等诸多方面的影响[3],导致震源定位结果与实际震源位置相差较大,影响了在矿山的实际应用效果。为了避免上述诸多因素带来的影响,文献[4]介绍了一种将全卷积神经网络与三维高斯分布结合的方式,将定位问题转化为分类问题求解震源坐标;文献[5]介绍了一种将卷积神经网络CNN 与Transformer 模型结合并引入了台站位置信息的方式,进一步提高了震源定位精准度,保证了定位精度优于深度学习基线。

针对上述问题,本文提出一种基于条件对抗增强的Transformer 煤矿微震定位方法CGAN-Transformer,该方法首先通过条件生成对抗网络CGAN[6]对现有的微震信号(波形数据)进行学习和模仿,利用其生成器生成与指定标签的微震数据具有相同数据分布的伪微震数据;其次通过Transformer编码器层将微震信号转换成特征向量后再通过以α的倍率放大首个P 波台站在微震信号数据中所占比重的方式抵消了不同地质条件对微震波传播的消极影响后,同时也利用其注意力机制进一步学习微震波形数据深层次特征和复杂的站间依赖关系;最后通过混合密度输出层特征向量与震源位置之间的映射依赖关系,并利用高斯分布参数计算最优的震源位置。在本文的最后,通过在两个波形数据集上的对比实验验证了模型的实际效果。

2 相关工作

为了提高定位精度,有许多研究人员在此震源定位领域上进行了大量的研究和优化,大致可分为三大类,即传统定位算法、机器学习定位算法、深度学习定位算法。

在传统定位算法中,文献[7]介绍了一种求解到时函数的偏导数与逆矩阵,经过迭代公式求解出到时误差的极小值,即震源参数;文献[8]介绍了一种避免了求解偏导数或者逆矩阵,通过选取最小到时台站空间位置即可;文献[9]介绍了一种搜索迭代的方式寻找符合微震事件条件震源点。以上传统算法对算法的初始值的依赖性较强,如果采用静态波速模型,在迭代求解的过程中会造成误差累加效应,使算法陷入局部最优。文献[10]虽然在一定程度上减小了定位误差,但是影响微震事件定位精度的相关参量并不是相互独立的,所以在求解过程中隐形地增加了困难。

在机器学习定位算法中,文献[11]介绍了一种利用高密度台阵的和粒子群算法分析了定位误差与传感器数量、位置之间的关系;文献[12]介绍了一种利用方位角优化的方法结合模拟退火算法与粒子群算法提出了改进全局搜索算法;文献[13]介绍了一种差分进化遗传算法进行寻优的定位方法,这些方法提高定位精度的同时实现了从传统的“数学模型”到“仿生模型”的演变。

在深度学习定位算法中,文献[14]介绍了一种利用卷积神经网络(CNN)的方法从单台站三分量波形数据中检测地震事件;文献[15]介绍了一种考虑到单台站波形数据不足以代表整个地震事件,使用深度卷积对多台站波形数据进行特征提取。

然而,上述的定位模型需要一定规模的标签事件,才能在训练阶段充分学习数据特征,并对无标签的事件进行定位。由于数据的限制,如训练数据中高质量事件的数量不足、标签缺失、规模较小,最终导致模型定位精度不高、鲁棒性差等问题。文献[16]介绍了一种利用CGAN 生成数据样本的能力,解决了在故障诊断领域由于数据量小导致的数据不平衡问题;文献[17]介绍了一种利用迁移学习将大样本源域地震数据的特征迁移到小样本源域地震数据的模型中,从而改善了数据规模不足、特征不足等问题。

3 CGAN-Transformer模型结构

模型的整体结构可以分为三层,条件对抗增强层、Transformer编码器层以及混合密度输出层。条件对抗增强层:先利用判别器D来学习真实微震信号所具有的数据特征分布后,再利用生成器G生成符合真实微震分布的伪微震数据。Transformer 编码器层:先将微震信号提取成特征向量后,再利用其注意力机制对数据特征进一步混合提取,寻找深层次微震特征和复杂的站间依赖关系,同时引入了监测台站的地理位置编码并通过放大首个P波台站的数据比重的方式,抵消由地质结构不确定引起的定位结果远离煤矿区域的问题。最后通过混合密度输出层获取震源的高斯分布参数,根据分布参数计算最优的震源位置。完整的模型结构如图1所示。

图1 CGAN-Transformer模型结构图

3.1 条件对抗增强层

虽然煤矿微震监测系统的监测台站每时每刻都在记录着传感器所受到的原始应力数据,但对于本项工作来说,并不是所有的应力数据都是有用的。只有在发生煤矿微震事件时,处于[t0,t1]区间的波形数据才是有效数据。其中,t0=tp-5s;t1=tp+25s。tp为P波到时。从微震监测数据中发现的数据不平衡问题,是影响震源定位精度不高的主要原因;再加上微震事件的震源位置与微震信号是一对多的关系(即不同的微震信号可引起同震源位置的微震事件)降低了模型的震源定位精度。因此本文采用一种基于CGAN 架构的数据增强方法对现有的微震数据集进行扩充增强。条件对抗增强层主要由判别器D、生成器G和条件Cond三部分组成。具体结构如图1(a)所示。生成器G 将输入的随机噪声z 映射到输出信号y 中;判别器D 将其输入信号y映射成概率值;将条件Cond分别输入到生成器G和判别器D中用控制生成器G的输出。

首先,对判别器D 进行训练。该判别器由7 层卷积层和一个多层感知机(Multilayer Perceptron,MLP)组成,本文将真实微震事件的震源坐标作为条件Cond 添加到判别器D 的输入端,判别器D 既要判断输入数据的真伪,也要判断输入数据与作为条件信息的震源坐标是否匹配。设输入判别器D的数据X是一个三维的张量Z0n,t,c,代表一个台站截取的有效波形数据,其中n∊{1,2,3}代表微震波三分量,c=1 代表通道数。则每层卷积的计算过程如下公式所示:

其中,σ(x)代表的是LeakyReLU 函数;c代表的是第i层的第c通道;t代表的是第i层的第c通道的第t元素;同理可以得,c'和t'代表的是第i-1 层的通道和数据元素;Ci-1代表第i-1 层的通道数;s代表卷积核的步幅;Ti-1代表的是第i-1 层的第Ci-1通道的数据元素总长度。在经过7层卷积层的内容学习和特征提取后,通过一层MLP 将特征数据进行展平并映射到一维的评价标量上,用于指导生成器G的训练。

其次,对生成器G 进行训练。该生成器由7 层反卷积层和一层MLP 组成,即为判别器D 的逆过程。不同于判别器D 的是除最后一层σ(x)为Tanh函数外,其余层均为ReLU函数。

其中,Pdata(x)为真实微震事件特征分布;Pg(z)为噪声分布;D(x|cond)表示判别器D 判断为真实微震事件为真的概率;D(G(z|cond)|cond)表示随机噪声生成的伪微震事件特征分布;D(G(z))为判别器D 判断生成器G 输出为真的概率;c表示该真实微震事件对应的震源标签。为了避免模式坍塌,保证生成数据的多样性,本文采用Wasserstein距离[19]作为Pdata(x)分布与Pg(z)分布之间距离的衡量标准。

3.2 带有位置嵌入的Transformer编码器层

Transformer 模型是一种基于注意力机制的序列到序列的经典模型,GPT 以及Bert等大型的语言模型都是基于Transformer 模型衍变而来的。该模型的主要贡献有以下两点:第一点则是通过引入注意力机制和位置编码的方式,解决了传统网络记忆长度过短,提取出的信息无法保留较多上下文信息,以至于难以处理长序列数据等的问题;第二点则是通过引入多头注意力机制,解决传统NLP模型中并行计算能力不足的问题。

本文通过注意力机制来量化在一次微震事件中每个激发台站(波形特征和位置)和其他台站之间的相关度或依赖程度,从而在确定震源位置时知道更偏向哪几个台站。Transformer 编码器层的具体结构如图1(b)所示。

首先,由于条件对抗增强层是直接对微震波形数据进行增强,属于线下增强。因此,在进行自注意力运算之前需要重新对波形数据进行特征提取。该卷积提取与式(1)的不同之处在于:σ(x)代表的是ReLU 函数;Ci-1={1,8,32,64,128,64,32,8}。在经过卷积提取之后,先将特征向量展平,再通过多层感知机MLP 将特征向量微震映射到dmodel维。

其次,目前将台站的位置信息嵌入到特征向量中有二种方式:第一种方式为ConCatenate,即直接在特征向量的尾部串联上对应台站的经纬度和深度信息,则嵌入之后的特征向量维度为;第二种方式为PositionEmbedding,即通过三角函数将台站位置信息映射到特征向量中,特征向量维度保持不变。本文采用基于不同波长的正弦函数对台站位置信息进行编码,具体编码计算方式如下公式所示:

其中,PE 为二维矩阵[numstation,dmodel],矩阵的列数和上游提取出来的波形特征向量列数保持一致;矩阵PE 的每一行代表微震事件触发台站的位置向量,列表示位置向量的维度。pos1,2,3代表的是台站的经度、纬度和深度;经度即该位置向量的第一个维度。经度是地理位置的一个重要指标,用来表示一个地点在东西方向上的位置。纬度即该位置向量的第二个维度。纬度是地理位置的另一个重要指标,用来表示一个地点在南北方向上的位置。深度即该位置向量的第三个维度。深度是用来表示一个地点在垂直方向上的位置,通常用距离地表的距离来表示。dmodel表示位置向量维度,i表示位置向量具体的维度,i的取值范围是[0,dmodel/2-1];PE(pos1,2,3,2i)代表在台站位置向量中的偶数位置的值,PE(pos1,2,3,2i+1)表示奇数位置的值。对经度、纬度、深度全部按照该编码函数映射成dmodel维的向量后再逐元素相加,组合成一个位置向量。

理论上来说,当一个微震事件发生时距离震源最近的台站是第一个接收到微震P 波的;但由于震源到台站之间的地质结构复杂多变,吸收波、反射波等情况的存在,所以实际上不一定是离震源最近的台站最先接收到P 波。考虑到上述情况的存在,本文以概率α∊[0,1]来模拟这种情况的发生:当α=0 时,则认为存在上述情况,不做任何处理;当α=1 时,则认为不存在上述情况,通过放大特征向量的方式表达该特征向量与震源的关联度最大;当α=(0,1)时,则认为上述情况不同程度的存在;随机变量α的取值符合高斯分布。对于微震事件激发的任意台站,其位置向量展开如下公式所示:

3.3 混合密度输出层

本文提出的煤矿微震震源定位模型中,Transformer 编码器层的输出只能获取包含上下文及台站位置信息的特征向量,还需要考虑到输入的微震波形数据与最终震源位置标签之间的依赖关系。因此,模型中采用混合密度输出层建立特征向量到震源位置的依赖关系来获取全局最优的震源位置。混合密度网络是一种特殊的用于密度估计的高斯混合模型,该模型常常被应用于多元预测任务上[20]。混合密度输出层的具体结构如图1(c)所示。

混合密度网络(Mixture Density Network,MDN)是一种神经网络模型,也是一种生成模型,用于对多峰分布的条件概率密度函数进行建模。MDN 的思想是通过利用混合高斯分布来建立对数据的概率密度函数。即:每个高斯分布函数都由一个均值、方差和加权系数组成,其中加权系数代表的是每个高斯分布函数所占的比重。

混合密度网络先假设某一区域所有微震事件为总体样本(包括未发生的事件)X=x1,x2,…,xn,并且该样本集的总体分布是由K 个高斯分布加权混合而成,则对于微震事件来说属于该样本集的概率就是分别属于k个高斯分布概率的加权和。即

4 实验结果与分析

为了验证本文提出的基于Transformer 条件对抗增强的煤矿震源定位方法的有效性,同时与其他基于深度学习的震源定位模型进行对比,本文采用辽宁某矿真实数据集和智利地震数据集(M<1.5)进行实验验证。

4.1 实验数据

实验数据来源于辽宁某矿的真实微震数据和智利公开的地震数据集。其中辽宁某矿的所有微震数据均为微震监测系统在非人为干预情况下的自动拾取,计算过程中涉及的运算参数与微震信号所在矿区实际匹配。具体包括了从2019年到2021年矿区所发生的全部微震事件,共计240 个微震事件;智利数据集选取震级小于1.5,触发台站个数等于20的微地震事件,共计2665个微地震事件;两个数据集的详细统计如表1所示。

表1 数据集信息统计表

4.2 实验环境

实验模型采用由Facebook 人工智能研究院(FAIR)搭建的Pytorch 框架。其中,条件对抗增强模型训练了大致3.5 个小时,Transformer 震源定位模型训练了大致0.8 个小时,实验中使用了Dropout层防止模型过拟合。具体的实验环境如表2 所示,实验中采用的超参数如表3所示。

表2 实验环境统计表

表3 实验超参数设置表

其中,在条件对抗增强模型中1e-4为生成器G的学习率,3e-4为判别器D的学习率。并且该学习率随着迭代次数的增加而线性衰减,帮助模型在后期快速收敛。在Batch大小的选择上通过采用触发台站个数的倍数,进而控制输入模型批量训练个数为微震事件的整数倍。

4.3 实验结果

为了验证本文提出的基于Transformer 条件对抗增强的煤矿微震定位方法的性能,同时比较其他的微震震源定位方法,本节引入基于卷积神经网络的CNN-EL 模型[15]和基于图卷积神经网络的DGNN 模型[21]作为对比模型。在本文提出的基于Transformer 条件对抗增强的煤矿微震定位模型中不仅增加了条件对抗增强层,还对Transformer编码器层的位置向量嵌入进行了改进,其中条件对抗增强层可以将随机噪声转换为指定震源对应的波形数据,Transformer编码器层引入了随机变量。为了验证这些改动的有效性,本文引入原生的Transformer 震源定位模型在智利数据集和辽宁某矿数据集上作进一步对比实验,其中Transformer为原生模型,Concatenate 与PositionEmbedding 均为本文提出的基于条件对抗增强的Transformer 微震定位模型,区别在于监测台站位置信息的嵌入方式不同。

五个模型分别在智利数据集和辽宁某矿数据集上进行对比实验,采用震中误差(Epicenter Error)和震源误差(Hypocentral Error)作为评价指标,通过最终的实验结果验证该微震震源定位方法的有效性。其中震中误差EE 和震源误差HE 分别表示为

其中,(x,y,z)为震源的预测坐标;(x',y',z')为震源的真实坐标,五个模型在智利数据集和辽宁某矿数据集上的震中误差变化曲线如图2 所示、震源误差变化曲线如图3所示。

图2 五种模型在两个数据集上的震中误差变化曲线

图3 五种模型在两个数据集上的震源误差变化曲线

从图2 中可以看出,本文提出的基于Transformer 条件对抗增强的微震定位方法在智利数据集和辽宁某矿数据集上均取得了最优成绩,在智利数据集上震中误差降低到6.29km,比CNN-EL模型和DGNN 模型分别降低72%和54%;改进后的CGAN-Transformer 模 型 比 原 生Transformer 模 型 震中误差降低34%,PositionEmbedding方式比Concatenate 方法震中误差降低了8%。在辽宁某矿数据集上,CGAN-Transformer 模型震中误差比CNN-EL模型和DGNN 模型分别降低46%和34%;改进后的CGAN-Transformer 模 型 比 原 生Transformer 模 型 震中误差降低11%,PositionEmbedding方式比Concatenate 方法震中误差降低了2%。这说明不管是在智利数据集上还是辽宁某矿数据集上,本文提出的基于条件对抗增强的Transformer 微震定位模型的精准度是优于CNN-EL 模型和DGNN 模型以及原生Transformer模型的,而监测台站位置的嵌入方式在智利数据集上对定位精准度的影响较大,在辽宁某矿数据集上的对定位精度的影响较小。

从图3 中可以看出,本文提出的基于Transformer 条件对抗增强的微震定位方法在智利数据集和辽宁某矿数据集上均取得了最优成绩,在智利数据集上震中误差降低到6.52km,比CNN-EL模型和DGNN 模型分别降低75%和57%;改进后的CGAN-Transformer 模 型 比 原 生Transformer 模 型 震中误差降低42%,PositionEmbedding方式比Concatenate 方法震中误差降低了21%。在辽宁某矿数据集上,CGAN-Transformer 模型震中误差比CNN-EL模型和DGNN 模型分别降低46%和36%;改进后的CGAN-Transformer 模 型 比 原 生Transformer 模 型 震中误差降低13%,PositionEmbedding方式比Concatenate方法震中误差降低了5%。

从图4 中可以看出,五个模型在两个数据集上的误差大致呈右偏分布,本文提出的基于条件对抗增强的Transformer 微震定位模型在智利数据集上表现较好,误差分布较为集中,其震中误差峰值和震源误差峰值都低于10km,其中位误差也低于其他四个模型,定位效果较好。但是本文提出的基于条件对抗增强的Transformer 微震定位模型在辽宁某矿数据集上的误差分布较为离散、数据波动较大、定位效果不稳定,这可能是因为辽宁某矿数据集中可能存在一些数据质量问题,例如数据噪声、不准确的测量值等,并且数据集的数据规模可能较小,相比智利数据集而言可能数据量有限。这些问题会导致模型在处理数据时产生不稳定性,从而导致误差分布较为离散。但其中位误差依旧低于其他四个模型。因此,可以得出条件对抗增强层的引入以及首个P 波台站随机增强的引入提升了CGAN-Transformer模型的最终定位效果。

图4 误差分布式小提琴图

5 结语

本文针对煤矿微震定位领域中出现的微震事件单一导致的定位模型泛化弱、定位精度不高,提出了一种基于条件对抗增强的Transformer 煤矿微震定位方法,该方法通过对抗增强的方式自主学习已有微震事件的特征并由生成器G 生成符合微震特征的伪微震事件对现有微震事件进行多样变种,在Transformer 编码器层通过高斯随机变量模拟在不同地质条件下首个P 波台站情况。实验表明本文提出的CGAN-Transformer 模型在智利数据集上的震中误差和震源误差分别降低到6.29km 和6.52km,比改进前分别降低了34%和42%(即误差降低了38%);其在辽宁某矿数据集上的震中误差和震源误差比改进前分别降低了11%和13%(即误差降低了12%),说明了改进的有效性。在后续工作中,将在更多的数据集上与更多其他的基于深度学习的模型进行对比,同时进一步优化模型。

猜你喜欢

微震集上特征向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
浅谈KJ768煤矿微震监测系统的应用
Cookie-Cutter集上的Gibbs测度
长平煤业5302 综放工作面顶板岩层移动规律研究
链完备偏序集上广义向量均衡问题解映射的保序性
一类特殊矩阵特征向量的求法
复扇形指标集上的分布混沌
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于隶属度分析的回采面冲击地压微震能量阈值判定