APP下载

基于CNN的地震前兆台网观测数据异常图像识别方法

2021-03-30刘春国樊俊屹

地震工程学报 2021年1期
关键词:前兆台网台站

王 军, 刘春国, 樊俊屹

(中国地震台网中心, 北京 100045)

0 引言

地震前兆台网建设的目的是获取地震、地壳形变、地球电磁、地下流体等动态变化图像,捕捉地震前兆信息,为地震预测提供依据。受观测环境等诸多因素的影响,监测数据常常呈现出区别于正常背景动态变化的异常变化。如何快速、准确判断引起异常图像的原因,一直是地震监测预报人员研究的重要课题。

目前,利用相关分析、差分检测、固体潮相关检测、方差检测、台阶检测、分段线性斜率和高度等多种检测方法提取异常特征值,可以对台网观测数据的异常进行检测[1-2],难点在于检测方法及异常特征值的选取,不同的异常图像类型需采用不同的检测方法,而且这些方法大都只适应于形态较为规则的异常图像,对大部分的异常图像基本无效。此外,即使这些方法能够检测到是否出现了异常,而这种异常变化是哪类因素引起的则还需要人工利用自己的经验来判断。识别的准确率与具体操作人员对观测点测项的背景正常动态变化、典型异常动态及其因素了解程度有关。

卷积神经网络(CNN)模型是一种新兴的人工神经网络系统,具有深度学习能力且适应性强,善于挖掘数据局部特征,全局训练特征抽取器和分类器等优点。卷积神经网络在模式识别中的多个领域取得了很好的成果。本文选择无需手动提取特征的CNN对观测数据异常图像进行识别。

1 地震前兆台网观测数据异常图像

1.1 地震前兆台网

我国地震前兆台网由地下流体、地壳形变和电磁三大学科台网组成,观测项目超过五十种,主要观测手段包括水位、水温、氡、汞、地倾斜、地应变、重力、地磁、地电阻率、地电场等十多种[3]。

地震前兆台网的基本组成单元是台站,台站一般由观测场地(观测井或泉、山洞、钻孔、观测墩等)、观测室、观测装置、观测仪器等构成。据最新统计,汇集到国家前兆台网中心数据库的地下流体台站共计约有713个,地壳形变观测台站353个,电磁观测台站367个。大部分台站均配备了气象三要素观测仪器对气压、气温和降雨进行辅助观测。

1.2 观测数据变化图像及其影响因素

观测数据变化图像可分为正常图像和异常图像。正常图像是指某一个观测项目的观测值具有自身的变化规律和特征,如潮汐类形变观测、重力观测和地下水位观测一般具有明显的日波、半月波潮汐图像特征;长期观测资料在相对稳定的影响因素影响下数据变化水平无明显变化,观测值呈有规律地变化。

因突发的观测事件或固有的影响因素水平发生变化均会引起数据变化偏离正常图像,出现异常图像。数据出现异常图像的影响因素大致可以分为5种:(1)与台站观测系统故障有关的因素,如仪器故障、观测装置故障及供电故障等;(2)与气象变化相关的因素:如气压、降雨、雷电、台风、风扰等;(3)与观测场地周边环境干扰相关的因素,如地下水开采与注水、地表水体涨落、灌溉、塌方爆破、施工干扰等;(4)与观测系统人为干扰相关的因素:如仪器检修与安装调试、观测井取水与放水、井水流量调节等;(5)与地质灾害、构造活动等变化相关的因素,如地震、震后效应、滑坡、泥石流、矿震等。

引起异常图像的影响因素很多,具体对于某个台站的某个观测手段,影响因素可能有多种。不同的台站、观测手段同一影响因素引起的地震监测数据异常图像具有不同的图像特征。异常图像影响因素的确定往往需要结合观测日志、仪器性能、环境调查、气象资料收集、数据处理分析等多方面进行分析判断。

自2014年以来,通过地震前兆台网观测数据跟踪分析工作[4-5],对出现的大部分异常图像进行了跟踪、核实和分析,确定了其成因,这些异常图像及影响因素标识等相关信息均保存在数据跟踪分析知识库中[6-8]。这些资料为我们开展本项研究奠定了基础。

2 基于CNN的异常图像识别方法

人工神经网络是一种模仿生物神经网络行为,进行数据处理的算法模型。这种网络通过反向传播(BackPropagation,简称BP)调整内部大量神经元节点之间相互连接的权重,从而达到处理信息的目的。1989年Yann LeCun利用BP算法来训练多层神经网络识别手写邮政编码;1998年他提出的LeNet5模型是卷积神经网络(CNN)问世的标志。2016年的ImageNet图像识别竞赛,基于CNN的ResNet识别率已经超过人类,它的网络层数达到152层之多。经典的CNN模型有LetNet、AlexNet[9]、ZF Net 、VGG、GoogLeNet、ResNet等。

基于CNN的异常图像识别方法的基本思路是首先设计一个CNN模型,根据监测数据产生训练集,对训练集进行预处理,训练CNN模型,测试模型,利用模型进行识别。具体如下。

2.1 CNN网络模型构建

卷积神经网络(CNN)主要由输入层、卷积层、池化层(Pooling层)、全连接层和输出层组成。输入层可以处理多维数据,对于本项研究,为三维输入数据,即红、绿、蓝三个通道的二维平面像素点;卷积层的主要功能是对输入数据进行特征提取;Pooling 层也叫下采样层,主要用于保留有用信息的基础上减少数据处理量,加快训练网络的速度;全连接层等价于传统前馈神经网络中的隐含层,全连接层通常搭建在卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号。特征图在全连接层中会失去3维结构,被展开为向量并通过激励函数传递至下一层;输出层结构和工作原理与传统前馈神经网络中的输出层相同。对于图像分类问题,输出层使用逻辑函数或归一化指数函数(softmax function)输出分类标签[8]。

本文构建的网络模型与AlexNet相似,在Google的tensorflow框架下进行模型结构设计、训练、测试和参数优化,如图1所示。

图1 网络模型示意图Fig.1 Diagram of the convolutional neural network model

该模型包括1个输入层、2个卷积层和2个池化层、2个全连接层和1个输出层。其中第1组为卷积层,包括64个大小为[5,5,3]的滤波器,输出[24,24,64],然后用激励函数(ReLU)激活,最大池化层输出[12,12,64];第2组为卷积层,包括64个大小为[5,5,64]的滤波器,输出[12,12,64],再使用激励函数(ReLU)激活,最大池化层输出[6,6,64];第3组为全连接层,将第2组的输出展开成一维[2304],用384个神经元连接,用ReLU激活,输出[384];第4组为全连接层,将第3组的输出用192个神经元连接,用ReLU激活,输出[192]。最后为线性输出层,将第4组的输出用2个(分类的个数)神经元连接,输出[2],即为图片属于两个类的得分值。

2.2 训练集的生成

从国家前兆台网中心数据库读取某一台站观测项目的观测数据,一个异常图像持续时间的观测数据保存为一个文件,通过文件名称来表示各类观测事件类型,各类观测事件类型及正常类型的文件数目比例应基本一致。观测事件类型来源于数据跟踪分析标识。

根据保存的数据文件,绘制时序图并保存到分辨率为32×32的PNG图片(PNG为无损压缩)。为了减少干扰,时序图片不包含坐标轴。然后将图片读入内存,分离出红、绿、蓝三个通道,将这三个通道数据合并,并在前面加上1个字节的label(0表示正常,1-Z分别表示不同的事件类型),即为一张图片的训练数据。所有的图片训练数据顺序合并到一起形成训练文件,即为训练集。

2.3 训练集图像标准化处理

根据构建的网络模型的输入要求,对训练集进行预处理。将训练集中的32×32的图片在长、宽两个方向上剪裁为24×24大小;以50%的概率将图片沿水平方向进行翻转;随机调整图像亮度和对比度;将图像标准化:

(1)

式中:x为图片的RGB某通道像素值;mean分别为通道像素的均值;stddev为通道像素的标准差;pixels是通道的像素个数。

2.4 模型训练与测试

利用训练集对设计的模型进行训练。权值使用truncated normal distribution初始化,采用BP算法来调整CNN模型各层权值与偏置;使用指数衰减的学习率进行梯度下降(BP算法的学习速率),训练方式为批量训练。利用生成训练集的方法生成其他时段的测试集,进行测试。

3 实验研究

3.1 实验台站

我们选取引起数据变化的影响因素清楚且类型较少、异常形态不规则的拉萨井的水位资料来进行实验研究。用于实验的观测井深111.2 m,观测含水层为第四系潜水含水层,井水位受降雨影响较明显,在每年雨季6—9月水位出现峰值变化(图2)。

图2 2016—2017年用于实验的拉萨井水位时序曲线Fig.2 Time series curve of observed well water level in Lhasa from 2016 to 2017

经现场调研与资料分析,在该井东面50多米处有一水池每天不定期抽水用于浇地,抽水导致观测井水位出现小幅下降变化,抽水结束后出现回升,抽水引起的异常图像持续时间30 min左右。

选取2017年5月9日到9月8日的水位观测数据(分钟采样)作为训练样本的数据来源。这段时间异常图像均为抽水干扰引起。我们的目的是自动识别出正常与抽水干扰异常图像。

3.2 训练集

使用实验观测站2017年5月9日到9月8日的水位分钟值数据,用软件对形态明显的干扰段数据进行提取,共获得干扰样例151个。同时对非干扰时段的数据也提取了121个样例。提取出的数据保存为csv格式,通过文件名来区别是正常形态还是抽水干扰。依据上面的方法生成训练集。正常与抽水干扰训练图片见表1,对训练样本进行预处理。

表1 训练集的部分正常图像和干扰图像

3.3 实验结果

由于数据量很小,在英伟达GTX1080GPU上训练2 000次网络收敛。利用训练好的模型进行该观测站水位干扰的自动识别。

选择两段时间的数据来检验。2017年2月1—2日是干扰较少的时段,11月14—15日是干扰较严重的时段。

以5 min为步长,40 min为窗口长度进行滑动,每个窗口生成一张图片,将图片用处理训练文件的同样方法生成二进制文件,输入模型后给出分类得分,使用softmax公式将得分转换为概率值:

其中:a0,a1为模型的分类得分。

当样本属于类别1的概率大于0.999时认为是抽水干扰,检验结果如图3所示。

2017年2月1—2日共计识别出6个时段存在抽水干扰异常图像[如图3(a)所示]:2月1日的08:40—09:20、12:25—13:15、17:55—18:45、21:55—22:50和2月2日的 13:30—14:25、18:15—19:00。其中2月1日08:40—09:20,这是一个正常变化,识别错误,分析认为是人工标注时对正常图像类型提取不完整所致。其他时段都正确识别,准确率为 95%。此外,2月2日 13:30—14:25的异常不完整,应该是从10:55开始,这应该是用于异常识别的图像是按固定时间长度生成而导致的。

图3 标识识别的抽水干扰时段的观测数据变化曲线Fig.3 Change curve of observed values during pumping interference period

2017年11月14—15日共计识别出16个时段抽水干扰图像[图3(b)]:11月14日的 06:40—07:30、12:10—13:35、13:40—14:25、15:30—16:10、21:40—22:35,11月15日的05:20—06:15、08:05—08:45、09:05—09:50、09:55—10:40、11:30—12:15、13:35—14:20、14:35—15:30、16:10—16:55、17:10—18:05、18:25—19:15、21:45—22:35,经核实这些时段均存在干扰,其中11月15日的11:30—12:15干扰时段并不完整,完整时段应为11:20—12:25。此外11月14日的19:25—20:30和11月15日的20:25—21:40存在较长时间地抽水干扰并未识别出来,识别的准确率约为88%。识别出错的原因与2月1—2日的情形类似,与输入图像的定长以及训练样本中异常图像样本类型不全有关。

4 结论

本文构建了一个6层结构的CNN网络模型,采用构建的模型对实际观测井水位抽水干扰引起的异常图像进行了自动识别实验。实验结果显示识别准确率较高,验证了CNN网络模型应用于复杂异常图像识别的可行性。当然,识别方法还有待进一步完善,特别是数据到图像的生成及预处理方法,包括训练样本正常图像类型提取完整性评估方法、自动提取完整的异常图像的多尺度异常图像生成方法、异常图像的幅度不被夸大或弱化的预处理方法等。

本文只针对一种异常图像进行了识别,实际上,大部分台站的数据变化的影响因素不可能只有一种,不同的影响因素引起的异常图像特征可能存在明显差异,也可能相似;每个台站观测手段每种影响因素引起的异常图像次数并不相同,像实验台站频繁出现(尽管这对于CNN模型来说仍是太少)抽水干扰异常图像的台站较少,大部分影响因素引起的异常图像只出现过几次,训练样本太少,模型识别的准确率会大幅降低。将CNN模型应用于实际的观测站异常图像的快速识别还有大量的研究工作要做。

猜你喜欢

前兆台网台站
中国科学院野外台站档案工作回顾
气象基层台站建设
地球物理台网仪器维修信息管理的研究与实现
推进报台网深度融合 做强区级融媒体中心
哪些现象是地震前兆
西藏地震应急流动台网浅析
MRG9000媒资卫士在市级电视台全台网的应用
基层台站综合观测业务管理之我见
右肝区不适或疼痛是肝癌表现的前兆吗
MDOS平台台站级使用方法及技巧