基于SOM网的DEMETER卫星电场数据聚类异常分析
2016-03-31宋奕瑶李忠安建琴张丽娟史鹏飞
宋奕瑶 李忠 安建琴 张丽娟 史鹏飞
摘 要:为提取汶川大地震前的电离层异常信息,特选取汶川大地震前10天的DEMETER卫星电场数据作为研究对象,以均值、均方差、偏度和峰度等四类随机信号数字特征作为输入层,经过若干次样本训练建立SOM网聚类模型。结果表明,汶川地震前卫星采集的震区信号存在若干异常数据,可能与震前电磁波辐射引起电离层扰动有关。
关键词关键词:SOM网络;聚类;DEMETER卫星;异常分析;超低频电场数据
DOIDOI:10.11907/rjdk.161986
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2016)008-0140-03
0 引言
近年来,伴随着国际地震电磁卫星研究的迅速发展,利用卫星观测数据提取地震电离层前兆信息成为地震预测研究中倍受关注的新手段[1]。法国于2004年发射的DEMETER卫星是一颗专门用于地震监测的电磁卫星,其科学目标是观测地震或者火山活动引起的空间电离层扰动现象以及电场、磁场等变化情况,吸引了大批科学家参与其中的研究工作。Pulinets、Chuo等[2-3]的研究表明,由地震活动引起的电离层变化不仅确实存在,而且在5级以上地震发生前的几个小时到几天会发生电离层扰动。闫相相等[4]利用GPS和DEMETER数据分析汶川地震前电离层变化,对基于岩石圈—大气层—电离层耦合的地震电离层异常机理进行了研究分析。
颜蕊等[5]利用DEMETER卫星数据分析了强震前后的电离层异常,认为异常可能与地震发生的关系较大。温岩等[6]将SOM网络模型应用在地震预报研究中,得到了较好的聚类结果。项月文等[7]将人工神经网络应用在未来地震震级预测中,并将SOM与RBF两种模型相结合,有效提高了预测精度。竞争SOM网络不需要学习样本,能够通过自动寻找数据中的内在规律和本质属性,自组织、自适应地改变网络参数与结构,适合对海量地震电磁监测卫星数据进行聚类,分析预测区电磁数据与地震发生的相关性,为进一步的地震监测预报提供科学依据。
本文利用DEMETER电场数据研究汶川大地震前10天的数据变化特征,采用SOM网对电磁卫星数据进行聚类分析。
1 SOM神经网络
1.1 工作原理
SOM神经网络模拟大脑神经系统的自组织特征映射的功能,是一种由全互连的神经元阵列组成的自组织、无监督的竞争式学习网络,通过对输入样本的自组织学习,可以在无教师示范情况下对输入样本实现自动聚类[8]。此网络在数据聚类、模式分类、故障诊断方面应用广泛。
SOM神经网络的网络结构分为输入层和输出层,输出层即竞争层,两层之间实现全连接。输入层通过权向量将外界信息汇集到输出层的各神经元。输出层的神经元排列组合有多种多样,常用的是一维线阵和二维平面阵。输出层是一维线阵是最简单的,其结构如图1(a)所示,输出层的每个神经元之间都有侧向连接。而输出层是二维平面阵结构,更加类似大脑皮层,输出层每个神经元和它附近的每个神经元均侧向连接,构成棋盘状平面,其结构如图1(b)所示。
SOM神经网络在训练时,随机选取训练集中的样本作为输入向量,通过计算,寻找与之距离最短的输出层节点,对其更新,此过程即寻找获胜神经元的过程。与此同时,获胜神经元临近的神经元权值也按照某个临近的函数进行更新。经过学习训练,得到一个以最终获胜的权值向量为中心,周围分布着与之相关数据的网络,如此反复迭代以后,本身有联系的数据就会聚集到一起,形成一类,这就是SOM的聚类过程。
1.2 训练过程
SOM网训练过程如下:
(1)初始化网络。初始化输出层权向量以及学习率,归一化输入向量和输出层权向量,设置初始优胜邻域。
(2)检索获胜神经元。将当前输入向量与输出层权向量按照欧氏距离进行相似性比较,距离最小者为获胜神经元。
(3)权值调整。调整获胜神经元邻域区内的所有权值,使其向输入向量靠拢。
(4)结束。继续提供新的输入向量进行训练,收缩邻域半径、减小学习率、重复以上过程,直到小于学习率的允许值,输出聚类结果。
2 数据来源及特征提取
本文选择2008年5月2日至2008年5月12日的DEMETER地震电磁卫星轨道数据进行分析。在此期间,电磁卫星记录到13条半轨数据,其中7条升轨和6条降轨,总数据量为69.3MB,每256个数据为一组,共计4086组,录入数据库保存。相关数据可以从 DEMETER 卫星中心网站上下载。
DEMETER卫星采集的超低频电场数据是以时间为参变量的随机序列。随机信号序列的数字特征包括均值(mean value)、均方差(mean square error)、偏度(skewness)和峰度(kurtosis)等4個数字特征[1]。均方差反映数据内部个体间的离散程度,偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征,而峰度表征概率密度分布曲线在平均值处峰值高低的特征数。
对于每组数据计算4个随机信号特征值,作为SOM网输入层进行训练。采集数据的随机信号特征如图2所示,可以看出特征值变化较大。
3 SOM网在空间电场数据聚类中的应用
3.1 输出层设计
3.1.1 一维SOM和二维SOM的比较
输出层网络结构的设计关系着整个网络的优劣。直觉上,二维SOM比一维SOM能保持更多的数据集结构信息。但是,已有对一维SOM神经网络的聚类及数据分析方法研究表明,一维SOM在聚类方面不仅不逊色于二维SOM,而且在类边界识别、样本之间的相似关系表达和类间相邻关系表达方面更容易和明确[9]。
将随机信号的4个数字特征作为输入层,以欧氏距离来描述两个输入模式间的相似性,寻找获胜神经元,学习率取0.05,训练次数为5000次,设置输出层网络结构分别为2*2和4*1进行训练,得到的聚类结果如图3、图4所示。
可以看出,同样是聚成4类,一维SOM比二维SOM的结果更为明确。
3.1.2 一维SOM网结构分析
对于一维SOM网,按照不同的网络结构进行训练(见表1)。可以看出,当节点数过少时,不足以区分所有模式类,可能会导致异常信息的缺失,如2*1和3*1的网络结构,当节点数大于4时,由于这些节点远离其他获胜节点,故其权向量从未得到调整。因此本文选取4*1的输出层网络结构。
3.2 结果分析
以表1中4*1网络结构计算结果绘制聚类图形,从图3可以看出,绝大多数数据属于第1类,这部分数据可认为是正常值。将其它3类数据绘制在一张图上,如图5所示。
可以看出,第4类数据远离汶川震中位置,在南纬50度以上,数量较少,可认为是噪声;而第2类和第3类数据位于汶川地震震中以南区域,向赤道方向偏移,呈放射状分布。对比半轨文件发现,放射线与卫星轨道重合,这反映出在汶川地震前存在信号异常。这与文献[10]、[11]的研究结果一致[11]。
4 结语
本文分析了汶川地震前10天DEMETER卫星空间电场的ULF频段数据,以均值、均方差、偏度、峰度等4个随机信号数字特征作为输入层参数,建立了SOM网聚类模型,计算结果表明,汶川大震前空间电场数据存在异常。结论如下:①空间电场聚类分析结果显示,数据异常主要集中在汶川震中南部区域,可能与地震破裂从南往北走向有关;②SOM网聚类模型可以较好地实现空间电场数据的聚类分析,并从中获取异常信息,对地震前兆异常分析研究具有重要意义。
本文研究了天基卫星采集的电场数据,来源较单一,后续将加入地基观测数据,通过空间数据挖掘的方法对天基和地基数据进行综合分析,以期达到更好的识别效果。
参考文献:
[1]安张辉,谭大诚,陈军营,等.DEMETER卫星磁场波形数据分析方法初探[J].华南地震,2011(3):55-64.
[2]PULINETS S A,LEGEN′KA A D,KARPACHEV A T,et al.The earthquake prediction possibility on the base of topside sounding data[J].Izmiranpreprint,2001(981):25.
[3]CHUO Y J, CHEN Y I, LIU J Y, et a1.Ionospheric fof2 variations prior to strong earthquakes in Taiwan area[J].Advances in Space Research, 2001(27):l305-1310.
[4]闫相相.基于GPS和DEMETER卫星数据的地震电离层电子浓度异常变化研究[D].北京:中国地震局地质研究所,2013.
[5]颜蕊,王兰炜,胡哲,等.利用DEMETER卫星数据分析强震前后的电离层异常[J].地震学报,2013(4):498-511.
[6]温岩,张晨侠.自组织竞争网络模型在地震预报研究中的应用[J].东北地震研究,2003(4):18-23.
[7]項月文.基于SOM自组织神经网络的地震预报技术研究[D].南昌:南昌大学,2012.
[8]韩立群.人工神经网络理论、设计及应用[M].北京:化学工业出版社,2007:71-85.
[9]于鷃.基于一维SOM神经网络的聚类及数据分析方法研究[D].天津:天津大学,2009.
[10]刘静,万卫星.中国6.0级以上地震临震电离层扰动时空分布特征研究[J].地球物理学报,2014(7):2181-2189.
[11]闫相相,单新建,曹晋滨,等.利用DEMETER卫星数据统计分析全球M_w≥7.0地震的电离层电子浓度异常[J].地球物理学报,2014(2):364-376.
(责任编辑:陈福时)