APP下载

基于空地观测的地震大数据处理系统研究

2018-01-02刘海军余伟豪

软件 2017年12期
关键词:数据处理观测卫星

李 忠,刘海军,余伟豪

(防灾科技学院,河北 三河 065201)

基于空地观测的地震大数据处理系统研究

李 忠,刘海军,余伟豪

(防灾科技学院,河北 三河 065201)

地震观测数据包括地面和空间两部分,地面地震台站能够监测形变、重力、地磁、电磁、地电、流体等多种学科参数,空间卫星能够采集电离层离子密度、温度、电磁场等多种数据,数据格式多种多样,数据采样频率长短不一,属于典型的大数据。本文分析了地震监测产生的数据特点,符合大数据的“5V”特征;给出了大数据处理的技术框架,从大数据存储、预处理、大数据分析、知识发现以及知识应用几个方面,分析了大数据处理的六个层次,阐述了不同层次需要的数据处理方法;从存储管理技术、MapReduce技术模型、深度学习技术、信息融合与数据挖掘技术、可视化展示与虚拟现实技术等几个方面探讨了地震大数据处理的关键技术,并给出了两例地震大数据应用场景。大数据技术应用于地震监测分析将对人类战胜地震灾害具有重要意义。

空地观测;地震大数据;“5V”特征;地震监测;处理框架

0 引言

自2012年美国提出大数据战略以来,大数据以及大数据技术就一直受到各界的关注。以2013年为例,中国产生的数据总量超过 0.8ZB(相当于 8亿TB),是 2012年所产生的数据量的 2倍,相当于2009年全球的数据总量,其中约有 80% 的数据与空间位置有关(李清泉和李德仁,2014)。尽管大数据的提出仅有短短四年时间,但发展非常快,由最初的 3V(Volume,Velocity,Variety),到 4V(Volume、Velocity、Variety、Value),再到最近的 5V(Volume、Velocity、Variety、Veracity、Value)(Aydin等,2015)。目前大数据的5V特点已经在业界形成共识。我国政府在2015年也提出发展自己的大数据技术,将其提升到国家战略高度,国内各行业都制定了或者准备制定针对性的大数据发展规划。

地震造成的灾害损失在国际上是广泛认可的,对人类的伤害更是难以言表,因此各国政府对地震的监测高度重视。我国是地震多发国家,地震已经给我国人民带来了巨大的灾难和心灵创伤。我国从邢台地震后,逐步建起了覆盖全国、重点监测重要地区的地震地面观测网络,目前已建造了1500多个地震台站,每天产生的数据达到

T级体量,包括地下水、地磁、应变、应力、地震波等若干学科,具有对一个地区持续不断地、多角度观测特点。地震卫星监测是近年来推出的新式监测手段,能够全天候、全时段地观测地球变化,采集空间电磁场、电离层温度、离子浓度等多类信息,这方面法国政府已走在了前面。中国政府将于2017年发射一颗地震电磁卫星,实现中国境内全覆盖监测,到时卫星每天采集的地震观测数据体量庞大,每天达到几百个 G,涉及多个学科参数,其中包括各种数据结构、数据类型、图形图像、流媒体数据等形式。空间卫星观测与地面台站监测遥相呼应,二者的有机融合能够更加精确地实现对地震事件的监测(吴冲龙和刘刚,2016),所采集的数据将对地震监测分析提供大量的、多参数的基础数据信息,形成体量巨大的大数据集合。通过分析研究这些多维度、连续的数据信息,挖掘其中的未知规律知识,科学家能够更深入地理解地震,了解震源机制,揭示地震产生的机理、地质活动规律,分析地震涉及范围、评估灾损情况等,以便对震前进行预测预警、震后应急救援等工作,最大程度地降低损失。因此地震大数据蕴含着巨大的价值,为地震行业发展提供了难得的机遇。但是,地震大数据也为数据存储、传输、处理、检索、显示等带来很大的困难。

1 地震空地监测的大数据特征分析

大数据(Big Data)应用需要新型处理模式才能使其具有更强的决策力、洞察发现力和流程优化能力,以便适应海量、高增长率和多样化的信息资产(李清泉和李德仁,2014;吴冲龙等,2016)。地震监测大数据主要产生于覆盖全国的地基监测台站和全天候观测的空间卫星以及相关的科研和生产过程中,包括地下水、地电磁、应变、空间电磁场、空间离子浓度与温度等多个学科数据。

1.1 地震监测数据的体量特征

从前述可以看出,地震监测主要包括地面台站和空间卫星两大部分。地面台站地震网已经运行了几十年,台站分布密度还在不断加密中,已经产生的数据量达到P级,而地震卫星也将产生P级的数据,因此地震监测原始数据将是非常巨大的,人类观测已进入大数据时代(何国金等,2015)。例如,空间卫星观测数据可能被切割为5分钟一段的数据文件,可以将250m和1000m分辨率光谱成像数据分别保存,每天将产生极其庞大的数据文件和数据量(刘嘉宁,2014)。不仅如此,各种二级、三级数据、遥感图像、视频流数据、三维可视化图形等作为成果将共享在地震系统网络中,数据体量更是难以估计,使得地震监测数据呈现出大数据体量特征。

1.2 地震监测数据的多样性

毋庸置疑,地震监测数据涉及若干的学科参数,地面监测的水位、温度、地磁场信息、应力、应变、地震波的P波、S波等等,不仅如此还有监测图形曲线资料、图像信息等;而地震卫星观测数据包括电离层温度、离子密度、空间电磁场、各种波形图形、遥感图像等若干数据参数,种类繁多,数据采集多样,采样频率不一。如果再计算上模拟监测台站的图形数据信息,那么地震观测数据在存储格式方面既有文本格式,也存在数据库结构化数据、半结构数据,以及图形、图像、视频、音频等流媒体数据,具有复杂的多样性特征。

1.3 地震监测数据是真实的

从 2012年开始,IBM 提出数据的真实性(Veracity)已经作为大数据的一个特征。由于数据的噪音、缺失、不一致性、歧义等问题会导致数据的不确定性,因此大数据必然要具体真实的(IBM,2012),地震监测数据具有真实性特征。观测数据中的噪声永远伴随着真正的信息而存在,噪声也一直是地震数据处理中的一个难题!尽管目前的科学理论和技术很发达,国内外若干学者提出各种各样的除噪算法,旨在将噪声从污染的信号中剔除,保留清洁的数据信息,但是即使再好的除噪算法也很难完全将噪声消除,因此污染的数据永远是真实存在的。因为断电、突发事件等因素,常常导致观测仪器不工作,从而观测数据出现短期甚至很长一段的数据缺失,为后续的数据分析造成困难。

1.4 地震监测数据处理要求高效率

众所周知,如果不出现停电、突发事故等因素,无论天基的卫星还是地基的地震台站,地震观测仪器一直按照设定的频率持续不断地产出数据。但是人类的数据处理速度远赶不上数据获取的速度,这必然造成大量数据信息的浪费,不能有效地从数据中提取出人们关心的知识(石强,2016)。空间卫星观测是一个全天候、多尺度、范围广的持续观测过程,在突发灾害事件来临时,必然要求数据处理的高效率,以最快的速度从海量的信息中获取需要的资料,便于决策和安排救援任务。实时的数据处理、高效的信息解读将是大数据面临的最重大的科研问题。

1.5 地震监测数据具有高价值性

我国地震观测历经四十余年历史,积累了宝贵的数据资料,这些资料是我国地震科学研究、防震减灾、应急救援等工作的重要基石。随着我国第一颗地震观测卫星的即将升空,地震观测数据将极大地扩充我国地震观测数据资料库,将为地震研究、应急救援等提供更丰富的数据资料,其中蕴含着巨大的科研价值和社会经济效益。随着计算机技术的发展和人工智能技术的进步,数据分析科学将发挥重要作用,地震监测数据的价值也将越来越大。

地震监测数据包括地震前兆数据和测震数据。尽管我国的地震卫星还没有发射,但未雨绸缪,现在就需要做好规划和预设,因此地震监测数据也包括空间卫星观测数据。目前我国地面地震台站能够监测形变、重力、地磁、电磁、地电、流体等多种参数,数据格式多种多样,数据采样频率长短不一。如果再包括将来空间卫星的电离层离子密度、温度、电磁场等多种数据,将形成体量巨大的海量数据集合,完全符合大数据的“5V”特征。

2 地震监测大数据处理框架

地震监测大数据处理是一个复杂的过程,按照“数据采集—存储—预处理—入库—数据分析—知识发现—知识应用”的步骤,一个地震大数据处理的框架如图1所示。

2.1 大数据存储与传输

从图1可以看出,各类监测设备获得海量的多元数据,由于数据体量巨大,在存储阶段就遇到挑战。地震观测数据来源于分布全国的几千个地基台站以及空间卫星。地震台站的数据逐级汇聚,直到国家台网中心,存储在多个位置;地震卫星数据保存在地面接收站,可以看做一个独立的大数据系统。考虑到地震数据的安全性和保密性,地震监测大数据存储可以采用“分布-集中”模式,采用通信专网进行数据传输。2.1.1 分布存储

依托地震数字专网建立云存储系统,各站点均是一个“云结点”,逐级汇聚生成结点、汇聚节点等,直到国家台网中心,形成一个覆盖全国的“树型”云存储结构。同时建立多个二级中心结点,建设多个备份库,分担国家中心节点的任务和负荷,形成一个“网状”的存储结构。

2.1.2 集中存储

大数据问题主要是数据处理问题。因此地震观测数据需要体现价值,必须进行数据分析和处理。尽管分布式处理技术、云计算等能够满足一些需求,但目前数据处理方法对集中式存储数据更适用。因此在国家中心、二级中心、卫星接收站进行数据的集中存储,更利于数据处理和分析。

2.2 数据预处理

高质量的数据是进行知识发现的重要保证。但是传感器采集的数据总是存在这样那样的问题,如噪声、缺失、重复、不一致等问题,这就需要进行数据的预处理操作。预处理的方法主要包括数据清理、数据集成、数据归约、数据变换等。

2.3 大数据分析技术

大数据分析技术是大数据系统的基本任务,需要对获得的数据信息进行基本的数据操作,如统计、查询、报表、OLAP分析、图形可视化分析、数据特征分析等,以便为进一步的知识发现提供基本的数据特征信息。

2.4 知识发现

从大数据库中挖掘有用的知识一直是人类梦寐以求的,这也是大数据处理中最感兴趣的、最重要的一环。在知识发现阶段,各种现代信息处理手段都会使用到,如数据挖掘、机器学习、可信计算、并行计算、云计算等,试图利用强大的计算机计算能力获取隐藏在大数据背后的知识。

图1 地震大数据系统框架Fig.1 Processing system framework of seismic big data

2.5 知识应用

大数据分析最终目的是为人类服务的,地震观测大数据处理系统将为地震预测分析、地震预警处理、应急救援、虚拟现实、场景模拟、GIS合成、知识展现等提供服务,帮助人们在地震灾害来临前、中、后全过程进行科学决策和合理安排任务,最大限度地降低损失。

我国地震卫星还没有发射,但是未雨绸缪。借鉴我国的气象卫星、国土资源卫星、海洋卫星(洪阳等,2016)、农业卫星等大数据系统建设情况,可以进行借鉴,我国地震卫星观测大数据结构如图 2所示。

在图2中,地震大数据系统被划分为三个层次:数据层、技术层和应用层,下层为上层提供数据与信息,在顶层是大数据的应用部分,是基于大数据提供的服务。

图2 地震卫星大数据系统结构Fig.2 Big data system structure of the earthquake satellite

3 地震监测大数据处理关键技术

作为一个全新的研究对象,地震大数据研究刚刚起步,还有很多问题需要探讨,尤其是在大数据建模方法、面向地震大数据的机器学习算法、数据挖掘技术、信息融合技术、地震大数据可视化算法、存储与安全技术等,都需要进一步的加以研究,以提高数据处理效率。

3.1 存储管理技术

地震大数据面临的首要问题就是存储,传统的存储方式已经无法满足要求。云存储是将众多低廉的存储设备整合成存储资源放到云端为用户提供存取服务,通过虚拟化技术节省了存储空间,提高了存储效率,实现了弹性式扩展。海量数据的增速和数据组织的不确定性需要易扩展、易管理、高灵活、低成本的云存储系统的支持。

NoSQL数据库是在云环境下提出的用于管理大规模数据集合的分布式、非关系型数据库系统(Cattell R,2011;申德荣等,2013),支持结构化和半结构化数据的高并发读写(Mikayel等,2012),对海量数据的存储管理和分布式并行计算具有较大优势。NoSQL的一个关键特征是能在多个服务器上实现“无共享”水平缩放,复制及数据分区(Cattell R,2011),在 Web2.0环境下对海量数据进行有效的存储管理。

3.2 MapReduce技术模型

MapReduce是谷歌公司提出的并发式处理海量数据的编程模型,由Map和Reduce两个阶段组成,过程如图3所示(Gao等,2017)。当用户提交任务后,MapReduce将输入数据切分成若干spilt片,并将每一个spilt交给一个Map任务槽进行处理,spilt被解析成一系列键值对(key-value);然后每个Map任务槽调用用户自己编写的Map函数,产生一系列中间结果,在被用户定义的Partition函数划分后,传递给 Reduce任务槽,并利用用户编写的 Reduce函数输出到文件中;当所有的Map和Reduce任务都执行完毕后,返回用户程序(王习特等,2015)。MapReduce隐藏了分布式实现的底层细节,拥有简单实用的特点,省去了程序员在分布式编程上的劳动代价(Dean 等,2004)。

图3 MapReduce处理过程Fig.3 MapReduce processing

3.3 深度学习技术

深度学习来源于人工神经网络,是通过一定的训练方法对样本数据训练,得到一个多层的深度网络结构的机器学习模型(BENGIO等,2009),其原理是模仿人类大脑处理信息的分层结构,以期得到事物本质的特征。深度学习的多层结构更容易实现复杂函数的逼近,提高泛化能力(BENGIO等,2011)。地震大数据系统信息学科多样,种类繁杂,数据量庞大,传统技术几乎不可能发现数据中内在的本质特征,难以发现其中隐含的规律知识,因此将深度学习技术应用于地震大数据系统是一种必然的选择。历经十余年的发展,深度学习方法已经有几十种之多,如卷积深度学习网络、深度置信网络(DBN)(Hinton等,2014)、深度玻尔兹曼机等,将这些方法应用于地震大数据处理将是下一步需要深入研究的课题。

3.4 信息融合与数据挖掘技术

对于一个地区地震的观测,有来自地基的台站观测数据,也有天基的卫星观测信息,因此需要综合考虑这些传感器获取的宝贵数据资源,这需要采用信息融合技术。数据融合是对某个事件,协同组合两个或更多影像数据,期望获取比单一影像资料更多的知识(Alparone等,2015)。在卫星遥感图像融合方面,多传感器在同一时刻的遥感图像融合和不同成像条件下具有互补信息的遥感图像融合都属于合理的信息融合(张良培等,2016)。融合后的影像比单一信息源图像更清晰、分辨率更高、视觉效果更佳。

如果说,信息融合技术从广度对地震大数据提高精度,那么数据挖掘技术更像是从深度对地震大数据进行规律探索。天基和地基的地震观测大数据,在语义表达、信息组织、知识发现等方面存在不同层次的数据挖掘方法,这种时空大数据也给数据挖掘技术提供了充分发挥作用的舞台(李德仁等,2015)。因此大数据挖掘技术对于地震数据处理是非常关键的。

3.5 可视化展示与虚拟现实技术

数据可视化以直观的视觉效果和符合人类思维的方式为人们提供信息服务,这在大数据时代尤为重要。大数据体量巨大、种类多样、不确定信息占比很多,这造成大数据系统处理效率和计算结果都不理想,人类也很难想象其中问题所在。而地震大数据可视化和虚拟现实展示技术,可以将庞大的天基和地基数据集以一种直观的形态呈现出来,人们可以观察其中的奥妙和问题所在,实现地震要素、地震发生过程、地震监测预报、地震产生机理等的多维、动态的可视化表示,为地震前兆预警、震后应急救援提供直观的信息服务。

4 应用场景展现

在大数据时代,建立在相关关系分析法基础上的预测是大数据的核心,同时人们需要从传统的决策模式过渡到数据指导决策的新模式中,在大数据持续发展的过程中,会渐渐地进化为数据即决策的行为模式(李建中等,2012)。天基-地基一体化的地震监测大数据具有监测时间长、数据多样、实时性强等特点,在地震灾害来临时需要及时、快速地处理,以获取灾区的全面信息。

4.1 基于地震前兆异常的地理位置精确定位

不同的观测站和卫星获取的信息格式不一,学科多样,无结构化数据居多,因此需要以私有云的NoSQL技术进行处理;结果通过数字专网传送到上级汇聚节点,经过数据清洗等预处理后,进入中心节点;结合卫星地面站处理的天基数据结果,进行模式识别和可视化分析,确定地震前兆信息状态;最后基于 GIS系统进行引发地震前兆的精确定位。

4.2 利用地震卫星大数据进行科学研究

在大数据环境下,地震工作者需要利用MapReduce技术改进有关处理算法以便进行分布式并行处理和云计算,将地基和天基的信息结合起来进行模式识别、数据挖掘、虚拟场景等研究,以便于发现地震规律性知识和地震引起的灾害评估问题,提供决策支持的技术服务。

5 结束语

大数据时代,各行各业都面临着数字的挑战和机遇,地震领域也无例外:大数据既给存储、传输、管理、分析处理、应用等带来麻烦,也给地震预测预报、震后救援、精确决策等提供了可靠的信息资料。地震监测大数据系统的结构还需要不断完善,需要在实用中进行改进和优化。利用大数据技术将地基监测数据和天基观测数据进行有机融合和处理,对人类战胜地震灾害具有重要意义。

[1] Alparone L, Aiazzi B, Baronti S. 2015. Remote Sensing Image Fusion. Boca Raton, Florida, USA: CRC Press.

[2] BENGIO. Y. 2009. Learning deep architectures for AI.Foundations and Trends in Machine Learning, 2(1): 1-127.

[3] BENGIO Y, DELALLEAU O. 2011. On the expressive power of deep architectures// Proc of the 14th International Conference on Discovery Science. Berlin: Springer-Verlag,18-36.

[4] Cattell R. 2011. Scalable SQL and NoSQL data stores. Acm Sigmod Record, 39(4): 12-27.

[5] Dean J, Ghemawat S. 2004. MapReduce: simplified data processing on large clusters// Conference on Symposium on Opearting Systems Design & Implementation. USENIX Association, 10-10.

[6] G. Aydin, I. R. Hallac, B. Karakus. 2015. Architecture and Implementation of a Scalable Sensor Data Storage and Analysis System Using Cloud Computing and Big Data Technologies. Journal of Sensors, vol. 2015.

[7] Gao Y, Zhou Y, Zhou B. 2017. Handling Data Skew in MapReduce Cluster by Using Partition Tuning. Journal of Healthcare Engineering, 8(2): 13-18.

[8] Han B, Zhao G, Bi Y, et al. 2014. A New Method of Identifying Ground-Based Electromagnetic Anomalies-Case Study of the Sichan Lushan 7. 0 Earthquake// Dragon 3Mid Observation Satellite in Large Data Age. Journal of satellite applications, 12: 28-33.

[17] Mikayel Vardanyan. 2012. Pickinh the right No SQL Database Tool Posted. http://blog.monitis.com/index.php/2011/05/22/picking-the-right-nosql-database-tool.

[18] SHEN De-Rong, YU Ge, WANG Xi-Te. 2013. Survey on NoSQL for Manangemengt of Big Data. Journal of Software,8: 1786-1803.

[19] SHI Qiang. 2016. Remote Sensing Big Data: Research Status and Development Trends. Electronic and Electro-optical Systems, 1: 1-12.

[20] WANG Xi-Te, SHEN De-Rong, YU Ge. 2015. Research on Maximum Benefit Problem in a MapReduce Cluster.CHINESE JOURNAL OF COMPUTERS, (01): 109-121.

[21] WU ChongLong, LIU Gang, ZHANG Xialin. 2016.Discussion on geological science big data and its applications.China Sci Bull, 61: 1797-1807.

[22] ZHANG L P, SHEN H F, 2016. Progress and future of remote sensing data fusion. Journal of Remote Sensing, 20(5):1050-1061.Term Results. Dragon 3Mid Term Results.

Study on Big Data Processing System of the Seismic Monitoring Based on Space and Ground

LI Zhong, LIU Hai-jun, YU Wei-hao
(Institute of Disaster Prevention. Sanhe, Hebei province 065201, China,)

Seismic observation data include two parts of the ground and space. The ground seismic stations can monitor various parameters such as deformation, gravity, geomagnetism, magnetism, geo-electricity, fluid and so on,and the spatial satellites can collect the ion density, temperature, electromagnetic field of space ionospheric and so on. Therefore, seismic observation data belongs to big data because of the format diversity and different lengths of sampling frequency. The seismic monitoring data conforms to the "5V" feature of big data based on Based on the analysis of data characteristics. The processing technical framework of big data is given. This paper analyzes the six levels of big data processing, and expounds the data processing methods needed at different levels from several aspects of data storage, preprocessing, large data analysis, knowledge discovery and knowledge application. The key technologies of seismic big data processing are discussed from several aspects of storage management technology,MapReduce technology model, depth learning technology, information fusion and data mining technology, and visual display and virtual reality technology. Two applying scenarios of seismic big data are given. The application of big data technology in seismic monitoring and analysis will be the great significance for human beings overcome the earthquake disaster.

Observation of space and ground; Seismic big data; "5V" feature; seismic monitoring; Processing framework

中央高校基本科研业务费专项资金(No. ZY20160106);河北省科技支撑计划项目(No.13210122)

李忠(1966-),男,教授,博士,2008年毕业于中国矿业大学地球信息科学专业,现从事地质灾害评价、信息处理技术、大数据技术等研究,已发表论文80余篇;刘海军(1979-),女,现为防灾科技学院讲师,主要研究领域为数字图像处理;余伟豪(1992-),男,防灾科技学院硕士研究生在读,研究方向:数据挖掘技术。

TP701

A

10.3969/j.issn.1003-6970.2017.12.010

本文著录格式:李忠,刘海军,余伟豪. 基于空地观测的地震大数据处理系统研究[J]. 软件,2017,38(12):54-60

[9] HE GuoJin, WANG LiZhe, MA Yan. 2015. Processing of earth observation big data: Challenges and countermeasures.SCIENCE CHINA PRESS, 60(5): 470-478.

[10] Hinton G E, Osindero S, Teh Y W. 2014. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation, 18(7):1527-1554.

[11] HONG Yang, HOU Xue-Yan. 2016. Construction and Application of Big Data Platform for Ocean. Journal of satellite applications, 6: 26-30.

[12] IBM. 2012. What is big data?[EB/OL]. http://www-01.ibm.com/software/data/bigdata/.

[13] LI De-Ren, MA Jun, SHAO Zhen-Feng. 2015. Study on Space-Time Big Data and Its Application. Journal of satellite applications, 9: 87-91.

[14] Li Jianzhong and Liu Xianmin, 2012. An Important Aspect of Big Data: Data Usability. Journal of Computer Research and Development, 50(6): 1147-1162.

[15] LI Qingquan, Li Deren. 2014. Big data GIS. Geomatics and Information Science of Wuhan University, 39(6): 641-644, 666.[16] LIU Jia-Ning. 2014. Development Status and Trend of Earth

猜你喜欢

数据处理观测卫星
观测到恒星死亡瞬间
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
miniSAR遥感卫星
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
天测与测地VLBI 测地站周围地形观测遮掩的讨论
Puma" suede shoes with a focus on the Product variables
可观测宇宙
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
高分辨率对地观测系统
What Would Happen If All Satellites Stopped Working? 假如卫星罢工一天