探讨地震前兆观测中的大数据挖掘与应用1
2015-01-28王秀英张玲张聪聪
王秀英张 玲张聪聪
1)中国地震局地壳应力研究所,北京 100085
2)山东省地震局,济南 250012
探讨地震前兆观测中的大数据挖掘与应用1
王秀英1)张 玲2)张聪聪1)
1)中国地震局地壳应力研究所,北京 100085
2)山东省地震局,济南 250012
大数据挖掘研究与应用是当今的热点问题。本文简要概括了大数据研究的基本思想,分析了地震监测中前兆观测数据大数据研究的必要性,并设计了几种前兆观测大数据研究在地震行业内部的可能应用方向和具体应用问题,以期能够推动前兆观测数据利用大数据研究思想的创新应用和研究工作。
大数据 前兆观测数据 隐含信息 数据挖掘 行业应用
王秀英,张玲,张聪聪,2015.探讨地震前兆观测中的大数据挖掘与应用.震灾防御技术,10(1):39—45. doi:10.11899/zzfy20150104
引言
随着计算机、数据库以及后来的物联网、云计算等技术的发展和普及,各行业的数据量都呈爆炸式增长,然而数据量的激增并未使信息量也呈现同样态势的增长,出现了所谓“数据过剩,信息贫乏”的局面。正是基于这种原因,从大量数据中发掘其中隐含的信息并从中获取收益,已成为当前信息技术研究的焦点问题。大数据不仅仅提供信息,也可能成为一种资源,从而改变人们的思维和生产方式,麦肯锡全球研究所的研究报告指出:“大数据是下一个创新、竞争、生产力提高的前沿”(McKinsey Global Institute,2011)。有鉴于此,最近几年很多行业都开始关注大数据和数据挖掘的研究和应用,并且在某些行业已取得了比较明显的应用效果和生产效益。
国外有关大数据的挖掘应用研究开展得较早,各行业甚至政府部门都已开展了这方面的研究工作(涂子沛,2013)。而国内相关研究起步相对较晚,还比较零散和缺少系统性。但随着人们对大数据认识的提高,最近两年国内的研究发展很快,然而目前的研究更多的集中在大数据挖掘方法和算法方面,与具体行业尤其是科研行业相结合的应用研究成果还不多见。
随着大数据概念的普及和更多应用成果的取得,大数据挖掘技术在地震行业的应用正被更多行业专家和研究人员所关注。地震行业的大数据应用可以首先从地震监测数据的研究开始。就地震监测中的前兆观测而言,经过多年的建设发展,特别是“九五”数字化改造项目和“十五”数字地震观测网络项目以来,已形成一个覆盖全国范围的多学科、多测项的智能化前兆网络观测系统,在观测技术方面已经有了一个质的飞跃。数字化后的地震前兆观测数据产出,无论从采样率和采样精度上都有大幅提高,使观测数据量激增。目前,前兆观测系统在数据生产环节的数据采集、汇集、数据同步已实现自动完成,大大减少了台网工作人员的工作强度。但在产出数据加工处理和应用方法方面还没有特别的进展,尤其在数据加工处理环节,大都靠人机交互方式完成,由于测项多、采样率高,前兆台网中心每日有大量观测数据需要处理,半人工方式的数据处理使台网工作人员每日工作量巨大,效率不高,而且很难保证处理结果的客观性。在数据应用环节,虽然前兆观测产出数据量较模拟人工观测有几个数量级的差异,但相应的数据处理方法并没有随着观测资料的改善而有大的改观,大都还在沿袭模拟和人工观测时的方法,更多时候是由高频采样率数据提取低频采样率数据进行应用,导致数据的应用效果和效率并没有得到更大的提高。
大数据研究应用的发展趋势及地震行业的应用需求,使我们认识到在地震监测领域开展地震行业的大数据应用研究的必要性和迫切性。本文将就大数据研究的基本思想、前兆观测大数据分析的可行性以及可能的研究工作进行讨论,以期对前兆观测数据的大数据应用研究工作有所推进。
1 大数据研究简介
所谓大数据,从字面理解是指数据量特别巨大的数据,往往需要特殊的存储和处理方法,目前对于大数据尚未有一个公认的定义。这里需要特别指出的是:大数据中的“大”不是绝对意义上的大,是个相对的概念,更多是思考问题、研究问题的思路和观念的转变,强调的是使用全部数据。就地震前兆观测而言,其数据产出同互联网信息业数据产出相比,微不足道;但就行业自身而言,同人工和模拟观测时代的数据产出相比,无论从观测数据种类、观测覆盖范围、观测数据累积时间等方面都达到了前所未有的程度,数据量呈几十倍、上千倍甚至上万倍的增加,数据量不可谓不大。数据的量变伴随而来的就是对数据存储和处理及应用方法的改变,产生了与大数据相关的各种技术及应用思想。
维克托·迈尔·舍恩伯格等(2012)在《大数据时代》中指出:“大数据是指不用随机分析法(小样本抽样)这样的捷径,而采用所有数据的方法”。即让数据自身说话,从大量的数据中发现“相关关系”,不再追求“因果关系”。它与局限在小数据范围相比,使用一切数据带来了更高的精确性,可以让我们看到一些以前无法发现的细节,更清楚地看到样本数据无法揭示的细节信息。但相比于小数据和精确性,大数据更强调数据完整性和混杂性。小数据使我们的视野局限在可以分析和确定方面,导致对世界的整体理解可能产生偏差和错误,而大数据则可以使我们从不同角度更细致地观察和研究数据的方方面面。
大数据研究主要涉及数据存储、管理和分析,但对于更多应用行业和领域,对大数据的发掘、分析和应用研究是其更为关注的内容。在具备大量数据的前提下,如何从这些数据中发掘出有价值的信息是数据挖掘工作的目标。面对大量甚至海量数据,针对小量数据的传统数据分析技术存在种种局限,数据挖掘技术则可以突破这些局限,它是在已有分析方法的基础上,不断引入新的概念和方法,以实现信息发掘的最终目的。现在的数据发掘中有一些经典的主题和算法,如:分类、关联分析、聚类分析、异常检测等,这在相关的各类图书中都有介绍(Tan等,2013)。而目前的数据挖掘研究主要集中于此类算法研究,这些方法和算法是大数据挖掘研究与行业数据和专业概念相结合的研究与应用的基础。目前的算法研究已取得一定进展,更多的行业应用及与行业结合的具体研究方向和问题亟待拓展。将大数据的思想引入具体行业应用时,需结合行业特点、数据特点、具体应用需求,设计需要解决的问题,利用已有算法成果(必要时可能结合行业特点研究新的算法)对行业数据展开大数据的挖掘工作,并对研究结果从专业角度进行分析与解释,从而实现与传统方法完全不同的数据应用方法,当然也可能产生意想不到的效果。
2 前兆观测大数据应用的必要性分析
地震前兆观测是对与地震孕育发生相关的各种物理量/化学量展开的连续监测,是进行地震预测和其它地球科学相关研究的基础。无论进行地震预报还是地球物理科学研究,都需要长时间观测数据的积累作为研究基础。进行大数据研究,更需要大量数据作支撑。就地震前兆观测而言,大数据体现在两个层面:一是观测的横向广度方面;二是观测的纵向深度方面。前者可以理解为观测数据覆盖范围的广阔性、观测手段种类的多样性;后者则可以理解为观测数据时间跨度的长期性。因此,应该从这两个方面来分析展开前兆观测大数据应用研究的必要性。
首先从观测的横向广度上看,目前我国在全国范围建立了由近千个地震前兆台站、近3000套观测仪器组成的地震前兆观测网络系统(周克昌等,2013)。这些观测手段按学科可以分为流体、形变、电磁三大学科,每个学科有多种观测测项,而每种观测测项又有一种到多种测项分量,最终的观测数据是以测项分量的形式保存于数据库中,所以最终数据用户看到的数据类型非常之多。除观测数据外,还有与观测数据伴随的各类辅助资料,如:观测环境、场地条件、观测背景情况、观测仪器信息、观测日志记录等,也属于广义的观测数据资料。另外,如果将空间对地观测中产出的GPS、InSAR等不同数据源的观测资料、流动观测、地方企业台网台站产出的数据资料也一并考虑的话,则数据类型更加丰富多样,数据源及数据结构也各不相同。不仅是数据类型多样,前兆观测数据同时也呈现多区域、多台站、多测点、多型号观测仪器产出数据并存的情况,这些分类及其组合使得数据呈现多属性的特点。还有,各种观测手段依据观测和应用目的不同,数据产出有不同的采样率和采样间隔,虽然大多数观测数据为等时间间隔的采样,也有少数不等时间间隔的产出数据,这种特性决定了数据形式、数据结构的多样性。此外,不同时期观测系统的观测数据并存,即同一种观测测项数据,但由不同时期的观测系统产出,在数据精度和采样率、甚至物理量纲上都有差异,这些数据同时存在,这种情况决定了数据在某种程度上的重复性、不一致性,甚至有些时候可能导致数据的杂乱性。当将这些数据一起使用时,传统的方法显然无法胜任,而这种情况正是大数据挖掘技术中经常面对的数据源情况。
其次,从前兆观测时间跨度来看,我国地震前兆观测始于邢台地震后,由最初的模拟观测、人工观测,到“九五”数字化改造后的数字观测,再到“十五”数字地震观测网络项目后的网络化观测,其间历经近50年的时间,积累了相当长时间跨度的观测资料。但数字化之前的观测资料大都为模拟或人工读数,数据保存比较分散,虽然各省都在致力于收集这部分资料并以数据库的方式集中管理,相较于数字化数据的数据库集中保存方式,这部分数据的完整获取比较困难,而且在数据量上相对于数字化数据而言非常少。前兆观测系统自“九五”数字化改造后的数据产出,都是以数据库方式保存管理,获取和使用非常方便。“九五”数字化产出的数据,最早始于1998年,至今已有15年以上的数字化数据积累;“十五”以来的观测数据资料,大都始于2007年前后,至今也有8年时间的资料量。从时间跨度上看,仅就数字化观测以来15年时长的数据资料,对于地震预报和相关科学研究而言,初步具备了长中短期预报和相关研究的基础;与地震资料联合,可以提供较为充分的地震发生前、发生中和发生后各种前兆量征兆的孕育、变化过程。而由时间轴分析前兆观测资料时,存在数据缺失不连续、仪器停测复测、观测地点变更、观测测项更换、数据类型格式繁杂等问题,导致观测数据的混杂性。显然,传统数据分析不仅在长时段、大数据量的数据处理时存在问题,对于观测数据随时间变化导致的数据混杂性也不能胜任,只能利用新方法来解决这种复杂的情况,为此引入大数据研究中的处理方法势在必行。
3 前兆观测大数据挖掘应用
地震前兆观测数据按照从产出到应用的数据流程可以分为以下两个阶段:
(1)数据生产、数据产品加工阶段
这个环节对应于仪器观测数据采集、数据汇集同步到数据库;对数据进行的前期处理工作,如突跳等问题数据去除;数据产品的提取保存,如:提取日均值、5日均值等数据产品;数据的检验测试等工作。这一环节为后续数据应用提供必要的基础和保证。
(2)数据及其产品的应用阶段
数据及产品的应用又可以分为预报应用和其它地球科学研究应用。目前的应用主要为地震预报的日常分析应用,以及学科研究和其它的研究应用。在这个环节需要结合数学方法和更专业的学科方法和模型对数据作深入剖析研究,以期从中得到更多信息和启示。
下面按照这两个应用阶段对大数据研究在其中的可能应用,作简要讨论。
3.1 数据生产加工阶段的应用
(1)数据质量控制
观测数据的质量直接决定了数据是否具有应用价值,能否产出有用信息,因此对观测数据的质量评价、质量控制是前兆台网中心非常重要的一项工作。目前的质量评价办法,更多靠人工方式,存在很大主观性。通过将大数据研究思想的引入,对更多测项、更长时段观测数据的梳理分析与比较,可以探索更客观的数据评价方法和实现模型。另外,通过对大数据量的分析可以确定比较突出的数据问题,明确观测系统的改进方向。这些对于前兆观测数据的质量评价和控制具有重要意义。
(2)观测仪器评价
观测数据产自观测仪器,观测数据中携带了与仪器相关的各类信息,如:观测数据精度、分辨率等技术指标;还有仪器运行中可能会发生改变的各项参数,如:仪器时钟精度,仪器运行稳定性等一系列对观测仪器评价具有重要意义的参数。通过对某类仪器大量产出观测数据的挖掘分析,可以对仪器的技术指标、整体运行效率给予客观公正的评价。
(3)“异常”数据检测
这里的“异常”并非指地震前兆异常,而是指异于常规情况的数据。前兆观测系统受各种各样因素的影响,导致观测数据出现这样或那样的问题,在数据应用前需要对这些问题数据进行前期处理。大数据量的应用时,问题数据的检测靠人工方式几乎没有短时间完成的可能。利用大数据挖掘的方法快速批量定位问题数据,大大减少数据检查的时间,方法成熟时,甚至可以实现数据问题的自动处理(张聪聪等,2014)。
(4)预测预警模型(在线异常报警)
利用在线数据分析技术,对仪器产出数据进行预测,并与实时产出数据比较,超过规定范围后,发出报警信息。通过这种在线异常报警的应用,一方面对于仪器产出数据质量的控制具有至关重要的意义;另一方面,对于一些突发状况可以起到检测突发事件的作用,便于问题的及时发现和问题的快速解决,提高数据连续率,最终目的是提高了观测数据的质量。
(5)伪数据检测
对观测数据造假,人为提高数据质量,以取得好的评比成绩,这种情况在人工读数、模拟观测时代就存在,在数字化观测的今天仍有发生。人为假造数据,即使造假时参考了以往产出数据,总会受人的主观思想的影响,尤其在较大数据量造假时,会存在与仪器自然产出数据不同的模式。利用大数据的分析方法,将所有观测时段的观测数据进行分析,会发现某些数据存在修改的痕迹,进而将真实观测数据与人为修改数据区别开。
3.2 数据的应用
(1)观测数据自身规律研究
地震前兆观测由模拟、人工观测向数字化观测改进后,不仅是技术上的一个飞跃,更为重要的是数据质量的飞跃,观测数据精度和采样率都有大幅提高,这对于观测数据的拓展应用至关重要。高精度观测数据有助于分辨观测对象更为细微的变化,而高采样率观测数据则携带了更多高频信息。高精度、高频的观测数据虽然携带了观测对象更多细节信息,同时也携带了更多干扰信息,使得观测数据的变化更加不确定,简单分析方法已经不能满足实际数据需求。借助于大数据的研究方法,通过定义不同模式,或者定义不同的特征量,或者采用不同的数据降维方法,去发现不同维度下观测数据所携带的隐含规律和信息,是前兆观测数据进行预报和科学研究应用的基础。这种数据研究目前可以主要集中于:单测项观测数据长时间观测时自身规律的探究、不同测项间相关性(关联规则)研究、辅助观测与学科专业观测之间相关性研究、同一测项不同观测点数据之间相关性分析、不同测项同一观测点观测数据之间相关性研究等。
(2)观测数据预报应用
前兆数据用于地震预报,大都以出现某类异常作为可能发生地震的依据,这里的异常大都靠人为判断,更多借助于经验和感觉,存在很多主观成分。这种异常和地震对应关系的关联程度如何,至今无人做过深入的计算和分析。长时段数字化前兆观测数据和地震信息的积累,使得数据异常和地震的关联性分析成为可能。对前兆数据进行多种模式提取,计算其与地震的相关关系,利用相关性更高的模式进行预报,无疑会提高预报的准确性,更为重要的是模式提取按照统一的方法,消除了人为判定的主观性。除单测项关联规则外,还可以任意组合前兆观测测项进行地震的相关性分析。这项工作以人工方式展开几乎是不可能实现的,只能依靠大数据计算的方式实现。与此对应的另一种应用,也是目前前兆数据应用中常用的方法,地震发生后再去确定或寻找之前的前兆数据异常。利用地震发生的时间,去检测之前的前兆数据各种可能的模式,出现频率最高的模式对于将来的地震预报更有意义。这也需要大数据量的计算和比较才能找到有意义的结果。
在利用前兆观测进行地震预报研究的多年实践工作中,研究人员总结了大量方法和经验(张国民,2002),这些方法和经验或多或少都带有一些主观因素,在数据资料更多、更充分的情况下是否还适用,有待去进一步检验。利用大数据方法去检验这些方法和经验,对于地震预报工作方法的甄别和选择具有非常重要的意义,由数据自身得到的检验结果比统计分析的可靠性更令人信服。
此外,还有观测数据与余震序列关联关系的研究等,大量的余震序列与大量的观测时序数据,只有通过对大量数据的挖掘研究,才能发现其中有意义的规律和规则。
4 结语
地震前兆观测测项众多,种类繁杂,跨越时间较长,产自不同技术系统,加之其它各种原因,导致目前实际的数据集比较“杂乱”。将这些数据进行联合应用时,无论进行长时段数据分析,还是多测项之间的数据应用,传统的数据分析方法已不能胜任。大数据的分析思路为前兆数据的应用提供了一个新的模式,利用这种新思路,结合地震前兆观测的物理意义,从中发掘更多以前研究中尚未被认识的规律或信息,对于以前兆观测预报地震或以前兆观测研究其他地震物理科学问题都具有重要的意义。利用大数据的研究思想,可能会改变前兆数据传统的研究和应用模式,无论是对于前兆数据的推广应用,还是利用它进行科学研究,都是一次非常有益的尝试。
维克托·迈尔·舍恩伯格,肯尼思·库克耶著,盛杨燕,周涛译,2012.大数据时代:生活、工作与思维的大变革.浙江:浙江人民出版社.
涂子沛,2013.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活.南宁:广西师范大学出版社.
张聪聪,王秀英,2014.前兆观测异常数据检测方法研究.震灾防御技术,9(增刊):149—158.
张国民,2002.我国地震监测预报研究的主要科学进展.地震,22(1):2—8.
周克昌,赵刚,王晨,王方建,刘高川,2013.中国地震前兆台网观测技术系统整合.中国地震,29(2):270—275.
McKinsey Global Institute,2011.Big data:The next frontier for innovation,competition,and productivity.http://www.mckinsey.com/insights/business_technology/big_data_the_next_ frontier_ for_innovation.
Tan Pang-Ning,Michael Steinbach,Vipin Kumar著,范明,范宏建等译,2013.数据挖掘导论.北京:人民邮电出版社.
Discussion on the Big Data Mining Application on Earthquake Precursor Observation
Wang Xiuying1), Zhang Ling2)and Zhang Congcong1)
1)Institute of Crustal Dynamics, China Earthquake Administration, Beijing 100085, China
2)Earthquake Administration of Shandong Province, Jinan 250012, China
Application of big data mining is the hot topic nowadays. In this paper we briefly introduced the basic idea of big data research, analyzed the necessities of big data application in earthquake precursor observation, and listed some application issues which can be solved by this technology when it is used in seismic related domain. By doing this, we hope it can be promoted to the innovative applications on earthquake precursor observation data.
Big data;Earthquake precursor observation data;Implicit information;Data mining;Seismic related application
地震监测专项“前兆观测数据信息挖掘”
2014-07-26
王秀英,女,生于1972年。博士,研究员。主要从事地震灾害学及前兆观测技术研究。E-mail:xiuyw@sohu.com