广东台网地震资料产出的存储方式探讨
2016-11-29吴叔坤胡文灼
吴叔坤,胡文灼
(广东省地震局,广州510070)
广东台网地震资料产出的存储方式探讨
吴叔坤,胡文灼
(广东省地震局,广州510070)
随着“广东数字地震观测网络”项目的建设完成,由此产生的地震信息的数据量越来越大。结合广东台网实际情况,探讨建立安全有效的存储这些海量地震数据,降低地震数据的丢失风险问题介绍,主要是网络存储方式,希望在地震台网同行起到借鉴作用。
广东台网;地震资料;数据存储
图1 编目台站分布图Fig.1 Distribution map of catalog stations
广东台网中心处理系统软件的服务器中存储数据的有AWS波形服务器和数据库服务器,磁盘大小均为3TB,考虑系统文件及测震软件占有的磁盘空间将来会呈现指数级增长,用于存储连续波形数据用的磁盘空间有3 TB,每天产生的台站及台网波形数据文件有6.5 GB;波形服务器目前设置成缓存大约3个月的连续波形数据,数据库服务器存储事件波形及编目等数据约有767 GB(截至到2015年)约占整个服务器硬盘空间的20%。随着地震观测和地震科学研究水平的提高,大量宝贵的地震科学数据不断产出,现有的服务器磁盘空间有可能不能满足长期存储数据的要求。如何安全有效地存储这些海量地震数据,是目前迫切需要解决的问题。本文将要论述几种安全方法,对地震数据产出进行备份存储,有效降低地震数据丢失的风险问题。
如何安全有效地存储这些海量地震科学数据,是广东台网目前迫切需要解决的问题。广东台网依据当前需求,硬件上采取了光盘和磁盘阵列的传统方式保存数据,软件上采用ZFS文件系统管理维护数据,不但简化了硬件间的配置,还大大降低了系统维护成本。这种方式也是未来广东台网数据管理的主要技术手段。
1 广东台网中心软硬件技术系统构成与配置
广东台网中心系统主要包括通信网络接入、台站观测数据接入汇集、数据传输与共享服务、地震数据处理、数据库管理与服务、系统管理与备份、技术系统运行监控等七大部分。另外,为保证台网系统安全连续可靠的运行建立了台站及台网中心环境的管理监控体系。
台网软件系统采用Jopens系统0.5.2版本(SSS、数据库、RTS、MSDP、JOPENS控制台)。台网中心硬件配置见表1。
2 资料产出的几种存储方式
2.1 网络存储
网络存储是指借助于网络存储设备,通过原有网络或者构建专有的存储网络,为用户提供统一的数据存储与数据共享服务,它是基于网络的存储方式。网络存储可将数据存储任务从服务器主机中分离出来,这样可减轻服务器的负荷,并将传统的数据存储独立出来,作为网络的一部分,为网络用户共享。同时网络存储的目标是整合广泛的存储设备,包括磁盘驱动器、备份磁带驱动器、磁盘阵列、光盘库等所有的存储设备。
广东台网目前采取的存储方式是网络附加存储方式,也就是俗称的NAS。对数据要求持久存储的比如地震事件波形、目录等,我们将其放在磁盘阵列的数据库里;对数据要求临时存储的,对台网实例来说大多数是连续波形,我们设计将其放在按年分好分区的磁盘阵列上,为考虑数据增长及预留空间,一般设置连续波形临时存储3个月。磁盘阵列分区一般是本年度下半年会删除前一年的分区,然后再新建一个未来一年分区,以此循环。
表1 广东测震台网主要配置与部署Table 1 Hardware environment and configuration
2.1.2 网络安全存储技术特点
磁盘阵列和网络附加存储组成的大数据在线存储能力超过1PBytes,多台高性能服务器承担地震波形数据实时接收、校验、地震事件波形数据截取、连续地震波形数据重采样、数据在线共享服务等。
对数据的威胁通常比较难于防范,这些威胁一旦变为现实,不仅会毁坏数据,也会毁坏访问数据的系统。造成数据丢失和毁坏的原因主要如下几个方面。
(1)数据处理和访问软件平台故障。
(2)操作系统的设计漏洞。
(3)系统的硬件故障。
(4)人为的操作失误。
(5)网络内非法访问者的恶意破坏。
(6)网络供电系统故障等。
2.1.2 三层存储机制
建立三层存储服务机制,内存缓冲(Memory Cache)、内存文件系统(MFS)和常规文件系统。最新数据放在内存缓冲中,次之数据放在内存文件系统中,更次之数据按照命名规律放在常规文件系统。最新数据总能得到优先快速的服务。
2.1.3 存储容量的易于扩展特性
在基于ZFS文件系统的基础上,存储系统采用数据文件和索引的方式存储数据,当数据存储容量快饱和时,只需增加磁盘阵列等类型的数据存储设备,包括iSCSI设备、SAN设备和InfiniBand网络设备等,挂载入到ZFS文件系统里,借助于ZFS文件系统的主要高级特性,ZFS文件系统就会在原来存储容量的基础上,按新接入设备的容量自动扩大原来存储的容量。随着硬件设备的不断发展,系统的存储容量可以持续扩大,几乎不受存储空间容量的限制,至少可以提供10年以上数据的在线服务。
2.1.4 存储数据迁移方便
为了数据迁移的方便,高效地管理和查询数据,我们采用最简单的数据文件方式存储数据,为数据做查询索引的基本思想,结合地震台站观测数据的特点设计数据服务系统。系统在特定的网络端口为用户提供链接服务,在数据管理服务器上挂载多个存储数据的磁盘阵列,服务器的内存中存储着磁盘阵列上数据的索引,用户调用数据时,系统按规则查找数据文件存放路径,在内存中找数据的索引,通过索引快速从文件中读取相关数据段提供给用户。
图2 系统结构示意图Fig.2 System Diagram
2.1.5 系统结构
为了保持系统存储容量的可扩展性,我们采用网络文件系统(NFS)和iSCSI等方式挂载数据存储设备到系统主机中去,当一个系统存储设备(例如磁盘阵列)快满时,可以追加挂载一个新的存储设备到系统主机中,这样后续的数据就往新存储设备中写,系统的存储空间可以持续地扩展。当然随着数据量的增多,系统主机内存中的索引数据量也会持续增大,因要求系统主机具有超大容量的内存空间存储数据索引。系统结构示意图如图2所示。
数据服务系统可以从实时数据流服务器(SSS)中接收实时数据,立即对用户进行数据服务,也可以提供旧数据的在线服务,一般情况下对实时数据的使用需求较大,因此系统对数据实行分期管理,把数据分为当期数据和过期数据,分别从内存缓冲、内存文件系统和磁盘阵列中提供服务,当期数据的访问效率高于过期数据。当期数据是指当前时间之后一段时间内(具体的时间长度视主机内存大小而定)的数据,过期数据是指时间比当期数据还早的数据。我们在主服务器的内存中开辟一个内存文件系统,把当期数据存储在内存文件系统中,数据过期后就写入磁盘阵列的文件系统,当用户访问当期数据时,主机可以从直接内存文件系统中提供数据,不需要从NFS的文件系统查询和传输数据,数据的服务效率会非常高。
2.2 刻录光盘存储
光盘存储技术是近二十多年才发展起来的,分为LD、CD、DVD、CD-ROM、MO等品种,其中大多用来保存声音和图像,真正用于数据存储的只有CD-ROM和MO等。大多数光盘是只读型或一次性写人型,只有MO光盘(MO光盘实质上已超出了早期光盘的范畴,它是种光学与磁学原理相结合的新式盘)等可以重复完成读/写操作。广东台网“九五”时期和“十五”前期,地震波形数据采用CD光盘存储,后来随着“十五广东数字地震观测网络”项目建设完成后,共享了本省与邻省台站达到90多个,一张CD光盘已经无法存储一天地震波形数据,因此采用容量比较大的DVD光盘存储。
广东台网目前也保持着光盘刻录存储备份,但光盘存储技术目前在地震数据存储领域还没有得到很好应用。也许随着光盘存储及管理技术的发展和完善,更高机械强度和更好安全性的光盘将会问世,那时采用光盘存储地震数据也许是更经济的选择。
2.3 打印纸质存储
采用纸质材料为载体进行保存,优点较多,便于管理和利用。当前主要的档案文献资料都是采用纸质材料为载体进行保存,例如:地震观测报告。重视纸质文献的保存和修复工作是档案工作人员必须要注意和认真对待的重要问题。纸质保存方面需要注意,防老化,防潮、防虫、防洇方面都有各种技术要求。现代人在保存档案文献时往往不会考虑对纸质文献如何保存的问题,以至于经常造成许多无法弥补的损失,因而对纸质档案的保存问题,必须引起档案文献管理工作者的重视。对纸质档案的保护主要有三种方式,一是直接修复,二是制作副本,三是电子化存档。无论采用哪种保存方式,都无法保持档案的原始状态,具有一定的非档案化风险。
[1]黄志斌,庄灿涛.DVD盘库与地震数据的存储[J].地震地磁观测与研究,2000,21(3):77-80.
[2]冉慧敏,史勇军.磁盘阵列技术在新疆遥测地震台网数据存储中的应用[J].内陆地震,2010,24(2):160-167.
[3]李刚,杨奕,孙路强,等.iSCSI技术在天津地震数据存储中的应用[J].震灾防御技术,2013,8(3):319-325.
[4]蒋春曦,俞冠群,宣兴耕.安徽省地震信息网络数据动态备份措施的研究[J].地震地磁观测与研究,2005,26(3):95-99.
[5]郭燕平,郑重,邹立晔,等.地震数据存储的设备安全与应用安全[J].地震地磁观测与研究,2006,27(4):93-97.
[6]张晨侠,丁广,温岩.省级地震数据容灾备份技术初探[J].防灾减灾学报,2012,28(2):80-83.
3 结语
数字地震台网产出的数字地震资料对进行科学研究作出了很大贡献。广东数字地震台网所取得的观测资料,在确定地震震源参数、地震矩张量、地球自由震荡、环球面波震相识别、地壳和上地幔的横向不均匀性和各向异性等地震学方面的研究起到了基础性作用。因此对产出的观测资料数据进行有效安全备份、管理,使得地震数据丢失风险降得最低要求,更好服务于各项研究工作。
Discussion on Seismic Data Storage Management from Guangdong Seismic Network
WU Shukun,HU WenZhuo
(Earthquake Administration of Guangdong Province,Guangzhou 501170,China)
With the completion of the project of“Guangdong Digital Seismic Observation Network”,the amount of seismic data is increasing.Combining with it's actual situation,this paper explored how to build up an effective and safe storage machnism,minimise data loss risk,mainly at network storage part.at last we hope it can giving a reference in seismic network.
Guangdong seismic network;Seismic data;Storage
P315.78
A
1001-8662(2016)03-0051-05
10.13512/j.hndz.2016.03.007
0 引言
2015-12-20
地震行业科研专项(201308008)
吴叔坤(1977-),男,工程师,主要从事地震监测与数据管理等工作.
E-mail:wsk@gddsn.org.cn
吴叔坤,胡文灼.广东台网地震资料产出的存储方式探讨[J].华南地震,2016,36(3):51-55.[WU Shukun,HU WenZhuo.Discussion on Seismic Data Storage Management from Guangdong Seismic Network[J].South china journal of seismology,2016,36(3):51-55.]
广东省地震台承担着广东省及邻近地区的地震速报和地震编目工作,广东数字地震台网是广东省人民政府和中国地震局共同投资建设的区域地震台网。“十五广东数字地震观测网络”项目建设完成后,广东省地震数字测震台站增加到44个(其中5个为国家台、39个为区域台)。共享了本省与邻省的台站50个(其中地方地震台8个,香港天文台地震站1个、福建台网地震台12个、江西台网地震台8个、广西台网地震台12个、湖南台网地震台4个、海南台网地震台5个)。2013年12月新加入新建的区域台16个、阳江台阵台站1个参与分析。现在参与地震速报、地震编目的台站达到111个(见图1),台网的主要配置与部署(见表1)。