地震资料数据备份系统建设①
2016-02-20庄锡进王启迪曹晓初王宗仁
金 弟, 庄锡进, 王启迪, 曹晓初, 王宗仁
(中国石油杭州地质研究院 计算机应用研究所, 杭州 310023)
地震资料数据备份系统建设①
金 弟, 庄锡进, 王启迪, 曹晓初, 王宗仁
(中国石油杭州地质研究院 计算机应用研究所, 杭州 310023)
地震资料数据安全成为油气勘探领域判断油气藏的位置、规模等特性的关键因素. 数据备份是数据安全的重要组成部分, 通过分析地震勘探业务需求, 结合现有地震资料处理解释应用系统实际现状, 提出了一种基于分级的数据备份系统解决方案. 该方案能有效解决各类地震资料数据的集中备份与恢复、地震资料处理解释应用系统的存储子系统后备扩容以及不同存储级间的数据迁移等用户需求, 从而确保油气勘探的数据安全.
地震资料数据; 数据备份系统; 分级存储; 备份策略
地震勘探技术是油气地球物理勘探领域主要手段,其地震资料是基础数据, 是石油企业的重要资源[1].作者所在单位目前已拥有比较完善的地震资料处理解释应用系统, 但随着地震资料数据量的迅猛增长而产生的数据安全问题也日益突出. 随着地震数据规模扩大与业务系统复杂性增加, 为了避免或降低不可预测的数据丢失而产生的损失, 建立一套安全、可靠、高效、便捷的完整地震资料数据备份系统至关重要.
1 需求及应用系统现状
1.1 地震勘探业务需求
地震资料的采集、处理、解释是地震勘探业务的三个关键环节, 分别对应三类核心业务系统, 分别涉及三类地震数据. 业务流程如图1, 具有以下需求特点:
图1 地震勘探业务流程
(1) 原始采集的地震数据是海量数据. 随着万道地震技术发展、地震观测采样精度提高, 原始采集数据容量越来越大, 例如采集数据面元3.125m*3.125m、采样率1ms、覆盖次数120次、满覆盖面积100km2的数据容量约40TB.
(2) 处理与解释中间过程产生地震数据规模大、数据迁移频繁. 地震数据在地震资料处理与解释业务系统过程中, 通过计算节点集群的并行计算, 中间额外产生海量地震数据. 尤其是地震资料处理应用系统,例如10TB采集地震数据, 通过各个处理模块, 额外产生大概30TB的中间地震数据.
(3) 处理解释过程中与地震数据对应的的井、层位、断层等数据以数据库方式存储.
(4) 数据规模增长迅速. 随着各类应用系统建设、地震资料处理解释在机项目与工区的日益增多, 数据每年以10%以上的规模增加.
1.2 现有应用系统环境
作者所在单位部署了64节点处理系统、128节点处理系统、256节点处理系统等地震资料处理应用系统与基于协同体系架构的地震资料解释系统(简称解释系统), 其存储子系统达到PB级以上, 采用SAN架构, 利用存储主机群多I/O节点与并行文件系统构建高性能并行I/O.
2 体系结构
地震资料数据备份系统设计不改变及影响现有应用系统的环境与运行, 利用地震资料处理解释应用系统存储主机群中的部分I/O节点作为介质服务器, 采用分级存储模式思路构建. 依据各级的需求、特点, 采用不同的存储架构、存储性能容量、技术方法, 实现数据备份至不同级的存储上, 不同存储级间的数据方便高效迁移, 分级存储描述如表1. 地震资料数据备份系统分为备份数据存储、备份服务器和客户端三部分,体系结构如图2.
表1 分级存储描述
图2 地震资料数据备份系统体系架构
(1) 备份数据存储是系统的数据存储中心. 由存储主机群、并行文件系统、SAN存储网络、磁盘存储搭建的基于并行高性能的目标磁盘存储子系统(简称目标存储), 作为一级在线存储(简称一级存储)与二级近线存储(简称二级存储). 由基于FC接口的多磁带驱动器构建LAN-Free[2]模式的基于并行智能的目标磁带库存储子系统(简称目标带库), 作为三级离线存储(简称三级存储). 不同存储级间的数据根据用户需求方便高效迁移.
(2) 备份服务器采用Master/Slave结构, 由一个主服务器和一定数量的介质服务器组成. 主服务器集中配置与管理备份策略、控制通路及驱动介质, 通过策略管理负责数据备份与恢复作业的统一集中调度与监控管理, 是数据备份管理核心. 介质服务器是数据备份与恢复作业时实际的I/O驱动与执行, 从主服务器接收备份与恢复信息, 通过SAN数据通路直接驱动对存储介质读写, 运行在LAN-Free模式下, 主要用于地震数据文件的备份与恢复.
(3) 客户端通过LAN网络将被备份数据传送给介质服务器, 运行在LAN 模式下, 用于数据库的备份与恢复.
3 备份数据存储
3.1 分级存储
如图2, 目标存储的存储主机群接入现有应用系统的LAN网络, 目标存储的SAN网络与现有应用系统的SAN网络级联, 构建目标存储的存储主机群与源磁盘存储的存储主机群相同的I/O执行角色, 实现常规数据备份与一级存储作为现有应用系统的存储子系统后备扩容. 采用SNFS并行文件系统命名服务[3], 通过对应用系统中的计算节点、解释工作站及数据库节点挂载与卸载目标存储并行文件系统客户端服务等授权配置, 完成一级存储与二级存储的互相转化, 避免数据在实际存储位置上的迁移.
三级离线存储采用目标磁带库存储子系统的多磁带驱动器的FC接口接入不同源磁盘存储的SAN网络,搭建基于LAN-Free的多驱动器并行I/O读写磁带的备份方式与数据迁移. 不同级存储间的数据迁移方法如图3.
3.2 并行存储
合理优化的数据存储组织方式是高效的存储访问机制的前提条件, 高效的存储访问机制对数据存储组织方式中的存储单元I/O性能得到最大发挥. 作为应用系统存储子系统的后备扩容功能, 对磁盘存储子系统I/O性能要求非常高的一级与二级存储采用并行存储设计, 其核心为存储组织方式与存储访问机制.
3.2.1 存储组织方式
存储组织方式实现从物理层的磁盘驱动器到逻辑层的并行文件系统的各个环节中存储元素的分布式组织布局. 本文基于Quantum QD6000[4]磁盘阵列设计的数据组织方式如下.
(1) 存储单元物理层设计.
1) 磁盘驱动器布局. 一个磁盘柜共有5个抽屉,编号为D1至D5, 每个抽屉共有磁盘驱动器12个,编号为S1至S12, 如图4所示. 每个磁盘柜采用满配60个3TB磁盘驱动器, 通过2个磁盘柜级联方式实现磁盘驱动器扩容构成360TB存储裸容量.
2) RAID组规划. 每个抽屉抽取2块磁盘驱动器, 5个抽屉共10块磁盘驱动器构建一个8+2的RAID6方式. 每个抽屉抽取方法为: (S1,S4), (S2,S5), (S3,S6), (S7,S10), (S8,S11), (S9,S12), 一个磁盘柜划分6个RAID组.
(2) 存储单元逻辑层设计.
1) LUN生成与映射. 对物理层设计的每个RAID组, 划分2个LUN, 每个LUN的裸容量为12TB, 一个磁盘柜生成12个逻辑单元LUN. 通过LUN至主机端映射实现存储主机对LUN的识别.
图3 不同级存储数据迁移
图4 磁盘驱动器布局
2) 并行文件系统生成. 在一个磁盘柜中, 存储主机端识别的LUN采用奇偶方法分成二组LUN集, 每组LUN集对应一个并行文件系统所属的所有LUN,使用Quantum StorNex[3]生成二个并行文件系统.
3.2.2 存储访问机制
针对存储元素的分布式分层优化组织特点, 为了充分提升存储元素的读写性能, 存储访问模式基于并行机制的存储主机群、多端口、多路径模式. 如图5所示, 计算节点集群的N个并行客户端请求通过Quantum StorNext的DLS[3]机制负载均衡到n个存储主机, 实现文件级并行I/O. 每个存储主机的I/O数据流从HBA卡接口经SAN网络至存储控制器的多个存储主机FC接口的路径有多条, 采用IBM RDAC软件进行多路径管理, 实现LUN级并行I/O访问机制.
3.3 智能磁带库
智能磁带库使用Quantum Scalar i6000[5], 双机械臂配置, 8个基于LTO Ultrium6协议标准的并行磁带驱动器, 500槽位, 单盘非压缩容量为2.5TB. 针对现有应用系统的特点, 采用磁带库逻辑分区技术分为4个区对应4套应用系统的数据备份. 磁带库逻辑分区实现一台物理带库在功能上模拟多台物理带库使用, 分别备份或恢复不同应用系统的源数据.
磁带库的I/O接口拓扑如图6所示, LTO-1至LTO-8 8个磁带驱动器并行读写4个区中的磁带数据, 10台介质服务通过FC接口共享8个磁带驱动器, 扮演实际的带库I/O节点角色, 向磁带驱动器发送磁带读写指令.
4 备份服务器
4.1 服务器部署
鉴于应用系统是Linux操作系统以及地震资料数据的特点, 选择Symantec NetBackup7.6(简称NBU)作为企业级数据备份管理软件. 基于NBU的服务器部署分为主服务器与介质服务器二部分. 主服务器采用一台IBM X3650服务器, 包括安装NBU主服务器端软件、配置/etc/hosts、/usr/openv/netbackup/bp.conf、自动启动和关闭服务脚本、添加许可密钥与介质服务器名称等.
由图6可知, 4套应用系统的8个存储主机与2个目标存储的存储主机共10台介质服务器, 实现了冗余介质服务器部署. 备份作业自动选择最不繁忙的介质服务器、I/O负载均衡以及消除介质服务器单点故障,提升备份性能与可靠性. 安装配置NBU介质服务器包括介质服务器软件安装、存储设备识别、许可密钥添加、自动启动和关闭服务脚本等.
4.2 策略设计
策略设计是数据备份系统的一个重要环节, 是定义备份任务执行的一种方法, 设计完策略后, 无需人工进行干涉, 备份系统自动按时备份各类数据. 策略设计主要从存储策略、备份策略二方面来考虑制定.
(1) 存储策略.
制定不同的客户端数据写入相应的备份池中, 根据应用类型区别划分为64节点处理系统、128节点处理系统、256节点处理系统、解释系统等四个存储池.每个存储池包含多个物理存储卷, 每个物理存储卷是磁带或文件系统. 通过NBU的Storage Unit[6]进行存储策略的配置.
(2) 备份策略.
备份策略管理是NBU管理最重要的部分, 通过NBU控制台的Policy[6]进行备份策略定义, 实现既保留足够长时间内的备份数据又保证备份介质合理循环利用.
图5 存储访问模式
图6 磁带库接口拓扑
完全备份(full backup)对数据进行完整备份, 恢复时不依赖其他任何数据, 缺点是备份数据量大、备份时间长. 增量备份(incremental backup)从上一次备份后的变化数据, 备份数据量小, 但是依赖上次全备份及之后每次的备份数据. 差异备份(differential backup)备份上次全备份之后的所有变化数据, 只依赖上次全备份的数据, 备份数据量比增量备份大. 针对上述三种备份策略的优缺点, 结合备份数据的特点, 采用3种结合方式, 描述如表2.
表2 备份策略
磁带介质的好处是单盘磁带成本低、取出做永久保留、尤其是通过增加磁带数量的方式实现磁带库存储容量规模不受限制. 所以除了表2描述的备份策略外, 在一级存储与二级存储上以磁盘方式存储的备份数据, 增加在一定时间或磁盘空间到达设定阀值后,磁盘数据自动导入到三级存储磁带介质上的策略.
5 客户端
NBU客户端软件安装配置在应用系统的数据库节点, 实现对应用系统数据库的备份和恢复. 对地震资料处理解释业务系统的Oracle数据库备份和恢复进行配置. NBU 将 Oracle 恢复管理器 (RMAN) 的数据库备份和恢复功能与 NBU的备份和恢复管理功能集成在一起[7], 配置流程如下.
(1) 建立链接. 编辑运行/usr/openv/ netbackup/ bin/下的 oracle_link 脚本. 将 Oracle Server 软件与NBU for Oracle 安装的NBU API 库链接. Oracle 在需要读写NBU介质管理器支持的设备时使用此库.
(2) 定制备份脚本. 编制RMAN 要在客户端上执行的数据库备份命令Shell脚本, NBU通过在 Oracle策略的文件列表中指定该脚本来启动数据库备份.
(3) 创建备份策略. 制定策略类型Oracle、存储位置、备份周期、保留周期、选择备份客户端等配置数据库备份策略.
6 性能测试与分析
为检测本文所设计系统的性能, 分别对一级在线存储、二级近线存储、三级离线存储进行数据备份与恢复测试, 其中一级在线存储与二级近线存储在数据备份与恢复性能测试方面是相同的, 所以只给出一级存储的数据备份与恢复测试.
图7图8是针对不同应用系统测试100GB数据的备份与恢复. 一级存储的数据备份与恢复速度范围168MB/S至583MB/S, 其性能明显高于三级离线存储的数据备份与恢复速度范围95MB/S至252MB/S, 满足地震数据备份系统的分级存储的用户需求. 一级存储的文件备份与恢复速度范围556MB/S至583MB/S,其性能明显高于一级存储的数据库备份与恢复速度范围168MB/S至210MB/S; 三级存储的文件备份与恢复速度范围161MB/S至252MB/S, 其性能明显高于三级存储的数据库备份与恢复速度范围95MB/S至122MB/S, 充分体现LAN-Free模式比LAN模式具有的备份优势.
图7 一级(二级)存储的数据备份与恢复
图8 三级存储的数据备份与恢复
图9 是基于并行存储技术设计的一级存储作为256节点处理系统的存储子系统的后备扩容时, 使用IOzone[8]测试不同计算节点I/O请求时的聚合吞吐量读为4.2GB/S至4.6GB/S, 聚合吞吐量写为4.4GB/S至4.7GB/S, 满足地震资料处理解释应用系统对高吞吐量要求.
表3为测试200GB文件在不同存储级间的数据迁移, 可以看出读磁带速度最低为182MB/S, 并行文件系统级的数据迁移速度最高为605MB/S, 达到备份系统分级存储的设计需求.
图9 一级存储聚合吞吐量
表3 不同存储级间数据迁移测试
7 结语
利用本文设计的数据备份系统已累计备份各类地震勘探业务数据达500TB, 作为应用系统存储后备扩容使用容量为150TB, 不同存储级数据迁移20多余次共计容量600TB. 实践证明该方案很好的保证了数据的完整性和地震资料处理解释业务的连续性, 满足地震资料数据备份与恢复、应用系统后备扩容、不同存储级数据迁移的业务要求.
1 张向林,陶果,刘新茹.油气地球物理勘探技术进展.地球物理学进展,2006,21(1):143–151.
2 杨旭,宋式斌,樊春,彭一明.北京大学数据中心备份系统建设.武汉大学学报,2012,58(s1):53–57.
3 Quantum. Stor Next File System User’s Guide. Seattle, USA: Quantum Press. 2012.
4 Quantum. Stor Next Q-Series Storage Hardware Cabling Guide. Seattle, USA: Quantum Press. 2012.
5 Quantum. Scalar i6000 User’s Guide. Seattle, USA: Quantum Press. 2013.
6 Symantec. Symantec NetBackup Administrator’s Guide. Cupertino, USA: Symantec Press. 2013.
7 Symantec. Symantec NetBackup for Oracle Administrator’s Guide. Cupertino, USA: Symantec Press. 2013.
8 Iozone Filesystem Benchmark. http://www.iozone.org/docs/ IOzone_msword_98.pdf.
Construction of Seismic Data Backup System
JIN Di, ZHUANG Xi-Jin, WANG Qi-Di, CAO Xiao-Chu, WANGZ Zong-Ren
(Department of Computer Application, Research Institute of Hangzhou Geology, Hangzhou 310023, China)
Seismic data security has become a key factor for determining the location and scale of oil and gas reservoirs in the field of oil and gas exploration. Data backup is an important part of data security, this paper analyses the seismic exploration business requirement, combines with the actual situation of the existing seismic data processing and interpretation application system, a solution based on hierarchical data backup system is put forward. The solution can effectively solve all kinds of centralized backup and restoration of seismic data, expansion of storage subsystem of seismic data processing and interpretation application system and data migration for different hierarchical storage, ensuring the data security of oil and gas exploration.
seismic data; data backup system; hierarchical storage; backup policy
2016-03-28;收到修改稿时间:2016-05-12
10.15888/j.cnki.csa.005508