APP下载

地震资料处理数据分级存储集群的建设与应用

2016-06-13翟中霞河南油田物探院

大陆桥视野 2016年6期
关键词:存储容量存储系统分布式

翟中霞/河南油田物探院



地震资料处理数据分级存储集群的建设与应用

翟中霞/河南油田物探院

【摘 要】本文分析了河南油田地震资料处理对存储系统的需求,根据地震资料处理的数据特点,通过对并行存储技术、分级存储技术的研究,设计并建设分级存储系统,满足地震资料处理中不同应用对存储性能的不同需求,在存储容量、存储速度和成本之间取得了平衡,建成了高效实用的分级存储环境。

【关键词】分级存储;地震资料处理;并行存储;数据备份

一、建设地震资料处理数据分级存储系统的必要性

随着勘探难度增加和技术的发展,野外三维高精度采集的数据量大规模的增长,加之地震资料处理新技术、新方法的应用,地震资料处理对存储系统的存储容量和存储性能有了更高的需求,目前河南油田地震资料处理的存储系统在性能和容量上还有待提高,但是存储系统的设计要考虑容量、速度和成本三个问题。容量是存储系统的基础,都希望配置尽可能大的存储系统;同时要求存储系统的读写速度能与处理器的速度相匹配;成本也应该在一个合适的范围之内。但这三个目标不可能同时达到最优。一般情况下,存储设备读写速度越快,平均单位容量的价格越高,存储容量越小;反之,存储设备读写速度越慢,平均单位容量的价格越低,存储容量越大。

分析地震资料处理的数据流特点,我们发现:

1.在进行叠前时间偏移、深度偏移、逆时偏移等并行作业处理时,数据流表现为高并发IO和大聚合带宽,需要高性能存储系统的支撑。

2.在常规处理中的数据流相对平稳,IO吞吐量相对小,对带宽和存储的性能要求相对较低。

3.需要备份的原始数据及成果数据,需要一定数量安全级别较高的存储系统进行数据备份。

为了在容量、速度和成本这三者之间取得平衡,需要根据其地震资料处理数据的特点,采用分级存储为不同的应用提供不同性能的服务,建成高效实用的并行存储环境。

二、分级存储方案设计

(一)体系架构

地震资料处理数据分级存储系统采用开放式的存储体系架构,基于分布式的Glusterfs并行文件系统,将多台存储设备的存储容量虚拟成一个具有统一访问接口的存储空间。按照一定的负载均衡策略存储用户的数据,将数据条带化的存储到多台物理存储设备上,从而获得更高的并发数据访问性能,同时可以制定存储策略进行数据分级存储,对所有的存储设备可以实现统一的管理和监控。

图  分级存储体系架构

分级存储系统包含管理控制器、索引控制器、数据控制器和应用服务客户端四类组件:

管理控制器:安装并行存储管理软件,提供统一的控制管理界面,实现存储系统的集中化部署、管理、监控和维护。

索引控制器:内嵌高性能数据索引引擎,管理存储系统的所有索引数据和命名空间,实现全局统一命名空间,实现数据索引的负载均衡和故障冗余。

数据控制器:提供数据存储空间,并实现数据存取的动作。

应用服务客户端:向上层应用提供数据访问接口。

(二)配置方案

整个存储系统包括2台管理控制器、2台索引控制器、22个数据控制器,总容量1197TB。分为三级存储结构:

一部分为高速存储,高速为主要特点,由容量较小、价格较贵而性能较高的SSD固态硬盘构成,为实时提供高性能的数据IO能力;

一部分为在线存储,采用容量较大、价格较便宜而读写速度较慢的SAS硬盘构成,支持一般性数据读写;

一部分为备份存储,采用容量大,价格低廉,读写速度慢的SATA硬盘,创建高安全备份卷,存储我们的原始、阶段性数据、成果数据和磁带库数据备份。

表 分级存储系统软硬件配置表

三、关键技术

(一)虚拟化管理平台Ovirt

oVirt是一个基于x86架构上的KVM虚拟化技术的开源云服务平台。它在架构设计上由ovirt-engine和ovirt-node两部分组成,这种Node/Engine分离的结构,方便功能的划分与管理。

Engine是系统的管理者,并对外提供管理服务,它挂载了自己的数据库,记录系统中虚拟机的配置,各个存储节点的状态信息,网络状态等。通过在Engine中的设置实现系统的管理逻辑,状态及策略控制。本存储系统通过在管理控制器上安装ovirt-engine来实现管理功能。

Node只负责功能上的实现,不进行状态的记录和策略的实现。oVirt里的Node可以由一个普通的Linux上安装VDSM(Virtual Desktop Server Manager)构成,也可以由一个专为oVirt定制的Linux系统构成。本存储系统采用安装VDSM的方法配置数据控制器作为node节点,实现网络、存储器、虚拟机的创建与修改。VDSM的功能包括组织数据,实现存储集群的数据共享与数据保护,故障恢复。

(二)GlusterFS集群文件系统

GlusterFS是一个开源的分布式文件系统,具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。GlusterFS通过TCP/IP或者InfiniBand网络将多个物理存储资源汇聚在一起,使用全局统一命名空间来管理数据。GlusterFS可为各种不同的数据负载提供优异的性能。

GlusterFS文件系统支持标准的网络访问协议,用户可以使用NFS/CIFS等标准协议访问数据。GlusterFS使得用户摆脱原有的独立、高成本的封闭存储系统,利用普通廉价的存储设备也可以部署可拥有集中管理、横向扩展、虚拟化的存储系统。

四、生产应用

地震资料分级存储系统采用的Glusterfs文件系统,支持五种逻辑卷,即Distribute卷(分布式卷)、Stripe卷(条带卷)、Replica卷(镜像卷)、Distribute stripe卷(分布式条带卷)和Distribute replica卷(分布式镜像卷)。分级存储系统搭建完成后,根据地震资料处理需要创建逻辑卷,创建分布式条带卷来满足并行处理作业时高并发IO和大聚合带宽数据流对高性能存储的需要。创建分布式镜像卷作为备份存储卷来存储地震资料原始数据和成果数据,满足数据高安全性的需要。投入生产运行后,多个处理项目使用了该套存储系统进行生产,在项目结束后成果数据直接转移至备份存储卷,回收存储空间。

五、结束语

根据河南油田地震资料处理的数据特点,采用分级存储系统满足地震资料处理中不同应用对存储性能的不同需求,在存储容量、存储速度和成本之间取得了平衡,建成了高效实用的分级存储环境。分级存储系统在存储性能、功能上满足了生产项目的需要,取得了良好的应用效果。

参考文献:

[1]杨传辉 大规模分布式存储系统:原理解析与架构实战 机械工业出版社 2013

[2]G.Somasundaram Alok Shrivastava 信息存储与管理 人民邮电出版社 2013

[3]潘红芳,张瑜 智能分级存储系统的研究 吉林大学出版社2014

猜你喜欢

存储容量存储系统分布式
分层式大数据存储系统缓存调度策略与性能优化
浅析分布式发电对电力系统的影响
天河超算存储系统在美创佳绩
面向4K/8K的到来 存储该怎么办?
基于预处理MUSIC算法的分布式阵列DOA估计
分布式并联逆变器解耦电流下垂控制技术
浅析云盘技术及存储原理
家庭分布式储能的发展前景
基于电池管理系统的数据存储系统设计
Buffalo推出四硬盘网络存储器 主打Soho一族