APP下载

基于地震资料处理的lustre并行存储系统的研究构建

2017-05-06张娟

大陆桥视野·下 2017年3期
关键词:存储系统内核客户端

张娟

【摘 要】随着我院GPU集群的引进,迫切需要构建一个“优异的存储系统”,两者共同建设一个“高速运算、高速通讯、高速存储”的地震勘探系统,解决长期困扰我院的勘探难题。本文通过Lustre技术研究,构建一个Lustre并行存储系统,测试结果及生产应用验证了该系统与GPU集群是一个完美的匹配,叠前时间偏移等耗时的技术纳入常规化,进行规模化生产,解决了我院油气勘探复杂构造成像难度大的的勘探难题。

【关键字】 Lustre;OSD;MDT

1 .引言

我院勘探任务主要在老区,老区勘探程度高,勘探面临的对象复杂,且新区勘探开发难度大,勘探现状需要采用多项高端地球物理成像技术,包括Kirchhoff叠前时间偏移、逆时偏移(RTM)等,有助于解决油气勘探复杂构造成像难度大的问题,运算时间长却是长期困扰我院的难题,为此,我院引进了GPU集群,将叠前时间偏移等耗时的技术纳入常规化,进行规模化生产。

GPU集群具有高速运算、高速通讯和高度稳定的特征,要求高速存储与之保持同步,建设一个“高速运算、高速通讯、高速存儲”地震勘探系统,才能解决我院勘探难题。本文采取开源的高性能分布式并行文件系统Lustre和低延迟、高带宽的InfiniBand网络实现“高速存储”,Lustre确保存储系统的内部数据的高速存取,InfiniBand确保存储系统和GPU集群的高速数据通讯。

2 .技术研究

Lustre是应用广泛的开源性的集群分布式并行文件系统,采用了数据和元数据分离技术、智能存储技术和高速区域网技术,由OSD、MDD和client组成, OSD负责实际对象数据的存储及智能管理,多个OSD以并行的方式被直接的访问,增加更多的OSD会增加存储的容量,同时线性增加数据吞吐量。MDD管理整个系统的命名空间、控制client与 OSD 上对象的交互,client和OSD直接进行实际对象数据的交互。client在需要访问文件系统的文件数据时,先访问MDS,获取文件相关的元数据信息,然后就直接和相关的OSD通信,取得文件的实际数据。通过子网LNET实现文件系统的内部通讯。MDS、OSS和Client通过InfiniBand高速网相互通讯,连接成一个“高速存储”的Lustre并行存储系统。

2.1 OSD

OSD是一种网络存储磁盘设备,它有自己的磁盘、处理器、RAM存储器和网络接口。OSD用其自身的存储器和处理器优化磁盘的数据分布并从磁盘预取数据。

OSD由OSS和OST构成,OSS提供了文件I/O服务和用来处理一个或多个当地OST的网络请求。每个OSS节点可以有多个OST。OST负责实际数据的存储,处理所有客户端和物理存储之间的交互。OST和实际的物理存储设备之间通过设备驱动方式来实现交互。通过驱动程式的作用,Lustre能继承新的物理存储技术及文件系统,实现对物理存储设备的扩展。

2.2 MDD

MDD存储了文件系统的基本信息,负责管理整个系统的命名空间,维护整个文件系统的目录结构、用户权限,并负责维护文件系统数据的一致性。

MDD由MDS和MDT构成。Client通过MDS读取保存到MDT上的元数据,得到文件信息,从OSS中得到数据。通过MDS的文件和目录访问管理,Lustre能够控制Client对文件系统中文件和目录的创建、删除、修改,控制Client与 OSD 上对象的交互。

2.3 Client

Client通常是典型的集群计算节点,它们运行Lustre客户端软件并通过以太网或InfiniBand与Lustre 服务器进行通信。客户端软件由Lustre服务器和运行在计算节点上的应用程序之间的接口组成。为了使计算节点能够直接从OSD读、写对象,必须配置一个文件系统。

2.4 Lustre

Lustre文件系统为其上层的应用提供一个透明的POSIX接口,它允许应用去执行标准的文件系统操作。文件系统在Client计算节点上为输入的数据提供Caching以补充 OSD中的Cache。文件系统在每个对象的基础上处理跨越多个OSD的对象的条带。由于对象以并行的方式读写,条带的宽度将直接与对象的带宽相关。

2.5 Network

Lustre并行存储系统是由LNET守护进程来控制网络环境,Client通过LNET协议和MDS/OSS通信。通过Infiniband和客户端计算节点、OSD、MDD进行物理互联,Infiniband体系架构( IBA)的本质是把网络技术引入I/O体系之中,形成一个“I/O交换网”。IBA物理构建减少了传输过程中对CPU的使用,硬件承担许多I/O通信操作,减轻了CPU的负担。因此,多个进程同时通信时,没有相关的管理开销,这是与现有通讯协议的一个主要不同之处。为了更好地支持现有网络,Infiniband使用IPOIB提供了对IP网络的支持。

3.构建Lustre存储系统

在GPU集群的1个管理节点和9个计算节点上安装Lustre客户端,作为Lustre并行存储系统的客户端,使用5台OSD、1台MDD和Infiniband交换机共同构成140TB(裸盘)的Lustre并行存储系统,可用存储110TB。

3.1配置安装

存储系统的OSD、MDD、Client都安装Lustre支持的Centos5.6 X86_64操作系统,存储节点gfs01(MDD)包含两个磁盘,sda为操作系统盘,sdb上100G分区作为mdt元数据存储盘。gfs02-gfs06(OSD)等5个存储节点都有两个磁盘,sda为操作系统盘,sdb分出三个8T分区为OST数据存储盘。在gpu00-gpu09等GPU集群节点上实现存储系统的Client,安装Lustre文件系统客户端程序,并挂载Lustre文件系统。OSD、MDD、Client都需要经过内核编译、驱动安装与软件安装配置等实现并行存储系统。

主要配置安装内容如下:

(1)内核编译:将lustre文件系统主程序及Infiniband驱动编译进内核,以保证文件系统在高负荷运行情况下稳定使用。

(2)驱动安装:阵列卡驱动在内核编译时已被自动加载进去。以下是Infiniband网口驱动配置内容。

(3)软件安装:lustre软件包和内核版本有非常严格的对应关系,根据实际内核版本选择软件包。内核编译包括lustre主程序和lustre内置文件系统软件ldiskfs。

(4)格式化用軟件工具e2fsprogs。

(5)系统配置:Lustre文件存储系统是由LNET守护进程来控制网络环境,LNET是Lustre的网络子系统。通过修改/etc/modprobe.conf文件配置LNET参数。

(6)MDT、OST和Client的创建。

3.2性能测试

1个客户端读写数据时,文件系统读写速度可达到999MB/s。

2个客户端同时读写同一个数据时,总速度可达1924MB/s,每个客户端读写速率在511MB/s与987MB/s之间,随着客户端数目增加,几乎感受不到彼此的操作,反映了lustre并行存储系统优异的并行性能。

对我院某地区达330平方公里三维逆时偏移处理测试,分选12TB输出数据,抽取道集,只用了不到5小时完成,证明数据存储的方式是合理的,合并数据的效率可以达到应用要求。

3.3 生产应用

我院某地区逆时偏移项目:处理炮数49680、面积220km2、深度 12000米;处理前的原始数据2.4TB,过程数据48TB;该并行存储系统中所有Client参与处理,所有存储设备参与存取,逆时偏移耗时7天。

4.结论

lustre并行存储系统的研究构建、性能测试及生产应用表明,该系统与GPU集群是一个完美的匹配,为我院建设了一个“高速运算、高速通讯、高速存储”地震勘探系统,叠前时间偏移等耗时的技术纳入常规化,进行规模化生产,解决了长期困扰我院的勘探难题。

参考文献:

[1]聂刚,卿秀华.基于对象存储的Lustre文件系统的研究[J].信息技术.2007(09).

[2]贾志国,赵青苹,董小社,吴维刚.InfiniBand:一种新型的高速互连网络[J].计算机工程与应用.2003(09).

[3]张晓波.基于高性能集群计算的并行文件系统关键技术研究[D].西安电子科技大学 2011.

[4]董勇,周恩强,陈娟.基于Infiniband技术构建高性能分布式文件系统-Lustre.计算机工程与应用2005.

[5]钱迎进.大规模Lustre集群文件系统关键技术的研究.国防科学技术大学2011.

猜你喜欢

存储系统内核客户端
强化『高新』内核 打造农业『硅谷』
分布式存储系统在企业档案管理中的应用
天河超算存储系统在美创佳绩
基于嵌入式Linux内核的自恢复设计
Linux内核mmap保护机制研究
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
基于Vanconnect的智能家居瘦客户端的设计与实现
微生物内核 生态型农资
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统