APP下载

基于PB级地震数据的GeoEast云平台架构研究

2020-04-05马迅飞曹士炳张进铎陈翔李华松

计算机时代 2020年2期
关键词:海量集群架构

马迅飞 曹士炳 张进铎 陈翔 李华松

摘  要: GeoEast系统是东方公司独立开发的处理解释一体化平台,在面对处理PB级的地震数据时,该系统的处理能力已明显不足,构建面向大数据的GeoEast云平台势在必行。通过对大二层网络架构、规模化集群架构、存储大文件系统、双软件统一调度等技术的研究,构建一个基于PB级地震数据的GeoEast云平台,以实现前后方资源共享,满足PB级数据计算能力要求,并達到提高设备利用率的目的。

关键词: GeoEast系统; PB级; 地震数据; 云平台; 大二层网络

中图分类号:TP-31          文献标识码:A    文章编号:1006-8228(2020)02-36-03

Research on GeoEast cloud platform architecture for seismic data of PB

order of magnitude

Ma Xunfei, Cao Shibing, Zhang Jinduo, Chen Xiang, Li Huasong

(BGP, CNPC, Zhuozhou, Hebei 072750, China)

Abstract: GeoEast system is an integrated platform for processing and interpretation developed independently by BGP. When dealing with seismic data of PetaByte (PB) order of magnitude, the processing ability of the system is obviously insufficient. It is imperative to build a GeoEast cloud platform for the big data. A GeoEast cloud platform for PB order of magnitude seismic data is constructed through the research of big two layer network architecture, large-scale cluster architecture,storage of large file system and dual-software unified scheduling technology, so as to realize the sharing of resources between front and background,meet the requirement of PB order of magnitude data computing capacity, and achieve the purpose of improving the utilization rate of equipment.

Key words: GeoEast system; PB order of magnitude; seismic data; cloud platform; big two layer network

0 前言

为了提高油气勘探精度,国内外各探区都加大了三维高密度勘探部署,勘探数据量越来越大,个别勘探项目的数据量已经达到了2PB以上,而油公司对数据的处理周期要求却越来越短。以往计算中心为了提升数据的处理能力,一般只能依靠扩大设备规模来实现,这无疑又增加了运营成本。

目前,东方公司研究院处理集群仍然采用传统的硬件架构,主要由小规模集群组成,已无法满足PB级项目的计算能力。同时,现有的存储资源不仅分散且文件系统偏小,无法满足PB级项目I/O性能及空间的要求。

如今,国内外的地球物理公司都有海量地震数据处理技术的研究,云计算和大数据技术已经成为解决海量数据处理难题的有效手段。研究构建面向大数据的GeoEast云平台是为了实现资源集中统一管理,提高资源使用效率,提升海量数据的处理能力。

1 研究现状分析

1.1 本领域行业现状

在油气勘探地震资料处理行业,高精度复杂处理技术和高密度勘探数据都需要海量运算能力;高精度处理技术已经对现有的计算能力提出了挑战,而海量数据的处理需求,又进一步加剧了资源不足的矛盾。

高密度采集的海量数据运算能力不足,其原因有以下几方面。

⑴ 软硬件架构不合理。大多数地震资料处理中心,依然采用传统的软件及硬件架构,配置不合理,难以满足目前对海量数据处理的需求。

⑵ 相关技术落后。2014年11月,权威机构曾经利用Hadoop技术对100TB数据使用206个EC2节点,耗时仅23分钟就完成了专用目的排序工作,其优势可见非同一般。据最新报道,腾讯利用其云计算技术,可在9.8秒内完成上述测试。

⑶ 需要不断增加投入。由于高密度采集而获得的海量数据在不断增大,采用扩大传统PC集群规模来提升处理能力的做法,必将造成对PC集群更大需求,资金投入也必将增加。

1.2 东方公司技术现状

2013年,东方公司研究院同浪潮公司合作,充分考虑石油勘探的应用特点,在大规模PC集群系统上,针对统一监控和运维管理,构建统一集成式服务平台,优化I/O线程池和负载均衡,提升并发性能。

2017年,研究院开展了GeoEast在复杂生产环境下的性能调优技术研究与应用,深入研究叠前深度偏移作业时的系统硬件资源优化问题,分析PC集群不同内存、内置硬盘、数据存储、网络、CPU、异构计算模块等资源,对叠前深度偏移模块的运行效率进行优化研究与测试,系统运行效率得到明显提升[1~2]。

2 云平台架构研究

2.1 海量数据的集成应用研究

主要通过大二层网络架构、PB级并行文件系统、分布式存储等技术研究,构建规模化PC集群,提高资源使用效率,以适应海量勘探数据应用。

研究内容主要包含以下三个方面。

⑴ 大二层网络架构研究

目前,计算中心的核心层与汇聚层在物理设备上只是两个并联的交换机。一个服务器和另一个服务器间的传输,则需要经过两个汇聚层交换机和一个核心层交换机,这无疑将产生较大的延迟,甚至会发生阻塞数据传输的情况。

大二层架构中的任何一台服务器和另一台服务器间的数据传输,只需要经过一台叶交换机和一台脊交换机,这种模式提高了数据传输的效率,更适合云计算应用,能满足规模更大、且速度更快的计算中心需求(图1)。

⑵ 并行文件系统应用研究

PB级并行文件系统有着非常稳定的I/O性能,且具有较高的带宽;在同时运行多个输入输出作业时,其性能稳定可靠;对于输入输出、叠前深度偏移等作业,都有较好的性能表现。

多组集群共享存储,减少了传输数据的时间,并且不同集群、不同类型的作业,可以有效的利用磁盘的带宽。

部署全局共享存储系统,对并行文件系统进行优化研究,解决多种并行文件系统之间的冲突,优化存储网络,提高存储访问带宽(图2)。

⑶ 分布式存储研究

为了提升系统的稳定性,将数据和元数据分离,减少了元数据操作与数据读写操作之间的互相干扰;元数据操作时间短、简单,不对数据服务器产生任何影响,保障了系统的稳定性。

为了提高数据的安全性,采用数据冗余与恢复技术,把数据和相对应的奇偶校验信息存储到不同磁盘,当一个磁盘数据发生损坏后,可以利用剩下的数据和相应的奇偶校验信息恢复被损坏的数据。

实现数据的高速读写,在写数据时,将数据切成多块,然后并行传输存储到多个存储机群节点的全部磁盘上;在读取数据时,从全部磁盘上同时读取数据不同部分,然后合成为一个数据体。

分布式集群存储,即多个磁盘及网络同时读写,实现了高速的聚合读写功能;存储系统使用的存储越多,则控制器、磁盘和网络端口则越多,存储性能就越强。在线扩展容量时不影响使用;智能平衡以避免热岛效应,增加硬盘的寿命[3]。

2.2 智能化管理技术研究

⑴ 应用软件自动调度研究

GeoEast和Paradigm两种应用软件统一调度,考虑模块特性和需求,合理安排资源,合理创建单线程、多线程,以求均衡资源;基于用户、部门和项目组的配额管理、弹性调度,提高资源利用率;自动负载均衡、用户隔离;多用户协作,一键部署、资源自动发现,批量化配置。

⑵ 集群统一管理和大数据分析

大规模集群的CPU、GPU利用率统计;节点内存使用统计、网络流量统计、I/O数据读写速率、阈值预警机制;适用于各类型设备及不同版本操作系统的监控工具,并对信息的历史记录进行追踪。

⑶ 基于手機APP运维平台研究

开发基于手机APP的IT运维平台,使得用户能够在第一时间反馈故障信息,并能全程监控维护过程,同运维人员沟通并参与评价,从而提高运维人员工作效率,缩短故障处理时间。

2.3 云平台测试与优化研究

测试Hadoop分布式存储应用,以及多软件适应性测试;智能化云调度测试;常规偏移系统、作业类型自动识别;服务器负载均衡测试、关键模块效率测试。

形成基于物探处理行业标准的GeoBench技术测试集,其中BigBench技术开展大数据分布式存储性能测试,测试DFS的I/O性能,验证task的mapper的数量与性能的关系;IozoneBench技术测试不同文件系统的读写性能;SpeedupBench技术通过不同数据体、不同软件,在相同软硬件和文件系统平台上进行对比测试。

根据测试结果,通过人工智能、神经网络等方法,预测在大规模并行情况下,不同应用平台的加速比、运算效率等,从而对云计算、大数据平台的硬件架构和软件开发、应用给出科学的优化建议(图3)[4-6]。

3 云平台关键技术

3.1 主从数据库应用技术

在高并发读写、负载逼近极限情况下,性能指标仍可以维持双曲线甚至对数曲线,且到达顶峰之后不再下降,因为它有丰富的几何类型,实际上不止几何类型,PG有大量字典、数组、bitmap等数据类型,“无锁定”特性非常突出,甚至包括vacuum这样的整理数据空间的操作,可以使用函数和条件索引,这使得数据库的调优非常灵活。

有极其强大的SQL编程能力,有非常丰富的统计函数和统计语法支持,比如分析函数,还可以用多种语言来写存储过程,对于R的支持也很好。

有多种集群架构可供选择,plproxy可以支持语句级的镜像或分片,slony可以进行字段级的同步设置,standby可以构建WAL文件级或流式的读写分离集群,同步频率和集群策略调整方便,操作非常简单。TEXT类型可以直接访问,SQL语法内置正则表达式,可以索引,还可以全文检索,或使用xml xpath[7]。

3.2 大二层网络架构应用技术

其整体扁平化的架构设计,使得计算节点之间高速通过交互,之间不再有汇聚交换机增加转发延时。

支持智能运维管理和可编程化管理,可根据高性能计算的要求,批量下发脚本,配合高性能计算,弹性扩展计算所需要的计算网络资源,或者回收计算网络资源。

4 结束语

构建PB级的地震数据处理系统,创新大二层网络架构,可以满足规模更大且速度更快的地震数据共享存储及计算集群应用。

在GeoEast云平台搭建之后,可形成地质解释云,实现异地浏览、信息交流、技术支持等功能;数据偏移处理云则可跨区域实现资源共享,提高作业运行效率,从而节约运营成本。

参考文献(References):

[1] 詹毅,赵波,刘建红等.GeoEastV3.0地震数据处理解释一体化软件系统[J].石油科技论坛,2017(增刊):4-7

[2] 文佳敏,赵长海,侯红军等.GeoEast海量地震数据高效处理技术[J].石油工业计算机应用,2016.24(3):12-18

[3] 马军,滑维鑫.分布式云平台架构及管理技术[J].数字通信世界,2018.2:183-185

[4] 原建伟,何玉辉,丁洁.大数据实验云平台的设计与实现[J].信息技术,2018.2:68-71

[5] 于由美,刘小斌,江明等.地质综合研究云平台运维管理[J].中国管理信息化,2019.22(7):163-165

[6] 李养生,谢立冬,任红民等.勘探开发专业云平台的建设及应用效果[J].复杂油气藏,2017.10(4):32-35

[7] 陈丽丽.大数据时代的数据库技术应用之我见[J].信息系统工程,2016.6:83-85

猜你喜欢

海量集群架构
基于FPGA的RNN硬件加速架构
一种傅里叶域海量数据高速谱聚类方法
功能架构在电子电气架构开发中的应用和实践
海上小型无人机集群的反制装备需求与应对之策研究
海量快递垃圾正在“围城”——“绿色快递”势在必行
一种无人机集群发射回收装置的控制系统设计
LSN DCI EVPN VxLAN组网架构研究及实现
Python与Spark集群在收费数据分析中的应用
一种基于FPGA+ARM架构的μPMU实现
基于文件系统的分布式海量空间数据高效存储与组织研究