基于大数据的石油云平台设计分析

2017-12-23作者刘春艳承德石油高等专科学校

电子制作 2017年18期

作者/刘春艳，承德石油高等专科学校

基于大数据的石油云平台设计分析

作者/刘春艳，承德石油高等专科学校

在互联网技术与存储技术快速发展的背景下，社会开始从信息时代向数据时代转变，数据成为各行业革命的核心。石油行业作为传统行业，基于数据驱动为其创造新的发展路径。本文讨论了基于大数据的石油基础设施云平台设计，实现EPDM模型的云数据库，具体分析了云平台中石油大数据的运用。

石油大数据；云计算；数据

前言

随着数据时代的到来，不同行业开始尝试利用大数据技术进行新业务开展。石油行业拥有海量数据，然而长期以来这海量的数据并未结构化，远远无法达到统一标准格式。新时期石油行业的发展对油田企业信息化建设提出越来越高的要求，单纯从硬件设备升级来满足数据存储与分析需求已经远远不够，只有建立起石油大数据的集成平台，方可真正实现石油行业信息化，满足石油行业对高计算能力的需求，也便于进行资源管理。

1.云计算概念及应用

■1.1 云计算概念及特种

云计算是在连接互联网计算机上所获取的计算服务，可以实现按需供给计算资源，可以实现更强的计算能力、弹性的计算资源以及更低的使用成本。云计算从本质上来看并非技术创新，实际上是思想层面的创新。

■1.2 云计算服务模式

云计算可以把互联网资源提供给用户使用，云计算的实现依赖于一定的基础软硬件设施，通过高性能软件框架处理数据，为前端与终端提供接口，云计算常用的服务模式包括IaaS层、PaaS层与SaaS层。IaaS层具有代表性的为硬件服务器租用，只把虚拟机与存储资源给用户，IaaS层更加底层，通过用户付费的方式为用户提供计算能力与存储能力；PaaS层下仅需为用户提供软件开发包，不需要用户考虑资源资源管理；SaaS是软件即服务，为用户提供应用软件，对软件使用收取一定费用。

■1.3 云计算平台软件框架

在石油行业建立大数据云计算平台的难点在于两方面，一方面是数据存储困难，另一方面数据分析困难。Hadoop作为开源分布式数据处理架构，由分布式文件系统与并行计算框架两部分构成。分布式文件系统架构模式为主/从结构，包括主节点以及一些数据节点；并行计算框架的计算过程包括Map与Reduce，即映射与化简。

2.基于大数据的石油云平台系统架构分析

■2.1 石油大数据云平台体系结构

构建石油大数据云平台的目的是把海量数据存储于分布式软硬件资源里，从而更加科学的进行资源配置，更加科学地调度数据资源。这样以来，石油大数据云计算平台的体系结构由以下五部分构成：基础设施层、数据源层、云数据层、数据应用层以及终端接入层。系统结构如图1所示。

图1 石油大数据云计算平台系统结构

（1）基础设施层

基础设施差包括物力资源池与虚拟资源池，前者为分布式服务器集群、数据节点，是进行海量数据运算的基本设备；后者是基于虚拟化技术奖分散数据资源进行整合，并最终存放于虚拟化资源池中，根据用户需求提供给客户。由于物力资源池与虚拟资源池之间并不耦合，因此可以更好地维护，并控制油田勘探成本。

（2）数据源层

数据源层包含了石油行业大量原始数据，包括地震数据、录井数据、油气水水井数据，该层实现异构数据存储功能。数据源层的构建是困难的，因为传统石油企业数据库缺少技术标准，数据资源冗余度很高，可能影响云数据库的构建。然而应当注意，数据源层的数据资源存储成果是显著的，因此本文采用数据源层传统数据库。

（3）云数据层

云数据层的设计是为了进行复杂石油数据的管理，构建起便于石油大数据存储的数据结构，也满足业务需求。

（4）数据应用层

数据应用层是面向用户的，可以为用户提供勘探、开发、集输等具体应用，用户则根据所需从中选取相应数据。数据的提取过程十分简单，仅需通过终端设备在取得系统使用权限后即可获取资源。该层提供通用的数据访问接口，可以针对上层用户不同请求实现不同需求。

（5）终端接入层

终端接入层即包括移动设备、虚拟化桌面等，方便针对不同业务需求达到数据访问的目的。

为了实现上述的由下而上的系统结构，需要在数据源层利用之前数据库，然而，由于把数据源层数据加载至云数据时，数据结构尚未初始化。本文拟采用数据集成总线把异构的石油数据标准化，然后为软件体系提供接口设计。

■2.2 基础设施平台实现

油田行业信息化建设对基础硬软件要求高，因此高性能计算是当前油田企业信息化建设必须解决的难题，对该难题归纳，主要困难包括软硬件资源浪费、维护系统成本高、管控自动化程度低三方面。为了解决上述难题，将HPC紧耦合方式接触，创建出分布式的服务器集中形式。本文基于Hadhoop进行高性能计算机的讨论。如何合理智能的利用数据资源至关重要。

（1）统一的资源管理

由于缺少资源划分标准，所以节点分配管理过程中应当遵循的原则是不浪费、不重复，可以按照实际业务需求来分配节点，最终可以进行以下节点群的分配：Seismark（2台）、管理节点（3台）、Hadoop（14台）、Petrel（图形工作站7台）、负载监控（5台）、Eclipes（3台）、OpenWorks 5000.3（12台）、SKUA（7台）。上述节点群分配的脚本配置如下：