基于大数据的石油云平台设计分析
2017-12-23作者刘春艳承德石油高等专科学校
作者/刘春艳,承德石油高等专科学校
基于大数据的石油云平台设计分析
作者/刘春艳,承德石油高等专科学校
在互联网技术与存储技术快速发展的背景下,社会开始从信息时代向数据时代转变,数据成为各行业革命的核心。石油行业作为传统行业,基于数据驱动为其创造新的发展路径。本文讨论了基于大数据的石油基础设施云平台设计,实现EPDM模型的云数据库,具体分析了云平台中石油大数据的运用。
石油大数据;云计算;数据
前言
随着数据时代的到来,不同行业开始尝试利用大数据技术进行新业务开展。石油行业拥有海量数据,然而长期以来这海量的数据并未结构化,远远无法达到统一标准格式。新时期石油行业的发展对油田企业信息化建设提出越来越高的要求,单纯从硬件设备升级来满足数据存储与分析需求已经远远不够,只有建立起石油大数据的集成平台,方可真正实现石油行业信息化,满足石油行业对高计算能力的需求,也便于进行资源管理。
1.云计算概念及应用
■1.1 云计算概念及特种
云计算是在连接互联网计算机上所获取的计算服务,可以实现按需供给计算资源,可以实现更强的计算能力、弹性的计算资源以及更低的使用成本。云计算从本质上来看并非技术创新,实际上是思想层面的创新。
■1.2 云计算服务模式
云计算可以把互联网资源提供给用户使用,云计算的实现依赖于一定的基础软硬件设施,通过高性能软件框架处理数据,为前端与终端提供接口,云计算常用的服务模式包括IaaS层、PaaS层与SaaS层。IaaS层具有代表性的为硬件服务器租用,只把虚拟机与存储资源给用户,IaaS层更加底层,通过用户付费的方式为用户提供计算能力与存储能力;PaaS层下仅需为用户提供软件开发包,不需要用户考虑资源资源管理;SaaS是软件即服务,为用户提供应用软件,对软件使用收取一定费用。
■1.3 云计算平台软件框架
在石油行业建立大数据云计算平台的难点在于两方面,一方面是数据存储困难,另一方面数据分析困难。Hadoop作为开源分布式数据处理架构,由分布式文件系统与并行计算框架两部分构成。分布式文件系统架构模式为主/从结构,包括主节点以及一些数据节点;并行计算框架的计算过程包括Map与Reduce,即映射与化简。
2.基于大数据的石油云平台系统架构分析
■2.1 石油大数据云平台体系结构
构建石油大数据云平台的目的是把海量数据存储于分布式软硬件资源里,从而更加科学的进行资源配置,更加科学地调度数据资源。这样以来,石油大数据云计算平台的体系结构由以下五部分构成:基础设施层、数据源层、云数据层、数据应用层以及终端接入层。系统结构如图1所示。
图1 石油大数据云计算平台系统结构
(1)基础设施层
基础设施差包括物力资源池与虚拟资源池,前者为分布式服务器集群、数据节点,是进行海量数据运算的基本设备;后者是基于虚拟化技术奖分散数据资源进行整合,并最终存放于虚拟化资源池中,根据用户需求提供给客户。由于物力资源池与虚拟资源池之间并不耦合,因此可以更好地维护,并控制油田勘探成本。
(2)数据源层
数据源层包含了石油行业大量原始数据,包括地震数据、录井数据、油气水水井数据,该层实现异构数据存储功能。数据源层的构建是困难的,因为传统石油企业数据库缺少技术标准,数据资源冗余度很高,可能影响云数据库的构建。然而应当注意,数据源层的数据资源存储成果是显著的,因此本文采用数据源层传统数据库。
(3)云数据层
云数据层的设计是为了进行复杂石油数据的管理,构建起便于石油大数据存储的数据结构,也满足业务需求。
(4)数据应用层
数据应用层是面向用户的,可以为用户提供勘探、开发、集输等具体应用,用户则根据所需从中选取相应数据。数据的提取过程十分简单,仅需通过终端设备在取得系统使用权限后即可获取资源。该层提供通用的数据访问接口,可以针对上层用户不同请求实现不同需求。
(5)终端接入层
终端接入层即包括移动设备、虚拟化桌面等,方便针对不同业务需求达到数据访问的目的。
为了实现上述的由下而上的系统结构,需要在数据源层利用之前数据库,然而,由于把数据源层数据加载至云数据时,数据结构尚未初始化。本文拟采用数据集成总线把异构的石油数据标准化,然后为软件体系提供接口设计。
■2.2 基础设施平台实现
油田行业信息化建设对基础硬软件要求高,因此高性能计算是当前油田企业信息化建设必须解决的难题,对该难题归纳,主要困难包括软硬件资源浪费、维护系统成本高、管控自动化程度低三方面。为了解决上述难题,将HPC紧耦合方式接触,创建出分布式的服务器集中形式。本文基于Hadhoop进行高性能计算机的讨论。如何合理智能的利用数据资源至关重要。
(1)统一的资源管理
由于缺少资源划分标准,所以节点分配管理过程中应当遵循的原则是不浪费、不重复,可以按照实际业务需求来分配节点,最终可以进行以下节点群的分配:Seismark(2台)、管理节点(3台)、Hadoop(14台)、Petrel(图形工作站7台)、负载监控(5台)、Eclipes(3台)、OpenWorks 5000.3(12台)、SKUA(7台)。上述节点群分配的脚本配置如下:
专业的权限控制软件价格昂贵,甚至高于硬件资源成本,因此如果希望通过需求使用峰值购买权限会提高成本。笔者认为可以在权限管理模块里对权限资源进行合理的调度,例如基于优先级任务发放权限,也可以立即终止长时间占用。在依据石油企业实际资源情况的情况下生成分配策略,有利于提高资源使用效率。
中石化等油田企业是基于项目驱动进行资源调度的,通过建立起高性能计算集群,并在其上部署若干项目,实现项目的权限调度,实际脚本配置文件如下:
在上述脚本配置中可以看出,通过建立project_cy和Project_kt两个不同项目,并使二者同时拥有Hadoop权限,且权限调度比例等于2:1。
(2)集群远程可视化
当前石油基础设施云平台的图站服务器无法满足实际使用中的高并发问题,即当用户集中登录并访问将可能导致图站服务器直接死机。因此需要对图站资源进行科学的管理,可采用的可视化方案应满足自助式、集群式以及远程化的目标。
(3)基于策略的资源调度
为了组大程度减少数据资源浪费的情况,可以采用以下三种计算资源调度方式:公平调度、基于时间变化的调度、抢占性调度。在Eclipes软件中的资源调度配置情况如下所示:
3.石油云数据库设计
■3.1 设计思路
云数据的设计流程复杂,只有遵循模型设计标准方可减少设计工作量。目前应用较多的是EPDM模型,因此本文在EPDM基础上,结合搜索模型扩展业务需求,实现EPDM模型的拓展,并使EPDM模型与云数据模型完成自动迁移过程,最终构建起云数据库闭环更新流程。
■3.2 石油云数据库设计规范
云数据的设计中命名规则至关重要,直接影响系统的调试工作,而石油云数据的设计应当考虑石油行业情况,把标准命名规则和石油行业情况进行融合。
(1)包名
包名的确定通常根据业务实体划分,包名缩写规范中是从整个包名里提取2个字母,而数据库里拥有同一级别的包名不可重复。除此之外,本文构建的石油云平台对包名有以下要求:当业务需求改变时,仅需在Comment里添加信息即可;满足从专业到基础,再到数据频度的多级包分类要求;新增包应解释新包和老包的关系。
(2)表名
表名的命名规则如下:项目包名_缩写1_缩写2_缩写3。以井作业为例,其对应的表名为BE_WELL_OP_PHASE。
(3)字段名
字段名中的英文字母均为大写,命名效果应达到“见名知意”。业务人员整理统一规范的中文名称,将中文名词翻译为英文,并用惯用英文缩写代码表来制定英文缩写名称。字段数据类型包括char(n)、varchar2(n)、numeric(n,p)、data、clob、blob等六种。
4.石油云平台的实际应用
数据存储能力并无法直接提升油田企业的竞争力,而数据的应用才是构建石油云平台最终的目的,如何把数据资源作为服务来提高资源使用效率是当前应当解决的问题,而石油云平台的应用依赖于应用系统接口设计,本章将讨论数据应用的分层式架构设计:
■4.1 应用层
应用层包括遗留应用系统、新应用系统以及商业软件系统。遗留应用系统是将传统信息化建设中冗余的资源集成起来的系统,新应用系统是基于云数据库访问视图与表的系统,商业软件软件系统是根据特殊业务需求建立的项目主库。
■4.2 服务层
对于遗留应用系统,可以基于视图直接访问传统数据库模型的应用视图,而新应用系统的接口可以设计为如下四类:测井类、地震类、钻录井类、井查询类。
■4.3 商业软件服务接口
商业应用软件和云数据库的集成相当困难,因此可以基于综合应用软件建立项目主库,例如可以基于Petrel平台访问云数据库,然后将从中获取的数据放在工区内,实现数据分析,将系统可实现的价值放大。
5.总结
石油大数据发展是当前石油行业必经的过程,本文所提出的基础设施云平台方案一方面可以满足油田企业生产实际,另一方面也尽可能满足云计算标准。只有把软件、硬件以及数据根据用户需求发放给用户,并对数据资源进行统一管理,方可提高数据资源的利用效率。在未来,石油数据的价值挖掘、数据安全性等问题将是研究热点。
* [1]周力臻. 大数据云平台数据流量优化管理仿真[J]. 计算机仿真,2016,33(12):462-465.
* [2]张新朝. 基于云平台虚拟集群的设计与实现[D].闽南师范大学,2015.
* [3]李智鹏,许京国,焦涛,吴海燕,安秀娟,姜思诚. 如何运用大数据技术优化石油上游产业[J]. 石油工业计算机应用,2015,(01):8-12+3.
* [4]李金诺. 浅谈石油行业大数据的发展趋势[J]. 价值工程,2013,32(29):172-174.