APP下载

浅谈石油勘探行业数据湖建设中的数据治理问题

2021-11-22

中国管理信息化 2021年9期
关键词:数据源时序结构化

张 芸

(大港油田信息中心,天津 300280)

1 背 景

1.1 数据湖

随着大数据技术的发展,单一的数据形式不再满足人们对数据利用的需要,多种多样的数据以不同的形式存储起来,有数据表形式的结构化数据,有图像、视频等非结构化数据,还有具有时间规律和标签的时序数据。多种多样的数据形式,让结构化数据存储方式不再满足人们的需求,数据湖的概念开始兴起。

数据湖(Data Lake)这个术语由Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)提出,他对数据湖的定义是,可以把所有的数据都放入数据湖中,应用数据时定义它的数据结构。也就是说,对于存储的数据,数据湖并不定义它的数据类型,这样数据湖就可以存储各种类型的数据,并且通过统一的存储,让不同的数据都有相同的存储方式,而在数据应用的时候定义其数据结构,让应用方便连接到数据湖上获取数据。

目前,在通用行业中的数据湖建设多和大数据平台Hadoop 结合,利用其开源、组件丰富、分布式存储、并行处理等特点,来实现数据湖定义中的存储多种类型的数据方式。

目前市面上常见的数据湖产品有微软的Azure Data Lake、IBM 的数据湖产品、灵雀云数据湖等相关产品。

1.2 石油勘探行业的数据湖建设

面对新的数据湖技术,结合石油勘探行业的数据特点和自身需求,石油勘探领域的数据湖建设正如火如荼展开。

2018 中国石油梦想云一期建设已完成,在二期的规划中将遵循“两统一、一通用”原则,上游信息总体架构由数据源、数据湖、基础底台与服务中台、应用前台和门户入口组成。油气田负责数据源、特色应用、扩展应用及相关服务中台功能的建设,其他内容由总部统一建设。

2019 年中石油旗下各分公司开展区域湖建设,一方面集成各油田所有类型数据,为各油田提供数据湖服务;另一方面和总湖互通,成为总湖的数据源头。真正做到了集小水源汇聚成江海,数据湖建设遍地开花,成为中石油数据湖建设和应用的数据基础。

2 数据湖建设中的数据治理问题

2.1 油田已建系统的数据集成问题

在数据湖建设之前,各油田均有各自的数据存储和管理系统,包括中石油总部统建和自建系统,这些系统是各油田信息化的成果,是珍贵的数据资源和重要数据来源。而数据湖的结构化数据的集成,则面临如何将这些系统的主数据统一、属性数据统一、多源数据择取其一的问题。

主数据统一的问题主要集中在不同系统的主数据存在不一致的现象,以井号举例,在A 系统和B 系统中都存在同样的一口井,但这口井在各个系统中都有不同的井唯一编码。在数据湖建设中,既需要通过系统A 中的该井编码查询系统A 中的业务数据,也需要系统B 中的该井编码查询该井在系统B中的业务数据,数据湖在集成这两个系统的数据时,需要统一它们的主数据编码。

属性数据是每个系统中的代码表,比如套管名称、岩石颜色、岩石名称等,这些属性都有固定的属性值的枚举范围,但不同系统间的属性范围可能会有所不同,数据湖需要对这类数据进行统一。

多源数据的问题,主要指的是同一个业务数据在不同的系统中重复采集。数据湖进行数据集成的时候,不仅仅是将数据按照系统中固有的模型进行简单的数据迁移,更是要考虑不同的系统中如何把它们科学地、合理地组织成一个整体,对多源的数据需要确定唯一来源,避免重复数据入库。

除此之外,如何对现有数据尤其是现存系统中的历史数据进行入湖的质量控制,让优质数据入湖、存疑数据进行确认和整改,是数据湖数据资源建设过程中需要注意的重要问题之一。

2.2 非结构化数据和时序数据问题

石油勘探行业非结构化数据(如文档、视频、地震资料等)主数据如何管理,非结构化数据尤其是大块数据在数据湖中如何保证读取速度的问题。

时序数据多以时间为标签,而时序数据的数据库大多是非关系型数据库,时序数据如何和数据湖中的数据建立主数据的联系,如何能利用时序数据自身的特点开展大数据应用,都是需要解决的问题。

2.3 数据湖建成后已有数据应用系统切换问题

数据湖的数据应用问题主要集中在如何低成本地切换已建应用系统从数据库连接到数据湖连接,保证已建系统更换数据源后的可用性。

各大油田存在着众多的老的应用系统,采用直连或传统WebService 的方式多头连接不同数据库或数据服务,在统一切换成数据湖提供服务的方式之前,需要充分考虑到这些老数据应用系统的数据源切换问题,尽可能降低数据源切换成本,切实保证数据应用系统的正常服务。

3 关于数据湖建设中数据治理问题的建议

3.1 建立主数据管理模块

在数据湖中必须集成主数据管理模块或系统,来管理整个数据湖的主数据。对于原有数据湖中的数据,建立映射表,将数据源库中的主数据和数据湖中的主数据建立映射关系,在数据湖中,同一主数据采用唯一的主数据ID,但通过映射表,可查到该主数据对应到各系统中的主数据ID,来保证各系统主数据在数据湖中的统一。对于有矛盾或不能映射的主数据,需要由业务人员进行确认后入库,保证主数据的数据质量。

除此之外,要杜绝除主数据管理模块以外的系统对主数据进行采集,新的主数据入库需要通过主数据管理模块的审核,由主数据模块提供给需要主数据的业务数采集系统,杜绝主数据多源头采集的问题。

3.2 建立数据同步原ID 记录机制

将数据同步到数据的过程中,要有相应字段记录该条数据的来源,在查出问题后可以及时、方便地进行数据的来源回溯,对有问题的数据进行源头整改,保证数据湖中数据的准确性。

在数据整改的过程中,要保存整改记录,在一段时间整改数据应用平稳后,才可将整改记录归档或删除。

3.3 建立科学的集成模型和数据地图

消除信息孤岛是数据湖建设的目的之一。在各油田自建的系统中,因为信息孤岛而重复录入数据的现象很多,数据湖的结构化数据存储模型,要充分考虑各系统的采集和存储数据模型,以主数据为中心,梳理各系统的数据模型,建立集成的结构化存储模型,并通过对各系统数据内容的整理,确定能涵盖各系统同类数据内容的属性规范值进行统一的存储管理。以此来解决多源数据问题和属性值统一的问题。

同时,通过数据流向和数据血缘关系,建立数据地图,将数据流经的各个节点清晰明了地展示出来,尤其是各数据源系统到数据湖的映射关系,需要妥善保存,在映射关系修改之前,应先修改映射关系文件,并及时修正数据地图。

数据地图的建立,可以有效地帮助用户进行数据血缘分析和影响性分析。数据血缘分析便于用户追查数据错误源头;影响性分析有助于在数据发生变化时,立刻确定该数据所影响的系统有哪些。

3.4 建立跨专业质量规则库

根据勘探开发业务逻辑,建立跨库、跨专业的质量规则库,数据质量不再局限于某一专业内,而是需要同一组数据同一阶段产生的不同专业数据进行互相印证,来实现跨专业的质量规则检查。

质量规则库仅存业务规则质量,如 “井段顶深<井段底深”,而不是某个表的某个字段的规则,而是把质量规则和表的字段进行配置,用质量规则约束字段的数据合理性,它应该是灵活的、可配置的。

同时,质量规则库是数据湖的一个模块,它应该是可定制的、可服务化的,不仅服务于数据湖的质量检查,更可以服务于其他系统的质量检查。

3.5 建立质量反馈机制和考核机制

对数据湖中的数据应建立反馈和定期考核的机制。数据问题仅靠质量规则库还不够,还需要用户在应用数据湖中数据时发现问题并及时反馈,从而通过应用来反查数据湖中的问题。

除此之外,应当建立数据湖数据质量的定期考核机制,结合数据质量规则库扫描和用户反馈,来建立数据湖中数据质量的良性循环。

3.6 利用主数据管理模块管理非结构化数据

非结构化数据主数据可以利用数据湖中的主数据模块进行管理,通过访问地址建立映射表,存储在数据湖的结构化数据存储部分,同时,为非结构化数据的属性信息建立非结构化数据的信息库,该信息库作为结构化数据存储在数据湖的结构化数据存储部分,利用结构化数据擅长的信息统计的功能特点,便于非结构化数据的查找和定位。

3.7 非结构化数据异地存储、本地备份

非结构化数据可采用异地存储、本地备份的方式,对于经常访问的非结构化数据在本地进行缓存,来提高常用非结构化数据的读取速度和效率,对于不常用的非结构化数据可采用仅存其基本信息表,数据体可以归档模式存放在其他存储设备上。异地存储和备份的策略,可以提高非结构化数据的容灾能力。

3.8 利用主数据管理模块管理时序数据主数据

时序数据本身大多存储在NoSQL 数据库中,这种类型数据库本身并不擅长关系管理,需要通过主数据管理模块的关系型数据库对时序数据库的主数据关系进行关联和管理。和非结构化数据类似,时序数据的主数据信息表可以作为结构化数据存在数据湖的结构化数据库中。

3.9 采用HBase 等列式数据库管理时序数据

时序数据以时间为标签,而数据湖多以Hadoop 为架构。可以将时序数据的时间字段设置为Key 值,将时序数据放到HBase 上进行管理,Hadoop 对HBase 数据库的查询和定位效率较高,可以根据时间快速查找和定位时序数据的位置。同时,基于Hadoop 的开源数据挖掘组件,可以连接HBase 对其上面的数据进行应用和数据挖掘。

3.10 建立数据应用视图和向下兼容的服务模式

在数据湖的应用层需要建立和数据源库的表同构的数据应用视图,同时根据原库的数据应用方式和应用模式,建立镜像的数据湖服务模式,包括同样的服务名称、同样的访问视图名称,减少新老系统切换的复杂度。

4 结语

数据湖的建设是现今多元化数据时代的必然趋势,只有将不同结构、不同来源、不同系统、不同形式的数据有机、统一地结合起来,数据湖结合数据治理思想,才能为大数据应用打造良好的数据环境。数据湖的建设,是信息技术和计算机科学不断发展和更迭进程中必不可少的一环,它一方面需要兼顾已有系统的正常运行,另一方面又要立足于未来,将数据应用到新的技术中去,用新的技术和系统来保障企业的数据建设从信息化时代平稳地迈向大数据时代,在这个过程中,要时刻重视数据治理的问题,这样才能保证数据湖的数据基石健康、稳固。

猜你喜欢

数据源时序结构化
基于时序Sentinel-2数据的马铃薯遥感识别研究
基于Sentinel-2时序NDVI的麦冬识别研究
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
一种毫米波放大器时序直流电源的设计
基于图模型的通用半结构化数据检索
基于真值发现的冲突数据源质量评价算法
DPBUS时序及其设定方法