塔里木油田录井历史数据治理技术
2023-12-13周冰冰ZHOUBingbing王国瓦WANGGuowa陈慧CHENHui胡春霖HUChunlin李文华LIWenhua
周冰冰 ZHOU Bing-bing;王国瓦 WANG Guo-wa;陈慧 CHEN Hui;胡春霖 HU Chun-lin;李文华 LI Wen-hua
(①昆仑数智科技有限责任公司,库尔勒 841000;②塔里木油田公司勘探开发研究院,库尔勒 841000;③塔里木油田勘探事业部,库尔勒 841000)
1 塔里木油田录井数据治理工作的价值
数据科学与大数据技术应用需要高质量、全方位的数据支撑,数据治理工作变得至关重要。其中录井专业历史数据对于油田各应用都是十分关键的数据。
其重要意义体现在:①有效的录井数据治理可以很好地支撑各应用项目的运行。录井历史数据对于判断井下地质及含油气情况,分析判断井下钻探工程概况等都具有重要意义。绝大多数应用获取地下地质油气等信息都需要借助录井数据。②有效的录井数据治理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让各油田应用可以方便、及时地获取到所需的录井数据,并迅速展开工作,而无须在部门与部门之间进行协调、汇报等,从而有效提高工作效率。③有效的数据治理能够降低企业IT和业务运营成本。一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本;标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。
2 数据治理原则
2.1 保护数据安全
数据应是来源业务单位的真实信息,因此,在数据治理中应考虑到数据的保密性和安全性,全面考虑其对社会利益、国家安全影响。收集开通数据库权限,要征求相关部门同意,获取非结构化文档要告知目的和用途,同时要避免误导一些行为。对于收集数据后的储存、流通,也要采取相对严格的保护措施。
2.2 数据治理应该由业务主导
组织中的数据是由业务人员创建的,由业务人员管理,而糟糕的数据也主要影响业务人员。数据支持业务决策。如果这些决策出了问题,其影响将是企业,而不是IT。因此,业务应该领导数据治理,虽然IT确实应该参与其中,但它们不应该处于主导地位。
2.3 编写操作清单,记录过程记录
数据间存在关联,把数据间的关联关系陈列清楚、注意事项标注清楚,操作前一一核对,小数据量验证无错后,大数据量执行。
2.4 可持续发展
治理程序不是一个项目作为终点,而是一个持续的过程。需要把它作为整个组织的责任。数据治理必须改变数据的应用和管理方式,但也不代表着组织要作巨大的更新和颠覆。数据治理是超越一次性数据治理组件实施可持续发展路径的管理变革。
3 录井数据治理的实施
油田数据治理工程十分重要,已经广泛应用在油田企业中,本文主要分析了塔里木油田录井专业历史数据治理的实施效果。
塔里木油气田目前已经建成一系列的信息管理系统,实现了对结构化数据的有效管理和应用,数据科学与大数据技术与油气勘探开发业务的融合应用正在为油气领域数字化转型、高质量发展以及企业战略目标的实现提供新契机。其数据科学与大数据技术应用已经取得了一些成绩,数据结构化成果相对完整,但历史井数据因采集时代的不同,数据标准不统一,历史管理模式差别,以及各专业库间存在的结构差异,统建系统、自建系统重复采集、交叉采集等原因。广泛存在有数据未进库,数据重复,数据存在空值、数值无小数位等问题。历史数据质量不高。
3.1 录井数据治理的流程
录井历史数据的治理工作主要包括数据梳理、数据补充完善、数据审核等3方面的工作数据治理。
具体治理整体流程(图1)从问题反馈为起点,开展数据结构的完善、数据的治理、数据的校验到数据的审核最终质控合格的数据进入数据银行共享层,需要数据生态各组协同开展。
图1 录井专业数据治理流程图
3.2 数据治理要点
3.2.1 数据治理资源盘点
掌握数据现状,需要对自身的数据资源和应用情况进行盘点,要确保数据符合业务需求,就需要人工逐条、逐字段地定义数据标准、核实数据质量,最终完成数据治理现状分析。
3.2.2 数据应用评估
按照领域和场景、企业所在行业和业务范围、企业对于数据使用等级、安全级别梳理数据脱敏的要求和规范,数据被业务系统调用的情况,评估数据应用的范围及引用数据的系统。
3.2.3 录井数据治理范围的梳理
开展数据治理的首要目标是在最短的时间内提升数据质量,保证应用的顺利开展。录井技术是油气勘探开发活动中最基本的技术,是发现、评估油气藏最及时、最直接的手段,具有获取地下信息及时、多样,分析解释快捷的特点。录井数据因其产生阶段不同,录井方法多样,解释处理主体的不同等原因,录井数据具有属性范围极广,数据繁杂等特点。为确保数据治理的目标顺利实现,宜先根据数据现状,根据应用的需求分阶段进行治理,确定好数据治理的范围,或可提高治理效率,并能实现应用短周期内的数据需求。
3.2.4 录井数据治理采用的工具
借助相关工具来完成数据治理的工程,能够更快、更方便地获取数据,可大大提高治理效率,结合数据管理能力评价情况进行数据治理平台功能设计,包括数据质量管理、数据标准管理、数据安全管理、数据模型工具、元数据管理、主数据管理等功能模块。
3.2.5 录井数据源的落实
数据源是指数据分析中所使用的数据具体来源,包括:关系型数据库、元数据、文件型数据、大数据数据源等。对于历史数据治理而言,其中多源不一致,是需要克服的首要问题。源头解决主数据和参考数据的一致性与质量问题。[2]
当存在多个输入文件时,这些文件的顺序可能不相同甚至互不相容。在这种情况下这些输入文件需要进行重新排序。在某些情况下数据库中数据项的来源是一个文件,而在另外一些情况下,则为另外一个文件。逻辑上必须分清楚,以便由适当的数据源提供正确条件下的数据。
3.3 数据治理工程效果
录井专业库的数据以井为单位,依照设计好的模型表结构进行数据存储。在进行数据治理的时候,可直接对照文档进行治理以地层分层表为例(见表1)表1列举出了地层分层表的18个重要字段。
在开展数据治理时,质量管理工作需要注意以下几个方面:第一,数据完整性,保证传输数据时完整传输,不要丢失关键数值等;包括:①模型设计不完整,例如唯一性约束不完整、参照不完整;②数据条目不完整,例如:数据记录丢失或不可用;③数据属性不完整,例如:数据属性空置。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。第二,数据唯一性,要求传输的数据与相关业务之间的关键属性是唯一的;重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。第三,数据一致性,要求所传输的数据的维度和度量值之间的关系是一致的,参考确认好的已知档案馆文档,对比数据库存储的历史数据,与审核归档的非结构化文档所记录数据之间是否存在差异。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。第四,数据准确性,主要指传输过程中要保证数据的精度,符合相关业务的要求;3500km,数据类型为number(7,2),应记录为3500.00,不可写作三千五百米。不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
以井XX地层分层表为例,治理前数据库数据如图2所示,存在明显的数据缺失,严重影响应用的展示效果。治理后,录井专业库数据存储状态如图3,数据质量有了显著的提升,空白的多个字段都进行了正确的补充。
图2 井XX地层分层表(治理前)
图3 井XX地层分层表(治理后)
3.4 录井数据质控
数据质量控制是指对全流程数据的五性进行管理活动,包括数据监测、数据校验等。规定数据质量元素、数据质量约束、数据质量业务规则三级体系。①定义5个关键的数据质量元素,包括完整性、一致性、准确性、及时性和关联性(注:历史数据不进行及时性的相关约束)。②数据质量约束描述数据间应遵循的抽象制约和依存关系。按照约束对象的不同,将数据质量约束划分为数据约束和数据集约束。③数据质量业务规则是涉及到具体逻辑模型的详细描述,是数据质量约束的具体化。数据治理智能平台能够对数据接入、针对用户对信息获取的时间及时性要求,确保数据及时更新数据处理、数据组织等过程的数据进行采样并输入到质量样例数据库,建立数据质量核验任务,开展数据质控,自动完成数据质量完整性、准确性、一致性、唯一性的检查,对于质控无法通过的数据及时整改。通过审核后的录井数据汇交到录井专业交换库。[4]
至此,实现了公司业务系统录井历史数据的数据治理工作。
3.5 录井数据的应用
通过数据治理工程来管理数据,解决了很多数据的问题,提高了数据录入、转存、查询、过滤的效率,同时也取得了很好的效果:①补充录井专业历史缺失数据,提高数据质量,为方案设计、生产管控等业务提供高质量的数据;②通过本项目的建设,不断提高数据质量,使数据向资产转化;③实现工程技术领域数据的质量提升,为建立虚拟井筒、智能化应用建设提供数据支撑;④在数据治理过程中,以满足业务应用为主要目标,促进数据的使用,落实数据责任,提供一套数据治理工作流及数据治理规范指南,为数据生态的建设贡献力量,缩短取得数据的时间,速度快,效率高,推动了智能油田建设,更好地应用了油田大数据。
4 结束语
数据治理是需要不断的迭代和优化,需要进行长效的持续运营,要将其变成企业的一种机制、一种工作习惯,而油气田企业数据治理每一次迭代优化都推动数字技术与油气产业深度融合。
建立了成熟的数据治理体系,好的数据治理体系可以盘活整条数据链路,可以最大化保障油田数据的采集、存储、计算和使用过程的可控和可追溯。数据治理是个人、技术和系统的组合,它们协同工作以保护组织的数据、确保数据准确、全面。