一种面向智能油气田数据资产管理的数据编码方法及应用
2021-11-06汤晓勇胡耀义杨洪浩
汤晓勇 胡耀义 杨洪浩
1. 中国石油工程建设有限公司西南分公司, 四川 成都 610041;2. 重庆机电智能制造有限公司, 重庆 400072
0 前言
信息的表现形式是数据,客观、明确的信息是数据交换并产生价值的先决条件。在数据资产管理过程中,数据应该具有明确且稳定的含义,并具有唯一的表示方法,这种表示方法称为数据编码,其既可描述数据的分类,也可标识数据的特征[1-6],并与其所对应的数据一一映射。目前,在面向智能油气田的数据资产管理领域,虽然有GB/T 7027—2002《信息分类和编码的基本原则与方法》和SY/T 5785—2007《石油工业信息分类与编码导则》等相关标准规范做指导,但仍缺乏可直接使用的数据编码模型和规则[7-11],成为数据资产化程度较低的主要原因之一,数据交付效率出现瓶颈,尤其是海量数据中以实体对象为载体的关联数据交付方面,存在的问题更为突出。本文结合近期智能油气田数据资产管理的工程实践和应用需求,提出了一种基于固定码的数据编码方法,可促进智能油气田数据资产的形成、深化应用和价值释放。
1 智能油气田数据资产管理
油气企业的数字化转型和智能化发展是全球油气工业实现可持续发展的必然趋势。数字化转型的核心工作是“数据生态”建设和“数据治理”;具体手段是数据的资产化;实现的路径是通过数据采集、存储、使用和管理建立数字化交付体系,保障数据以服务交付的形式进行流动,进而在智能油气田的“应用生态”中最大程度地产生价值,促进油气田业务流与数据流融合发展[12-16]。
数据资产管理主要包括数据标准、数据模型、主数据、元数据、数据质量、数据价值和数据共享等方面的内容[17-20]。数据资产管理的关键就是要实现数据资源的资产化、形成数据资产,并进行有效的经营、管理和应用,其保障措施主要包括数据资产战略规划、组织架构、制度,以及数据资产管理工具与方法的建立。智能油气田数据资产管理的目标就是要通过数据资产的建设,提升数据质量、实现数据的快速共享和有效应用,使得数据价值得以持续释放,保障智能油气田良好的“数据生态”环境。通过对描述实体对象的数据进行编码,形成描述实体对象的数据与数据编码的一一映射关系,并将数据编码也作为一种数据资产,可以有效解决复杂类型数据的精细化管理,以及面向不同应用的在不同形式数据库中快速遍历与交付等问题。
2 数据编码模型
2.1 模型设计原则
数据编码贯穿智能油气田数据资产管理的全生命周期,其体现形式有固定码和不固定柔性码两种。考虑到物理油气田与数字孪生体的映射关系固定、数字孪生体的实体对象固定、实体对象与数据之间的关联关系固定,本文选择固定码进行数据编码模型的设计。面向智能油气田数据资产管理的数据编码模型设计,应重点考虑数据的快速交付、敏捷应用和高效查询,以保障数据资产管理目标的实现。在此背景下,数据编码模型设计应遵循以下原则。
1)唯一性。数据编码模型设计应体现其所表示数据的唯一性,要避免出现“同一数据对应不同编码”或“同一编码对应不同数据”的现象,防止数据编码的“二义性”。
2)稳定性。数据编码模型设计体现数据最稳定的本质属性或特征作为数据编码模型的输入,并体现数据的分类和标识特性,防止非本质属性因素进入数据编码模型。
3)扩展性。在数据编码规则域,应满足适应不同油气田的标准码位和备用码,确保数据编码体系的形式统一和含义完整。
4)易辨认性。在数据编码值域,从系统工程角度出发,确保固定的码位有固定的含义,尽量减少无含义码。
2.2 模型设计
在智能油气田中,数字孪生体是数据资产的重要内容之一,其在业务关注的范围内映射了现实世界中油气田的物理实体。构成数字孪生体的要素包括几何模型、数据模型、仿真模型和业务模型,基础均指向数据的资产化,并体现数据之间的关联关系,这要求数据具备多方应用,且保证数据同源并唯一。解决该问题的有效方法是对数据建立数据编码,并尽可能地使数据编码具有明确可识别的含义。基于此,提出了基于固定码的数据编码模型架构,见图1。
图1 数据编码模型架构图Fig.1 Architecture diagram of data coding model
数据编码模型由数据分类码和数据标识码构成。数据分类码体现了数据本身的权属分类和物理实体对象的分类,且该物理实体对象的分类与数字孪生体的数字实体应保持一致,可为数据的资产化转化和价值应用创造条件。数据标识码用于标识物理实体对象和物理实体对象属性,物理实体对象代表了物理实体对象类的一个特定对象;物理实体对象属性用于描述物理实体对象,其体现形式为结构化数据、非结构化数据和半结构化数据,而每一项属性的标识内容包括数据类型、数据来源、数据采集方式和数据版本。数据标识码标识了其所代表物理实体对象的唯一、物理实体对象属性的唯一和描述该物理实体对象数据的唯一。
3 数据编码规则
3.1 制定原则与方法
数据编码规则是智能油气田数据资产管理内容中数据标准的重要组成部分,其制定原则与方法如下。
1)数据编码规则的长度可分为固定码或不固定柔性码,本文提出的数据编码为固定码,以便于数据编码与智能油气田数据资产管理软件的有效融合和实践应用。
2)数据编码规则体现的内容包括了有含义码和无含义码,无含义码主要指由阿拉伯数字形成的连续流水码。
3)数据编码规则由多个分段组成,分段之间采用英文字符下划线“_”连接,且编码过程中不应包含英文字母O和I,但包含了阿拉伯数字0和1。
3.2 编码规则
编码规则由数据分类码编码规则和数据标识码编码规则构成。
3.2.1 数据分类码编码规则
数据分类码由数据权属分类和油气田物理实体对象分类组成,数据权属分类码用于建立与油气田组织机构一致的数据归属关系,可采用油气田行政组织分类编码,也可采用自编码,但应是有含义的固定码,推荐采用英文字母组成,确保其拓展性和有含义性。物理实体对象分类应包括油气田所有物理实体对象类,所有物理实体对象类采用有含义的固定长度的英文字母构成。这里需要注意的是该物理实体对象类是物理实体对象分解结构(Entity Breakdown Structure,EBS)的结果,不存在抽象逻辑上的实体分类,确保数据编码在数字孪生体与物理实体的精准映射。
3.2.2 数据标识码编码规则
数据标识码由物理实体对象标识码、物理实体对象属性标识码、物理实体对象属性的数据类型标识码、物理实体对象属性的数据来源标识码、物理实体对象属性的数据采集方式标识码和物理实体对象属性的数据版本标识码构成,所有编码均为固定码。
3.2.2.1 物理实体对象标识码编码规则
物理实体对象标识码用于区分不同类物理实体对象,或用于区分同类物理实体对象中不同对象,可标识油气田所属厂(站/井场)或线路分类下的具体物理实体对象,该物理实体对象可采用固定长度的英文字母或阿拉伯数字流水码进行编码,具体使用中根据油气田所属厂(站/井场)或线路的最大物理实体对象数量设置编码长度。
3.2.2.2 物理实体对象属性标识码编码规则
物理实体对象属性标识码用于区分同一物理实体对象的不同描述属性,可由两段编码组成,第一段由1位英文字母形成,可用Y表示数据采集策划时的必采数据项,用N表示数据采集策划时的选采数据项;第二段由固定的英文字母或阿拉伯数字组成,表示描述该物理实体对象的特定属性,包括结构化数据、非结构化数据和半结构化数据属性。
3.2.2.3 物理实体对象属性的数据类型标识码编码规则
物理实体对象属性的数据类型标识码用于区分同一物理实体对象不同属性值所使用的数据类型,由1位英文字母组成。其中,S表示结构化数据类型、U表示非结构化数据类型、P表示半结构化数据类型。
3.2.2.4 物理实体对象属性的数据来源标识码编码规则
物理实体对象属性的数据来源标识码用于区分物理实体对象属性值产生的源头,由1位编码组成。如:油气田参加单位的数据源中,可用E表示工程设计单位、P表示采购和供应单位、C表示施工单位、T表示检测单位、M表示监测单位、S表示监理单位、Q表示质量监督单位,阿拉伯数字0表示建设单位。
3.2.2.5 物理实体对象属性的数据采集方式标识码编码规则
物理实体对象属性的数据采集方式标识码用于区分物理实体对象属性值的获取方式,由1位英文字母组成。如:A表示通过软件工具自动采集数据、M表示人工手动采集数据。
3.2.2.6 物理实体对象属性的数据版本标识码编码规则
物理实体对象属性的数据版本标识码用于区分同一物理实体对象的同一属性在不同时间点所产生的不同数据值,由2位阿拉伯数字组成。每个数据值的版本从00开始,以步长为1逐级递增。
4 数据编码示例及应用
4.1 数据编码示例
准确掌握数据编码的含义是数据资产管理者和使用者的基本素质。按照上述编码规则,假设A油气公司B集气站一批弯头中某个弯头的施工日期为2021- 08- 08,则可对该条数据,基于上述规则编码为0001_0026_L2WT_000139_S_Y005_C_A_00。当数据资产管理者和使用者看到该数据编码时,可反映出:0001表示A油气公司的行政组织分类,明确了该数据资产的权属关系;0026表示A油气公司的B集气站;L2WT表示弯头物理实体对象类,该物理实体对象类为基于1级物理实体对象类下的第2级分类;将A油气公司B集气站下的所有弯头物理实体按顺序进行编号,而000139为该弯头的具体编号;S表示施工日期的数据类型为结构化数据;Y005表示施工日期为描述该弯头所有属性中的第5项属性,且为必采项数据;C表示该数据产生源头为施工单位;A表示该数据为自动采集;00表示该项数据为第1次采集形成的第1个版本。
4.2 数据编码应用
智能油气田数据资产管理的核心是让数据产生价值,形成经济效益,面向智能油气田的数据资产管理,其数据编码可应用于以下几方面。
1)在智能油气田“应用生态”建设中,智能应用要求对数据进行准确和快速获取。以图数据库的节点为单位描述物理实体对象,并将数据和数据编码作为节点的属性保存在同一节点中,则节点和节点之间的关系为物理实体与物理实体之间的关系,节点中的数据编码信息则反映出所关联数据的附加信息,这样可以通过遍历数据编码间接查询不同类型的数据,进而解决关系数据库只能通过表连接进行数据查收,且只能处理结构化数据的问题。
2)通过数据编码进行数据的查询并完成自动交付,可有效提升数据的交付效率,尤其是非结构化数据和半结构化数据的交付。长宁50×108m3/a产建工程数字化气田项目中,在结构化数据、非结构化数据和半结构化数据量相同的条件下,基于数据编码进行了数据遍历和自动交付测试。当数据量由100条增加到10 000条时,所消耗的时间从平均0.3 s仅增加到0.9 s;而采用无编码自动交付进行同样的数据样本测试,所消耗的时间则从平均1.2 s增加到11.2 s。由此,说明基于数据编码进行数据遍历和交付的效率优于无编码数据自动交付的效率。
3)在智能油气田的数字孪生体构建中,数字孪生体实体对象与数据的关联是一项复杂的技术性工作,因数据编码自身隐含了物理实体对象和数据之间的逻辑关系,利用数据编码,可快速实现数据和数字孪生体实体对象之间的准确挂接。通过对长宁50×108m3/a产建工程数字化气田项目H19集气站数字孪生体中87 567条数据进行二三维关联测试,其数据关联时间从过去数天提升到秒级,准确率达96.12%,而未准确挂接部分则是由于采集数据的质量不合格而未对数据进行编码造成。
4)将数据编码作为数据资产进行管理,在数据资产对象上加载数据编码标签,在大数据分析过程中,可将数据编码作为数据集要素进行数据挖掘与分析。如:通过数据编码对管道和设备焊缝不合格的关联信息进行大数据分析,可实现对焊接人员和施工单位绩效的科学评估,并有效提高数字化协同建造的水平和工程质量。
5 结论
数据编码贯穿智能油气田数据资产管理的全生命周期,该数据编码方法已在长宁50×108m3/a产建工程数字化气田项目等数字化工程中进行了应用实践,并在中国石油勘探与生产公司《油气田地面工程数字化交付技术规定第2部分数据编码》中进行了实例化。
1)数据编码不仅是重要的数据资产,而且一定程度上体现了数据的资产化程度。在面向智能油气田建设过程中,数据编码对数据资产管理、数据资产价值释放和数据资产价值交付具有重要意义。
2)在智能油气田数据资产管理领域中,数据编码表达了数据的唯一性,体现了数字孪生体实体对象及其描述实体对象数据的关联性,解决了数据资产管理中如何通过数据编码在海量无序数据中快速查询、交付和应用数据的问题。
3)数据编码与数据同生共死,具备全生命周期管理的特点,数据编码体系的建立和有效运行,可支撑历史数据编码隐含信息的大数据应用,进而有效支撑油气田工程建设的精细化管理和生产运行的智能化应用。