APP下载

基于业务的油田数据资源目录构建方法研究

2022-03-16文必龙

计算机技术与发展 2022年2期
关键词:数据模型业务部门视图

文必龙,何 艳

(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)

0 引 言

油田企业多年的信息化建设与发展中,按职能部门与业务域相结合的专业化管理方式通常会将数据应用限制在某一职能部门或专业内,这就导致数据资源离散地分布在各业务部门中、不同来源数据间相对独立,油田企业实现跨部门、跨业务域的数据共享困难;同时,油田企业各职能部门在信息化发展过程中建设的一个个“烟囱式”的业务信息系统,致使信息部门数据管理人员以及公司高层领导对企业的数据规模与分布情况不了解,实施统一的数据管理困难。油田企业的数据管理主要存在以下问题:

(1)数据“看不到”。没有一套完整的数据台账清单或数据资源目录体系可以展现公司数据资源的整体范围和分布情况,以便数据被“看到”。

(2)数据“读不懂”。业务人员、技术人员和管理层对同一数据有不同的认识,技术人员可借助数据字典等资料“读懂”业务数据库、表和字段,而数据库表等却对业务人员和管理人员不够友好,数据“读不懂”,没有统一的数据语言平台。

(3)数据“共享应用难”。企业标准数据模型与相应专业自建业务系统之间不一致,业务系统实际运行状态和原始设计态数据库表不一致,难以支撑跨业务部门的业务协同,数据共享困难。

中国石油企业重点致力于信息与数据标准化工作,发布的很多专业的EPDM数据模型标准所对应的业务有交叉和重叠,因此如何实现基于不同数据模型标准而运行的应用系统间数据共享与统一化管理以及如何解决随着业务拓展与业务信息系统应用带来的“信息孤岛”现象,已经成为石油工业信息化工程重点解决问题之一。

1 相关工作

如今油田企业信息技术的迅速发展,将企业陷在信息难以全面流动的“信息孤岛之间”,不利于油田信息化建设可持续发展,相关专家指出帮助企业冲出信息孤岛的根本出路是信息资源规划。高复先提出信息资源规划概念并研究应用在石油和化工、港航、交通运输、银行等行业,提出将经济活动产生的数据资源作为研究对象,从数据规划角度出发,在企业、事业部门进行信息采集、处理、传输和使用的过程中,开展全方位的规划。信息资源规划工作的展开也是数据管理的必要前提。美国学者威廉·德雷尔(William Durell)指出信息资源管理的根本内容是对数据的管理。

获取数据、掌握数据的全貌是采用数据管理理论落地实施数据资源管理的前提。油田企业数据资源包括企业标准定义的数据,业务系统应用的数据,业务人员填报的报表数据,外部源系统采集的数据以及企业各部门正常运转所产生的电子表单、纸质报表等。因此,想要清晰掌握企业数据资源规模与分布状况,需基于信息资源规划和数据管理相关理论研究,对业务、系统和数据等情况进行全面系统地梳理,展开数据资源目录的建设。

综上所述,该文提出一种基于业务的数据资源目录构建方法,设计提出了“业务-系统-数据关联法”全面摸底梳理企业业务、数据资源和系统现状及需求,按业务域设计并构建数据模型以及梳理数据元字典,基于此构建企业数据资源目录,解决油田业务系统“信息孤岛”现象,为实现数据统一管理与数据共享提供方法支撑。

2 数据资源目录构建的方法论

充分吸收与借鉴国内外有关信息资源规划与数据管理的理论和研究成果后,该文创新地提出了“业务-数据-系统关联法”展开对数据资源的梳理与描述并建立数据资源目录以管理元数据的形式实现数据资源管理与共享,让数据资源被利用起来。

业务-数据-系统关联法(见图1)的核心是从业务部门、业务活动、信息系统、数据库、数据模型(包括数据实体和数据元)这五个维度分析梳理数据的产生/使用关系(Create/Use关系,C/U 关系),系统且全面地梳理与描述数据资源,五个维度相互关联,建立数据资源目录实现对数据资源多维度多角度的分类以及“一点查询,全面展示”的数据资源检索与定位,实现数据共享。

图1 业务-数据-系统关联法

业务-数据-系统关联法以业务活动为中心,打通业务-数据-系统间的关联。按业务、系统和数据三个角度说明各维度之间互通互查的关联关系:

(1)业务角度。 以业务为主线,按业务部门展开调研,将调研收集到的信息分业务域进行集成,按业务域、业务过程/主题、业务活动逐级细化梳理成业务架构,建立各业务域的业务模型。

(2)系统角度。油田企业的信息系统按系统建设者分类可分为总公司统建系统和分公司自建系统,中石油总公司统建系统比如A1、A2系统,相对应EPDM2.0标准数据模型A1、A2而生。油田公司各业务部门自建系统按其建设状态分为已建、在建和待建系统,相应地主要调研获取已建系统的数据库、数据模型和用户视图等,在建系统的用户表单、手工台账等,待建系统的业务数据需求等信息。

(3)数据角度。业务-数据-系统关联法的五大维度中,数据库、数据模型(包括数据实体和数据元)是“数据”的主要体现。结合企业现状,数据模型可分为企业标准数据模型和各部门自建系统的数据模型;数据实体包括数据库表和用户视图等用户表单;数据元是数据的基本单位,不可分割的数据项。业务部门实际应用的系统和企业标准数据模型间不一致,为促进标准数据模型的落地应用和不断完善,需重点展开对系统运行态数据的调研梳理,故此用户视图分析尤为重要。

①用户视图分析。用户视图是数据元素的集合,产生于业务活动的过程之中,是业务信息系统输入输出的媒介或手段。按需梳理的用户视图可分两种:业务过程中操作的用户视图,可称为电子台账(系统界面、电子表单)和根据原始数据采集的业务主题确定的用户视图,可称为手工台账(采集数据的报表、统计表)。分析梳理时,业务过程中操作的用户视图,要确定每个用户视图首次出现的业务活动和流转使用的业务活动、提取用户视图中的数据元以及各个数据元的产生/使用点C/U点(业务活动)并梳理进业务梳理模板形成业务活动的输入输出数据项;业务主题相关的用户视图只需提取用户视图中的各个数据元。

②数据元(DE)分析。梳理标准数据模型数据库表和用户视图中的数据元并进行定义、名称、语义的规范化,其中,业务过程相关的用户视图中的数据元,即面向业务活动的数据元与业务活动可能存在C/U关系,通过DE在用户视图中变化确定每个DE的产生点和使用点。当面向业务过程的 DE和面向业务主题的 DE 相互重复时,说明在业务过程中使用了原始采集的数据,因此,该DE的产生点不属于某个业务过程,而属于相应业务主题的数据采集过程。

3 数据资源目录构建的落地实施

3.1 业务职能域划分与规范化

进行业务职能域划分并规范化是构建数据资源目录的第一步,也是对企业信息资源规划的过程。在油田企业多年发展的基础之上,大多业务域已约定俗成,个别业务域需重新划分。信息部门组织公司髙层管理者与各业务领域专家参会探讨,抽象地划分企业主营业务功能,分析和定义业务域,从逻辑上讲,业务域划分需遵循油气田勘探、开发传统的管理实践习惯,以生命周期为主线,业务域间业务划分不重复,涵盖勘探开发的各个领域。

业务域的划分存在多维度性,当领域专家意见不完全一致时,专家之间以主责业务部门的专家为主。最终将油田公司主要业务明确划分为12个业务域:钻井、录井、采油工程、集输(地面工程)、物探、测井、试油试采、井下作业、地质油藏、样品实验、油气生产、生产测试,并明确12个业务域的范围、相应的一级、二级业务,对应要调研的业务部门。

其中,业务域与油田企业组织架构中的业务部门并不是一一对应的关系,业务域的确定不是现有组织机构或部门名称的翻版或照搬,而是从企业业务功能划分中抽象出来的。例如:试油试采业务域,其业务涉及勘探评价产能中心、钻采研究院下的采油技术推广中心、井下作业公司的公司研究所、监督中心的井下作业监督科等多个部门。

业务域划分敲定后,不能随意更改,不受业务部门调整的影响,具有稳定性。

3.2 业务调研收集信息

调研准备阶段,由调研人员制定调研计划并设计编制《业务与数据资源调研收集模板》,模板包括:业务架构与用户视图梳理模板、标准清单模板、信息系统清单模板、对象清单模板、数据表清单模板。将业务模型、信息系统、用户视图、对象、标准、业务部门都关联起来,按业务部门展开业务、数据及应用需求调研,根据油田的实际组织架构,采用业务部门与业务域相结合并建立职能域矩阵的方式,描述业务部门与业务域之间的对应关系,其中涉及16个业务部门,12个业务域。职能域矩阵如图2所示。

图2 职能域矩阵

正式展开调研工作,需由信息部门组织召开调研工作启动会议,各业务部门负责人、信息部门、企业高层管理者与调研梳理人员参会,信息部门指派工作人员协调调研走访时间,与调研梳理人员正式入场开展调研梳理工作。

业务调研收集梳理的工作按角色和职责列出,如表1所示。开展调研工作遵循 PDCA(P-Plan,计划;D-Do,执行;C-Check,检查;A-Action,纠正)质量管理循环的思想。

表1 业务调研梳理角色与工作内容

3.3 业务架构梳理与建模

在信息工程方法论中,业务架构梳理是指将企业的功能结构按“业务域-业务过程/主题-业务活动”表达,其整体思路是“业务域划分-业务分级梳理-业务活动划分”。

首先,已经对油田公司全部业务功能进行抽象的划分,完成油田业务域划分。然后,调研人员与油田各业务部门对接调研,充分利用调研模板收集到的成果梳理初步业务架构,最后由业务部门业务架构梳理对接人决策,细化各业务域的功能结构,定义每个业务域的业务过程。业务活动划分的依据是:业务活动的定义是灵活的,按照产生与本次业务分析目标有明显关系的标志性成果进行划分,根据对业务功能描述详细程度的要求不同而进行灵活定义业务活动,所谓“最基本、不可再分解”是相对的。将各业务域按“业务域-业务过程/主题-业务活动”梳理整合到业务梳理模板,完成业务架构的梳理,构建业务模型。

3.4 元数据采集与梳理

按业务部门开展业务调研收集到的数据资源,从部门维度转换为业务维度,归至各业务域进行元数据采集与梳理,梳理业务相关的数据项。元数据采集的对象为业务系统数据库、数据表、字段、数据模型、用户视图等,可从以下三个角度展开元数据的收集与梳理:标准定义的元数据、业务系统应用的元数据、待定义的元数据。

(1)梳理标准数据模型。在信息与数据标准化工作中,中国石油公司持续改进和提升企业标准,相继发布石油勘探开发数据模型EPDM的1.0版本和2.0版本。其中,EPDM模型(2.0版本)包括勘探与生产数据模型A1和油气水井生产数据模型A2。此后,发布了采油与地面工程数据模型A5等其他专业的数据模型标准。

袁满等研究中国石油研发的数据模型标准得出结论:EPDM数据模型标准A1、A2、A5等是面向数据采集与存储设计的,适合于作为各个专业实现数据共享的全域数据模型。因此,收集梳理中石油企业标准数据模型如EPDM(2.0版)A1、A2、A5等作为设计全域数据模型的基础。

(2)梳理业务系统应用的元数据。业务信息系统的元数据,包括系统设计态数据和运行态数据,即要梳理系统数据库表和用户视图,采用人工与工具相结合的方式与各个业务信息系统进行对接,按系统分业务域进行元数据的采集与梳理。

首先,调研人员同各业务部门负责人明确在用的业务信息系统清单;然后,各业务系统负责人配合调研人员填写调研模板,提供业务系统信息和数据库信息,包括:业务系统名称、所属业务域、访问账号密码、数据库类型、数据运行版本、数据IP地址等资料;最后,调研人员访问业务系统,对用户视图进行标准化与格式化梳理:来源软件系统、来源业务过程、去向业务过程、输入数据(使用数据)、输出数据(产生数据)等信息。优先选取钻井、录井等业务过程较为清晰的业务域的业务系统做试点调研梳理,可证明该调研收集方法可行。

(3)梳理待定义的元数据。油田公司业务信息系统依建设状态可分为已建、在建和待建三种。调研收集在建和待建系统相关资料:各业务部门提供用于构建数据资源目录实现数据共享的数据资源、提出待建系统的相关功能需求;信息部门从技术角度提供能描述系统现状的资料,以及手工表单、台账、报表等资料,将这些待定义的元数据填充到模板中。

3.5 元数据质量控制

元数据的获取渠道多样且来源复杂,来源企业标准数据模型、各业务部门的已建、在建和待建系统等,由于不同系统平台没有统一的元数据描述规范标准,而元数据的质量又关系到构建数据资源目录实现数据共享的效果,因此应进行有效数据质量检查,控制元数据质量。

由于业务部门的职能存在交叉导致不同业务部门共享同类数据资源,当调研人员从不同业务部门收集到同类数据资源时,需协调业务部门决策以哪个部门为主提供,或是汇总梳理从不同部门收集的同类数据资源,消除不同部门提供的数据差异性,确保所收集的元数据的正确性和唯一性。

元数据采集对象是定义在标准数据模型中的数据表、系统用户视图相关的应用数据表、系统间共享的数据表、手工台账报表等数据表,将其梳理进梳理模板。首先,对元数据中无业务含义的数据表及空表、备份表、临时表等无效表,可使用数据库工具等建立无效表过滤规则,并与人工校验相结合,对调研收集到的业务系统全部数据实现筛选和过滤,准确识别出业务系统的有效表和有效用户视图。其次,采用工具和人工结合识别具有业务含义的数据字段,去除表中的注释信息等。最后,对调研获取的海量元数据“去重复”和标准化处理,尽量保留包含字段较多的数据,更利于实现跨专业、跨部门共享的数据。元数据质量控制如图3所示。

图3 元数据质量控制

元数据质量控制是一个多方参与的过程,调研梳理人员定期汇报工作进展,提交梳理成果,信息部门召开阶段验收会议,组织各业务部门确认评估梳理成果并补充完善数据项,对数据表之间的关联关系、数据字段的准确性、一致性进行维护,从数据标准化描述角度提升数据质量。

3.6 设计数据模型

针对企业不同业务部门建立的一个个烟囱式系统展开梳理,建立数据资源目录进行数据整合与系统集成中会出现数据模型不一致问题,应基于梳理成果设计企业级数据模型,并建立数据元字典,形成油田统一的数据术语标准,为构建统一的数据模型管控体系打好基础。

采用需求驱动自顶向下和数据驱动自底向上相结合的方法共同设计数据模型,对新建系统的正向建模与对油田原有自建系统的逆向工程相结合的数据建模方法,设计标准化的数据模型,从源头上提高企业数据的一致性。

“需求驱动自顶向下”是指以现有的数据模型为参照,反推业务数据需求,基于油田企业标准数据模型EPDM2.0的A1、A2、A5以及EPDM-X等进行模型扩展,开展油田公司全域数据模型设计,建立主数据标准规范、共享存储层数据模型标准、分析层数据模型标准,按每个业务域,数据模型的设计可分三个层次:存储数据模型、应用数据模型、主数据模型。

“数据驱动自底向上”是通过业务调研,补充业务数据需求;通过数据现状调研,从例如钻井信息平台、油气勘探生产信息系统等业务系统中,获取满足应用需要的业务数据项,填充到相应各业务域的数据模型的逻辑实体中作为属性,完成逻辑数据模型的设计。数据模型设计方法如图4所示。

图4 数据模型设计方法

(1)存储数据模型设计。存储数据模型设计是按业务域,收集业务数据需求,采用“选参照-融合-优化-制定规范”的数据模型设计步骤来设计存储数据模型,方法如下:

①选参照:以EPDM2.0的A1、A2、A5为基础作为参照数据模型,结合油田公司自建信息系统的数据库表及数据模型等对参照数据模型进行模型扩展和集成化设计。

②融合:采用数据实体增补、实体属性增补等技术,当多个模型中有重叠的实体时,应按照面向对象的原则进行合并。

③优化:采用数据实体与实体属性冲突处理、数据类型及精度冲突处理等技术对设计的数据模型进行优化。

④规范:按照数据字典规范化的方法,对存储数据模型进行规范化设计,并对每一个数据项,指定一个数据元。

(2)应用数据模型设计。应用数据模型设计是基于共享储存层全域数据模型,并结合具体应用场景设计逻辑数据模型。自顶向下,参照存储数据模型的实体和实体间关系;自底向上,调研采集业务信息系统用户视图和部分无系统支持的手工台账等业务表单,按需求提取应用数据项,补充完善到相应逻辑实体中作为属性,考虑到数据存储的需要,数据项的数据类型等信息也一并填充完善,设计规范化的应用数据模型。

举例钻井业务域,先采用需求驱动自顶向下方法继承EPDM2.0的A1标准数据模型中钻井部分所包含的数据实体,如:井位设计、钻井设计、固井、欠平衡钻井等;再采用数据驱动自底向上方法,调研钻井业务信息系统—钻井信息平台,收集梳理钻井液变化情况、固控声幅数据、欠平衡钻井记录等相关业务数据项,填入相应的数据实体,同时确定数据类型、计量单位、字段长度、主外键、非空等信息,设计出钻井业务域的应用数据模型,并结合具体数据库特性,经过质量控制,保证其为可实际运行的物理数据模型。

(3)主数据模型设计。

主数据模型设计是基于各业务域的存储数据模型,参照中石油EPDM-X标准数据模型的主数据类,进行数据实体的筛选,保留关键业务数据实体,实体属性的选取依据主数据的概念,选择在各系统中交互共享、满足跨部门业务协同需要的、反映核心业务实体状态属性的数据项,设计形成主数据模型。

3.7 数据元梳理

数据元是最小最基础的不可再分的,规范化的最小数据单元,是数据对象的抽象。

数据元梳理方法是按每个业务域,从业务模型、存储数据模型以及应用数据模型中获取数据项,统计整理成数据元素集清单,进行详细的分析,采用特性词、对象词、特性词的限定词、对象词的限定词等关键字描述补充定义数据项语义,进行术语规范化,数据类型定义等手段,并记录数据元与业务单元、数据模型间的对照关系,将数据项规范化成数据元。

对汇总整理的数据元清单,可以合并在各个业务单元及用户视图中重复的数据元,同时进行唯一性和二义性检查,相似度计算处理异名同义和同名异义的情况,对数据元名称规范化,建立数据元字典,形成油田企业统一的数据术语标准,是数据资源管理的基础,并以此作为构建数据资源目录的来源与基础。

3.8 建立数据资源目录

油田公司各业务部门用业务语言进行交流和合作,经过数据资源梳理和按业务域进行数据模型设计得到的数据库表便于技术人员使用,但不便于业务人员和管理层使用。油田信息化建设与数据管理应开放地让公司各业务部门重点参与其中。数据资源目录是通过对数据资源进行分类并按一定顺序编排而形成的数据资源列表,将物理上分散的数据资源进行逻辑上的整合,实现共享开放地访问数据资源。因此,需基于业务分类构建油田数据资源目录。

基于业务的数据资源目录构建,是指以业务分类构建数据资源目录,根据业务需求加入业务信息完善数据资源信息,即对各个相对独立的业务系统中的数据对象与系统功能结构进行融合,将业务数据项,标准数据模型等融合成为新的有机整体,遵循业务-数据-系统关联法:从业务视角,按数据的产生/使用关系,通过业务数据项,实现业务与数据关联,建立起业务数据项—物理模型—逻辑模型—概念模型路径;从数据视角,与EPDM标准数据模型建立关联关系;从系统角度,按业务数据项—物理模型—数据表可溯源至共享存储层以及数据源层数据表。数据资源目录的构建路径如图5所示。

图5 数据资源目录构建路径

4 实施效果与分析

4.1 建立基于业务的数据资源目录

在冀东油田公司区域数据湖建设的项目中,应用业务-系统-数据关联法梳理构建油田数据资源目录,初步形成油田数据资源“总账本”,摸清了油田数据资源的“家底”。基于数据模型以业务分类构建数据资源目录,促进了企业标准数据模型与业务结合并落地应用,全面掌握了业务信息系统和数据资源基本情况,开辟了油田企业基于业务展开数据管理的新视角。数据资源目录作为统一集中管理和有序组织数据资源的工具,不仅推动数据资源由物理上分散向逻辑上集中转变以满足数据共享需求,也促使业务部门业务人员、信息部门数据人员与技术人员及高层管理人员沟通与协作更便利。

4.2 提供信息化项目建设的基础支撑

数据资源目录构建过程中所梳理的各业务域的业务架构,为业务规划和信息化战略规划提供指导,同时借助资源目录了解数据资源现状并充分用于开展信息化项目建设,可避免数据重复采集及信息系统重复建设,从源头减少“数据孤岛”和“信息烟囱”出现;梳理的业务架构和手工台账等用户视图可用于新建信息系统的功能结构和原型界面的设计中;数据元标准体系可作为公司日后信息化建设中系统数据模型和数据库的设计基础。

5 结束语

该文提出“业务-数据-系统关联法”这一基于业务的数据资源目录构建方法论,并详述数据资源目录构建的落地实施步骤,从业务入手,对业务、数据和系统等情况进行全面调研收集并梳理,历经业务架构梳理、用户视图梳理、元数据采集与梳理、有效数据质量检查和数据元梳理等步骤,基于企业标准数据模型,结合业务系统现状与应用需求,采用数据标准化的手段,设计规范化的油田企业级数据模型,构建数据资源目录统一描述和组织管理公司级数据资源,减少各业务部门之间的重复建设,实现跨部门、跨系统、跨专业的数据共享。

猜你喜欢

数据模型业务部门视图
基于区块链的微网绿电交易数据模型研究
关于PowerDesigner软件工程技术的研究
电力企业构建纪检监察与业务部门协同工作机制的研究
在当前形势下“业财融合”的发展
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
供电企业纪检监察与业务部门协同工作机制建设研究
《投影与视图》单元测试题
财务人员深入业务部门的重要性和策略分析
Django 框架中通用类视图的用法