数据治理体系建设与应用
2024-07-09郭云飞高博何建任田路王健
郭云飞 高博 何建 任田路 王健
[收稿日期]2023-12-15
[摘 要]大数据分析治理体系建设对井下作业公司生产管理和辅助决策有着重要作用。文章通过对井下作业公司多个应用系统的分散数据进行研究,结合先进的大数据治理平台的数据治理理念、数据治理体系架构及数据治理方法论,建设井下数据治理体系架构,并对井下作业公司各系统数据进行多源汇聚、分层分域治理、分析建模,详细介绍该数据治理体系建设的实用性和先进性。
[关键词]大数据;数据治理体系;数据融合;油田
doi:10.3969/j.issn.1673 - 0194.2024.10.039
[中图分类号]TE34;P618.13[文献标识码]A[文章编号]1673-0194(2024)10-0-03
0 引 言
大数据治理体系建设在企业数字化转型过程中发挥着越来越重要的作用,各大厂商在该领域开展了大量的研究和生产实践工作。西部钻探井下作业公司按照“先易后难,稳步推进,结合产能建设”的原则,先后安装了多个应用系统,并进行了局部应用。各系统形成了大量基础数据,数据之间相互孤立。数据“孤岛”阻碍了企业信息化建设水平的进一步提升,迫切需要企业打通各系统,进行数据融合,构建一套完整的数据治理体系,使数据发挥资产价值,提高企业生产效率,最终达到企业降本增效的目的。
1 井下作业公司数据治理现状及存在的问题
井下作业公司在数智化转型过程中,在业务管理方面基于公有云平台进行各业务管理系统的井下轻应用开发,实现了业务的在线协同管理;在生产指挥方面,围绕中油技服工程作业智能支持系统(Engineering Opertion Intelligent Support System,EISS)的深入应用,基于内网环境实现了生产数据、远程音视频数据的实时采集。前期为了满足业务需求进行的快速轻应用开发,导致目前企业数字化转型存在以下问题:①数据“孤岛”,由于“烟囱式”轻应用系统建设,数据分散在各业务系统,形成数据“孤岛”,如何打破数据“孤岛”、实现数据融合是关键;②数据标准不统一,各个系统由于应用场景的差异,选用的数据库种类不同,导致异构数据源之间难以统一管控;③数据质量差,数据不连通、不规范等,导致数据质量差,应用价值低,难以发挥应有的作用;④数据安全性无法保证,由于氚云轻应用系统数据存储于阿里公有云,其不符合企业资产安全可控要求。解决以上问题需要运用先进的数据治理工具,通过多源异构数据汇聚,实现元数据管理、数据标准管理、质量管理、全生命周期管理、安全和服务管理。构建井下作业公司数据治理体系,为现场生产和第三方应用系统提供服务,为管理者决策提供依据。企业通过对数据的分析来实现数据驱动业务发展,将业务数据化和数据业务化,以此提高企业整体效能,实现降本增效。
2 数据治理体系总体架构设计
2.1 设计理念
数据治理体系总体架构设计采用具有行业特色的4 One数据中台理念,即OneData(统一数据)、OneID+(统一视图)、OneService(统一服务)和OneOpt(统一运维)。
①OneData:统一数据集成开发,在集约化OneData理念的基础上,形成在线化、集约化、标准化、流程化、自动化的OneData体系,实现垂直化数据接入和智能化数据加工。②OneID+:统一数据ID与视图,在用户ID萃取的基础上,使人、物、事等各种业务关注对象的ID统一,形成信息集约的OneID+体系,实现智能化数据融合和价值化数据资产管理。③OneService:统一数据服务,在所有数据在线服务化的基础上,形成在线服务与送货到家两种服务模式,实现超市化数据服务和便捷化数据应用。④OneOpt:统一数据运维,打造全集群、全链路的集约化运维体系,实现端到端数据质量和安全保证。
2.2 数据治理体系架构
数据治理服务体系建设在“运营合规、风险可控”的基本原则下,构建完善的组织、制度和流程,制定数据标准并实施数据安全管控,形成有机组合的数据治理体系,数据服务体系包括数据接入、数据处理、数据组织、数据服务和数据治理,对接氚云及其他数据源,完成数据治理后,为上层应用系统提供数据[1]。数据治理体系总体架构如图1所示。
3 数据治理体系建设方法
数据治理体系的建设,需要完整的方法论进行理论指导。井下作业公司通过引进实施团队,传授先进的鲸智数据治理七步法,理论与实际相结合,实现井下作业公司数据治理体系建设。数据治理=方法+产品+实施,三部分详细组成如下。
方法:鲸智数据治理理念4One和鲸智数据治理七步法。
产品:鲸智大数据平台ZSmartBDP+鲸智数据治理平台ZSmartDGP+鲸智数据智能工具ZSmartDIT。
实施:实施团队和实施经验。
鲸智数据治理七步法如下。第一,搭架子。数据中台顶层规划,覆盖运营、应用、数据、技术、安全领域。第二,定标准。与权威机构合作共建行业数据标准规范。第三,清家底。企业数据资源规划和厘清,基于数据资源/资产登记平台落地。第四,智能化数据加工。基于鲸智数据治理平台ZSmartDGP进行数据构建,包括数据集成、全程(数据)调度、数据开发、数据质量、数据资产、数据开放基础组件。第五,价值化数据资产。实现企业数据资产化和价值化运营,包括数据资产目录、数据资产地图、数据资产运营、数据资产分析。第六,超市化数据服务。对内,数据共享交换平台;对外,数据开放交易平台。第七,便捷化数据应用。基于数据智能工具快速实现数据应用,包括BI(指标计算与梳理)、VI(数据可视化与价值传播)、DI(数据探索与价值洞察)、AI(人工智能应用)。
4 数据治理体系建设实施要点
数据服务体系建设以智能应用为实战目标,围绕数据治理域的工作内容,重点针对数据标准、接入、处理、建模、质量、安全、运营、服务和价值实现展开建设。
4.1 数据接入
井下作业公司的数据呈现多源异构特征,主要数据源来自互联网氚云系统数据、网络附属存储(Network Attached Storage,NAS)本地文件系统数据、MySQL生产数据库数据。数据接入管理平台可以根据数据接入业务需求,在初始阶段定义数据获取、处理、治理、组织、服务各环境的流程、方法和流转机制,并根据数据探查和定义将多源异构数据接入大数据中心,完成与数据提供方的数据对账[2]。主要工作包括统一任务配置、统一调度、数据传输、传输协议定义、数据探索、数据对账等。
4.2 数据处理
数据处理工作主要是完成数据提取、清洗、关联、比对、标识、分发。大数据处理基础平台支持标准化、规范化的处理流程,建立标准化的数据汇聚适配模式,按照提取、清洗、关联、比对、标识等规范化流程进行转换处理,全面构建智能处理、自动化处理的数据处理体系。开展标准统一的数据处理工作,提高数据关联度和业务紧密度,提升数据质量和精准授权的能力[3]。
4.3 数据标准建设
要结合标准与实际业务现状和需求,在标准体系下,丰富补充数据标准,完善数据质量、数据安全、数据服务、生存周期、主/元数据的管理规范,在数据治理过程中落地标准规范;建立一套标准规范的管理方法,对标准规范进行沉淀积累,优化落地管理;依托数据标准指导数据治理的开展实施,对标准规范的落地情况进行监测评价,评估标准规范的合理性和实用性,优化标准规范的制定和修编,打造数据治理的标准化体系,强化数据治理过程管控,促进数据治理的价值实现。
4.4 数据资源目录
数据资源是各单位在工作过程中搜集、获取、加工、存储、使用、共享的以数据化形式留存的信息资源。数据资源目录由数据资源信息和数据资源数据项信息两大部分构成。
数据资源信息由29个信息项及其对应的5个维度说明构成,维度信息包括数据元内部标识符、限定词标识符、数据项标识符、是否为查询条件、是否必填。维度用于控制对资源信息项的管理,对任一数据资源逐个收集或同步其29项数据资源信息项。数据资源数据项信息由17个项及其对应的5个维度说明构建,维度信息与数据资源信息相同。维度用于控制对资源数据项信息的管理,对任一数据资源的指定数据项(即属性或字段)逐个收集或同步其17项数据资源信息项。
4.5 模型管理
模型管理是对模型进行统一管理和生成,涵盖其全生命周期,包含模型构建流程、模型修改流程、模型删除流程。模型服务的模型由一个或多个算子组合而成,每个算子同时对应若干个输入和输出,通过组合算子、数据集、元素集,可以用来描述数据的处理方法、分析步骤、分析方法和分析结果,实现复杂的数据分析功能[4]。
4.6 质量管理
数据质量是检验大数据中心数据治理和数据服务体系建设成败的关键指标,其直接影响大数据中心数据资源的价值实现,是数据治理的重点工作之一。数据质量全链路处置流程包括数据质量监控、质量稽查、质量分析、质量评价、质量处置、质量反馈、质量跟踪和质量评价。
4.7 数据运维管理
数据运维是通过定期对数据质量的监控,识别业务开展、数据采集、数据治理过程中可能存在的问题,提出改进建议来促进数据质量提升,保障大数据平台及其数据和应用稳定运行,高效可用。
4.8 数据安全管理
数据是大数据平台的基础,数据安全是保证大数据中心运行的“生命线”。本部分聚焦于从采集到服务应用全链路的数据安全,包括数据本身在传输、存储、访问过程中的安全措施,主要措施有数据加密控制、数据分级分类管理、数据权限管理、数据脱敏和安全日志。
4.9 数据组织管理
要结合大数据处理国家标准,将数据从来源逐级提炼,形成原始库、资源库、主题库、知识库、业务库和业务要素索引库等。利用这种模型进行数据组织,达到数据融合和知识沉淀的目的。
4.10 数据服务
数据服务总线定位为大数据中心与上层应用或用户之间实现快速、无缝、实时、安全的数据对接的统一渠道,是大数据中心对外提供数据资源的主要手段,是大数据中心数据服务总线的重要组成部分。
5 数据治理建设成果
第一,搭建了以鲸智数据中台为核心的数据治理体系架构。引进了完整的数据治理理念和数据治理方法,形成《井下作业公司数据治理标准规范》《井下作业公司数据治理质量管理规范》《井下作业公司数据治理安全管理规范》。该体系为后续扩展数据资产建设提供了标准方法和实施路径。第二,通过数据治理形成数据资产后,以数据服务方式为第三方应用提供服务。基于数据服务在应用层实现了77个指标数据的统计报表展示[5],包括26个生产指标,51个经营指标。同时,开发千人千面桌面应用系统,在用户桌面显示报表系统,方便管理者查看生产现场实时数据和经营统计数据,有效实现了多部门数据共享、联通及辅助决策。第三,本次数据治理将原本存储于阿里公有云的氚云系统数据回迁本地并实时更新,增强了企业数据的安全性,实现了数据统一和规范,为今后数智化转型打下了坚实基础。
主要参考文献
[1]汪洋,王柯,张桃宁,等.工业数字化转型中的数据治理研究[J].信息技术与网络安全,2022(4):25-31.
[2]周冰冰,王国瓦,陈慧,等.塔里木油田录井历史数据治理技术[J].价值工程,2023(33):150-152.
[3]杜小勇,陈跃国,范举,等.数据整理:大数据治理的关键技术[J].大数据,2019(3):13-22.
[4]陈利强.大数据建模方法与实践[J].金融电子化,2015(11):56-58,6.
[5]陈明.大数据可视化分析[J].计算机教育,2015(5):94-97.