基于大数据技术的发电企业数据治理
2021-03-27中国华电集团有限公司广东分公司俞利锋冯佳峰
中国华电集团有限公司广东分公司 俞利锋 冯佳峰
近些年,华电集团提出了从战略层面推动“数字华电”建设,打造具有华电特色的“传统产业+互联网”竞争新优势。随着数据清洗技术越来越广泛的关注和深入的研究。数据生命周期的各个阶段都会发生数据质量问题,大致可以从数据源、数据组织结构进行分类研究。首先,这需要在设计数据库模式时定义数据规则,尽管数据库产品自身提供相应机制保证数据质量,依然不能保证进入数据库的数据完全符合业务需求。其次是数据库设计并不能尽善尽美。第三,数据库操作往往是应用程序的效率瓶颈,在数据库之中进行完整性验证会导致应用程序性能下降,大量数据的插入、修改等操作需要更多的时间。第二种数据解决方案由自应用程序实施,这是一种高通过逻辑层的事务操作完整地插入记录,后者指对数据库中的数据进行监管控制,清除不满足要求的数据。在各类数据分忻工具中,ETL[1]工具往往具有数据审核与数据清洗功能,但是这些工具只适用于特定的数据库系统,处理一些普遍的数据质量问题,在数据集成时解决异构数据的问题。有一些开源的ETL框架不属于任何数据库系统,就会发生数据异常或者不能清洗的问题。
目前,国内的人工智能数据清洗技术研究,缺乏规模性组织和研究成果,缺乏针对我国信息化特点的数据质量研究。在企业项目建设过程中,数据集成环境比国外复杂,据调查,72%的企业存在相似重复数据,60%的企业存在不完整数据[2]。
鉴于以上问题,本文设计了结合发电企业的实际情况,选择和企业战略、部门管理相关指标作为基础,对数据成熟度进行评估,并且实现集中抽取,从而实现编码、标准、数据及模型的统一管理,避免出现数据多头管理及冲突,将数据冗余进行消除,实现数据集中管理、共享的目的。逐渐实现事前防范、事后管理及集中监控的闭环管理,对企业级数据质量管理规范、制度的创建,从而对高价值数据属性的识别,保证能够提高数据质量,使其支撑业务运营及经营分析。
1 公司管理现状与问题
随着业务的快速发展以及IT 系统的不断建设,公司所面临的数据环境越来越复杂。在数据应用过程中逐步暴露出数据缺失、重复、分散、延时、质量较差等一系列问题。
缺乏全局视角的主数据视图,各业务领域主数据分散在各应用系统中,各系统相互独立,各自维护一套自己的数据结构,缺少统一和共享;系统建立时,业务单位主要考虑本业务领域应用和业务范围内的数据,对于跨部门、跨系统的数据管理职责没有定义;各领域业务利用各自系统或人工收集导入方式开展数据统计分析工作,主数据分散在各应用系统中;数据掌握在各个业务部门手中,存在数据壁垒,数据共享交换较为困难。
指标和维度无统一定义、规范和管控:各部门指标和维度无统一定义、规范和管控,重复统计和不一致现象较为突出。
各部门根据管理和上报需要各自定义指标和维度,重复统计现象较为突出;指标数据各自表述,同一指标的管理口径、统计口径不一致,但指标名称相同;基本维度信息各部门独自定义,同样的维度,各部门对其分类,规则定义不一致;没有主数据相关的业务流程,相同的主数据新增或变更时不考虑其它部门。各系统之前缺少统一的数据规范,接口交互标准不统一。
2 大数据治理体系构建方法及内容
数据中心建设是一项系统工程,数据治理更是一项长期艰巨的工作,需要自上而下统一思想、坚定落实、长效管理。
公司采用数据管控先进理念与成熟方法,从短期、中期和长期分步有序实现数字化、智慧化经营管理的角度,通过全面评估公司数据管控成熟度,制定提升目标和行动计划,支持公司建立企业级的数据资产管控体系及支撑平台,从根源上解决目前在各业务领域存在的数据问题。以数据中心为核心,以数据治理为基础,提升公司在业务发展中数据支撑能力,增强公司在行业竞争中的核心能力。
在规划部分通过对区域的业务和系统调研,了解区域目前的数据使用情况,根据行业数据治理成熟度模型[3]评估方法论量化打分,了解企业当前所处数据治理的极端,据此规划未来3年数据平台建设和数据治理路径;通过全面的调研,确定数据治理的主体流程和规范,通过对具体业务主题的深入调研,确定详细的执行标准和方法。
2.1 数据平台架构建设
建立企业级数据中心是对公司跨业务领域的数据进行整合,并满足公司不同部门的数据访问和数据分析需求,技术架构设计的总体目标就是为企业级数据中心提供技术、数据及管理能力上的规划和支持。
系统接入数据方式多样化,包括关系型数据库数据、实时数据、文件数据、图片数据、日志数据、音视频等。面对多种数据接入的需求,数据平台提供多种针对性的接入方式以及工具。
2.2 数据治理建设
基于行业的通用标准,公司数据治理的架构:
数据标准定义。在数据资产盘点过程中,对数据资产进行业务、技术和管理定义并获得对口部门的确认,从中挑选必须订立数据标准的资产项,开展数据标准编制工作,并最终发布。
数据质量规范编制。在数据资产盘点过程中,基于数据定义及规则,与业务部门共同商定基础质量要求,编制数据质量规范。
元数据登记。采集相关系统的元数据信息,包括表、字段、代码等信息,与数据资产建立关联关系,形成数据分布地图。
数据资产盘点。本期数据资产目录范围:设备主数据,物料,财务指标,形成资产目录清单。通过业务调研、技术调研,开展资产盘点,完成数据资产目录及数据资产管理方法。
主数据管理体系。遵循行业规范指引,梳理主数据分类,合并数据资产项,明确主数据归口部门,建立主数据标准规范和管控流程。
数据资产管理体系架构。构建公司数据资产管理体系,制定组织架构、认责机制、数据管理办法、数据标准管理办法和流程、数据质量管理办法和流程、元数据管理办法和流程、数据管控平台建设方案等。
数据整合及模型。目前公司以生产经营和过程数据为基础,建立了关系型数据库,覆盖公司主要信息系统,并且建立了实时数据库,覆盖公司生产、设备、安环、能源所有实时数据源。关系型数据库和实时数据库的数据没有经过很好的数据整合,在使用时产生大量重复数据,数据不一致的情况。在数据整合基础上建设企业级数据仓库,加强数据深度收集和管理,挖掘数据价值,破解数据密码,并逐步形成完整的报表体系,辅助各级领导和管理人员及时掌握业务运营情况,并基于数据进行精准决策。
技术架构设计与规划。深入开展系统集成和多系统协同应用,基本消除信息孤岛,提升系统集成共享水平;推进全局业务流程优化和主要信息系统的集成,发挥协同增值效应,逐步消除信息孤岛。
培训和宣贯。完成汇报材料及培训课件的编制工作,并开展培训和宣贯。
上述十项主要服务工作,以及贯穿始终的项目管理、培训宣贯,即相互独立、又相互支持,部分工作可并行执行。
2.3 数据仓库建设
在数据仓库规划阶段,借鉴行业数仓建设经验结合公司数据现状和长远规划作为工作的指导,确保数据仓库规划成果的完整性、全面性、发展性、先进性及可操作性。
2.4 数据架构建设
公司的企业级数据仓库的架构设计,结合公司的各个业务部门和IT 部门的需求及应用现状,综合考虑数据交换平台、数据准备区、操作型数据存储、基础数据模型、数据挖掘、元数据、数据质量等组件之间的关系和实施方法,并就其中将会使用到的关键技术提供支持[4]。
结合公司的数据仓库架构规划的需求,公司数据仓库的建设采用长期的循序渐进的过程,通过不断创新、修复、完善的过程,伴随着应用系统的发展而发展。根据公司的业务特点以及行业内系统建设的现状和未来发展蓝图,全力打造一个可扩展的、高可用性的、安全的、高效的、跨部门的可以快速处理海量数据的数据仓库系统。
吸取市场数仓建设经验,结合公司的业务现状和长远规划,公司的整体数仓架构。架构分为六个主要部分,分别是:数据源、获取层、集成层、应用层、大数据环境、数据管控。下面分别描述这六个部分。
数据源:数据源层主要内容和功能有各类结构化数据库数据、非结构化的视频、图片和文档、半结构化的其它文件,是数据治理的基础。
获取层:获取层又称之为数据接口层,数据接口层主要完成批量数据的获取,准实时数据的同步,其它形态数据源数据的接入。
集成层:数据整合层。数据整合层主要完成企业数据模型的构建,能够涵盖公司业务的各个层面,包括交易数据、主数据和参考数据,为整个企业级的数据集成提供一个完整的一致的逻辑视图。
交付层:交付层是数据仓库的最终数据应用价值的体现所在,提供业务人员直接的数据应用,在公司的数据仓库架构中,交付层主要内容和功能有统一报表、KPI、自主分析、数据挖掘等应用。
大数据环境:大数据环境结合了结构化数据、半结构化数据、非结构化数据的统一的处理、访问与管理。
数据管控:数据管控又叫数据治理或数据管理,数据管控主要的功能与组成有数据标准、数据质量、元数据。
2.5 数据挖掘体系建设
数据挖掘其实就是从大量繁杂的数据中找出数据的密码,剖析数据本质,提升数据价值。主要依据业务管理要求,以业务驱动模型建设,以模型数据反馈业务决策。
预测算法一般情况下,预测要借助分类或估值才能发挥效果。具体来说就是利用人工智能的手段探索未知领域发生的各种结果。检测的目的就是利用时间以及空间验证模型的准确性,分析未知领域事件发生的可能性。
聚类算法[5]就是对各类的数据进行归集,将同源以及不同源的数据放在一个池子里进行分析,通过建模的手段达到数据最大化应用。
借助数据挖掘的手段,公司的信息化已经有了很大的进步,不仅仅是传统的以人为本的分析方法,而是真的打通了各个环节,能够使内部的管理工作更加高效,打通了管理数据以及生产数据的壁垒,实现数据闭环,让数据产生价值。
2.6 数据应用规划
第一阶段:数字化转型建设阶段
与数字华电相适应,应用互联网+、物联网、移动技术、云服务和大数据等前沿技术,实现以大数据为核心的数字区域管控模式,构建公司数字管控平台,实现区域的生产、营销、管理等中心建设,完成区域数字化转型的顶层建设,实现区域的数字、信息一体化。
同时,推进区域数字电厂、燃气分布式“一厂多站”、新能源“远程集控”项目,推进基层企业数字化转型。
第二阶段:智能化应用赋能阶段
与集团公司智能化战略管控要求相适应,利用人工智能、大数据等先进的信息技术,先进的控制技术,以及机器人、智能终端等硬件设备赋能数字生产、数字营销、数字管理,完善综合能源互联网生态,通过数字技术引领企业扩展管控能力,深入挖掘各类用户的综合能源服务需求,利用互联网、大数据、人工智能等先进技术,积极开展能效诊断、节能优化、能源托管等综合能效服务,实现上下游产业链的资源最优化配置,开展互联网+综合能源服务项目,增加客户粘性,提升市场占有率。
2.7 数据治理体系实施
数据治理实施步骤:基于企业愿景和规划,以及数据治理目标和原则,围绕数据治理的六大要素,把数据转变为整合的、可信任的和安全的信息。在治理和管理数据中,将人员能力、技术发展、企业规划等因素有机融合。
数据标准管理:数据标准建设是一项长期的、涉及面广的基础设施项目,需要在时间和人力等生产资源上有意识、有计划的、持续的投入。数据标准的总体规划目的是根据企业的战略目标和实际情况,确立数据标准化的价值和最终目标,并为达到最终目标订立行动计划和资源调配。
数据质量规范编制:数据质量管理包含组织架构、管理流程、管理工具、技术平台等方面。
所谓数据质量规范,即数据质量校验规则,是指判断数据项在系统落地字段中所存储的真实数据是否符合特定要求。数据质量要求在有相关数据标准时以数据标准为准;在未制定数据标准时以监管要求、业务要求为准。根据数据质量标准制定详细的数据质量规则。
元数据登记:元数据管理[6]成为一项重要功能,让数据的管理者,无论在任何时间任何地点,都对数据具有绝佳的掌控能力,让元数据更好的为企业分析决策打下基础。