大数据技术在水力发电行业应用初探
2018-08-07刘广宇
罗 戎,刘广宇
(雅砻江流域水电开发公司,四川 成都610051)
0 前言
维克托·迈尔·舍恩伯格曾在《大数据时代:生活、工作、思维的大变革》一书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。2013年3月中国电机工程学会信息化专委会发布《中国电力大数据发展白皮书》,将2013年定为“中国大数据元年”,掀起了电力大数据的研究热潮。大数据及云计算时代的到来将为传统电力行业的发展注入新的活力,传统电力行业即将发生革命性的变化。
作为雅砻江全流域水电资源开发的唯一主体,雅砻江流域水电开发公司的公司愿景是“创建梯级开发最完整、经营管理最高效、综合效益最显著的水电企业,打造享誉中外的雅砻江水电品牌”;公司的战略理念是“4阶段”战略;目前公司已经成功完成第2阶段目标正在为实现第3阶段目标奋斗。雅砻江公司飞速发展离不开信息技术的有力支撑,公司信息化第3版规划于2010年正式发布,确定了公司信息化“EHDC152工程”(一体化平台,五大应用系统,两大支撑体系)的总体目标。通过5年时间的建设,公司围绕该目标先后建成了OA系统、电力生产管理系统、财务管理系统、人资管理系统和工程管理系统5大应用系统;并开展了信息系统统一身份认证及相关建设项目,并实施单点登录、企业门户和流程中心;同时,实施了全面预算管理系统、决策支持系统、电力生产文档管理系统、档案管理系统等其他应用系统。
随着公司第3阶段建设的推进,雅砻江下游5个电站群的投产,中上游电站群建设的顺利推进,大量的生产实时数据以及工程建设过程数据集聚到各个电站的数据中心,雅砻江公司未来信息化的使命和目标是:未来3~5年的时间内,在保证信息化建设与公司战略目标高度一致的前提下,基于现有的信息化成果,以“五个更”(更有效的精细管理、更高效的作业处理、更全面的信息掌控、更充分的资源利用、更科学的辅助决策)为基础,以“两个延伸”(深化应用向业务前端延伸,围绕经营目标向管控延伸)为手段,把应用系统、信息架构、基础设施、IT治理4方面能力提升到一个新的高度,使得信息化成为公司的核心能力之一,推动公司管控水平的提升和业务运营管理的持续优化,助力公司达到国际一流水平,支撑公司流域化、集团化、科学化发展。为此,在2014年启动的雅砻江公司信息化第4版的规划中把数据应用定为本阶段信息化建设的要点,它包括两个方面的内容:如何科学的规划好数据应用?如何有效对数据进行管理?本文将从这两个方面进行讲述。
1 数据规划
数据是发电行业的重要信息资产,电厂是我国建立层次化数据平台较晚的行业。雅砻江公司在前期信息化建设成果的基础上,加强了对数据资产的清理和规划,在管理上成立了专门的数据管理流程和相关责任管理部门,有相应的规章制度,以及贯彻业务和IT的工作流程等,技术上具备了相对成熟的数据架构、数据标准,正在建设数据质量管理和数据管理工具,在此基础上将逐步形成管理驾驶舱、自动化统一报表等一系列数据应用。针对不同维度、不同应用的数据需要建立统一的数据标准和数据结构来进行管理,其中数据标准是数据管理的基础、数据结构是数据管理的骨架,两者相辅相成。因此在数据规划方面包含:数据标准的建立;数据结构规划两个部分。
1.1 数据标准的建立
基础编码的标准化是流域化管理的基础,雅砻江公司从信息化规划第3版开始就高度重视信息化基础编码标准的建立工作,项目启动后项目组组织了大量的人力分别从工程、生产设备、物资、财务、组织机构等多个维度建立企业级标准的编码体系,形成流域化统一管理的基础体系,填补了流域工程管理、电力生产管理的空缺,保证了系统集成的稳定性;从源头上保障“业务财务一体化”的实现。
这些年的信息化建设及基础数据标准的建立过程中,在参考电力行业标准、其他水电企业成功标准的基础上,结合雅砻江公司多年信息化建设沉淀下来的一些技术标准、数据命名规范、基础编码标准等,逐步形成了雅砻江流域工程建设、电力生产、企业管理等领域的基础数据编码规范,使得企业信息化建设得以顺利实施。
1.2 数据结构规划
由于目前雅砻江流域开发进入到第3阶段,下游的电站群已经顺利投产,中上游电站正处于建设中,针对不同的实物对象在不同的信息系统中存在不同的管理属性,为了更好地管理雅砻江流域信息数据为公司的发展服务,必须建立流域管理完整的数据结构来对所有数据进行统一的管理,因此,2014年启动的公司数据中心建设项目对未来数据架构进行了设计,提出了建设SSC数据架构体系统筹兼顾雅砻江流域生产和建设等各个方面对数据统一管理的需要。
SSC 是 指:SSC是 构 筑 物(Structure)、系 统(System)和设备(Component)的通称(简称 SSC)。它是对雅砻江全流域核心基础对象的统称,是雅砻江水电业务活动过程中最基础的业务对象。并以此为基础设计雅砻江流域雅砻江数据中心数据仓库(以下简称DW)逻辑数据模型。
数据中心项目的目标是整合统一雅砻江全企业范围内积累的数据资产,并对消费使用数据的系统提供数据应用的支持。整体模型以雅砻江公司整个企业的各个业务领域为视角,对各业务活动中的管理要素进行梳理、分析与设计。目前数据中心整合的应用系统范围包括:生产管理、工程管理、财务管理、人力资源管理等以及为满足雅砻江数字化平台数据需求接入的各类专业系统,包括:大坝安全监测、施工质量实时监控、生产数据实时交换平台以及锦西电厂实时监测数据等,并根据雅砻江数字化平台的需要,对于暂时没有业务源系统支撑的数据内容,提供模型的顶层设计支持。
雅砻江企业数据模型是在流域基础数据模型的基础上,扩展到全企业业务范围的数据模型,因此在企业模型的整体框架中,流域基础模型(SSC)是其核心,现有应用系统的管理对象是纽带,连接核心对象与外围业务数据信息(图1)。
图1 SSC数据架构的应用目标
雅砻江企业数据模型层级框架主要表达:
(1)企业数据模型的层次关系;
(2)SSC在企业模型中的地位;
(3)SSC对象构造及其与外围管理对象的关系。
企业模型框架层次扩展路径为:SSC->现有源数据各管理结构->企业模型各业务主题数据;其层次上共分为3层(图2、图3):
第1层:Tier-1,SSC层级结构;
图2 企业模型框架层次
第2层:Tier-2,现有各管理对象的层次结构;
第3层:Tier-3,企业模型各业务主题数据。
2 数据管理
为了更好地管理好数据,2015年雅砻江公司开始实施数据中心试点项目,雅砻江企业级数据中心定位为“基于混合架构的大数据中心”(图4~6),并分解为以下4个方面:
(1)企业数据中心是雅砻江公司全流域、全业务、全层级的数据整合和共享中心
企业级数据中心应实现对公司结构化数据、非结构化数据、实时数据、流域空间地理数据、工程三维模型数据等5类数据的采集、传输、存储、整合以及共享。
图3 企业模型主题划分
考虑到5大类数据的数据类型、数据量、数据时效性要求、数据应用要求等特性的不同,分别采用不同的技术手段来实现其存储与整合。其中结构化数据采用传统数据仓库技术实现,其余4类数据采用新兴的分布式计算和存储技术实现
(2)企业数据中心是雅砻江公司未来数据深化应用的基础
企业级数据中心是雅砻江公司未来数据深化应用的数据基础,基于流域基础数据模型进行数据整合,同时将各种软件技术、产品和标准进行有机地结合,实现系统间的数据集成和应用集成。例如:为雅砻江流域三维可视化信息集成展示与会商平台、6大决策支持信息系统(包括水电工程建设、水电站运行、梯级水库风险调度、环保水保、征地移民、公共安全)提供数据并支持其应用。
(3)企业数据中心是雅砻江公司信息综合展现与分析的基础
本次数据中心建设,将针对性的选取工程和生产业务领域进行试点展示。数据中心将为未来的运营监控中心等系统的建设打下基础,提供全面、及时、准确、规范的数据,支持其数据展示、分析和后续再加工。
(4)企业数据中心是雅砻江公司企业级数据管理中心
建立数据资源管理工具,提升公司在数据质量、数据模型、数据标准、元数据等方面的管理水平,支持公司数据管控制度的落地执行。建立数据接入、整合和访问规范,保证公司核心数据和重要数据的正确性、一致性和完整性,促进信息化向融合、共享、协同的转变。
图4 采用混合架构实现5大类数据的整合与共享
图5 混合架构支撑多种业务需求
图6 数据中心功能架构图
目前该项目除主要是把已建成的信息系统数据接入外,选择了通过集控中心数据交换平台把锦屏电厂生产实时数据、在建的两河口大坝质量监控实时数据、大坝中心下游电站群大坝监控数据的接入,目前共接入的数据量如下:
(1)结构化数据:现有结构化数据来源系统主要包括生产管理系统、工程管理系统、工程信息系统管理局系统、人力资源管理系统、财务管理和大坝安全信息管理系统,以及包括拟建的公共安全、环保水保、梯级水调、征地移民等系统,现有系统结构化数据可统计的数据量约为50 GB;
(2)非结构化数据:现有非结构化数据来源系统主要包括生产管理系统、生产文档管理系统、工程文档管理系统、EBS、OA系统、企业内网、档案管理系统,非结构化数据量总计约为600 GB;此外,数据中心还将存储来自其他新建系统的地理空间信息数据和工程三维模型信息数据,此类数据主要为非结构化数据,初步估算数据量为1 TB;
(3)实时数据:实时数据来源于集控中心实时数据交换平台和新建的锦西电厂实时数据交换平台,根据目前测算,仅仅接入的锦西电厂的实时数据量大约为每年2 TB。
3 结束语
按照雅砻江公司的总体规划,数据中心的整体建设分成3步走的原则:①总体规划;②管好数据;③用好数据。目前试点的内容只是接入了已投产的锦西电站的实时数据,下游投产的5个电站群的实时数据目前正在接入中。
从目前来看,后续数据的深度应用还取决于几个条件:
(1)数据质量
数据的深度应用取决于所采集数据的质量,目前来看我们的数据存在的问题是水电行业缺乏相关标准:
1)设备编码标准,火电目前KKS编码是作为行业强制标准执行,无论是设计单位还是制造厂商都能够很规范地使用KKS编码作为设备的基础编码,而KKS编码在水电行业目前还只是参考标准,很多设计院和生产单位对于KKS编码的掌握和运用还不熟悉,这为进行生产实时数据映射和管理带来一定难度,也为数据的深度分析带来麻烦。
2)监控系统标准:由于各个监控系统厂商各自为政,采用一些非标准的数据结构和通信结构加大了数据整合的难度。目前各个控制系统厂商的数据各自为政,在当初设备采购的时候没有统一的国家或行业标准作为参考,因此,也未能够与各个厂商达成一致意见,现在需要整合分析的时候才发现数据不能够统一管理和分析,不像火电企业在DCS、SIS、PLC等等控制系统都已经有国家标准,在招标的时候就可以要求控制系统厂商按照标准执行,为后续数据分析使用打好基础。
3)前期我们也调研了一些水电企业,在信息化的建设前期由于对于数据理解不深入,还存在一些信息烟囱,这样数据各自独立缺乏整合,后期要进行数据关联性分析时缺乏数据整合,也很难深入应用。
4)大数据分析中关键的技术是采用深度学习技术,利用已有的历史数据来进行数学模型的自学习,优化分析所用的数学模型。但是从目前很多电厂来看对历史数据的存储没有引起足够的重视,使得很多历史数据丢失,目前存储技术的飞速发展已经使得存储设备成本很低,完全可以把重要的历史数据存起来为以后的深度分析所利用。
因此,建议协会应该牵头组织大家来逐步完成相关标准的制订、颁布和使用,至少应该是成为行业标准,这是一项利国利民的政策,需要行业协会出面来组织。
(2)数学模型
对于后期数据的深度使用而言,需要研究结合不同业务场景的数据模型,这需要和一些研究机构合作共同完成,现在已经有一些水电站开始做这些方面的探索,雅砻江公司也在做一些探索的研究,比如:流域梯级优化调度、状态检修、中长期雨量预测分析等等,也许不久就会有一些初步的应用推出,这需要时间来验证。
(3)计算能力
有了数据和模型,还需要利用机器学习的原理,把大量的历史数据导入到模型当中,进行模型的优化学习,这个过程涉及到大量数据的运算问题,没有很高的运算能力很难解决此难题。随着公有云计算的出现,大家在需要高速计算的时候可以在公有云平台上租用计算能力来解决计算的问题,最终的结果所产生的经济效益,会大大超过租用公有云平台的费用。
目前,中国大数据的深度应用已经在很多领域展开,比如:电商营销的精准推送、金融领域的信用分析、安防领域的人脸识别技术等等应用已经开展的非常成功了,在不远的将来大数据的深度应用也会很好的为流域水力发电生产保驾护航!