流域梯级水电站电力生产数据中心的架构设计与应用
2021-03-12陈霄逸宋琳莉石发太李文友
陈霄逸,宋琳莉,石发太,李文友
(1.中国电建集团成都勘测设计研究院有限公司,四川 成都 610072;2.雅砻江流域水电开发有限公司,四川 成都 610051)
0 引 言
随着全球新一轮科技革命和产业变革的兴起,信息技术、互联网理念与能源产业深度融合,能源电力新技术不断涌现新模式和新业态。着力推进互联网技术、大数据技术、人工智能在清洁能源高效开发利用中的应用,是流域梯级水电站智能化建设的关键。
目前,国内几大流域水电开发公司建设流域梯级水电站集控中心,采集汇聚流域内各水电站的计算机监控系统、继电保护信息管理系统、故障录波信息管理系统、主设备状态监测系统、水调自动化系统、工业电视系统、水工建筑物安全监测系统等综合自动化信息系统数据,实现了对流域内各水电站的集中监控、联合优化调度和生产过程集中展示。但是,上述各业务系统采用烟囱式架构搭建,数据之间相互独立,缺乏统一数据库模型和数据结构标准,系统间数据共享和智能运用异常困难。特别是随着泛在物联网技术、5G技术广泛运用,水电站电力生产数据呈现出种类多、规模大、增长快、关联性强等特点[1]。传统的水电集控中心数据库管理方法,已难以适应可靠采集、安全存储、规范化的需要,更难进行数据深度挖掘和智能高级应用。为此,运用互联网新技术,建设流域梯级水电站电力生产数据中心,是流域水电站智能集控的核心,具有十分重要的工程应用价值。
近年来,关于流域梯级水电站电力生产数据中心的规划设计案例相对较少,相关体系架构的研究更是十分欠缺。但是,国家电网公司对智能电网及能源互联网建设的大力推进,其技术方法和路线,为流域梯级水电站电力生产数据中心建设指明了方向。文献[2-5]重点讨论了电力生产数据的机遇和挑战,并针对智能电网中数据分析应用的共性需求与电力大数据的典型特征,提出了将大数据技术应用于电力系统建设;文献[6-10]分析了云计算在海量电力大数据分析上的优势,提出了基于云技术架构的国网调控中心“调控云”的整体架构设计;文献[11-15]分析了国内外智能电网调度控制技术相关标准,在此基础上提出在各级调度机构、电力企业及智能电网多个层面建立公共信息模型统一、接口规范和信息对象编码标准的信息标准化思路,为调度中心之间及调度中心内部各专业之间的模型信息共享问题提供解决方案。
综上,基于新形势下流域梯级水电站电力生产数据特点,结合智能水电站建设的需要,本文提出基于Hadoop+MPP架构构建流域梯级水电站电力生产数据中心,对电力生产数据中心的硬件平台、大数据平台、业务应用平台3个方面的规划设计进行运用探讨。
1 流域梯级水电站电力生产数据
1.1 流域梯级水电站电力生产数据信息
按照水电站业务系统分类,流域梯级水电站电力生产数据如下:
(1)计算机监控系统(SCADA)。该系统数据主要包括:电流、电压等电气模拟量,温度、压力、流量、水位等非电气模拟量,开关量、SOE量、电度表脉冲量等。该类数据在水电站内通常按照采样周期1 s进行计算,10 000个遥测点每年将产生3.4 TB数据(12B/帧×1 帧/s×86 400 s/d×365 d×10 000遥测点)。
(2)继电保护、故障录波信息管理系统。该系统数据包括水轮发电机、主变、线路等继电保护继电保护装置的保护定值、输出压板状态、设备历史故障信息以及装置启动时刻前后段时区内所采集的电气量(非电量)信息、开关位置信息等,故障录波装置启动时段的电气量录波数据文件。该类数据通常以文档、日志文件等格式存储。
(3)主设备状态监测系统。该系统数据主要包括机组振摆装置、机组测温系统、开关柜测温巡检系统、主变状态检测、GIS状态检测等装置采集的振动、摆度、温度、压力、微水等历时数据和越复限告警数据等。该类数据通常以文档、日志文件等格式存储。
(4)水调自动化系统。该系统数据主要包括雨量站、水位站、水文站等遥测站信息,水库、机组、闸门等静态曲线及参数卫星云图,降雨量、水位、流量等水文水情类数据,以及水务计算数据、气象信息等。该类数据通常以文档、日志文件等格式存储。
(5)工业电视系统。该类系统主要包括了水电站重要部位的现场音频、视频及自动告警截图、AI辨识成果表等数据,该类数据通常以音视频文档、图形文件、电子表格等格式存储。
(6)生产信息管理系统。该类系统主要包括工作票、OA办公自动化、合同计划、项目管理等数据,该类数据通常以文档、电子表格等格式存储。
1.2 流域梯级水电站电力生产数据结构分类
流域梯级水电站综合自动化信息系统覆盖面广,数据类型繁杂,各类业务系统之间数据相互独立,呈现出不同的数据结构特性,可分为4类:结构化、非结构化、半结构化,以及采集量测类。
(1)结构化数据。由数据元素汇集而成的每个记录的结构是一致的并且可以使用关系模型予以有效描述,包括设备名称、资源标识、机组运行工况、发电量、水情实时数据等各类结构化信息。
(2)非结构化数据。在未定义结构的情况下或并不按照预定义的结构要求捕获、存储、计算和管理的数据,如视频、音频、图片、日志文件、报表等,继承于文档且与设备有关的信息。
(3)半结构化数据。为介于完全结构化数据和非结构的数据之间的数据,如日志、邮件等。
(4)采集量测类数据。通过采集装置短时间内被创建、处理、存储、分析并显示的数据。该数据主要为设备的相关测点信息和描述设备运行状态的曲线,如量测点、电量曲线等。从数据特性来看,该类数据可定义为结构化数据,鉴于水电站包含大量的测点类数据,故单独定义。
将以上4类数据资源有效分类、管理和挖掘,可最大限度地获取数据价值,制定较为完善的决策管理策略,从而助力于提升企业经营管理水平,提高生产力。
2 关键技术
2.1 Hadoop系统平台
Hadoop是分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序,并且充分利用服务器集群进行全面的数据存储和处理。
(1)分布式文件系统(HDFS)。HDFS是一个高可靠、可扩展,以及可提供高吞吐量的数据访问能力的分布式文件数据库。在数据的读写时,HDFS能保证文件在该时刻只被一个调用者执行写操作,同时能被多个调用者执行读操作。
(2)分布式开源数据库(Hbase)。Hbase是一个高可靠、高性能、面向列、可伸缩的分布式存储数据库,适合存储海量非结构化、半结构化或结构化数据,利用Hbase技术可通过依靠横向扩展,不断增加X86商用服务器,来增加计算和存储能力。
(3)分布式批处理框架(MapReduce)。MapReduce是Hadoop的核心,可用于大规模数据集的并行运算。基于Map和Reduce函数,写出的应用可在多台服务器集群运行,起到将大事务分散到不同设备处理的能力,以一种可靠的容错方式并行处理数据,实现了对大数据的处理。
除上述核心组件以外,Hadoop还应包括数据接入和共享工具(Flume、Sqoop和ETL)、资源调度管理系统(YARN)、数据仓库工具(Hive)、大规模并行SQL分析处理引擎(HAWQ)、分布式搜索引擎(Solr)、分布式内存计算引擎(Spark)等。Hadoop平台架构如图1所示。采用Hadoop平台实现半结构化、非结构化数据处理,提供流式计算、离线计算、实时计算与全文检索服务,形成统一的数据湖。
图1 Hadoop系统平台架构
2.2 MPP系统平台
MPP系统平台可通过大数据高比例压缩降低I/O开销、大规模并行计算支撑高性能的大数据分析和处理能力、灵活的大规模集群扩展能力、高可用性等功能。MPP系统平台架构如图2所示。
图2 MPP系统平台架构
MPP数据库由数据库核心引擎、物理存储层、接口访问层以及管理控制台等组成部分。其中,MPP数据核心引擎提供的无共享MPP架构,为MPP提供了大规模横向线型扩展能力和高可用性,以可靠地支持深度分析需求能力。
物理存储层为MPP的存储引擎提供不同的存储位置,既可以是节点内本地磁盘文件系统和内存的融合存储,也可是HDFS等远程自定义存储。此外,MPP数据库接口访问提供了基于ODBC、JDBC、ADO.NET接口规范的标准SQL访问,以支持与ETL工具、报表和分析挖掘工具的无缝集成,实现数据装载、查询和分析挖掘功能。
相较于传统关系型数据库,MPP系统在数据处理方面具有以下特点:
(1)采用分布式架构。传统的数据库采用集中管理模式,易造成数据大量堆积,且需要大量的存储介质,易导致服务器的回应下降乃至于崩溃。MPP数据库采用分布式架构,由许多松耦合处理单元组成,每个单元内CPU都有各自独立资源,如总线、内存、硬盘等,每个单元内都有操作系统、管理数据库的实例复本。
(2)处理数据量大。传统的数据库部署不能处理TB级数据。MPP数据库能处理PB级数据。
(3)I/O处理能力强。传统的数据库采用集中式存储,数据库的性能问题均归咎于I/O。而MPP采用无共享的并行处理架构,避免了集群中各节点在并行处理过程中的CPU、I/O、内存、网络等资源的争夺,不会造成计算及存储资源瓶颈。
(4)采用列存储。可将分布式数据处理系统中以记录为单位的存储结构变成以列为单位的存储结构,进而减少磁盘访问数据,提高查询处理能力。
为此,本文提出了融合Hadoop和MPP的技术架构,来构建流域梯级水电站电力生产数据中心。
3 基于Hadoop+MPP架构的流域梯级水电站电力生产数据中心建设方案
3.1 系统架构
电力数据中心的系统架构设计不仅需要考虑数据应用业务层面的需求,同时也要满足系统数据的完整性、一致性,系统性能的稳定性、可扩展性等方面要求。按照分级、分层的设计理念,水电站电力数据中心由三大平台构成,分别为硬件平台、大数据平台、业务应用平台。硬件平台是电力生产数据中心的基础,为大数据平台、智能应用平台提供计算、存储、网络等硬件网络支撑。大数据平台则是电力生产数据中心的核心,为数据中心提供数据采集、存储计算、分析处理等所需的核心组件,并提供电力生产数据中心的最基本的服务应用。业务应用平台则对企业电力生产各业务系统数据、模型进行深入挖掘、分析,为公司的电力生产提供重要的服务保障,为公司的智能运维管理决策工作提供有力支撑。系统架构如图3所示。
图3 电力生产数据中心系统平台架构
3.2 大数据平台架构
3.2.1 数据采集
对于大数据平台而言,数据采集是指从各业务或跨平台的信息系统中获取规范的生产、运行、管理数据,供分析系统使用。
数据采集途径分为信息内网数据获取或信息外网数据获取。数据获取/转换装置部署在信息内网,处于信息外网业务系统的数据需通过安全隔离装置获取。数据获取的整体思路是基于企业服务总线,采集数据接口、数据中心共享、网络隔离下的安全文件传输等方式,通过配置相关策略,定义相关接口、周期、调用频率和对象等参数,自动从业务系统中抽取数据,解决跨平台数据库访问、跨平台大数据文件高速并发读取、跨平台数据安全传输与同步等关键问题。数据获取系统主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,可实现对结构化、半结构化、非结构化的海量数据的智能化接入、传输、监控和管理等。
3.2.2 数据存储计算
电力生产数据,除了传统的结构化数据以外,还包括海量规模的非结构化、半结构化数据。面向非结构化、半结构化数据存储,传统的集中式、阵列式存储模式由于存在扩容不方便、可靠性不高、可用性不佳等问题已然无法应对多重化的电力生产数据类型、数据规模以及异构性方面带来的挑战。故而,本文构建关系型数据库、分布式文件系统、分布式数据库的混合式数据库架构,来实现对结构化、半结构化、非结构化海量电力生产数据的集中存储与统一管理,以满足大量、多样化数据的低成本、高性能存储需求。混合存储架构设计如图4所示。
图4 混合存储架构设计
3.3 业务应用平台架构
电力生产数据中心在业务应用设计可从大数据平台的基础应用和基于数据平台进行数据深度挖掘的智能应用两个方面考虑。
3.3.1 基础应用
(1)数据服务功能。支持可视化配置Restful API、E文件、Kafaka等方式获取数据,用户可简单、快速、低成本、低风险地实现微服务聚合、前后端分离等服务。
(2)权限服务功能。基于用户、资源、角色三位一体的设计思想,为系统提供统一的用户管理、受控资源管理、角色管理、授权管理和安全控制管理。权限管理机制一方面可以在宏观上控制用户对功能页面的访问权限;另一方面可以在微观上定制用户的微观操作权限。
(3)文件服务功能。可为平台内的各级应用提供统一的文件及目录共享存储管理功能,包括创建文件、读取文件、删除文件、版本管理、创建目录、罗列目录、删除目录、重命名等功能。此外,还可提供横向跨安全区、纵向跨调度系统的文件同步功能。
(4)智能报表功能。可为各类业务提供报表编制、管理、查询、分析与导出服务,实现所见即所得的各类报表的制作、调用、打印等功能。
(5)智能搜索功能。可提供一种面向电力生产全业务海量数据的,智能、高效、准确、全面的信息获取、发现、推送手段。
(6)可视化展示功能。通过对流域梯级电站基础运行数据、分析数据、GIS地理信息等运行状态信息、告警监测信息等大量事物数据的图形化,将抽象的数据整理成直观易懂的信息,从而用户可从复杂海量数据中发现问题。另外,根据已有的数据和规则建模,应用可视化技术进行情景模拟,预测未来的情况。
3.3.2 智能应用
电力生产数据中心的规划建设旨在为流域梯级电站的智能调度、智能决策、智能发电运行、智能设备维护等智能化应用提供数据支撑。在智能应用模块,可考虑结合水电站智能化、信息化技术的发展,以及流域发电公司的智能化建设发展战略规划,从电力设备运行状态分析、流域梯级电站优化调度策略研究、电力市场营销策略研究等方面进行规划设计,从而完善电力生产数据中心的高级智能应用功能建设。
3.4 硬件平台架构
电力生产数据中心硬件平台是承载系统软件平台的基础,通常采用x86物理服务器。同时,根据数据接入量和数据存储处理量,对服务器性能和数量进行详细配置。以某流域公司电力生产数据中心建设为例,据该项目接入电力生产数据中心的各业务系统数据量如表1所示。
表1 某流域公司电力生产数据中心各业务系统数据量
从表1可知,电力生产数据中心需要接入现有业务数据量约为20 TB,每年以8 TB的增量考虑,同时预留30%空间用于存储临时数据。按照性能满足未来3年的发展需求,保证平台稳定、可靠、高效运行,另外上述各业务系统数据按照模型数据、运行数据、非结构化数据、统计分析数据进行分类,可分为MPP架构存储结构化数据,Hadoop架构存储历史数据,HDFS存放历史备份数据及非结构化数据,如文件、图片、视频等。
考虑Hadoop架构和MPP架构分别按照三副本和双副本进行数据存储。Hadoop节点单节点采用配置为,2个X86架构CPU,18核,主频2.6 GHz,512 GB内存;2块600GB 10K SAS硬盘、12块4TB 7.2K SATA硬盘。MPP节点单节点采用配置为,2个X86架构CPU,18核,主频2.6 GHz,512 GB内存;2块600GB 10K SAS硬盘、24块1.2TB 10K SATA硬盘。故本项目规划配置MPP数据库集群计算节点数为4台,Hadoop集群计算节点数为8台。此外,该项目还需配置4台数据采集及应用服务器,通过虚拟化来部署采集调度器程序、采集执行器程序、服务总线、日志服务程序等应用等数据接入工作以及大数据平台的基础业务应用服务等工作。电力生产数据中心的硬件组网架构如图5所示。
图5 电力生产数据中心硬件组网架构设计
4 结 论
本文提出了基于Hadoop和MPP融合技术架构的流域梯级水电站电力生产数据中心建设方案,通过构建混合数据库,对结构化、非结构化、半结构等多类型的电力生产数据的存储、计算、分析等处理,具有低延时、高并发的查询和分析能力。同时,从流域梯级水电站实际运管业务出发,设计流域水电站电力生产数据中心的业务功能应用模块,为智能水电站、智能集控的发展提出了新思路,助力流域水电公司打造信息化、智能化清洁能源基地建设具有重要意义。
为确保水电站电力生产数据模型及数据编码一致性、规范性,后续还需针对流域梯级水电站电力生产数据中心的数据信息模型编码规范进行深入研究。