基于大数据的电能质量监测分析系统设计与实现
2020-09-02郭晓乾武守晓王承栋
郭晓乾 武守晓 王承栋
摘 要:为解决传统电能质量监测系统数据接入可靠性不高,海量数据存储和统计分析能力不足的缺点,采用类数据库的事务处理机制设计数据调度采集过程,搭建基于Cloudera大数据平台的电能质量监测分析系统,对数据进行分布式存储、计算分析,实现对TB级电能质量数据的监测点指标与运行状态统计,以及对暂态事件的统计聚合分析等功能。实验证明该系统可靠、海量数据统计处理能力强,提高了数据存储可拓展性,为供电方提供了解决海量电能质量数据存储与分析的有效方案。
关键词:电能质量监测;体系结构;数据接入;大数据平台
DOI:10. 11907/rjdk. 192530 开放科学(资源服务)标识码(OSID):
中图分类号:TP319文献标识码:A 文章编号:1672-7800(2020)008-0182-04
Abstract: In order to overcome the shortcomings of the traditional power quality monitoring system, such as low data access reliability and insufficient mass data storage and statistical analysis capabilities, a database-like transaction processing mechanism is used to design the data scheduling and collection process, and a power quality monitoring analysis based on the Cloudera big data platform. The system performs distributed storage, calculation and analysis of data to realize the monitoring point indicators and operating status statistics of TB-level power quality data, as well as statistical aggregation analysis of transient events. Experiments show that the system is reliable and has strong statistical processing ability of massive data, which improves the expandability of data storage, and provides an effective solution for power suppliers to store and analyze massive power quality data.
Key Words: architecture; data access; big data platform; transient events
0 引言
随着工业级电子设备的广泛应用,精密制造业对电能质量要求越来越高,各项电能质量指标是衡量电能质量高低的重要参考维度。随着电能需求增长,电能监测装置得到广泛普及,采集到的电能质量监测数据[1]也呈现几何式增长,其中电力部门最为关心的是电能质量指标监测数据以及暂态监测数据。文献[2]对数据存储技术展开分析,但未提出数据可靠性传输方法。本文将数据传输分为多个阶段,采用类事务处理方式,保证数据传输可靠性。传统的电能质量数据存储方式是使用昂贵的商用服务器,通过关系型数据库进行存储,成本昂贵且可拓展性差,维护成本高[3]。之前的处理方法为各个网省单独建立数据处理中心,规模小,架构分散。不同厂家间的系统信息难以交互,无法集中管理,容易形成信息孤岛[4-5]。为应对传统电网信息化处理数据能力的不足,本文运用大数据技术,提出建立分布式数据存储[6]和计算方案,构建智能化的电能质量信息管控平台[7-10],对全网省电能质量数据进行集中式整体分析。
1 总体架构
电能质量监测分析系统从下往上由源数据层、数据采集层、数据存储层、数据处理层、数据计算层、数据访问层构成。源数据层主要包括监测点终端监测数据,数据采集层包括实时数据和离线数据,存储层中间件主要用到大数据平台的分布式存储数据库HBASE和分布式文件系统HDFS。基于大数据平台Cloudera进行数据存储和数据统计分析工作,通过对数据采集接入,提供关系型、非关系型数据库、实时推送数据等多源头数据整合。通过构建关系型、非关系型数据库、分布式文件系统,支撑海量异构数据存储需求。利用大数据流计算、批量计算、内存计算技术,提供多时间尺度的数据計算处理能力。利用机器学习等人工智能技术,对海量数据进行分析挖掘及预测,最终将计算结果存储到关系型数据库中,方便查询和展示。传感器设备采集到各项指标数据后存储在终端服务器,总部数据采集服务器从终端拉取历史数据到本地数据采集服务器,然后通过调度程序根据文件种类直接存入大数据存储平台的列式存储数据库HBASE或分布式文件存储系统HDFS中,再通过统计程序将大数据平台中的数据进行分布式计算,将计算结果存入关系型数据库MySQL中,前台Web应用服务器从MySQL获取数据进行可视化展示。
图1为系统架构,体现模块之间的关系。系统通过调用终端历史数据上报接口获得历史数据,将这些数据存储到Cloudera大数据平台;系统指标与运行状态分析模块和暂态事件分析模块从大数据平台[11]得到数据,再从关系数据库中得到基础数据和其它辅助数据,进行统计计算,将计算结果通过接口传递到关系数据库或直接发送给前台应用程序,前台程序读取关系数据库中的数据进行数据展示。
2 数据结构设计
首先估算一下数据量:每个监测点有实时数据(3s采集一次)和历史数据(1分钟采集一次),每条数据所占空间约为80Byte,每次采集2 550个指标。以采集一次为例,约10 427个监测点,一分钟一次采集数据量约2G,一个小时采集120G,一天2.8T,一年的数据量就有1 026T(PB级)。
电能质量分析的核心数据为监测点的量测数据,任一实例可表示为四元组:监测点、量测指标、量测发生时间、量测值。其中监测点编码规范编码为复合结构,由省公司编码、地市编码、区别码构成,长度共10个字符。其中省公司编码由2字符构成,地市编码由2字符构成,区别码由6字符构成。量测指标编码比较复杂,如图2所示。
每项都是对应一个四位编码,前面4个唯一确定一个量测指标。
3 业务功能模块
3.1 数据采集调度可靠性设计
由于各个终端历史数据的产生频率和规模都不一样,为防止出现处理热点,影响整个系统稳定运行,需提供基于任务监控的自适应数据汇集调度策略,数据分布式处理[12-14]和任務调度技术[15-16]可用于电能质量监测分析系统的数据分析与挖掘。
总部数据拉取与入库程序主要由调度器和数据汇集程序[17]两部分构成,调度器主要负责分类调度各终端电能质量数据资源,提供一种半动态的调度策略以实现负载均衡,降低网络并发传输开销,提升数据传输可靠性与正确性。调度器为每个终端建立独立的调度任务,并将调度任务持久化到数据库中,这样即使调度器崩溃(可以通过双机热备大幅减少这种可能性),重启调度器后仍然可以从数据库中获取调度信息,重新生成调度任务。
数据汇集程序包括多个阶段,如连接终端、拉取数据、解包数据、数据入库等过程。数据汇集程序通过多级日志记录数据汇集过程,并采用类数据库的事务处理机制,将终端数据文件移动到已发送目录即完结整个事务。如果事务处理过程中因为某种原因导致数据未能入库,则在下一阶段调度器仍然会重新发起数据的入库请求。该机制同样保证数据汇集程序即使崩溃,重启后仍然可从调度器得到数据汇集请求,从而达到提升可靠性目的。
系统提供数据预览功能,用户可随机指定某个指标、某个日时段或某个监测点作为查询条件,快速预览入库的数据,并与源端数据进行对比,通过抽样测试验证正确性。
3.2 大数据平台设计
大数据接入方案从下往上由源数据层、数据采集层、数据处理层、数据存储层、数据计算层、数据访问层构成。结合电力系统自身特点,完成大数据平台选型。其中数据采集层包括历史数据采集,存储层中间件主要应用分布式存储数据库HBase[18]和分布式文件系统HDFS。
Hadoop是Apache的一个顶级开源项目,是一个分布式大数据平台,其核心由Hadoop分布式文件系统(HDFS)和计算框架MapReduce组成,具有高可靠性、高扩展性、高效性和高容错性等优点。大数据集群由多台服务器组成,其中主节点Master上部署HDFS NameNode,HBase,MasterResourceManager,ZooKeeper Server服务,从节点上部署HDFS DataNode,HBase RegionServer,Spark Getway,Yarn NodeManager服务。主节点上部署Cloudera Manangerment Service,包括Alert Publisher,Event Server,Host Monitor,Reports Manager,Reports Manager,Service Monitor。
大数据平台启用Kerberos安全认证,使得集群中的节点可信任。Kerberos可将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证,认证通过后的节点才能提供服务。企图冒充的节点由于事先没有得到密钥信息,无法与集群内部的节点通信,这样就防止了恶意使用或篡改Hadoop集群问题,确保Hadoop集群的可靠性、安全性[19]。
大数据平台监控页面可见大数据平台所有服务状态,单击左侧竖形栏可以看到详细监控信息,包括对集群主机状态监控以及各项服务,包括分布式面向列的数据库HBase,分布式文件系统HDFS,专为大规模数据处理而设计的快速通用的计算引擎Spark,大数据资源管理系统YARN,分布式协调Zookeeper服务。
3.3 指标与运行状态分析模块
针对总部电能质量监测系统缺失、各省公司电能质量监测系统发展不均衡且可用性较差的问题,本系统通过梳理和规范电网电能质量监测分析模块的功能需求,推动总部电能质量监测分析模块建设,完善各省公司电能质量监测模块升级工作,并针对各省公司开展监测点在线率、数据完整率等运行指标考核,最终为各省公司提供架构清晰、功能明确规范的谐波专业管理信息化工具。
为验证系统对海量数据的存储和统计分析能力,特选取1T量测数据,在大数据平台对量测数据进行统计计算。①稳态指标统计:统计每日具有完整台账信息(特指具有变电站信息)的监测点指标的最大值、最小值、均值,结果保存到HBASE数据库及MySQL数据库中;②指标合格率统计:统计每天每个监测点的电压偏差、频率偏差、长时间闪变等指标的超限时间与统计时间,包括电压超限时间、电压统计时间、频率超限时间、频率统计时间、长时间闪变超限时间、长时间闪变统计时间;③指标超标统计:统计每个监测点每天的5项指标超标情况,包括电压总电能质量畸变率超标、负序电压不平衡度超标、电能质量电压含有率超标、间电能质量电压含有率超标、电能质量电流含量超标。
通过监测点在线率、完整率、准确率的计算,得到监测系统运行状态统计。获取监测点台账信息和某时间段内的监测数据后,通过比对得到监测点在线情况、数据指标上传量、数据正确性情况,得到台账中在运行监测点情况、应该上传的数据量,通过比率计算以及按区域、按时间聚合计算方法得到计算结果。
3.4 暂态事件聚合分析
随着特高压直流输电的发展和负荷构成及特性的变化,暂态事件严重威胁系统的安全稳定运行,为达到对暂态事件即测、即辨、即控目的,对暂态事件开展研究。暂态事件有电压暂降、电压暂升、短时中断3类,每类事件都有3个指标,分别是暂态时间起始时刻、暂态事件持续时间、暂态时间残余电压即特征幅值。每个监测点的暂态指标数据存在不同特征幅值、不同持续时间下的暂态事件发生次数。以暂降事件为例进行有效识别,进行如下聚合:
对1分钟内发生的数次电压暂降归并为一次进行统计,其中残余电压取1分钟内数次电压暂降的最小残余电压,持续时间取1分钟内最小残余电压所在的那次电压暂降持续时间。首先完成单个监测点ABC三相暂降聚合,然后对单个监测点1分钟内多次暂降事件进行聚合。
(1)ABC三相暂降聚合算法。首先从单个监测点的电压暂态事件列表中提取、筛选出同一时间记录到的A、B、C各相电压暂降事件;然后对A、B、C各相电压在暂降事件中的残余电压进行排序,找到记录最小残余电压的暂降事件的相别、幅值以及相应的持續时间。通过以上步骤,将3次电压暂降事件合并为1次电压暂态事件。
(2)1分钟内多次暂降事件的聚合算法。1分钟起始统计时间:每日从0:00开始统计,当日24:00结束。按照时间先后顺序自动完成1日内同一监测点的多个暂降事件排序,以当日记录到的第一次暂降事件发生起始时刻为统计起点,完成1分钟内多次暂降事件聚合后的时间排序,然后开始第2次1分钟暂降事件聚合,以此类推。
电压暂降幅值和持续时间聚合:完成1分钟时间段截取之后,对1分钟内多次暂降事件的残余电压进行排序,找到最小残余电压的暂降事件信息,则1分钟内多次暂降事件聚合后的电压暂降幅值为1分钟内暂降事件中的最小残余电压,持续时间即为1分钟内最小残余电压的持续时间。
通过选择省份、地市、变电站、监测点,可以查询出短时中断、电压暂降、电压暂升、频率、电压、谐波的日数据、月数据、年数据。短时中断、电压暂降、电压暂升可根据特征赋值和持续时间进行分类,并进行事件次数分类汇总。
4 系统实现
4.1 全网概览
全网概览界面中,用户可选择时间维度(日、月、年),点击监测点类型、电压等级、指标名称等查询指定范围内信息,显示ITIC曲线和SEMI曲线。通过点击图例(正常、超标、离线)在地图上显示选中状态的变电站信息,并可通过双击地图向下钻取得到相应省份中各市的情况,展示效果如图3所示。
4.2 指标详情
指标详情界面主要通过时间趋势图、电压等级分布和省公司分布统计指标数据,展示监测点频率合格率、电压合格率、闪变合格率、总谐波电压畸变率、谐波电压含有率、谐波电流含量、间谐波电压含有率、负序电压不平衡度、短时中断、电压暂降、电压暂升等指标。针对全网、省公司、地市公司的监测点统计稳态指标合格率、超标情况、暂态事件发生次数、暂态指标统计情况和在线时间趋势进行展示。点击稳态指标超标情况统计菜单进入稳态指标超标情况页面,展示省公司、地市公司和监测点统计稳态指标超标情况,如图4所示。
也可按日和按月选择时间段,选择指标类型,统计该指标类型数据。单击省公司统计图表柱状图,弹出省公司该指标的日或月数据趋势图。
4.3 暂态统计
暂态事件根据事件次数规则、持续时间规则、事件类型规则、暂态事件特征幅值不合理规则、暂降和暂升事件的特征幅值规则,通过时间进行统计,支持数据查询和导出报表功能,展示如图5所示。
5 结语
本文设计并实现了基于大数据平台的海量电能质量数据存储和统计分析,详细分析了电能质量监测分析系统体系结构,对各个模块的功能进行了详细介绍,深入挖掘电网部门内在需求。电能质量监测分析系统对网络传输性能、数据存储性能及数据分析处理性能都有较高的要求,未来研究将围绕上述要求展开。
参考文献:
[1] 王德文,宋亚奇,朱永利. 基于云计算的智能电网信息平台[J]. 电力系统自动化,2010,34(22):7-12.
[2] 耿俊成,张小斐,郭志民,等. 电力通信网大数据应用场景开发及试点应用[J]. 电力大数据,2019,22(2):88-92.
[3] 方迪,尹颖. 贵阳供电局电能质量在线监测系统维护与管理实践[J]. 电子世界,2014(17):48-49.
[4] 许中,陈雁,李丝媛. 广州电网电能质量在线监测系统及其高级应用[J]. 供用电,2012,29(4):68-71.
[5] 张明. 县级电能质量监测系统数据存储与解析研究[D]. 武汉:华中科技大学,2015.
[6] 陈殿伟. 基于Hadoop的虚拟筛选海量数据存储及结果处理的设计和实现[D]. 兰州:兰州大学,2012.
[7] 张华赢,朱正国,姚森敬,等. 基于大数据分析的暂态电能质量综合评估方法[J]. 南方电网技术,2015,9(6):80-86.
[8] 张逸,林焱,吴丹岳. 电能质量监测系统研究现状及发展趋势[J]. 电力系统保护与控制,2015,43(2):138-147.
[9] 肖雄,刘治. 基于负荷管理终端的电能质量监测研究与分析[J]. 广东电力,2016,29(2):85-89.
[10] WANG L X,MU J Q,JU H F. Research and application of power quality online monitoring system[J]. Electric Power Information and Communication Technology,2015,13(2):132-136.
[11] 中国电机工程学会电力信息化专业委员会. 中国电力大数据发展白皮书[M]. 北京:中国电力出版社,2013:1-23.
[12] BARAN M E, WU F F. Network reconfiguration in distribution systems for loss reduction and load balancing justice System[J]. IEEE Transactions on Power Delivery,1988,13 (3) :79-385.
[13] OMRAN N G,FILIZADEH S. Location-based forecasting of vehicular charging load on the distribution system[J]. IEEE Transactions on Smart Grid ,2014, 5(2):632-641.
[14] 付華峥. 分布式大数据采集关键技术研究与实现[D]. 重庆:重庆大学,2011.
[15] GALIVEETI H R, GOSWAMI A K, DEV N B. Choudhury impact of plug-in electric vehicles and distributed generation on reliability of distribution systems[J]. Engineering Science and Technology , 2018, 21 (1):50-59.
[16] ZHANG M. Research on data storage and data parsing in analysis power quality monitoring system of county[D]. Wuhan: Huazhong University of Science and Technology,2015.
[17] 林炳花. 大数据技术在电力通信网的研究与应用[J]. 电力大数据,2018,21(5):31-35.
[18] APACHE. The apache software foundation[EB/OL]. http://www.apache.org/.
[19] NEUMANBC.Kerberos:anauthenticationservicefor computer networks[J]. IEEE Communications Magazine,2002,32(9):33-38.
(责任编辑:杜能钢)