APP下载

基于大数据技术的电力数据质量评估数据框架研究*

2022-06-02樊锐轶耿少博王伟力

电子器件 2022年1期
关键词:历史数据框架电网

高 志 ,樊锐轶 ,耿少博 ,王伟力

(1.国网河北省电力有限公司,河北 石家庄 050000;2.国网天津市电力公司,天津 300019)

在大数据时代,大多数应用都是由数据驱动的。如果能提高数据质量,大数据应用的有效性和可靠性也能得到提高[1-3]。在电力行业中,不断积累的电力数据越来越多,并在此基础上开发了许多电力应用[4-7]。在我国,电力大数据在规模、结构、格式、评估要求等方面都具有一定的特殊性,传统的大数据评估框架无法直接应用[8-9]。

因此,大数据质量评估技术已成为研究热点。文献[10]设计了一个基于决策树和多维模型的大数据质量评估框架。但主要关注大数据评估的维度,没有考虑不同领域的特点。文献[11]讨论了一种基于大数据采样策略的高效数据质量评估方案,虽然被证明是可行的,但是评估对象并不是整个数据集。

除了数据评估技术外,电力大数据评估还需要数据采集技术和数据存储技术。近年来,针对海量数据采集和存储提出了许多分布式技术,但都不能直接应用于电力大数据[12]。综上所述,本文提出了一个电力数据质量评估的大数据框架。该框架增加基于灰色理论的量化评价模块,并给出一般性的数据指标质量计算公式。本框架可以同时积累实时数据和历史数据,为电力大数据评估提供集成计算环境,支持不同类型数据的存储。本文的研究结果为其他具有相似特征的大数据应用亦提供了一个有价值的框架。

1 电力数据质量评估数据框架

1.1 中国电力大数据的特点

由于大数据在多样性、可变性和准确性等方面的特殊性,当下大数据的处理和存储问题往往超出了传统信息技术的能力。电力大数据在中国国家电网中的主要特点如下。

图1 中国电力大数据特点

多层结构:电网是多层次的,有总部、省电网、地电网、市电网等。从总部来看,电网分为总部和省级电网两个层次。

多源数据:不同类型的数据以不同的方式产生。基本数据是手动输入的。实时数据由传感器设备连续生成。历史数据来自传感器设备。

多数据类型:电力数据主要有三种类型,包括基础数据、历史数据和实时数据。基础数据用于描述传感器设备、指标等。历史数据为包含传感器设备历史运行状态的波形数据和文件。实时数据是指传感器设备连续产生的数据。

信息独立:由于每个省级电网都部署了传感器设备,数据没有整合,无法从整体角度进行深入分析。

不同的处理要求:根据不同电力应用的需求,完成数据处理的时间从分钟到小时不等。

大规模:智能电网中广泛部署的大规模电力传感器不断产生数据,这些数据的规模急剧增大。例如,当2 000 个监测点产生谐波数据时,每个监测点包含2 000 个指标,中国一个省的谐波检测数据的数据容量将达到6 TB。

1.2 电力大数据评估框架

针对以上特点,本文设计了一个电力大数据框架代替标准的大数据框架,并在框架中加入了基于灰色理论的客观数据评估模块,以提高电力数据的质量。

图2 设计了一个用于电力数据质量评估的大数据框架。在功能方面,包括数据采集、数据存储和数据计算三个部分。在组织结构方面,分为总部和省电网两部分。

图2 电力大数据评估框架

首先,数据采集几乎是每个大数据系统的重要组成部分。如图2 所示,数据获取包括四个主要模块。细节如下。

(1)设备数据采集模块:该模块位于省级电网。收集大量传感器设备的运行数据。

(2)实时数据积累模块:该模块负责收集省级电网的实时数据。实时数据积累过程如图所示。总部首先从省电网获取Kafka 的配置和主题。其次,数据被多个线程接收。最后,将实时数据保存在HBase 中,并将累积的日志记录下来。

(3)历史数据积累模块:负责从省级电网获取历史数据。历史数据积累过程如图所示。总部与省电网首次建立了插座连接。其次,总部获取部署在省电网的ftp 服务器的账号和密码。再次,获取历史数据的文件名。然后,下载并解压缩包含历史数据的zip 文件。最后,将历史数据保存在HBase 和HDFS 中,并记录相应的日志。

(4)采集任务调度与监控模块:由于历史数据的规模和频率不相同,因此该模块用于根据监控数据对任务进行调度。

此外,为了存储不同类型的数据,设计了一个集成的存储环境,包括关系数据库Oracle、NoSQL 数据库HBase 和分布式文件系统HDFS。使用Oracle 保存结构化数据,包括基础数据和评估结果,使用HDFS 接收历史数据,使用HBase 保存实时数据和从历史数据中提取的信息。

最后是数据评估模块,该模块负责使用各种数据质量评估方法对电力大数据质量进行检查和评估。

如图2 所示,所有数据质量评估方法都由一个大数据平台支持,该平台涉及各种大数据技术,如Sqoop、Hive、Hbase、HDFS、MapReduce(MR)和Spark。

数据质量是一个多维的概念。主观数据质量评价和客观数据质量评价是两种主要类型。主观数据质量评估是基于利益相关者的经验而实现的。客观的数据质量评价主要取决于数据的状态。考虑到客观数据质量评估和主观数据质量评估,框架中应用的数据质量评估过程如图3 所示。

如图3 所示,输入包括实时数据、历史数据和基础数据,输出为数据质量评价结果和高质量数据。由于数据的结构可能不适合后续的评估,因此首先采用预处理来调整实时数据或历史数据的结构。例如,删除多余的空白行和空白。其次,确定了数据质量评价的类型。对于无法通过客观数据质量评价方法进行评价的数据,采用主观数据质量评价方法。再次,对数据质量评估的结果进行评估,以确定输入数据是否需要清洗。如果输入数据的质量较低,则采用数据清洗方法,如基于阈值的离群点检测方法和基于k均值的离群点检测方法。

图3 电力大数据评估流程

1.3 灰色理论客观评价方法

为实现电力数据质量评价指标的科学合理性,本文在评价模块提出了基于灰色理论的客观综合评价方法,具体实现如下:

首先应确定具体指标评价算法。针对中国电力大数据现状,选取待评价数据集的正确性、一致性、及时性、完整性、冗余性进行度量[13]。具体算法如下。其中,P1,P2a,P2b,P3,P4,和P5分别为正确性度量,记录完整率,数据完整率,一致性度量,及时性度量和冗余性度量。

式中:Dq为问题数据数,Cs为缺少数据项数,Ra为记录数,Ca为数据项数。

式中:Rs为缺少记录数。

式中:Cq为问题数据项数。

式中:To为数据出库时间,Ti为数据发生时间,Ri为数据记录时间,m为发生次数。

式中:Cr为冗余数据项数,Rr为冗余记录数,Rfr为非冗余记录数。

此外,本步骤也可根据实际情况选出需计算指标[14],对于不适合客观评价的指标,亦可选取专家评价法。

在获取每项指标的评价值后,本文提出依据灰色理论对数据进行综合定量评价法。

(1)获取指标评价数据

最优化指标数列为Y={y(k)|k=1,2,…,n};待评价指标数列为Xi={xi(k)|k=1,2,…,n},i=1,2,…,m。

(2)待评价指标与最优化指标关联系数计算

最优化指标Y与待评价指标Xi的关联系数计算公式如(7)所示。

式中:ρ∈(0,∞)。一 般ρ取值为(0,1),当ρ≤0.546 3 时,分辨力最好,本文取ρ=0.5。ξi(k)是指标矩阵xi的第k个元素与最优化指标矩阵Y的第k个元素之间的关联系数。

(3)综合数据质量量化值计算

待评价指标与最优化指标关联系数是其在各个时刻或条件下的关联程度值,数值不止一个,因此信息过于分散不便于进行整体性比较。作为待评价指标与最优化指标关联程度的数量表示,本文以求平均值为例,综合数据质量量化值ri计算公式如下:

2 数据框架应用

本文最后提出数据框架应用场景,如图4 所示。本框架实现了对中国电网电力大数据评估的支持,由于本文主要内容为一种耦合灰色理论和数据框架的新思路,因此本节仅对应用架构场景进行概述。

(1)总部系统:主要分为四个部分。应用接口服务器与省电网系统的业务服务器进行通信。Web服务器用于支持不同的应用程序。存储服务器包含评估结果的关系数据和基础数据。大数据平台用于保存实时数据和历史数据,支持数据质量评估方法。

(2)省级电网系统:主要分为五个部分。接口服务器负责实现总部系统与省电网系统的通信。部署Web 服务器以支持本地电力相关应用程序。省级数据中心负责基础数据和历史数据的保存。业务服务器集群是一组用于获取、分析和缓存数据的服务器。前端处理器集群是一组前端处理器。前端处理器是对从传感器设备收集到的数据进行预处理的设备。此外,热备份技术可以避免单点故障。

3 结论

本文提出了一个电力数据质量评估的大数据框架。在功能方面,包括数据采集、数据存储和数据计算三个部分。在组织结构方面,分为总部和省电网两部分。

该框架增加了基于灰色理论的量化评价模块,并给出一般性的数据指标质量计算公式。本框架可以同时积累实时数据和历史数据,为电力大数据评估提供集成计算环境,支持不同类型数据的存储。

其研究结果为其他具有相似特征的大数据应用亦提供了一个有价值的框架。

猜你喜欢

历史数据框架电网
计及SOC恢复的互联电网火储联合AGC控制策略研究
有机框架材料的后合成交换
框架
穿越电网
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
基于故障历史数据和BP神经网络的接地选线方案研究
电网调控技术在电力系统中的应用
基于Hadoop技术实现银行历史数据线上化研究
用好细节材料 提高课堂实效
电网基建施工现场注意事项及改善