基于数据融合算法的电网用电量数据分析方法

2021-05-14张旭东

节能技术 2021年2期

王彦，陆海，杨洋，张旭东，苏适

(1.云南电网有限责任公司西双版纳勐腊供电局,云南西双版纳 666300;2.云南电网有限责任公司电力科学研究院,云南昆明 650217)

0 引言

新能源及智能电网的大规模发展使电力系统数据朝着多样化与复杂化方向发展，目前针对电力数据的研究主要集中在电力设备故障的分析和用电量分析两个方面。电网用电量的分析关系着整个电力系统的调节和规划，对用电量数据的精准分析影响电网运行安全和经济安全[1]。因此对用电数据的分析引起了国内外学者的关注，有些国外电力企业采用智慧能源云平台的方式，来覆盖整片区域的发电、输电以及配电用电等一系列环节，分析电网运行的电力数据，从而降低电网系统各环节运行的成本[2]。国内对于电网用电量数据的分析工作也展开了全面的研究，针对国内现有的技术水准，研究电力数据在输配电设备负载的状态评估、电力设备故障检查等方面的应用，保证了国家电网的安全稳定运行[3]。

基于数据挖掘的用电数据分析方法是采用数据挖掘技术，对朴素贝叶斯算法进行优化，实现对电力系统中不同用户的分类，并仿真验证了该方法的准确性[4]。基于云计算的用电数据分析方法是采用分布式原理，设计了电力数据的多维索引，针对电力数据的特点，实现对电力数据的分析预测，并实验证明了该方法的实用性[5]。Wu等[6]提出了基于多变量灰色模型的山东省用电量预测，用灰色凸关系分析法描述了用电量及其相关因素之间的关系。建立了一种考虑总人口的新型多变量灰色预测模型，以预测山东省的用电量。以上两种方法虽然在实用性和准确性方面具有一定优势，但是在数据分析效率方面还存在一些不足。

由于数据融合算法具有运算量大、通用性较好、处理速度快等优点，因此本文将数据融合算法应用到了电网用电量数据分析方法设计中，有效解决了数据分析用时较长、运算性能较差的问题。

1 电网用电量数据分析方法设计

1.1 电网用电数据挖掘

在分析电网用电量数据时，首先要对电力数据进行挖掘，对存储在电力系统数据库中的用电数据信息进行相应的采集、特征转换和数据处理[6]。信息化时代下各行业用电的急剧增长，电力数据呈爆发式增长，我国智能电网系统的数据采集量以每年90TB的数据量增加[7]。且电力数据来源广泛，且实时分析性较强，数据挖掘相对较难，所以提出了一种与用电数据分析模型相对应的数据挖掘方法，将有价值的用电量数据挖掘到电力数据库中，利用大数据技术分析电力数据的潜在价值。

因用电量数据量较大，采用大数据技术对其进行挖掘[8]，目前完整的数据挖掘包括电力系统数据库、数据挖掘服务器、数据检索引擎、智能分析等过程。数据挖掘体系结构如图1所示。

图1 电网用电量数据挖掘体系结构

用电量数据挖掘体系数据库主要用于存储电力系统元数据，电力数据仓库属于一个群体，同时为上一层挖掘服务器提供数据接口。用电量数据模式评估是对采集到的电力数据进行分析，获得用户所需的用电数据，经过挖掘体系处理后，得到用电量数据[9]。在电网数据库中挖掘用电量数据的具体实现步骤为：

(1)确定待挖掘的数据对象

用大数据技术对电力数据进行分析，在确定需要挖掘的用电数据对象之前，应先明确该挖掘的数据为数据分析过程中的哪一步服务。传统挖掘技术所获得的用电资料信息格式无法预测，但大数据技术可以对用电资料进行有效挖掘。

(2)电力数据准备阶段

通过对电力系统中影响电网异常的数据因素进行预处理[10]，去除不相关的数据信息。从而为电力系统的正常运行提供可靠的数据支持，保证电力系统用电数据的完整性。

(3)建立评估用电量数据模型

选择大数据技术计算用电数据库的隶属度，并调整相应参数，选择适当的求解过程，实现高效的模型预测。用大数据技术对数据模型各方面的性能进行评价[11]，在确定使用前，当所有的性能指标都达到了预期值之后，开始进行用电量数据挖掘。

(4)挖掘用电量数据

利用大数据技术中的目标数据挖掘算法[12]，获得用电数据信息。

根据大数据技术中数据挖掘的特点，确定了合适的数据挖掘方法，通过引入电力数据挖掘体系结构，设计了用电量数据挖掘流程，以此提高数据分析的速度。结合电力数据挖掘的实现步骤，完成了用电量数据的挖掘；接下来通过数据融合算法分析用电量数据。

1.2 基于数据融合算法的指标权重调整与用电量数据分析

一般情况下，电力系统数据分析算法是将电力系统源域和目标域的电力数据混合起来进行分析，并利用大数据技术建立一种数据融合算法的指标权重调整机制[13]。如果对训练样本进行了错误分类，可以认为该训练样本与目标区域中的用电量数据相似度几乎为零，从而降低了下一次训练时数据的权重[14]。经过多次迭代后，电力系统源领域的用电量数据将直接比先前的权重更高，因为它是目标域数据训练的一个有利部分。但是，在极端情况下，由于用电量数据价值的变化，传统的数据分析算法放弃了对该部分用电量数据的分析[15]。图2显示了传统数据分析的算法流程。

图2 传统用电量数据分析算法流程

传统用电量数据分析算法在实际应用时，随着迭代次数的不断增加，电力系统源领域内的用电量数据样本权值不断降低，目标领域内的数据样本权值不断升高，这种权值波动现象容易导致两个领域之间的差距变大，从而严重影响了用电量数据分析的准确性[16]。因此对传统用电量数据分析算法进行改进，设计一种数据融合算法，筛选并融合两个领域的用电数据。

在电力系统源领域内的用电量数据筛选过程中，初步过滤掉与目标领域电力数据不同的源领域用电数据，用电量数据训练算法的流程为：

(1)输入：电力系统源领域内的用电量数据集，及目标领域内的数据集

(2)用电量数据初始化

将两个领域内的用电量数据进行融合，并将融合后的数据集分类。

(3)用电量数据分析迭代

(4)输出：筛选后的源领域用电量数据集和目标领域用电量数据集。采用大数据技术的计算优势，计算电力系统两个领域之间的距离；根据两个领域的距离计算结果，将用电数据聚类；剔除不在目标领域内的用电量数据，以此提高数据融合算法的运算效率。

针对数据融合算法在应用过程中可能会出现拟合超标问题，算法在损失量计算时需要增加一个校正系数[17]，改进后的算法流程如下：

(1)输入:电力系统源领域电力数据集Ta和目标领域电力数据集Tb，测试数据集S，训练数据集T，分类算法L以及迭代次数n。

(2)初始化分类参数

初始化用电量数据训练数据集中的权重向量w，计算公式为

(1)

设置分类参数β为

(2)

公式(2)中，M表示用电量数据训练集样本数量，p表示用电需求系数。

(3)分析算法的迭代

(4)输出:电力数据融合器。调用用电量数据融合器，根据数据训练数据集以及分析系数，得到一个在测试数据集上的融合器[18]；计算不同数据集在目标领域用电量数据集上的错误率；设置改进后的数据权重向量。

电力系统在极端运行的条件下，由于用电量数据极易丢失，设计数据分析算法保留了原始用电量数据集[19]，针对传统数据分析算法的不足，利用大数据技术的计算优势[20]，完成了用电量数据分析算法的改进设计；最后结合数据的分析流程，来实现用电量数据的分析。

电力系统中处于监测状态的电力设备会随着时间的延长，产生大量的历史数据，分析用电量数据可以促进电力设备的状态评估[21]。传统的用电量数据分析方法计算过程较为复杂，在规定的时间内无法达到用电量数据的分析要求。管理者根据对电力数据的需求将用电量数据导入到电力系统数据库中，数据的计算和分析由系统统一完成[22-23]。用电量数据分析流程如图3所示。

图3 用电量数据分析程序

综上所述，为了适应电力系统的运转，将电力系统中的用电量数据进行了状态评估，结合数据融合算法调整指标权重，数据的分析流程，实现了电网用电量数据的分析。

2 实验分析

为验证此次研究提出方法在用电量数据分析耗时及运算方面的优势，通过Matlab 2015b对其进行测试。测试平台搭建环境为Windows 7操作系统，Core i5-9400F CPU，8GB运行内存。本节对比的方法有基于数据挖掘的分析、基于云计算的分析这两种用电量数据分析方法。此次实验数据来源于某电网企业变电站，其中包括不同时段的输电量、用户用电量、用电负荷、售电量等数据。具体数据采样装置参数如表1所示。

表1 采样装置参数设定

2.1 用电量数据分析耗时对比实验

2.1.1 实验过程

由于电力系统中的数据比较复杂，且随时变化，用电量数据的不稳定性导致其在分析过程中的耗时变长，实验的具体操作步骤如下：

步骤1：在电力系统数据库中采集十组不同数量用电量数据，分别采用数据挖掘技术、云计算技术以及大数据技术对采集的用电量数据进行清洗；

步骤2：将清洗后的用电量数据转换成数据分析服务器可以识别的数据格式，以便服务器对数据进行处理；

步骤3：先对用电量数据进行预处理，根据预处理的结果再做进一步分析；

步骤4：分别采用基于数据挖掘的分析方法、基于云计算的分析方法以及基于数据融合算法的分析方法，对处理后的用电量数据进行分析；

步骤5：统计不同方法在用电量数据分析过程中的耗时情况，得到实验结果。

2.1.2 实验结果分析

利用用电量数据分析耗时实验步骤，利用模拟平台统计不同分析方法的耗时情况，如表2所示。

表2 用电量数据分析耗时对比结果

从表2的实验结果可以看出，采用基于数据挖掘的分析方法来分析电力数据时，由于用电量数据的数量大，当用电量数据数量超过8 000 MB时，导致内存不足的现象发生，得不到具体的分析耗时结果。经计算，数据数量小于7 000 MB时的分析耗时均值为9.24 s；基于云计算的分析方法在用电量数据分析耗时方面要优于基于数据挖掘的分析方法，只有当数据数量为10 000 MB时，才会出现内存不足的现象，一定程度上优化了数据分析方法受到数据量大的影响。

经计算，除去无用数据的分析耗时实验结果，用电量数据的分析耗时均值为7.1 s。相比于以上两种分析方法，基于数据融合算法的分析方法在电力数据分析过程中，受其他干扰电力数据数量的影响较小，且整体数据分析耗时比较低。本文研究的方法在分析用电量数据时的平均耗时为2.194 s。因此可以得到该方法可以缩短用电量数据的分析耗时，可以及时为电力规划提供有利依据。

2.2 用电量数据分析收敛次数对比实验

2.2.1 采集用电量数据

在保证用电量数据分析耗时较短的情况下，进一步验证该方法在数据分析运算上的优势。以在不同任务量情况的收敛次数作为实验指标，收敛次数越少，说明数据采集过程中资源占用率越少，运算性能越好，准确率越高。方法收敛次数对比实验对用电量数据的要求比较严格，在实验前必须先从电力系统中采集实时用电数据信息，确保实验结果可靠。用电量数据采集结果如表3所示。

表3 用电量数据采集结果

2.2.2 实验结果分析

根据用电量数据的采集结果，采用基于数据挖掘的分析方法、基于云计算的分析方法以及基于数据融合算法的分析方法，得到了用电量数据分析收敛次数对比结果，如图4所示。

图4 用电量数据分析收敛次数对比结果

从图5的实验结果可以得到，在用电量数据分析收敛次数方面，基于数据挖掘的分析方法与基于云计算的分析方法不能达到良好的数据分析效果，基于数据挖掘的分析方法在分析用电量数据时的最大收敛次数都高于58次；基于云计算的分析方法在分析收敛次数虽然略低于基于数据挖掘的分析方法，但是用电量数据分析的平均收敛次数高于41次；然而基于数据融合算法的分析方法在数据分析收敛次数远远低于其他两种分析方法，用电量数据分析的收敛次数均低于20次，说明其运算性能较好，准确率较高，更适用于电力数据的分析工作。

基于以上实验结果，无论是用电量数据分析时效还是分析运算性能方面，基于数据融合算法的用电量数据分析方法优于其他两种分析方法，有效提高了数据的分析效率。