基于数据分析的电力用户用电特征研究

2022-10-18陈谧

自动化仪表 2022年9期

陈谧

(广东电网有限责任公司惠州供电局，广东惠州 516003)

0 引言

随着大数据、物联网、通信技术[1-3]的不断发展，电力行业信息化进程不断加快。丰富的电力数据资源为智能电力系统[4-5]的建立和管理奠定了基础。因此，可以根据用户的历史用电记录分析电力需求和用户之间的相关性，将用户划分为不同的组，从而满足用户和社会对于电力企业不断提高的服务需求。

大量学者针对电力数据分析进行研究，并取得了丰硕成果。

文献[6]提出了基于数据全生命周期的电力数据分析方法。该方法可保证采集到的数据的正确性以及完整性，解决了电力设备故障诊断、状态检测准确率不高等问题。

文献[7]提出了基于多因素特征分析的输电工程静态投资预测模型，解决了电力输电工程情况复杂多变、影响因素多、经济技术指标难以准确预测等问题。

文献[8]以电力大数据为基础，介绍了电力大数据技术和国内外关于电力大数据分析用户用电行为的实例。

文献[9]提出了基于模糊C均值聚类算法的区域用电特征分析方法。

上述方案均在不同领域对电力用户数据进行了分析。

然而，基于用电数据的电力用户分割仍存在着许多新的挑战。首先，由于电力数据量巨大，直接分析复杂的原始数据费时费力，不仅难以提取关键信息，而且无法充分利用数据资源。其次，电力系统通常没有用户用电行为的标签信息。同时，并非所有用电数据都有分析价值，且大多数用户的用电行为在时间维度上具有一定的周期性，因此原始数据中存在大量冗余记录。这会给分析过程带来干扰。最后，现有的方法在有效提取特征、模型训练效率等方面仍有很大的探索空间。

针对上述问题，本文分析了用户用电行为在时间维度上的特征，提出了基于用户电力特征的分割网络模型。该模型能够有效地提取电力消费特征，对电力用户进行细分。此外，本文在电力用户的分割学习过程中使用改进的粒子群优化(particle swarm optimization，PSO)算法自动选择超参数，从而加快模型训练效率。

1 电力用户分割网络模型

用户的用电行为特征通常反映在其历史用电记录中。因此，本文从时间维度分析用户的用电行为。首先，构建了基于卷积神经网络(convolutional neural network，CNN)[10]的时间维度电力用户用电特征编码，主要分析用户在相邻时段内用电记录的相关性。其次，为了减少信息冗余和高维数据带来的维度爆炸或噪声干扰影响，对电力用户用电记录进行多角度特征提取。在此基础上，为了使学习到的特征包含尽可能多的重要信息，本文引入了电力用户用电特征重构层。在该层中，基于反卷积网络解码器从提取的特征中重构原始记录。重构层可以保证提取的特征包含足够的信息，从而在无监督的情况下对用户的用电行为进行建模。最后，基于改进PSO算法的超参数优化，提高模型处理效率。

本文提出的电力用户分割网络模型结构如图1所示。

图1 电力用户分割网络模型结构Fig.1 Electricity customer segmentation network model structure

1.1 电力用户用电特征编码

本小节简要介绍一些使用的符号及其相关定义。令电力系统记录数据集中的所有用户集合定义如式(1)所示。

U={u1,u2,...,uN}

(1)

式中：N为用户数量；∀ui∈U，i为用户序号且i=1,2,...,N，ui为第i个用户。

在对电力用户用电特征建立模型前，需要根据用户的用电信息记录数据构建电力用户用电矩阵，并在此基础上提取用户用电特征。以下对电力用户用电矩阵和用电特征进行定义。

定义1 电力用户用电矩阵。对于用户∀ui∈U，用电矩阵应包括两个因素，即用户每日用电特征信息和一段时间内的用电趋势。因此，ui的用电矩阵定义如式(2)所示。

式中：D为用电记录中包含的天数；T为每日用电量的特征数。

定义2 电力用户用电特征。用电特征是反映用户ui用电行为的低维表示，可描述为Pi∈Rl。其中，l为特征维度。需注意，电力用户用电特征是实现电力用户分割的基础和前提。

考虑到用户的用电行为具有一定的时间相关性，为此，本文构建了基于CNN的时间维度用户用电特征编码。CNN是近年来非常流行的机器学习方法。其本质为一种前馈神经网络，可通过卷积、池化等操作学习并分析数据之间的相关性信息。

需要注意的是，电力用户用电行为数据是一种典型的高纬度数据，具有周期性、短期和长期趋势等。因此，对其分析过程通常不应局限于某个特定角度，而需从不同方面入手，多角度分析用户的行为特征。因此，本文引入多个卷积核来提取原始用户用电记录矩阵的特征，从而更全面地分析用户的用电行为。在编码中，本文将用电矩阵Ui作为输入，并在基于时间维度上对其进行卷积操作。为此，第k个卷积核的输出如式(3)所示。

式中：e为自然对数。

式中：k为卷积核总数。

1.2 电力用户用电特征重构

考虑到电力用户用电特征包含的信息种类繁多、样式复杂，如果模型学习时无法充分学习众多特征，将对电力用户分割精度产生不可估量的影响。因此，本文采用基于反CNN的解码操作对提取的电力用户特征进行重构操作，从而使电力特征尽可能覆盖原始记录中包含的信息。在不引入任何监督信息的情况下，重构操作可以尽可能地将电力用户用电特征恢复到原始矩阵。

在训练过程中，解码操作的输出应尽可能保持与编码操作输入相等，并通过学习恒等映射函数找到原始数据之间隐藏的关联信息。

式中：fenc为编码操作；fdec为解码操作。

上述编码器-解码器结构可以在没有监督信息的情况下实现重构电力用户用电矩阵过程，从而使学习到的特征能够尽可能多地捕获原始记录中的重要信息，以提高特征表示的质量。进一步，本文模型的总体损失函数如式(8)所示。

式中：L(W,b,c)为重构操作损失误差。

需注意，本文利用欧氏距离度量重构操作输出结果与输入电力用户用电矩阵之间的差异。此外，W、b、c为可训练的参数。该模型的优化目标是使损失L(W,b,c)最小化。

基于上述框架，即可得到用户的用电特征表示方式，并利用提取的特征进一步实现电力用户的分割。

2 基于改进PSO算法的超参数优化

2.1 PSO算法

PSO[11]是一种典型的群体智能算法，已广泛应用于解决各种数学、工程、设计、网络、机器人和图像处理优化问题。在PSO算法中，粒子通过遵循个体和全局最佳经验探索整个搜索空间。PSO算法探索过程如式(9)、式(10)所示。

(10)

式中：c1和c2为加速度系数，用于平衡个体和全局搜索；r1和r2为随机向量，且向量中每个元素的值都在0和1之间；pid和pgd为个人和全局最优经验；w为惯性权重，主要表征前一时刻速度对当前时刻速度的影响。

然而，由于搜索过程只有一个领导者，传统PSO算法操作容易陷入局部最优。

2.2 基于超椭圆系数的改进PSO算法

本文在电力用户的分割学习过程中使用改进的PSO算法自动选择超参数。首先，改进的PSO算法采用了超椭圆搜索操作，从而平衡局部探索和全局探索。其次，使用平均最佳领导者搜索策略增加搜索多样性。最后，使用随机最佳领导者改进群领导，以克服“停滞”引起的陷入局部最优问题。

超椭圆曲线[12]在模拟自然界中许多复杂形状和曲线方面发挥了重要的作用。超椭圆曲线如式(11)所示。

式中：a和b为超椭圆曲线的半直径且n、a和b均为正数。

2.2.1 超椭圆搜索策略

受超椭圆式的启发，本文提出了一种加速的超椭圆搜索策略。该操作的搜索系数通过超椭圆式的实例化生成，从而使粒子以不规则的加速网状方式向群领导者移动。加速的超椭圆搜索行为如式(12)所示。

(12)

式中：v为超椭圆的角度，v∈[0,2π]；m、k、n1均为超参数，且根据不同参数可绘制不同超椭圆。

本文研究令m=k=2、n1=5。

式中：τ为超椭圆半径；n2为超参数。

本研究令n2=4。

x=α×cosv

(14)

式中：x为坐标系中椭圆横坐标。

y=α×sinv

(15)

式中：y为坐标系中椭圆纵坐标。

根据选定的搜索参数，引导当前粒子向全局最佳解移动，如式(16)所示。

式中：s1为使用超椭圆式随机生成的值。

超椭圆搜索操作使粒子能够通过加速搜索步骤跟随最佳解向领导者移动。此外，可通过分配正系数和负系数，增加搜索经验。

粒子速度更新操作如式(17)所示。

(17)

式中：s2、s3均为从超椭圆式中生成的值中随机选择的分数。

这些选定分数的绝对值用作搜索系数以加速收敛。该机制通过使粒子以相对更混乱和不规则的方式围绕个体和全局最佳经验运行，从而增加搜索多样化，达到全局最优。

2.2.2 平均最佳领导者搜索策略

为了增加搜索多样性，本文提出了另一种平均最佳领导者搜索策略。此操作采用当前粒子的所有相邻解的平均位置引导搜索过程。具体地说，主要是识别出比粒子群中当前个体的适应度得分更好的所有粒子，计算这些粒子的平均位置，并用于引导全局搜索过程。该搜索操作如式(18)所示。

平均最佳领导者驱动机制使当前粒子能够充分利用平均最佳位置经验，从而加速粒子寻优过程。

2.2.3 随机最佳领导者搜索策略

为了降低陷入局部最优的概率，本文还提出了1种随机最佳领导者搜索策略。此操作随机选择当前粒子的1个更合适的相邻解来探索搜索空间。其步骤为：首先，检索所有适应度得分高于当前个体的粒子；然后，随机选择其中1个粒子来引导搜索过程。随机最佳引导者驱动操作如式(19)所示。

随机最佳引导者搜索通过跟随多个不同的领导者探索搜索空间，可快速跳过局部最优，加速寻找全局最优过程。

3 仿真与分析

3.1 数据集与试验环境

为验证本文模型性能，以某电力公司采集的500名用户用电数据为例，对用户用电行为进行分类分析。用电数据主要来自智能电表采集的用户1年内的日用电量数据以及峰值、谷值、平时用电量。

仿真软件环境为Pycharm搭建算法框架，并由Python基于Tensorflow搭建学习算法。同时，算法运行硬件环境为酷睿i7 CPU，内存为64 GB ARM的联想服务器，操作系统为Windows 10 64位。

3.2 网络搭建

网络搭建相关参数如表1所示。

表1 网络搭建相关参数Tab.1 Network building related parameters

网络输入数据维度为500×365×4。该模型是1个卷积自编码器，主要由卷积层、池化层和Inception构成。当执行完自编码过程后，接1个全连接层，并将输出特征向量维数分别设置为7、14和21。需注意，反卷积过程中的参数与上述相应参数一致。为了比较不同模型性能，假定在特征提取过程中，其他模型的特征参数与本文模型设置相同。此外，本文使用Adam优化器学习参数，特征编码网络和特征重构网络中，学习率分别设置为10-4和10-2；学习率衰减周期分别设置为20和10；学习率衰减倍数分别设置为0.01和0.02；批处理大小分别设置为16和32；最大迭代次数设置为150。改进PSO算法参数设置如下：粒子数为20；最大迭代次数为60；粒子最大速度为0.6；惯性权重为0.6；搜索系数由超椭圆式随机生成。

3.3 性能分析

由于本文的主要任务是实现电力用户分割，用户特征提取的质量也会反映在分割结果中。因此，本文分别对支持向量机(support vector machine，SVM)、变分自编码(variational autoencoder，VA)、生成对抗网络(generative adversarial network,GAN)模型和本文模型进行对比。此外，本文采用轮廓系数来评价聚类效果。轮廓系数具体计算如式(20)所示。

式中：a(i)为向量i和同一簇中的其他样本之间的平均距离；b(i)为向量i与其他簇中所有样本之间的平均距离。

需注意，s(i)∈[-1,1]。s(i)越接近1，表明样本的聚类越合理;s(i)越接近-1，表明聚类效果越差，样本应该聚类到其他类别。

3.3.1 特征提取对比分析

首先，令特征编码网络和特征重构网络特征提取维度为14。表2所示为特征提取(feature extraction，FE)方法前后不同模型轮廓系数对比结果。

表2 不同模型轮廓系数对比结果Tab.2 Comparison results of different model contour coefficients FE

由表2可知，经特征提取后，SVM、VA、GAN和本文模型轮廓系数分别提升2.58%、4.24%、0.39%和0.86%。由于剔除了冗余以及不相关的变量，有助于改善模型训练效果，从而提高分类器性能特征提取。

3.3.2 模型优化对比分析

令传统PSO算法粒子数、最大迭代次数、粒子最大速度、惯性权重与改进PSO算法保持一致，并设搜索系数c1=c2=1.5。

不同优化方案训练损失曲线如图2所示。

由图2可知，使用优化模型后，网络训练性能明显提升。其中，无优化情况下，网络训练至134代才可达到最优；传统PSO算法优化下，网络在84代达到最优；基于改进PSO优化下，网络在27代可达到最优。因此，经所提改进PSO算法优化后，网络训练性能较传统PSO算法和无优化模型分别提升3.693倍和2.111倍。

图2 不同优化方案训练损失曲线Fig.2 Training loss curves for different optimization schemes

4 结论

本文基于电力用户用电特征和PSO算法对电力用户用电行为进行了研究与分析，提出了电力用户分割网络模型。基于特征编码网络和特征重构网络提取用户特征，从而减少信息冗余和高维数据带来的维度爆炸或噪声干扰影响。进一步在电力用户的分割学习过程中使用改进的PSO模型自动选择超参数，从而平衡局部探索和全局探索，加快模型训练效率。该模型可用于电力用户分析，为电力企业提高用户服务质量提供了借鉴。