基于集成机器学习的电力系统窃电行为辨别方法
2023-12-01李珅杜科李舟演
李珅,杜科,李舟演
(国网上海市电力公司,上海 200122)
引言
随着用户侧新型负荷和产消者等复杂负荷的不断涌现,使得电力系统窃电行为更加隐蔽与复杂,电力系统中窃电行为对线损计算和电网经济运行造成不利影响,严重影响电力市场的经济秩序[1]。受用户负荷类别和特性的不同,窃电行为大致可分为欠压窃电、欠流窃电、扩差窃电和移相窃电这四类[2]。针对窃电行为国内外学者提出了多种电力系统窃电行为辨别方法[3,4],其主要技术路线就是通过从电表采集的原始电能数据中提取窃电行为特征,建立窃电行为辨别模型来识别出系统中窃电行为。常用传统窃电辨别方法主要有平均法和小波分解法[5-7],然而上述方法构建模型过于简单,辨别准确率很低,而神经网络作为一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,可依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理复杂信息的目的,目前基于人工神经网络模型的窃电辨识方法有异常检测算法、各种架构的神经网络、支持向量机法、曲线相似度分析法和大数据分析等[8,9]。文献[10]提出了一种基于叠式去相关自编码神经网络模型的电力系统窃电识别方法,该方法可从用户用电数据中提取高度抽象的窃电辨别特征,但其窃电数据是通过仿真获得的。集成机器学习比传统神经网络具有更强的特征提取与辨别能力,但基于该模型的电力系统窃电辨别方法的研究较少[11-15]。
基于此,本文提出了一种基于集成机器学习(ensemble machine learning,EML)的电力系统窃电行为辨别方法。EML对是否存在盗电进行检测,并根据检测结果进行预警,发出窃电警告可进一步确定窃电的可能性。首先,基于集成机器学习模型对电力系统中存在窃电行为数据进行学习,以提取用户的窃电行为特征;然后,将提取出的窃电行为特征和正常用电数据一起作为模型训练数据,并训练所提模型直到到达一定训练精度;最后通过算例验证了算法的有效性和优越性。
1 电力系统窃电辨别模型
本文提出的电力系统窃电辨别模型可分为三个步骤。首先,第一步是所提集成机器学习模型提取用户的窃电行为特征;第二步将提取出的窃电行为特征和正常用电数据一起作为模型训练数据,并训练所提模型;第三步是验证所提模型的准确性。
1.1 基于EML的窃电特征提取模型
由于用户窃电行为具有一定复杂性与随机性,因此,要想通过用户负荷数据辨别出窃电行为具有一定挑战性,其中对于窃电行为特征的提取与建模难度最大。考虑到用户窃电行为会对该配电线路正常负荷量有较大影响[16-20],本文建立了窃电特征与正常用电特征的辨别机制,通过构建基于集成机器学习的窃电特征提取分析模型,以有效辨别窃电的可能性。所提窃电特征提取分析模型由多层标准限制玻尔兹曼机(restricted Boltzmann machines,RBM)组成。图1为所提EML的结构图。
所提EML模型的输入层可表示为:
式中:
x、z—EML的输入和输出;
W、θ—EML的权值和偏差;
α—非线性变换函数;
x(i)—训练数据集的第i个分量,N个分量构成整个训练集;
fφ、gθ—EML模型函数的参数。
式(1)表示EML模型的输入层将输入向量x映射到隐含层的非线性函数C;式(2)表示EML模型的输出层与隐含层的数量关系;式(3)表示输入向量x与重构向量z的重构误差;EML模型的学习过程就是使重构误差最小化。训练过程为:EML模型通过逐层预处理对神经网络的每一层进行独立训练,即上一层RBM的输出作为下一层RBM的输入,通过不断训练后,每层RBM都形成了一个深度集成学习模型,接着对该模型进行参数微调,以使得模型的输出与输入相等。通过反复计算和更新模型参数,以到达参数收敛。所提方法以重构误差作为用电行为是否异常的评价标准,即重构误差高的数据判断为用电行为异常,但如果将异常窃电数据作为正常数据输入到所建立的EML模型,则由于重构误差大于特定值,可以辨别出用户具有窃电行为。
1.2 基于EML的窃电辨别模型
考虑到用户窃电行为和种类的复杂性,本文提出了一种基于多个分类与回归树的集成学习模型,该模型是通过大量数据训练而成。其中,每个分类与回归子集都是独立训练的,最终的分类结果由每子集的输出结果投票决定。集成学习模型考虑多个特征构造分类与回归子集,并决定对分类与回归子集进行分类来预测窃电标签。在分类与回归子集节点上,按照一定的特征规则对下一级子集进行分割。在包含n个样本和m个特征变量的数据集D={(Xi,Yi)}上训练集成学习模型,利用训练后的集成学习模型来辨别具有窃电行为的用户。在数据集D中包括正常用电和窃电行为特征。而训练集成学习模型的目标是构建一个函数f(X)以预测数据Y,而该函数f(X)可表示为损失函数L(Y,f(X))的最小期望:
式中:
EXY—数据X和数据Y的联合分布期望值。
式(5)为集成学习模型函数f(X)与Y的接近程度,这个数值越大说明集成学习模型函数f(X)与真实值越远。它可以用于测量分类的0~1损失函数可表示为:
基于集成学习模型的整合h1(x),…, hJ(x),并构建:
式中:
集成学习模型构建的函数f(x)共包含J个具有窃电行为辨别能力的基学习器hj(X,Θj),且每个基学习器预测值y∈Γ,其中Θj表示一组随机变量,Θj与不同取值j=1,…,J是相互独立的。集成学习模型的每一个基学习器都是通过从训练数据抽取计算得到,即集成学习模型是根据特征变量来实现拆分的,通过不断拆分与重构,最终使得集成学习模型到达设定的分类精度。具体来说,集成学习模型在进行训练时会对得到窃电行为数据进行贴标签,并将它们作为模型训练和模型测试的输入数据。
2 算例验证
为了验证所提方法的有效性与优越性,本文选取某市辖区用户1 000天日负荷数据,以训练所提基于集成机器学习的窃电辨别模型。图2为无窃电场景下所提模型的误差变化图。
图2 无窃电场景下所提模型的重构误差变化图
由图2可知,在无窃电场景下所提模型的重构误差均小于20 %,但有较大波动,这是因为用户用电行为会随多种因素(天气、季节、工作和休息等)影响,故负荷曲线通常是呈一定规律变化的。通过该负荷曲线计算得到重构误差也具有类似的变化规律,虽然所提模型的重建误差有波动性,但其波动性不具有明显的周期性。图3为窃电案例下所提模型的重构误差变化图。
图3 窃电案例下所提模型的重构误差变化图
考虑到异常数据、坏数据和网络攻击数学会影响窃电行为辨别的有效性,本文将重构误差阈值设置为24 %,以消除其他因素的干扰,从而提高窃电行为辨别的精度。当重构误差超过24 %时才会提示该用户窃电可能性很大。此外,用户窃电时,入口侧电表监测到的日负荷曲线会发生变化,而所提模型仍重构用户的负荷曲线,这就使得用户重构负荷曲线与实际用电曲线的差异性明显,二个曲线非重叠部分可认为是窃电行为。由图3可知,测试算例中存在7次重构误差超过24 %的事件,可初步认定该用户存在窃电行为。为了进一步提升窃电判别精度,考虑到窃电行为通常具有周期性或长期性,且具有一定规律性,因此,重构误差超越24 %的时间较短时可能是用户负荷突增或突减造成的重构有误差增大,这时可认为该用户未窃电。
为了进一步验证所提模型的精确性,本文与浅层BP神经网络和浅层AENN进行了精确度比较。其中,所提模型采用8层,输入层神经元分别为500、300、200 和 100;浅层AENN为4层,输入层神经元分别为250和50。表1为三种算法下精确度情况。
表1 不同算法的性能比较
由表1可知,与其他二种算法相比,所提方法的特征提取能力更强,这是因为所提方法将用户实测数据与正常用电数据进行了比较,通过构建二者的重构误差以辨别出窃电行为。另外,为了进一步验证辨别出窃电行为的准确性,本文提出了窃电行为验证方法,即通过分析该用户配电线路的功率变化率和线路损耗情况,可最终确定该用户是否存在窃电行为。其中,用户配电线路的功率变化率是指该配电线路在第i天前后d天的供电量变化情况:
式中:
ki—配电线路在第i天的供电量变化情况;
ej—配电线路在第j天的有功需求总量。
因此,该配电线路的线损率可表示为:
式中:
Ej—配电线路在第j天的供电量;
表2为所提方法与其他窃电辨别方法的比较情况。
表2 不同算法的比较
由表2可知,所提方法的精确度和训练时间要明显优于其他二种方法,验证了所提方法的优越性。但为了辨别出更多类型的窃电行为,下一步有必要增加对相关现场数据的训练。
3 结论
针对电力系统中窃电行为造成电网经济运行变差,并严重影响电力市场的经济秩序等问题,本文提出了一种基于集成机器学习的电力系统窃电辨别方法,以快速准确的辨别窃电行为。该方法利用实测用户数据与神经网络全变量重构值进行比较,以获取用电数据的抽象行为特征;并采用集成机器学习方法进一步推导出电力系统窃电行为辨别方法;最后,基于实际数据集,验证了所提算法的有效性,研究结果表明,相较于其他窃电辨别方法,所提方法具有更好的检测灵敏度和分类精度。