基于热重启随机梯度下降和一类支持向量机信息融合的户变关系辨识方法
2023-06-15马洲俊牛军伟孙国强臧海祥
马洲俊,黄 伟,牛军伟,朱 红,韦 磊,孙国强,臧海祥
(1.国网江苏省电力有限公司 南京供电分公司,江苏 南京 210019;2.河海大学 能源与电气学院,江苏 南京 211100)
随着社会经济的大力发展和人民生活水平的提高,用电量增大,低压台区线损治理变得日益复杂[1]。为了加快智能电网的建设,充分挖掘配电侧数据资源,提高供电服务质量和客户满意度[2-3],传统的管理方式已经不再适用,精益化管理方式成了一种新趋势[4];然而,台区在经过线路改造和市政工程时经常出现配变的增换,导致台区间线路交叉,系统中户变档案未及时更新而出错,严重制约着精益化管理[5]。
为了解决上述台区中存在的户变关系档案错误问题,电力公司主要通过人工排查,传统的排查方法有现场停电校验[6]和载波通信校验[7]两种。现场停电校验是通过使各个变压器在短时间内停电,然后抄读电表停电记录,再通过电表的停电时间来判断各个电表的户变关系,不过这种方式需要拉闸验电,影响了人们正常的用电生活、用电体验和供电可靠性。载波通信校验方法是使用载波通信终端和用户侧接收端进行载波通信,通过分析报文特性来判断户变关系[8],该方法鲁棒性较差,易受干扰,识别的准确率仅为70%~80%,不能够在负荷波动较大的台区进行。因此,研究一种可靠、自动的户变关系辨识方法十分重要[9-10]。
近年来,我国全面建设坚强智能电网[11],基本实现了台区智能电表的全覆盖,积累了大量的数据并且提升了采集数据的质量[12],为台区拓扑结构的分析提供了基础[13-15]。目前,已有大量学者对台区户变关系的识别进行研究,文献[16]利用多个台区的数据,构建知识配电台区图谱体系来判断户变关系;文献[17]通过皮尔逊相关系数和K(特征空间数量)最近邻方法判断户变之间的电压曲线相似性,从而进行户变关系的辨识;文献[18]提出了一种结合主成分分析和图论的方法,利用节点间的相关性进行户变关系识别。以上方法在户变关系识别领域均取得一定的成绩,但上述研究没能实现物联配电网理念下的信息物理的深度融合,只针对单一的特征信息进行户变关系识别,缺少根据用户多特征信息进行综合判断,没能充分发掘出用户侧采集的数据价值,且对于海量的低压台区,无法兼顾每个台区的特点,适用性和有效性不高。
在此背景下,综合考虑用电量和电压两种特征信息,提出了一种基于用电量和电压信息融合的户变关系辨识方法,首先,提出了热重启随机梯度下降法(SGDR),并应用于户变关系识别,根据台区总表用电量和用户用电量守恒,构建台区用电量参数化模型,利用随机梯度迭代和学习率自调整方法求全局最优解进行初步辨识,并利用滑动时间窗多次判断得到初步户变识别结果;然后,基于初步识别结果,使用户变关系正常用户的电压数据构成训练样本,利用一类支持向量机(OC-SVM),学习台区户变关系正常用户的电压特征,构建户变关系识别模型,得到最终户变关系档案错误的用户,实现对低压台区户变关系的正确辨识;最后,通过对实际台区数据进行测试,结果表明所提方法可以对台区户变关系有效识别,验证了该方法的实用性和可靠性。
1 基于热重启随机梯度下降的户变关系识别
电力系统台区之间的交叉线路十分复杂,由于线路改造等原因,未及时更新台区户变关系档案,可能存在不属于该台区的用户,即户变关系档案出现错误[19],造成营销计量系统中台区总表用电量和用户用电量不一致,出现台区线损异常,因此要对户变关系进行识别,重新调整档案,有利于台区线损的精益化管理。
1.1 热重启随机梯度下降法
台区用电量数据为累积量,可以反映户变的逻辑加和关系[20],因此根据能量守恒定律建立关口表用电量和各用户用电量之间的关系模型,如式(1)所示。
(1)
在同一台区里,总线损和关口表总用电量是正相关的,而总的用电量是由各用户用电量相加而成,其总线损在计算时可以近似分摊给各用户,总线损由n个用户的分线损组成,各个用户的分线损与其用电量相关,如式(2)所示。
(2)
式中:bi为线损系数,表示该用户分线损在用电量中的占比,实际中bi近似为固定值。
而ai和bi均为用电量系数,可用ci=ai+bi简化用电量系数,式(1)可以简写成式(3)。
(3)
在用电量守恒的条件下,如果能找到一组数据使得式(3)成立,那么此时的ci表示的就是这个台区正确的户变关系。由于待求解方程式(3)维度较大,没有固定的求解方法,只能用迭代求解的方法逼近可行解,常用的方法是以最小化方程组误差的平方为目标函数,使用梯度下降的方法逐渐逼近可行解。
因此,构造目标函数E,即每个时间段台区用电总量减去用户用电量的平方和,如式(4)所示,当E最小时,ci即为模型的最优解。
(4)
式中:Xt为第t天n个用户构成的用电量矩阵;Cs为第s次迭代所对应的用电量系数矩阵。
此时,基于用电量的户变关系识别问题转化为求解目标函数E最小值的优化问题,使用热重启随机梯度下降法[21]求解该问题,将随机梯度下降优化算法与热重启机制、余弦退火相结合,在保证较快训练速度的前提下,反复重启来促使模型快速收敛找到全局最优解,从而在提高模型性能的同时也降低训练成本。
求解目标函数E对用户用电量系数的梯度,如式(5)所示。
(5)
式中:X′t为修正后的第t天n个用户构成的用电量矩阵。
根据当前的步长和梯度方向,更新用电量的系数,如式(6)所示。
(6)
式中:η为学习率。
因为该模型的目标函数是多峰的,除了全局最优解外还有多个局部最优解,当陷入局部最优时,通过热重启方式突然提高学习率η,离开局部最优处,继续寻找全局最优解。余弦退火方法使用余弦函数作为周期函数,在每个周期最大值时重新开始学习,一开始的学习率较大,模型不会陷入局部最优,而是快速寻找最优解,随着学习率变小,模型会最终收敛到最优解处。热重启结合余弦退火的学习率调整公式如式(7)所示。
(7)
式中:j为迭代次数;ηmax为学习率调整过程中的上限;ηmin为学习率调整过程中的下限;Tcur为每次重启开始到结束这一区间学习率的迭代次数;Tj为重启周期,其学习率随迭代次数自适应调整,如图1所示[22]。
图1 热重启机制结合余弦退火的学习率变化
综上,即为基于用电量的热重启随机梯度下降模型,迭代的终值Ci即为得出的户变关系结果。
1.2 基于滑动时间窗的多次判断方法
在第1.1节用电量模型的基础上,每个用户的用电量会受到随机用电行为的影响,利用热重启随机梯度下降法,若只在一个时间窗内进行计算会产生较大的误差,会遗漏识别户变关系错误的用户。因此,采用基于滑动时间窗的多次判断方法,将历史数据划分为多个时间窗,每次取不同的起始日期进行多次求解,如图2所示。
Di为第i天的用户用电特性
为了避免因用户用电特性差异导致的核查遗漏问题,每个时间窗进行优化求解后得到一组户变关系识别结果,然后将所有结果取并集,得到最终的户变隶属关系。
2 信息融合的台区户变关系识别
在识别台区户变关系档案错误的用户时,档案错误的用户数量应该相较于正常用户占比非常少,这就属于一个不均衡样本数据。对不均衡样本进行异常数据的检测时,为了防止过拟合,不能采用二类的算法。因此,对台区户变关系的识别就属于非均衡样本数据分类或者是异常用户的检测,应采用一类的算法。
2.1 基于一类支持向量机的户变关系识别
由于低压台区数量极多且每个台区的用电信息特点不同,使用个别标注有正确户变关系的台区数据进行机器学习训练得到的模型,无法适应所有台区户变关系档案错误用户的识别。因此,用来测试的数据集是不提供标签的,识别的方法属于无监督学习方法。一类支持向量机(OC-SVM)是在传统支持向量机基础上,为解决一类问题所设计出的一种无监督学习方法。OC-SVM会自动寻找能够包含绝大多数原始数据的超平面,在超平面边界外的数据会被判定为异常数据。
OC-SVM将输入的数据通过核函数映射到对应的特征空间中,利用特征空间的数据建立一个超平面,并最大限度将它们与原点分离,该算法利用决策函数f(x)评估测试样本数据x落在特征空间中超平面的哪一侧来确定其为正样本或负样本。为了从原点分离数据集,OC-SVM算法的实质为求解式(8)的二次规划问题[23]。
s.t.ωφ(xi)-ρ≥-ξiξi≥0
(8)
式中:ω为法向量;ν和l分别为用来调整比例上限和数量下限的参数;ρ为截距;φ为非线性映射函数;ωφ(xi)-ρ=0为超平面;‖·‖ 为欧几里得范数;ξi为松弛变量。
由于ξi在目标函数中受到惩罚,使用ω和ρ来处理,决策函数f(x)可以表示为式(9)。
f(x)=sgn(ωφ(x)-ρ)
(9)
f(x)对于训练集中的大多数数据来说将是积极的,而支持向量类型的正则化项‖ω‖仍然很小。这两个目标之间的实际权衡由ν控制。引入拉格朗日乘子(αi,βi≥0),可得式(10)。
(10)
分别对ω、ξ与ρ求偏导,并令其为0,可得式(11)。
(11)
{xi:i∈[l],αi>0}是支持向量,将其进行核展开,决策函数变为式(12)。
(12)
将式(11)以及核函数k代入式(10),可将式(8)转化为对偶问题,如式(13)所示。
(13)
决策函数中,ρ可由任何一个对应拉格朗日乘子αi非零的样本xj求得,如式(14)所示。
(14)
则决策函数为
f(x)=sgn(ωTφ(x)-ρ)=
(15)
对于决策函数f(x),当样本x被分类器识别为该台区用户时,取值+1;被识别为异常用户时,取值-1[24]。
基于电压信息判断户变关系的方法,使用的数据为用户24 h(采集频率为1 h/次)的电压采样数据Uij(j=1,2,…,24),根据不同台区用户电压曲线之间的差异,利用OC-SVM方法,实现台区户变关系的识别。台区用户24 h的电压曲线如图3所示。
图3 某台区用户24 h的电压曲线
由图3可以看出:台区户变关系正确用户的电压曲线具有相同的趋势,错误用户的电压曲线则不同。选用用户48 h的电压采集数据作为算法的输入数据,既避免了用户的随机用电行为对户变关系识别的影响,也会放大户变关系正确用户和错误用户电压曲线之间的差异。台区用户48 h的电压曲线如图4所示。
图4 某台区用户两天的电压曲线
2.2 用电量和电压信息融合
考虑到OC-SVM法对异常值较为敏感,其训练集样本应尽可能不被异常值污染或含有较少比例的异常值数据;然而,在无法准确获取原始数据分布假设的情况下,实现高维度异常值检测极具挑战。此外,基于用电量的SGDR法进行户变关系识别时,需要利用滑动时间窗进行多个时间段综合判断,但是其最优时间窗选取难以确定;随着时间窗个数增多,查全率和查准率无法兼顾,且计算时间成本增加。因此,提出了用电量和电压信息融合的户变关系识别方法,根据经验选取固定个数的时间窗,基于用电量信息,利用SGDR法进行户变关系的初步识别,根据识别结果剔除异常用户,以减少样本中的异常值,提高OC-SVM法的识别率和准确率。
基于用电量和电压信息融合的户变关系识别方法的流程如图5所示。
图5 算法流程
3 结果与讨论
为了验证方法的准确性,选取江苏省南京市下辖台区2020年4月份用采系统中的用电量和电压数据作为数据集,分别在模拟和真实场景中进行测试。
3.1 SGDR方法算例结果
3.1.1 SGDR在模拟场景下的测试
在模拟场景中对热重启随机梯度下降法进行测试,模拟场景中所用的数据都来自江苏省南京市台区A和B。台区A原有103个用户,提前经人工排查确认不存在户变关系错误,现从台区B的非零电量用户中随机挑选4个放到台区A中作为档案出错的用户。使用查全率和查准率两个指标来评价户变关系识别方法的效果,两个指标的计算如式(16)和(17)所示。
(16)
(17)
基于SGDR的滑动时间窗多次判断方法,将历史数据划分成多个时间窗,每次取不同的起始日期进行多次求解。而具体应该使用几个时间窗进行综合判断,才能保证较高的查全率和查准率,这在实际每个台区的户变关系识别中是不确定的。因此,在模拟场景中选用了不同时间窗数量做测试,选用4月1日—4月6日为一个时间窗,4月2日—4月7日为一个时间窗,以此类推,对比查全率和查准率,测试结果如表1所示。
表1 SGDR选用不同时间窗数量的测试结果
由表1可以看出:选用5、6、7个时间窗测试的查全率都是100%,而选用3、4个时间窗的查全率不高,这是因为增加时间窗的个数进行综合判断,会尽可能把户变关系错误的用户识别出来,从而保证了查全率;但是选用的时间窗个数越多,其查准率也在逐渐下降,并且会造成户变关系识别的时间成本增加。在实际应用中,选用多少个时间窗进行判断得到效果最好是不确定的,所以只能根据经验选择。根据表1的结果,为了能够保证较高的查全率和查准率,之后测试选取的时间窗为6个。
在实际应用中,户变关系错误的用户个数是随机的,为了更真实的模拟实际情况,得到更具信服力的测试结果。因此,在测试过程中,从台区B的非零电量用户中,分别随机挑选3、4、5个放到台区A中,作为档案错误的用户,并且对档案错误户数不同的各种情况分别进行5次测试,最后取各自的平均查全率和平均查准率。模拟场景下的测试结果如表2所示。
表2 模拟场景下5次测试的平均水平
由表2可知:在模拟场景中,本文提出的热重启随机梯度下降法在基于用电量的情况下,模拟场景可以达到约96.40%的查全率和91.80%的查准率。
3.1.2 SGDR在实际场景下的测试
在实际场景中,对基于热重启随机梯度下降法进行测试,真实场景中所用的数据来自江苏省南京市的台区C、D和E。台区C为某农网台区,实际共2户,现因户变关系错误,有其他台区的2个用户。台区D为某农网台区,实际共6户,现因户变关系错误,有其他台区的1个用户。台区E为某城网台区,实际共103户,无户变关系错误。下面利用SGDR算法进行台区户变关系校验,测试结果如表3所示。
表3 真实场景测试结果
上述两个农网台区测试的查全率和查准率都为100.0%,城网台区的查全率为100.0%,查准率为99.0%,表明该方法在真实场景中具有一定的可行性。
SGDR法在多次模拟场景中的测试结果表明:虽然会误判致使查准率不高,但平均能达到96%以上的查全率,基本可以找出不属于该台区的用户。在真实场景中也表明该方法有较高的查准率和查全率,可以配合人工纠正档案关系,大大缩小人工排查范围和提高工作效率。
3.2 SGDR+OC-SVM方法与其他方法的比较
在实际情况中,为了解决基于用电量的SGDR方法进行多个时间窗综合判断时,查全率和查准率的矛盾以及时间成本增加等问题,提出了基于用电量和电压信息融合的户变关系识别方法。为验证方法的可靠性,同样在模拟场景下做测试,场景与第3.1节相同,由于选用时间段数为5、6、7个时,使用SDGR方法得到的测试结果相同,因此,使用SDGR+OC-SVM方法做测试时,仅选取时间段数为3、4、5个,测试结果如表4所示。
表4 选用不同时间段数的SGDR+OC-SVM测试结果
由表4可知:使用SDGR+OC-SVM联合判断的方法,无论进行几个时间段的判断,查全率总能达到100%,并且查准率均在95%以上,平均查准率为96.7%,在实际情况中,对于台区户变关系的识别具有很高的适应性和可行性。
同时,为了进一步说明提出的信息融合的户变关系识别方法的有效性,将所提方法和其他方法进行对比。将SGDR法、OC-SVM法、孤立森林、传统随机梯度下降法的测试结果分别与SGDR+OC-SVM方法的测试结果进行比较,结果如表5所示。
表5 不同方法测试结果比较
由表5可以看出:基于SGDR+OC-SVM信息融合的户变关系识别方法效果最好,不仅提高了查全率和查准率,在台区户变关系识别的鲁棒性和可靠性上也很好,可以较好地应用于台区户变关系识别。
4 结论
为了充分利用配电网用户侧的海量数据资源,提高低压台区的精益化管理。基于采集的台区用电量和电压数据,提出了一种用电量和电压信息融合的台区户变关系识别纠错方法。对实际台区数据进行测试,得到以下结论:
1)对单个台区进行户变关系辨识,本文方法的查全率能达到100%,查准率能达到96%以上,提高了户变关系识别的有效性和效率。
2)基于用电量和电压数据联合进行户变关系识别,达到了信息融合和充分利用配电侧数据资源的目的,提高了辨识结果的可靠性。
3)联合SGDR和OC-SVM对户变关系进行辨识纠错,既解决了基于SGDR方法求解户变关系模型进行多个时间段联合判断时查全率和查准率的矛盾以及时间成本增加的问题,又解决了训练样本中异常数据的比例对OC-SVM模型识别准确度的影响。