基于生产经营状态识别的低误报率窃电检测二次筛查方法
2021-02-03杜章华刘正谊杨艺宁
杜章华,苏 盛,刘正谊,薛 阳,杨艺宁,刘 厦
(1. 长沙理工大学电气与信息工程学院,湖南省长沙市410114;2. 国网常德供电公司,湖南省常德市415000;3. 中国电力科学研究院有限公司,北京市100192)
0 引言
窃电直接造成供电企业净利润流失[1],是长期存在的问题。由于用户窃电往往会表现为电量异常,研究人员多以电量为依归,根据用电量曲线的滑落、波动或报装容量利用率低等设计特征指标项建立检测模型[2-3],并设计分类[4-8]和聚类算法[9-12]来识别低电量异常用户[1]。需要指出的是,围绕用电量异常设计特征指标项,隐含用户用电基本平稳的前提。实际系统中,相当一部分用户需根据订单安排生产,用电并不具有平稳性,日际电量波动30%~40%较为常见,而单相分流窃电时损失电量在30%以下,正常电量波动和窃电容易混淆。此外,环保限产、消防整改、设备大修等因素也可能造成持续低电量异常。以电量为核心指标检测用电异常存在可用信息不足的缺陷,难以识别是窃电还是生产经营状态转换导致的低电量异常,造成误报,影响工程应用。
尽管工业和商业用户的生产经营活动具有不确定性,部分用户的用电量还存在明显的日际波动,但它们的生产经营状态数量基本上固定(如工业用户有春节放假、周末轮休、满负荷排班或正常生产排班等状态,商业门店有春秋季和冬季、夏季工作日/节假日以及节假日打烊等状态),而每种状态下的用电设备投用组合和用电行为模式是基本明确和固定的。因此,利用用户用电数据,有可能识别出其所处的状态,进而识别用户转入正常的低电量生产经营状态导致的低电量异常。
本文首先提出了基于负荷特征的用户生产经营状态识别方法,然后将窃电检测识别出的低电量异常用户每天三相功率数据作为负荷特征,根据负荷特征聚类识别低电量异常时段所处的生产经营状态,从而判断造成低电量异常的原因,避免正常低电量生产经营状态造成的误报。最后,结合实际窃电数据的测试计算验证了所提方法的可行性。
1 基于负荷特征的生产经营状态识别
1.1 负荷特征
用电设备在特定运行模式下所体现出来的负荷特性称为负荷特征[13],是实现用户用电行为特性分析的关键。用电设备的负荷特征可分为高频特征和低频特征。其中,前者主要包含设备操作过程的电流、功率暂态波形、跳变沿宽度和高度等[14];后者主要包含有功/无功功率和谐波构成等[15]。因采集的高频特征超出了智能电表等计量设备的性能水平,当前的研究主要侧重采用低频特征提取用户用电信息[16]。本文通过对用户不同生产经营状态下的设备投用组合进行整体综合分析,将一天每15 min 间隔的三相功率作为负荷特征,识别用户当天投用电气设备组合决定的用电模式及对应的生产经营状态。
工业与商业用户用电设备构成基本固定,且一般以天为最小单位安排生产经营。一天之中各类用电设备的投用组合由生产经营状态对应的排班安排决定,不同状态对应的用电设备投用组合将会形成相对固定的用电模式。根据一天的计量数据,有可能识别用户当天所处的生产经营状态。因用户所处的生产经营状态的数量总是有限的,它的状态总会在几种有限的状态间转换。
一般而言,一年时间可以遍历特定用户的所有生产经营状态。用户从用电量多的状态转换到用电量少的状态,只是状态之间的转换而不会产生新的状态。尽管正常用户的日电量不一定平稳,会不定期进入低电量状态,但是如果此时的用电模式为已有模式,即可认为是误报。
需要指出的是,计量数据蕴含的信息量在很大程度上决定了其映射用户生产经营状态的潜力。与单相计量数据相比,三相计量数据包含更高维度的信息,能更有效地表征用户的生产经营状态。
1.2 生产经营状态识别
用电设备中,一般小功率设备为单相负荷,而大功率设备多为三相负荷。夜间休息时段,主要负荷为照明等单相负荷,一般负荷较小、三相对称度也最低;昼间时段,投用设备多、功率大,三相对称度明显高于夜间,往往负荷越重三相对称度越高。
用户用电设备的投用组合根据所处生产经营状态的不同而有所差异。一天每15 min 间隔的三相功率包含了负荷水平和三相对称性等信息,可作为负荷特征标识当天用户的用电设备投用情况及对应的生产经营状态。为直观呈现,以用户三相负荷最大值为基准值,计算各时刻三相瞬时功率的标幺值后,将某用户在工作日和周末节假日每15 min 间隔的三相功率以散点云图的形式绘制见图1。其中,图1(a)为工作日的三相功率散点云图,图1(b)为节假日的三相功率散点云图,由图1 可得如下结论。
1)工作日投用的三相对称大功率用电设备多,用电负荷的数值和三相对称度都比较高,三相瞬时功率紧密地沿对角线集中分布;夜间低负荷时的功率散点集中于零功率的右下角。
2)节假日状态下,大量三相对称大功率设备停用,投用的主要为单相小功率设备,负荷水平和三相对称度明显较低,此时三相功率松散地分布于对角线周边,散布于右下角零功率附近的功率散点也明显多于工作日状态。
无论采用何种手法,窃电总会改变负荷特征(负荷大小或三相对称性),使其偏离用户固有生产经营状态对应的用电模式。因此,采用一天的三相功率作为负荷特征,并将低电量异常用户的负荷特征和出现异常之前的历史数据进行对比,可以识别和筛除正常的低电量生产经营状态造成的低电量异常,降低窃电检测误报率。
图1 用户正常用电的三相功率散点图Fig.1 Scatter diagrams of normal three-phase power consumption for users
2 基于生产经营状态识别的用电异常筛查
2.1 基于近邻传播算法的负荷特征聚类
用电异常检测中常用聚类分析识别用电异常。电力用户生产经营状态数量难以预判,需采用无须预设类簇数的方法进行聚类分析。近邻传播(affinity propagation,AP)聚类算法[17]不但无须指定聚类数目,还具有以类簇中心为实际样本、便于理解等突出优点,以下选择AP 聚类算法进行用户生产经营状态聚类分析。
AP 聚类是一种基于近邻信息传播的聚类算法,其目的是找到最优类代表的集合,使得所有样本到最近的类代表的相似度之和最大[18-19]。AP 聚类算法的具体原理及实现流程说明如附录A 所示。
2.2 基于生产经营状态识别的用电异常二次筛查
工业和商业用户的用电设备构成相对固定,设备投用组合由生产经营状态对应的排班安排决定,可以根据负荷特征标识用户的用电模式和对应的生产经营状态[20-21]。因为特定用户的生产经营状态数量总是有限的,其用电模式会在有限的几种状态间转换,对应的负荷特征可根据生产经营状态的不同聚类为多个类簇[22-23]。尽管不同状态对应的负荷大小各有不同,但表现出来的都是正常状态下的负荷特征。用户窃电时无论采取何种手法,都将改变负荷数值大小或三相对称水平(单相或两相窃电时,影响对称性;三相等比例窃电时,降低负荷绝对值),从而改变负荷特征的结构,形成新的负荷特征类簇。
因为难以区分导致低电量异常的原因,以电量异常为导向的窃电检测方法识别出的异常用户中往往有一部分为误报。尽管通过异常度累积的方式,可在恰当阈值设置下避免短期负荷骤降引起的误报[24],但对用电量不具有平稳性的用户及干扰影响下持续低电量的用户仍难以避免被误报。对于窃电检测识别出的低电量异常用户,可根据负荷特征标识生产经营状态,将低电量异常时段的负荷特征与出现异常以前历史时段的负荷特征进行聚类分析,判断是用户转入正常的低电量生产经营状态还是窃电导致的低电量异常。具体流程如附录B 图B1 所示,详述如下。
1)窃电检测识别出低电量的疑似窃电用户。
2)选择疑似窃电用户低电量时段及出现低电量异常前较长时段的用电数据,以最大的单相瞬时功率为基准值,计算每天的三相功率标幺值作为负荷特征。
3)采用AP 聚类算法对低电量异常时段及异常之前负荷数据的负荷特征进行聚类分析。
4)确定各聚类簇在时间上的分布,判断低电量异常时段的负荷特征是否出现在之前未有的聚类簇中。如果低电量时段和之前时段聚为一类而未新增类簇,则可认为用户是正常的生产经营状态转换导致用电量下降,可排除嫌疑;如果聚类为新的类簇,则可判别为需要现场稽查确认的疑似窃电。
2.3 AP 聚类参数及聚类数据时间窗调参
AP 聚类算法的参数主要有衰减系数、最大迭代次数、聚类中心最大迭代不发生改变的次数和偏向参数p。为清楚描述参数设置的影响,结合附录B图B2 所示正常无窃电的制鞋业用户2019 年1 月至7 月用电数据进行测试分析。
聚类参数中,衰减系数0 <λ<1,主要影响聚类收敛时间,取值对聚类结果无影响,以下将其设置为0.5。为控制聚类结束的迭代次数,设置最大迭代次数T为500,聚类中心最大迭代不发生改变的次数t为50。偏向参数p影响聚类类簇数。将p从小到大逐个测试仿真分析其影响,分析结果见附录B图B3。其中,横轴标识p的取值范围,纵轴标识对应p值下形成的类簇数。由图B3 可见,p取相似矩阵中元素的最小值及其附近值时,形成的类簇数只有3 个,明显不足以描述用户所具有的生产经营状态;p值增大后,形成的类簇数逐渐增加;p取最大值及其附近值时,类簇数急剧增加,也有悖于对制鞋用户生产经营状态数量的认知。结合文献[19]的做法,将p取中位数时形成的类簇数及各类簇中心对应的生产经营状态与用户实际情况比较贴合。由于很难在大量用户用电异常检测时逐个调参,可将p统一设置为相似度矩阵中所有值的中位数。
因需要根据历史数据判断新增低电量时段是否正常,历史数据时间窗的长度决定了它可能覆盖生产经营状态的广度。时间窗太短时,可能因涵盖的状态不足导致误判。有必要通过测试确定恰当的时间窗长度。由附录B 图B2 可见,制鞋用户受订单影响,日用电量具有不平稳特性,2019 年7 月日电量波动可达30%~40%。以下将2019 年7 月负荷为测试对象,按3 个月时间窗(2019 年4 月至6 月)和6 个月时间窗(2019 年1 月至6 月)进行比对分析,测试结果如附录B 表B1 所示,所得结论如下。
1)采用3 个月时间窗识别2019 年7 月数据时,类簇数将从3 类增加为4 类。对于电量波动较大的用户,时间窗覆盖的生产经营状态不足,电量波动可能形成新的类簇,造成误判。
2)采用6 个月时间窗时,类簇数始终为5 类。类簇4 除了出现在2019 年7 月电量波动期间外,在2019 年1 月至3 月均有较集中的分布。可认为电量波动是用户正常状态切换造成的,不影响聚类结果。
3)选取时间窗长度时应尽可能遍历用户正常生产经营活动安排。因不同行业生产经营周期有差异性,建议将时间窗长度设置为一年,以充分遍历用户正常的各种生产经营状态。
3 测试仿真
3.1 实验数据
采用针织制品制造、金属制品制造、水泥制品制造和塑料制品制造业经稽查确认的40 个窃电用户用电数据,各样本为包含窃电时段在内一年每15 min 间隔的电流、电压、瞬时功率和用电量计量数据,对所提方法进行测试分析。以某单相分流窃电的纺织用户为例,说明筛选用电异常的流程和效果。图2 为该用户2019 年日用电量曲线。由图2 可知:①用电负荷具有明确的周期性和平稳性,周末负荷明显低于工作日;②2019 年2 月上旬为春节长假,用户处于完全停产状态,春节长假前后用电负荷随人员返乡和返程而逐渐跌落和恢复;③2019 年8 月中下旬,用电量明显下降,经稽查确认为电流互感器B 相 分 流 窃 电,2019 年8 月9 日 至9 月2 日 的B 相 计量负荷约为实际负荷的20%;④五一长假的第1 日和十一长假的前4 日,用户接近停产,清明期间用电负荷也有明显下降。
图2 电量异常用户负荷曲线Fig.2 Load curve of abnormal electricity user
3.2 仿真实验与分析
采用何种聚类算法对聚类识别用户的生产经营状态有重要影响,需要比较不同算法的识别效果。作为最常用的密度聚类算法,采用基于密度的带噪声数据应用的空间聚类(DBSCAN)算法来首先计算各样本间的相互距离,然后设置邻域半径和邻域样本数阈值Nmin[25]。某个样本邻域中样本数少于Nmin时,认定为离群点;达到和超过Nmin时,认定为一个类簇,且该样本为核心点;当核心点邻域半径内的其他样本点也是核心点时,该2 个类簇可合并为一个类簇。通过核心点的融合,DBSCAN 算法可进行凸样本集和非凸样本集的聚类分析。以下采用同样无须预设类簇数的DBSCAN 算法和AP 聚类算法,进行疑似窃电用户的负荷特征聚类对比分析。
为确认图2 中红色虚线区域低电量异常是否为窃电,采用前8 个月每天15 min 间隔的有功功率计算负荷特征,243 d 的负荷数据集可表示为X={xn},n=1,2,…,243,其中xn=[xa,xb,xc],为用户用电数据的向量表征形式,xa,xb,xc分别为A相、B 相、C 相每15 min 间隔的有功功率计量数据,xa=[xa1,xa2,…,xa96],xb=[xb1,xb2,…,xb96],xc=[xc1,xc2,…,xc96]。
采用DBSCAN 算法进行聚类分析时,考虑到工程应用中一般将用电量下降持续时间超过3 d 的视为用电异常,本文将Nmin设置为4。邻域半径以0.001 为步长,从0.001 逐渐增大到0.1,进行了100 种参数设置下的测试计算。邻域半径为0.001时,因半径太小,未形成任何类簇,所有样本均为离群点;邻域半径增大到0.006 时,形成的类簇数量达到最大值14,但此时仍有一定数量离群点。此后,类簇数量逐渐减小,当邻域半径大于0.09 时,类簇数量减少到1 并不再变化。综上,DBSCAN 算法的参数设置对聚类结果有突出影响,需逐个对用户调参分析选优,不利于工程应用。
采用AP 聚类算法的算法参数设置如2.3 节所述。AP 聚类将窃电时段及之前8 个月的数据聚为6 簇,各类簇日期构成、对应生产经营状态及类簇中心如附录B 表B2 所示。为方便比对说明,AP 聚类识别出的各类簇中心的日负荷曲线及三相功率散点云图如图3 和图4 所示。结合图3、图4、表B2,分析说明如下。
1)类簇1 标识春节、五一等长假生产经营状态,此时工人休假、机器停工,仅有照明等基础用电,三相功率散点集中分布于右下角零功率和底部功率较低位置。
2)类簇2 标识正常工作日生产经营状态。纺织厂为倒班生产模式,设备不停机运行,负荷全天分布较均匀,昼间略大于夜间;因全天负荷均较大,所有功率散点远离零功率的右下角和功率较低的底部,在散点图中上部沿对角线分散分布。
3)类簇3 标识春节前后工人陆续返乡/返工时段,因开工不足仅部分设备在白天投产、夜间休息,负荷略小于正常工作日;三相功率散点分为2 个部分,白天的计量数据与类簇2 类似,在散点图中上部沿对角线分散分布,而夜间则集中在零功率的右下角。
4)类簇4 标识正常周休日和清明节,该纺织厂周休日设置在星期五,昼夜负荷水平均明显小于类簇2 标识的正常工作日,三相功率散点靠下部分布。
5)类簇5 和类簇6 分别标识窃电时段的正常工作日和周休日,由于B 相分流近80%,类簇中心日的日负荷明显低于其他两相,两者在散点云图上都明显偏离对角线,在图右侧靠近B 相低功率区域分布。类簇6 白天轻载,在散点图零功率的右下角紧密聚集。因此,用电量下降时段分别形成2 个与之前有差异的新类簇。
由于低电量异常时段与之前的负荷特征聚类形成不同类簇,可将其识别为窃电。在之后的国庆长假,用户用电量再次持续跌落(如图2 中绿色虚线区域所示),以下将该时段与之前的负荷特征进行聚类分析。
图3 聚类中心日用电量曲线Fig.3 Curves of daily power consumption for clustering center
图4 聚类中心三相功率散点图Fig.4 Scatter diagrams of three-phase power of clustering center
2019 年国庆7 d 的负荷曲线如图5 所示,长假前4 日处于停产状态,第5 日开始恢复正常。前4 日和后3 日的负荷曲线分别与类簇中心1 和2 高度相似。为方便比较,将长假前4 日和后3 日的负荷特征以不同颜色绘制,如图6 所示。由图6 可见,前4 日的负荷特征与类簇1 相似地集中于零功率的右下角和低功率的底部;后3 日恢复生产,负荷特征与类簇2 的分布形态相似。将国庆期间与历史数据的负荷特征按相同设置进行AP 聚类,未产生新类簇,可确认为正常的状态切换,排除窃电嫌疑。
图5 国庆长假用电量曲线Fig.5 Electricity consumption curves during National Day holiday of China
图6 国庆长假分段三相功率散点图Fig.6 Scatter diagrams of segmented three-phase power during National Day holiday of China
按照前述相同参数设置和测试流程,对所有40 个窃电用户进行测试分析,各用户具体窃电手法描述、包含和不包含窃电时段负荷特征的聚类类簇数列如附录B 表B3 所示。由表B3 可得如下结论。
1)同一行业用户的用电行为模式仍存在较大差异,正常用电时段聚类形成的类簇数量差异明显。
2)聚类数据包含窃电时段负荷数据时,形成的类簇数在绝大多数场景下多于正常数据聚类的类簇数,所提方法可准确识别所述行业用户窃电造成的用电模式差异,从而降低窃电检测误报率。
3)18 和35 号窃电用户三相等比例窃电和绕表用电,等比例窃电时仅改变负荷特征的幅值而不影响三相平衡,更容易和其他的正常生产经营状态的负荷特征混淆;在偷逃全部电量时也会与节假日停产的零用电状态重叠,因而判断出错。
4)22,36 和38 号用户长时间持续窃电,出现低电量异常前已经记录了窃电时的负荷特征,低电量异常时段负荷特征会和之前窃电产生的负荷特征聚为一类,也会造成判断出错。
综上,本文所提方法可有效确认绝大多数窃电造成的低电量异常,但可能在三相等比例窃电、绕表用电和长时间持续窃电时,将窃电用户误认为正常,造成漏报。需要指出的是,供电企业在窃电检测的误报和漏报上存在差异性偏好。因为用户基数庞大,总有相当数量的窃电用户,因此可以容忍一定程度的窃电检测漏报。与之相反,为避免打草惊蛇、提高检测命中率,供电企业在有限人力资源约束下,对窃电检测误报率要求更高,一般都会采用不同方法多方确认为高危用户后才登门稽查。本文所提方法可有效降低根据低电量异常检测窃电的误报率,有助于提高稽查命中率。
4 结语
针对以电量异常为导向的窃电检测方法容易受电量波动影响造成误报的问题,提出了基于负荷特征的低误报率窃电检测二次筛查方法,对选出的低电量异常用户进行生产经营状态识别,以筛除用户状态正常转换造成的误报,开展了以下工作。
1)分析指出了以电量异常为导向的窃电检测方法在机理上存在难以确定是窃电还是低电量生产经营状态造成的异常、容易误报的缺陷。
2)构建了基于用户一天三相功率数据的负荷特征,可利用负荷特征标识用户当天的用电模式和生产经营状态。
3)提出了基于负荷特征聚类的用电异常二次筛除方法。可在识别出的低电量异常用户的基础上,对低电量异常时段和之前的负荷特征进行AP 聚类。如低电量时段负荷特征与之前正常的低电量生产经营状态的负荷特征聚为同类,则可排除窃电嫌疑,从而降低窃电检测误报率。
4)应用4 个行业40 个窃电用户的计量数据进行了测试验证,测试结果表明所提方法在绝大部分案例中能准确识别窃电用户,验证了所提方法的有效性。
本文所提方法的缺陷是可能将部分三相等比例窃电、绕表用电和长期窃电用户误判为正常,导致漏报。实际上,每种窃电检测方法都有一定的前提假设和对应的适用范围,很难用一种检测方法应对所有的窃电。下一步还要分析各种窃电手法在不同方面的表征,针对性地研究不同机理的窃电检测方法,并充分认识每种检测方法的局限性,才能多管齐下地实现准确可靠地检出窃电用户。
附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。