APP下载

基于数据挖掘的新型低压窃电识别方法

2022-02-18程淑亚蔡慧沈海泓陈含琪谢岳王颖

电测与仪表 2022年2期
关键词:损率离群用电量

程淑亚,蔡慧,沈海泓,陈含琪,谢岳,王颖

( 1.中国计量大学 机电工程学院,杭州 310018; 2.浙江华云信息科技有公司,杭州 310000)

0 引 言

随着国民经济发展,人民生活水平提高,用电需求量不断增加[1],线损管理问题也越来越突出。台区线损异常现象频发,不同负荷水平下线损情况有所不同,且各地区情况很不平衡[2]。因此,现有模式下采用一刀切式的合格线损区间定义以及传统依靠人工排查异常的方式给降损工作带来了很大的难度[3]。

用户窃电将直接影响台区的管理线损,但对于技术线损(即固定线损与可变线损)没有影响,因此应剥离技术线损。传统技术线损计算的方法主要有:电压损失法、等值电阻法等[4]。基于智能算法计算技术线损的方法有:人工神经元网络、遗传算法等[5]。以上算法实际应用难度较大,多数参数实际无法得到。例如线路长度因线路的实际情况错综复杂无法准确测量,且人力成本高。但随着电网建设和计量装置采集技术的发展,已经能够得到比以前更多、更精确的数据[6],基于此提出一种尽可能利用全面数据计算技术线损的方法。

窃电行为会导致配电网线损率居高不下,使电力企业蒙受巨大的直接经济损失,同时容易危害电网的安全运行,损害正常用户的利益;另一方面,不少工商业用户采用窃电手段降低成本维持企业运营,构成不正当竞争,扰乱正常的经济秩序[7]。依法查处窃电案件并严厉打击窃电行为有助于建立良好的用电秩序、维护电网正常运营、防止国家财产流失,具有重要的现实意义。因此如何快速有效地查找窃电成为当前亟待解决的一个问题[8]。

文献[9-10]介绍了支持向量机在窃电检测方面的应用并与其它算法作了对比。文献[11-12]提出采用离群点算法对电压电流值的变化规律进行检测,甄别出窃电用户。文献[13]介绍了基于改进遗传优化神经网络算法的反窃电系统为电力行业的窃电问题提供了一个方法。文献[14]提出了基于广度和深度的卷积神经网络模型,通过用电周期性特征来区分正常用户与窃电用户。文献[15]介绍了借助日渐完善的电力用户用电信息采集系统,对地区内的用户用电情况进行全面监测分析,开展异常数据的比对,寻找窃电用户。文献[16]通过对配电网进行状态估计的方法对用户窃电进行检测,以概率模型假设为基础,利用历史数据来预测电力用户消费异常的概率。但上述文献都只将用户自身的负荷、地理位置、季节、用户类型等状态量作为研究对象,分析方法与考虑的因素不够全面,也没有形成一个整体的窃电识别流程,局限性较大。

采用了技术线损剥离方法、聚类算法、离群点算法、以及相关性分析等手段对低压用户的历史用电数据与用户所在台区的历史线损率数据进行考察,建立了分析模型,提出了一种将台区线损率波动与窃电嫌疑相关联的多角度识别方法,设计了总体识别流程,并利用某地供电公司采集的用户历史数据验证了所提方法的合理性、有效性和实用性。

1 研究思路

在对用户自身进行分析的同时关注其与所在台区线损之间存在的关联性,并基于此设计了一套识别流程。该方法的研究思路如图1所示。

图1 研究思路Fig.1 Research route

提出一种简单易行的技术线损计算算法剥离台区技术线损,然后对管理线损率进行二次K-means聚类,寻找管理线损率异常波动的台区,并给出异常程度评价指标。

在存在异常波动的台区中,通过对用户的历史用电数据进行聚类或离群点算法分析窃电嫌疑并进行参数修正,给出窃电行为。同时,分析窃电用户用电量与用户所在台区的线损数据同步关联性,采用皮尔逊相关系数作为关联性评价指标。

最后,建立台区异常程度、台区与用户关联性指标以及用户的窃电嫌疑加权模型,得到最终的综合疑似度。

2 原理分析

2.1 台区线损率波动分析

台区线损按成因分为技术线损和管理线损(也称非技术线损)。技术线损主要包括不变损耗(也称固定线损)和可变损耗,大小基本上与电流的平方成正比;管理线损等同于不明损耗,由窃电、计量设备误差和失误等产生[17]。用户窃电将会增加管理线损从而影响台区总线损。所以需要首先剥离技术线损,获得管理线损,使分析更准确。

用户窃电导致的台区线损异常波动的特征为:

(1)区别于计量设备的偶然性误差和采集数据出错,窃电导致线损率异常上升一段时间后回落到正常水平或一直保持高线损率状态;

(2)线损率异常上升的同时,终端采集计入的用电量减小,两者之间存在负相关的关系,违背电网运行规律,且两者发生的时间具有一致性。

因此,可通过识别非技术线损率异常波动的台区来初步划定嫌疑用户范围,再通过线损率与用户用电量的相关性分析提升识别可靠性。

2.1.1 剥离技术线损的方法

基于“I2Rt”的方法和负荷曲线方法,计算技术线损一天的损耗[18],公式如下:

(1)

(2)

式中U和I为公变负荷的电压和电流;U0为用户负荷的电压;W单位为kW·h。

具体技术线损的计算步骤为:

(1)对于信息采集系统中一天96个电流点先拟合曲线,再对拟合曲线的平方进行积分;

(2)对于信息采集系统中一天的96个电压点,分别计算对应时间点的公变负荷和用户负荷的三相电压的差。然后与对应公变负荷三相中每一相每一个时间点的电流相除,最终得到对应的96个电阻点求其平均值得到电阻。

图2(a)为浙江某台区在2017年1月1日~2月24日的日供电量数据,图2(b)为用该方法计算技术线损并剥离后的线损率。

图2 两种线损率的对比Fig.2 Comparison of two kinds of line loss ratio

由图2(a)供电量和图2(b)两种线损率相对比可知,供电量越高,技术线损占比越高,符合实际情况,说明该方法具有合理性。

2.1.2 台区线损率异常波动识别方法

针对上述线损率波动特征采用对台区线损率进行二次聚类的方法来检测低压台区的线损率波动。常见的聚类算法有KNN、K-means、DBSCAN、GMM、SOM、FCM等,其中K-means算法[19]适合处理低维数据,且在运行时间上有一定优势,缺点是需预设K值且容易陷入局部最优。由于本文处理的数据对象是线损率和电量数据,每次处理的数据量有限,且分类数目已经确定,因此选择K-means算法进行聚类。聚类结果如图3所示。

图3 某台区历史线损率数据K-means聚类分析结果Fig.3 K-means clustering analysis results of historical lineloss rate data in a station area

图3(a)所示为某台区六个月历史线损率数据在预处理后进行第一次K-means聚类的结果。一般,预处理后的数据中很可能存在少量粗大数据。如图3(a)中标签为Table B的数据,其只包含游离在其它数据之外的三个点,会导致线损率数据分类不完全。为了克服该缺陷,有必要舍弃此次聚类标签为Table B的粗大数据,对剩余数据标签为Table A、Table C的数据再次分类,得到图3(b)所示的聚类结果。对于得到的三个聚类中心,采用最高类中心与最低类中心之间的距离D作为台区线损率波动的评价指标,定义SC为指标阈值。若D>SC,则认为该台区线损率波动较大,台区下用户存在窃电嫌疑。反之,则认为该台区为正常台区。经过大量实际数据检验,本文设置SC=3%较为可靠。

2.1.3 时间离散度的定义

一般意义上讲,连续时间上的高损比断续时间上的高损更加存在窃电风险。因此,将线损率聚类结果中最高类的时间序列离散程度进行分析。

由于时间状态量的特殊性,无法采用极差、平均差、标准差等统计量作为离散程度的测度指标,因此定义时间离散度TD作为台区窃电风险评判标准,假设嫌疑台区的线损率最高类对应的时间坐标序列T=[T1,T2,…,TM],则时间离散度TD的表达式如下:

(3)

式中T为异常线损率对应的时间点;i为时间点T的序号;M为异常线损率的数据长度,TD≥1。当TD=1时,表示时间完全连续;TD越大表示时间离散程度越大。

作为云南省交易团唯一的金融合作伙伴,云南中行为做好此次进博会金融服务工作,从组织筹备、方案制定、企业对接等方面精心筹划、全面部署,积极配合,全方位开展中国国际进口博览会前期各项工作,为参会企业提供全面的综合性金融服务,赢得了企业和云南交易团的高度评价。

2.2 台区下用户窃电嫌疑与窃电行为分析

对平均线损率超过10%以及节2.1中检测出线损率波动异常的台区下所有用户进行分析,将窃电风险评价细化到单个用户。

对于用电信息采集系统日采集的低压用户电量数据,当数据波动较大时,数据中的离群点不明显,而采用K-means聚类可以对电量数据进行较准确的分类。当用户的电量数据波动较小时,K-means聚类中心较为接近,易对电量数据进行错误分类,而离群点算法[11-12]可以避免这一点。因此,两种算法可以互为补充,采用变异系数CV作为衡量电量数据波动大小的指标,作为选择算法的依据。

(4)

经过实际数据检验,CV>0.3时,采用聚类算法对样本进行分析,CV≤0.3时,采用离群点算法进行分析。

采用聚类算法对用户历史用电量数据进行分析,按照聚类中心大小分为三类:最高类、中间类、最低类。计算聚类中心距离,将中间类划分入聚类中心距离较近的类,变为较高类与较低类。此时,用户窃电疑似度Q1由两类中的较低类包含的数据量与总数据量的比值表示,如式(5)所示:

(5)

式中Nlow表示聚类算法中较低类的数据量。

采用基于距离的离群点算法对用户的用电量数据进行分析可检测出一系列的离群点,并检测连续的离群点数量NO用以定义嫌疑系数O,连续离群点数量越多认为其嫌疑越大。如式(6)、式(7)所示,此时用户窃电疑似度Q1由嫌疑系数O与离群点中的参数pct[11]表示:

(6)

(7)

式中Pct代表基于距离的离群点算法中的参数pct。

为了辅助现场人员核查窃电用户,提高模型的实用价值,对上述两种窃电嫌疑分析方法通过电量数据定位用户疑似窃电的时间点,进而通过识别窃电前后的用电特征,判断用户的具体窃电行为。

此处以低压单相电能表为例进行说明。低压单相电能表的功率公式为:

P=UIcosφ

(8)

式中U为相电压;I为表示相电流;cosφ为功率因数。

用户窃电造成电能表计入的功率发生变化,几种窃电行为造成的功率变化情况见表1。虽然这只是根据数据信息判断的三大类,具体的窃电行为由现场判断,但是为窃电行为查证提供了一个有效的方向,节省工作人员查证时间,提高窃电行为查询效率。现场判断的具体窃电行为多种多样,例如:窃电行为类别1具体窃电行为有:弄断熔丝管内的熔丝、松开电压回路的接线端子、弄断电压回路导线的线芯、松开电能表的电压连片、拧松电能表的电压连片等;窃电行为类别2具体窃电行为有:电流采样回路并联、串接电阻、更换电压采样回路分级采样电阻、电压线圈串联电阻等电子元件分压等。不一一列举,只判断窃电行为的三种类别。

表1 低压单相窃电功率变化表Tab.1 Power variation in low voltage single-phase electricity theft

根据表中所示的窃电行为造成的功率变化特征,假设同一用户窃电前后用电水平基本不变,则同一用户的用电量变化规律与功率变化一致,可根据窃电时间前后的平均用电量变化特征识别窃电行为。若窃电用户窃电前后用电情况变化,可能出现窃电用户平均用电量在窃电后反而升高的情况,则此方法无法识别。

2.3 台区线损率与用户用电关联分析

台区线损率作为反映整个台区线损情况的指标,对台区下用户的窃电嫌疑评估同样具备参考价值。窃电用户日用电量数据变小的同时,会引起台区线损率升高。所以采用皮尔逊相关系数对剥离技术线损后的台区线损率与单个用户的用电量作关联性分析。

假设单个用户的单日用电量序列X=[X1,X2,…,XN],该用户所在台区的历史线损率序列Y=[Y1,Y2,…,YN],X与Y是一一对应的N维向量,N代表统计的天数。用户的日用电量X与台区线损率Y之间的相关性系数用ρ(X,Y)表示:

(9)

式中μ代表样本平均值;σ代表样本标准差。

由于用户窃电和线损率波动存在负相关的关系,故此处根据相关性系数,定义用户与台区存在关联趋势的嫌疑指标c。

c=-ρ(X,Y)

(10)

由于相关性系数ρ(X,Y)≤0才有对应的物理意义,需限定c≥0,c的取值范围为[0, 1]。

3 低压用户窃电嫌疑评估流程及算法

低压用户窃电嫌疑分析分为异常台区分析流程和台区下用户窃电嫌疑分析流程。

3.1 异常台区分析流程

异常台区分析流程如图4所示,步骤如下:

图4 异常台区评估流程图Fig.4 Flow chart of abnormal substation area evaluation

(1)提取待评估台区的历史线损率数据进行数据预处理;

(2)提取台区历史平均线损率大于10%的台区,直接列为异常台区,设定异常系数a=1;

(3)对其余台区历史线损率数据进行聚类,聚类个数K=3;

(4)聚类后判断是否有样本数目小于总体样本数目1/10的类,若有,舍弃掉后进行二次聚类,若无则跳过二次聚类;

(5)计算聚类所得的最高类中心与最低类中心之间的距离D,若存在D>Sc则将该台区列为异常台区;

(6)提取异常台区聚类结果中线损率最高类的时间坐标序列T,进行时间离散度分析,并根据分析结果计算嫌疑台区的异常系数a。

对待检测地区进行异常台区分析后,得到P个异常台区的时间离散度序列TD:

TD=[TD1,TD2,TD3,…,TDP]

(11)

(12)

根据上述结果设定异常系数a如下:

(13)

(14)

3.2 台区下用户嫌疑评估步骤

对待评估地区进行台区线损波动分析后,提取嫌疑台区的所有用户进行后续的嫌疑评估,具体流程如图5所示。

图5 用户综合窃电嫌疑评估流程图Fig.5 Flow chart of comprehensive suspicion electricity theft evaluation for users

(1)根据电量波动指标CV选择对用户进行离群点或聚类算法继续分析,根据算法结果获取用户窃电疑似度指标Q1;

(2)比较用户疑似窃电前后用电量是否有异常减小,若有,Q′1=Q1;若无,Q′1=0.8Q1,并作窃电行为分析;

(3)对用户单日用电量与台区线损率变化进行关联分析,获取关联嫌疑指标c;

(4)将用户疑似度Q′1作为基本嫌疑,用户与台区关联的趋势嫌疑c与台区的异常程度a相乘后作为辅助嫌疑,得到用户的综合疑似度Q=Q′1+a×c。根据上文分析,Q的取值范围为[0, 2]。

第(3)步骤中Q′1=0.8Q1,这里系数选择0.8的依据分析如下。首先,在已知窃电的258个窃电用户随机抽取10%,即26个用户,分析窃电后10天用电量的平均值是否比窃电前10天平均值异常减小,分析结果:有20户异常减小,即76.9%窃电用户异常减小。基于此加入修正系数,比较用户疑似窃电前后用电量是否有异常减小,若无,疑似度减小。这样做的目的是排除正常用户,一般用电量不变或变大的用户是正常用户的可能性非常大,但是有时候计算出来的疑似度也有可能偏高。接着对于计算出疑似度指标的用户,疑似度分别乘以系数0.65~0.9(间隔0.5),对比分析窃电用户排名情况,系数0.8的时候结果比较合理,最终选用系数0.8。

4 实验结果与分析

4.1 实例一

为了验证该算法在实际反窃电工作中的准确性和可靠性,选取由用电信息采集系统采集的某地区2017年6月~9月的相关用电数据与统计数据进行算法验证。

对待检测地区包含的316个台区提取历史线损率数据,并进行台区线损率波动分析,得到结果为204个台区存在线损率异常波动现象。

图6 ST取不同值时台区异常系数a的取值Fig.6 Values of anomaly coefficient a when STtakes different values

表2 ST取不同值时台区异常系数a的情况Tab.2 Situation of anomaly coefficient a when ST takes different values

从中选取4个台区共249户用户,其中窃电用户有6户,进行窃电嫌疑评估并获取其综合疑似度Q,排列划分用户类别结果为:4个台区中共计存在正常用户125户,轻微嫌疑用户(Q<0.5)52户,中度嫌疑用户(0.5≤Q<0.7)58户,高度嫌疑用户(Q≥0.7)14户。实地查证高度嫌疑和中度嫌疑用户,即嫌疑台区排名总数的前28.91%,查询到其中5个窃电用户,出现了改动电能表采样回路、绕越电能表接线的窃电手法。

表3所示为嫌疑度排名靠前的15个用户的具体嫌疑指标,用户7 969、8 937、6 689为窃电用户。表中窃电行为的含义见表1所示。

表3的15个用户中有9个用户的综合疑似度通过台区波动分析和台区与用户的关联性分析得到的嫌疑指标a和c对其用户疑似度有了一定程度的修正。由表3中综合疑似度和未剥离技术线损综合疑似度的对比,可见15个用户中有10个用户通过剥离技术线损对综合疑似度有了一定程度的修正。其余台区情况亦类似。

表3 高度嫌疑用户窃电嫌疑分析详细指标Tab.3 Detailed electricity theft analysis indicators of high suspicion users

4.2 实例二

采用更多数据进一步分析,以便修正实例一中算法的不足。具体修正环节如下:

(1)考虑到季节性和大量实际数据分析的情况,且不影响模型分析结果,确定选用三个月的数据为一个单位进行嫌疑台区的筛选,找出管理线损实时偏高或异常波动的台区;

(2)因实际上超过70%的台区都有上百户用户,所以采用单个台区疑似度为一个整体进行分析;

(3)由于窃电用户很有可能长期处于窃电中,加入与历年同月用电量平均值对比的环节,修正综合疑似度。具体为每个用户上一年三个月平均值与这一年三个月平均值对比,若增高,综合疑似度减半;若减小,综合疑似度不变;

(4)因台区数量大,需考虑查证的效率和成本,去掉划分用户类别步骤,直接查询嫌疑台区用户排名总数的前25%。

选取由用电信息采集系统中某地区2019年1月~3月的相关用电数据进行分析。首先在窃电频发地区初步筛选得到44个台区,已实际查证有25个窃电用户。

首先提取历史线损率数据,按照图4异常台区评估流程和修正环节分析,得到24个台区存在线损率异常波动现象。实际验证结果为:24个台区中嫌疑台区为18个,有6个台区被误判,正确率为75%;判断为正常台区有20个,其中嫌疑台区误判为正常台区有7个,误判率35%。44个台区的综合正确率为70.5%。

接着,确定24个台区的时间离散度TDi的阈值ST为2.4。提取24个嫌疑台区的所有用户的相关数据按照图5用户嫌疑评估步骤和修正环节进行分析,得到综合疑似度排名,具体数据详情见表4。加入修正环节后,18个窃电用户中有15个窃电用户排名上升或不变,很多窃电用户的嫌疑度排名大幅度上升,证明对算法进行了有效地修正。

表4 窃电用户实际查询结果Tab.4 Results of actual query of electricity theft users

确定嫌疑排名后应结合实地查证,以25%作为阈值进行查证,修正后算法的查证结果为:13个窃电用户排名在台区用户总数25%之内可查到,5个窃电用户排名超出25%未查到,正确率为72.2%。按照整体窃电识别方法验证,25个窃电用户中最终查到13个,正确率为52%。

5 结束语

提出了一种新的低压用户窃电识别方法,并在真实数据案例的基础上对该方法进行验证,结合人工查证可成功抓取窃电用户。研究结果表明,该方法通过剥离技术线损、二次K-means聚类、离群点算法、关联性分析等多重分析,突破了单个算法的缺陷与单一角度的局限,能够更加有效地抓取窃电用户。此外,未来工作需同时从更多的角度,发掘更多的基本算法融入于整体识别方法,提高该方法的有效性和稳定性。

猜你喜欢

损率离群用电量
02 国家能源局:1~7月全社会用电量同比增长3.4%
01 国家能源局:3月份全社会用电量同比增长3.5%
一种基于邻域粒度熵的离群点检测算法
我国水库淤损情势分析
国家能源局:3月份全社会用电量同比下降4.2%
一种相似度剪枝的离群点检测算法
从数学的角度初步看离群点检测算法
无功补偿极限线损率分析及降损措施探究
候鸟
供电企业月度实际线损率定量计算方法