基于稠密度聚类的低压台区用电窃电行为识别
2023-03-10肖涛陈湘媛刘树来许阳肖建红
肖涛,陈湘媛,刘树来,许阳,肖建红
(1.国网湖南省电力有限公司供电服务中心(计量中心)智能电气量测与应用技术湖南省重点实验室,湖南长沙 410004;2.国网湖南省电力有限公司,湖南长沙 410004)
目前,社会上仍存在一些窃电不良行为,窃电者不仅打乱了供电秩序,也会给国家供电造成一定经济损失[1]。目前,低电压电力用户群分布广泛,该群体中大量用户存在偷电行为,总数可达98%以上,为电力用户带来极大危害[2]。尤其在用电高峰期间,低压窃电会给部分台区线路造成严重损毁。近年来,随着智能电表及用电信息采集系统的广泛应用,积累了大量用户的用电数据。如何将这些数据应用于更全面、准确的窃电探测,防止窃电发生,具有重要的现实意义。
针对这一问题,相关学者提出了两种窃电行为识别方法,分别是线损异常判断[3]和离群点算法[4]的行为识别方法。其中,基于线损异常判断方法是结合曲线相似性方式判断低压台区窃电行为;另外一种方法是基于离群点算法的行为识别方法,将数据采集系统与离群算法相结合,在低压平台上识别窃电行为。
尽管上述两种方法识别通过局部迭代搜索,识别了部分窃电行为,但无法做到全局搜索,导致最终识别结果不精准。为此,结合稠密度聚类技术识别低压台区用电窃电行为。
1 窃电行为数据中心点搜索更新
作为一种统计分析方法,稠密度聚类分析是通过对样本或指数进行分析与研究。与不属于同一集群的模式相比,集群模式之间的相似点更相似。
1.1 低压台区用电电流分布规律
根据低压台区用户用电的规律性,分析用户用电记录的负荷曲线,按照其规律性特点将用户用电分为生活用电、办公用电和生产用电三种。这三种用电量各不相同,一般情况下,生活用电是用电的底层,用电量较少,每天的用电量分布比较均匀;与生活用电相比,办公用电量较多,由于这些机关事业单位是按照规定的作息时间用电,因此,办公用电的使用范围也比较广,被称为用电顶层[5];生产用电最多,其用电特点是具有严格的作息时间,具有鲜明的行业特点。从每日生产用电的最高水平分布中可以推断出用户日程安排和行业特征[6]。
为了有效测量这三种用电方法,采用同一块电表进行连续24 小时的测量。根据所有用户的用电时间和类型,对其生成的负荷曲线分布图进行判断。分别记录用电用户的上班时间、下班时间、加班以及全天工作的用电情况,分析当前电流分配规律。
1.2 确定初始用电窃电行为数据中心点
基于稠密度聚类的初始用电窃电行为数据中心点确定步骤如下所示。
步骤一:通过对数据集中两两对象间的d(i,j)进行计算,建立一个n×n维的上三角矩阵[7-9]。
步骤二:建立目标密集区,将每一个对象(编号0,1,…,n-1)作为核心对象,并设置参数MinPts,再根据式(1)计算,即可获得第一层域的对象编号[10]:
式中,oi表示核心研究对象;p表示固定对象;ε0表示邻域半径;MinPts 表示对象个数;coredis(oi,p)表示oi与对象的距离[11]。
步骤三:设定领域层数N,按式(2)计算稠密区域的物体数目,按半径扩展逐层展开,把所产生的物体稠密区域集中起来:
式中,当领域层数N≥2 时,需控制半径增长速度,增强稠密度的凝聚性。
步骤四:对每个对象稠密区域的密度进行计算,如式(3)所示:
式中,Ci表示稠密区域对象个数;U表示整个区域对象个数。设有n个稠密区域,确定稠密区域的平均密度计算公式:
按式(4)计算所有密集区的平均密度,剔除密度小于平均密度的对象密集区,可得到致密区域,该方法能有效地消除密集区和离散点存在的噪声[12]。
1.3 用电窃电行为数据中心点搜索更新
采用常规K-MedoID 算法计算量大,时间复杂度高,其时间复杂度为O(K(n-K)2),在此过程中,每次迭代处理都需要经过重新聚类分析[13]。为了改善以往识别方法迭代次数多且收敛速度慢的问题,需及时搜索更新用电窃电行为数据中心点,满足初始中心点的计算需求[14]。通过设定初始聚类中心后,确定o1,o2,…,ok为中心点,即为密集区域C1,C2,…,CK的中心点。将K中心点的搜索范围划分成不同密集的小区域,能够有效改善传统识别方法存在的问题,极大地缩短搜索时间[15]。
2 低压台区用电窃电行为识别
根据搜索及时更新的基于稠密度聚类的窃电行为数据中心点,可精准获取所需数据,由此设计用电窃电行为识别流程。
步骤一:选择数据源,进行数据筛选,准备用户用电数据[16]。利用电力信息采集系统和营销业务应用系统,对近三年内专变窃电用户的用电负荷信息、事件记录和档案信息进行提取、验证。对窃电用户的原始数据进行筛选,以排除计量装置故障造成的误判数据和完整性差的数据。
步骤二:根据窃电行为特征进行变量选择,由此得到原始窃电特征集。
步骤三:基于非负矩阵分解的窃电行为进行特征提取。
非负矩阵表达公式为:
式中,A表示窃电特征矩阵;B表示系数矩阵;V表示原始窃电特征矩阵。
利用窃电特征矩阵代替原始窃听特征量,以提取窃电特征,并将其作为特征变量构建用户样本数据集。
步骤四:根据非负矩阵表达公式,计算综合分值,并且对所有用户进行窃电嫌疑筛选,最终得到高窃电嫌疑用户,由负责人员到现场进行核实确认。
1)划分层次
划分用电异常指标层次,由上至下的指标层分别为0 层、A 层、B 层。其中0 层表示用电窃电嫌疑指标层;A 层表示历史数据分析层;B 层表示单项指标层。依据B 层的指标,判断用户用电窃电行为,该指标值越大,说明低压台区用电窃电嫌疑也就越大。
2)设置权重
设置B 层指标对应的用电窃电异常行为指数权重,主要为:
3)计算窃电行为指数
通过上述确定的权重,设定R=[]r1,r2,r3,…,rn为A 层指标的状态值。则该层指标a1的窃电行为指数表达公式为:
基于式(7)的计算原理,确定ω为各项指标的权重系数,基于此,计算综合分值:
采用累积法计算B 层指标的方法获得A 层指标的特征值,并通过累积A 层指标可以得到综合的用电窃电异常行为评价指标,该指标越大,低压台区用电窃电行为越明显,由此完成用电窃电行为的识别。
3 实 验
为了验证基于稠密度聚类的低压台区用电窃电行为识别方法的可行性,对实际低压台区用电窃电产生的数据进行仿真实验分析,并统计低压台区供电所辖区内的所有居民在2020 年12 月至2021 年11月的所有用电量。所管辖的低压台区内,共有155 个居民用户,电能表共156个(1个总表,155个电能表)。
选择编号为35 和52 的电能表,对比分析这两个电能表对应的用户用电窃电情况,如图1 所示。
图1 两个用户窃电及线损情况对比分析
由图1 可知,由于在同一低压台区的网络线路是保持恒定不变的,因此,单一台区内线损变化相对稳定。依据该指标,构建5×350 高维随机矩阵,并对该矩阵扩展处理后,转化为50×350 高维随机矩阵。在该矩阵中添加白噪声后,经过滑动窗口切割变换,转为500×100 高维随机矩阵。该矩阵在低压台区电能表正常运行和出现窃电行为时的属性,如图2所示。
图2 窃电前后协方差特征值谱分布图
由图2 可知,当电能表正常运行时,高维随机矩阵属性分布于内环、外环以及高维随机矩阵属性值谱密度之间;当电能表出现窃电行为后,由于构成的高维随机矩阵容易出现异常数据,不能再独立分布,此时的高维随机矩阵属性集中分布在内环。
分别使用线损异常判断、离群点算法的窃电行为识别方法和基于稠密度聚类识别方法,对比分析窃电发生后高维随机矩阵属性值谱密度函数示意图,如图3 所示。
图3 三种方法窃电发生后高维随机矩阵属性值谱密度函数示意图
由图3 可知,当低压台区内电能表正常运行时,线损指标构成的矩阵特征平均谱半径在整个观测时间范围内处于平稳状态,高维随机矩阵属性集中分布在内环,不会出现新的窃电行为。当有窃电行为发生时,高维随机矩阵属性值的平均谱半径在第100天和160 天时,出现两个显著突变点,存在新窃电的可能性较大,说明使用基于稠密度聚类的识别方法识别结果更加精准。
4 结束语
文中提出的基于稠密度聚类的低压台区用电窃电行为识别方法,其优点是通过定位搜索中心所在区域的中心点,大大减少了迭代次数和有效区域更新中心的搜索次数,从而保证了聚类的准确性。在同一时间利用现有数据来分析当前和过去的窃电行为,可以及时发现异常用电行为。