APP下载

基于改进k-means 算法和大数据分析的新型窃电识别模型与仿真

2022-11-18李春芳张锐峰

电子设计工程 2022年22期
关键词:特征参数用电聚类

李春芳,张锐峰,贾 璐,王 芳,郭 飞

(国网宁夏电力有限公司宁东供电公司,宁夏灵武 750411)

随着用电采集系统的全覆盖与升级改造,传统的人工现场抄表作业方式基本被淘汰。用电采集系统使抄表效率大幅提高、人工成本也显著减少,但同时也降低了供电部门与用户的直接接触次数,从而导致无法及时、准确地获知用户的实际用电行为,使用户的窃电行为成为了可能。文献[1]中统计了每年国家电网因用户的窃电行为造成高达百亿元的损失。传统的窃电稽查方式为定期人工对高损台区进行巡视检查或安装反窃电装置,但稽查效率低下且耗费大量人力[2-5]。

尽管用户的窃电方式具有多样性,但窃电行为均会导致用户的实时用电数据异常化。全覆盖的用电采集系统能够收集居民的用电大数据信息,在此基础上通过人工智能算法对居民的用电大数据进行分析,从而有效识别出异常用电用户[6-10]。文献[7]基于集成学习方式Bagging 提出了多个体学习器的窃电识别模型,其可从大量用户中筛选窃电用户样本,但步骤复杂且实际操作难度较大。文献[8]结合PSO和SVM 两种算法,在确定窃电异常支路的基础上进一步识别窃电用户,但实际的电力网络复杂多变,难以准确识别窃电支路。文献[9]建立了窃电用户的综合评价指标体系来确定窃电嫌疑用户范围,但最终筛选的窃电嫌疑用户范围过大,无法准确定位。

针对上述问题,该文提出了一种通过异常用电状态识别的窃电检测方法,其可有效缩小窃电嫌疑用户范围。通过分析用户用电大数据信息建立综合用电信息指标,并利用k-means 算法对指标进行聚类分析,得到窃电嫌疑用户范围。最终,通过现场勘查确定该识别模型的有效性。

1 改进k-means算法原理

1.1 k-means算法

k-means 算法由James MacQuee 在1967 年提出,其可归类为以距离为计算要素的一种迭代聚类算法。由于k-means 算法的简洁、高效性,从而被广泛推广[11-12]。

k-means 算法的原理为:选定某些样本数据为聚类中心,大量的原始样本数据通过欧式距离远近依附聚类中心形成多个聚类簇。聚类簇重新选定聚类中心后再次迭代聚类,最终达到最优聚类效果。

假设样本集X={x1,x2,x3,…,xn}中有n个样本,每个样本有p个特征参数,xi={xi1,xi2,xi3,…,xip}。随机选取k个样本v1={v1,v2,v3,…,vk}作为初始聚类中心,则每个样本xi与初始聚类中心vk的欧式距离为:

通常重新计算的聚类中心不变或迭代次数达到最大时迭代终止,约束函数为:

式中,ki为形成的聚类簇,zj为ki中的样本,vk为ki的聚类中心。

1.2 k-means聚类算法的改进

传统的聚类算法虽然简洁、高效,但必须事先确定k个聚类中心;在进行窃电验证时,如随机选择某个数据作为聚类中心,则容易陷入局部最优且无法获得最佳聚类簇[13-16]。由此,该文针对这两方面进行改进。

在样本集X中,样本xi与样本集中其余样本的平均欧式距离为:

式中,xj为样本集中其余样本。

如果在样本xi的平均欧式距离内存在样本的数量越多,则说明xi为样本集中某一区域的中心。以xi作为聚类中心将更容易使约束函数收敛,定义Num(xi,S(xi)) 为样本xi在距离S(xi) 范围内的样本数量:

计算出所有样本的Num(xi,S(xi))后,根据聚类个数k按从大到小顺序选择聚类中心xi。

假定样本集X分为k个中心时的聚类效果最佳,此时Li为聚类簇内每个数据到聚类中心的距离,d为不同聚类中心间的距离:

式中,pj为聚类簇中的样本数,xj为聚类簇中的其他样本,xi为第i个聚类簇的聚类中心。

定义评估值DM,当DM 取最小值时,各聚类簇内每个数据到聚类中心的距离最近,且各聚类中心之间的距离最远。此时,聚类簇内部最紧密集中,选择这一时刻的k值聚类效果最佳:

其中:

式中,cm、cn为不同聚类簇的聚类中心。

2 窃电识别模型的建立

随着智能电表与用电信息采集系统的全覆盖,使得用户海量用电数据的远程集抄成为可能。采集系统可以实时采集用户的电压、电流、功率因素、三相不平衡等用电参数,也可实时采集台区线损变化率。当某个用户进行窃电时,采集系统反馈的用电数据必然与其他正常用户的数据之间出现差异,会存在异常的用电状态,同时这些差异与台区线损的变化率有紧密的关系。

为准确预测出窃电用户,将某一时段用户的电压、电量、功率等采集信息进行分析,从而提取特征参数。

2.1 特征参数的提取

由于采集信息数量较多,各用户用电信息参数差距较大。为降低计算难度,对电量、电压、线损等参数进行归一处理后并提取特征参数。

提取电量的特征参数为:

式中,n为数据采集的天数,qi为用户第i天的用电量,qˉ为用户n天内的平均用电量,yi为台区第i天的线损率,yˉ为台区i天内的平均线损率。

电压的特征参数为:

式中,n为数据采集的天数,ua、ub、uc为用户第i天三相的平均相电压值,uˉ为用户第i天的三相均值。

2.2 用户综合用电信息指标的建立

用户的电量、电压特征参数组合可在一定程度上反映用户的用电信息,通过两种特征参数定义T为用户综合用电信息指标:

通过设定权重系数ω的值来体现电量、电压在用户综合用电信息指标中的重要度,ω的值可以根据窃电查处现场勘察的上述参数与窃电的关系度来制定,文中选取ω1=ω2=0.5。

为验证用户综合用电信息指标的有效性,对1名窃电用户、2 名正常用户在7 月1 日-7 月14 的用电信息进行验证。

通过图1 可看出,窃电用户的综合用电信息指标波动较大;正常用户的综合窃电指标波动较小,且变化轨迹较为相近。从中验证综合用电信息指标,能有效地区分窃电用户和正常用户。

3 用户窃电识别流程

3.1 原始数据的预处理

为保证采集数据的完整性与合规性,首先对数据进行预处理,清除不一致、重复的数据,使原始数据转换为有效值,以提高后续程序运算速度。数据清洗的路径如图2 所示,具体的步骤有:运用Z-score标准化的方法,去除提取数据中采集信息缺失严重的用户;为了提高分析的准确性和针对性,去除居民合表、小区公用设施用电数据;剔除日电量不连续、各时段电量数据畸变等数据。

3.2 基于改进k-means聚类的窃电查处流程

基于改进k-means 聚类的窃电查处流程主要步骤如下:

1)通过采集系统获取高损台区的用户电力信息;

2)运用Z-score 标准化的方法对原始数据进行预处理;

3)通过式(8)-(9)提取电量与电压的用电特征参数,建立用户综合用电信息指标;

4)将用户综合用电信息指标数据导入k-means算法,通过计算确定出聚类个数与聚类中心;

5)对k-means 算法进行分类计算,得到聚类簇;

6)对聚类簇中心进行更新并在此迭代聚类,直至得到最优聚类效果。

全流程示意图如图3 所示。值得注意的是,为了提高计算的效率,需要对整个计算过程中所有的数据均进行归一化处理。

4 案例测试与数据分析

为检验窃电识别模型的有效性,对实际采集数据进行模拟分析,此次数据样本来源于某电力公司高损台区114 户用户2020.7.15-2020.7.25 期间采集的用电数据。该文通过Matlab 软件,对窃电识别模型进行仿真验证。

4.1 k值的确定

从图4 中可以看出,当聚类个数为4 时,评估值DM 最小。此时聚类簇内部最紧密集中,因此该案例分析选取k值为4。

4.2 聚类中心的确立

通过式(4)对114 户用户的Num 值进行排序。从图5 中可以看出,第15、26、43、86 名用户的Num 值最大,将这4 名用户作为聚类中心。

4.3 聚类结果与分析

文献[10]也采用k-means 算法对多维特征因子关联模型进行聚类,获取窃电嫌疑用户。为验证该文窃电识别模型的有效性与准确性,利用文中改进的k-means 算法与文献[10]中的算法从114 名用户中筛选出了窃电用户,并对嫌疑用户进行现场验证。聚类结果如表1、表2 所示。

表1 该文聚类结果

表2 文献[10]的聚类结果

从表中可以看出,表1 聚类簇4 数量最少;而文献[10]聚类了5 个簇,簇1 中用户最少。正常而言,窃电只是极少数用户的行为,因此表1 聚类簇4 中的3名用户和表2 聚类簇1 中的7 名用户有窃电嫌疑,且表1 聚类簇4 与表2 的聚类簇1 出现了重叠。

为验证算法成效,安排电力稽查人员前往嫌疑用户现场进行核实。现场核实发现,两种方法计算得出的重叠用户的计量柜、接线盒、电表的铅封封闭不完整,且具有窃电行为。两名窃电用户接线恢复后,该台区恢复至正常。同时稽查人员再次随机抽取10 名用户进行现场检查,均未发现窃电现象。仿真实验结果表明,相较于文献[10],文中改进的窃电识别模型能更准确地发现窃电用户。

5 结束语

该文通过改进k-means 聚类算法,提出了一种新型窃电行为识别模型。首先通对系统采集的电量、电压等用电数据进行特征提取,建立用户综合用电信息指标;其次利用改进k-means 聚类确定值与聚类中心,识别出具有窃电嫌疑行为的用户;最终,现场稽查核实用户是否具有窃电行为。通过对高损台区114 户居民测试样本的仿真,验证了识别模型的有效性。现场稽查结果表明,该识别模型能极大缩小工作人员现场检查范围。与其余窃电识别方法相比,该模型能更有效的识别窃电用户。该识别模型目前仅能应用于低压居民用户,下一步将建立高压专变用户的识别模型。

猜你喜欢

特征参数用电聚类
一种傅里叶域海量数据高速谱聚类方法
基于视频图像序列的船用雷达目标检测和目标特征参数提取
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
用电安全要注意
说话人识别特征参数MFCC的提取与分析
民用飞机预测与健康管理技术与系统特征参数研究
学习用电小知识
基于Spark平台的K-means聚类算法改进及并行化实现