APP下载

用电特征指标降维与极限学习机算法的窃电检测

2018-12-13李梓欣李英娜

计算机应用与软件 2018年12期
关键词:离群用电聚类

李梓欣 李 川 李英娜

(昆明理工大学信息工程与自动化学院 云南 昆明 650500)

0 引 言

我国已经进入了全面建成智能电网阶段,随着智能电网的快速发展,配用电数据呈现出数据量大、数据类型多、增长速度快等大数据特征[1-2]。但窃电现象依然严重且手段先进,反窃电手段仍以人工稽核为主,存在工作量大、取证困难和缺乏针对性等问题[3-4]。随着数据挖掘与机器学习等算法的发展,对电力大数据挖掘与分析,充分利用数据价值,成为人们关注的热点。

文献[5]提出利用技术损失模型估计非技术损失,估计出的非技术损失超过一定阈值时便认为存在窃电。文献[6]提出了根据线路中的电阻产生的损耗和实际的损耗做比较,来判断窃电,但是电阻会受到外界自然因素的影响。文献[7]利用对距离的判断找出离群点来检测判断窃电,通过对电流或电压离群点的检测来判断,但不能判断其他异常情况。文献[8]提出了利用皮尔森相关系数、贝叶斯网络和决策树来检测非技术损失。文献[9]提出一种聚类的新颖性检测窃电,提取用户消费指标,使用模糊聚类来捕获由用电行为良好用户的指标构成的数据结构,使用Gustafson-Kessel模糊聚类检测用户行为,以发现消费者异常数据。文献[10]提出基于智能电表数据的台区用户识别和窃电检测,通过对计量数据和量测数据进行计算和分析,设置参考电压,参考电压与用户某处电压计算差值大于某一阈值判定为窃电。文献[11]提出一种基于层次分析法的加权离群窃电检测方法,确定参数和权重用电气数据计算出离群因子得出窃电排序。

本文的研究目的是在未知用户类型与用户是否存在窃电的情况下,对大量用户历史用电数据进行分析。通过提取特征指标进行降维并结合局部离群因子、极限学习机算法建立窃电检测模型。通过该模型识别出窃电用户,供电公司只需重点稽查被标示为窃电的用户,有助于提高稽查准确率,节省时间、人力,减少并挽回因窃电导致的经济损失。

1 用户负荷曲线分类

1.1 FCM聚类

模糊C均值聚类算法FCM(Fuzzy C-Mean)通过分析每个元素的隶属度判定该元素属于哪个类,将n个数据向量分为c个模糊类,使模糊目标函数最小,其目标函数为:

(1)

式中:uij为个体xi属于第j类的隶属度;vj为第j类的聚类中心;m为模糊权重指数;uij和vj的计算公式为:

(2)

(3)

1.2 聚类数确定

FCM算法不能自动确定聚类数目c,需人为输入聚类数目,聚类数的确定影响聚类的效果。传统指标有PC、PE、XB、MPC、Kwon、FS等,根据指标的最优值确定聚类数。考虑到数据集的模糊划分与数据成员的几何结构,文中采用PC、XB两种指标,综合指标结果,得出聚类数。因PC最大值对应最佳聚类数,XB指标最小值对应最佳聚类数,故综合指标结果时取PC结果的倒数。综合聚类指标定义如下:

(4)

式中:w1和w2分别为VPC和VXB对应的权重,VPC和VXB为指标结果,其中PC、XB权重值都取0.5。

2 用户异常用电检测

2.1 特征提取

2.1.1 相似性度量指标

相似性度量有两种:距离和相似系数。用户典型日负荷曲线与负荷特征曲线的相似性利用距离和相似系数来计算。用户典型日负荷曲线Xn=(x1,x2,…,xT)和负荷特征曲线L=(l1,l2,…,lT)之间的欧式距离定义为:

(5)

变量xe与le的相关系数定义为:

(6)

式中:

计算步骤如下:

步骤1采用FCM算法得出用户负荷分类与分类中心坐标矩阵,由中心坐标得出每一类用户的负荷特征曲线。

步骤2对用户的典型日负荷曲线与得出的负荷特征曲线采用欧氏距离和相关系数法进行计算。其中ω为权重,ω3=ω4=0.5。

wcd=w3C+w4d

(7)

步骤3计算用户每个月的典型负荷曲线,并计算每个月典型负荷曲线之间的欧氏距离。

2.1.2 负荷形态指标

负荷形态指标使用负荷率、日峰谷差、负载率等5个指标来分析用电负荷的特性[12],如表1所示。

表1 负荷特性指标

表1中:P为负荷值,av均值、max最大值、min最小值,peak峰期、flp平期、val谷期[12]。

负荷率反映了负荷全天的变化,日峰谷差率反映了负荷变化幅度大小,负载率反映了这段时期内负荷的变化。

2.1.3 负荷趋势指标

负荷趋势指标利用简单移动平均法计算[13],其计算公式为:

(8)

式中:Mt为移动平均数,t为时间点,T为采集次数。

计算步骤如下:

步骤1计算用户的典型日负荷曲线和每个用户的n点简单平均移动序列。

步骤2计算用户的负荷时间序列与简单平均移动序列各个时间点的相对大小,小于Mt的点记为a1,a2,…,ah1,大于Mt的点记为b1,b2,…,bh2。

步骤3计算负荷的上升特征指标与下降特征指标rise和decl。

(9)

2.1.4 其他指标

(1) 计算每个用户典型日负荷序列的标准差S,体现用户负荷波动性。

2.2 主成分分析

主成分分析PCA(Principal Component Analysis)是一种多元统计方法,通过降维用几个主成分以线性组合方式表达原始的多个变量。设x=(x1,x2,…,xp)′为一个p维总体,考虑如下线性变化:

(10)

PCA中的主元是待处理数据的几个变量在经过线性组合之后所产生的信息,这种改变使待处理的数据在进行变换后的变量方差成为了主成分[14]。

2.3 局部离群因子算法

异常检测算法中,基于密度的离群点检测[15]方法通过数据对象的近邻分布考察比较,计算局部异常因子LOF(Local Outlier Factor),判定对象离群程度。计算对象的k-距离、k-距离邻域、可达距离、局部可达密度和局部离群因子,局部离群因子表示异常程度,局部离群因子越大,异常程度越高。

ROC曲线(Receiver Operating Characteristic)用来评价一个二值分类器的优劣,AUC(Area under the Curve of ROC)代表ROC曲线下方面积,值越大准确性越高。通过ROC和AUC来确定局部离群因子算法中k的最优取值。

3 极限学习机

3.1 极限学习机算法

极限学习机算法ELM(Extreme Learning Machine)是由Huang G.B针对单隐含层前馈神经网络SLFN(Single-hidden Layer Feedforward Neural Network)提出来新算法[16-17],与传统神经网络相比,具有学习速度快、泛化性能好等优点。

3.2 窃电特征选取

选用以下8个指标[18-20]以及相关的数据信息作为模型输入。当出现窃电特征时,其计量数据也会出现一定的相关性变化,故用主成分分析降低数据维度,去除数据中的包含的重叠信息。

1) 额定电压偏离度。电压一般是保持平衡的,当发生窃电时,电压数据会发生变化波动,电压与额定电压的偏离程度,可以体现用电异常。

2) 电压不平衡率。反映电压欠压现象,正常用电时三相电压是保持稳定的。

3) 电流不平衡度。反映电流欠流现象,正常用电时三相电流是保持稳定的。

4) 功率因数不平衡率。反映功率波动情况,正常用电功率因数不会发生大的变动。

5) 用电量离散系数。正常用电时单位用电量标准差与电量平均值的绝对值之比应该在一定范围内保持稳定。

6) 相位角。正常用电时相位角电压与相位角电流之间的夹角会在固定的范围。

7) 线损率:线损率是电能在输送过程中的损耗的衡量标准。正常用电时线损率会在正常范围内。线损率=(线损电量/供电量)×100%。

8) 合同容量比。当窃电发生时,申请的容量与用户的月用电量之间的比值会超出固定范围。

4 实例分析

4.1 数据准备与处理

本文采用云南省电网3 320个电力用户3个月的用电数据,采样间隔为15分钟,一天96个点,对数据进行清洗,剔除异常数据达到40%以上的用户,对保留的用户用电数据中出现异常的数据采用均值替换法替换异常值。最后所得实验样本数据为3 100个用户用电数据。为保证每个个体在分析过程中的地位相同,对数据进行极差归一化变换。

4.2 FCM对用户分类

对3 100个用户3个月的用电数据,通过计算相同时间点的日负荷曲线的平均值可以得到该用户典型的日负荷曲线。采用WCI指标确定最佳聚类数,用户的典型日负荷曲线作为FCM算法的输入样本,对用户进行分类。在不同聚类数下WCI指标值如图1所示。

图1 WCI聚类指标

由图1可以看出,在聚类数为3时,指标值最优,所以最佳聚类数为3。由于在运行过程中会随着聚类数的增大而呈现单调递增的趋势,故只显示了前一部分的数据。采用FCM算法对用户的典型日负荷曲线进行分类,如图2所示(横坐标为时间点,纵坐标为归一化后负荷值)。

(a) 第一类用户

(b) 第二类用户

(c) 第三类用户图2 负荷曲线分类

4.3 用电异常检测

由于事先将用户分了为三类,在分类的基础上,对每类用户进行用电数据异常检测。分析用户的用电习惯和与其他用户之间的关系,提取特征并利用主成分分析提取主成分,最后采用局部离群因子计算得到的离群点即为用电异常点。

4.3.1 特征提取与降维

由相似性度量指标、负荷形态指标、负荷趋势指标和其他指标对用户负荷曲线进行分析,提取出13个特征,分别是:g1用户的典型日负荷曲线与得出的负荷特征曲线的欧氏距离和相关系数, g2、g3、g4计算用户每个月的典型负荷曲线,并计算第一个月与第二个月、第一个月与第三个月、第二个月与第三个月的典型负荷曲线之间的欧氏距离,g5负荷率,g6日峰谷差率,g7峰期负载率,g8平期负载率,g9谷期负载率,g10负荷上升指标,g11负荷下降指标,g12用户典型日负荷序列的标准差,g13前后时间点的平均差值。将这13个变量作为观测数据,在分类的基础上,对每一类用户进行主成分分析。再通过局部离群因子算法,根据密度检测出异常点,检测流程如图3所示。

图3 异常检测流程图

以第一类用户为例(第二、三类皆按照同样方式处理),对其进行降维,提取出贡献率大的前两个主成分作为坐标轴,将用户以散点形式映射到二维坐标轴上。再利用局部离群因子算法,计算出的离群因子大的点即为所要找的用电异常点。主成分及其贡献率表如表2所示。

表2 主成分及其贡献率

由表2可知,前两个主成分累计贡献率达到80.43%,故可以由前两个主成分代表第一类用户的用电模式。图4为第一类用户经主成分分析后,映射到二维平面上的散点图。

图4 第一类用户二维平面散点图

4.3.2 离群点检测

通过计算AUC来确定局部离群因子算法中的k的取值,结果如表3所示。

表3 不同类别下k值与AUC关系表

由表3可以看出,综合考虑ROC曲线下的AUC值、计算时间来以及算法的特性,第一、三类当k=70时为最优,第二类k=90时最优。图5为经算法得到的用户异常点图,图中异常点用圆圈来标记。

(a) 第一类用户离群点

(b) 第二类用户离群点

(c) 第三类用户离群点图5 用户离群点图

4.4 极限学习机分类预测

本文采用的实验样本数据为云南省3 100个用户用电数据,经过用电异常检测得出的异常用户为71,经查其中有58户存在窃电,正确率为81.6%。为确保模型有足够的训练数据,从正常用户中选取229个用户数据加上得出的71个异常用户共300个用户作为样本数据。从电力计量系统中提取该300个用户的8个窃电指标数据,对数据做归一化处理。由于ELM算法要求训练样本有较好的代表性,为了降低ELM算法训练与分类的时间,对窃电指标做主成分分析可以减少数据信息的重叠,提高效率。采用测试集与训练集分类预测正确率对模型进行评价。按照4∶1比例分配训练样本与测试样本的数据,训练样本数225,测试样本数75。训练集选取窃电样本数为48,测试集窃电样本数为10,分类预测流程如图6所示。

图6 分类预测流程图

4.4.1 指标提取与降维

采用8个指标数据做主成分分析降低数据维度,去除数据中的包含的重叠信息。窃电指标主成分及贡献率表如表4所示。

表4 窃电指标主成分及其贡献率

由表4可见,前5个主成分方差占总方差的98.71%,故原来的8项指标由前5列主成分代替。经主成分分析后窃电指标数据的系数如表5所示。

表5 主成分系数表

4.4.2 ELM参数选取

ELM的连接权值与神经元阈值是随机产生且无需调整,只需确定隐含层神经元个数以及隐含层神经元的激活函数即可。激活函数的取值分别是sig、sin、hardlim,激活函数训练时间如表6所示。

表6 激活函数训练时间对比表

从表6中可以看出激活函数取值为hardlim时,所用的时间是最少的,sig其次,取值为sin所用时间最多。除了隐含层的激活函数,还需考虑隐含层神经元的个数,不同激活函数下隐含层神经元个数对ELM性能的影响如图7所示。

(a) 激活函数为sig

(b) 激活函数为sin

(c) 激活函数为hardlim图7 不同激活函数下隐含层神经元个数 对ELM性能的影响

比较图7(a)、(b)、(c)可知,在神经元个数为30和60时达到性能较好,结合运行时间、测试集和训练集的预测准确率,选取激活函数为sig,神经元个数为60。

采用PCA-ELM算法对数据进行分类预测,其中窃电用户标记为1,未窃电用户标记为2,训练集预测正确率为99.55%,测试集正确率为98.67%,采用ELM算法训练集正确率为99.10%,测试集正确率97.33%,实验结果如图8所示。

(a) PCA-ELM测试集预测结果

(b) ELM测试集预测结果图8 预测结果图

5 结 语

本文主要研究的是通过对用户历史用电数据的分析,建立窃电检测模型。首先对没有标签的用户用电数据进行分类,在分类的基础上对该类的每个用户的日负荷曲线采用四种度量指标进行特征提取,对提取出的13个特征变量做主成分分析,以前两个主成分为坐标将用户以散点形式映射到二维平面上,采用局部离群因子算法检测出离群点,即为用电异常的用户。对检测出的异常用户提取其8个窃电特征指标做主成分分析,并输入模型进行训练与测试。实验证明经过PCA处理的ELM相较于未经过PCA处理的ELM的预测精度更高,而该模型能够很好地识别出窃电用户,只需重点稽查被标示为窃电的用户,有助于提高稽查准确率,节省时间、人力,减少并挽回因窃电导致的经济损失。后续将进一步提高窃电检测准确率与效率。

猜你喜欢

离群用电聚类
一种基于邻域粒度熵的离群点检测算法
对输配电及用电工程的自动化运行的几点思考
用电安全要注意
数种基于SPSS统计工具的聚类算法效率对比
面向WSN的聚类头选举与维护协议的研究综述
近荷独坐
用电监察面临的问题及反窃电对策
改进K均值聚类算法
从数学的角度初步看离群点检测算法
候鸟