一种基于离群算法的窃电行为检测的研究
2018-04-13蔡耀年王明琪刘建森赵陆军李贤靓
蔡耀年 王明琪 刘建森 赵陆军 李贤靓
摘要:针对窃电行为现场查证具有难以克服的现实困难,提出一种基于离群数据挖掘的窃电行为检测方法。该离群算法基于密度聚类算法,采用基于用电量波动的不同方向识别不同的用电模式,基于用电频率、离群距离以及异常规则关联度的计算挖掘潜在离群数据点,并通过基于评价矩阵确定离群阈值对离群数据点存在窃电行为的可能性进行确定性分析,实现对窃电行为的数据化检测。最后通过仿真测试证明该算法在针对混杂不同用电模式的用电数据的窃电检测方面相对于其他数据挖掘算法具有更好的性能表现。
关键字:窃电检测;离群算法;密度聚类;用电频率;关联规则;评价矩阵
中图分类号:TP391
文献标识码:A
1 引言
我国10KV配电网的线损保持高位运行的重要原因之一是用电客户的窃电行为[1]。近些年,一些高科技的窃电手法有愈演愈烈之势,如遥控装置窃电、预付费卡表破解充值、利用编程器对电表进行私自调较等,这导致窃电行为的现场查证难度越来越高[2-3]。居高不下的窃电行为给电力公司带来巨大损失,据有关资料不完全统计,每年东北电网被窃电量高达20亿kWh[4]。
为了提高电力企业管理水平和经济效益,基于电力用户用电信息采集系统积累的用户用电信息,通过分析历史用电数据,利用数据挖掘找出用户用电的异常行为,从而实现对窃电行为检测己成进一步提高电力公司防窃电诊断能力的热点研究领域[5-6]。
文献[7]针对用户异常用电行为提出一种利用Storm的状态监测算法对用户实时用电数据流进行基于阂值判断的检测方法。文献[8]则对用户实时用电数据进行分析,提出了一种基于分层的异常用电行为检测算法。文献[9]结合聚类算法与粒子群算法对配电网的用电信息进行数据分析,找出用户异常用电的规律。文献[10]结合粒子群优化算法和向量机提出了一种基于自适应学习的异常用电行为检测的算法。文献[11]基于网格的聚类算法对用电行为的异常度进行计算。这些算法在基于异常数据计算的窃电行为检测上具有一定的可行性,但是由与用户用电模式差距较大,导致上述算法在实际进行异常检测时容易出现误判,需要加以人工干预才能获得较为准确的窃电检测结果。
基于上述研究,提出一种基于离群数据算法的用户窃电行为检测方法。该方法首先采用密度聚类算法对用户的用电行为特征进行提取,然后结合对用电频率、关联规则关联度以及聚类距离的计算,实现对异常用电数据点定量的离群检测,为窃电行为的最终确定提供切实数据依据。
2 基于离群算法的窃电检测思路
用电用户的行业特征、气象条件以及地域特征都会在较大程度上对用户的用电量特征产生影响。对用电量从时间尺度上进行分段,每段区间包含一个特定的用电模式[12]。为便于进行用电数据离群检测,对用电数据采用聚类算法进行分类,并基于用电频率、聚类距离以及关联规则对异常数据进行离群度计算。最后结合优化确定的离群阈值对离群数据进行确定性窃电判断。离群数据检测算法的思路如图1所示。
3 离群算法的实现
由表1可以看出相邻两个区段的用地量波动方向相反,上一个区段结束时间与下一个区段开始时间重合。
3.2 异常用电区段内离群数据计算
用电区段有四个基本参数:持续时间、中心点位置、起始用电量以及结束用电量。由于这些参数之间具有不同的线性相关性,因此给区段内离群数据的计算带来一定的困难。因此要把这些参数进行标准指标化处理,去掉参数自身的量纲属性,便于后续基于离群算法的数据点分析[14]。此处的处理方法采用MIN-MAX离差标准化手法,如式4所示。
采用基于密度聚类的离群算法进行离群数据检测。首先利用DBSCAN算法对用电区段内的用电数据进行分类[15]。DBSCAN算法有两个基本的计算参数:邻域半径rps和邻域阈值thmin。如果空间内任意两数据点之间距离小于rps,则这两点数据分别在对方的邻域内。如果某个数据点邻域内的数据点数量超过thmin,则该点被称作核心数据点。核心数据点邻域内的数据点为边界数据点。既不是核心数据点也不是边界数据点的为离群数据点。任意两个小于rps的核心数据点可以属于同一个聚类,任意数据核心点的所有边界数据点也属于同一个聚类[16]。
在不同的用户区段中聚类的数量会有很大不同。对该数据点到聚类核心数据点的距离进行计算,并作为该数据电离群度的计算指标之一。
式5中dc是该用电区段中的一个聚类,dei是該用电区段中的一个数据点。DIS(dei,dc)是dei到dc的距离。AVR (dc)表示聚类de中边界点到核心点的平均距离。
3.3 关联规则的挖掘
关联规则是两个不相交的项集之间的潜在关系,可用关联度l和可信度b加以评价[17]。设X和Y为不相交的项集,则关联度l的计算方法如式5所示。
式5和式6中的σ表示关联度计数,N表示事物的总个数。
超过关联度阈值的项集为频繁项集。在电力负荷离群数据的关联规则计算中,为降低关联规则的计算负荷,因此只对波动量大于1的用电区段中进行异常关联规则ud的计算。在关联规则分析中,考虑对非频繁项集的关联,将关联度阈值设为0。基于给定时间间隔td关联度1的表达式为:
3.5 离群度以及离群阈值的计算
离群度的计算指标有三个:离群距离R、关联规则关联度l和用电频率f。离群度的计算公式是:
λ=Rxl×f×100%
(9)
当计算出的离群度λ小于离群阈值δ,则认为点时间点的用电数据为异常的离群数据。
在数据挖掘领域,常用基于特征曲线法的二维评价矩阵来对离群算法的正确率进行评价。二维评价矩阵的表达式如式10所示。
式10中,TP表示正常用电量被预测为正常用电量的样本数,FN表示正常用电量被预测为异常用电量的样本数,FP表示异常用电量被预测为正常用电量的样本数,TN表示异常用电量被预测为异常用电量的样本数。
评价矩阵四个重要参数:假正率FPR、真正率
离群数据检测属于不均衡类分布问题,基于算法准确率的统计对离群算法性能的评价不适用。为此在遵循数据挖掘算法通用评价规则的前提下,本文选择由FPR和IPR组成的特征曲线的面积作为离群算法性能的评价指标。特征曲线面积越大表示算法的计算效果越好。
基于精度Pe和召回率Re构建调和量度θ:
调和量度θ的值越大,表明算法的效率越好,否则,算法的效率则较低。因此可以通过对θ的计算得出离群阈值δ。
3.6 算法实现
在基于用电量的离群算法进行窃电分析过程中,首先对用电量数据进行量化处理,并对用电频率进行计算,然后基于用电量的波动构建异常关联规则,并对关联规则的关联度进行计算。随后依据用电量的波动方向进行用电区段的划分,在用电区段内基于密度聚类算法进行离群数据的分析,得到各个区段的的异常数据的离群距离,存入用电量异常数据库。根据离群距离、关联度和用电频率在异常数据库中生成异常数据点离群度,然后基于评价矩阵的精度和召回率计算出离群阈值,最后通过比对离群度和离群阂值得出疑似窃电的时间、用户。
4 仿真验证
仿真测试的数据来自是针对某市用电采集系统中采集的商用电用户户和民用电用户的实际用电数据。使用本文算法与基于层次聚类离群算法、基于K均值离群算法进行对比测试,以验证本文所述算法性能的优越性。
随机选择4个商用电用户和民用电用户,采用基于特征曲线的分析方法,通过计算特征曲线面积来优化选择离群算法主要参数的取值。在对算法参数优化的过程中,首先给定量化算子的值,然后对以特征曲线最大面积为目标值对邻域半径和邻域阈值进行迭代运算,最终确定最合适的参数值。
由图3可以看出,在邻域半径为0.08、邻域阂值为9、量化算子为0.01时,特征曲线具有相对最大面积。因此在测试选用这组参数设定。基于评价矩阵对离群阈值和调和量度进行试验的结果如图4所示。
由图4可知,离群阂值在5.9%时,调和量度达到最大值0.900,此时算法具有最好的离群数据检测效率。
采用上述参数设置,基于本文所述算法和层次聚类离群算法、K均值离群算法进行对比测试,对三种算法运行效率的基于特征曲线的评价结果如图5所示。
对图3进行研究发现,本文的基于密度聚类的离群数据检测算法相对与其他两种算法,其特征曲线的面积最大,这表明在对用电数据进行离群分析上本文所述的算法具有最好的检测效果。
这是由于基于層次聚类思想在进行聚类计算时,需要事先对层次结构和聚合策略进行定义,因此具有较低的聚类效率。由于在单个聚类中的用电量的波动具有不确定性,因此基于K均值聚类的离群算法无法有效确定同一聚类中的不同波动区段,导致算法的检测精度受到较大局限。本文所采用的离群算法针对上述问题做出了针对不同聚类进行基于用电量波动的用电区段划分的针对性优化,因此能够很好的对具有不同用电模式的用电数据进行有效离群检测。
5 结论
基于密度聚类的离群算法提出了一种窃电行为检测的方法。该检测方法采用离群算法对用电数据进行数据挖掘,从而实现窃电检测。所述的离群算法是在对用电数据进行基于密度的聚类计算的基础,通过对用电频率、离群距离以及异常规则关联度的计算实现离群数据的挖掘,并通过基于评价矩阵的离群阂值实现确定窃电点的功能。最后通过仿真测试证明了本文所述的离群算法相对其他数据挖掘算法在对具有不同模式的用电量数据进行窃电分析时具有更好的性能表现。
参考文献
[l]刘凤魁,邓春宇,王晓蓉,等.基于改进快速密度峰值聚类算法的电力大数据异常值检测[J].电力信息与通信技术,2017,15(06):36-41.
[2]许刚,谈元鹏,戴腾辉.稀疏随机森林下的用电侧异常行为模式检测[J/OL]电网技术,2017,41(06):1964-1973.
[3] 陈宏.基于关联规则挖掘算法的用电负荷能效研究[J].电子设计工程,2017,25 (04):79-82+86.
[4]王桂兰,周国亮,赵洪山,等.大规模用电数据流的快速聚类和异常检测技术[J].电力系统自动化,2016,40 (24):27-33.
[5]王昕,田猛,赵艳峰,等.一种基于状态估计的新型窃电方法及对策研究[J/OL].电力系统保护与控制,2016,44 (23):141- 146.
[6]武昕,王震.基于负熵估计的居民用电负荷非侵入式分解算法[J/OL].电网技术,2017,41(03):931-937.
[7]陈文瑛,陈雁,邱林,等.应用大数据技术的反窃电分析[J].电子测量与仪器学报,2016,30(10):1558-1567.
[8]李亦非,宋玮琼,彭放,等.基于局部异常点检测算法的电能表飞走异常智能分析[J].电测与仪表,2016,53 (18):69-73.
[9]周宁慧,王彬,王治华,等.基于集合论估计的电网状态辨识(四)离群点识别[J].电力系统自动化,2016,40 (08):22-28+ 50.
[1O]王卫公,牟婷婷,王兰君,等.基于灰色分析的集抄数据异常判定[J].电网与清洁能源,2016,32 (04):6-11+16.
[11]庄池杰,张斌,胡军,李秋硕,曾嵘.基于无监督学习的电力用户异常用电模式检测[J].中国电机工程学报,2016,36 (02):379-387.
[12]谷云东,张素杰,冯君淑.大用户电力负荷的多模型模糊综合预测[J].电工技术学报,2015,30 (23):110-115.
[13]程超,张汉敬,景志敏,等.基于离群点算法和用电信息采集系统的反窃电研究[J/OL].电力系统保护与控制,2015,43 (17): 69-74.
[14]辛洁晴,夏正侃,高亦凌,等.基于事故树的窃电损失要因分析[J].电力系统及其自动化学报,2014,26 (03):47-51.
[15]蓝敏,李朔宇,李锡祺,等.基于聚类分群的线损特征分析方法[J].电力科学与技术学报,2013,28 (04):54-58.
[16]黄海涛,张粒子,乔慧婷,等.基于变密度聚类的居民阶梯分段电量制定方法[J].电网技术,2010,34 (11):111-116.
[17]杨政,李欣然,陈辉华,等.密度梯度聚类算法在负荷动特性聚类中的应用[J].电力系统及其自动化学报,2010,22 (02):41-47.