基于机器学习的异常用电检测技术的发展现状
2019-07-19张纹硕
摘 要:智能电表的出现与普及带来了一场用电信息采集方式的变革,在给人们带来便利的同时,也产生了海量的数据,这就使得不法分子的窃电行为更不易被发现,给电力公司带来巨大的经济损失。针对这一现象,国内外很多的学者都对此进行了深入的研究,并且提出了很多异常用电检测的手段。本文对基于机器学习的异常用电检测技术的发展现状进行介绍,指出了当前研究中出现的一些问题,并提出了一些解决措施。
关键词:智能电表;用电信息采集;异常用电检测;机器学习
DOI:10.16640/j.cnki.37-1222/t.2019.18.170
0 引言
智能电表的普及产生了海量的数据,这也导致了异常用电的检测变得困难。在智能电网的时代下,这些数据普遍具有着“3V[1]”的特点,即海量(volume)、高速(velocity)和多样(variety)。电力损失主要分为两种,即是技术性损失和非技术性损失。技术性损失即能量传输损失,这一部分损失可以使用技术或专家知识进行解释;非技术性损失是指电网输配电损失中剔除技术性损失后剩余无法用技术解释的部分,例如竊电行为等。近些年来随着机器学习领域的蓬勃发展,使得对大规模数据集的挖掘与分析成为了可能,很多研究人员将异常用电检测与机器学习两个领域相结合,取得了不错的成果,同时也遇到了一些难题。
1 基于机器学习的异常用电检测
1.1 基于有监督学习的异常用电检测
基于机器学习的异常用电检测算法可分为两个类型:有监督学习和无监督学习。有监督学习就是我们把正确答案交给计算机让其进行学习,以达到从新样本中预测正确答案的目的。假设我们将数据集中的用户分为两类:即正常用电的用户和疑似窃电的用户。那么在异常用电检测领域,有监督学习的过程是我们同时给出用户的用电数据以及用户的标签,对模型进行训练,最后达到通过用电数据预测用户类型的目的。常用的有监督学习算法包括线性回归、逻辑回归、人工神经网络、支持向量机SVM、决策树、朴素贝叶斯算法等。
文献[2]介绍了MIDAS项目开发的两种检测异常用电数据的方法:基于神经网络的方法和基于统计学的方法。在基于神经网络的方法中,作者先对用电客户进行聚类分析,减少需要分析的样本数目,再通过算法找到嫌疑较大的用户。
文献[3]介绍了基于深度学习方法的异常用电检测,作者使用了Tensor Flow构建深度学习框架,并将算法与长短期记忆网络(LSTM)进行对比,验证了算法的优越性。本文还将非技术性损失模型分为三类,除了大部分文献都提到的基于统计学和基于数据驱动的方法外,还提出了基于专家知识的模型。
文献[4]作者使用了多分类SVM算法并且考虑到了电力公司与窃电者之间的博弈。作者认为使用的数据集规模越小,用户隐私的保密程度就越强,因此采样率的选择就转化成了如何在隐私保密性和算法精度上进行取舍。同时作者假定了算法分类器遭受到了最坏程度的攻击,即假定窃电者在知晓分类算法规则的情况下进行窃电活动,此外窃电者还会通过修改数据的方式污染数据集。这样的假设对的算法性能评估更加客观,但是算法建立的过程难度会增大。
1.2 基于无监督学习的异常用电检测
与有监督学习的过程相反,无监督学习是我们把没有标签数据集交给计算机进行学习,让计算机自己对数据进行分类的过程。在异常用电检测中,我们只给出用户的用电数据,在不知晓用户标签的情况下对用户进行分类。常用的无监督学习算法有:K-均值算法、主成分分析法(PCA)、DBSCAN算法、BIRCH算法、限制玻尔兹曼机等。
文献[5]提出了一种基于两阶段k-means聚类算法的异常用电检测模型,通过灰色关联分析法分析温度和湿度两个特征对电力负荷的影响,利用k-means算法对负荷模式进行提取,最后将样本的负荷曲线与标准负荷曲线进行比较,计算每一个时刻预测值与实际值之间的欧氏距离,将这个距离进行统计后从大到小排列,将排名靠前的几个用户列为嫌疑用户并逐一进行排查。文中提出的算法可以缩小嫌疑用户范围,但是只将温度和湿度两个相近特征进行关联性分析,对结果的影响有限,可以通过参考更多的特征来优化模型。
文献[6]使用DBSCAN聚类方法进行异常用电检测。文中将流式计算框架与DBSCAN聚类法结合到一起。流式计算框架具有动态计算、在内存中直接处理、在线数据处理三个特点,可以快速反映系统当前的状态。通过DBSCAN对于最近一段时间产生的历史数据进行聚类分析,当新产生的数据达到一定规模时,替换部分历史数据,重新进行DBSCAN聚类分析,进而形成新的聚类,达到在线检测的效果,其实验结果证明,将流式计算与DBSCAN相结合具有和原始DBSCAN同样的精度。该模型的优势在于可以通过分析实时性更强的数据,得到更具有参考价值的结果,也可以更快地确定嫌疑目标。
文献[7]通过重新定义样本之间的密度关系改进了k-means算法,使得k-means算法可以处理高维数据。使用了Hadoop平台实现了云计算,利用并行处理技术可以同时处理大规模的数据。作者利用了k-means算法可以克服局部最优解的优势,简单高效地实现了大数据下的智能用电数据挖掘。但是仍然可以在k-means算法中的k值选择处进行相应的优化,使得算法的精度和速度更优秀。
2 异常用电检测中出现的问题
2.1 数据集的不平衡
目前很多带标签的数据集都存在正常样本与异常样本的比例严重不平衡的情况,由于异常样本的数量过少,对异常用电样本进行建模就变得很困难,对于这种情况,研究者们一般采用以下三种方法:对算法改进使得可以适应异常样本过少的情况;只使用正常样本进行建模,将新的样本与得到的模型进行比较,差异较大的就是异常样本;手动平衡样本,通过模拟异常样本的特征,增加异常样本的数量。以上三种方法虽然能一定程度上减轻数据集不平衡带来的影响,但是仍然不及对优秀的数据集进行分析的效果更好。因此,更加平衡、高质量的数据集在研究当中是十分重要的一环。
2.2 用户的消费模式改变
大多数用户的消费模式都会随着时间改变,工作日、周末、节假日这三个时间段用户的生活方式会发生明显的变化,因此这三个时间段的电力负荷也会呈现出不同的特征;再例如季节的改变,用户在夏季和冬季的用电模式也会发生改变:夏天由于天气热,空调的使用以及热水器的使用量会明显增加,其用电量相比春季会提高;到了冬天,采暖设备的使用也会导致用户的用电模式发生改变。以上这些变化都可以从用户长期的用电数据中捕捉到,除了这些长期的改变,还有一些非时间因素的改变。例如用户购置了新电器导致用电量发生了突变;家庭聚会导致某一天的用电量很大;用户生病导致某几天的用电量低于预期,这些因素都会或多或少影响着模型的搭建。
2.3 对于窃电者的分析
当前大多数模型都是从用户的历史负荷数据来进行建模,這种方法的好处是能清楚的了解大多数用户的用电习惯,从而找到异常用电的个体,但是缺点是由于数据集不平衡特征的制约,没有办法详细的分析窃电者的特征。我们可以参考文献[4],引入对抗性学习,充分地考虑了供电公司与窃电者之间的博弈,分析窃电者攻击方式与攻击策略的选择,还可以把同一区域内用户之间的关系引入到模型之中,这样更加有利于判断窃电者所在的区域。或者参考文献[1],搭建窃电者模型去预测窃电者的窃电时间与窃电方式。
2.4 模型的泛化能力
不同的数据集记录的用电数据大不相同,其数据的格式、记录的特征数目、用户所在的地理位置、用户生活习惯、当地的季节更替时间都不同,因此仅通过一个数据集得到的模型其泛化能力是极为有限的,解决这一问题有两个方向:一是获得更高质量,具有代表性的数据集,使其得到的模型也具有更强的代表性;二是在使用相同的计量设备的不同地区,获得的用电数据,通过这些数据去进行综合性的分析。
3 结论
综上,目前有关于异常用电行为的研究大多数聚焦于利用不同的机器学习手段从数据集中发现潜藏的异常用电数据。机器学习的各种算法已经趋于成熟但是仍在不断地有性能更强的算法出现,例如近些年来,在面对大数据处理时,深度学习这一领域的算法已经越来越展示出在大数据下的优越性能。因此异常用电检测领域也会随着算法的更新和更高质量的数据集的出现而不断更新。除了机器学习领域和统计学的应用,博弈论与异常检测的结合也会在异常用电检测领域发挥更大的作用。
参考文献:
[1]陈启鑫,郑可迪,康重庆,皇甫奋宇.异常用电的检测方法:评述与展望[J].电力系统自动化,2018(17):189-199
[2]??igo Monedero,Félix Biscarri,Carlos León,Jesús Biscarri,Rocío Millán.MIDAS: Detection of Non-technical Losses in Electrical Consumption Using Neural Networks and Statistical Techniques[J].Lecture Notes in Computer Science Computational Science and Its Applications - ICCSA 2006,2006(05):725-734.
[3]赵文清,沈哲吉,李刚.基于深度学习的用户异常用电模式检测[J].电力自动化设备,2018(09):34-38.
[4]Daisuke Mashima,Alvaro A.Cárdenas.Evaluating Electricity Theft Detectors in Smart Grid Networks[J].International Workshop on Recent Advances in Intrusion Detection,2012:210-229.
[5]张铁峰,张靖.k_means两阶段用电异常检测方法[J].电力科学与工程,2018(12):25-31.
[6]王桂兰,周国亮,赵洪山,米增强.大规模用电数据流的快速聚类和异常检测技术[J].电力系统自动化,2016(24):27-33.
[7]赵莉,候兴哲,胡君,傅宏,孙洪亮.基于改进k_means算法的海量智能用电数据分析[J].电网技术,2014(10):2715-2720.
作者简介:张纹硕(1995-),男,吉林长春人,研究生在读,研究方向:机器学习在电力系统的应用。