APP下载

用电异常行为预警方法

2022-05-30万伟刘红旗孙洪昌张峰王洋孙伟卿

哈尔滨理工大学学报 2022年4期
关键词:支持向量机

万伟 刘红旗 孙洪昌 张峰 王洋 孙伟卿

摘要:针对窃电、滥用电等用户异常用电行为给电力公司造成了巨额的经济损失的问题,通过数据驱动方法,利用区域内居民用户日负荷数据分别从横向与纵向两个层面,对用户用能行为进行定量的综合评分,进而识别用户异常用电行为。首先,建立K-Means和SVM分类模型,將单个居民日负荷数据与周边具有相似用电行为的居民进行比较,用于生成用户用电行为评价的横向评分。其次,利用LSTM模型建立用户负荷预测模型,实现与自身历史用电行为的对比,生成用户用电行为评价的纵向评分。最终,通过设定权重进行综合评分。当评分低于一定阈值时进行预警。算例部分利用30个用户4年数据对提出方法进行验证,横向评分结果准确率达到99.9%以上,纵向评分的拟合优度达到95%以上,验证了方法的准确性。

关键词:用电异常检测; 长短期记忆网络; K-Means; 支持向量机; 用电评分

DOI:10.15938/j.jhust.2022.04.008

中图分类号: TM71

文献标志码: A

文章编号: 1007-2683(2022)04-0053-10

Early Warning Method of Abnormal Electricity

Consumption Behavior Based on Data Driven

WAN Wei LIU Hongqi SUN Hong-chang ZHANG Feng WANG Yang SUN Wei-qing

(1.Heze Power Supply Company of State Grid Shandong Electric Power Company, Heze 274000, China;

2.Department of Electrical Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

Abstract:In view of the huge economic losses caused to power companies by abnormal power consumption behaviors of users such as stealing and abusing electricity, based on data driven method, the daily load data of residents in the region is used to score the users′ energy consumption behavior quantitatively from the horizontal and vertical levels. Firstly, based on K-means and SVM (Support Vector Machine) classification model, the daily load data of individual residents data are compared with those of residents with similar electricity consumption behaviors to generate the user′s horizontal score. Secondly, the user load forecasting model is established by using LSTM (Long Short-Term Memory) model to realize the comparison with their own historical electricity consumption behavior and generate the users vertical score. Finally, according to the set weight, a comprehensive score is made. When the score is lower than a certain threshold, early warning is given. The proposed method is verified by the data of 30 users for 4 years, the accuracy of horizontal score is more than 99.9%, and the goodness of fit of vertical score is more than 95%, which proves the feasibility of the method.

Keywords:detection of abnormal power consumption; long short-term memory; K-Means; support vector machine; power rating

0引言

我国电力公司电量自动化管理技术相对匮乏,造成了窃电等异常用电行为多发,给电力公司带来了巨大的经济损失,同时也扰乱了市场经济秩序[1]。近年来,随着电力体制改革,电力企业逐渐认识到提高电量管理水平、加大反窃电打击力度、强化电网自动化运营能力,才能保证电网安全生产,获取更大的经济效益[2]。减少非技术损失对电力公司而言至关重要,非技术损失是指配电网侧电力用户窃电等一系列欺骗性用电行为所导致的电能损失[3]。传统异常用电检测主要依靠人工现场排查,效率低、易出错且效果差[4]。随着技术发展,一些新型方法被应用于异常用电行为检测,如窃电表箱表柜、数据比对等[5]。虽然这些方法具有一定成效,但由于资金投入大、技术变化落后于窃电手段、不能及时发现异常用电行为。因此,有必要开展集成多智能分析方法的用电模型及窃电行为精准判别技术,实现常态化窃电行为分析预测和快速精准判定功能。

针对用电异常行为的检测及判别技术,文[3]选取支持向量机(SVM)进行异常检测,并通过遗传算法求出针对不同用户的最优参数,以提高用户异常检测率。文[6]将综合遗传算法和SVM用于检测用户侧的非技术损失用电。文[7]基于不同城镇历史用电數据,挑选最优负荷特征组合,采用SVM进行离线检测。文[8]\利用皮尔森相关系数检测以负荷骤降为特征的非技术损失,通过贝叶斯网络和决策树检测其他类型的非技术损失。通过贝叶斯算法和决策树提取用户用电行为特征,并通过两种算法结果对比,选取最优方法检测非技术损失。上述文献主要通过分类等监督学习的方式实现对用户异常用电行为检测。文[9]基于K-Means和决策树算法设计异常用电行为分析系统。文[10]提出基于模糊聚类的居民用电负荷模式识别以检测异常用电。上述文献主要通过聚类等非监督学习对用户异常用电行为检测。

目前研究普遍直接对用户用电量数据进行聚类、分类,没有考虑用户用电行为的多样性,因此存在一定局限。本文所提出的方法是利用区域内居民用户的每日数据(天气、温度、湿度、用电量)分别从横向(与周边具有相似用电行为的居民作比较)、纵向(与自身的日常用电行为作比较)两个对比层面对区域范围内用户的用能行为进行定量综合评分。首先,基于K-Means和SVM分类模型,将居民日负荷数据与周边具有相似用电行为的居民进行比较,用于横向评分。其次,利用长短期记忆网络(LSTM)建立用户负荷预测模型,实现与自身历史用电行为的纵向对比,用于纵向评分。最终,根据权重进行综合评分。当用户综合评分低于一定阈值,则判定用户存在异常用电行为,通知工作人员进行实地考证,从而提高异常用电检测效率、有效打击窃电行为,减少经济损失。

1用户异常用电行为预警方法

本文所提出的基于数据驱动的用电异常行为预警方法流程图如图1所示。

首先假设经过排查后,目前系统中用户用电行为均为正常,基于正常用电数据进行建模,再将模型投入日常运行中进行异常用电识别。系统于第t+1天凌晨收集第t天完整的用户负荷及外部环境数据。根据收集的数据对第t天用户用电行为评分,并为第t+1天的模型做数据准备。

对于横向评分模块,利用K-Means算法将所有用户历史日负荷数据进行聚类,确定用户的用电行为,并给出每种用电行为聚类标签。其次,将用户历史日负荷数据作为输入,用电行为标签作为输出,建立日负荷分类模型。在日常运行阶段,对每个用户日负荷进行分类,根据居民用户横向评分标准,对比同一类用户用能行为,给出横向评分。

对于纵向评分模块,利用LSTM算法对每个用户建立短时间尺度用电量预测模型。在日常运行阶段,对每个用户用电量进行实时预测,输入为前24小时的用户实际用电量,输出为第25小时的预测用电量。在第t+1天凌晨,整合第t天24小时的预测用电量和第t天24小时的实际用电量,根据居民用户纵向评分标准,评估单个居民用户第t天的用电情况是否符合其一贯用电行为,并给出纵向评分。

通过横向评分标准,对每个类别中用户用能行为进行评分,对用电量较少的用户给予较低的分数,提高其异常用电行为的可能性。但仅仅是横向评分不能排除用户一贯用电量较少的可能性,所以通过纵向评分,充分考虑了用户用电行为的多样性,弥补了横向评分的缺陷。当用户实际用电量偏离预测用电量一定范围后,说明存在较大异常用电行为的可能性。因此,结合横向评分和纵向评分建立居民用户用电行为综合评分。判断综合评分是否符合标准,若综合评分过低,则发出报警信号通知相关工作人员。

2横向评分机制

2.1K-Means算法

2.1.1K-Means原理

2.1.2聚类模型评价

2.2SVM

2.2.1SVM原理

2.2.2分类模型评价

2.3横向评分方法

首先,利用K-Means算法将所有用户经过归一化的历史日负荷数据进行聚类,将用户的用电行为进行分类,并对每种用电行为给出聚类标签。其次,将用户历史日负荷数据作为输入,用电行为标签作为输出,建立基于SVM的分类模型。建立分类模型,可在离线情况下将用户每天用电行为分类。通过对同一类别用电行为的横向对比,给出横向评分。图2与图3分别为用户行为分类流程图和用户横向评分流程图。

通过横向评分,对每个类别中用电行为进行评分,当用户用电量大于同类别用户平均用电量时横向评分为满分,随着用电量逐渐降低,其横向评分也逐渐降低,提高该用户异常用电行为的可能性。但是,仅仅是横向评分不能排除用户由于用电人数、用电习惯等一贯用电量较少的可能性。因此,需要纵向评分对该缺点进行弥补。

3纵向评分机制

3.1Embedding模型

Embedding本质是通过学习离散数据之间的关系,将One-Hot向量降维。

本文所采集的影响因素中天气为离散型数据。该类数据无法直接将数值输入模型,利用Embedding模型可以解决这一问题。

3.2LSTM模型

LSTM是一种基于循环神经网络(recurrent neural network, RNN)改进的神经网络算法,解决了RNN因“梯度弥散”而导致无法长距离传输的依赖问题[15-18]。

3.3纵向评分方法

3.3.1用电量预测模型

基于LSTM网络的用户用电量预测模型包括输入层、Embedding层、LSTM层、输出层,如图5所示。其中,输入层为多特征滚动窗口形式,考虑单个用户纵向24小时、4种数据特征:天气、温度、湿度、用电量,故滚动窗口大小为24×4的形式。由于天气是离散数据,因此首先经过Embedding层后,生成特征向量并与连续数据进行特征联合,形成LSTM层的输入向量。LSTM模型的输出层为第25小时内的用户用电量。

3.3.2预测模型评价

3.3.3纵向评分标准

在当日该用户实际用电量少于预测用电量的时段内,考虑到用电量预测模型存在5%的预测误差,则若实际用电量平均值少于预测用电量平均值的5%以内,此时纵向评分为满分。当实际用电量与预测用电量的比值越小,则纵向评分越低。通过与自身历史用电行为对比的方式,弥补了横向对比时可能存在该用电需求普遍较同类用户较低的问题。

4综合评分

5算例部分

本文选取30个用户用电数据,采样时间范围为2014年1月1日至2017年12月31日,采样间隔为1小时,包含天气、温度、星期、电价等特征,共有1051920条该数据。所采用的数据均已经过预处理,实验基于python3.7运行环境。

5.1横向评分

5.1.1分类模型

首先根据Elbow Method、Silhouette Coefficient与Calinski-Harabaz Index综合判定K值,结果如图6所示。

由图6可见,根据Elbow Method可知,聚类个数在2~3类之间。根据Silhouette Coefficient尽可能大的原则,选择聚类个数为2类。

根据聚类结果求取每类用电行为的平均曲线,如图7所示。通过聚类结果可以看出,两种用电行为的差异主要体现在14时~24时这段时间内。

聚类分析得到用户用电行为标签后,将用户历史日负荷数据作为输入,用户用电行为标签作为输出,采用SVM建立用户用电行为分类模型。其中将用户日负荷数据(共43830条数据)按9∶1比例划分为训练集(39447条数据)和测试集(4383条数据)。分类模型结果如图8所示。分类模型的数值评价指标如表4所示。

通过各级评价指标的结果,可以看出分类模型准确度高。由此模型对用户分类可靠性高,所得到的横向评分也更为可靠。

5.1.2横向评分结果

当每天用户实时日负荷数据被采集后,每个用户24个负荷点作为分类模型的输入,得到对应的类别输出。然后将同类用户进行比对,根据横向评分标准,给出横向评分。

本文随机选取了30名用户在测试集上第206天的用户日负荷数据。分别给出了30名用户的用电行为类别以及用户横向评分。

第206天用户用电行为标签如图9所示。

由圖9可见,用户16、17、19、23、24这5位用户的用电行为为第二类用电行为。其余用户均为第一类用电行为。30名用户第206天的横向评分如表5所示。

5.2纵向评分

5.2.1LSTM模型

利用30个用户数据(包括天气、温度、湿度、用电量)的数据进行分析。其中,用户用电量数据(共有35064条数据)按照9∶1划分为训练集(31558条数据)和测试集(3506条数据)。

首先,建立基于LSTM网络的用户用电量预测模型,进行用户用电量预测。其中,天气为离散数据,使用Embedding学习离散型数据后,生成特征向量并与连续数据用电量、温度、湿度进行特征联合,形成LSTM输入向量。LSTM输出层为第25小时内的用户用电量。模型的训练结果如图10所示。

利用测试集对该模型进行验证并针对用户用电量预测模型对比了主要参数(神经元个数、训练次数)对预测精度的影响,如表6所示。

由表6可以看出,当神经元个数为30个,训练次数为150次时,预测模型的最高预测精度可以达到95.1%,因此前文中纵向评分的误差阈值设为0.05。此外,参数的变动对于结果的改变不明显,说明模型结构稳定,且与输入输出契合。

5.2.2纵向评分结果

5.3综合评分

根据30名用户第206天的横向评分和纵向评分,给出30名用户第206天的综合评分。本文选用60为判定标准。当用户评分低于60,则判定该用户存在窃电嫌疑。

本文综合评分的修正系数α和β分别选取以下3种情况,系数α=0.1,β=0.9时,综合评分为Z1;系数α=0.5,β=0.5时,综合评分为Z2;系数α=0.9,β=0.1时,综合评分为Z3。30名用户第206天不同修正系数下综合评分,如表8所示。

在第1组修正系数α=0.1,β=0.9下,用户11、12、16、22、24这5名用户的综合得分明显偏低,所以存在极大的窃电嫌疑。在第2组修正系数α=0.5,β=0.5下,用户11、12、16、22这4名用户的综合得分明显偏低,所以存在极大的窃电嫌疑。用户3、14、20、22这4名用户的得分为60,也存在窃电嫌疑。在第3组修正系数α=0.9,β=0.1下,用户1、2、3、4、11、12、14、15、16、20、24这11名用户的综合得分明显偏低,所以存在极大的窃电嫌疑。

α与β分别代表着横向评分与纵向评分对于综合评分的重要程度。对比3组系数下的结果,当横向修正系数大时,用户的综合评分偏低,此时被判定为异常用电的用户比较多。当纵向修正系数较大时,用户的综合评分偏高,此时被判定为异常用电的用户较少。当横向修正系数和纵向修正系数取值适中时,被判定为窃电的用户是以上两种情况结果的交集。

文[19]指出数据驱动检测窃电行为无法得到推广的原因是误报率过高,供电企业的人力资源有限,无法频繁地进行实地稽查验证。另外,在电力企业的角度来看,窃电行为的杜绝并不是要将所有存在窃电的用户全部查处,而是精准地查处一部分窃电用户,以实现对其他窃电用户的震慑。所以电力企业追求的是低误报率。

综合考虑低误报率和窃电检测准确率的要求,在没有窃电的先验信息的条件下,选用参数为α=0.5、β=0.5较为合适。在有历史窃电数据的情况下,工作人员可以根据历史信息对α、β进行回归拟合。即以是否存在窃电为标签,以历史数据作为训练数据建立逻辑回归模型对横向评分系数和纵向评分系数进行拟合,得到适用于实际情况的修正系数。

6结论

本文利用区域内居民用户的实时动态数据(天气、温度、湿度、用电量)分别从横向、纵向两个对比层面对区域范围内用户的用能行为进行定量综合评分进行异常用电识别。

1)从横向(与周边具有相似用电行为的居民)作比较,本文建立K-Means-SVM分类模型,给出横向评分。

2)从纵向(与自身的日常用电行为)作比较,本文建立LSTM网络用户用电量预测模型,给出纵向评分。

3)在两个对比层面对区域范围内用户的用电行为进行综合评分。最后分析了综合评分修正系数对综合评分的影响。并给出了横向评分系数和纵向评分系数的确定方法,即在没有窃电的先验信息的条件下,选用参数为α=0.5、β=0.5较为合适。在有历史窃电数据的情况下,工作人员可以根据历史信息对α、β进行回归拟合,得到适用于实际情况的修正系数。

相较于传统的基于聚类、分类方式的用户用电行为异常识别,本文所提出的窃电识别方法综合考虑了影响用户用电行为的因素和用户用电行为的多样性,可以更加有效地对窃电行为进行识别。

参 考 文 献:

[1]张承智, 肖先勇, 郑子萱. 基于实值深度置信网络的用户侧窃电行为检测[J]. 电网技术, 2019, 43(03): 1083.Zhang Chengzhi, Xiao Xianyong, Zheng Zixuan. Electricity Theft Detection for Customers in Power Utility Based on Real-valued Deep Belief Network[J]. Power System Technology, 2019, 43(3): 1083.

[2]熊秋. 居民用电异常识别系统的研究实现[D].北京:北京邮电大学,2018.

[3]刘杰,侯跃斌,刘念.针对非技术性损失的智能用电异常检测方法[J].华东电力,2014,42(4):650.LIU Jie, HOU Yuebin, LIU Nian. Analysis System of Abnormal Behavior of Electricity Consumption Based on Big Data and Machine Learning[J]. East China Electric Power, 2014,42(4):650.

[4]杨铮宇.基于大数据和机器学习的用电异常行为分析系统[J/OL].电测与仪表:1[2021-01-05]. http://kns.cnki.net/kcms/detail/23.1202.TH.20200827.1730.042.html.YANG Zhengyu. Analysis System of Abnormal Behavior of Electricity Consumption Based on Big Data and Machine Learning[J/OL]. Electrical Measurement and Instrumentation,:1[2021-01-05]. http://kns.cnki.net/kcms/detail/23.1202.TH.20200827.1730.042.html.

[5]周興,高明涛,李维奇.一种具有防窃电功能的电力计量柜[J].农村电气化,2020(3):68.ZHOU Xing, GAO Mingtao, LI Weiqi. A Power Metering Cabinet with Anti Stealing Function[J]. Rural Electrification, 2020(3):68.

[6]NAGI J, YAP K S, TIONG S K, et al. Detection of Abnormalities and Electricity Theft Using Genetic Support Vector Machines[C]// TENCON 2008-2008 IEEE Region 10 Conference, Hyderabad, 2008:1.

[7]NAGI J, YAP K S, TIONG S K, et al. Nontechnical Loss Detection for Metered Customers in Power Utility Using Support Vector Machines[J]. in IEEE Transactions on Power Delivery, 25(2):1162.

[8]MONEDERO I,BISCARRI F,LEN C,et al.Detection of Frauds and Other Non-technical Losses in a Power Utility Using Pearson Coefficient,Bayesian Networks and Decision Trees[J] .International Journal of Electrical Power & Energy Systems,2012,34(1):90.

[9]ANGELOS EWS,SAAVEDRA OR,CORTS OAC,et al.Detection and Identification of Abnormalities in Customer Consumptions in Power Distribution Systems[J].IEEE Transactions on Power Delivery,2011,26(4):2436.

[10]庄池杰,张斌,胡军,等.基于无监督学习的电力用户异常用电模式检测[J].中国电机工程学报,2016,36(2):379.ZHUANG Chijie, ZHANG Bin, HU Jun, et al. Anomaly Detection for Power Consumption Patterns Based on Unsupervised Learning[J]. Proceeding of the CSEE, 2016, 36(2): 379.

[11]姚奇峰,杨连贺.数据挖掘经典分类聚类算法的研究综述[J].现代信息科技,2019,3(24):86.YAO Qifeng, YANG Lianhe. Research on Classical Classification and Clustering Algorithms in Data Mining[J]. Modern Information Technology, 2019,3(24):86.

[12]龙文佳,张晓峰,张链.基于k-means和肘部法则的业务流程聚类方法[J].江汉大学学报(自然科学版),2020,48(1):81.LONG Wenjia, ZHANG Xiaofeng, ZHANG Lian. Business Process Clustering Method Based on k-means and Elbow Method[J]. Journal of Jianghan University (Natural Science Edition) ,2020,48(1):81.

[13]尹世庄,王韜,谢方方,等.基于互信息和轮廓系数的聚类结果评估方法[J].兵器装备工程学报,2020,41(8):207.YIN Shizhuang, WANG Tao, XIE Fangfang, et al. Protocol Clustering Evaluation Method Based on Mutual Information and Contour Coefficient[J]. Journal of Ordnance Equipment Engineering, 2020,41(8):207.

[14]司守奎,孙兆亮. 数学建模算法与应用[M]. 北京:国防工业出版社, 2015.

[15]BENGIO Y, SIMARD P, FRASCONI P. Learning Long-term Dependencies with Gradient Descent is Difficult[J]. inIEEE Transactions on Neural Networks, 5(2):157.

[16]彭文, 王金睿, 尹山青. 电力市场中基于Attention-LSTM的短期负荷预测模型[J].电网技术,2019,43(5):1745.PENG Wen, WANG Jingrui, YIN Qingshan. Short-term Load Forecasting Model Based on Attention-LSTM in Electricity Market[J]. Power System Technology,2019,43(5):1745.

[17]陆继翔, 张琪培, 杨志宏. 基于CNN-LSTM混合神经网络模型的短期负荷预测方法[J]. 电力系统自动化, 2019, 43(8): 191.LU Jixiang, ZHANG Qipei, YANG Zhihong. Short-term Load Forecasting Method Based on CNN-LSTM Hybrid Neural Network Model[J]. Automation of Electric Power Systems, 2019, 43(8): 191.

[18]郭傅傲,刘大明,张振中,等.基于特征相关分析修正的GPSO-LSTM短期负荷预测[J].电测与仪表,58(6):39.GUO Fuao, LIU Daming, ZHANG Zhengzhong, et al. GPSO-LSTM Short-term Load Forecasting Based on Feature Correlation Analysis and Correction[J]. Electrical Measurement and Instrumentation,58(6):39.

[19]金晟,苏盛,薛阳,杨艺宁,刘厦,曹一家.数据驱动窃电检测方法综述与低误报率研究展望[J].电力系统自动化,2022,46(1):3.JIN Sheng, SU Sheng, XUE Yang, et al. Summary of Data-driven Power Theft Detection Methods and Research Prospect of Low False Alarm Rate[J]. Automation of Electric Power Systems,2022,46(1):3.

(编辑:温泽宇)

猜你喜欢

支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究