APP下载

随机森林算法在窃电类别辨识中的应用研究

2021-07-29国网上海市电力公司市北供电公司张希鹏

电子世界 2021年13期
关键词:均衡性用电量分类器

国网上海市电力公司市北供电公司 张希鹏 齐 拯 刘 杰

上海交通大学 罗 津

随着智能电表等具备实时通讯的量测设备普及,电网公司累积了大量的用户用电数据。利用人工智能、大数据等技术通过对海量数据的深入挖掘,可以对窃电用户进行精准判别,有效降低窃电对电网公司收益等带来的损害。然而,当前研究主要针对用户是否窃电进行判断,缺乏对用户窃电类型的识别。基于此,本文提出了利用随机森林算法对用户窃电类别进行判断,针对窃电样本数据少且均衡性差的问题,采用基于少数类过采样技术进行样本扩充,提高样本的均衡性,进而提高窃电行为类别判断的准确性,为电网公司精准打击窃电用户提供技术支撑。

窃电行为的隐蔽性使得精准打击工作非常困难,传统依靠人工定时检查的方法不仅费时费力,还会由于部分窃电行为及设备的隐蔽性等使得人工定时检查难以发觉。窃电行为的发生,一方面造成了电网公司经济效益的损失,另一方面,可能会造成设备的损坏,甚至会引起供电可靠性的问题,更严重地可能造成短路进而引发火灾等。因此,针对窃电行为的精准打击,不仅具有重要的经济效益,还有更高的社会效益。

1 窃电行为识别标签

窃电行为识别不仅需关注用户用电量特征,其使用的窃电方法也是重要的数据特征。本文基于收集到的窃电方法,将其归类为:“表内接线或更换元件”、“进出线短路”、“绕越表计直接”、“表计打洞”、“伪造开启封印”、“一线一地”、“其它窃电行为”等。

在用户用电量特征方面,本文考虑总电量、平电量和谷电量不同用电时段用户用电量的中值度、平滑度、落差度等指标。以用户总用电量为例,给出用户用电特征指标,如公式(1)-(3)所示。其中,(1)为总用电量的平滑度;(2)为落差度;(3)为中值度。式中,Q表示用户用电量;表示用电量的平均值;r表示用户编号;t表示时刻编号;Δt表示数据采样间隔。

2 随机森林分类器

作为组合分类器,随机森林算法具有优异的噪声容忍度,本文选用随机森林算法对用户窃电行为进行辨识,整体流程如图1所示。首先,对采集到的数据进行预处理,包括缺失数据补全以及异常数据剔除;其次,基于用户用电量信息及窃电类别对电力用户用电行为进行画像;再次,基于少数类过采样技术对窃电样本数据等进行扩充增容;最后,利用扩充增容均衡后的数据代入到随机森林分类器中进行预测,分别采用C4.5算法和Forestes-RI技术对决策树的分裂节点和用户特征进行选取,基于大多数投票法对用户窃电行为进行判别。

图1 随机森林算法窃电行为判别流程图

3 验证结果分析

以某实际电网记录的窃电历史数据为例,其分布如图2所示。根据对所有窃电行为的统计与分类,发现类型最多的为“该表表内接线或更换元件”,是隐蔽性最大的行为,窃电记录达到了693条。而隐蔽性最小的“插U字”也比较多,记录达到100条以上。因此,将“该表表内接线或更换元件”定义为0,“插U字”定义为0.6,其他所有窃电类型定义为0.3,正常用户为1。原问题转换为四分类问题,输出结果可以得到每个类型的概率,根据每个类型对应的数字进行加权求和作为最终的分数。

图2 窃电行为计数统计

首先分析数据均衡性问题,对比利用少数类过采样技术前后测试集中数据的均衡性分布情况。其中,经过扩张后的数据集成绩分布如图3所示,未扩张的数据集成绩分布如图4所示。对比上述结果可以看出,经过少数类过采样技术扩充后的样本均衡性更好,对于各类窃电行为的划分更加精细和明确。而在未扩充的数据集中,各类样本的重叠度较高,难以区分不同的窃电行为。因此,扩充后的数据集更适合应用在随机森林分类器中,对用户窃电行为进行预测。

图3 在经过数据扩张的验证集上的数据分布

图4 在未经训练和数据扩增测试集上的成绩分布

进一步地,将上述经过少数类过采样技术扩充后的样本集应用于随机森林算法,对预测结果的统计如图5所示,考虑四分类问题下概率最高的情况作为分类结果。从上述结果可以看出,样本数量最多的“该表表内接线或更换元件”识别效果最好。同时,虽然其它窃电样本数量偏少,但仍然具有一定的辨识能力,具备在少量窃电样本情况下对用户不同窃电行为进行甄别的能力。

图5 在测试集上的分类结果

总结:窃电行为本身带来了经济社会效益的降低。本文利用电网公司累计的用电数据信息,结合少数类过采样技术的随机森林智能识别算法对窃电行为进行判别。算例结果表明,本文所用少数类过采样技术能够有效地提高扩充数据的均衡性,进而有效地对窃电行为进行甄别,提高窃电行为检测的效率。

本文受到国网上海市电力公司“基于用电大数据的用户辅助授信系统研究”资助。

猜你喜欢

均衡性用电量分类器
02 国家能源局:1~7月全社会用电量同比增长3.4%
01 国家能源局:3月份全社会用电量同比增长3.5%
9 月份全社会用电量同比增长6.8%
京津冀全域旅游供需系统构建及均衡性研究
国家能源局:3月份全社会用电量同比下降4.2%
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
均衡性原则司法适用解读及适用路径的精致化构造——以四个案例为出发点
着力破解基层民主“非均衡性”的困境
政府间均衡性转移支付绩效评价体系构建