基于EMD 的异常用电检测方法
2022-04-15舒一飞刘兴杰康洁莹刘鹏樊博
舒一飞,刘兴杰,康洁莹,刘鹏,樊博
1. 国网宁夏电力有限公司 营销服务中心,宁夏 银川 750002
2. 宁夏大学 电气工程及其自动化系,宁夏 银川 750021
居民用户异常用电不仅会造成电网输配电损失,破坏正常的经济秩序,而且存在一定的安全隐患。通常,对于异常用电的检测主要依靠技术人员现场排查,费时费力,且无法避免网络和通信中一些高级手段的应用[1-2]。
随着技术的发展,利用用电信息采集系统采集海量用户数据,使得开展数据驱动的异常用电检测、准确识别成为可能[3-4]。对此研究人员提出了多种异常值检测方法,主要涵盖监督学习和非监督学习两方面。监督学习通过训练集来学习分类器,常用方法有K 近邻、支持向量机、极限学习机、深度卷积神经网络等算法,这类方法准确率较高,但在实际业务中,若训练集较少,可能影响分类的准确性[5-12]。非监督学习不使用样本标定信息,通常采用K-Means、模糊C 均值以及谱聚类等算法对数据进行聚类,分析各类用户的用电行为,适用于初期尚未构建异常数据集时的检测,但这类方法对参数的依赖性较强[13-16]。
由于异常用电行为具有特定的时频特性,这种特性必然引起线损数据发生异常,使其具有相应的时频特性,且与嫌疑用户的用电数据产生时频关联。因为该时频特性往往具有强随机不确定性,固定参数相关的分析方法无法很好地处理此类数据。经验模式分解(EMD)方法是一种自适应处理方法,不需要预设基函数和参数,且不需要带标签的数据集。另一方面,经EMD 分解能够得到有限个基本模式分量(intrinsic mode function,IMF)和剩余分量(residual component,RES),这些IMF 能够突出原始数据的局部特征,有利于发掘数据内部特有的时频特征。EMD 已被证明在很多方面的应用效果皆优于其他信号处理方法[17-19]。
为此,将EMD 方法应用于电力系统异常用电检测中,提出一种基于EMD 的异常用电检测方法。首先,针对供电线路中可能存在大量的小电量零电量用电户的情况,给出了一种初步筛选方法,以提高检测效率;采用EMD 方法对筛选用户的用电量和线损电量时间序列进行自适应分解,获取对应的基本模式分量;进一步提取EMD 分解所得高频分量,通过对其变化趋势和相关性进行分析,最终标定异常用电用户。采用该方法对现场实采数据进行了分析计算,验证了其有效性。
1 基于EMD 的异常用电检测方法
1.1 EMD 简介
经验模态分解方法是美籍华人Huang 提出的Hilbert-Huang 变换的核心内容,其分解方法是基于以下假设条件:
1)数据至少有2 个极值,一个最大值和一个最小值;
2)数据的局部时域特性是由极值点间的时间尺度唯一确定;
3)如果数据没有极值点但有拐点,则可以通过对数据微分一次或多次求得极值,然后再通过积分来获得分解结果。
可见,这种方法的本质是通过数据的特征时间尺度来获得本征波动模式IMF,然后分解数据。在这一过程中,特征时间尺度及IMF 的定义都具有一定的经验性和近似性。与其他信号处理方法相比,EMD 方法分解所用的特征时间尺度是源自于原始信号,具有后验性和自适应性。这种基于EMD 的时频分析方法既适合于非线性、非平稳信号的分析,也适合于线性、平稳信号的分析,并且对于线性、平稳信号的分析也比其他的时频分析方法更好地反映了信号的物理意义。
1.2 基于EMD 的异常用电行为检测流程
采用EMD 方法对用户异常行为进行分析,具体流程如图1 所示。
图1 基于EMD 的异常用电行为检测流程
由于通信失败和设备故障等原因,可能导致抄表时出现数据缺失、数据错误等问题,因此必须首先对从关口表和各用户电能表获取的计量数据进行预处理,包括查漏补缺和数据更正。如对缺失数据使用插值进行补充,全零数据直接进行剔除等。计算得到总供入电量qSi(i为时间采样点,i=1,2 ,···,M)、总损耗电量qLi和各用户消耗电量qKi(K为用户编号,K=1,2, ···,N)的时间序列。
当进行线损分析时,主要以变压器为单位(包括公变用户和专变用户),其用户数量相对较少且电量一般较大,可直接对此类用户在EMD 分解之后进行异常用电分析。而针对公变台区用户数量较多且存在零电量和低电量用户亦较多的实际情况,直接对此类用户进行EMD 分解将导致计算量大增且排查效率低下。考虑到除了暗线跨越表计外,用户的异常用电量与其用电量一般成比例关系,且总损耗电量相关性强,故本文提出预先采用相关性和用户用电量等指标相结合的方法对高损公变台区用户的异常用电初步筛选,以提高检测效率。具体筛选过程如下:
4)将对应的位次相加作为最终排序结果;
5)提取排序前5%用户作为初筛用户。
对初筛用户进行进一步EMD 分析筛查,若未发现嫌疑用户,则扩大排查比例直至发现嫌疑用户。对于用户数较少的情况,如小于10 个,可以将所有用户都标记为嫌疑用户,直接进行EMD 分析。需要指出的是,当线路所带变压器较多且存在较多小电量用户时,也须预先采用上述方法进行初步筛选。
EMD 的目的是将组成原始信号的各尺度分量不断从高频到低频进行提取,得到频率由高到低排列特征模态函数。能量大的高频分量代表原信号的主要特性,是最主要的组成分量。因此,根据EMD 方法对筛选所得用户的qKi和qLi进行分解,提取分解所得基本模式分量中的高频分量,通过其变化趋势和相关性指标分析标定嫌疑用户。
2 算例及分析
2.1 算例1
某段线路由A、B 和D 这3 个专变用户和1 个公变台区C 组成,供出为某10 kV 变电站关口。利用采集系统每隔6 h 进行一次线损计算,连续观察一个月,其线损曲线图2 所示。
图2 线路线损率曲线
从图2 中可以看出,该10 kV 线路日线损率在5%~25%波动,而正常线损率应在5%以下,故存在异常用电行为。
由于该段线路仅有4 户用户,不需进行初筛,直接对这4 户的电量qKi和 线损电量qLi进行EMD分解,得到若干IMF 和RES 分量。根据所得的EMD 结果,首先计算了各IMF 和RES 与其原始时间序列的Pearson 互相关系数,结果如表1 所示。
表1 EMD 分解后各分量和原信号的Pearson 互相关系数
由表1 可见,各用户电量EMD 分解后的高频分量(HIMF)与原信号相关性最强,都在0.77 以上;而中低频分量的相关性在0.3 以下,即高频信号占据了原始信号的主要成分,能体现原始信号的主要特性。因此,对高频信号进行分析即可有效揭示原信号的性质和关联性。为此,进一步绘制了用户的qKi和 线损电量qLi经EMD 分解后的高频分量对比结果,如图3 所示。图中SHIMF 为线损电量时间序列EMD 分解后的高频分量。
图3 各用户和线损电量EMD 高频分量对比
从图3 可以看出,D 用户用电量的时频变化与线损的时频变化具有高度一致性,说明该线路的线损产生与D 用户密切相关。经现场监测排查,D 用户存在异常用电行为。
2.2 算例2
为了进一步验证所提算法的有效性,对另一高损公变台区进行了分析。该公变台区有92 个用户,台区日线损率如图4 所示,均处于15%~25%,显然存在有异常用电行为的用户。
图4 某公变台区日线损率
对于此类公变台区,由于用户数量较多,且存在零电量用户和低电量用户,直接采用EMD 方法低效且意义不大,故采用互相关性和用户用电量相结合的方法进行初步筛查。
为此计算得到了各用户日均用电量,如图5所示,同时对用户qKi线 损电量qLi的Pearson 互相关系数进行了计算,结果
图5 各用户日均用电量
图6 各用户电量与损耗电量的Pearson 互相关系数
按照初步筛查方法对所有92 户用户进行排序,筛选出编号为1、2、30、49、50 的用户作为EMD 的对象。提取各用户经EMD 处理后的高频分量,并进行归一化处理(各高频分量序列除以该序列的最大值)。这是由于qLi和 用户电量qKi之间存在数量级差别,归一化能够更清晰地展示其相对变化趋势,结果如图7 所示。
如图6 所示。
图7 归一化的各用户高频分量和线损高频分量
从图7 中可以看出,用户30 的高频分量在前30 d和线损高频分量高度重合,后30 d 出现显著差异;
用户49 的高频分量和线损高频分量波形重合度相对较高,而其余3 个用户的波形明显差异较大。经现场排查,用户30 和49 确为异常用电用户。
2.3 算例分析
算例1 中用户少、电量集中,数据为 h 平均用电量,算例2 中用户多、电量分散,数据为日均用电量。对比图3 和图7 可以发现,存在异常用电行为的用户,其用电量qKi和 线损电量qLi经EMD 处理后,高频分量的变化趋势在算例1 中几乎完全一致,而在算例2 中局部存有偏差。为此,进一步对2 个算例中的数据进行了讨论,计算了算例1 和算例2 中各用户qKi和qLi原始序列的Pearson 互相关系数(rOL,K),经EMD 分解得到的高频分量时间序列的Pearson 互相关系数(rhL,K),结果分别示于表2 和表3。
表2 算例1 的Pearson 相关系数
表3 算例2 的Pearson 相关系数
从表2 和表3 中可以看出,算例1 中用户D 的rOL,K和rhL,K均为最大;算例2 中用户49 的rhL,K最 高,而用户1 的rOL,K为最大,用户49 次之。用户49 和用户1 的rOL,K都较大,说明这两户的电量时间序列和线损电量的变化密切关联。我们知道,线损电量包含2 部分:一部分是技术损耗引起的,是固有的低频变化部分;另一部分是管理损耗,是由异常用电引起的,其变化频率与用户用电量及用户用电行为模式有关,往往呈现出高频变化,且随着用电量的波动呈一定比例波动。用户49 与线损的高频分量波形高度重合且rhL,K最高,说明存在异常用电行的概率最大。用户1 的rhL,K较小的原因应是由其电量变化与技术损耗变化趋势一致而引起的。
综上分析,可见若直接通过用户qKi和 线损电量qLi的相关性来检测异常用电用户,可能会形成误判。而通过对用户qKi和 线损电量qLi进行EMD 处理,分析其高频分量变化趋势及互相关性,可有效检测是否存在异常用电行为。同时,对比算例1 和算例2,不难发现,算例1 中数据颗粒度较细(h 间隔),其电量时间序列反映用户用电行为和特征的信息更丰富,EMD 分解后得到的高频分量在反映用户用电行为方面更清晰直观;而算例2 中,由于数据颗粒度较粗(d 间隔),导致很多随昼夜变化的用电行为和特征信息丢失,EMD 分解后得到的高频和次高频分量的波形识别度较算例1 有所下降。因此,颗粒度更细的数据更有利于分析异常用电。
3 结论
鉴于EMD 在数据处理中的优越性,提出了一种基于EMD 的异常用电检测方法,首先针对所分析对象的数据特点进行初筛,采用EMD 方法对筛选用户的用电量和线损电量时间序列进行自适应分解,提取其高频分量,通过对比高频分量变化趋势和相关性分析,标定异常用电用户。通过2 个实际案例,验证了所提方法的有效性,得到了如下结论:
1)经EMD 分解后的用户用电量高频分量与原信号相关性最强,体现了原始信号的主要特性。
2)对于用户数量多、用电量分散的公变台区用户,采用互相关性和用户用电量相结合的方法进行初筛,可有效提高排查效率。
3)存在异常用电行为的用户,其用电量和线损电量的高频分量变化趋势一致性强且Pearson互相关系数高。
4)较细的原始数据的颗粒度有利于提高所提检测方法的识别度。