基于混合神经网络的配电网用户窃电检测方法
2023-11-28成跃宇成国锋
成跃宇,成国锋
(国网江苏省电力有限公司扬州供电分公司,江苏 扬州 225009)
0 引言
用户窃电是指通过改变计量装置以达到少计或不计电能的欺骗性行为,恶意窃电不仅会造成电网公司的经济损失,更给电网系统的稳定运行与用电安全带来极大隐患[1]。及时准确地检测用户窃电行为,对于降低电网运行的非技术损失,保障电网的安全与效益至关重要。
目前配电网用户窃电检测技术的研究主要分为3种:基于状态估计、基于博弈论和基于机器学习[2]。近年来,随着智能电网的高速发展,AMI(高级计量架构)及智能电表得到了大量部署及应用,为基于机器学习的配电网用户窃电检测技术的发展奠定了坚实的基础。文献[3]提出了一种DBSCAN(基于密度的有噪声空间聚类)算法的用电量异常分析方法,通过对波动区间进行分簇,并计算异常用电的离群度,从而识别不同的用电模式。针对传统聚类分析算法在窃电用户识别时存在时间复杂度高、处理效率低的问题,文献[4]提出了RBF-LOF(重构数据对象球树模型局部离群因子)算法,该算法通过重构数据对象的结构、查询及搜索方式,有效提升了算法执行效率,重构后的用电数据通过DenseNet(密集连接卷积网络)算法实现了窃电检测。文献[5]采用了RDBN(实值深度置信网络)对用户用电量数据进行抽样特征提取,有效克服了数据处理过程中信息丢失的问题,并通过BPN(反向传播神经网络)进行训练分类,实现了用户窃电行为检测。文献[6]结合主成分与非线性自编码器的优势,提出了一种UAE(去相关自编码器)用于窃电特征的提取,提高了窃电检测模型的非线性特征提取及泛化能力。文献[7]针对窃电样本数量少,容易产生模型过拟合的现象,提出了三元组孪生网络模型,通过学习同类样本的相似性及异类样本间的差异性,保证了小样本条件下窃电识别的准确性。文献[8]在多个弱分类器的基础上提出了Boosting集成算法,通过依次迭代,提高了用电异常识别准确率。文献[9]通过对电能计量数据进行分析,构建了窃电用户状态指标及评价体系,并采用一种基于ELM(极限学习机)与SVM(支持向量机)相结合的窃电智能识别模型,对窃电用户的类别进行了判断,从而保证了更全面的稽查窃电用户。
尽管目前国内外学者对于窃电检测中的特征提取、模型优化进行了大量研究,但大多都是基于一维用电数据进行特征提取[10],很少采用二维图像作为分类特征的研究。文献[11]通过GASF(格拉姆角和)将一维用电数据转换为二维图像,并采用混合卷积神经网络提取一维用电数据、二维图像数据特性,提升了用户窃电检测精度,但该文献未考虑到不同用户的用电性质、用电区域、经济指标等带来的用电规律的差异性,导致模型可能存在泛化能力不足的问题。针对上述问题,本文提出了一种基于混合神经网络的配电网用户窃电检测方法。首先,采用MTF(马尔可夫变迁场)将实际用电量数据从一维用电数据变换为二维用电图像,有效增强了一维原始数据的样本特征,并采用人工赋值和one-hot(独热)编码相结合的方法对用户用电档案数据进行预处理;其次,采用混合神经网络分别对预处理后的二维用电图像、档案数据进行特征提取、融合,以实现配电网用户窃电检测。最后,通过对比实验结果表明,本方法在配电网用户窃电检测问题上相较于其他传统模型具有更优的检测性能。
1 数据预处理
1.1 用户用电行为分析
从开放的数据集中选取一个正常用户和一个窃电用户,以周为周期绘制典型用户用电曲线图,如图1和图2所示。
图1 正常用户用电量曲线图Fig.1 Power consumption curves of normal users
如图1所示,正常用户每周用电量数据总体上呈现出以星期为周期的规律变化,即每周三的用电量数据达到最大,周四、周五用电量有所降低,周日达到最低。图2所示的窃电用户前两周用电量较少,后两周用电量普遍升高,有别于正常用户的用电习惯,每周用电量数据周期性较小,甚至没有规律可循[12]。因此,可通过机器学习模型捕捉用户历史用电数据之间的长期依懒性,学习用电量数据中潜在的用电规律并自动提取特征,从而实现正常用户与窃电用户的有效区分[13]。
1.2 数据清洗与缺失值处理
用户的用电数据在采集过程中,会存在部分数据缺失或重复的问题。为了保证输入模型数据的可靠性,必须对采集的用电数据进行清洗和缺失值处理,以提高模型的计算效率和准确性。
数据清洗流程:对于缺失值较多的(例如:用电数据中连续缺失超过6 天)的用户直接删除;对于日电量不连续、各时段电量数据畸变的用户予以剔除[14]。
缺失值处理:对存在少数缺失值的情况,为了提高建模的可靠性,采用拉格朗日插值法对缺失数据进行插补。提取缺失点前后各5个数据,采用式(1)—(2)完成数据补充。
式中:r为缺失数据对应的下标;ri为缺失数据yi的下标序号;Ln(r)为补充数据;li(r)为拉格朗日多项式。
1.3 用电数据图变换方法
为了保留用电数据的幅值相关性及时序依赖性,并增强正常、窃电用户用电数据的特征差异性,本文采用MTF将一维用电数据构建为二维用电图像。
MTF是通过马尔可夫迁移概率来表达一维时域数据中保存的信息的方法。假设用户n天内的用电量时间序列为X={x1,x2,…,xn},其中xi(i=1,2,3,…,n)为第i个用电量数据。首先,将用电量序列X进行归一化形成新序列͂。然后根据用电量取值将数组͂划分到Q个区域中,使每个用电量数据都能映射到一个qj(j=1,2,…,Q)。然后,计算各qj之间的转移概率,构造一个维度为Q×Q的MTF矩阵V[15]。
然后,通过将每个概率按照时间顺序排列来扩展马尔可夫转移矩阵,从而得到n×n的MTF矩阵M。
最后,通过式(5)将数值分布在[0,1]的M矩阵中的每个元素映射到[0,255]像素值区间,使其变为二维图像。
式中:I(h,m)为图像第h行、m列的像素值;int(·)为取整函数。
1.4 档案数据处理
在发生用户窃电的情况下,用户用电量均呈现较低的状态,但不同的地理位置、经济状况、用户类别及电能表状态等因素均会使用户的用电规律呈现出较大差异性,导致难以形成普适性的技术方法。为提高窃电识别的准确性及模型的泛化性,本文引入了用户用电相关的档案数据,首先采用人工赋值或one-hot编码对档案数据进行预处理,再通过模型对预处理后的数据进行特征提取与融合,从而增强模型的通用性和准确性。
本文中主要采集的用电量档案数据详见表1。对于表1中的档案数据,采用one-hot编码或人工赋值的方式进行预处理。
表1 档案数据采集Table 1 The acquired file data
这里以负荷类型为例,采用人工赋值法进行处理。电网企业依据用户的用电性质将其分为商业用电、非居民照明(机关、物业管理、其他居民服务等照明用电)、非工业用电(含医院、幼儿园、学校等用电)以及居民生活用电。对不同负荷类型进行人工赋值,详见表2。
表2 负荷类型人工赋值Table 2 Manual load assignment
赋值后的数据,按照式(6)进行归一化处理:
式中:D为当前负荷类型;Dmin为负荷类型中的最小赋值;Dmax为该类中的最大赋值。
对于区域数据,可采用one-hot 编码进行处理,对不同省份设置不同编码,如表3所示。使用one-hot编码对所处地区这一档案信息处理时已经包含了归一化,无需按公式(6)再次进行归一化处理。
表3 地区编码Table 3 Region coding
依据上述方法,采用one-hot编码或人工赋值法完成海拔高度、电压等级、电表模式、运行时间以及经济指标等数据的预处理。
2 配电网用户窃电检测
本文提出了基于混合神经网络的配电网用户窃电检测方法,分别采用CNN-LSTM(基于卷积神经网络与长短期记忆网络)模型、MLP(多层感知器)模型对预处理后的二维用电图像、档案数据进行特征提取,并通过特征融合模块完成特征融合,最后基于全连接层对融合后的特征进行窃电判断。具体的窃电检测流程如图3所示,下面将对各检测模块进行详细介绍。
图3 配电网用户窃电检测流程Fig.3 Electricity theft detection process of distribution network users
2.1 特征提取
2.1.1 CNN-LSTM
CNN(卷积神经网络)作为一类深度前馈神经网络,因其强大的特征提取能力,广泛应用于图像、音频以及自然语言处理等领域[16]。考虑到用户用电量数据的时序性,若单独使用CNN模型进行特征提取,只能提取序列局部特征,忽略了数据间的长期依赖性[17]。因此,本文提出采用CNN与LSTM(长短期记忆网络)模型相结合的方式对MTF变换后的二维用电图像进行特征提取,具体步骤为:先将二维用电图像输入CNN层,提取用电图像的局部时序特征;再将CNN层的输出作为LSTM 层的输入,利用LSTM 对时序特征的长期依赖性进行捕获。CNN-LSTM的模型结构如图4所示。
图4 CNN-LSTM网络结构Fig.4 CNN-LSTM network structure
CNN 层主要是利用权重共享和局部连接来实现时序数据的深层特征提取[18],本文采用的CNN层由3层卷积层和1层池化层组成。其中,卷积层为2D 卷积,使用ReLU 作为激活函数;池化层采用最大池化方法。将二维用电图像输入CNN 层,采用Sigmoid激活函数得到输出HC。
数据输入具有3 层卷积和1 层池化层的CNN层,需进行如下特征变换:
CNN层最终输出:
式中:C3为第3 层卷积层输出;I为经MTF 变换后的二维用电图像;P为池化层输出;W3为第3个卷积核;w为权重;B为偏置向量;b1、b2、b3均为偏差;⊗为卷积运算。
LSTM 层具有不错的记忆非线性时间序列数据的能力[19],是RNN(递归神经网络)的改进版本之一,能很好地解决RNN 存在的梯度爆炸问题。将CNN 层输出HC的时间序列作为LSTM 层的输入,输出ht:
式中:ht为t时刻的输出,则LSTM隐藏层的输出H=[h1,h2,...ht-1,ht]。
2.1.2 MLP
MLP 作为神经网络最基础的结构,因其具有结构简单、非线性拟合度高、泛化能力强等特点,在模式识别、智能机械人、自动控制等领域得到广泛应用。 将归一化后的档案数据G=(g1,g2,...gλ)输入MLP 中,其中gi(i=1,2,…,λ)为λ维,分别表示省份、海拔高度、电压等级、负荷类型、电表模式、安装时间、经济指标等参量。
对于L层的MLP,包含如下一系列的特征变换:
式中:σ是激活函数,这里表示ReLU函数;S1为MLP 模型第一层隐含层的输出;SL为第L层隐含层输出;w1和wL-1为权重;e1和eL-1为偏差。
2.2 特征融合
上述特征提取模型分别从用户二维用电图像及档案数据中提取得到用户用电行为的深度特征,为了让模型同时学习这两类特征,将两类模型的输出特征进行拼接,融合成新的特征Njoint。
式中:H和SL分别为通过CNN-LSTM 模型、MLP 模型获取的特征张量;Hm和分别为H、特征张量的第m、n个元素;fjoint(·)为拼接函数,即将H、SL这两个特征张量进行维度拼接;m和n为两个张量对应的维度。
2.3 窃电用户判断
将融合后的新特征Njoint输入到的全连接层进行非线性特征学习,全连接层神经元数量定义为64,最后通过Sigmoid函数计算得到窃电概率。当窃电概率大于0.5 时,判断该用户存在窃电行为;否则,判断该用户为正常用户。
3 实验验证
为验证本方法的性能,以开放的数据集作为实验数据,该数据集中包含42 372位用户1 035天的真实用电量数据,其中正常用户38 757 户,窃电用户3 615 户。从数据集中选出4 000 个用户数据作为实验样本,其中正常用户2 000户,窃电用户2 000户,选取样本的70%作为训练样本,30%作为测试样本。
3.1 评价指标
目前用于衡量分类模型性能评估优劣的相关评价指标有:准确率fc、查全率fp、精确率、F1-score、ROC(接受者操作特征)曲线下面积fAUC。其中fc、fp、精确率、F1-score等指标用于评估分类方法的精确性,fAUC用于评估分类方法的泛化能力。为综合评定本方法的性能优劣,本文选用fc、fp和fAUC作为模型的评价指标。
fc表示分类正确的样本数占样本总数的比例,fc越接近于1,表示模型的分类效果越好。
式中:MTP表示分类为窃电用户,实际也为窃电用户;MFN表示分类为正常用户,实际为窃电用户;MFP表示分类为窃电用户,实际为正常用户;MTN表示分类为正常用户,实际也为正常用户。
fp又称召回率,表示分类正确的窃电用户数占实际窃电用户总数的比例。fp越高,表示实际正样本被分类的准确率越高。
ROC 曲线以fp(计算公式见(13))为纵坐标,误检率fR为横坐标,通过修改诊断阈值获取(fp,fR)数组来进行构建。fAUC是ROC 曲线的量化,该值越接近于1,则模型分类性能越佳。首先,采用双正态拟合获取ROC 曲线,然后由式(15)计算出fAUC估计值。
式中:ϕ代表标准数据正态分布函数;a和b是双正态模型的两个参数,a表示窃电用户和正常用户试验结果的标准化均数之差,b表示窃电用户和正常用户的标准差之比。
3.2 结果与分析
为充分验证本文所提出算法模型的有效性和精确性,进行了两组对比实验。第一组即基于同一数据集(一维用电量数据集),选择CNN、LSTM、CNN-LSTM 算法进行窃电用户检测,以验证不同算法模型在时序序列上特征提取的有效性。同时,还选取了SVM、RF(随机森林)模型作为深度学习模型、联合学习的模型的代表进行了对比实验,对比实验的结果详见表4。第二组对比了一维用电量分类模型(1D-CNN-LSTM)、MTF 变换后的二维用电图像分类模型(MTFCNN-LSTM)、HCED-GASF(基于层次复杂事件检测-格拉姆角和)模型[11]和本文所提出的混合神经网络分类模型(MTF-CNN-LSTM+MLF)的分类性能,对比实验的结果详见表5。
表4 各模型性能对比Table 4 Performance comparison of multiple models
表5 基于不同输入形式的模型性能对比Table 5 Comparison of model performances based on different inputs
从表4可知,本文提出的CNN-LSTM模型在fc、fp和fAUC这3 个性能指标上分别为0.901、0.911和0.916,明显均优于其他检测模型。可见,CNN与LSTM相组合的特征提取方式,更有利于正常、窃电用户的特征差异化提取。同时,对比CNN、CNN-LSTM 与LSTM、SVM、RF 3 个模型的评估结果,可见,CNN、CNN-LSTM 模型在检测性能上均相对较优,主要考虑是因为CNN模型在时序序列上具有更优的特征提取能力。
由表5可知,MTF-CNN-LSTM模型的性能明显优于1D-CNN-LSTM 模型,这是因为只采用一维数据建模,无法兼顾用电量数据的全局非线性特征和时间序列上的相关性特征,而数据的二维变换可使模型在训练过程中,提取到更为全面的特征。通过对比不同模型的性能指标,本文所提出的模型相较于MTF-CNN-LSTM 模型、HCED-GASF 模型在fp上都有提升;考虑档案数据的加入,可有效预测出各地区正常用电量区间,该特征的融合可进一步提升模型的分类精度。
4 结语
为提高配电网窃电用户检测的准确率,本文提出了一种基于混合神经网络的配电网用户窃电检测方法。首先,通过对一维用电量数据进行MTF 图变换,增强窃电前后的特征数据的差异性,并通过人工赋值或one-hot编码对档案数据进行预处理。然后,采用混合神经网络分别进行特征提取,最后,将两类输出特征进行融合、训练,从而实现用户窃电识别。
通过对比实验结果表明,结果表明本文提出方法的识别fc、fp和fAUC可达0.95 左右,模型性能相较于SVM、RF、1D-CNN-LSTM、MTFCNN-LSTM 等模型,均有大幅提升,能更加准确地识别出窃电用户。