APP下载

基于分治策略的NP-MLSTM非侵入式负荷辨识方法

2021-10-28易灵芝黄其森刘文翰罗显光

电力系统及其自动化学报 2021年10期
关键词:类别准确率负荷

易灵芝,黄其森,刘文翰,赵 健,陈 章,罗显光

(1.湘潭大学自动化与电子信息学院&湖南省多能源协同控制技术工程研究中心,湘潭 411105;2.湖南省风电装备与能源变换2011协同创新中心,湘潭 411101;3.大功率交流传动电力机车系统集成国家重点实验室,株洲 412001)

智能用电是坚强智能电网的关键环节之一,是互动服务体系的核心内容[1]。非侵入式负荷监测[2]NILM(non-intrusive load monitoring)是电力需求侧管理的关键技术之一。该技术可以通过在电力用户的用电入口处统一安装计量仪表和采样装置来实时获得负荷设备的用电情况,从而识别出家庭中每个电器设备的类型和工作状态。对于普通居民来说,在线的NILM可以为基础用户合理规划用电,更改习惯以降低电费,减少不必要的电力消耗。对于电网公司而言,通过NILM可以帮助电网公司对负荷的种类、工作特性及功率等信息进行分析,从而更科学的制定动态电价和电力决策[3]。作为NILM的核心,国内外学者对负荷辨识方法做了很多研究[4-6]。基于监督学习的负荷辨识相关的算法诸多,文献[7]采用卷积神经网络模型进行非侵入式负荷特征提取,能够有效地进行负荷辨识,但对具有相似功率的线性负荷波形,会影响负荷辨识的准确度。文献[8]使用快速傅里叶变换FFT(fast Fouri⁃er transform)提取稳态电流低奇数次谐波的幅值和相位,使用bagging决策树BDT(Bagging decision tree)进行分类,在公开数据集PLAID上进行测试,准确度和H-mean值分别为92.8%和82.48%。基于非监督学习的负荷识别不需要家用电器负载的标签数据,提高了实际应用性,文献[9]提出了一种用于非侵入式监测的非监督训练方法,不需要收集各个用电训练数据和对用电设备贴标签,但仅可以使用少量设备中的数据来构建学习模型,识别准确度的浮动范围较广。此外,在对负荷辨识之前,对负荷数据类别不平衡问题的研究也十分重要,文献[10]提出一种SMB-SMOTE算法处理类别不平衡样本进而提高了长短时记忆LSTM(long short-term memory)网络分类器的分类效果,文献[11]采用基于边界的数据合成算法对负荷数据进行平衡化处理,通过改进的BP(back propagation)神经网络对不平衡数据有着不错的分类效果,但是在极端样本差距下,分类性能不够明显。

针对部分数据集负荷样本存在类别不平衡以及当前负荷辨识模型的精度不高等问题,本文提出了基于分治策略的NP-MLSTM非侵入式负荷辨识方法。该方法首先利用Mixup数据增强方法进行不平衡样本扩充,对选取的特征变量进行核典型关联分析 KCCA(kernel canonical correlation analy⁃sis),以便选择负荷辨识的最佳匹配特征,然后采用分治策略构建二分类多层长短时记忆NP-MLSTM(negative and positive multi-layer long short-term memory)网络模型,最后将模型在公开数据集PLAID上进行实验验证。

1 相关概念及技术

1.1 不平衡样本增强方法

通常非侵入式负荷曲线的获取需要经过开关事件检测、负荷分离这两个步骤,而分离后的电流曲线将作为负荷辨识的实验样本,由于用户用电不规律将导致电力负荷类别不平衡[12]。而数据类别不平衡将会产生训练淹没现象,即大类样本影响小类样本,导致小类样本特征训练不充分,进一步影响分类模型效果。针对此问题,本文使用数据增强方法Mixup[13]对负荷样本进行平衡化处理。

Mixup是基于邻域风险最小化原则VRM(vici⁃nal risk minimization)的数据增强方法,使用线性插值得到新的数据样本,具有计算开销小、能降低模型对已损坏标签的记忆、增强模型鲁棒性和稳定性。Mixup计算公式为

式中:(xi,yi)和(xj,yj)为从训练样本数据中随机抽选 的 两 组 样 本 ;为 增 强 后 的 新 样 本 ,且λ∈[0,1];λ~Beta(α,α),α∈(0,∞),超参数 α 限制特征目标之间的插值强度,一般取α=0.5。

本文以公开非侵入式负荷数据集PLAID中样本8为例,由于原始数据中该类样本数量大幅少于其他类别的样本,无法满足后续实验的要求,因此,本文采用Mixup方法对其进行样本扩充。如图1所示,随机从55个房间中抽取一组样本的电流(电压)数据,采用式(1)与第8类样本电流(电压)数据进行Mixup运算,得到新的第8类样本电流(电压)数据。通过式(2)计算原样本与虚拟样本的余弦相似度,可以得到新样本的电流(电压)波形与原样本相似度分别为99.54%、97.56%。因此,基于Mixup方法扩充数据样本可行性较高,能够为后续负荷识别提供充足且有效的数据支持。

图1 样本增强的电流电压波形Fig.1 Current and voltage waveforms of enhanced samples

式中,Ai和Bi分别为增强前与增强后的数据。

1.2 长短时记忆网络

长短时记忆网络[14]是一种特殊的递归神经网络,常用于文本标注、语音合成、数据预测等领域,但在非侵入式负荷辨识领域应用相对较少。该网络只需在输出层加入sigmoid函数即可应用于分类问题中。

LSTM神经网络的基本单元包括遗忘门、输入门及输出门,如图2所示。

图2 长短时记忆网络基本单元Fig.2 Basic unit of long short-term memory network

2 负荷特征分析

2.1 特征选取

选取合适的特征作为模型训练输入,能够增强模型泛化能力、防止模型过拟合。非侵入式负荷辨识领域最重要的数据特征为稳态特征、频域特征等,本文选取典型稳态电流(RawCF)、功率奇次谐波(HarmonicsF)、降采样电压电流(BinF)、V-I轨迹(BinaryF)4种特征作为备选特征,如图3所示。

图3 4种特征可视化Fig.3 Four types of feature visualization

典型稳态电流的计算方式是采用电流上升过零点的位置开始截断完整稳态电流,将所有周期内相应索引点的值累加求均值,得到典型稳态电流数据,计算公式为

二进制V-I轨迹的计算方式为:首先获取一个稳态周期下的电压、电流波形,构建 p×p维矩阵;然后将生成的图片划分q维度的网格栅栏;进一步将含有像素的网格栅栏指定为1,反之指定为0,得到q×q维只包含0与1的矩阵;最后将矩阵扁平化,得到q×q长度为的V-I轨迹特征变量。

上述4种特征变量均只能从单一维度反应负荷特征,因此本文将4种特征变量进行横向拼接,融合为一个新的特征向量,记为融合特征(AllF)。

2.2 相关性分析

相关性分析是指对样本中的特征变量与样本标签进行关联分析。在统计学中相关性一般指双变量间的相关性,而本文中特征变量与样本标签是多维变量与单变量之间的关系,无法直接计算相关系数。为了解决此问题,本文利用核典型关联分析[15]判别它们之间的相关性,其算法步骤如下:

通过上述步骤,计算出各特征变量与样本标签之间的相关系数,结果如表1所示。从表1中可以看出,各变量与样本标签之间均存在一定的相关性,可作为负荷识别的备选特征。

表1 各特征变量与样本标签的相关系数Tab.1 Correlation coefficients of each feature variable and sample label

3 基于分治策略的NP-MLSTM模型

单一特征并不能涵盖负荷数据中的所有特性,且将不同特征进行简单的特征融合也并不能适应各种样本类别。针对上述问题,本文在前文已解决数据集类别不平衡的工作基础上提出一种基于分治策略的非侵入式负荷辨识模型NP-MLSTM,模型结构如图4所示。

图4 基于分治策略的非侵入式负荷辨识模型结构Fig.4 Structure of non-intrusive load identification model based on divide-and-conquer strategy

NP-MLSTM模型具有能够将随机特征与对应的样本类别进行最优结合的特点,利用分治策略的思想将多分类问题转化为多层择优二分类问题。负荷辨识算法流程图如图5所示,其实现步骤如下:

图5 负荷辨识算法流程Fig.5 Flow chart of load identification algorithm

步骤1 将少样本类别数据利用Mixup方法增强虚拟样本数量,共有I种类别(即I层);

步骤2 提取样本中典型稳态电流、前11阶功率谐波、降采样电压及电流、二进制V-I轨迹,集成前四种负荷特征,共J种特征,并采用核典型关联分析方法验证这些特征含有相关性;

步骤3 随机选取一种类别的样本Ui,与剩余类别构建二分类LSTM模型,将Ui与J种特征(表1所列特征)遍历进行训练二分类LSTM模型,得到样本的准确率矩阵1×J;

步骤4 将除Ui以外的样本重复步骤3,直至完成所有类别的负荷识别,得到(I-1)×J维准确率矩阵A;

步骤5 对步骤3和对步骤4中得到的矩阵A进行融合,得到该层最终的准确率矩阵AI×J,并对其进行寻优,找到准确率最高的i、j,剔除该标签样本,并固定该层NP-LSTM结构;

步骤6 对剩余类别的样本重复步骤3-5,直至I层数据全部寻优结束,得到NP-MLSTM模型结果。

4 算例分析

本文采用即插即用设备标识数据集PLAID[16],该数据包含美国宾夕法尼亚州匹兹堡市55户家庭中11种不同类型的电器负载电流及电压测试值,共包含采样频率为30 kHz的1 074个实例样本。

由于该数据集样本类别数量存在不平衡现象,导致分类模型学习偏向于大类样本,对小类样本学习不足。因此,本文采用1.1节数据增强方法Mixup对数据集内55个房间中不同数据样本进行交叉扩充并保存小类别样本的虚拟样本。此数据增强方案既保证了不同房间的样本不会交叉影响,又确保了模型评价的准确度。样本增强前后各类别数量如图6所示。

图6 样本增强前后数量对比Fig.6 Comparison of the number of samples before and after enhancement

4.1 评价指标及模型参数

本文采用准确率(Accuracy)、精确率(Preci⁃sion)、召回率(Recall)及F1值(H-mean值)对分类结果进行多维度分析,分别按照式(14)至式(17)计算。

式中:TN表示实际为负,被识别为负的样本的数量;TP表示实际为正,被识别为正的样本数量;FP表示实际为负,但被识别为正的样本数量;FN表示实际为正,但被识别为负的样本的数量。

NP-MLSTM模型的基础参数设置如下:隐藏层神经元数为20个;学习率为0.000 3;损失函数0-1损失函数;训练批次大小为20;时间步长设置为1;迭代次数设置为1 000;优化策略设置为自适应动量的随机优化方法Adam(adaptive momentum)。

4.2 算法效果分析

为了验证本文所提基于分治策略的NP-ML⁃STM非侵入式负荷识别方法的有效性及优越性,首先从PLAID数据集中随机抽取35个房间内所有样本作为训练集、10个房间内所有样本作为测试集、剩余10个房间内所有样本作为验证集;然后使用训练集与测试集确定NP-MLSTM的各层优选样本标签及优选特征变量,如表2所示,接着,使用验证集进行NP-MLSTM负荷辨识实验。

表2 各层具体结构Tab.2 Specific structure of each layer

NP-MLSTM模型在验证集上负荷辨识结果的混淆矩阵如图7所示,主对角线颜色越深,表示样本识别的准确率越高。从图7中可以看出,所提模型能够正确识别绝大多数样本,且样本6、7、9、10、11全部识别正确。

图7 混淆矩阵Fig.7 Confusion matrix

各类别样本识别的准确率、精确率、召回率与F1值如表3所示。从结果可知,11种类别样本的平均准确率、精确率、召回率及F1值均达到92%以上,样本2、3、6、7、9、10、11类别的准确率与召回率可高达100%,说明本文所提模型具有较好的辨识准确率。出现极少部分样本错误识别的原因可能是由于电流、电压或其他特征相似程度高,且各类别样本数量不一致,或者是因为在某层二分类识别时将该标签错判。

表3 各类别样本的评价指标Tab.3 Evaluation indicators of various types of samples %

为了进一步体现NP-MLSTM模型负荷辨识效果的优越性,使用AllF特征作为对比实验的模型输入,将所提模型分别与朴素贝叶斯(naïve Bayes)、决策树(decision tree)、潜在狄利克雷分布(latent Dirichlet allocation)、回归分析(logistic)、随机森林(random forest)和长短时记忆网络等模型在验证集上进行辨识准确率对比,如表4所示。结果表明,在这些模型中,NP-MLSTM模型具有最高的辨识准确率,说明本文提出的基于分治策略的负荷辨识方法是卓有成效的。

表4 识别模型结果对比Tib.4 Comparison of results among different identification models

5 结语

本文针对不同类别负荷样本不平衡与负荷辨识准确率较低的问题,提出一种基于分治策略的NP-MLSTM非侵入式负荷辨识方法。该方法首先使用Mixup对数据集中小样本进行虚拟样本增强;然后使用核典型关联分析对各特征变量进行相关性分析,并构建基于分治策略的多层择优二分类识别模型;最后将该模型与多个识别模型进行结果对比。结果表明,该方法能够有效地选择用于负荷识别的最优特征变量,并利用这些特征获得了92%以上的识别精度。但本文未使用智能优化算法对模型超参数进行寻优,采用该算法可进一步完善此问题。

猜你喜欢

类别准确率负荷
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
防止过负荷时距离保护误动新判据
主动降负荷才是正经事
服务类别
负荷跟踪运行下反应堆一回路控制系统仿真与验证
论类别股东会
Savitzky-Golay在含冲击负荷短期负荷预测中的应用