APP下载

基于深度聚类的居民用户电力负载模式识别

2022-09-01吴青筱王合宁仇浩宇结艺頔董骏峰

科技创新与应用 2022年24期
关键词:编码器聚类深度

吴青筱,王合宁,仇浩宇,结艺頔,董骏峰

(合肥工业大学 管理学院,合肥 230009)

在电力物联网的背景下,智能电表广泛应用于住宅小区,配备了测量和通信能力,能够记录细粒度的能源消耗的客户和提供额外的信息给公用事业公司[1]。通过挖掘智能电表记录的海量电力负载数据,识别住宅居民电力负载模式,可以帮助制定科学合理的机制,引导用户积极参与需求响应[2]。另外,对于电力公司来说,了解用户如何以及何时用电也是至关重要的[3]。因此,对住宅居民用电负载模式的研究具有十分重要的应用价值。

负载模式识别的核心是聚类,目前的研究以K 均值聚类算法(K-Means)、层次聚类、谱聚类等浅层的聚类方法为主。利用基于密度改进的K-Means 算法来探究典型的用户用电模式[4],通过密度法和指标解决聚类数目的选择问题和局部最优问题。提出利用改进的KMeans 算法,通过余弦距离定义和描述不同的电力用户群体,当聚类的数量太多而无法解释时,通过层次聚类以使用适当的距离度量进行另一次聚类[5]。提出了一种改进的层次聚类算法,比较了基于数据划分的层次聚类和传统层次聚类以及划分聚类算法的不同,通过聚类的评价指标和时间来验证聚类效果[6]。提出一种基于优化特征向量选取的遗传谱聚类算法,对算法中特征向量的提取过程进行了合理优化,防止数据信息缺失带来的影响[7]。

随着电力负载数据维度的不断增加,直接利用K-Means、谱聚类和层次聚类等浅层的聚类进行负载模式识别变得越来越困难,高维负载数据的内在特征被忽视。在这种维度高、深度特征越来越重要的情况下,利用深度神经网络进行聚类的方法有很好的应用效果。提出了一种基于生成性对抗网络的场景生成方法,对负载的不确定性和变化进行建模,训练后的网络模型会生成以日类型、温度和历史负荷为条件的剩余情景[8]。利用深度卷积神经网络首先从大规模负荷曲线中提取特征,然后,通过支持向量机识别电力用户的特征[9]。

本文提出了一种深度自编码器和K-Means 结合的方法,利用自编码器对负载数据进行特征提取,提取负荷时序数据的内在特征。另外,考虑到聚类的本质为数据之间的距离性,聚类层的误差将参与到自编码器的参数更新中,联合优化自编码器和聚类层,进一步改善特征提取效果,从而能够获得更加准确的聚类结果,实现住宅用户的负载模式识别。

1 方法理论基础

1.1 传统K-Means 聚类

K-Means 算法可以把n维数据在无监督的条件下分为k类[10],是一种经典的广泛用于智能电表数据分析的聚类算法,它可以识别不同的用电模式和具有相同用电模式的居民[11]。它的算法基本思路大致如下:从一个给定的数据集的n个样本点中随机选取k个样本点为其初始迭代的聚类中心点,通过距离函数来计算出其余的每个候选样本点至其各个初始迭代聚类中心点之间的距离,并将所有候选样本中心点都归属到距离自身最小的一个簇中,随后再更换其中每一个簇的中心点,成为其下一次初始迭代过程中新的初始聚类中心,重复上述迭代过程,直至达到给定的最大迭代重复次数Tmax或k个聚类中心保持不变。

但是,传统K-Means 算法中的距离度量受困限于原始数据空间。面对高维度数据时,数据点的间距会偏向于相互接近,数据点间的距离关系也会减弱,因此,直接使用传统K-Means 对电力用户负载模式识别并不理想,对输入的高维数据进行处理十分必要。

1.2 自编码器

自编码器(auto-encoder,AE)由Rumelhart 等[12]首先提出,是一种典型的可以无监督学习到特征的一种人工神经网络。它的训练过程主要有编码和解码2 个步骤,在编码时,输入的数据为无标签的样本,旨在学习数据的内部特征,而隐藏层输出的低维数据为学习到样本的抽象特征,在解码时称对称结构,输出层的维数和输入层维数保持一致,并且与原始数据尽可能保持一致。

深度自动编码器本质上就是增加中间隐藏层数,用来学到更复杂的编码。深度自动编码器是一个全连接对称模型,输入高维数据的编码过程和解码过程是一个完全对应的相反过程。深度自动编码器需要训练大量参数,训练时间长,且隐藏层输出的数据和输入数据表达的相同特征较少,与聚类的本质不同,直接用于聚类效果不理想,故有必要和其他方法结合来实现更有效的聚类。另外,深度自编码器具有较强的非线性表示特征的能力,并且普适性较高,几乎可以与任何聚类方法相结合[13],因此,自编码器中间层输出数据可以通过其他聚类算法进行聚类。

2 基于深度聚类的方法模型

本文设计了一种以深度自编码器和K-Means 算法为基础的电力负载模式识别方法,在本节将会介绍其算法框架以及如何实施。

2.1 阶段1

在电力数据的收集过程中,由于传感器的故障或数据传输误码等原因,电力数据会出现异常[14],负荷数据中通常存在着少量异常数据和缺失数据。

聚类对异常数据十分敏感,为了防止异常数据造成聚类结果偏离实际,首先进行数据清洗。考虑到样本数量充足,直接剔除大量数据缺失的负荷曲线和异常值,然后对数据进行离差标准化,如式(1)所示。

式中:max 为数据的最大值;min 为数据的最小值;x*为标准化后的数据,映射结果在[0,1]内。

2.2 阶段2

对于清洗后的负荷数据,先利用深度自编码器提取深度特征,实现负荷数据的时序特征的提取。如图1所示,未经自编码器处理的负荷曲线交织在一起,时序特征不明显,经过特征提取的数据深度特征更加明显,数据之间距离得到强化,更有利于进一步的聚类。

图1 负荷曲线特征提取示意图

然后,将已被提取特征的数据输入聚类层进行聚类,通过K-Means 算法对深度自编码器中间层的输出数据进行聚类。

2.3 阶段3

自编码器的损失函数如式(2)所示,重构出的XR尽可能恢复原来的输入数据X。

K-Means 的损失函数如式(3)所示,簇内的点尽可能离簇中心近。

整个模型的损失函数由自编码器和K-Means 的误差组成,如式(4)所示,保证了自编码器中输出层和输入层数据相似性的同时使聚类结果簇内距离较近。根据Loss3联合优化整个模型,提高特征表示的效果,同时提升聚类准确度。

最后通过无监督聚类的指标与其他传统方法进行对比。

方法框架图如图2 所示,算法如下所示。

图2 算法框架图示意图

输入:数据集X={x1,x2,…,xn},隐藏层节点数q,激活函数g(*),学习速率η,最大迭代次数tmax

输出:聚类结果Cluster

(1)初始化。构建并预训练auto-encoder 模型,随机对W,bm,bd赋值,W,bm,bd分别为连接权重和节点偏置。

(2)while:t<tmax。

(3)t=t+1 。

(4)正向传播,计算中间层输出X'和样本重构结果XR。(5)计算重构误差Loss1并进行反向传播,并更新W,bm,bd。

(6)进行聚类Cluster=KMeans(X')并计算聚类误差Loss2。

(7)计算联合误差Loss3=Loss1+λLoss2,并修正模型参数。

(8)判断停止训练条件。

(9)End while 。

(10)返回聚类结果Cluster。

3 算例分析

3.1 数据集来源

实验数据采用英国伦敦居民的家庭用电数据集,数据集包含参与英国电力网络领导的伦敦低碳项目的

伦敦家庭的家庭用电负载情况,共有超过5 000 个家

庭参与,采样频率为30 min。

3.2 评价指标

戴维森堡丁指数(Davies-Bouldin Index,DBI)最早由大卫L·戴维斯和唐纳德·Bouldin 提出,戴维森堡丁指数的最小值可以达到0,数值越小则代表聚类效果越好,计算公式如式(5)所示。

式中:k为聚类出簇的数目;si为第i类中每个样本点与该类聚类中心的平均距离,DBI代表数据的分散程度。

3.3 结果与分析

整体方法利用深度自编码器对进行异常值处理和标准化之后的电力负荷曲线进行深度特征的提取,将数据输入进K-Means 算法进行聚类。其中,深度自编码器共有9 层,编码的维度分别为48、64、128、64、48,学习率为0.000 1,利用其他常见参数得到结果均劣于此情况。最终得到的曲线如图3 所示,图3 给出了k=5时的典型居民用户电力负载模式。

图3 k=5 时的居民用户电力负载模式曲线示意图

从图3 中可以看出,第一种负载曲线模式趋于平缓,此类用户全天用电量均较少,属于低电量用户模式;第二种负载曲线模式与第一种负载曲线模式形状较为一致,但在10:00 和21:00 左右曲线波动大于第一种负载曲线模式,2 处高峰值均高于第一种负载曲线模式,属于中低电量用户模式;第三种负荷曲线模式属于典型的“上升型”模式,7:30—10:00 用电量不断增加,从10:00—15:00 呈现平缓下降的趋势,从15:00—21:00 又呈现缓慢上升的趋势,在21:00 之后用电量又快速下降,符合大部分人的规律作息时间,属于高电量用户;第四种负载曲线模式与第三种较为相似,区别表现在:10:00—15:00 期间用电量下降较快,15:00—21:00 期间用电量上升较快,且整体用电量低于第三种,属于中电量用户;第五种负载曲线模式呈现后端用电量大的情况,22:00 处于高峰,且用电量增加和减少幅度都较大,此类负载曲线模式对应用户生活习惯较晚,且深夜用电量较大,其余时间均较少,属于中低电量用户。基于以上的结果分析,可以设计5种不同的用电阶梯套餐,对应不同种用电模式。

3.4 聚类评价指标分析

为了进一步说明所提算法的效果,本文利用DBI指标定量地对聚类结果进行分析。本文所提出的误差联合优化自编码器和聚类层的方法将与传统K-Means 聚类、谱聚类、层次聚类方法比较。另外,从实际考虑,行业专家建议集群的数量不应超过10个,从行业角度来看,产生的集群数量可用于规划关税,或为营销提供证据,提供10 种不同关税或营销策略的运营成本将在可承受的成本范围内[15]。故对比聚类数目在[2,10]时,不同聚类方法的DBI结果如图4 所示。

图4 不同聚类数下的DBI

由图4 可知,本文所提方法优于所对比的3 种方法。图中可以看出,当聚类数为2 时,4 种方法DBI很接近。k大于2 时,传统K-Means 聚类、谱聚类、层次聚类的DBI相差不大,但所提方法的DBI均小于它们,所提方法的曲线始终在其他3 个曲线下方,从而说明本文提出方法的聚类效果优于传统K-Means 聚类、谱聚类和层次聚类。

4 结论

针对电力用户负载模式的识别,本文提出了一种深度自编码器和K-Means 结合的方法,利用误差联合优化自编码器和K-Means 算法,通过深度自编码器对电力用户数据进行抽象特征的提取,保证时序数据的深度特征不被破坏,再采用K-Means 算法将抽象特征进行聚类。通过对英国伦敦电力居民用户数据集的结果分析,验证了该方法应用于住宅用户负载模式识别能够获得准确的聚类结果,可以分析出不同类型的负载模式,有助于电网了解电力用户负载模式,提高能源利用效率,进行需求响应管理等工作。

猜你喜欢

编码器聚类深度
融合CNN和Transformer编码器的变声语音鉴别与还原
深度理解一元一次方程
基于K-means聚类的车-地无线通信场强研究
深度观察
深度观察
深度观察
基于双增量码道的绝对式编码器设计
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法