基于K均值聚类的居民用电行为特征分析∗
2021-06-02刘海璇胡卫丰刘志明袁晓玲
周 宇 刘海璇 胡卫丰 胥 峥 刘志明 袁晓玲
(1.国网江苏省电力有限公司 南京 210008)(2.中国电力科学研究院 南京 210003)(3.河海大学能源与电气学院 南京 211100)
1 引言
影响用户用电行为的因素众多,需要从时间、空间、用户类型等多个维度,分析自然、社会各种潜在因素与用电行为的关联关系,并深度挖掘因素集与用户用电行为的关联强度[1]。影响用户用电行为模式的各个因素关联强度亦不相同,为此,需要利用关联挖掘技术分析影响因素集合与相关性或因果结构[2]。从而针对特定的用户行为,用电行为集合之间的频繁模式、关联性、从众多因素中发现提炼与其关联的影响要素,建立精细化用电模式与影响因素的关联模型,从而进一步理解用户用电行为[3]。
目前,随着泛在电力物联网进程的提出和不断推进,众多信息系统和平台在有效管理各类智能设备、促进智能电网建设、提升公司电网运营管理水平的同时[4],电网企业存储了海量数据,这些数据直观上没有表现出任何有价值的信息,但采用数据挖掘的方法,数据中隐藏的信息就会被提取出来[5~6]。文献[7]考虑城市微气象和节假日等影响因素,建立用电行为差异化模型,精细化挖掘用户用电行为特征。文献[8~9]利用数据挖掘和数理统计的相关技术,对一个地区不同行业的用电行为进行分析,提取出各个行业的用电特征和客户的群体特性。文献[10]以高斯滤波技术消除初始数据中的噪声,结合k-means、SOM等聚类算法建立聚类分析模型,获得隐藏在数据集中典型用电模式及其合适的聚类数目。文献[11]和文献[12]中的聚类方法对所有用户都提取同一组特征量对用户负荷进行聚类研究,无法充分掌握用户的负荷特性。文献[13]提出基于差异化特征量提取的分层聚类方法实现用户用电行为的分类识别。
本文利用UCI(University of California,Irvine)数据库[14]公布的法国克拉马地区某用户的用电数据进行聚类分析。基于K均值聚类算法计算时间短、速度快、聚类结果容易解释的优点[15~16],通过合理的选择聚类初始K值来提高聚类的准确度,精确挖掘出用户的不同用电行为,为客户用电精细化管理和提供优质用电服务等提供支持。
2 基于K均值聚类算法的居民用户电力负荷特征分析
为实现对居民电力负荷特征的分析,首先要准确提取用户的用电特征曲线。本文的居民用户电力负荷特征分析框架如图1所示。首先对原始的居民用户用电数据进行预处理,这些预处理包括缺失数据处理、数据归一化。然后对预处理完后的数据采用K均值算法提取的用户负荷特征曲线,根据不同日类型下的负荷特征曲线,分析其用电行为特征。将聚类分析技术应用到电力大数据中,有助于电力公司进行需求侧管理、用户细分、用电优化建议等[17~19]。
图1 电力负荷特征分析框架
2.1 K均值算法概述
K均值聚类算法是划分聚类分割的方法,其工作原理是:首先随机从给定的数据集中选中K个点,每个点代表每个簇的初始聚类中心,然后计算剩余各个样本到聚类中心的欧式距离,将其归为离它最近的那个簇,接着重新计算每一个簇的平均值,整个过程不断重复,直到平方误差准则函数最小[20]。平方误差准则定义为
式中,k为聚类个数,ti为第i类中的样本的个数,mi是第i类中样本的均值。
K均值聚类算法是典型的基于距离的聚类算法,采用点与点之间的距离作为相似性评价指标,即认为两个对象的距离越近,相似度就越大。距离算法一般采用欧氏距离,如式(2)。
式中,xi是样本X的第i个变量值;yi是样本Y的第i个变量值。这种算法认为簇是由距离靠近的对象组成,因此把得到紧凑且独立的簇作为最终目标。
2.2 数据预处理
2.2.1 数据清洗
进行聚类分析的数据来自生产、生活、商业中的实际数据,在现实世界中,由于各种内部或外部影响,导致数据会出现缺漏或者异常数据的存在。为了提高最终结果的可信性和可解释性,在进行聚类之前对这些坏数据进行剔除和修复。
针对数据集中出现的缺失值,利用向前向后移动平均法对缺失数据补齐。设缺失数据Li是某一天负荷曲线的第i个数据点,修正后的数据Li"为
式中,Li-h和Li+g分别代表Li向前h个数据和向后g个数据;h1和g1一般可取5~10。
2.2.2 数据标准化
为了更明显地体现用户用电行为的动态变化,对用户的原始负荷数据进行标准化处理:对原始数据进行归一化处理,使最终结果落入[0,1]区间,归一化公式如式(4):
式中xi和x*分别表示第i个采样时刻实际的用电负荷和标准化之后的用电负荷,xmax和xmin分别表示每一天样本数据中的负荷最大值和最小值,n为每一天样本中的负荷采样点数。
2.3 初始K值的确定
虽然K均值算法具有简单、效果好的优点,但算法中的K值是事先给定的,而K值的大小往往难以估计,不同的K值对聚类结果的准确性也会产生影响。目前常用的确定K值的方法有轮廓图法、误差平方和法等[21]。本文采用轮廓图法作为初始K值的确定方法。
轮廓图是利用轮廓系数做出的图形。轮廓系数是聚类效果好坏的一种评价方式,最早由Peter J.Rousseeuw在1986年提出,它结合内聚度和分离度两种因素,用来在相同原始数据的基础上评价不同算法、或者算法不同运行方式对聚类结果所产生的影响[22]。轮廓图上第i点的轮廓值定义为
式中,a是第i点与同一个簇中其他点的平均距离。b是向量,其元素表示第i点与其他不同簇中各点的平均距离。S(i)的取值范围是[-1,1],S(i)的值接近于1说明点i更倾向于当前的类,S(i)接近0表示点i倾向于在两个类之间,S(i)接近-1表示点i倾向于其他某一个类。
平均轮廓值就是将所有点的轮廓系数求和取平均,平均轮廓值越大,表示聚类效果越好。
3 算例分析
本文利用UCI数据库公布的2007年某智能小区的一户居民的用电数据集进行分析。数据集包含该家庭每隔1分钟一次电量消耗测量数据。
3.1 初始K值的确定
在进行初始聚类数K值确定之前,首先对预处理后的负荷数据进行每60分钟求和一次,所得的数据即为日24点数据,处理完后的数据采用轮廓图法确定其最佳聚类类别数。图2分别表示聚类类别为2、3、4时的轮廓图。表1为不同K值对应的平均轮廓值,根据2.3节轮廓图以及平均轮廓值的定义,确定选择此数据集类别数为2。
图2 不同K值下的轮廓图
表1 不同K值对应的平均轮廓值
3.2 聚类结果的分析
本文以数据集中2007年一月份的数据为例,随机选取初始聚类中心,得到两类居民日负荷特征曲线如图3所示。
图3 居民一月日负荷曲线及特征曲线
根据图3的聚类结果,该用户的一月的日负荷特征曲线主要有两类。这两类特征曲线变化趋势有明显的差异。
结合图4中的空调热水器负荷和厨房负荷可以看出:第一类负荷特征曲线在11:00~14:00出现一个负荷高峰,与空调热水器负荷高峰出现的时间一致。第二类负荷特征曲线有两个用电负荷高峰,分别出现在上午8:00~10:00和晚上的18:00~22:00,在这两个用电高峰期间,空调热水器负荷基本一直处于大功率运行的状态中,而厨房负荷运行时间分散且功率较小,说明该用户用电追求舒适性,空调热水器类等对用户用电舒适性有较强相关性负荷在该家庭中占有很大的比重。
图4 负荷曲线的热力图
由于空调热水器等负荷对用户的舒适性影响很大,且厨房负荷的使用时间较为固定,考虑到洗衣房负荷对用户舒适性影响较小且用电时间较为分散,为了缓解用电高峰时段电力系统的调峰压力,将聚类一和聚类二中用电高峰时段的洗衣房负荷转移到用电低谷期。仿真分析采用文献[23]国内实施的用电峰谷时段划分,转移后得到的结果如图5所示。
图5 负荷转移前后聚类结果
由图5可以看出,转移后的负荷特征曲线的用电峰值比负荷转移前都有所下降。第一类特征曲线在11:00~13:00出现的负荷高峰转移到了夜间1:00~4:00。而第二类特征曲线19:00出现的负荷转移到了凌晨负荷比较低的时段。
4 用户用电行为特征分析
为了进一步分析用户的用电行为,本文提取节假日和不同季节典型负荷特性曲线,对用户的用电行为特征进一步分析。
4.1 节假日用电行为
法国的主要节假日有元旦和劳动节共6天法定节假日以及万圣和圣诞等四个宗教节日。文中将这21天的节假日负荷数据利用K均值聚类方法提取出节假日的特征曲线,当K取2时,平均轮廓值为0.4847,大于K取其它值时的平均轮廓值,最终得到聚类结果如图6。
图6 节假日用电负荷曲线及特征曲线
根据图6的聚类结果可以看出,节假日有两类特征曲线,第一类用电负荷特征曲线有明显的用电高峰区和用电低谷区,用电高峰出现在晚上的19:00~21:00,凌晨1:00~6:00为用电低谷区;第二类用电负荷曲线一天之内的波动比第一类小,用电高峰出现在中午12:00和凌晨1:00。
为了对节假日用户用电行为作进一步分析,利用热力图将这21天的空调热水器负荷、厨房负荷和洗衣房负荷曲线表示出来,得到结果如图7所示。
图7 负荷曲线的热力图
由图7节假日期间空调热水器负荷和厨房负荷可以看出,第一类用电曲线代表的节假日各类负荷的使用频率明显高于第二类用电曲线代表的节假日。进一步,通过对比两类节假日厨房用电曲线,在圣诞节(属于第一类节假日用电特征曲线)这种重大的宗教节日期间,厨房负荷远高于第二类节假日的厨房负荷,说明用户在这些节假日期间,用户更可能在家里与亲人朋友团聚;第二类节假日特征曲线有多天厨房负荷为0,说明用户在元旦(属于第二类节假日用电特征曲线)这种比较长的假期外出游玩或外出用餐。
由于聚类二中洗衣房负荷都处于闲置的状态,只针对聚类一中的厨房负荷进行转移,得到的结果如图8。
图8 负荷转移前后聚类结果
根据图8,用电高峰期的洗衣房负荷转移到凌晨时段,使得节假日第一类用电负荷曲线在白天时段的用电波动变得更加平缓。
4.2 季节用电行为规律
为了分析该地区用电负荷随气候状况变化的规律,本文结合该地区的气候特征,分析用电行为与气候之间的关系。文中采用传统意义上的典型季节划分:春季指每年的3~5月,夏季指每年的6~8月,秋季指每年的9~11月,冬季为12月和次年的1~2月。
图9 各季节用电负荷特征曲线
当K=2时,四个季节的平均轮廓值均为最大,选取聚类结果中包含天数较多的那一类作为该季节的典型用电负荷曲线,如图9所示。从图中可以看出,无论哪一个季节,该用户用电负荷的日变化均具有明显的波动特征。凌晨2:00~6:00之间用电负荷较小,日最低用电负荷值出现在凌晨4点左右。从早晨6:00开始至上午8:00负荷逐渐增大,在8:00达到了日变化的最大值。下午1:00出现用电负荷的一个低值区,下午6:00之后,出现了一天中第二次用电负荷的快速增长,在夜间10:00左右达到了一天的最大值。由于该用户位于法国克拉马地区,该地区冬季温度较低,夏季凉爽,气温年差较小,所以该用户春、夏、秋三个季节的特征曲线变化趋势基本一致,用户第二次负荷增长出现的时间以及最大值出现时间基本一致。由于冬季气温较低以及天黑时间提前,所以冬季的第二次用电负荷增长出现的时间提前,最高值出现在20:00左右。
5 结语
1)本文利用K均值算法对居民用户用电负荷数据进行聚类分析,为了寻求最优初始聚类数K值,采用轮廓图和平均轮廓值确定最优的初始聚类数,该方法可以对分类的合理性进行判断,解决了K均值算法对初始K值敏感的问题;
2)通过K均值算法提取用户的日负荷特征曲线、节假日特征曲线以及各季节特征曲线,结合空调热水器、厨房负荷和洗衣房负荷热力图,得出居民在不同情境下的用电消费习惯,对居民用户的用电行为进行分析。
3)通过将对用户舒适性影响不大的洗衣房负荷进行转移,可以有效改善用户的用电负荷曲线。
用户用电行为特征分析结果有助于电力公司根据用户的用电行为设计相应的需求响应激励机制,提高居民用户对需求响应的参与度,使精细化和实时化的需求响应工作更易实现。
随着泛在电力物联网技术的发展以及负荷监测技术的不断进步,更细粒度的电能消耗数据将会更容易获得,基于这些数据的数据挖掘将会对用电负荷预测、用户的用电个性化管理以及用能诊断提供依据。