APP下载

基于“进化”主成分分析法的用户分类及其应用

2017-04-17和敬涵卢育梓陆金耀胡波杨方何博

电力建设 2017年3期
关键词:进化迎峰分析法

和敬涵,卢育梓,陆金耀,,胡波,杨方,何博

(1.北京交通大学电气工程学院,北京市100044;2.国网能源研究院,北京市102209)

基于“进化”主成分分析法的用户分类及其应用

和敬涵1,卢育梓1,陆金耀1,2,胡波2,杨方2,何博2

(1.北京交通大学电气工程学院,北京市100044;2.国网能源研究院,北京市102209)

在负荷曲线形态较多时,传统聚类方法对用户负荷分类的效率不高,阻碍了聚类方法在电力负荷大数据分析中的应用。该文提出一种“进化”主成分分析法。首先,采用主成分分析法对用户的负荷特征矩阵进行降维;之后,在主成分分析法的基础上,提出基于欧式距离的分类规则。以某地区用户实际负荷为算例,通过余弦相似定理拟合各类用户曲线形态,验证所提出算法的有效性。经过与传统负荷曲线分类方法的对比,证明了基于“进化”主成分分析法能提升负荷曲线分类效率。在负荷曲线分类的基础上,与当地总体负荷曲线进行对比,将用户负荷分为迎峰用电型、部分迎峰用电型、少量迎峰用电型以及异常用电型4类,分析结果证明了基于“进化”主成分分析法的负荷分类的有效性和实用性。所提出的负荷分类方法可以更加有效地对用户用电行为进行分类,从而针对各类用户制定动态电价,作为开展智能电网相关增值服务的基础。

智能电网;主成分分析(PCA);用户分类;行为分析

0 引言

我国的居民用电特征存在一定差异,导致负荷形态不一。不同用户的负荷峰值时段以及负荷幅值都存在较大差异。随着智能电网的不断发展以及电力改革向纵深推进,用户的地位正在提升,针对用户行为分析能力将成为日后售电公司市场竞争力的基础之一。然而,传统用户分类方法无法满足智能电网下的用户行为分析。针对此问题,国内外的学者开始对负荷曲线的分类方法展开研究[1-2]。

针对电力负荷曲线分类的研究在国内已展开,传统的分类方法有 K-means聚类、神经网络聚类、层次聚类、模糊C均值聚类等,但是这些方法对聚类中心敏感、容易陷入局部收敛,使最后的聚类结果不够准确。一些学者针对上述不足进行了改进。文献[3]通过并行K-means聚类将智能小区用户分成若干典型类型,然后根据不同类别居民用户需求侧响应为其制定不同的用电方案;文献[4]在Map-Reduce模型下改进K-means聚类算法对家庭用户的用电行为进行挖掘分析;文献[5]基于模糊聚类原理,提出了基于模糊等价关系和模糊C均值算法的分类方法,该方法可以通过优化理论获得聚类中心矩阵,并完成负荷特性分类与综合;文献[6]利用余弦相似定理与K-means算法对不同行业的用户进行聚类分析,解决了K-means聚类分类数目不确定的问题。上述方法进行用户的负荷曲线分类的步骤可以归纳归纳为: (1)采集智能用电数据;(2)剔除非典型用电情况; (3)提取典型负荷曲线;(4)负荷曲线聚类。现有聚类方法虽然可以得到聚类结果,但是在用户数量较多时,效率不高,在对海量用户用电数据聚类时存在一定的限制。因此,有必要研究具有较高聚类效率的负荷曲线分类方法。

主成分分析法是将多个指标转换为少数几个互不相关的综合指标的多元统计方法。为了避免数据量纲和数量级的影响,主成分分析法需要先将数据进行标准化处理,从而消除各维变量在变异程度上的差异。该方法能有效降低维度,使问题简化,应用广泛[7]。本文提出“进化”主成分分析法对相似的负荷曲线进行聚类。与传统聚类算法不同,所提出的算法无须确定聚类数目和初始聚类中心,并且该方法通过对特征矩阵降维,提高负荷曲线聚类效率,聚类效果和稳定性良好。所提出的方法为海量智能用电数据分析提供新的途径[8-10]。

1 主成分分析法及其“进化”

1.1主成分分析法

主成分分析法原理如下详述[11]。设在数据集中有n个样本,每个样本包含p个变量。由数据集中的样本组成的样本矩阵X为

式中:xij为第i个样本中的第j个变量;xi为由数据集中所有样本的第i个变量组成的向量。

对样本矩阵X中的元素进行标准化处理:

其中:

存在正交矩阵U,使得UTRU=Λ,其中Λ= diag(λ1,λ2,…,λp),且 λ1≥λ2≥…≥λp,λ1,λ2,…,λp为R的特征值。设a1,a2,…,ap分别为 λ1,λ2,…,λp对应的特征向量。

对X*进行线性变换,令Y=UTX*,得到新的随机变量矩阵Y=[y1,y2,…,yp]。随机变量y1,y2,…,yp是互不相关的,并且 yi的方差为 λi。此时,称 yi(i=1,2,…,p)为关于样本矩阵X的第i个主成分分量。

第i个主成分分量的方差贡献率αi为

前i个主成分分量的累计方差贡献率βi为

αi的值越大,表示yi综合随机变量 xi(i=1,2,…,p)变量的能力越强。主成分分量的排序是按照特征根的大小顺序从大到小排列。实际应用中,提取的主成分分量的个数取决于累计方差贡献率βi。

1.2 “进化”主成分分析法

本文通过主成分分析提取若干个起主导作用主成分分量。“进化”主成分分量分析法基于起主导作用的主成分分量进行聚类,从而实现有效分类。该方法既减少聚类所用的变量数,又保留原始变量所包含的重要信息,使得实际的应用和操作得到简化。“进化”主成分分析法如下详述。

若某用户的前k个主成分分量的累计方差贡献率大于一定值,则提取该用户前k个主成分分量作为聚类特征。表征不同用户聚类特征的样本点之间的距离定义为特征向量在n维空间中的距离,即欧式距离。聚类特征之间的欧式距离的定义式为

式中:x、y分别为任意两个用户的聚类特征向量;xi、yi分别为x和y的第i维聚类特征;k为满足累计贡献率要求的主成分分量个数。

本文中,将欧式距离不大于m(m为常数,m越小分类越精确)的样本点归为一类。

为了验证结果的有效性[12],基于K-means与余弦相似定理相结合的方法剔除异常用电行为后,对每个用户进行负荷曲线特征进行提取。其主要思想是将任意2个样本xi与xj视为p维空间的2个向量。2个向量的夹角余弦cosθij为

cosθij越接近于1,2个样本之间的相似度越大。

2 基于“进化”主成分分析法的用户分类步骤

在电力行业中,一般通过每日设置96个(或者24个)采样点来反映用户1天中的用电情况。通常,用96(或者24)个变量来描述这96(或者24)个采样点所采集的用电信息。显然,1天中设置的采样点越多,对用户用电特征的刻画也越完整、准确,但采样点数量的增加会加大数据分析的难度。此外,描述同一用户特征的变量叠加在一起也可能造成信息重复,甚至会掩盖其负荷变化规律。基于“进化”主成分分析法对用户进行分类的步骤如下详述。

2.1数据处理

1天中设置96个采样点采集用户的用电信息。用户1年的用电信息可以用一个365×96维的矩阵L来描述。称L为负荷矩阵,L的表达式为

式中:p为1天中的采样点数量,p=96;n为1年中所包含天数,取n=365。

对负荷矩阵元素进行标准化处理,得到标准化矩阵L*。之后,计算L*的协方差矩阵R'。

2.2特征值与特征向量求取

求R'的特征值(λ1,λ2,…,λp)和特征向量ai=[ai1ai2…aip],其中i=1,2,…,p。

2.3选择重要的主成分分量

对于用户来说,1天中所设置的96个采样点会采集到96个主成分分量。由于各主成分分量所包含的信息量是不同的,根据各主成分分量累计贡献率的大小选取前k个主成分分量。贡献率为某主成分分量的方差占全部方差的比重,也即某个特征值占全部特征值之和的比重。贡献率越大,说明该主成分分量所包含的原始变量的信息量越大。主成分分量的个数k由累计贡献率决定。一般地,累计贡献率取为70% ~85%[13]。本文中,选取累计贡献率下限为85%,即满足如下条件:

若i满足式(12),则这i个特征可以表征用户85%以上的用电信息。对客户来讲,另外15%的用电信息基本来源于用户的异常用电行为。由于本文研究的是用户的用电常态,所以忽略用户约15%的异常用电信息。

2.4制定分类规则

由于每个用户都对应1组主成分分量,即1组可以表示其主成分分量的特征值λi(i=1,2,…,p)。那么如果2个用户所对应的2组λi越接近,说明这2个用户的负荷曲线越相似[14]。由于本案例中几乎所有用户的前3个主成分已满足累计贡献率不小于85%的要求,因此运用欧氏距离判据公式(8)对用户进行分类[15]。由于上述表中的特征值的精度为0.1即可,因此m的取值可以在0.1~0.9。由于m不能取太大,通过枚举得到m=0.3时所分类别较合理,如果有新用户加入参与分类,那么通过此欧式距离公式判据,即可确定其属于哪类用户。

3 算例分析

在1天设置96个采样点,采集某地区16个不同经济水平的居民用户从2013年1月1日到2013年12月31日的电力负荷数据进行算例验证。用户前3个主成分分量的贡献率见表1。

由表1可知,只有用户10前3个主成分分量的累计贡献率没有达到85%,因此将用户10单独归为一类。用户10的用电曲线如图1所示。

表1 用户前3个主成分分量的贡献率Table1 Top3maincomponentscontribution rateofpowerusers

图1 用户10的负荷曲线Fig.1 Dailyloadcurveofuser10

由图1可见,用户10的用电负荷不存在明显的规律性,且1天中存在多个峰段和谷段。用户的异常用电情况越多,前几项主成分分量的累计贡献率就会越小,所以无法达到“进化”主成分分析法对于累计贡献率的判定要求。因此,将用户10归类为异常用电型用户。基于“进化”主成分分析法对其余15个用户进行分类。这15个用户的前3个主成分分量所对应的特征值见表2。

通过欧式距离公式判据可实现用户分类。本例中,可将上述15个用户分成6类,分类结果见表3。

表2 各主成分分量对应的特征值Table2 Eigenvaluesofprincipalcomponent

表3 用户分类结果Table3 Userclassificationresults

通过余弦相似定理提取各用户的日负荷曲线。6类用户负荷曲线如图2—7所示。

除了第3类中用户5与该类其他两个用户形态有差异外,由“进化”主成分分析法聚类所得其余用户负荷形态极其相似,且允许了幅值差异,聚类有效率达到了93.75%。说明该方法可应用于负荷形态相似的用户分类。

图2 第1类用户负荷曲线Fig.2 Thefirstkindofuserloadcurve

图3 第2类用户负荷曲线Fig.3 Thesecondkindofuserloadcurve

图4 第3类用户负荷曲线Fig.4 Thethirdkindofuserloadcurve

图5 第4类用户负荷曲线Fig.5 Thefourthkindofuserloadcurve

图6 第5类用户负荷曲线Fig.6 Thefifthkindofuserloadcurve

图7 第6类用户负荷曲线Fig.7 Thesixthkindofuserloadcurve

由上述分类可知,“进化”主成分分析法可基于用户用电数据直接对用户进行分类。所提出的方法省去了剔除异常用电行为和提取典型日负荷曲线的中间环节,如图8所示。并且,所提出的方法算法稳定性好,不存在聚类中心不收敛等问题,提高了用户分类效率。

图8 基于“进化”主成分分析法的分类方法省去中间步骤Fig.8‘Evolution’PCAmethodeliminating intermediatesteps

以第2类的4个用户为样本,分别进行2~4个用户的聚类,对比传统的K-means聚类方法与所提出的方法的聚类时间,如图9所示。

图9 负荷分类方法耗时对比Fig.9 Comparisonoftimeusedinload classificationmethod

由图9可见,基于本文所提出的算法进行聚类所需时间相比传统负荷曲线聚类方法所需时间明显降低。“进化”主成分分析法对负荷曲线进行聚类的效率大幅提高,主要的原因如下详述。

(1)“进化”主成分分析法省去了剔除非典型用电情况和提取典型负荷曲线的步骤。由于典型用电情况才能表征用户85%以上的用电特征,“进化”主成分分析法中的累计贡献率判别将非典型用电情况剔除,保留典型用电情况。

(2)传统方法中,对用户负荷曲线进行特征提取操作后得到的是96个点表征的用电曲线,之后进行聚类时依然是96个点的相似性聚类。而“进化”主成分分析法通过对特征矩阵的降维操作降低了聚类的计算量。在本文的算例中,基于主成分分析的降维操作,将原来96个点的相似性聚类降为3个点的相似性聚类,而这3个点就能表征用户85%以上的用电特征,因此再进行最后用户分类时,可大幅减少计算量。

4 实验结果应用分析

4.1基于“进化”主成分分析法用户分类应用

用户分类的最终目的是对用户行为进行深入分析,以便挖掘用户行为价值。为了更好地服务电力营销部门,方便其了解各类用户特征,本文将每类用户与地区总负荷进行比较,最终将用户负荷类型分成迎峰用电型、部分迎峰用电型、少量迎峰用电型以及异常用电型4种类型。地区总负荷如图10所示。

图10 地区总负荷Fig.10 Areatotalload

由图10可知,地区总负荷有3个明显峰段,且中午时段峰值最大,持续时间也较长。经过对比各类负荷高峰时段和形态可知,第1类用户是典型的迎峰用电型用户;第2、3类用户中午时段的迎峰用电负荷相对较少,属于部分迎峰用电型,二者的差异主要在于第3类用户(不包含用户5)的晚高峰没有第2类明显且持续时间较短;第4类用户早高峰与晚高峰突出且中午高峰段也维持了相对较高的用电水平,因此也将其归为迎峰用电型;第5类用户的各峰段维持时间相对较短,且午后用电峰段幅值相对较小,存在避峰用电行为,因此归为少量迎峰用电型;第6类用户出现多个用电高峰段,可能是由于用户经常加班、出差造成其用电规律性差,属于异常用电型。具体分类结果见表4。

表4 最终分类结果Table4 Finalclassificationresults

4.2基于海量用电数据的新型用户分类流程初步设计

上述算例分析中,利用“进化”主成分分析法将用户分成迎峰用电型、部分迎峰用电型、少量迎峰用电型以及异常用电型4种。算例中的样本容量虽然偏小,但第3节中的算例分析表明利用“进化”主成分分析法可以对曲线形态相似的用户进行聚类,且这一性质与样本大小无关,为智能电网下基于海量用电数据分析用户行为提供了新方法。海量用电数据环境下,基于“进化”主成分分析法的用户分类流程如图11所示。

5 结论

图11 针对海量用电数据的新型用户负荷分类流程Fig.11 Newuserclassificationframeworkbasedon massiveamountsofelectricitydata

提出了“进化”主成分分析法,对负荷曲线相似的用户进行分类,算法稳定性好。算例分析验证了所提出的“进化”主成分分析法的有效性,且相比传统负荷曲线分类方法效率有所提高,为电力大数据分析提供了新方法。经过与地区总负荷曲线的比较,将用户分成迎峰用电型、部分迎峰用电型、少量迎峰用电型、异常用电型4类。这种分类方法有助于电力企业对用户进行分类管理。在此基础上,若结合用电量的大小、信用程度等,可为用户制订相应的用电策略,甚至可基于用户的电气设备使用情况针对性地制定节能方案等增值服务,提高用户的用电满意度。

[1]王益民.坚强智能电网技术标准体系研究框架[J].电力系统自动化,2010,34(22):1-6.WANG Yimin.Research framew ork of technical standard system of strong&smart grid[J].Automation of Electric Power Systems,2010,34(22):1-6.

[2]鞠平,金艳,吴峰,等.综合负荷特性的分类综合方法及其应用[J].电力系统自动化,2004,28(1):64-68.JU Ping,JIN Yan,WU Feng,et al.Studies on classification and synthesis of composite dynamic loads[J].Automation of Electric Power Systems,2004,28(1):64-68.

[3]张素香,刘建明,赵丙镇,等.基于云计算的居民用电行为分析模型研究[J].电网技术,2013,37(6):1542-1546.ZHANG Suxiang,LIU Jianming,ZHAO Bingzhen,et al.Cloud computing-based analysis on residential electricity consumption behavior[J].Pow er System Technology,2013,37(6):1542-1546.

[4]赵莉,候兴哲,胡君,等.基于改进K-means算法的海量智能用电数据分析[J].电网技术,2014,38(10):2715-2720.ZHAO Li,HOU Xingzhe,HU Jun,et al.Improved K-means algorithm based analysis on massive data of intelligent pow er utilization[J].Power System Technology,2014,38(10): 2715-2720.

[5]杨浩,张磊,何潜,等.基于自适应模糊C均值算法的电力负荷分类研究[J].电力系统保护与控制,2010,38(16):111-115.YANG Hao,ZHANG Lei,HE Qian,et al.Study of power load classification based on adaptive fuzzy C means[J].Power System Protection and Control,2010,38(16):111-115.

[6]刘丽轻.电力用户负荷模式识别系统研究与设计[D].保定:华北电力大学,2012.LIU Liqing.Research and design on recognition system of electricity customer load pattern[D].Baoding:North China Electric Power University,2012.

[7]周晖,王毅,钮文洁,等.电力客户信用综合评价的研究[J].电力自动化设备,2006,25(12):15-18.ZHOU Hui,WANG Yi,NIU Wenjie,et al.Study of synthetic credit evaluation of pow er clients[J].Electric Power Automation Equipment,2006,25(12):15-18.

[8]黄梅,贺仁睦,杨少兵,等.东北电网负荷模型的分类与应用[J].电力系统自动化,2005,29(4):85-87.HUANG Mei,HE Renmu,YANG Shaobing,et al.Application of load modelclassification in northeast pow er netw ork[J].Automation of Electric Pow er System,2005,29(4):85-87.

[9]张忠华.电力系统负荷分类研究[D].天津:天津大学,2007.ZHANG Zhonghua.Study on load classification in pow er system[D].Tianjin:Tianjin University,2007.

[10]江辉,张清联,彭建春.基于改进云物元模型的风电场电能质量评价[J].电网技术,2014,38(1):205-210.JIANG Hui,ZHANG Qinglian,PENG Jianchun.An improved cloud matter element model based w ind farm pow er quality evaluation[J].Pow er System Technology,2014.38(1):205-210.

[11]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998.

[12]汪海波,罗莉,汪海玲,等.SAS统计分析与应用从入门到精通[M].北京:人民邮电出版社,2015:322-325.

[13]刘爱琴,荀亚玲.基于属性熵和加权余弦相似度的离群算法[J].太原科技大学学报,2014(3):171-175.LIU Aiqin,XUN Yaling.An outlier mining algorithm based on attribute entropy and w eighted cosine similarity[J].Journal of Taiyuan University of Science and Technology,2014(3):171-175.

[14]贺仁睦,周文.电力系统负荷模型的分类与综合[J].电力系统自动化,1999,23(19):12-16.HE Renmu,ZHOU Wen.The cluster and synthesis of electric power system load models[J].Automation of Electric Pow er Systems,1999,23(19):12-16.

[15]SAMUEL G,SUSAN K.Scenario analysis of residential demand response at netw ork peak periods[J].Electric Pow er Systems Research,2012,93(10):32-38.

(编辑 郭文瑞)

User Classification Method Based on‘Evolution’PCA and Its Application

HE Jinghan1,LU Yuzi1,LU Jinyao1,2,HU Bo2,YANG Fang2,HE Bo2

(1.School of Electrical Engineering,Beijing Jiaotong University,Beijing 100044,China; 2.State Grid Energy Research Institute,Beijing 102209,China)

When there are many kinds of load curves,the efficiency of the traditional clustering method is not high in user load classification,which hinders the application of clustering method in the big data analysis of power load.This paper proposes a‘Evolution’principal component analysis(PCA)method.Firstly,we adopt PCA to reduce the load matrix dimensionality of users;then,proposes the classification rules based on Euclidean distance,on the basis of PCA.Taking the actual load of users in a certain area as an example,all kinds of user curve shapes are fitted by cosine similarity theorem,which verifies the effectiveness of the proposed algorithm.Compared with traditional load curve classification method,it is showed that the‘Evolution’-based PCA can improve the classification efficiency of load curve.On the basis of load curve classification,compared with the local overall load curve,the user is divided into 4 categories:peak electricity users,part meeting peak electricity users,a few meeting peak electricity and abnormal electric type.The analysis results show the effectiveness and practicability of the load classification based on‘Evolution’PCA.The proposed load classification method can be more effective in the classification of user behaviour,so as to establish the dynamic electricity price for all kinds of users,which can be the basis for the development of smart grid related value-added services.

smart grid;principal component analysis(PCA);user classification;behavior analysis

TM 714

A

1000-7229(2017)03-0101-07

10.3969/j.issn.1000-7229.2017.03.014

2016-09-20

和敬涵(1964),女,博士,博士生导师,主要从事继电保护、主动配电网等方面的研究工作;

卢育梓(1991),男,硕士研究生,主要从事信息化技术在电力系统中的应用等方面的研究工作;

陆金耀(1990),男,硕士研究生,本文通信作者,主要从事智能电网用户行为、负荷预测等方面的研究工作;

胡波(1985),男,博士,主要从事智能电网、电动汽车充电服务网络、微电网等领域的战略规划研究和管理咨询等方面的研究工作;

杨方(1981),女,博士,高级工程师,主要从事智能电网、电动汽车充电服务网络等方面的研究工作;

何博(1987),男,博士,主要从事智能电网、电动汽车充电设施规划、大数据等方面的研究工作。

国家自然科学基金项目(51277009);国家电网公司科技项目(52110415000Q)

Project supported by the National Natural Science Foundation of China (51277009)

猜你喜欢

进化迎峰分析法
异步机传统分析法之困难及其克服
全力迎峰度夏
天富发电产业公司:专技考试确保迎峰度夏
推进“党建+”工作决胜迎峰度夏
基于时间重叠分析法的同车倒卡逃费探析
纪录片理论进化的黄金时代
层次分析法在SWOT分析法中的应用
AHP和SWOT分析法在规划编制中的应用
打好迎峰度夏攻坚战