一种基于语义聚类的典型日负荷曲线选取方法
2013-09-13孟令奎段红伟黄长青
孟令奎,段红伟,黄长青,孙 琤
(1.武汉大学 遥感信息工程学院,湖北 武汉 430079;2.中兵勘察设计研究院,北京 100053)
0 引言
典型日对于电力负荷特性的研究具有重要的意义,通过典型日负荷曲线可以分析地区用电特点和影响因素,预估负荷特性变化趋势。目前,典型日负荷曲线的选取方法没有统一的规定,主要是从简单实用的角度出发或选取某一特定日,或基于简单的加权平均,在时段代表性和区域通用性上效果不太理想[1]。有学者利用数据挖掘和人工智能技术来解决上述不足,文献 [2]基于最短距离聚类与关联度分析来优化典型日负荷曲线的选取,文献 [3]利用K均值聚类算法,在相关指数基础上提取日负荷特征曲线。还有学者[4~6]采用了其他鲁棒性更好的算法来提高聚类的精度,进而优化典型日负荷曲线的提取。由于在时段和区域关联分析上缺少潜在性语义分析,上述方法在时段和区域的通用性上灵活性不够。
概率潜在语义分析模型 (Probabilistic Latent Semantic Analysis,PLSA)是一种自然语言处理(NLP)技术,最初用于提取文档的语义信息来实现文档主题提取和分类,目前已经广泛用于图像聚类[7~9]、场景标注和分类[10]等方面。
本文将典型日负荷曲线的选取问题转化为基于统计学习的多元分类问题,利用PLSA模型将其他典型日负荷曲线提取结果作为初始特征输入,然后对电力负荷数据进行语义潜在分析,通过概率学习来优化典型日负荷曲线的选取。
1 PLSA模型基础
PLSA模型[11]由 Hofmann提出,最早用于统计文本分析。PLSA通过分析由文档和词汇形成的共生矩阵,利用期望最大化算法 (Expectation Maximization,EM)来训练隐含类,从而获取文档与词汇的语义信息。
PLSA概率生成模型如图1所示,其中方框表示随机变量的重复,字母N和M表示有N个目标,每个目标可以用M个特征来描述。假定M个特征组成一组特征集 W={w1,w2,…,wm},其描述的N个目标形成一个目标集为 D={d1,d2,… ,dn},D和W形成一个 N×M的共生矩阵 T=(t(wi,dj))ij,其中 t(wi,dj) 表示特征 wi在目标 dj中出现的频率。共生矩阵T中,每一对观测数据(wi,dj) 与一组潜在语义主题 Z={z1,z2,…,zk}相关,其中k为人为指定的一个常数。
PLSA在上述描述基础上建立了一个生成式模型 (generative model),每对 (wi,dj)都由下述过程产生。
(1)首先根据目标dj在目标集D中出现的分布概率P(dj)从D中随机抽样选择一个目标dj;
(2)选定 dj后,根据 dj的主题 zk分布概率P(zk|dj)抽样选择dj的语义主题zk;
(3)选定语义主题zk后,根据P(wi|zk)选择 dj的特征词 wi。
上述过程中每组观测数据 (wi,dj)条件概率可以采用联合概率模型来描述其概率分布,具体公式如式 (1)和式 (2)所示。
图1 PLSA概率生成模型图Fig.1 The chart of PLSA probabilistic generative model
P(w|z)和P(z|d)通过极大似然函数求解,函数定义如式 (3)[12]所示。
似然函数L的最大化需要采用期望极大化(EM)算法进行多次迭代,当满足收敛条件时停止迭代,获得文档与词汇的语义信息。
EM算法在两个步骤交替,即 E-Step和 MStep。E-Step利用当前估计的参数值计算潜在主题zk的后验概率 P(zk|wi,dj),如式(4)所示;M-Step基于所给后验概率更新参数值P(wi|zk)和P(zk|dj)。
2 方法流程
同其它数据挖掘和人工智能方法相比,PLSA模型的优势在于可以将这些方法的结果作为初始输入,通过概率分析找到潜在的类别信息,从而进一步优化目标识别和分类,并能建立识别和分类模型。
图2为基于PLSA的典型日选取方法流程图。如图2所示,将PLSA模型应用于典型日负荷曲线选取时包括以下几个步骤。
(1)构建特征词-目标矩阵
首先利用适当的策略,如特殊日法、加权平均法、智能算法或综合方法生成一组典型日。然后综合考虑聚多种因素,将典型日进行初始选取,选取结果形成一个观测特征词集合。根据电力负荷曲线结合的时间特性,对其进行时段划分,形成目标文档。最后将目标文档中的各电力负荷曲线同观测特征值进行阈值计算,统计各文档中观测特征值的频数,获取特征词-目标共生矩阵。
(2)计算文档中特征词的主题
PLSA模型计算主题时,首先需要确定主题(即聚类的类别)的数目,通过采用最优指标算法来求解最佳主题数,从而形成最优的聚类结果。然后根据主题数目和特征词-目标共生矩阵计算PLSA模型参数P(wi|zk),P(zk|dj)和P(zk|wi,dj),P(zk|wi,dj) 是一个 3 维矩阵,从中可以获得每个目标文档中特征词的潜在主题。
(3)获取各电力负荷曲线的主题
在 (1)中,电力负荷曲线同特征词的对应关系可以通过哈希表进行记录,通过两者的对应关系,可以从P(zk|wi,dj)中获得各电力负荷曲线的潜在主题,从而可以对日负荷曲线进行新的类别划分,形成新的聚类。
(4)基于策略获取典型日簇
在求得的电力负荷曲线类别簇中,根据实际情况可以采用不同的典型日选取策略,从而建立进而获得各类别簇的典型日。这些典型日形成典型日簇,能够代表时段内不同时期的典型电力负荷。
图2 基于PLSA的典型日选取方法流程图Fig.2 Typical day load selection flow chart based on PLSA
3 实验与分析
本文实验所用数据为某地区2007全年统调负荷曲线,每日负荷曲线为96个采样点,即采样间隔15 min。初始的典型日采用K均值法聚类方法对上述数据计算求得。
原始数据由EMS(Energy Manage System)系统自动采集获取,可能出现个别采样点缺失、激变性坏数据,因此在使用数据前需进行数据预处理。图3为经过通过临近负荷曲线分析,通过内插得到的预处理结果。
图3 预处理后日负荷曲线簇Fig.3 preprocessing Typical Day Load Curves
3.1 特征词-目标文档共生矩阵
为了建立特征词-目标文档矩阵,本文首先基于K均值聚类方法,以聚类数为25得到25条聚类负荷曲线,每个聚类负荷曲线作为一个特征词;然后将2007年全年负荷曲线按照季度划分,从而建立4个观测目标文档;最后计算各特征词在目标文档中出现的频数,从而建立特征词-目标文档共生矩阵。
表1为建立4×25的目标 -特征词共生矩阵,矩阵单元代表了特征词在目标中出现的频数。
表1 4×25目标文档-特征词共生矩阵Tab.1 4 × 25 target document-characteristic words co-occurrence matrix
3.2 PLSA主题数目
PLSA模型计算中主题数目直接影响聚类结果。为了得到最佳的聚类结果,本文采用Davies-Bouldin(DB)[13]对聚类主题进行分析。DB是关于聚类内部紧致性和聚类之间分离度的有效性函数,其函数表达式如下式所示。
式中:k表示聚类个数;Si获取聚类内部的紧致性;Bij获得聚类之间分离度;DB值最小的k值表示最优化主题数目。
图4为不同聚类主题数同DB指标关系图,从图中可以看出,聚类主题数取2时,DB指标最高,代表聚类效果差。当聚类主题数大于3时,指标下降并基本趋于稳定。根据实际工作分析,本文选取聚类主题数k=5作为PLSA模型的主题数。
图4 聚类主题数同DB指标关系Fig.4 The relationship between cluster number and DB Index
3.3 PLSA模型计算
PLSA通过 EM迭代计算,其中 E-Step迭代计算潜在主题 zk的后验概率P(zk|wi,dj),M-Step基于P(zk|wi,dj)更新参数值P(wi|zk)和P(zk|dj)。在迭代过程中,利用上述参数计算 Log似然度,当满足收敛条件时停止迭代。
(1)收敛条件设定
为了设定收敛条件,假设PLSA第i(i>1)次迭代计算的 Log似然度 L(i),dL(i)为 L(i)和L(i-1)的差值。当dL(i)小于设定的阈值时则迭代结束。
图5为阈值设定为0.01时,dL的变化趋势。当迭代次数为34时,dL小于阈值,迭代结束。由于迭代计算中,各计算概率首先基于随机参数,所以在迭代初期,dL的数值和变化较大,随着跌代数的增加,其数值和变化越来越小。
图5 dL迭代变化图Fig.5 dL iteration chang chart
(2)Log似然度
Log似然度计算是PLSA模型计算的重要步骤,它不仅用于计算P(w|z)和P(z|d)概率参数,同时也关系到迭代计算的收敛。
图6为Log似然度随迭代变化图,其中横坐标代表代表迭代次数,纵坐标代表Log似然度。为了描述方便,本文将Log似然度进行归一化处理。
图6 Log似然度迭代变化图Fig.6 Log-Likelihood iteration change chart
可以看出,从第1次到第13次迭代,Log似然度收敛很快,而当迭代次数大于等于30的时候,Log似然度变化很小,基本上不再变化。表2为30至34迭代的归一化Log似然度同dl的对照表。
表2 30~34迭代的归一化Log似然度同dl的对照表Tab.2 30 ~ 34 iteration comparison chart of Normalized Log-Likelihood and dl values
3.4 典型日负荷曲线选取
通过PLSA模型计算,可以获得最终的概率参 数, 包 括 P(zk|wi,dj),P(wi|zk) 和P(zk|dj)。而P(zk|wi,dj)为 4×25×5的三维矩阵,记录了每个目标文档中特征词的潜在主题的概率。由于初始聚类时,各电力负荷曲线同特征词之间具有对应关系,因此可以通过对应关系获得各电力负荷曲线的潜在主题,形成新的聚类,进而在各聚类中选取典型日。
在各聚类中选取典型日,需根据实际工作情况,通过一定的选取策略获得典型日负荷。这些策略一般基于最大负荷日,或者基于固定工作日,或者依据选择一定天数的日负荷曲线进行加权计算获得,或者利用人工智能算法来获取典型日,由于人工智能算法能够减少随机因素和主观因素的影响,本文基于距聚类中心的平方差最小的选取方法来提取出最具代表性的负荷曲线。图7为归一化后的选取结果,5条典型日负荷曲线分别为2007年的2月23日、3月11日、5月30日、9月8日、11月5日。
图7 归一化后的典型日负荷曲线Fig.7 Normalized Typical Day Load Curve
在分析2007年气候和节假日状况后发现,2月22日处于春节长假期间,而其他4条日负荷曲线则反映2007年的春、夏、秋、冬4个季节的电力负荷特征。可以看出本文方法正确有效,能够较好的反映节假日、气候等要素对电力负荷的影响,同时由于采用了概率分析的方法,减少了主观和随机因素,对时间和区域的适应性较好。
4 结论
本文将典型日负荷曲线的选取问题转化为基于统计学习的多元分类问题,并将PLSA引入到问题求解过程中,在 K均值聚类算法和 Davies-Bouldin指标的基础上,利用PLSA模型对电力负荷数据进行语义潜在分析,从而优化典型日负荷曲线的选取。实验表明,本文方法选取的典型日合理,能够较好的反映节假日、气候等要素对电力负荷的影响,适应于任意时段电力负荷曲线的选取。
然而同图像、文本聚类相比,目前电力负荷曲线的聚类效果没有具体的量化指标,而且典型日选择时需要综合考虑各种情况,带有一定的预测性质,因此给出电力负荷曲线聚类质量的量化指标较为困难,也是进一步研究的内容。
[1]牛东晓,曹树华,卢建昌,等.电力负荷预测技术及其应用 (第二版) [M].北京:中国电力出版社,2009.
[2]蔡国伟,王大亮,王燕涛,等.一种基于最短距离聚类与关联度分析的典型日选取新方法 [J].中国电力,2008,41(04):15-18.
[3]刘莉,王刚,翟登辉.k-means聚类算法在负荷曲线分类中的应用 [J].电力系统保护与控制,2011,39(23):65-73.
[4]黎祚,周步祥,林楠.基于模糊聚类与改进BP算法的日负荷特性曲线分类与短期负荷预测 [J].电力系统保护与控制,2012,40(3),56-60.
[5]李智勇,吴晶莹,吴为麟,等.基于自组织映射神经网络的电力用户负荷曲线聚类 [J].电力系统自动化,2008,32(15):70-74.
[6]蔡佳宏,刘俊勇.超短期负荷预测中相似日的选择方法 [J].华北电力大学学报 (自然科学版),2006,33(1):38-41.
[7]Yi W B,Tang H,Chen Y H.An object-oriented semantic clustering algorithm for High-resolution remote sensing images using the aspect model[J].IEEE Geoscience ang Remote Sensing Letters,2011,8(03):522-526.
[8]陶超,谭毅华,彭碧发,等.一种基于概率潜在语义模型的高分辨率遥感影像分类方法 [J].测绘学报,2011,40(2):156-162.
[9]刘梦玲,何楚,苏鑫,等.基于 pLSA和 Topo-MRF模型的SAR图像分类算法研究 [J].武汉大学学报 (信息科学版),2011,36(1):122-125.
[10]江悦,润生.基于多特征扩展 PLSA模型的场景图像分类 [J].信号处理,2010,26(4):539-544.
[11]Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(2):177-196.
[12]郑肇葆,郑宏.利用PLSA技术进行图像分割 [J].武汉大学学报 (信息科学版),2012,37(2):132-135.
[13]白素琴,吴小俊.基于模糊聚类算法的有效性指标[J].江南大学学报 (自然科学版),2007,6(6):878-882.