基于加权偏最小二乘回归的中长期负荷预测
2014-09-17陈素玲姚建刚
陈素玲,姚建刚,龚 磊
(湖南大学 电气与信息工程学院,长沙 410082)
基于加权偏最小二乘回归的中长期负荷预测
陈素玲,姚建刚,龚 磊
(湖南大学 电气与信息工程学院,长沙 410082)
针对中长期负荷预测,考虑各历史样本在建立适用于预测对象的模型时处于不同的地位,应分配不同的权值,提出一种基于加权偏最小二乘回归(weighted partial least squares regression,WPLSR)的预测方法。利用相似离度计算历史样本与预测对象的相似度,判定样本是否含有异常值,自适应地为历史样本分配权值,进而采用偏最小二乘回归(partial least squares regression,PLSR)提取主成分和回归分析。算例结果表明WPLSR方法的预测精度比普通PLSR模型有显著提高,具有良好的可行性和有效性。
中长期负荷预测;偏最小二乘回归;相似离度;权值
电力系统中长期负荷预测工作是电网规划及制定年度检修计划、运行方式的重要基础。准确的负荷预测有利于提高电网运行的安全稳定性,有效地降低发电成本,保证用电需求,增强供电可靠性,从而提高电力系统的经济效益和社会效益[1]。
由于影响中长期负荷预测的因素很多,如:气候因素、经济因素、能源因素等,各因素之间存在着严重多重相关性,国内外研究学者建立了许多实用的预测模型[2—8]。其中,偏最小二乘回归分析在中长期电力负荷预测的应用比较突出,文献[2]—[3]采用偏最小二乘回归(partial least squares regression,PLSR)进行中长期负荷预测,解决了多重共线性的问题且模型的解释能力较好,表明了PLSR在中长期负荷预测中的实用性和有效性;文献[4]在PLSR的基础上引入正交信号修正法对原始数据进行预测处理,进一步提高了模型的预测精度;文献[5]先采用灰色建模预测,再以经验风险最小的预测值代替原始数据进行PLSR建模,削弱了随机因素的影响;文献[6]采用Bootstrap方法筛选自变量,剔除那些对负荷影响不显著的因素,然后进行PLSR回归分析;文献[7]采用神经网络对PLSR建模过程中产生的权值和回归系数进行修正,这几种方法都在一定程度上提高了模型的预测精度。
本文为得到适用于预测对象最优历史样本集,引入了相似离度自适应为历史样本分配权值,同时也将利用相似离度判定样本是否含有异常值,然后对新的样本序列进行PLSR建模。在PLSR的基础上,构建了加权偏最小二乘回归(weighted partial least squares regression,WPLSR)模型,结果表明,新模型的电力负荷预测结果更加精确。
1 基于相似离度的样本相似度计算
1.1 相似离度的数学意义
衡量2个样本之间的相似程度须从“形”和“值”2个方面去比较:①相似系数描述样本内数据变化规律的差异性,反映2个样本之间的形状相似程度,即为“形”的相似程度;②距离系数描述样本数据的数值差异性,反映2个样本的因子之间在总平均数值上的差异程度,即为“值”的相似程度。相似离度将相似系数和距离系数有机结合起来建立统一的模型,以更精确地判断数据样本间的相似程度[9—10]。
1.2 相似系数
为消除因子数值变化域的不同,须先把因子原始数据标准化。设负荷数据库中包含p个样本,每个样本含有m个影响因子。将数据中的影响因子样本记为矩阵 X={xij}p×m,其中xij为第i个样本在第j个影响因子上的取值,数据标准化公式
经过标准化后,所有样本的因子数据都统一变为0~1之间的数值,即0≤zi≤1。
设经过标准化后的2个样本数据的因子相量分别为Zi={zi1,zi2,…,zim},Zj={zj1,zj2,…,zjm},相似系数为
相似系数的值域为[0,1],Sij=1表示2个样本完全相似,Sij=0表示两个样本完全不相似。
1.3 距离系数
距离系数有多种表达形式,若采用较为常用的欧氏距离,其表达式为
欧氏距离系数为有量纲数据,为与相似系数的数值意义保持一致进而建立相似离度综合指标,取相对欧氏距离系数为
式中:Dmax为样本集间存在的最大欧氏距离。相对欧氏距离系数的值域为[0,1],Eij=1表示2个样本在数值上的完全没有差异,Eij=0表示2个样本的数值差异程度最大。
1.4 相似离度计算模型
对相似系数Sij和相对欧氏距离系数Eij进行权重赋值后建立相似离度Aij的计算模型
式中:α∈[0,1],表示相似系数在相似离度的计算中所占的重要程度。
相似离度Aij的值域为[0,1],Aij=1时可认为2个样本数据相似程度最大,而Aij越小则表示2个样本数据相似程度越小。Aij即为本文所定义的样本相似度。
1.5 异常样本的辨识
由以上分析可知,相似离度Aij越小,表示2个样本数据相似程度越小,但也不能排除是存在异常样本的缘故,相似离度Aij越小,也表示样本存在异常值的概率越大。预测对象有n个样本时(n≥1),计算历史样本i(1≤i≤p)与预测对象j(1≤j≤n)的相似离度将得到Ai1,Ai2,…,Ain,本文取其中的最小值(记为Aij(min))作为样本i与预测对象的相似离度值,在检测异常样本时,本文进一步选取Aij(min)中值较小的p/5(四舍五入)个样本进行核实。
2WPLSR模型
2.1 PLSR原理
偏最小二乘回归(PLSR)[11]是一种先进的多元统计分析方法,集中了主成分分析、典型相关分析和线性回归分析方法的优点,能有效的解决变量间多重相关性的问题,较适用于中长期电力负荷预测中影响因素多重相关的分析。本文的中长期负荷预测为单因变量,单因变量PLSR回归建模过程如下。
(1)数据的标准化处理。设自变量矩阵X=[x1x2…xk]n×k和因变量矩阵 Y=[y]n×1。将 X 与 Y进行标准化处理,得到标准化后的自变量矩阵E0和因变量矩阵F0。
其中是矩阵的最大特征值所对应的特征向量。残差矩阵
(4)交叉有效性分析,主成分提取的终止准则。每增加一个新成分th都需要检验其引入能否对模型的预测精度有明显的改进,有改进则该成分被引入。设h个成分拟合后,ŷhi是yi的拟合值,去除样本i,利用剩余的样本提取h个成分回归计算得到yi的预测值为ŷh(-i)。记一般认为当≥0.097 5时,增加成分th对于预测的贡献是显著的,否则不引入此成分,停止主成分的提取。
(5)建立回归方程。根据以上步骤,确定共提取m个主成分,F0的回归方程为
最后,通过标准化的逆过程,得到y关于xj的回归方程为
2.2 WPLSR模型的建立
WPLSR认为在建立适用于预测对象的模型时,各历史样本处于不同的地位,应赋予不同的权值,权值的大小将根据样本与预测对象之间的相似度进行分配。依据样本与预测对象的相似度应有多种权值分配方案,本文采用等权分配方案:设权值分配参数为m,与预测对象相似度最高的前m个样本权值为1,其余样本权值为0。WPLSR模型的预测流程如图1所示。
图1 基于WPLSR的预测流程图
3 WPLSR应用在中长期负荷预测的实例分析
3.1 原始数据
为验证基于WPLSR中长期负荷预测模型的可靠性和有效性,本文采用某地区1990—2009年社会经济发展指标及全社会用电量的数据进行建模和预测,数据见表1。其中:x1为第一产业产值;x2为第二产业产值;x3为第三产业产值;x4为农村居民消费支出;x5为城镇居民消费支出;x6为政府消费支出;x7为人均国内生产总值;x8为固定资产投资额;y为全社会用电量。本文将1990—2005年的数据作为历史样本,2006—2009年的全社会用电量作为负荷预测模型检测数据。
表1 某地区1990—2009年社会经济发展指标及全社会用电量
3.2 异常样本辨识
采用本文的WPLSR模型计算16个历史样本与4个预测对象的相似离度,选取计算结果最小的3个样本分别为:1998年、2003年、1993年,核实发现1993年无异常值,而1998年和2003年确实含有异常数据,1998年城镇居民消费支出为329.66万元,2003年第三产业产值为616.40亿元,修正异常数据更新历史样本重新进行计算与预测。
3.3 成分解释能力分析
PLSR模型成分的解释能力是模型携带多少数据信息的重要标志[4]。本文对原样本数据(含有异常值,记为样本I)和核实后的样本(记为样本II)分别用普通PLSR建模、WPLSR建模,由于WPLSR模型能够识别异常样本,因此WPLSR模型对样本I和样本II的预测结果是一致的,将合并讨论。表2比较了对样本II的PLSR模型和WPLSR模型的成分解释能力。表中R为成分对变量的累计解释能力,计算公式如式(12)所示。
式中:r(xi,tj)表示xi和tj的相关系数。
表2 成分解释能力对比
从表2可以看出,2个模型的成分对自变量和因变量的累计解释能力均能达到99%以上,因此,WPLSR模型并没有破坏普通PLSR模型的良好解释能力。
3.4 预测结果分析
上述3种情况下的预测结果见表3所示,针对2009年用电量的预测可以看到:样本I的PLSR模型误差达到12.57%,样本II的PLSR的模型误差达10.38%,WPLSR预测的误差为5.74%,样本Ⅱ的PLSR预测结果优于样本Ⅰ的PLSR预测结果,说明识别异常样本对于提高预测精度是十分重要的。相比之下,WPLSR模型精度最高,表明通过引入样本相似度的计算和样本异常值的检测,能够自适应选择适用于预测对象的最优样本,避免了传统PLSR将坏样本和好样本同等对待的情况,有效地提高了预测精度。
4 结论
本文在PLSR模型的基础上,引入样本相似度的计算、样本异常值的判定及样本权值的分配,构建了WPLSR模型。该模型利用相似离度的计算来修正样本权值以及检测样本是否含有异常值,以此得到适合预测对象的最优样本集。通过实验表明,该方法没有破坏传统PLSR良好的解释能力,且在PLSR模型的预测结果上得到了较好的改善,验证了该模型的有效性。
表3 预测结果比较
:
[1]牛东晓,曹树华,赵磊,等.电力负荷预测技术及其应用[M].北京:中国电力出版社,1998:5-30.
[2]毛李帆,江岳春,龙瑞华,等.基于偏最小二乘回归分析的中长期电力负荷预测[J].电网技术,2008,32(19):71-77.
[3]王文圣,丁晶,赵玉龙,等.基于偏最小二乘回归的年用电量预测研究[J].中国电机工程学报,2003,23(10):17-21.
[4]毛李帆,江岳春,姚建刚,等.采用正交信号修正法与偏最小二乘回归的中长期负荷预测[J].中国电机工程学报,2009,29(16):82-88.
[5]牛东晓,李春祥,孟明.基于灰色和偏最小二乘方法的年度负荷预测[J].华东电力,2009,37(6):989-992.
[6]季泽宇,袁越,邹文仲.改进偏最小二乘回归在电力负荷预测中的应用[J].电力需求侧管理,2011,13(1):10-14.
[7]张成,滕欢.基于偏最小二乘法与BP神经网络的电力中长期负荷预测[J].电力建设,2012,33(7):26-29.
[8]徐聪颖,廖峰,陈震海.灰色组合模型在中长期电力负荷预测中的应用[J].电力需求侧管理,2011,13(2):20-23.
[9]李开乐.用相似离度做台风全路径预报[J].海洋预报,1987,4(2):1-7.
[10]张杨,叶舒帆,高立群.一种基于相似离度匹配的人脸精确跟踪算法[J].东北大学学报:自然科学版,2011,32(2):188-192.
[11]王惠文.偏最小二乘回归方法及应用[M].北京:国防工业出版社,1999.
[12]康重庆,夏清,张伯明.电力系统负荷预测研究综述与发展方向的探讨[J].电力系统自动化,2004,28(17):1-11.
Mid⁃long term load forecasting based on weighted partial least squares regression
CHEN Su⁃ling,YAO Jian⁃gang,GONG Lei
(Hunan University,Changsha 410082,China)
Considering that historical load samples each have asymmetrical status and should be assigned to different weightings in the med⁃long⁃term load forecasting,this paper pro⁃poses a weighted partial least squares regression(WPLSR)algo⁃rithm.The specific modeling procedures are:Analog Deviation be⁃tween the historical samples and predicting samples is computed;identify abnormal samples;adjust sample weights;partial least squares regression analysis.Experimental results show that the pre⁃diction accuracy of the weighted partial least squares regression(WPLSR)algorithm is remarkably higher than that of traditional PLSR model.the proposed modeling method is practicable and ef⁃fective.
mid⁃long term load forecast;partial least squares regression;analogue deviation;weight
TM715;F407.61
B
1009-1831(2014)01-0021-04
2013-09-06;修回日期:2013-10-14
陈素玲(1989),女,回族,河南开封人,硕士研究生,主要从事电力系统规划及负荷预测方面的研究;姚建刚(1952),男,湖南望城人,教授,博士生导师,主要从事电力市场及负荷预测方面的研究;龚磊(1988),男,湖南邵阳人,硕士研究生,主要从事电力系统规划及输电线路状态检修、诊断方面的研究。