中长期负荷预测的GMDH多结构自动搜索模型①
2010-08-16程浩忠杨宗麟
林 佳,程浩忠,顾 洁,杨宗麟,王 峥
(1.上海交通大学电气工程系,上海 200240;2.华东电网有限公司发展计划部,上海 200002)
中长期电力负荷预测模型由于受到多因素交互影响,具有复杂系统的非线性动态特性,加之我国正处在政策、经济状况变动较大的发展阶段,诸如结构调整、政策变化以及经济危机等,均可能导致预测模型结构发生变化。结构突变是复杂非线性系统建模中的常见问题,模型变量间的函数关系发生变化,有新的变量进入系统或某一变量分布规律发生变化,均可能引起结构突变[1]。因此,在我国当前的中长期负荷预测中充分考虑结构突变问题是十分必要的。
传统的时序外推负荷预测方法通过动平均、指数平滑等方法[2]平稳数据序列,从而丢失了结构突变点可能包含的重要信息;而结合传统结构突变方法的的预测方法,如干预分析模型、变结构协整模型等[3~5]虽考虑了结构突变问题,但模型选择仍依赖于主观的先验信息(如穷举所有可能的影响事件及其发生时间),而先验信息的主观差异(如政策实施时点与起效时点的偏差等)往往造成分析结论的偏差。此外,也无法证明多少个结构突变才是对系统动态特征的最好描述。
因此,为了提高模型的适应性,近年来采用复杂系统分析方法[6]改进传统结构突变方法的研究逐渐受到重视。如文献[7]提出了一种非参数的系统变结构检测方法,利用神经网络技术对系统的运行规律的结构变化情况进行诊断。而文献[8]则将递归遗传规划方法引入多变量非线性时间序列的系统识别和变结构分析中,提出了对具有长记忆分量序列的向量时间序列的多结构突变分析方法。然而由于人工神经网络不具有显式表达,而遗传算法又存在搜索效率及时间复杂度问题,使得以上方法在实际中的应用受到局限。
数据分组处理方法GMDH(group method of data handling)作为自组织数据挖掘方法的核心,由于其自组织和全局选优特性,建模不依赖于先验信息,能够充分保证模型选择的客观性,不仅具有比人工神经网络更优越的显式表达,又通过内、外准则筛选改善了遗传算法的搜索效率[9,10],成为多结构突变建模中值得考虑的一种有效方法。目前,GMDH方法在电力负荷预测中的应用常见于相关因素的筛选以及向量自回归模型VAR(vector auto-regressive model)滞后长度的确定[5,11],本文则考虑采用GMDH结合多结构突变理论,实现变点自动搜索建模以改进传统的时序外推负荷预测模型。
1 GMDH多层算法的基本原理
GMDH最早由Ivakhnenko(1967)提出,是一种复杂非线性动态系统建模方法[10]。它将样本集划分为训练集和测试集,从参考函数构成的初始模型出发,在训练集上利用内准则进行参数估计,生成竞争模型集,在测试集上利用外准则进行模型筛选。重复这一"进化-遗传-变异-选择"过程,使竞争模型的复杂度不断增加,直至得到最优模型。
GMDH的主要算法有组合算法和多层算法,取决于竞争模型集的生成规则。组合算法运用单层的网络结构生成输入变量的所有可能组合的模型;多层算法则基于迭代原理,对具有线性输入项的局部函数产生一个并行有界的多层网络结构,前向网络流中仅含线性输入变量和信息,是采用不完全归纳法对组合算法的改进。本文主要介绍GMDH多层算法。
选择高阶的K-G多项式作为参考函数,则系统的数学模型可表述为关于系统变量 xi及其高阶项、延迟变量等的非线性函数,即
将式(1)中每个加法单元的非系数部分作为新的自变量,则函数 f转化为线性函数
式中:ui是新的自变量;ai(i=1,2,…,m)是系数;m是新的自变量的个数。将这m个新的自变量作为网络第一层的输入,则该层将产生M1=个局部函数 ,即
重复上述过程,且定义阈值满足m≥F1≥F2≥……≥Fl=1,则在第l层上得到唯一的局部函数,即为系统的最优模型。
2 中长期负荷预测的GMDH多结构自动搜索模型
由于GMDH的自组织特性能大大降低模型选择的主观性,本文结合GMDH多层算法与多结构突变理论,建立了基于GMDH多结构自动搜索算法的负荷预测模型,其建模步骤如下,其流程见图1。
步骤1 建立初始模型。假设电量序列yt共存在m(m ≥0)个突变点,则yt可描述为
式中:k表示滞后长度,GMDH算法将从最大可能滞后长度kmax中自动选择最优的k值;u0、β0分别表示第一层模型(不考虑任何突变点情况下)的截距与斜率;δ Uj、δ T◦tj两项分别表示发生结构突变时在截距、斜率上的变化,且有
式中,tBj表示第j(j≤m)个突变点对应的时间。
步骤2 数据分组。将样本集划分为训练集NA和测试集NB。对应m个突变点,构造m个相应的虚拟变量 δ Uj、δ T ◦tj(j=1 ,…,m)。对于第 j个突变点,将NA中所有点作为可能的突变点tBji,构造相应的虚拟变量 δ Uji、δ T ◦tji(i=1,2 ,…,nA)。GMDH将自动产生大量的竞争模型探测变量之间、变量与滞后变量之间的关系,以确定模型结构和输出变量。
图1 GMDH多结构自动搜索模型的流程Fig.1 Flow chart of GMDH variable-structure auto-searching model
步骤3 确定外准则。可使用稳定性准则,选出全局残差平方和最小的作为最优模型,即
步骤4 确定循环终止条件。定义新增突变点tBj引入后,模型的F增量统计量为
式中:ξ为新模型中的参数个数;ζ为模型中的新变量个数。逐渐增加突变点个数,重复程序。直至某新增突变点tBj使得F值首次小于1,则模型存在j个突变点,程序终止;否则,若F值仍大于1,R2增加,即认为tBj的引入是增加了模型的解释能力,应接受其加入模型,令j=j+1,继续搜寻。
注意到由于初始划分的测试集NB中仍可能存在突变点,需进行二次数据分组,使二次训练集中完全包含原NB中所有数据。返回步骤2重新计算,即可得到序列的所有突变点及其对应的最优模型,整个计算过程实际上需要遍历2次流程。
3 算例分析
采用上述模型,对华东地区1992~2008年产业电量数据进行预测与分析。分别以1992~2005年数据为初始训练集,2006~2008年数据为一次测试集;以1995~2008年数据为二次训练集,1992~1994年数据为二次测试集,采用MATLAB编程计算,求取突变点及最优预测模型。
3.1 突变点搜索结果
突变点搜索结果如表1所示。
表1 突变点搜索结果Tab.1 Results of discontinuity points
根据稳定性准则,程序搜索得到3个突变点,显著性排序为:t1998>t2008>t2001。其中,t1998和t2008是两个较为显著的突变点,引入后,模型残差平方和减小了0.746 1(×102亿kW◦h)2。它们分别解释了1997~1998年间(亚洲金融危机、国企改革、洪灾等)以及2007~2008年间(次贷危机)对电量走势的影响是使电量增速大大减缓。t2001为相对不显著的突变点,主要解释我国大面积电荒引发的电量需求增长。值得注意的是,该结果并未对2005年的节能减排政策的施行给出解释信息,可能原因在于政策的时滞效应,实施初期由于二产用电单耗的不降反升而尚未见其对电量走势的显著影响。
3.2 模型预测结果
对应突变点的搜索结果,得到对应3个突变点情况下的最优预测模型为
采用Eviews5.1软件求取该最优模型的ADF=-2.9891<-2.5968,小于1%临界值,认为原电量时间序列为结构突变的趋势稳定过程。从模型上看,1998、2008年处的斜率变动正反映了两次经济危机对电量增长速度的抑制作用。
为对比起见,本文同时采用二次指数平滑模型及一阶滞后回归模型[12]进行了预测,三种模型预测结果及残差分布情况分别如图2和图3所示。
图2 三种模型的负荷预测结果Fig.2 Load forecast results of each method
图3 三种模型预测结果的相对误差Fig.3 Relative error of each method
由此可见,与传统时序外推模型相比,本模型显著改善了各突变点附近的负荷预测精度,提高了残差的平稳性,最大相对误差为2.09%(其余两种模型约为6%),平均相对误差仅0.77%(其余两种模型约为2.7%),模型的整体预测精度有了显著提高。
4 结语
本文结合GMDH多层算法与多结构突变理论,提出了基于GMDH多结构自动搜索算法的负荷预测模型。采用该模型对华东地区1992~2008年全产业电量数据进行了预测分析,结果表明了该模型的有效性。该模型通过自组织优化网络结构,能够客观准确地识别时间序列中的所有突变点,并充分利用突变点信息修正由于经济环境和突发事件引起的预测偏差,大大提高了传统负荷预测模型的精度。
由于可同时考虑所有可能的结构突变点,且不对突变类型和选择模型进行先验设定,该模型在建模思想、预测精度以及对复杂问题的处理能力上,均优于传统的时序外推负荷预测方法,尤其适用于我国当前经济、政策变化较大时期的负荷预测。
[1] Bai Jushan.Likelihood ratio tests for multiple structural changes[J].Journal of Econometrics,1999,91(2):299-323.
[2] 康重庆,夏清,刘梅,等.电力系统负荷预测[M].北京:中国电力出版社,2007.
[3] 王庆露,葛虹(Wang Qinglu,Ge Hong).基于协整理论和干预分析的中国电力需求预测(The forecasting of power demand in China using cointegration theory and intervention analysis)[J].数理统计与管理(Application of Statistics and Management),2007 ,26(5):753-758.
[4] 李翔,高山,陈昊(Li Xiang,Gao Shan,Chen Hao).基于变结构协整理论的中长期电力负荷预测模型(A new medium-and long-term load forecasting model based on variable structure cointegration theory)[J].电网技术(Power System Technology),2007,31(9):48-52.
[5] 吴宏晓(Wu Hongxiao).基于软计算方法的电力系统负荷预测(Load Forecasting Based on Soft Computing)[D].上海:上海交通大学电气工程系(Shanghai:College of Electrical Engineering,Shanghai Jiao Tong University),2007.
[6] 康银劳(Kang Yinlao).基于自组织建模的成都GDP增长及影响因素研究(Study of GDP Increase and the Influencing Factors in Chengdu Based on Self-Organization Theory)[D].成都:西南交通大学管理科学与工程(Chengdu:College of Science and Engineering,Southwest Jiaotong University),2007.
[7] 李松臣,张世英(Li Songchen,Zhang Shiying).变结构门限t-GARCH模型及其伪持续性研究(Research on threshold t-GARCH model with structural change and its spurious persistence)[J].数量经济技术经济研究(The Journal of Quantitative and Technical Economics),2006,23(7):126-133.
[8] Sun Qinghua,Zhang Shiying,Liang Xiongjian.A model-free method for structural change detection in multivariate nonlinear time series[J].Journal of Systems Engineering and Electronics,2003,14(2):36-46.
[9] Muller J A.GMDH algorithms for complex systems modeling[J].Mathematical and Computer Modeling of Dynamical Systems,1998 ,4(4):276-316.
[10]Ivakhnenko A G,Savchenko E A,Ivakhnenko G A.Problems of further GMDH algorithms development[J].System Analysis Modeling Simulation,2003,10(43):1301-1309.
[11] 田益祥(Tian Yixiang).基于GMDH的 VAR滞后选择方法及实证分析(A new method of choosing variable lag in the model of VAR and its application)[J].武汉科技大学学报:自然科学版(Journal of Wuhan University of Science and Technology:Natural Science Edition),2002,25(1):105-107.
[12] 虞瑄,程浩忠,游仕洪,等(Yu Xuan,Cheng Haozhong,You Shihong,et al).中长期电力负荷预测软件包的开发与应用(Development and application of power system mid-long term load forecasting software package)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2004,16(2):9-12,57.