组合预测中变权与定权的应用比较
2018-10-09张鹏
张 鹏
(太原工业学院 理学系,太原 030008)
0 引言
同一预测问题,往往不局限于一种方法,如果简单地舍弃误差大的选择误差小的通常会丢失一些有用的信息,相对科学的做法是综合不同模型的优点,进行适当的组合,即所谓的组合预测方法。多数组合模型的基本思想是将各单一模型预测结果通过加权平均而得到组合预测结果,有线性加权和非线性加权。
王莎莎等[1]以最小误差平方和最小为准则,将ARIMA、混合时间序列和GM(1,1)模型通过线性组合,运用二次规划得出最优权值;陈启明[2]提出了基于灰色关联度的权值确定方法,这些组合模型大多共性都是同一模型在组合中权值是固定的,不随时间变化,即定权组合。
本文针对线性组合权值的确定方法,分别构造定权函数和变权函数,建立基于ARIMA、GM、BP三种单一模型的线性定权组合模型和线性变权组合,并应用于GDP预测,比较二者的优劣,进而来说明组合权值的时效性。
1 组合模型及权值的确定方法
记实际观测序列为{yt},t=1,...,N,对其优选m种不同的单一预测模型,表示第i种单一模型在时刻t的拟合值,各种单一预测方法时刻t在组合模型中的权值记为那么通过组合建立的模型则为单一模型预测值的加权平均,本文讨论的为基于线性加权,即模型表达式如下:
1.1 定权组合及权值确定法
所谓定权,即在组合模型中,同一单项模型在不同时刻权值是固定的,与样本点的先后顺序无关,可以理解为关于时间的常值函数,此时模型(1)为:
常见的定权确定方法有:误差绝对值倒数法、误差平方倒数法、二次规划法等。本文采用的定权是误差平方倒数法和二次非线性规划法分别确定权值。
(1)误差平方倒数法,这种方法根据单一模型的误差来决定组合权数,误差大则在组合模型中权值小。此时模型(2)中权值ωi为:
(2)二次非线性规划法,该方法以误差平方和最小为准则,记为组合模型在t时刻的预测误差;为第i种单一预测模型在t时刻的预测误差,此时模型(2)中权值ωi由式(4)求得:
记误差信息阵为E=(Eij)m,其中;权向量为;m维全 1列向量R=(1,...,,则式(4)可表示为:
根据真实值和预测值可得误差信息阵E,基于Lagrange乘子法[3],借助MATLAB中函数quadprod则可得式(5)的最优解。
1.2 变权组合及权值确定法
所谓变权,与定权不同,即权系数随时间变化而变化,此时组合模型为式(1)。在此,同样以误差倒数法和二次非线性规划法来计算不同时刻的权值。
(2)二次非线性规划法,t时刻的权向量ωt可由式(7)求得:
同样根据求得的Et,基于Lagrange乘子法,利用MATLAB中函数quadprod可得式(7)的最优解。
上述式(6)和式(7)最优解给出了两种样本期内的权值,在预测期,第i种单一模型在时刻N+p时的权值,实质为周期为N的移动平均值[4],定义为:
2 实证分析
由《中国统计年鉴》给出的年度GDP数据(1978—2015年),训练样本数据为1978—2011年,测试样本为2012—2016年,外推预测2017—2019年。首先进行单一模型ARIMA、GM、BP的训练,其次依据本文中定权和变权函数分别构建两种组合模型,最后通过以相对误差指标来分析模型的优劣。
2.1 单一模型
2.1.1 ARIMA模型
由图1明显看出GDP呈现指数趋势,为非平稳时序,故先对原序列进行对数变换log(GDP),然后以ADF检验为准则,判断是否平稳,经过一阶差分运算得到平稳序列Δ log(GDP),见图2,最后结合自相关图和偏自相关图,综合比较模型的AIC、BIC准则,确定了模型ARIMA(4,1,0),表达式如下:
图1 1978—2015年度GDP趋势
图2对数GDP一阶差分
模型参数均具有显著性差异,且残差为白噪声,即不存在自相关性和异方差性,说明模型拟合结果较好。并用于检测样本的预测,预测值与误差见下页表1。
2.1.2 灰色GM(1,1)预测模型
在灰色GM(1,1)模型中,对原始数据首先进行级比判断,通过计算,原始数据的级比值均位于界区之内,所以原始数据可用来建立灰色预测模型。
通过累减还原预测值公式:
得到预测值及误差,见表1。
表1 三种单一模型的预测值及相对误差 (单位:亿)
2.1.3 BP网络预测模型
基于误差反向传播的多层前馈神经网络BP是应用最广的一种NN模型,其结构的关键是隐含层节点数,本文采用“0.618法”来确定,其公式为:
其中,hidN表示隐含节点数,inN表示输入层节点数,outN表示输出层节点数。本文首先将样本数据利用极大极小法则归一化处理至[0,1]区间,连续5个样本作为输入,即第6个数据作为输出,即youtput=y(t),由式(9)可知隐层节点数为6。预测结果见表1所示。
2.2 组合预测模型
2.2.1 定权线性组合
将ARIMA、GM、BP模型定权组合,通过式(3),得权值依次为:0.5410、0.1157和0.3433,得到相应组合模型的预测值见表2;通过求解式(5)得到权值依次为:0.3214、0.2661和0.4125,得到相应组合模型的预测值见表2所示。
表2 定权组合模型预测对比
从表2可看出,定权组合下,相比误差倒数法,二次非线性规划确定的权值对检测样本的预测精度略高。相比表1,两种组合的平均相对误差均小于所有单一预测模型的平均相对误差。
2.2.2 变权线性组合
将ARIMA、GM、BP模型进行变权组合,通过式(6)和求解式(7),得训练样本各时刻的权值,进而通过计算式(8)得检测样本各时刻权值,见表3所示;最后得到相应组合模型的预测值,见表4所示。
表3 变权组合下的权向量
表4 变权组合模型预测对比
综合比较表2、表4,不管是误差倒数法确定的权系数,还是二次非线性规划法确定的权系数,变权组合得到的相对误差均值小于定权得到的误差;而且相比误差倒数法,二次非线性规划法确定的权系数在定权和变权组合中要优。
基于二次非线性规划变权组合模型,表5给出2016—2019年GDP的预测值。
表5 GDP预测值 (单位:亿)
表5给出2016年的预测值为735218.6,而实际GDP为744127,预测结果的相对误差为1.20%,进一步说明变权重组合预测方法相对定权重组合预测方法具有较高的预测精度,即对于时间序列数据,组合预测的权值具有时效性。
3 结论
本文在以1978—2011年度GDP样本数据,建立ARIMA,GM(1,1)以及BP的定权于变权组合预测模型,对2012—2015年数据进行检验,并进一步预测未来短期的GDP发展趋势,得出时间序列数据的组合预测权值具有时效性。相比单一模型和定权组合,变权组合具有一定的优势,但是受影响因素多的复杂性,接下来研究基于多因素变权非线性组合对时间序列预测的问题。