基于滚动误差规律的时间序列预测模型的修正方法

2012-03-15唐家琳

统计与决策 2012年16期

唐家琳，陈静，薛君

（西安邮电大学经济与管理学院，西安 710061）

0 引言

自从计量经济理被引入我国以来，基于时间序列历史数据的经济预测方法不仅在种类上日益增多，并且所运用的范围也越来越广阔。最为常见的是经典计量学中的简单最小二乘法（OLS）、结构向量自回归模型（ARIMA）、脉冲响应及方差贡献及结构方程理论（SEM）的引用；而专门的预测方法也逐渐被引入，如指数平滑法、移动平均法、趋势外推（皮尔曲线和龚伯兹曲线）及滚动天窗法；同时随着数学与经济学学科交叉引起的纯数学理论方法的运用趋势也不断扩大，如机械工程领域的小波理论运用（王正欢，2011）、计算机领域的BP混合算法（尹新，2010）等；还有一些是基于传统时间序列模型加以的改进方法，如顾晨阳（2010）引入组合规划思想，形成了权重变化组合方法对交通流量进行预测。何其慧（2011）采用了一个权重半径的概念，形成优化模型，根据预测区间误差计算权重，最终形成预测依据。但学术界普遍认为，无论采取何种预测方法，也仅仅只能说是“预计的数值”，没有一种能够在较长时间段对所有研究序列实现精确预测的“最佳方法”，对于采取方法的好坏最终还是取决于相对误差程度，这里认为预测误差的根源在于：一是经济环境内在机理的转变，我们经常通过实证研究可以发现某一种预测方法在特定时间段内针对某一特殊指标进行预测的效度很高，但换一个对象或时期研究的模拟精度非常低；二是数理工具本身内在的缺陷，几乎所有方法都是基于一定的假设前提和理论基础，但实际上这些基础条件在现实经济活动中可以说一直不具备，故必然存在缺陷。本文的目的并非在于重新设计一种预测模型，而是在现有模型基础上考虑如何将模型进行改进，那么提高精度的唯一途径是准确认识误差变动规律，采用误差修正的措施对所有预测方法根据实际数据情况进行“精度提升”。

1 基于误差规律的预测偏差修正

1.1 “平均误差滚动”概念的提出

1.2 误差突变点识别与计算

对于两个相邻的平均滚动误差 AFE[i,i+n-1]和AFE[i+1,i+n](i≤n-1)来说，两者之差可以表述为：ϖi+1=AFE[i,i+n-1]-AFE[i+1,i+n]，值越大表明研究区间向后滚动一个天窗后带来的波动性越大，更进一步说是第i+n与i数据之间发生了机理性突变，其实在时间序列发生过程中，两个相邻的数据之间都或多或少发生的突变现象，但由于单个数据之间关系无法准确用方法来刻画其突变过程。上述两个滚动误差之间共同存在的区间是[i+1,i+n-1]，使两个AFE产生差别的根本原因是xi+n与 xi发生数据规律变动，故 ϖi+1又可以表示为AFE[i⇒i+n]，所以在2n个数时间序列下存在n个突变测算点，如图1。

根据上述，得到了以区间长度为n的数据突变规律，记为函数ϖ(n+t)(t=1,2,......n)，具体的函数形式可以根据情况进行拟合。但这样同样会遇到时间序列模型的老问题：这种误差规律的预测同样存在误差，所以如何寻找出科学合理的函数形式或规律轨迹至关重要。一般而言，人们通常根据已知的数据区间[1,2n]根据预测模型想得到2n+1期的实际值，如果AFE[i⇒i+n]数据突变轨迹仍然回重演，则表示由n+1点向2n+1点转变过程中的规律和[1⇒1+n,n⇒2n]运动区间类似。

1.3 数据预测结果的还原与修正

通过加权权重得到了AFE[n+1⇒1+2n]，而这个值的原始意思是[n+1,2n+1]与[n,2n]的平均误差值之差，而由于[n,2n]之间的原始数据和预测数据俱全，故AFE[n,2n]是已知的，同时AFE[n+1⇒1+2n]已知，所以在未预测之处便可由这样的结论：[n+1,2n+1]之间的预测误差为：

1.4 方法意义的进一步探讨

对于几乎所有时间预测方法而言，其本身都是数据规律挖掘的一种方法，虽然它们用不同的机理和方式进行表达，但本质上都具有共性。但历史数据序列由于这样或者那样的原因规律轨迹并不服从一定的连续性规律，或多或少产生突变性现象，而预测方法也只能挖掘到部分信息规律，而对突变规律无法掌握。这种基于误差滚动规律挖掘的方法，正是基于单个预测方法挖掘信息相对固定的潜在特性，对其进行突变误差修正，采用一种倒推的思想理念对由原方法产生的预测值进行修正的处理过程，可以说具有一定的创新性。并且即使是原方法的预测值，也是依靠n个数据区间进行滚动预测的，并非将2n个数据一起采用某预测方法对2n+1期进行预测得到，这样做的目的还是在于要体现误差统计的规律变动。

2 实例运算

本文选取1991～2010年间我国农林牧副渔产业总产值作为预测序列，数据来源于《中国统计年鉴》。将1991年作为时间1，其余时间年份以此类推，构建简单最小二乘法利用EVIEWS5.0软件进行回归，有模型：

图2 原始序列和预测序

表1 平均误差及运算结果

首先对20年的数据进行回归处理，得到C=2053 ,a=2760，同时得到预测序列XF,具体如图2所示。可以发现1991～1998、2007～2010年间实际值高于预测值，而在1998～2006年间相反。相关性检验系数为0.95，说明从序列角度看效果较好，但仍然存在5%的误差，并且误差也具有一定的规律性。

（1）滚动区间预测误差计算

分别对1991～2000、1992～2001、1993～2002、……2001～2010共10个区间段分别采用OLS模型进行回归，得到平均预测误差。从表1可以看出10个滚动区间内的预测平均误差在0.058至0.119之间，说明同样一个回归模型在不同区间中的预测效果不同，在1992～2001中的预测效力最低。

（2）突变点运算结果

用表1中的第二列数据进行相邻区间计算数值进行递级相减，得到第三列，其中正号数值表示后区间的末端点较前区间的前端点发生了负向结构突变，负号数值意义则相反。其中正号个数为4，负号个数为6，说明整体上我国农林牧副渔产值序列有负向结构变化趋势。

（3）赋权运算

距离2011年越远的区间其赋予的权重越低，根据第二部分的权重计算公式可以的到表2。

表2 区间突变权重

（4）预测值的修正

而用2002～2010间9年的数据进行回归，有：

图3 三序列比较分析图

则可以得到修正值为72280.5亿元或71565.6亿元，表明修正系数为1±0.009。而从本案例实际看，在2010预测上实际值要高于预测值，按照就近参照原则，对预测值进行正向修正的可行性要大些，即72280.5亿元是2011年的最佳预测值。

进一步计算讨论。本文在求得突变点规律系数的过程中，分别对10个时间段进行了OLS回归，这样就可以求得区间末端加1期的预测值，如1991～2000数据预测2001的数值，共有10个。图3为区间点预测、实际值和用20年数据OLS回归得到的相应预测值，很明显区间点预测值一直围绕着实际值在波动，比全时间段预测结果更能贴近实际，这是因为长期数据回归过程包含了太多了的历史信息，对最新信息赋予权重不够，造成预测偏差。

3 结论

通过对传统预测方法的经验总结，认为应绕开到底种预测方法更好的传统认识误区，应当从预测误差变动规律入手，在已有的预测方法基础上提出一种修正指数概念，总体来说有以下结论。

（1）所有预测方法都只能算作一种事前估计的方法而已，所以当前很多学者盲目去做基于某特定方法的改进意义有待商榷，应当建立一种具有普遍意义和共性的误差修正方法，能够对所有预测方法进行精度改进。当然本文对滚动误差规律的论述还不深刻，特别是在实例计算中也仅仅涉及到10个区间样本，一般而言数据区间个数越多能够挖掘出的突变信息就越多，但如果就人工进行计算那么计算量非常繁重，故应当设计相应的计算程序能够实现高频数据的直接计算。

（2）正确认识到误差产生的原因才能够降低预测偏差，从而提高精度。到底是信息长度越长越好、还是越短越好，这个问题似乎缠绕了所有理论学者，因为时间序列越长，能够提炼出的信息容量也越大，但各种方法都不约而同的存在一个缺陷：时间越长，一些无用信息或者负面信息也被容纳的越多，尽管当前采用了时期权重的方法进行了修正，但谁也无法保证自身的赋权方法是正确合理的。针对于这个现状，本文提出了滚动区间中的“平均滚动误差”和结构突变规律概念，主要是为了表现区间吞吐数值之间的结构性变化，从而得到对传统预测模型预测结果的进一步无偏估计修正。

（3）案例分析说明，使用滚动天窗式的分别模型运用带来的预测效果从整体上高于全数据预测结果。李运蒙（2004）提出了一种从长短期经济规律变化角度考虑的支持向量机预测精度提高方法，先采用两种模型对经济现象进行模拟，最后将两个预测结果进行集成。本文的想法在某种程度上与该文类似，基本思想是可以通过可观测数据的利用方式整合，尽可能挖掘出有用的信息；不同点在于本文认为，如果经济规律比较稳定，那么就很容易通过精度分析评测出一种最为有效的预测模型，得到了的误差也比较稳定。但在现实中正是因为经济规律变化（短期规律可能稳定、但长期发生变化）产生了误差波动现象，让预测者无所适从，只能依靠一区间内的平均相对误差进行相对评判。针对于新的预测点来说，前面若干年的平均误差程度并不具有很强的参考意义，因为最终考察一种预测模型有效性的标准还是预测点上的误差，所以探寻误差规律和挖掘滚动区间的规律波动非常重要。

[1]王正欢，刘琦，罗朝辉，杨枉元.基于小波分析的全国社会消费品零售总额时间序列预测[J].云南民族大学学报（自然科学版），2011，（3）.

[2]尹新，周野，何怡刚.基于混合算法优化神经网络的混沌时间序列预测[J].湖南大学学报（自然科学版），2010，（6）.

[3]顾晨阳，罗熹，程文龙.变权重组合预测模型在短时交通流预测中的应用[J].统计与决策，2010，（6）.

[4]何其慧,黄德舜,张小霞,毛军军.一种新的区间权重组合预测方法[J].合肥师范学院学报，2011，（6）.

[5]李运蒙.一种基于支持向量机预测模型的精度提高方法与运用[J].数学的实践与认识，2004，（8）.