APP下载

基于时间序列分析的湖北省GDP预测模型研究

2021-10-13瞿海情何先平

关键词:时间序列分析R语言ARIMA模型

瞿海情 何先平

摘 要:分析1978年至2019年的湖北省GDP数据,建立了时间序列分析中的自回归滑动平均求和模型ARIMA(p,d,q),利用该模型对湖北省GDP进行短期预测,为湖北省经济的发展提供参考。建立1978年至2017年湖北省GDP数据的时间序列,利用R语言软件建立ARIMA模型,并用该模型预测的2018年和2019年湖北省GDP数据与实际数据进行比较,对建立的模型进行优化评估,最后利用优化模型对2020年和2021年湖北省GDP进行短期预测。根据建立的时间序列分析得到最优模型为ARIMA(0,2,3),预测值与实际值的平均相对误差为10.585%,ARIMA模型能较好地反映湖北省GDP发展的趋势并进行短期预测。

关键词:时间序列分析;ARIMA模型;R语言

一、引言

国内生产总值(Gross Domestic Product)是体现经济发展情况的一个重要指标,而研究GDP的数值对预测经济的发展起到了极大的参考作用。如果能正确的预测出GDP的发展,那么就可以依据预测的结果,为国家或地区在制定经济政策方面上提供依据和参考作用。然而任何一个国家的国民经济有许多因素构成,我国国民经济的重要组成部分之一则是各个省区的经济,一些发展比较迅速的省区更是对全国经济的增长起到了推动了作用,而一些发展比较缓慢的省区,其原因和解决的方法也是很值得我们去研究的。

Gwilym和George[1-6]主要介绍了ARIMA模型建立的详细过程,分为模型的识别、估计、检验和预测这四个过程。赵蕾、陈美英[7]在分析福建省GDP发展状况时,采用的是时间序列分析中ARIMA模型的方法来进行预测分析的,最终确定了ARIMA(5,3,6)模型对GDP数据的拟合效果更好,实验的结果也说明了福建省GDP在未来的三年中将保持高速增长。华鹏、赵学民[8]在分析广东省GDP的发展状况时,利用方法来分析建立ARIMA模型,最终确定ARIMA(1,1,0)模型对GDP数据的拟合效果更好,并用该模型预测了广东省2005年至2008年的GDP,最后得出用ARIMA模型来短期预测GDP效果更好的结论。彭乃弛、党婷[9]利用ARMA-GM-BP组合模型来对GDP进行分析和预测,在与单个模型的比较中发现,用GM模型预测GDP的誤差偏大,但用ARMA-GM-BP组合模型和ARMA模型进行预测时,得到的误差都比较小,分析得到这两种模型都适合做GDP的预测。张文韬、李瑛琪[10]对河南省GDP的数据进行了分析,利用残余自回归模型对建立的ARIMA(0,1,4)模型进行检验并通过,证明了该模型可以用来预测河南省GDP,但是该模型只适合在短期内,预测河南省GDP未来的趋势。

湖北省是一个比较发达的省份,而它所处的地理位置和众多人数也对全国经济的发展起到了很重要的作用。最近几年来,湖北省的经济呈现快速增长的趋势,但是这个趋势能保持多久却是我们需要仔细考虑的问题。所以本文就对湖北省的GDP数据进行分析研究,而研究GDP具有一定的现实和指导意义。本文选择时间序列分析的方法对湖北省GDP进行预测,时间序列预测是通过处理自身时间序列的数据来研究其变化趋势的,也就是通过分析过去和现在的数据来预测未来的数据,而分析处理数据的过程就是建立模型的过程,然后再依据建立的模型来预测出未来数据的变化。

二、ARIMA模型简介

时间序列分析方法,主要是用来解决具有随机性、季节性以及平稳性的时间序列问题的,它是由博克斯-詹金斯(Box-Jenkins)发现的。最基本的模型是自回归滑动平均求和模型ARIMA(p,d,q),当p=0,d=0时,就是滑动平均模型MA(q),当q=0,d=0时,就是自回归模型AR(p),当只有d=0时,模型就变成了自回归滑动平均混合模型ARMA(p,q),所以后三种模型是ARIMA模型的特殊形式。

(一)ARMA(p,q)模型

ARMA(p,q)模型是自回归模型(AR)和滑动平均模型(MA)的混合形式,所以它又称为自回归滑动平均混合模型,方程形式为:

其中,c是常数,是自回归模型AR的系数,p是AR的阶数,是滑动平均模型MA的系数,q是MA的阶数,et是均值为0方差为σ2的白噪声序列。

(二)ARIMA(p,d,q)模型

ARMA模型只能在的平稳时间序列中应用,对于非平稳的序列,ARMA模型却不再适用,这时就需要引入一个新的模型,即ARIMA模型,ARIMA模型主要解决非平稳的时间序列问题。

是一个不平稳的时间序列,在d次差分运算后,序列逐渐趋于平稳,就称是自回归滑动平均求和混合模型。如果差分后的序列满足ARMA(p,q)模型,就称是ARIMA(p,d,q)过程,模型的方程是:令,有Wt=Yt-Yt-1:

用序列符号Yt来表示:

通过化简可以得到:

称其为模型的差分方程形式。值得注意的是,该表达式看起来是一个ARMA(p+1,q)过程。

从上述方程之间的相互转化可以推断出,ARIMA模型实际上就是差分运算和ARMA模型之间的结合,首先是利用差分的方法,将不平稳的时间序列转化成平稳的,然后再利用ARMA模型的方法来进行求解。

三、ARIMA模型的建立与预测

(一)模型识别

对于一个确定的时间序列,怎么样去选取合适的p,d,q值是模型识别的首要任务。第一步最重要的就是检验数据是否是平稳的,依据画出的时间序列折线图先做一个初步判断,观察图形是否在一个定值附近上下浮动,若是,就初步判断序列是平稳的,接着再采用ADF单位根检验的方法来进行判断,这种方法比前种方法的准确性更高也更具说服力。如果折线图是增长或者下降的,那么此时的序列是不平稳的,一般将序列的值取对数或者进行差分运算的方法,接着再判断处理后的序列是否是趋于平稳的。若不是,则重复该过程直至序列平稳,而在这个过程中差分的次数就是d的值,平稳后的时间序列就可以利用ARMA模型的过程来进行求解,由此ARIMA(p,d,q)模型的问题就转化成了ARMA(p,q)模型问题,当然为了保证模型的简洁性和信息的准确性,应该避免差分次数过多所造成的误差过大问题。

对于平稳的时间序列而言,可以利用计算机软件画出序列的自相关图(ACF)和偏自相关图(PACF),通过画出的图进行观察分析,初步判断模型的p,q值,p,q值的选择标准见表1。选择的p,q不同ARIMA(p,d,q)模型也不同,此时则是根据AIC或BIC准则来评价模型的好坏,当AIC或BIC最小时,ARIMA(p,q)模型拟合的最好。

(二)模型估计

通常采用极大似然估计法来估计ARIMA(p,d,q)模型中的未知参数。

(三)模型检验

模型检验主要是检验模型对时间序列拟合的好坏,如果拟合的效果很差,就需要重新选择新的模型,直到拟合效果达到最好。模型检验既要对参数的估计值进行检验,又要对残差序列进行检验,如果检验的参数估计值是显著的并且残差序列是白噪声序列,则模型通过检验,说明模型的拟合效果很好,如若不是,则需要重新选择模型使其通过检验。通常采用统计量检验的方法来判断残差序列是否为白噪声。

(四)模型预测

根据模型检验和比较的最后结果,利用所构建的ARIMA(p,d,q)模型,用R软件中的预测功能对模型进行预测,得到原始时间序列图的将来变化趋势,对比预测的数值和实际的数值进行误差分析,进一步验证模型是可行的。

四、ARIMA模型对湖北GDP的预测及实证结果分析

本文对湖北省1978—2019年的42个GDP数据进行了分析,为了检验模型的说服力以及正确性,现在选取前面40个GDP数据用来建模,并用后面2年的数据来检验模型的拟合效果,最后再来预测2020年与2021年的GDP。

(一)数据平稳性检验与处理

根据1978-2017年的湖北省GDP数据,画出时间序列图如图1所示。

从图中可以看出,GDP的数据呈现增长的趋势,并没有出现周期性和季节性的波动,显而易见,这个时间序列初步判断是非平稳的。针对这个时间序列进行ADF单位根检验,可以得到p=0.9391,p>0.05,因此这个时间序列是非平稳的。

对这个非平稳的序列进行第一次差分,得到一次差分后的折线图如图2所示,图中有明显的增长趋势,初步说明序列是不平稳的,在进行单位根检验后,得到,p=0.5585,p>0.05进一步证明序列是不平稳的。这时需要进行第二次差分,得到二次差分后的折线图如图3所示,从图3可以看出序列是围绕0值上下波动的,但还是需要进行单位根检验来加以证明,最后得到p=0.04505,p<0.05,证明了此时的时间序列是平稳的。因此认为ARIMA(p,d,q)中d=2。

(二)确定ARIMA模型的阶数

从上述分析得到,二次差分后的湖北省GDP序列是平稳的,利用R软件,画出二次差分后序列的自相关PACF图和偏自相关ACF图,如图4和图5所示。

观察分析两个图可以得到,自相关系数在3阶之后是逐渐趋于零的,偏自相关系数显示拖尾,所以选取p=0,q=3,但是这样估计的模型具有很大的主观性,同时建立多个ARIMA模型以消除误差,分别选择:ARIMA(0,2,1),ARIMA(0,2,2),ARIMA(0,2,3),ARIMA(0,2,0),ARIMA(1,2,3),得到每个模型的AIC值见表2,从表中观察得到,ARIMA(0,2,3)模型的AIC值最小,因此该模型是最好的。

(三)模型的检验

对ARIMA(0,2,3)模型的残差进行白噪声检验,如果统计量的P值大于给定的显著性水平,则模型检验通过可以用来预测。现利用R软件,得到p=0.8922,p>0.05,因此模型通过检验,可以用来预测。

(四)模型的预测

利用通过检验的ARIMA(0,2,3)模型,预测2018年和2019年的湖北省GDP,预测结果如表3所示。

从表中的结果分析得到,平均相对误差为10.585%,从数据上看,该模型预测短时间内的值是比较准确的。1978年至2017年的GDP增长还比較的平缓,但是从2017年到2018年湖北省的GDP增长是非常迅速的,这与中国2018年举办了首届进口博览会有一定的联系,博览会的举办对经济的增长起到了很大的积极作用。从表格中分析得到随着预测时间周期的延长,预测的误差会逐渐增大。

用得到的模型预测湖北省2020年和2021年的GDP,预测的结果分别为43345.68亿元和46033.68亿元。但是由于2020年新冠肺炎疫情的影响,2020年的GDP肯定会受到影响,所以预测出来的数据只能作为参考作用。

五、结语

时间序列主要是利用过去和现在的数据对未来数据进行预测的一种方法,在实际中应用广泛,时间序列的模型比较简单,对数据的要求也不高。

在建模分析预测的过程中,首先建模数据需要满足平稳性的条件,若不满足,则需要进行处理使其通过检验,比如处理的方法有差分和取对数,然后再依据画出的ACF图和PACF图,确定出模型为ARIMA(0,2,3),接着模型要通过参数的显著性检验和残差的白噪声检验,增加模型的可信度使其更具说服力,预测的结果与实际值之间的误差比较也证明了模型的可行性。在实际应用过程中,ARIMA模型预测短期的效果很好,但预测时间的延长会导致模型的误差变大。比较2018年、2019年的预测值和实际值的过程中,会发现误差还是不能够忽视的,这与2018年中国首届博览会的召开有一定的关系,还有“一带一路”对经济的影响,这些都是影响GDP增长的因素,也是模型中所无法体现出来的经济因素,因此用ARIMA模型只能做短期的预测,仅以用来参考。

参考文献:

[1] George Edward Pelham Box. Science and Statistics[J].Journal of the American Statistical Association, 1976(71)791-799.

[2] George Edward Pelham Box. Empirical Model-Building and Response Surfaces[M].State of New Jersey: John Wiley & Sons, Inc, 1987.

[3] George Edward Pelham Box. Statistics for Experimenters (2nd ed.)[M].State of New Jersey: John Wiley & Sons, Inc, 2005.

[4] Gwilym Meirion Jenkins. Case Studies in Time Series Analysis[M].State of New Jersey: John Wiley & Sons, Inc, 1983.

[5] Gwilym Meirion Jenkins. Practical Experience with Modelling and Forecasting Time Series[M].State of New Jersey: John Wiley & Sons, Inc, 1979.

[6] George Edward Pelham Box, Gwilym Meirion Jenkins. Time Series Analysis: Forecasting and Control[M].State of New Jersey:John Wiley & Sons, Inc, 1970.

[7] 趙蕾,陈美英.ARIMA模型在福建省GDP预测中的应用[J].科技和产业,2007,7(1):45-48.

[8] 华鹏,赵学民.ARIMA模型在广东省GDP预测中的应用[J].统计与决策,2010,2010(12):166-167.

[9] 彭乃弛,党婷.基于ARMA-GM-BP组合预测模型及应用[J].统计与决策,2016,(2):80-82.

[10] 张文韬,李瑛琪.基于ARIMA模型的河南省GDP指数分析[J].洛阳师范学院学报,2019,38(2):11-14.

猜你喜欢

时间序列分析R语言ARIMA模型
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
基于时间序列模型的中国出口总额分析及预测
基于R软件的金融时间序列的预测分析
基于Eviews上证综合指数预测
基于ARIMA模型的沪铜期货价格预测研究
基于R语言的湖南产业结构对其经济增长贡献分析
注重统计思维培养与应用为主导的生物统计学课程建设
微信公众号未来发展态势的实证预测
中国石化产业产能过剩测度及预警