半参数可加自回归模型在我国GDP预测中的应用
2021-10-13谢成兴王丰效
谢成兴,王丰效*,聂 僮
(1.喀什大学 数学与统计学院,新疆 喀什 844000;2.中国农业大学 生物学院,北京 100193)
0 引言
GDP对国家制定货币、财政政策进行宏观调控和企业进行投融资决策具有重要的参考价值,如何对GDP进行科学预测一直是宏观经济学的重要研究领域.我国在2016~2019年期间的宏观经济增长稳定且波动幅度收窄,相比于经济旧常态下的中高速增长[1],新常态下的经济明显保持着稳定的中低速增长.然而,国内供给侧改革推进产业结构升级和经济结构的变化,加上全球疫情蔓延和经济金融风险的不确定性因素,给经济发展增加了下行压力.通过预测未来GDP的走势,辅助制定经济增长目标和宏观政策也面临了较大的挑战.选择合适的预测工具对GDP精确地预测,是值得关注的重要课题.
GDP时间序列数据包含了经济运行过程中的随机性、线性波动性和非线性波动性特征,被广泛地应用于GDP预测模型构建和分析,模型包括灰色预测[2]、神经网络[3]、计量经济模型[4]以及各类组合预测模型等[5-6].在预测中,主要考虑数据的两个特征进行建模,一是GDP时间序列数据的线性特征;二是非线性特征.线性特征描述的是一种宏观经济中恒定的变动规律,无法很好地解释经济系统中复杂的变动现象.近年来,时间序列的非线性特征也越来越被人们所关注,特别是将神经网络引入解决非线性的模型中,拟合效果和预测效果都表现出了显著的优势[7-9].半参数回归同时含有参数和非参数分量[10],比线性模型更为灵活,又优于非参数回归模型,而混合了参数和非参数的半参数回归模型在解决线性和非线性叠加的系统中具有很好的拟合效果.考虑自回归(AR)模型,滞后期阶数作为解释变量时,常常出现滞后期变量的选择并不具有显著的统计学相关性,在将该变量引入回归方程时禁不起显著性的检验,将不显著的变量剔除模型或者继续做线性回归都不是很好的解决方案.韩玉涛[11]将自回归模型中的不显著变量进行剔除,并把外生变量作为半参数引入自回归模型,其预测效果明显比单独的回归模型要精确;杨凯[12]认为自回归模型是半参数可加自回归模型的退化形式,推导半参数可加自回归模型估计量的强相合性和渐近正态性,并利用黄金价格数据检验了模型的改进效果;刘洪[13]建立半参数回归模型用于检验我国GDP数据的准确性.半参数可加自回归模型采用的非线性回归函数能克服AR模型对解释变量线性结构的约束,使模型更加符合观测数据的客观规律,更具一般性.
鉴于半参数回归模型在时间序列分析上的成功应用,本文从GDP时间序列数据的线性和非线性特征出发,将自回归(AR)模型中不具显著相关性的滞后期变量作为非参数部分,构建半参数可加自回归模型.利用我国1978~2019年的GDP时间序列数据构建模型,并进行分析和比较.
1 模型介绍
1.1 自回归模型
一系列时间点上的观测数据构成的随机变量序列{Yt:t=0,±1,±2,±3,…}是一个平稳时间序列,可以利用具有自相关的滞后阶变量和随机项的线性组合对当期变量进行解释,自回归(AR)模型可以表示为
(1)
其中,Yt为n行1列的当期被解释变量;X=(Yt-1,…,Yt-p)为n-p行p列的滞后期解释变量矩阵;β=(β0,β1,…,βp)Τ为p+1行1列的待估参数;εt包含了序列在t期无法用滞后阶信息来解释并独立于滞后期解释变量的残差向量.
自回归(AR)模型的滞后期解释变量选择决定回归方程解释能力,即X=(Yt-1,…,Yt-p)对Yt进行解释.通常选择解释变量的方法可以依据自相关图(ACF)、偏相关图(PACF)、AIC信息准则和BIC准则等来确定,并在给定的时间序列样本中,利用最小二乘法拟合待估参数β.通常使用F统计量和T统计量对回归方程和变量的显著性进行检验,并使用Ljung-Box统计量检验时间序列的残差是否为白噪声.
1.2 半参数可加自回归模型
在模型(1)的基础上,根据AIC信息准则确定滞后期解释变量常常出现部分滞后期变量并不具有显著相关性,将其放入自回归模型中建立线性回归模型无法通过显著性检验.为尽量保留滞后期信息对Yt的解释,考虑将部分不具有显著性的滞后期变量作为非参数引入自回归模型,同时利用可加模型(GAM)构建半参数可加自回归模型,具体形式为
(2)
其中,Yt为当期被解释变量;α为截距项;β=(β1,β2,…,βq)Τ为线性部分的待估参数;Yt-i为q个与被解释变量具有显著相关性的滞后期解释变量,相信部分用来确定Yt的结构性趋势;gj(Yt-j)为未知的非参光滑函数,Yt-j为k个与被解释变量不具有显著线性关系的变量.非参数部分对不确定因素进行局部调整,且q+k≤p;εt为与解释变量独立的随机误差,且E(εt)=0,Var(εt)=δ2<∞.
(3)
第2步.假设gj(Yt-j)为样条函数,只要估计出gj(Yt-j)在Yt-j的取值,得到光滑样条估计即可,即使得下式最小,
(4)
第3步.得到非参数估计部分后,基于最小二乘法重新估计β,将β作为已知数据代入步骤1,迭代直至收敛.
2 建模步骤
本文构建半参数可加自回归模型依赖于R语言中mgcv软件包的GAM函数,可以快捷地实现GAM分析和最优模型的选取,其模型构建主要分为以下4个步骤.
2.1 时间序列平稳化
利用GDP时间序列建立自回归模型首先需要检验该序列的平稳性.常用于检验时间序列平稳性的方法有2种,一种是通过时间序列样本随时间变化的趋势图,观察该序列的随机波动情况,初步判断其平稳性,以及根据自相关图(ACF)和偏相关图(PACF)呈现出的序列自相关来分析序列的平稳性;另一种是用单位根检验(ADF),检验通过的为平稳时间序列;若存在单位根则为非平稳时间序列,需要差分处理避免出现伪回归.
2.2 模型定阶
自回归(AR)模型确定滞后阶数p值十分重要,p值过大会导致模型统计值不稳定,p值过小会降低模型精度.在实际应用中,观察自相关图(ACF)和偏自相关图(PACF)确定p值,此法带有较大的主观性.赤池弘次 (Akaike) 提出的AIC信息准则被广泛应用到时间序列定阶,该准则将K-L距离和极大似然方法相结合,其定义为
MAIC=-2lnL+2n,
(5)
其中,L为极大似然函数;n为未知参数个数.利用MAIC的最小值来确定AR模型滞后阶数p值.
本文基于AIC信息准则选择最小AIC值对应的滞后阶数作为模型的p值.
2.3 变量选择与估计
在AIC信息准则选择的滞后期变量基础上,构建本文的半参数可加自回归模型.首先需要确定哪些变量作为线性部分,哪些作为非参数部分.参照文献[11]的做法,首先通过AIC准则的结果选择对应的滞后期变量作为解释变量构建自回归(AR)模型,使用T统计量检验,将线性回归中显著的变量作为线性部分,其它解释变量作为非参数部分,构建半参数可加自回归模型.同时考虑解释变量之间的共线性,删除相关性较高且滞后期较大的解释变量.
本文使用R软件对模型的参数进行估计,自回归(AR)模型采用最小二乘法进行参数估计,半参数可加自回归模型的求解参照文献[15],最后使用mgcv包中的GAM函数对参数进行指定和求解.
2.4 模型检验
求解自回归(AR)模型和半参数可加自回归模型的参数估计后,都需要检验模型的残差序列是否有效,即检验自回归(AR)模型和半参数可加自回归模型是否提取了样本中足够多的信息.通常检验残差序列是否为白噪声序列,若为白噪声序列则考虑模型有效.
H0:ρ1=ρ2=…=ρm=0.
H1:至少存在一个ρk≠0(1≤k≤m).
检验所用的Ljung-Box(LB)统计量为
(6)
n为观测期数;m为指定滞后期数.
当LB统计量的p值大于显著性水平α时,则该残差序列为白噪声序列.
3 实证分析
本文收集了1978~2019年我国每年的GDP值作为样本数据,数据来源于国家统计局公布的统计年鉴和统计公报.将样本数据划分为训练集和测试集,其中,1978~2016年的数据作为训练集进行模型拟合,2017~2019年的数据作为测试集进行模型的测试.
3.1 建立AR模型
3.1.1 序列平稳化
利用R软件绘制1978~2016年我国GDP时序图,如图1和图2所示.
图1 1978~2016年我国GDP时序图
图2 1978~2016年我国GDP二阶差分时序图
从图中可以明显看出该时间序列非平稳,单位根检验的p-value=0.9823.进行差分处理,得到二阶差分后的序列为平稳时间序列,其时序图如图1所示,单位根检验p-value<0.0001.使用二阶差分的序列进行建模,记Yt为被解释变量,记滞后p期的差分序列Yt-1,…,Yt-p为解释变量.
3.1.2 模型定阶
自相关(ACF)和偏自相关(PACF)表明当期序列值和过去序列值的相关性,可以初步地判断哪些滞后期变量用来预测未来的值.二阶自相关图(ACF)和偏自相关(PACF)如图3、图4所示.
图3 二阶差分序列自相关图
图4 二阶差分序列偏自相关图
由图可以看出,滞后2期和3期的自相关较大,6期以后的自相关较小,滞后2期的偏自相关较大,且二者均表现出拖尾现象.进一步借助AIC值来确定p值,考察滞后1到6阶的AIC值,当p值为5时,显示出的最小AIC值为772.0471,则AR模型的p阶为5,自回归(AR)模型为
Yt=β0+β1Yt-1+β2Yt-2+
β3Yt-3+β4Yt-4+β5Yt-5+εt,
即Yt-1,…,Yt-5对Yt进行解释.
3.2 建立半参数可加自回归模型
3.2.1 变量选择与估计
建立AR(5)模型,使用OLS进行参数估计,得到最终回归结果,见表1所列.
表1 AR(5)模型回归结果
结果显示,模型F统计量的p-value=0.0078,Adj-R2为0.3271,对于滞后期变量Yt-2和Yt-3分别在0.001和0.01的水平下显著,其他变量在线性回归模型中均为不显著变量,故考虑将不显著变量作为非参数部分进行回归,所以Yt-2和Yt-3作为线性部分,而Yt-1、Yt-4和Yt-5为非参数部分,构建半参数可加自回归模型.
进一步考虑各个变量的共线性问题[16],通过计算滞后期变量的pearson相关系数,得出Yt-3和Yt-5在具有明显的相关性时其相关系数0.625>0.5,且滞后期越靠后对Yt的解释能力越弱,将Yt-5变量删除处理,最终选择变量构建的半参数可加自回归模型为
Yt=α+β2Yt-2+β3Yt-3+
g1(Yt-1)+g4(Yt-4)+εt.
模型参数估计时GAM函数中的family变量选择高斯函数,光滑函数选择薄板回归样条函数[17-18],光滑函数的参数使用广义交叉验证 (GCV),模型的参数估计结果如表2、表3所列.结果显示参数变量和非参数变量的检验结果在5%及以上的水平均表现出显著性,而Yt-1和Yt-4作为非参数变量通过了显著性检验,整个模型的R-adj为0.903,异常的解释率达到95%,相比AR(5)模型将所有变量都作为线性回归的参数进行估计,半参数可加自回归模型更加准确地描述GDP数据的线性和非线性的混合特征.
表2 半参数可加自回归模型的参数估计结果
表3 半参数可加自回归模型的非参数估计结果
3.2.2 模型检验
模型拟合得到参数的估计后,对两个模型的残差序列进行Ljung-Box白噪声检验.检验显示,AR(5)的LB统计量p-value 为0.7457,检验结论为白噪声序列;半参数可加自回归模型对应LB统计量的p-value 为0.9466,检验结论依然为白噪声序列.二者都通过了白噪声检验,模型拟充分,对GDP时间序列的建模都具有实际意义.
3.2.3 模型拟合与预测结果
不同参数形式的GDP时间序列数据建模都能对其进行解释,但是解释能力是否一致,还需要进一步考察.通过比较两个模型的拟合结果和在测试集上的预测准确度,采用相对误差和平均相对误差反映模型的预测准确度.平均相对误差的公式为
MRE越小则预测准确度越高.模型的拟合和预测结果如表4、表5所列.
表4 两个模型的拟合值对比
表5 2017~2019年两个模型的预测值对比
以上两个模型的拟合结果可以看出:整体上AR(5)和半参数可加自回归模型的拟合效果相差不大,二者总的MRE分别为3.84%和3.64%;AR(5)模型整体的相对误差较为平稳,而半参数可加自回归模型的相对误差在最开始达到最大28.11%,随后相对误差平稳且逐渐趋于0;二者较大的相对误差主要体现在前五年的数据上,不看前五年的拟合情况,半参数可加自回归模型的MRE为1.30%,而AR(5)的MRE为3.38%.所以,在该时间段上,半参数可加自回归模型具有明显的拟合优势.两个模型预测值的相对误差较为一致,在2018年的预测值误差最小,预测值与真实值较为接近,2017年的误差较大;两个模型的MRE分别为1.12%和0.82%,所以,半参数可加自回归模型预测能力更有优势.
4 结语
对GDP时间序列数据进行建模需要满足宏观经济运行的实际情况,要充分考虑序列数据的线性和非线性混合特征.在自回归(AR)模型的基础上,将回归过程中不显著的滞后期解释变量作为非参数变量,由滞后期解释变量构成的参数和非参数两部分对GDP当期数据进行解释,从而构建半参数可加自回归模型.通过AIC信息准则确定的模型阶数,在尽量保留滞后期变量对Yt的解释能力下,将部分变量作为非参数引入具有很好的模型解释能力,各类型变量的显著效果明显,符合经济运行的现实意义.同时,也反映了GDP时间序列数据的线性和非线性混合特征,本文实证结果显示滞后2期和滞后3期表现为线性特征,滞后1期和滞后4期具有非线性特征,所以,在对其进行建模的过程中应充分考虑非线性特征.从模型的拟合效果来看,半参数可加自回归模型拟合值和真实值更加吻合,特别是在2009年以后其相对误差趋向于0,并且预测效果也更好.
本文选取的非参数变量部分,在回归过程中遇到滞后期不显著变量较多时,结论是否具有一般性还待进一步验证.年度GDP时间序列数据的样本量有限,试图将半参数可加自回归模型应用到大样本或者高频时间序列数据是未来努力的一个方向.神经网络对非线性问题建模也具有一定优势,后期可以比较和分析两类模型在解决非线性问题的不同特点.