我国人口时间序列拟合模型的比较
2017-04-20董莉娜李倩
董莉娜++李倩
【摘要】通过对我国1949年至2012年共49年的人口数据进行实证分析,分别运用确定性因素分解法和ARIMA模型两种不同的时间序列分析方法,对我国人口的变化规律进行了拟合研究。
【关键词】时间序列分析 确定性因素分解法建模 ARIMA模型
人口过多一直是我国最重要的问题之一,合理的人口规模是经济、社会、资源和环境协调发展的有力保证,因此了解我国人口规模发展的现状和预测未来人口规模发展的趋势,具有重要的理论和现实意义。早在十八世纪末,英国人马尔萨斯在研究了百余年的人口统计数据资料后,利用微分方程建立了Logistic人口模型;国内众多学者也对人口预测方面的数学模型进行许多研究。本文通过对我国1949年至2012年共49年的人口数据进行实证分析,分别运用确定性因素分解法和ARIMA模型两个不同的时间序列分析方法,对我国人口的变化规律进行了拟合研究。
时间序列是指同一现象的观测值按不同时间排列的数字序列。在早期的时间序列分析中,通常是通过历史数据的比较和图形的观察来揭示现象随时间变化的规律,即所谓的描述性时序分析。传统时间序列分析在实践中的应用主要是确定性时间序列分析方法,包括指数平滑法、移动平均法、时间序列分解法等等。但在现实生活中,许多不确定性因素的影响越来越严重,已经引起人们的重视。博克斯和詹金斯(1970)提出了一种基于随机理论的时间序列分析方法,使时间序列分析理论达到了一个新的高度,大大提高了预测的精确度。对于平稳时间序列来说,基本模型有:自回归(AR)模型、移动平均(MA)模型以及自回归移动平均(ARMA)模型等。对非平稳时间序列,基本模型为:求和自回归移动平均模型以及残差自回归模型等。近年来,随着计算机技术和信号处理技术的迅速发展,时间序列分析的理论和方法越来越完善。
运用确定性因素分解法建立模型时,克莱默分解定理认为任何时间序列都可以分解为两部分:一部分是由多项式决定的确定趋势的一部分,另一部分是平稳零均值误差。由于1949年到1970年间的总人口数据有部分缺失,所以只选择1970年到2012年的人口数据进行分析。处理过程中以1970年为时间起点,即t=1。通过观察发现,总人口序列图有明显的线性趋势,尝试拟合一元线性直线。
建立ARIMA模型时,先将时间序列从Excel表中读入R中,做总人口的趋势图,观察趋势及平稳性。时序图清晰地显示每年总人口呈现出明显的逐年递增的趋势,显然该序列一定不是平稳序列。同时单位根检验的结果显示,统计量的P值大于0.05,拒绝平稳这一原假设,所以可以认为我国總人口序列显著非平稳。显然,这个序列的DF检验结果与根据时序图得到的直观判断完全一致。先对总人口序列进行一阶差分,观察发现一阶差分序列仍然是不平稳序列,再对总人口序列进行二阶差分,时序图和单位根检验结果表明二阶差分序列是平稳序列。建立二阶差分序列的ARMA模型.。ACF为四步截尾的,PACF收敛的速度能达到要求,尝试拟合MA(4)模型。先对回归系数进行估计和显著性检验,根据输出结果计算T统计量值(由参数除以标准差而得),MA(1)参数的T统计量值:-0.4502/0.1396=-3.22492837,MA(2)参数的T统计量值:-0.2038/0.1571=-1.29726289,MA(3)参数的T值:0.0946/0.1470 =0.64353741,MA(4)参数的T值0.4406/0.1460=-3.01780822,显然MA(1)和MA(4)参数均在5%的显著水平下拒绝零假设。根据检验结果去掉不显著的变量,建立疏系数模型,MA(1)和MA(4)参数均在5%的显著水平下拒绝零假设。为了检验模型是否用于结果的预测,对模型进行进一步的适应性检验。检验结果表明:LB统计量的P—值多数大于0.05(或其ACF均落在区间内),说明残差序列无自相关,模型为适应的。利用观察值数据和前面得到的拟合数据,进行预测。
模型一中,拟合模型Xt=85342.930+1273.835t+εt
模型二中,综合前面的差分运算,实际上是对原序列拟合疏系数模型ARIMA(0,2,(1,4))。
参考文献
[1]王燕.应用时间序列分析[M].中国人民大学出版社,2005
[2][英]C.查特菲尔德著,骆振华译.时间序列分析引论(第二版).厦门:厦门大学出版社,1987
[3][美]Jonathan D.Cryer,Kung-Sik Chan著,潘红宇等译.时间序列分析及应用(原书第二版).机械工业出版社,2011.1
作者简介:董莉娜(1993-),女,山西运城人;李倩(1993-),女,山西长治人,山西财经大学应用统计专业硕士研究生,研究方向:市场调查与分析。