多元线性回归与ARIMA在中国人口预测中的比较研究

2014-04-29韩绍庭周雨欣

中国管理信息化 2014年22期

韩绍庭周雨欣

[摘要] 参考中国统计年鉴1970-2005年的数据，文章建立了多元线性回归模型和基于ARIMA算法的时间序列模型对我国人口进行预测，将结果与实际值进行比较，得出多元线性回归模型在人口预测上具有更高的精准度。两个模型同时表明，我国人口在短期内会继续增长，并且多元线性回归模型表明增长趋势会逐渐变缓。

[关键词] 人口预测；多元线性回归；ARIMA

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 22. 065

[中图分类号] O212 [文献标识码] A [文章编号] 1673 - 0194（2014）22- 0100- 04

中国是一个人口大国，人口问题始终是制约我国发展的关键因素之一。人口多，人均耕地少，人均占有资源相对不足是中国的基本国情。

新中国成立以来共进行了6次全国性人口普查，从人口总数上分析，我国人口发展经历了前30年高速增长和后20多年低速增长两大阶段。党的十八大报告中指出，在中国目前的现代化进程中，必须实现人口与经济、社会、资源、环境协调发展和可持续发展，进一步控制人口数量，提高人口质量，改善人口结构，实现五位一体的和谐发展。

有效控制我国人口数量的增长，将促进我国经济的可持续发展，也是全面建设小康社会的需要。而认识人口数量的变化规律，建立人口模型，作出精确的预报，是有效控制人口增长的前提。准确预测未来一段时间内每年人口数量及其增长，可以为中国经济和社会发展决策提供科学依据，对于加速推进中国现代化建设有着极为重要的现实意义。

1 文献综述

人口预测始于1696年，当时英国社会学家G·金使用简单的数学方法对英国未来600年的人口发展进行了粗略的计算，虽然这一结果与以后的实际情况相差甚远，但他的思想却对后人的工作很有启发。

早在1798年，英国人口统计学家马尔萨斯提出了闻名于世的人口指数增长模型，此模型曾用于世界人口的预测，在1961年以前是比较准确的，但用此模型预测未来人口，得到的结果会出现很大误差。马尔萨斯预见，各国经济将趋同于一个稳定的人均收入水平，而且当收入水平超过均衡水平时，生育率上升，死亡率下降，反之亦然。

此后，K.Subbarao的研究表明，一个国家的人口增长率与居民受教育水平负相关。另外，对于贫困阶层来说，儿童在某种程度上是一种经济投入品，父母期待为其年老时提供经济支持的形式，获得养育儿童的回报，由此认为贫富差距对人口数量的影响是显著的。

在中国，中国社会科学院学者李政（2006）使用中国1992—2002年的数据，通过构建人口增长率与人均GDP、每万人在校大学生人数的回归模型，得出经济增长和教育水平对人口增长率有抑制作用。

中国学者王浩（2006）年在《我国人口增长的经济教育因素的实证分析》一文指出收入分配差距对人口增长的影响有两个途径：其一，从结构上看，收入分配差距越大，低收入人群所占比重也越大。在我国，低收入人群的生育率要远高于高收入人群。因此，在其他情况不变的情况下，收入分配差距越大，人口增长率也越大。其二，从总体上看，收入分配差距通过对经济增长发生阻碍作用，最终影响人口增长。

由此，预测未来中国人口总数时，既要参考人口的出生率、死亡率，更需要将国民经济数据（如GDP）、城镇化率以及人口受教育程度等变量因素纳入考察范围。

2 人口预测的多元线性回归模型

2.1 模型建立

基于文献综述的结果，本模型引入以下变量：

（1）选取“人均GDP”反映各观测期的经济发展水平；

（2）选取“城镇化率（城镇人口/总人口）”反映城乡人口结构；

（3）选取“初中毕业生人数”反映我国居民的受教育水平；

（4）选取“城镇居民家庭人均可支配收入/农村居民家庭人均纯收入”反映我国的贫富差距。

因此多元线性回归模型设定为：

式中，yt为观测期年底人口数；c为截距项；x1t为观测期人均国内生产总值（元）；x2t为观测期城镇化率；x3t为观测期初中毕业生人数（万人）；x4t为观测期城镇居民家庭人均收入/农村居民家庭人均收入；t为时间变量；εt为残项；βi为待估计参数值。

2.2 模型估计与分析

在导入1970-2005年的数据后，使用R软件进行回归分析，得到：

分析结论：

（1）可决系数为0.999 6 ，校正的可决系数为0.999 5，可以看出模型的拟合度很高，模型对财政收入的解释程度高达99.6%；

（2）F统计量为13 410，说明0.05水平下回归方程整体上显著；

（3）t 检验结果表明，除了初中生毕业人数以外，其他因素对人口总数的影响均显著。

2.3 验证多重共线性

模型整体上拟和效果较好，但x3项（即初中生毕业人数）的t检验不显著，而且符号与预期相反，模型可能存在多重共线性。经计算各解释变量的相关系数，得相关系数矩阵，见表1。

由相关系数矩阵可以看出，各个解释变量之间的相关系数较高，证实在此模型中，多个变量之间确实存在着比较显著的多重共线性。而在线性回归模型中，如果解释变量之间存在精确相关关系或高度相关关系，则模型将会失真。

为了消除模型中多重共线性的影响，采用逐步回归法剔除变量。start步中，全部变量回归时，AIC值为384.81.94；如果去掉x3，AIC值变为382.86；去掉x4，AIC值变为389.46；去掉x1，AIC值变为429.9；去掉x2，AIC值变为439.33。故第一步完成后判断去掉x3，AIC值最小。然后使用此模型进行下一轮计算。在下一轮计算中，无论去掉哪个变量，AIC值都会增加。因此终止计算，得到最优回归方程：

2.4 用模型预测值实际值比较

结果见表2。

2.5 模型诊断

令残差对拟合值作图，结果如图1所示。横轴是对各个观测的拟合值Yi^，而纵轴是分离出来的残差ε^=Yi-Yi^。从图中首先可以看出第1、11个观测值，即1978年、1988年的观测值，残差出现异常。对于以上两个特殊年份，考虑到中国整个城镇化进程受到了前后不统一的政策影响，特别是在建国初期经历了短暂的正常发展后，城镇化进程受到大跃进、“文革”等政治因素的强烈干扰，在1964年到1977年之间，城镇化水平由原先的增长转为倒退，即“反向城镇化进程”。因此，从1978年重新进入到一个上升渠道的城镇化数据造成了1978年出现了观测值异常。同样，1988年也有类似的政策性干扰因素出现。

要检验数据中是否有异常值或影响点可以通过计算比较Cook距离来实现。令标准化残差对杠杆值作图，如图2所示。

通过图2，发现1、5、17、35号样本，即：1978年、1982年、1994年、2011年有较大的影响。正如之前考虑到几个数据异常是由于我国的政策性因素所造成，因此，根据图2可知第一个点，即1978年政策性干扰较大，考虑剔除。而其后1982年、1994年以及2011年的几个异常值由于残差的差值在可接受范围内，不考虑剔除。

3 基于ARIMA算法的时间序列模型

3.1 平稳性检验

根据ARIMA算法的建模步骤，可知ARIMA模型是以平稳随机序列为前提的，因此需要首先检验人口的平稳性。由于多元线性回归模型已经证明1978年数据异常，因此在本模型中选用1980-2005年的数据，以此对未来人口进行预测，并与实际值进行比较。

从图3可知：我国人口逐年增长，因此为非平稳时间序列，需要进行差分。从图4看出一阶差分图最后趋势还是下降的，因此依旧是非平稳序列，需要进行二阶差分。可以看出二阶差分后（如图5）数值近似在平均值上下波动，因此可以初步判断其为平稳序列。

接下来进行单位根检验，采用ADF单位根检验法，得到P值远小于0.01，因此拒绝原假设，即拒绝二阶差分序列存在单位根，因此可以判定二阶差分序列为平稳序列。

3.2 时间序列模型建立

由于我国人口数一直增长，因此判定无周期，可以采用ARMA（p，q）模型。

首先计算平稳时间序列的样本自相关系数（ACF）和偏自相关系数（PACF），然后依此来估计p和q的值。

做出二阶差分序列滞后12期的ACF图（如图6）和PACF图（如图7）。

可以看出，ACF图在q=1之后截尾，而PACF拖尾，因此根据判断法则，可识别模型为ARIMA（0，2，1），得到模型的AIC值为293.1。同时，根据R软件自带auto.arima函数，得到建议模型为：ARIMA（0，2，0），其AIC值为292.77。二者的AIC值比较接近，因此有待进一步根据检验情况判断。

3.3 模型预测结果

根据ARIMA（0，2，0）预测结果见表3。

根据ARIMA（0，2，1）预测结果见表4。

可以看出ARIMA（0，2，0）预测效果较好，因此选用ARIMA（0，2，0）模型作为最终模型。

3.4 残差检验

参数估计后，需对模型残差序列进行白噪声检验，若残差序列不是白噪声序列，意味着残差序列还存在有用信息没有提取，需要进一步改进。

图8中第二行的ACF检验说明残差没有明显的自相关性，第三行的Ljung-Box测试显示所有的P值都0.1，说明残差为白噪声序列，模型合格。

3.5 模型预测结果图示

模型预测结果如图9所示。

4 结论

运用两个模型同时对2006-2011年的人口数据进行预测，并与实际值进行比较，发现多元线性回归模型具有较高的精准性。当然，任何一种预测方法都是建立在一定假定条件之上的，而任何一种假定条件都难以包括现实世界中的所有复杂关系。相对来说，两种模型都适用于中短期人口预测，模型精确度都比较高。

经过分析，ARIMA模型相对于多元线性回归模型精确度较低的原因可能在于其仅基于时间以及历史人口数据来对未来进行预测，并没有考虑其他因素。而人口数量与众多因素（出生率、死亡率、城镇化率、国家政策）息息相关，因此仅通过时间因素分析并不能很好地预测人口的变化。

在实际情况中，影响人口数量的因素还有很多，但是并不能把所有因素全部引入到多元线性回归模型中，因为这将引起严重的多重共线性，进而影响模型的准确性、可靠性。而在消除共线性的过程中，又会引起变量减少、干扰序列不相关、存在异方差等诸多缺陷。因此更加精准的预测人口变化，还需要更多的研究与探讨。

主要参考文献

[1]Jalan Jyotsna，K Subbarao. Gender Disparity in Human Resource Development： Cross Country Patterns[C]//Education and Social Policy Department， World Bank， ESP Discussion Paper Series 25，1994.

[2]门可佩，官琳琳，尹逊震.基于两种新型灰色模型的中国人口预测[J].经济地理，2008（6）：942-945.

[3]涂雄苓，徐海云. ARIMA与指数平滑法在我国人口预测中的比较研究[J].统计与决策，2009（16）：21-23.