APP下载

基于贝叶斯结构时间序列模型的海南省人口预测研究

2024-04-14郝文琪曹莉

现代信息科技 2024年2期
关键词:海南省预测

郝文琪 曹莉

DOI:10.19850/j.cnki.2096-4706.2024.02.026

收稿日期:2023-06-15

基金项目:海南省高等学校教育教学改革研究项目(Hnjg2022-61);海南医学院教育科研重点项目(HYZD202113);海南省大学生创新课题(S202111810001)

摘  要:通过分析2003—2022年的人口数据,深入了解海南省的人口现状,并预测常住人口总量。数据源于《海南省统计年鉴》,采用折线图、人口金字塔图等对海南省2003—2022年人口现状进行描述,并应用贝叶斯结构时间序列模型对未来三年的常住人口数进行预测。经过分析和预测,结果显示,贝叶斯结构时间序列模型的均方根误差为2.914、平均绝对百分比误差为0.002<10、决定系数为0.986。2023—2025年海南省常住人口总数分别为1 042.34万人、1 054.56万人、1 066.76万人。说明贝叶斯结构时间序列模型应用于海南省常住人口预测的效果较好,海南省常住人口数量仍会持续缓慢上升。

关键词:海南省;常住人口数;预测;贝叶斯结构时间序列模型

中图分类号:TP391      文献标识码:A    文章编号:2096-4706(2024)02-0124-04

Research on Population Prediction of Hainan Province Based on Bayesian Structure Time Series Model

HAO Wenqi, CAO Li

(International School of Public Health and One Health, Hainan Medical University, Haikou  571199, China)

Abstract: This paper gains insight into the current demographic situation of Hainan Province and predicts the total resident population by analyzing the population data from 2003 to 2022. The data is from Statistical Yearbook of Hainan Province, and this paper uses line chart and population pyramid map to describe the current demographic situation of Hainan Province from 2003 to 2022, and a Bayesian Structural Time Series model is applied to predict the total resident population for the next three years. After analysis and prediction, the results show that the Bayesian Structural Time Series model has a root mean square error of 2.914, a mean absolute percentage error of 0.002 which is less than 10, and a coefficient of determination of 0.986. The total resident population of Hainan Province from 2023 to 2025 is 10 423 400, 10 545 600, and 10 667 600, respectively. It shows that the Bayesian Structural Time Series model is effective in predicting the resident population of Hainan Province, and the number of resident population in Hainan Province will continue to rise slowly.

Keywords: Hainan Province; annual permanent population; prediction; Bayesian Structure Time Series model

0  引  言

全国第七次人口普查数据显示,我国人口呈现出一些令人担忧的现象和趋势,如人口增长速度放缓、60岁以上人口所占比例逐年增加、男女比例失调严重、生育率越来越低以及由此导致的少子化现象逐渐加剧[1]。海南是中国最大的经济特区,也是唯一的热带岛屿省份。随着国家对海南的战略定位和政策支持,海南的经济、社会、文化等各个领域都取得了快速发展,而人口总量在其中发挥着不可小觑的力量[2],因此,人口问题的研究对于海南省的可持续发展具有深远的意义。所以本文以海南省2003—2022年常住人口数为基础,运用贝叶斯结构时间序列模型对海南省未来三年常住人口数进行预测,該模型适合于对不确定性序列的分析,对数据有自适应能力,可以重复利用实验数据,并防止过度拟合。

1  资料与方法

1.1  数据来源

根据海南省统计局官网发布的《海南省统计年鉴》获得海南省2003—2021年常住人口数据;2022年常住人口数据从海南省统计局人口(社科)处获得。

1.2  统计分析

采用折线图、人口金字塔图对海南省人口发展现状进行分析;采用贝叶斯结构时间序列模型对海南省常住人口数预测。采用R4.2.2统计软件分析。

1.3  贝叶斯结构时间序列模型

贝叶斯结构时间序列模型(Bayesian Structural Time Series model),简称BSTS模型。模型如下:

(1)

(2)

(3)

(4)

其中式(1)是观测方程,该公式将潜状态αt与观测状态yt联系起来,式(2)是状态方程,将每个内部状态与每个先前的内部状态联系起来。yt是状态的线性组合加上协变量X的线性回归以及遵循零均值正态分布的测量噪声ε,Z、T、G和R是包含已知值(0和1)的矩阵。εt和ηt是高斯误差项[3]。

建立模型的具体步骤如下:

1)获取数据:从海南省《统计年鉴》收集海南省2003—2022年常住人口总数。

2)选择2003—2011年的数据为观测时间序列,2012—2022年数据为预测时间序列,构建贝叶斯结构时间序列模型,在该过程中,用spike-slab回归[4]做回归变量选择和计算回归系数。

3)查看该模型后验概率p值;若p小于等于0.05,模型收敛,进行步骤(4);如果p大于0.05,模型不收敛,可以通过以下3种方式进行调整:增大MCMC次数[5];将数据进行log转换;改变控制因素。

4)利用均方根误差[6]、平均绝对百分比误差[7]、决定系数[8]对该模型进行拟合效果的评估。

5)利用貝叶斯模型平均法[9]预测未来三年海南省常住人口总数。

2  结果

2.1  海南人口总量及其变化趋势

从图1中看出,2003—2022年期间,海南省常住人口发生了显著变化。自2003年以来,海南省常住人口呈现出持续增长的趋势,但增长速度逐渐放缓。2003年时,海南省常住人口总数为810.52万人,2010年,常住人口增长至868.55万人,7年增长了58.03万人;到2022年末,常住人口总量为1 027.02万人,较2010年增加了158.47万人,这十余年,是海南省常住人口的显著增长时期;此外,与2021年末的1 020.46万人相比,增加6.56万人,增长率为0.64%;未来海南省的人口总量仍呈现增长态势。

2.2  海南人口年龄金字塔

人口金字塔是当前国际上分析人口结构的常用方法。图2、图3是根据海南省第六、七次人口普查数据,利用统计软件R4.2.2绘出海南省人口金字塔图(5岁组)。

对比两次人口普查的结果,可以发现,海南省老年人口所占比例显著提高[10],且女性数量远大于男性;新出生人口数量减少,但新生人口男女比例趋于均衡,从第六次人口普查到第七次人口普查,新出生人口(0岁)性别比从1.25下降至1.22,海南省65岁及以上人口比例由8.07%增长至10.43%,老龄人口所占比例越来越大,且稍高于全国平均水平。随着人口老龄化的加剧,海南省人口年龄结构已经发生明显变化。

2.3  贝叶斯结构时间序列模型的应用预测

2.3.1  模型拟合

国务院于2010年1月4日发布了《国务院关于推进海南国际旅游岛建设发展的若干意见》[11],国际旅游岛建设进入正常的推进阶段,对海南省的常住人口总量也产生了巨大影响。2010—2011、2011—2012年人口增长20万左右,其余年份均在10万左右,于是本文将2011年作为政策实施的干预因素的干预时间点,构建贝叶斯结构时间序列模型。

利用2003—2011年数据作为观测时间序列,2012—2022年的数据作为预测时间序列,马尔科夫链蒙特卡罗抽样(MCMC)次数设置为1 000次,建立贝叶斯结构时间序列模型,结果如图4所示。

图4中,竖向灰色虚线为观测时间段和预测时间段的分割线,第一个面板(“原始”系列与预期的系列)黑色实线为海南省2003—2022实际年末常住人口数,蓝色虚线为状态空间模型预测的海南省2003—2023年常住人口数,即如果没有“海南国际旅游岛政策”干预时的年末常住人口,蓝色区域为预测值的置信区间。第二个面板(“点效应”,即原始序列和预测序列之间的差异)中蓝色虚线为政策上线前后的效果,即虚线=政策实施后的实际人口数-若未实施该政策时的预测人口数,蓝色区域为(实际值-预测值)的置信区间。第三张图(“累积”效应)中蓝色虚线表示政策实施后(实际值-预测值)的累计和,累计和逐渐增加,表明该政策有明显的正向作用。

图4中结果表明,随着国务院建设海南旅游岛相关政策的出台,海南省的旅游业得到了快速发展,吸引了大量的“候鸟人群”来到海南,对海南省的人口变化产生了影响[12]。从2010—2011年、2011—2012年海南省的常住人口增长了约20万,而在2010年之前和2012年之后,人口增长均在10万左右。这表明,在旅游业的发展和政策的推动下,这两年海南省的人口呈现出了明显的增势。

2012—2022年期间,常住总人口的实际平均值约为971万人,贝叶斯结构时间序列模型预测的平均值为939万人,95%的置信区间为[911, 969]万人。该模型对于2012—2022年海南省常住人口数的拟合结果具有统计学意义,而不太可能是由于随机波动造成的,偶然获得这种效应的概率很小(p = 0.022<0.05),模型后验分布收敛,结果可信。

表1给出了2012—2022年海南省常住人口的实际数据和拟合数据,可以看出,常住人口数总体呈现逐年上升趋势,拟合值整体上低于实际值,相对误差均在3%上下波动,海南省常住人口预测比较可靠。但可以发现随着时间的推移,预测的绝对误差(实际值-预测值)越来越大,预测精确度降低。

模型的均方根误差RMSE = 2.914;平均绝对百分比误差MAPE = 0.002<10,预测非常精准[13];R2 = SSR / SSyy = 0.986,接近于1,拟合效果很好。

综上所述,该模型拟合效果较好,结果可靠,表明该模型可以用于海南省人口预测。

2.3.2  模型预测

经过上面检验,说明该模型拟合效果好,可以利用该模型预测海南省未来三年(2023—2025)常住人口数。此次,选择2003—2022年的数据作为控制时间序列,2023—2025年的数据作为预测时间序列,MCMC抽样次数设置为1 000次,建立贝叶斯结构时间序列模型,结果如图5所示。

图5中,竖向灰色虚线为控制时间序列和响应时间序列的分割线,黑色实线为海南省2003—2022实际常住人口数,蓝色虚线表示在没有政策干预时,采用该模型预测的海南省2023—2025年常住人口数,蓝色区域为预测值的置信区间。2023—2025年常住总人口的平均预测值为1 055万人。预测的95%的置信区间为[1 014, 1 097]万人。且p = 0.001,小于0.05,有统计学意义,模型收敛,预测结果可靠。

表2给出了利用该模型预测的2023—2025年海南省常住人口预测值,以及95%的置信区间。由贝叶斯结构时间序列模型得出2023年海南省总人口预测数为1 042.34万人,2024年海南省总人口将达到

1 054.56万人,2025年海南省人口将达到1 066.76万人,呈现逐渐上升趋势。

3  结  论

随着海南国际旅游岛和自贸港建设等因素的推进以及单独二孩、全面二孩、人才引进等政策的实施,海南省常住人口逐年增加,出生人口性别比逐渐趋于平衡。本文在对海南常住人口现状进行基本了解的基础上,利用贝叶斯结构时间序列模型对海南省未来人口总量进行了预测。

第一,海南省的总人口量仍将持续缓慢上升。2003—2010年,海南省常住人口增加58.03万人,增长率为7.16%,逐年增长率在1%上下波动。2010年以來,由于国家出台一系列政策,如海南省国际旅游岛的建设、单独二孩、全面二孩政策的实施,以及海南省自由贸易港的建设等政策,使得海南省常住人口迅速增长,在2010—2022的十三年期间,海南省常住人口增加了158.47万,增长率为18.25%;但逐年增长率下降,从2010—2011年的2.42%下降至2021—2022年的0.64%。全国人口总量呈现负增长趋势,2021—2022年,全国人口数同比下降6‰,而海南省常住人口仍呈现增长态势,2021到2022一年间,增长6.56万人。本文预测结果也显示,未来几年,海南省常住人口数仍有望进一步增长,且逐年增长率在1%上下波动,这为海南省未来发展提供了有力保障。

第二,人口年龄结构是人口结构中的重要部分,对研究一个地区的社会、经济发展具有重要意义。第六次人口金字塔图第七次人口金字塔图清楚的展示了海南省从2010年到2020年的人口年龄结构变化。2010年时,人口金字塔整体上呈现枣核型结构,两头窄,中间宽,基本上属于稳定型;2020年,人口金字塔塔底及中间部分明显变窄,塔顶部分变宽,人口结构逐渐向着缩减型的趋势发展。与2010年全国第六次人口普查相比,新生人口数量(0岁)下降,15~59岁人口的比重下降3.51%,60岁及以上人口的比重上升3.32%,65岁及以上人口的比重上升2.36%,这组数据反映了少子化和老龄化现象。

第三,本文基于2003—2022年常住人口数据和贝叶斯结构时间序列模型,对2023—2025年海南省常住人口总数进行预测。从预测结果看海南省人口将是一个持续缓慢增长的过程,到2025年,海南省人口将达到1 066.76万人。有关研究显示,如果以每年人均粮食消费按400公斤计算,海南可以承载1 216万以上的人口;而2007—2016年海南省农产品年均能量、蛋白质和脂肪可支持的平均人口规模分别为

1 243.47万、1 697.84万和2 712.91万。

本文仅对海南省总人口数据进行预测分析,尚未考虑相关因素的影响作用;其次,人口数据均为年度数据,无法获得更小时间跨度的数据,可能对模型预测精度产生一定的影响;今后,随着统计学与机器学习的快速发展,还可以采用更多、更准确的预测模型对人口数据进行分析。

参考文献:

[1] 申少铁.推进优化生育政策落实落地 [N].人民日报,2022-01-21(12).

[2] 厉克奥博,李稻葵,吴舒钰.人口数量下降会导致经济增长放缓吗?——中国人力资源总量和经济长期增长潜力研究 [J].人口研究,2022,46(6):23-40.

[3] SCOTT S L,VARIAN H R. Predicting the present with Bayesian structural time series [J].International Journal of Mathematical Modelling and Numerical Optimisation,2014,5(1/2):4-23.

[4] GEORGE E,MCCULLOCH R. Approaches for Bayesian variable selection,Statist [J].Sinica,1997,7:339-373.

[5] 李雪利,罗建男,刘勇.不同建议分布MCMC算法在地下水污染源反演识别中的对比研究 [J].中国环境科学,2023,43(4):1646-1654.

[6] 唐欣,乔俊皓.多元统计分析在区域经济发展中的预测研究 [J].中国储运,2021(2):161-162.

[7] 冯兴.新疆乌鲁木齐市布鲁氏菌病预测与控制研究 [D].乌鲁木齐:新疆医科大学,2020.

[8] 彭露.基于经验建模校正的决定系数 [D].南京:南京邮电大学,2021.

[9] DAVID M,RAFTERY A E. Model Selection and Accounting for Model Uncertainty in Graphical Models Using Occams Window [J].Journal of the American Statistical Association,1994,89(428):1535-1546.

[10] 海南省统计局 海南省第七次全国人口普查领导小组办公室.海南省第七次全国人口普查公报(第四号)[N].海南日报,2021-05-14(A8).

[11] 国务院.国务院关于推进海南国际旅游岛建设发展的若干意见 [N].海南日报,2010-01-05(A1).

[12] 王頔.海南省候鸟社区建设的问题分析与对策建议 [J].法制与社会,2021(12):129-131.

[13] 刘进进,周平,温亮.高炉铁水质量均方根误差概率加权集成学习建模 [J].控制理论与应用,2020,37(5):987-998.

作者简介:郝文琪(2001—),女,汉族,河北邯郸人,本科,研究方向:应用统计学;曹莉(1971—),女,汉族,辽宁昌图人,教授,博士,研究方向:统计方法应用。

猜你喜欢

海南省预测
无可预测
海南省华侨商业学校
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
不可预测
2010 年秋季热带低压引发海南省特大暴雨特征分析
不必预测未来,只需把握现在
海南省肿瘤医院
是海南省还是海南岛?