基于高维变量选择的中国人口增长影响因素研究
2023-10-14杨双双李兴平
杨双双 王 亮 李兴平
(云南师范大学数学学院,云南 昆明 650500)
一、引言
人口问题是国家的全局性、长期性、战略性问题,关乎民生大计、发展大局以及国家和民族前途命运。近年来我国人口出生率持续下降,人口增长数量不断减少,出现人口负增长。国家统计局数据显示,2020 年我国人口出生率为8.52‰,人口自然增长率为1.45‰,人口净增长204 万人;2021 年人口出生率下降到7.52‰,人口自然增长率下降到0.34‰,人口净增长48 万人,有11 个省(区、市)的人口出现了负增长;2022 年人口出生率降到6.77‰,人口自然增长率降到-0.60‰,人口净增长-85 万人。人口长期负增长会造成内需不足、经济增长乏力、社会老龄化等一系列问题,给经济社会发展带来很多危害。因此,亟须对引发人口增长持续下降的因素进行全面、系统挖掘,在此基础上对人口增长进行合理规划。
影响人口增长的因素众多,各因素之间关系错综复杂。随着信息技术的快速发展,数据的采集、存储和处理能力不断提高,影响人口增长的因素数据呈现“高维小样本”特性。当从高维小样本变量数据中选择出分辨力较好的变量时,普通变量选择方法需消耗高昂的时间成本,有时其结果并不佳,而高维变量选择方法可以快速从海量数据中选择出分辨力较好的变量。
现阶段采用高维变量选择挖掘人口增长影响因素的文献较少,运用相关性分析、因果检验、正则化方法和灰色关联分析方法等对我国人口增长影响因素进行分析的相对较多。沈巍和武鑫(2013)[1]选择人口、经济、消费、就业、教育、收入、通信7 类指标共53 个因素,用相关性检验和格兰杰因果检验,挖掘出教育、经济、人口是影响北京市人口增长的主要因素。刘丽萍(2018)[2]选择经济、人口层面下的7 个变量,用LASSO分析得出GDP、人均薪酬和少儿抚养比与出生率正相关的结论。张夏雨(2021)[3]选取经济、社会、人口层面下的16 个变量,用LASSO、MCP、SCAD、自适应LASSO分析,发现教育、抚养负担和婚姻对出生率影响较大。李华炯和尹喆轩等(2022)[4]通过灰色关联分析,从86个因素中选出43 个与出生率强相关的因素,采用回归分析法,得出养老保险、储蓄率、性别比等因素对出生率影响较大的结论。郭良箴(2022)[5]选取经济、社会维度下与出生率相关的因素,建立线性回归模型,得出GDP、人均支配收入与湖北省人口出生率正相关的结论。
只采用一种或一个系列的高维变量选择方法对人口增长的影响因素进行研究,不能合理评估各方法的变量选择效果。因此,本文首先运用多种高维变量选择方法对我国人口增长影响因素进行系统、全面挖掘,接着对挖掘出的重要影响因素进行定量分析,得到最终的变量选择结果,对改善当前严峻的生育形势具有重要的现实意义,对今后选择合适的高维变量方案以及解决类似问题,具有借鉴意义。
二、人口增长影响因素实证分析
当高维数据的自变量相关性较高时,会导致难以抓住重点、费时费力,还可能造成后续建模过拟合等问题。因此,对于高维数据,通常需要对数据进行处理,筛选出重要且独立性好的自变量[6]。基于此,对我国人口增长具有重要影响的因素,应该是独立性较好且具有显著重要性。
本文变量选择的主要思路是将高维人口增长影响因素降至低维人口增长影响因素,并使用线性回归模型定量分析低维人口增长影响因素,得到最终变量选择结果。其分析步骤为:首先,运用Pearson 相关系数、Spearman 相关系数、距离相关系数、灰色关联度、最小深度、根节点的分裂频次、置换重要性、节点纯度增加的重要性、岭回归、LASSO、弹性网络回归、ALASSO、SCAD、MCP 和集成方法对人口增长影响因素进行重要性排序。其次,选取各方法下重要性较大的变量过滤掉冗余变量。再次,将各方法选出的变量输入主流机器学习模型KNN、RF、SVR 和MLP 中,依据回归模型性能指标的平均值,综合评估各方法的变量选择效果,形成几种较优的变量选择方案。最后,用每种变量选择方案下选出的变量建立多元线性回归模型,挑选性能较好的模型做预测分析。
(一)样本区间及数据说明
1.样本区间
研究影响我国人口增长的因素时,选取2010—2020 年全国人口的相关数据。数据主要来源于2010—2020 年的《中国统计年鉴》,以及2010 年第六次全国人口普查和2020 年第七次全国人口普查。
2.变量选取
(1)因变量
数据显示,2010—2020 年我国人口死亡率在7.04‰ —7.14‰ 之间,保持在相对平稳的水平。一个国家或地区的人口自然增长率等于人口出生率减去人口死亡率。当人口死亡率相对平稳时,人口自然增长率和人口出生率的趋势线非常相似,几乎平行,因此研究影响我国人口增长的因素时,选用人口出生率和人口自然增长率作为因变量,效果相差不大。鉴于现在“低生育”话题较热,本文选择人口出生率(Y)作为因变量,来衡量我国的人口增长和出生情况。
(2)自变量
影响我国人口增长的因素错综复杂,人口增长与政治、经济、文化、社会、生态和人口自身等方面息息相关。通过查阅相关文献,参考变量一级、二级、三级指标的归类,结合数据的可获取性、代表性和简洁性等原则,从政治、经济、文化、社会、生态和人口自身等层面分别展开变量选取,并依次命名为Xi(i=1,2,…,92),具体指标选取见表1。
(二)变量选择的实证分析
1.变量重要性排序
分别使用Pearson 相关系数、Spearman 相关系数、距离相关系数、灰色关联度、最小深度、根节点的分裂频次、置换重要性、节点纯度增加的重要性、岭回归、LASSO、弹性网络、自适应LASSO、SCAD 和MCP 等方法,对92 个自变量,按与因变量的重要性进行排序,得出各方法排名前20 的变量。
由于最小深度、根节点的分裂频次、LASSO、弹性网络、自适应LASSO、SCAD 和MCP 选出的变量有限,因此只用置换重要性、节点纯度增加的重要性、Pearson相关系数、Spearman 相关系数、距离相关系数、灰色关联度、岭回归构建的集成式变量选择方法,同样得到排名前20 的变量。
2.冗余变量过滤
对各方法下排名前20 的变量进行冗余变量过滤,各方法剩余的10 个自变量见表2。
表2 各变量选择方法选出的10 个变量
3.变量选择方法对比
分别将各方法下选出的10 个自变量与因变量送入机器学习回归模型KNN、RF、SVR 和MLP 中,根据4 个回归模型预测性能指标的平均值综合评估各方法的变量选择效果。
从表3 可以发现,以MAE 指标来说,节点纯度增加的重要性变量选择效果最好;从MSE、RMSE 和R2指标来说,置换重要性的变量选择效果较好;从MAPE指标来说,集成方法的变量选择效果较好;综合说,置换重要性、节点纯度增加的重要性、集成方法、距离相关系数的变量选择效果较好。
表3 各方法的变量选择效果综合排名
(三)影响因素的定量分析
1.几种较优的变量选择方案
由上可知置换重要性、节点纯度增加的重要性、距离相关系数和集成方法的变量选择效果较好,用其构建出15 种变量选择方案,具体见表4。
表4 几种较优变量选择方案下选出的变量
表5 最优模型结果
15 种较优的变量选择方案中有5 种方案选出变量为X90、X46和X33,即结婚登记数、就业人员数,以及甲、乙类法定报告传染病死亡率对我国人口增长影响较大;从其所属的二级指标看,婚姻情况、就业水平和医疗水平对我国人口增长影响较大;从其所属的一级指标看,人口因素、社会因素(频数为2)对我国人口增长影响较大,其中社会因素对我国人口增长的影响最大。
2.最优的定量预测模型
(1)统计意义检验
将15 种较优变量选择方案下的变量输入回归方程中,并进行逐步回归,发现有9 种方案都显示只有变量时,模型和回归系数的显著性较好,因此得到统计意义上的“最优”回归方程为:
最优回归结果显示,残差与标准化预测值序列的相关图中各相关点的分布没有呈现出明显的规律性,说明不存在异方差现象;标准化残差的直方图显示残差服从正态分布,说明模型满足高斯假设。
(2)理论意义检验
对因变量和自变量进行单位根检验,发现因变量序列为2 阶单整序列,自变量序列为0 阶单整序列,二者之间具有协整关系(回归残差序列属于无常数均值和无趋势的1 阶自相关平稳序列,ADF 检验中P 值=0.01205)。因此统计意义上的“最优”回归方程可以拟合其长期的均衡关系。
为了解释序列之间的短期波动关系,建立误差修正模型如下:
其回归模型和回归系数都比较显著。从回归系数看,每增加1 单位的全国就业人员数,会增加0.004165单位的人口出生率;上期误差对人口出生率当期波动影响较大,单位调整比例为-1.290789。
3.最优定量模型的预测结果
2021 年全国人口出生率为7.52‰ ,用模型预测的2021 年全国人口出生率为7.01‰ ,预测误差率为6.78%,预测值曲线和真实值的拟合效果较好。
三、结论及建议
(一)主要结论
1. 置换重要性和距离相关系数的变量选择效果较好
通过实证分析,发现置换重要性、节点纯度增加的重要性、距离相关系数、集成方法的变量选择效果均较好。但集成方法计算量大,节点纯度增加的重要性对离散特征存在偏向性,且重要性分析结果与特征变量的选择顺序有关。因此,做变量选择时首选置换重要性和距离相关系数。
随机森林对异常值与噪音也有很好的容忍度,稳健性较强,不易出现过拟合,对特征变量选择也有很好的适用性。基于随机森林变量重要性测度指标中的置换重要性可直接度量每个特征变量对模型精确率的影响程度,不存在偏向问题。
距离相关系数距离协方差的构造方式,使其在揭示两变量间相关关系时有着独特的优越性。一是可以直接计算两个不同维度变量之间的距离相关系数;二是只要距离相关系数为0,即说明被检验的两个变量之间相互独立。
2. 就业问题是导致我国人口出生率下降的核心因素
国内外有关人口增长影响因素方面的研究文献,共性是认为教育、就业等是影响人口增长主要的因素。本文搜集了政治、经济、文化、社会、生态和人口层面下可能影响我国人口增长的92 个因素,运用多种高维变量选择方法将变量维数降到低维,发现婚姻、医疗、就业是影响人口增长的主要因素,进一步实证分析发现就业是影响我国人口增长的核心因素。
原因可能在于人类能主动劳动创造,并已形成了相对完备的社会消费财富配给体系,现代社会一切生存竞争几乎都是围绕主动劳动创造的工作岗位展开。当供人类主动劳动创造的工作岗位增加时,人类社会的总人口就会增长;反之,总人口就会减少。
(二)对策建议
1.稳住就业岗位,扩大就业容量
帮助企业纾困解难。近几年,经济下行压力持续增大,很多企业为了生存,采取缩招、降薪、裁员等措施,导致就业岗位缩减。就业是最大的民生,也是发展最大的保障,因此政府部门需千方百计稳住就业岗位,可通过税费减免、优惠贷款等措施帮助企业渡过难关。积极开发服务业、公益性就业岗位。随着经济转型升级,第三产业的就业岗位呈增多趋势,政府部门应大力支持新兴服务业的发展,充分发挥服务业的就业吸纳作用。同时,可以通过政府出资、社会扶持等方式,在政府部门、高校等设立公益性岗位,就业困难人员。
2.开展技能培训,调整人才供应
积极开展职业技能培训。政府部门可以依托社区联合招聘单位开展职业技能培训,提升辖区内居民的就业能力;也可以依托高校联合招聘单位开展专业技能培训,提升毕业生的专业素养。瞄准市场走势,做好人才储备。人才培养是为了适应市场需求,但人才培养需要时间,而市场需求却在不断变化,因此政府部门需要提前做好市场分析调研,找准未来市场需求,做好人才储备,保障人才供应。
3.了解求职意向,精准帮扶就业
根据求职意向推送招聘信息。政府部门可依托社区了解辖区内未就业人员的就业意向,针对性地推送真实可靠的招聘信息;也可依托高校了解毕业生的就业意向,针对性地开展就业服务。实施专人负责,精准帮扶就业。政府部门可依据未就业人员的具体情况,针对性地安排就业导师开展就业宣讲,组织技能培训,助力多渠道就业。