APP下载

基于GAIN插补和因子空间回归的我国人口出生率时空分布及影响因素分析

2022-11-07苏理云

重庆理工大学学报(自然科学) 2022年10期
关键词:出生率生育率人口

苏理云,吴 俣

(重庆理工大学 理学院, 重庆 400054)

0 引言

增加生育率促进人口结构的整体优化,促进人口长期均衡发展,是积极应对现今我国出生率持续下滑及人口老龄化不断加深的方法。2015年10月我国全面实施“二孩政策”后,在短时间内取得了一定的成效。但是,由于我国的人口总量庞大,所以在“二孩政策”施行后,出生率增长的程度变化不大。在2015—2019年,我国人口出生率分别为12.07%、12.95%、12.43%、10.94%、10.90%,说明二孩政策并没有达到预期的持续增加人口出生率的成效。2021年5月31日,中共中央政治局召开会议,为进一步优化生育政策,将实施“三孩政策”[1]。同时,为了顺应人口政策的调整,2021年7月20日,为提高生育率,中央提出了要降低生育、教育、养育的成本的政策。显然,调整人口出生率,从而落实积极应对人口老龄化、改善我国人口结构的国家战略、保持我国人力资源优势,成为了我国必须积极应对的新问题。

近年来,针对我国国情,我国学者对人口出生率的问题有着广泛的讨论。部分学者认为人口出生率的变化与财政教育的支出有很大的关系,杨龙见等[2]在财政教育支出降低了人口出生率中发现了财政教育的支出与人口出生率之间存在负相关关系;王会宗和张凤兵[3]认为过多或过少的人口量都会阻碍经济的发展,应确定人口数变化的速度,从而保证经济稳定增长。通过对我国就业人数与经济增长、出生率之间关系的研究,推算出经济稳定增长时的最佳出生率,并以此作为实证依据;苏理云等[4]通过对我国生育率的空间不均衡性和地域差异的分析,指出我国的出生人口率存在西强东弱的空间不平衡特征。我国出生人口的空间聚集现象十分明显且我国人口出生率地域差异性在不断加大,主要受到北方地区的差异影响;刘卓等[5]运用了空间模型对我国人口出生率进行分析;韩兆洲等[6]通过对中国省域出生人口时空特征的演变研究,运用人口加权和空间马尔可夫链的统计方法,得出我国人口有向华北到东北延伸聚集的趋势。

国外关于出生率、人口老龄化、少儿抚养比等因素的研究主要集中在生育率空间模型和低生育水平的研究上。由于20世纪已进入全球生育率下降的时代,目前与生育相关的理论和模式已相当成熟。Brouhns等[7]研究发现人口出生率开始进入下降时期;Billari等[8]通过研究得出欧洲、东亚等国的出生率均低于1.3%,认为此时已经进入“低生育率陷阱”,而且这种低生育率的现象将持续十几年甚至更长的时间;Jong等[9]对妇女的死亡率数据进行研究显示,二孩政策可以减轻生育率下降带来的负面影响;Cox等[10]发现,过低的生育率会导致生育意愿变低,越来越多的人不想要孩子,形成恶性循环,同时会造成人口规模的减少,从而导致社会劳动生产率不足等一系列的社会问题。

从国内外的研究中可以看出,关于人口出生率的研究忽略了不同地区的人口出生率数据的空间相关性。

在参考了关于机器学习的文献后[11-12],运用GAIN与因子空间回归模型相结合来研究人口出生率的影响因素的相关问题。在参考了国内外研究成果的基础上,从经济发展、生育政策和社会保障等指标对出生率的影响进行实证分析,结合实证结果,对提高我国人口出生率提出可供参考的建议。从而为相关决策部门在生育计划政策的完善和社会制度的保障上提供借鉴,以更好促进我国经济社会持续健康发展。

1 指标选取、数据来源及研究方法

1.1 模型指标选取

近几十年来,我国的城市经济腾飞发展,多变的生活方式使得中国人的思维方式和精神世界都发生了翻天覆地的变化,传统的传宗接代的观念逐渐瓦解,丁克家庭也越来越多的被人们所接受,这导致生育意愿普遍下降。有研究表明,人口组成的少儿抚养比和老年抚养比与人口出生率之间存在着一定的关系,是影响人口出生率的重要因素[13]。在现代社会中,人口对经济的发展起到至关重要的作用,要保证经济的稳定可持续发展,必须要控制人口,使其稳步增长,人口出生率对经济的影响非常重要[14]。人口老龄化加速削弱了人口红利,通过研究发现卫生医疗水平、人力资本水平的提高,对人口出生率起到一定的促进作用[15]。在文献[13-15]中,同时考虑到变量的普遍性和合理性。采用生育保险覆盖程度、医疗保险覆盖程度、养老保险覆盖程度、城镇化率、少儿抚养比、老年抚养比、卫生医疗水平、人力资本水平、经济发展水平、居民消费水平,共10个变量解释人口出生率空间分布的影响,见表1。

表1 主要变量及定义

续表(表1)

1.2 数据说明

人口出生率是指某地在一个时期之内(通常为一年)出生人数与总人口数之比,一般用千分数来表示,其计算公式为:

(1)

研究对象为除我国港澳台以外的其他31个省、直辖市、自治区。考虑到数据获取的可行性,选取考察时期为2015—2019年。出生率计算中所需的计划生育政策、社会经济发展及社会保障相关指标数据的主要来源为《中国统计年鉴》《中国人口统计年鉴》。

由于部分地区的个别年份的数据存在缺失,为保持样本的完整性,在数据缺失不严重的情况下,保持样本容量,采用“GAIN”插补方法弥补缺失数据的缺陷,具有创新意义,下面具体介绍此方法的作用。

1.3 研究方法

1.3.1GAIN插补法

GAIN是针对MCAR(数据的缺失完全是随机的,它不依赖于任何变量)所提出的一种新的填补方法,该方法属于生成式方法,将缺失的数据直接用作模型的输入,得到的输出就是插补完整的数据[16]。它概括了GAN方法[17]并且在完整数据不可用时也能够成功运行。在GAIN中,生成器的目标是精确地填补缺失的数据,判别器的目的是精确分辨数据是填充的还是真实的。所以判别器要最小化分类误差率,而生成器要最大化判别器的分类误差率,这样两者就处在了一种相互对抗的过程中。同时为了使这个对抗过程得到更加理想的结果,还为判别器提供了关于数据的部分信息的提示,逼迫生成器生成接近真实数据的分布样本。

GAIN的整个流程如图1所示,用0填补好的新数据矩阵、随机扰动的矩阵、并以记录缺失数据位置的掩码矩阵作为生成器的输入,输出为GAIN模型的插补矩阵。该矩阵加上代表缺失位置和随机扰动的提示矩阵作为判别器的输入,判别器的输出为每一个元素的值代表该位置的数据本来缺失概率的矩阵[18]。将生成网络的输出与初始插补矩阵计算的重构误差项和判别网络的输出与掩码矩阵计算的交叉熵作为损失函数,用反向传播迭代更新生成网络和判别网络,直至损失收敛,此时生成网络的数据较完美地接近真实数据。

图1 GAIN流程框图

1.3.2因子分析法

因子分析法就是在选取的各公共因子中,判断公因子之间是否存在一定的相关性,然后将具有紧密相关性的因子划分为同一类别,并对其进行维度和数据简化[19]。利用因子分析法,可以用较少的公共因子来描述之前较多的原始数据,把相关性高的数据归为一类,且通过公共因子的得分以及排名能快速找到影响最终结果的关键原因。

1.3.3空间杜宾模型(SDM)

根据美国著名学者Anselin等[20-21]的研究可知,空间杜宾模型如式(2)所示:

xitβ+μi+εit

(2)

2 数据预处理

2.1 缺失数据的插补

现有部分地区个别年份的数据缺失的数据集X,该数据在医疗保险覆盖程度(med)存在缺失数据,因此用GAIN法进行插补。为验证GAIN算法在缺失数据的情况下的插补效果,使用损失率来评估结果的优劣。

从图2可以看出,随着迭代次数的不断增加,损失率在不断的减少,在迭代填补了4 000次时,测试集的损失率为0.164 7,说明在生成器与判别器的对抗过程中,损失收敛并且损失率达到了最小值,此时缺失的数据集X生成的样本最接近于真实的数据分布。

图2 损失趋势曲线

2.2 影响因素的构建

2.2.1相关性分析

首先,讨论10个解释变量与人口出生率(bir)之间的相关性。图3是散点矩阵图,对角线上为分布图,右上角显示的是变量之间的相关系数,左下角显示的是具有拟合线的双变量散点图。

由图3可知,解释变量的数量较多,涉及到人口出生率的各个方面。同时可以看出,解释变量之间存在很强的相关性。城镇化率(urb)与医疗保险覆盖程度(med)、生育保险覆盖程度(mat)和养老保险覆盖程度(pen)呈正相关,相关系数分别为0.50、0.82和0.90,且城镇化率(urb)与其余的解释变量都密切相关。相比之下,老年抚养比(odr)与其他的解释变量的相关程度均较低;此外,生育保险覆盖程度(mat)和养老保险覆盖程度(pen)与其他解释变量均呈现强相关。

* P≤0.05, **P≤0.01, ***P≤0.001

2.2.2因子分析

首先,使用KMO和巴特利球状检验来讨论因子分析的适用性,如表2所示。

表2 KMO和巴特利球状检验数据

根据表2中的巴特利球状的测试值,P值等于0,这说明显著拒绝独立变量的原假设,并且可得出,每个变量之间存在显著相关性的结论,KMO测试的统计量为0.866,远远高于0.7,这表明每个变量之间的信息重叠程度相对较高,从而保证了解释变量的强有力的解释能力,且说明用因子分析的方法来降维是明智的选择。

通过对10个指标进行PCA,拟合了6个主成分。从表3可以看出,6个主成分的累计贡献率达到96.815%,说明能够较充分地反映主要的数据信息,可以省去第7个以及以后的主成分。

表3 主成分的特征值及贡献率

通过表4旋转后的成分矩阵元素的表述可以看出,降维后的样本数据可用主成分1、2、3、4、5、6这6个维度来表示。提取方法为PCA,旋转方法为Kaiser标准化最大方差法。

表4 旋转后的成分矩阵元素

表4因子分析的结果显示了以下内容:

1)mat、pen、urb、eco、csum这5个独立变量的复合因子被命名为经济社会影响(F1),其特征值为4.144,对总体水平的解释为41.439%。

2)cdr为第2个独立变量,被命名为儿童抚养影响(F2),其特征值为1.324,对总体水平的解释为13.242%;med为第3个独立变量,被命名为医保覆盖影响(F3),其特征值为1.138,对总体水平的解释为11.378%;odr为第4个独立变量,被命名为老年抚养影响(F4),其特征值为1.128,对总体水平的解释为11.276%;hea为第5个独立变量,被命名为卫生医疗影响(F5),其特征值为1.099,对总体水平的解释为10.995%;hum为第6个独立变量,被命名为人力资源影响(F6),其特征值为0.849,对总体水平的解释为8.486%。

3) 通过这6个主成分的特征向量矩阵,得出每个主成分综合得分线性方程,以每一个主成分所对应的方差相对贡献率作为权重建立综合评价公式如下:

F1=0.877mat+0.254med+0.801pen+

0.744urb-0.379cdr+0.393hea+

0.572hum+0.901eco+0.890csum+

0.121odr

(3)

F2=0.164mat+0.110med+0.316pen+

0.397urb-0.875cdr+0.127hea+

0.354hum+0.198eco+0.197csum+

0.110odr

(4)

F3=0.152mat+0.942med+0.206pen+

0.215urb-0.122cdr+0.158hea+

0.128hum+0.152eco+0.188csum+

0.086odr

(5)

F4=-0.062mat+0.097med+0.105pen+

0.173urb-0.142cdr-0.027hea+

0.136hum+0.143eco+0.167csum+

0.978odr

(6)

F5=0.270mat+0.139med+0.270pen+

0.142urb-0.131cdr+0.891hea+

0.139hum+0.181eco+0.222csum-

0.018odr

(7)

F6=0.202mat+0.078med+0.255pen+

0.378urb-0.188cdr+0.088hea+

0.695hum+0.061eco+0.160csum+

0.067odr

(8)

3 构建空间统计模型

回归模型中的6个主成分讨论了各因素对人口出生率的影响。通过空间权重矩阵实现省市之间的空间交互效应,并引入模型。将因子分析与空间杜宾模型相结合,研究不同变量之间的影响程度。如下所示:

β3F3it+β4F4it+β5F5it+

(9)

式中:bir表示人口出生率;F1代表经济社会影响的因子得分函数;F2代表儿童抚养影响的因子得分函数;F3代表医保覆盖影响的因子得分函数;F4代表老年抚养影响的因子得分函数;F5代表卫生医疗影响的因子得分函数;F6代表人力资源影响的因子得分函数;下标i和t分别表示不同的省份和年份;β0,β1,…,β6代表解释变量的回归参数;α为bir的空间误差系数;θ1,θ2,…,θ6为解释变量的空间滞后项的回归系数;μi表示省份的固定效应;εit为相互独立且服从正态分布的随机扰动项;ωij为空间权重矩阵W的元素。

4 我国出生率影响因素实证研究

4.1 空间权重矩阵的确定

主要考虑到中国各省之间的空间分布情况,采用Rook邻近准则建立空间权重矩阵,4个邻近关系以一个城市为地理中心直接相邻。一般一阶邻接矩阵中主对角线上的所有元素都设置为0,其他位置的元素与之对应标准相邻。如果两省之间相邻,则邻接矩阵元素为1,否则为0。由于海南省没有相邻近的省份,将广东省与海南省相邻,并在矩阵中设置为1。例如西藏与云南、新疆、四川和青海相邻,所以矩阵对应位置的值为1。西藏与重庆不相邻,所以值为0。

4.2 普通最小二乘回归与因子空间回归

人口出生率是一个介于0和1之间的连续变量,首先选择最小二乘法回归(OLS)分析它与6个因素有关。表5右边是最小二乘法估计(OLS)的分析结果,可以看出其R2为0.707 7,即OLS回归模型大约能够解释70.77%的总变差,在统计学上是一个不错的拟合结果,但是在实际研究中,一些影响人口出生率的因素不只是由拟合值来决定的。同时,最小二乘法扰动项存在空间相关性,导致回归结果产生偏差。所以进一步建立空间杜宾模型。

表5 最小二乘法回归(OLS)结果和因子空间杜宾模型(FSDM)的分析结果

在因子空间杜宾模型(FSDM)中,同样使用了与普通最小二乘法相同的自变量和因变量,同时把空间滞后变量加入了其中,分析结果如表5所示。可以看出其修正R2为0.919 4,在普通最小二乘法的基础上大幅度提高。因子空间滞后模型的回归拟合优度log-likelihood的值为-188.535 9,即表明模型具有较好的拟合程度。对比OLS模型,FSDM变量回归结果的系数绝对值均比它的系数绝对值大且更为显著,例如,F3由-0.059 1变为0.164 3,且变为在10%水平上显著,因此选用FSDM对人口出生率的影响因素进行回归分析。

从FSDM得到的变量系数的绝对值和显著性来看,各个变量对人口出生率的影响从大到小的排序为F2>F5>F6>F4>F1>F3,即儿童抚养对人口出生率的影响最大,卫生医疗、人力资源、老年抚养、经济社会对其影响次之,而医保覆盖对人口出生率的影响最小。其中卫生医疗(F5)在5%的水平下显著为负;儿童抚养(F2)、老年抚养(F4)、人力资源(F6)均在5%的水平下显著为正;经济社会(F1)、医保覆盖(F3)则在10%的水平下显著为正。而且在引入空间权值后,F1、F2、F3、F4、F5和F6仍有较为显著的影响,表明在考虑空间相关性后,这6个变量均对人口出生率具有不同程度的影响。

从以上的分析来看,儿童抚养(F2)对人口出生率的影响最大。这表明,少儿抚养比对人口出生率具有超强的影响力。进一步表明,随着养育成本的提高,年轻人的经济负担也越来越重,越来越多的年轻人变得“不敢”生孩子;卫生医疗(F5)对人口出生率的影响次之,且为负影响,这表明医疗的进步是导致生育率下降的因素之一。

4.3 空间效应分解

为进一步探究各个变量对我国人口出生率的直接影响和间接作用,逐个对每一个变量进行效应分解,结果如表6所示。

表6 空间效应分解结果

从表6可以看出,在5%水平下的儿童抚养(F2)的直接效应系数显著为正,且对人口出生率的直接影响最强,表明儿童抚养比的增加会直接促进人口出生率的增长;在1%水平下人力资源(F6)的间接效应系数著为正,且对人口出生率的间接影响最强,且对人口出生率的影响程度远大于儿童抚养(F2),表明人力资源的增加会间接的促进人口出生率的增长。

5 结论

基于我国2015—2019年31个省市的人口出生率数据,通过对中国人口出生率的空间统计分析和建立因素影响分析的计量模型,从空间计量学的角度审视了儿童抚养比、老年抚养比、卫生医疗水平、经济覆盖程度、医保覆盖程度和人力资源等因素对于人口出生率的影响。由计量分析过程得出了以下结论:

1) 卫生医疗水平对人口出生率有着很强的负向影响,且两者的相关程度也很高。即说明,医疗水平越高的地方,其人口出生率就越低。究其原因,应该是医疗水平的提高,从而导致人们越来越不受疾病的困扰后,女性对男性的选择更加慎重,将生育时间延后,自然生育率有所下降。

2) 人力资源水平对人口出生率有间接显著促进作用,这说明人力资源可能会通过经济、空间、计划生育政策等原因来间接影响人口出生率。

在2015年的时候,国家就全面放开“二胎”政策,随着政策的开放,我国人口出生有所增长,但2018年的人口出生呈现了断崖式的下降,再创新低。2021年,全面开放三孩生育政策,延缓断崖式的下降趋势。从而说明,如果只开放生育政策,对人口出生率上升的影响有一定的局限性。据此,提出以下2点建议:

1) 保证卫生医疗的水平与经济水平的协同发展。深化教育改革,降低养育门槛。加大对偏远地区教育资源的倾斜,提高师资力量、设施设备等教育供给。通过对大学生去偏远地区支教提供福利,大力宣传乡村地区建设的重要性,使更多年轻人愿意留在乡村参与建设;严厉打击教育过度市场化和培训机构费用高昂化,发展更加均衡公平的教育,逐步提升我国经济水平;大力发展卫生医疗,实现卫生医疗水平与经济水平的协同发展,使生育风险最小化。

2) 完善养老、教育、医疗、公共服务设施等方面的配套建设。提高人口出生率对于未来人力资源管理有许多深远的影响,涉及社会经济发展的方方面面。必须结合当前经济发展规律,制定更完善的人才建设体系方法,系统出台配套条例和法规,为社会提供更好的人力资源服务,促进我国经济的长期均衡发展。

猜你喜欢

出生率生育率人口
《世界人口日》
人口转型为何在加速 精读
低生育率:怀疑、再调查与重复验证
中国低生育率研究进展:一个文献综述
No.5 2020年出生率创新低
出生率创新低,都是压力惹的祸吗?
人口最少的国家
1723 万人,我国人口数据下滑引关注
全球生育率,新加坡最低
房价上涨抑制英国出生率:每年少生7000多名婴儿