基于Logistic-SVM-RFE的二胎生育影响因素研究
2021-04-09李翼,李晓
李 翼,李 晓
(淮北师范大学 1.数学科学学院;2.计算机科学学院,安徽 淮北 235000)
人口生育政策一直与国家经济发展、民生建设、人才储蓄、社会变迁等方面息息相关。我国人口生育政策经历六个阶段:鼓励生育阶段、节制生育阶段、计划生育思想复苏阶段、计划生育落实与发展阶段、计划生育政策改进阶段、二胎政策的实行阶段[1-5]。就全球范围来看,理想子女数减少是现代化社会普遍产生的一种趋势,人们生育二胎的意愿较低[6-9]。目前我国人口结构失衡,带来了诸如人口老龄化、性别比失衡、人与自然矛盾、劳动力人口结构性短缺等问题。因此党中央从2013年起开始对我国的二胎政策适当放宽,2016年全面施行二胎政策。然而,全面二胎政策并没有完全解决我国目前存在的问题,为此,许多专家对全面二胎政策未取得理想效果进行了系统分析,试图找到一条更加适合国情的道路。
为得到影响“小家”生育意愿的关键因素,进而为人口学专家提供现实基本材料与合理化建议,本文以安徽省新晋文明城市——淮北市为例,通过问卷调查的方式收集数据,综合考虑个人基本信息、主观意愿、客观条件方面等情况,建立不同模型,经过“初筛—精筛—细筛”等环节挖掘二胎影响因素并对其进行详细分析。首先经过卡方检验,剔除了部分自变量指标作为初步筛选,并分析筛选结果;建立二元Logistic回归模型,通过模型结果的显著性大小的筛选剩下的自变量;考虑到Logistic回归模型容易过拟合且针对非线性问题的局限性,基于caret框架,通过trControl定义函数运行参数,对抽样重复交叉验证,以避免被检验样本的数据趋向不平衡,进一步建立SVM-RFE模型求解各特征的重要性,并对特征按照重要性进行排序,更有针对性的提出政策建议。
1 研究方法
1.1 二元Logistic回归模型原理介绍
二元逻辑回归是因变量为二分类的广义线性回归模型。在本文的模型中,因变量为“被调查者是否愿意生育或已生育二胎。”因此,本文定义“愿意=1”,“不愿意=0”,将其带入逻辑回归模型进行分析,具体公式如下。
二元Logistic回归模型首先利用公式[10]:
(1)
再经过Logistic函数的转换,通过取对数发现其线性关系如式(2)所示。
(2)
上式中α是常量,βi是回归系数。当公式中的xi每向上增加一个单位后,就会对优势产生乘积效应,即能够显示出已育家庭生育二胎的意愿与自变量之间的关系。
1.2 SVM-RFE模型原理及流程图
SVM模型是一种分类学习算法,广泛用于模式识别,下面先介绍SVM[11]。
SVM需要求解的优化问题如下式所示:
(3)
s.t.yi(ω·xi+b)≥1-ζi,1,2,…,N
(4)
ζi≥0,i=1,2,…,N
(5)
这样最初的原始问题就变成了对偶问题:
(6)
(7)
0≤αi≤C,1,2,…,N
(8)
其中,αi为拉格朗日乘子。
最后ω的解为:
(9)
将支持向量机与递归特征消除法相结合提出的了SVM-RFE模型。SVM-RFE模型是一个基于SVM的最大间隔原理的序列后向选择算法。通过模型训练样本,对每个特征进行得分进行排序,去掉最小特征得分的特征,然后用剩余的特征再次训练模型,进行下一次迭代,最后选出需要的特征数。特征i的重要性得分排序准则如图1所示。
图1 SVM-RFE模型原理图
2 数据处理及实证分析
本文基于中国人口与发展研究中心和《中国人口统计年鉴》以及锐思人口统计数据库,抽取1000份统计调查数据,并最终选取了25个可能影响二胎的因素,主要包括三个部分:第一部分,从被调查者的个人基本情况来看;第二部分,从被调查者的家庭情况;第三部分,可能影响被调查者二胎生育意愿的社会基础设施。为了更好的显示被调查者的满意程度,本文参考了李克特量表中题目设置的五个类别,分别从非常满意、满意、一般、不满意、非常不满意五种程度来设置选项,从而更加准确的反映被调查者对这些社会基础设施的看法。
综上三个方面,本文对影响因素进行汇总、赋值以更加直观清晰。如表1所示。
表1 因素赋值表
首先使用卡方检验与秩和检验相结合的方法对于问卷中的影响因素进行初步筛选。卡方检验作为非参数检验,在统计学中用以探究变量频数分布的拟合优度、两变量之间有没有关联性的一种方法。卡方检验公式如下:
(10)
该公式之中i为样本(i=1,2);R为样本的属性个数,也就是本文问卷调查选项的个数;x2为2个样本之间的卡方计算值;Ai为样本i在属性上的实际频数;Ti为检验样本某种属性的理论频数。在计算卡方值之后,再通过卡方分布表判断样本之间的关联度。若p≥0.05,则样本之间的差别“无显著性”;若p≤0.05,则样本之间的差别“有显著性”。
通过卡方检验剔除了X1、X4、X6、X10、X11、X15、X20以上8个自变量,接着基于剩余的自变量进行logistic模型建模。逻辑回归建模结果如表2所示,从表2可以看出,被调查者年龄、最高学历、家庭人均年收入、对居住地医疗条件和服务的满意程度以及被调查者“大宝”的性别(即表1中的X2、X3、X5、X13、X22)均不能显著影响二胎生育意愿。剩下的因素(即X7、X8、X9、X12、X14、X16、X17、X18、X19、X23、X24)均能够显著影响被调查者是否生育二胎。最后将这些因素代入SVM-RFE模型,进行重要性大小的排序,深入研究影响二胎生育的关键因素。而X2、X3、X5、X13、X22没通过显著性检验,剔除未通过显著性检验的指标后,考虑到二元Logistic回归模型无法有效处理非线性问题,且容易陷入过拟合,建立SVM-RFE模型进一步给出各自变量的重要性大小,并给出重要性排序,结果见表3。
表2 二元logistic回归表
基于R语言caret框架,SVM-RFE模型参数设定如下:通过trControl定义函数运行参数,并选择重复交叉验证抽样,避免了样本数据的的不平衡性,保证了模型样本的可靠性。数量或重抽样的迭代次数记为10次,计算的完整折叠集的数量记为3。模型训练方法选择SVM模型,作为分类判断模型,可以有效弥补二元Logistic回归模型的不足。对Logistic模型通过显著性检验的自变量建立SVM-RFE模型如表3和图2所示。
表3 基于逻辑回归模型筛选的SVM-RFE建模结果
图2 基于逻辑回归模型筛选的SVM-RFE建模结果图
基于SVM-RFE模型的特征重要性排序之后,本文对已育家庭生育二胎的意愿研究,通过研究发现被调查者周围是否有生育二胎的朋友、“大宝”的年龄、是否为城市户口和对当前养老保险制度满意度等因素对已育家庭生育二胎的影响最大;“单独家庭“和“双独家庭”更偏向生育二胎;“从众效应”仍然是影响二胎生育的关键因素;城市户口的家庭比农村户口的家庭更倾向生育二胎,且呈现城市影响农村的趋势;二胎生育的意愿随“大宝”的年纪增加而降低且15岁上下差距明显;养老保险作为二胎生育的关键因素需要政府加大投入;影响二胎生育意愿的其他因素;如家庭收入、学历、政治面貌等因素对是否生育二胎影响并不明显,表明各阶层人民思想观念正在转变,生育二胎并不是“高学历”“高收入”“体制内”人员的专利。
3 总结和建议
本文为了挖掘二胎生育影响因素,构造了Logistic-SVM-RFE模型,分别通过卡方检验、二元Logistic回归和SVM-RFE模型对自变量指标进行筛选,并最终得到各影响因素的重要性以及排序。结果表明,被调查者周围是否有生育二胎的朋友、“大宝”的年龄、是否为城市户口和对当前养老保险制度满意度等因素对已育家庭生育二胎的影响最大;“单独家庭”“双独家庭”以及“从众效应”仍然是影响二胎生育的关键因素;二胎生育的理念并不是“高学历”“高收入”“体制内”人员的专利。
计划生育这一基本国策,虽然对中国的人口问题和发展问题起到了积极的作用,但是也带来了人口老龄化问题。而国家施行的“全面二胎”政策,对扭转老龄化和少子化的人口新常态,促进社会、经济与人口协调发展起到了至关重要的作用。在“全面二胎”的政策背景下,越来越多的人开始响应国家号召,生育二胎。基于影响因素的重要性排序,本文给出以下政策建议。
(1)个人情况有二胎生育意愿的育龄女性必须具有良好的身体素质,有二胎生育意愿的育龄女性必须要做好充分的心理准备。
(2)家庭准备。第一,经济成本。在生育二胎之前当事人首先应该考虑能否保证稳定的经济来源,保障家庭的正常生活。第二,时间成本。当事人要保障有足够的时间和精力去应对生育二胎带来的一系列问题。第三,“大宝”的情绪问题不容忽视。
(3)社会服务。第一,加强医疗设施和医疗服务的投资力度。第二,重视基础教育建设。国家要加强基础教育设施建设,优化教育资源配置,加大财政支出,缓解家庭教育负担,保证“优生”“优育”。第三,注意满足“二胎女性”的就业需求。要保障女性在劳动力市场上的差异,缩小体制内差异,注重公平性,创造有利的女性就业环境。第四,重视二胎产妇的心理健康。有关部门要加强完善相关政策制度,为高龄产妇和孕妇及时提供心理疏导,保证其能够接受优质的医疗检查和医疗服务。
总之,在“全面二胎”政策的落实过程中,要注意从个人、家庭和社会三个角度着手,以保证“全面二胎”政策的顺利实施。