基于数据挖掘探究城镇居民的主观幸福感影响因素
2019-07-18曹程泽山东省青岛第二中学
曹程泽 山东省青岛第二中学
一、引言
新中国建立后,在中国共产党的领导下,经过全体人民的共同努力及奋斗,中国取得了举世瞩目的成绩,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。2016年,习近平总书记在全民国家安全教育日上强调,要不断提高人民群众的安全感和幸福感。可见,幸福感作为反映民生的指标,在理论研究和实践中都值得关注。随着中国城镇化不断提升,城镇居民以及居住在城镇的居民比例逐步提升,其主观幸福感对全体社会的稳定、和谐发展起着至关重要的作用。城镇居民的主观幸福感的影响因素的研究对于宏观政策的制定、实施,不断提升国民的幸福感具有非常重要、积极的社会意义。
主观幸福感是个体对目前生活总体质量进行积极评价的程度,即个体对自己生活的喜欢程度。自Easterlin提出“收入-幸福悖论”以来,个体主观幸福感的影响因素及幸福感提升问题引起了众多经济学家的兴趣[1]。不同国家与地区的学者针对某一集合范围内的幸福感进行了大量的研究,由于发展阶段不同,某一区域贫富分布不同,居民的文化背景、宗教影响的巨大差异,同样一个重要因素,比如收入对幸福感的影响,不同的研究对象群体,得出的结论往往是相互矛盾的。Biswas-Diener 和Diener研究发现,印度加尔各答贫民窟居民的主观幸福感通常要比富裕的对照群体强烈[2]。Binder 和Coad发现,英国居民家庭的绝对收入对其主观幸福感具有显著的正向提升作用,但对幸福程度较高居民的影响则不显著[3]。国内针对幸福感的研究从绝度收入、相对收入以及收入结构逐步发展到关注家庭收入,养老收入对个体幸福感的研究。万佳乐和李超伟等人认为中国居民的幸福感不仅存在着显著的相对收入效应与绝对收入结构效应,而且具有显著的城乡异质性,两种效应存在着显著不同[4]。从绝对收入结构效应来讲,起关键作用的是经营性收入、转移性收入和财产性收入,三种收入的增加,可以显著提升居民家庭的幸福感[5]。闫静,彭代彦等人认为家庭养老显著降低了中国居民的幸福感,且这种负面影响随家庭人均收入的增加而减弱,家庭养老对中年群体的负面影响最大[6]。
主观幸福感常常与多种复杂因素有关,中国正处于城镇化剧烈碰撞过程中,二十年来改革开放物质生活的快速提升与文化生活的固有规律之间的不平衡;南北东西区域发展的不均衡;社会阶层形成初步固化趋势,中国居民的传统家国天下文化与实用文化之间的不平衡;网络文化的迅速扩张等等因素,都对居民的个体幸福感有着重要的影响,因此不能只用经济收入和生活质量衡量。本文通过调查数据,全面考虑多种因素,通过建立决策树模型和随机森林模型等数学模型的方法对预测城镇居民主管幸福感进行预测,然后寻找影响主观幸福感的因子,从而为国家提高人民的幸福感提出更好的建议。
二、模型介绍
(一)决策树模型
决策树是一种基本的分类方法,该方法通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。决策树的算法的本质是递归选择最优特征,并根据该特征进行分割。这一过程对应着决策树的构建,也对应着特征空间的划分,使得划分之后的各个子集能够被基本分类,那么构建叶节点;否则继续递归划分[7]。其具体步骤为:
第一,确定根节点,求出对应的熵,从而得到信息熵,计算信息增益或信息增益率,从而确定根节点;信息熵的具体公式为:
第二,重复第一步计算信息增益的计算公式,递归算法构造出决策树;
第三,决策树构造完成后,进行剪枝,然后评价决策树的好坏。
(二)随机森林模型
随机森林的核心思想是就是由多棵决策树构成的集成模型。对于任意一棵树,该树的训练集是从总的训练集中有放回随机采样得到的[8]。训练过程可以总结如下:
第一,给定训练集S,测试集T,确定所需要的树的个数t和每棵树的深度d。
第二,从S中有放回的抽取训练集,训练集的个数t,从根节点开始训练。
第三,根据回归树的思想构建决策树,对每棵树进行评价。
第四,所以决策树都被训练过,根据少数服从多数的思想进行投票分类。
三、数据获取
本文分析数据选取中国综合社会调查(CGSS)2015年度调查得到的城镇居民的样本(http://cgss.ruc.edu.cn/),样本为2391个。通过从多方面多角度对影响城镇居民主观幸福感因素的分析,在社区内进行调查,以及从网上查阅资料,本文选取了以下指标作为参考因素:性别、最高教育程度、身体健康状况、心情抑郁或沮丧的频繁程度、户口登记状况、空闲时间、生活是否幸福、社会保障项目、全年家庭总收入、家庭经济状况在所在地属于哪一档、几处房产、社会经济地位、关于社会公平的讨论、政府工作满意度以及公共服务满意度等指标,统计结果如表1。
性别不仅仅是生理划分,其也是社会发展过程中非常重要的角色定义。男性和女性对于幸福感的判断具有相当大的主观差异,是幸福感衡量的一个重要因子。身体健康,心理健康是居民幸福感衡量的基础因素。全年家庭总收入、家庭经济状况在所在地属于哪一档、几处房产、社会经济地位等因素都是居民幸福感的重要的经济基础因素以及由此而带来的社会认知因素。关于社会公平的讨论、政府工作满意度以及公共服务满意度等指标是居民对社会生活满意度的反映,随着我国人民物质生活水平的不断提升,居民参政议政的意愿也逐步增强,这也符合马斯洛的需求层次理论。休闲时间在某种程度上是个体之所以为个体的一个表现。户口登记情况则关系到居民的社区归属感以及在当前情况下同居民子女的教育强相关,同样是其主观幸福感的重要因素。而居民不同的教育程度对上述物质的、精神方面以及社会责任实现等方面的权重,有着显而易见的影响。
四、结果分析
(一)预测结果分析
本文采用8:2的训练集和测试集分配样本数据,根据模型介绍,调试支持向量机模型和随机森林模型。评价的指标包括正确率,召回率和F1值。F1值是正确率和召回率的加权调和平均值。当这个结果较高时,说明方法实验有效。在本文中两个模型计算的到的正确率,召回率和F1值,计算时间如表2。
结果描述。发现随机森林方法在正确率,召回率,F1值等方面都优于决策树,原因是随机森林方法更具有很强的抗干扰能力。
(二)重要性排序
图1 随机森林方法重要性排序
我们根据随机森林方法对各因子的重要性进行排序。根据图1数据显示,公共服务满意度对城镇居民主观幸福感的影响最大。全年家庭总收入,平均空闲时间,政府工作满意度以及心情抑郁或沮丧的频繁程度对城镇居民主观幸福感的影响也较大性别以及几处房产对城镇居民主观幸福感的影响很小。社会保障项目以及家庭经济状况在所在地属于哪一档对居民幸福感的影响并不大,与预测结果出入比较大。对以上结果可能的原因进行分析,一方面,当代社会保障较好,大多人都有至少一项社会保障项目,因此社会保障因素对居民幸福感影响较小;另一方面,城镇居民更在乎自己以及家庭的绝对收入,而并不看重家庭经济状况在所在地属于哪一档。
五、结论
综上所述,本文选取了上述相关指标作为衡量居民主观幸福感的评价因子,通过采用决策树模型以及随机森林算法的数据分析以及挖掘,来探寻影响居民主观幸福感的影响因素及其权重。进行此研究的主要目的是给国家,政府以及个人相关建议,来提升城镇居民的幸福感。第一,国家应坚持以经济建设为中心,加快经济发展。据本文研究,全年家庭总收入与城镇居民幸福感有很大的关系。因此,国家必须进一步发展经济,以提高国民人均收入水平,为提高居民幸福感奠定坚实的物质基础。第二,国家应尽力解决人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。研究表明,家庭经济状况在所在地属于哪一档对居民幸福感的影响较小,说明城镇居民更看重绝对收入。因此,国家应尽快发展较落后的地区的经济,减小地区之间的差异,实现共同富裕。第三,政府应该坚持为人民服务的工作原则,以人为本,提高公共服务的质量,为民着想,建设人民满意的服务型政府,这样有利于提高公民对公共服务的满意度,从而大幅度提高居民幸福感。第四,城镇居民应以乐观的心态对待生活,减少心情抑郁或沮丧的频繁程度,来提高自己的幸福感。