“空白”人群精准画像的探索
——基于兰溪市试点经验
2024-04-18赵三武
□ 赵三武
2023 年,浙江持续推进共同富裕示范区建设,2023 年浙江全体居民人均可支配收入为63830 元,位列全国第三,城乡居民人均收入倍差为1.86,比上年缩小0.04。为了更好地促进浙江共同富裕建设,兰溪市通过构建“空白”人群群体结构数据库,为全省群体结构数据库建设提供实践经验,对科学确定全省“扩中”“提低”对象、建立体系化帮扶场景、推进全省共同富裕建设具有现实意义。
本文对照开展共同富裕基础数据库建设工作试点的内容和要求,对“空白”人群进行探索和分析,制定“空白”人群精准画像方案,对“空白”人群进行筛选及特征分析,并根据分析结果提出对策建议。
| 试点基本情况
(一)试点目标
“空白”人群的研究在国内属于新兴领域,可借鉴的成熟经验与做法较少。由于无法直接获取工作信息和收入信息等行政记录,因此重要数据的缺失给实际统计环节带来了挑战。本次“空白”人群精准画像试点工作,通过建立数据分析模型,合理预测“空白”人群收入分布情况,为后续摸清全省“空白”人群的规模和特征、推进“扩中”“提低”行动和高质量建设共同富裕示范区提供探索经验。
(二)研究思路
首先,通过各种渠道收集、挖掘信息,建立“空白”人群筛选规则,并以兰溪常住人口表为基础,对数据进行清洗,通过设计“空白”人群调查问卷,开展试点调查,并对筛选规则的正确性进行验证;其次,根据试点中发现的问题,不断完善“空白”人群的筛选规则,逐步定位“空白”人群;最后,通过抽样调查,收集“空白”人群信息,运用模型预测收入分布情况,为政府精准帮扶提供决策支撑。
| 试点开展过程
(一)数据收集
1.组织召开会议,走访对接部门。组织人社局、医保局和农业农村局等部门参加会议20 余次;多次赴税务局、市场监管局、公安局、人行等相关部门单位对接工作,挖掘部门可利用的信息,试点以来完成对17 个部门、8 个民间组织和企业数据的收集;两次邀请村书记召开座谈会,听取相关意见建议。
2.对接数智平台,获取可用信息。对接兰溪一体化智能化公共数据平台的130 张表,从400 多项信息中筛选230 项可用信息。通过大数据归集及部门收集的数据,按信息属性可分六类:①收入相关信息:如社保缴费金额、公积金缴费基数等;②职业相关信息:如资格证书信息、骑手信息、私人诊所信息等;③助贫类信息:如助学人员信息、残疾人员信息等;④资产类信息:如房产信息、车辆信息等;⑤消费信息:如电话通信费、水电费信息等;⑥特殊人群信息:如退役军人信息。
3.构建数据体系,清洗整理数据。基于2020 年第七次全国人口普查(以下简称七人普)数据,剔除死亡人员、流出人口,新增出生人口、流入人口等数据,构建2022 年兰溪常住人员数据库;实现作用同质表合并,针对诸如《中华人民共和国残疾人证——省回流》《数字残联——兰溪本地》等用途一致的数据表进行合并,保证同质功能表的唯一性;实现维表创建,依据大数据中心提供的省回流数据字典,进行乡镇街道代码和乡镇街道名称等维表创建,以及社保缴费单位类型、学校等级等维表创建。
(二)数据应用
1.进行数据探索,制定筛选规则。构建人员多维信息数据表过程中,针对信息项缺失、字段取值异常和数据间不一致等情况进行定位分析;针对省回流社保数据表人员数据不足等现状,通过数据表二次归集等手段进行信息扩充;从年龄、学历、社保缴纳等多维度查看人员分布情形;以清洗得到的兰溪常住人口表为基础,通过规则探索逐步定位“空白”人群。
2.开展抽样调查,建立数据模型。开展乡镇试点,结合业务部门基础数据表、参考文献、人口抽样等专业调查表进行讨论分析,形成“空白”人群调查问卷设计。综合样本总量、所需时间精力及相关调查费用等因素,以电话询问的形式进行抽样调查,采用分层抽样方法,按照兰溪城区、中心镇及乡镇行政区划,分1 类、2 类乡镇街道,再抽取部分乡镇街道,其中1 类乡镇街道3 个,2 类乡镇街道8 个。所选乡镇街道样本总量为19342 个,以约8%的比例进行随机抽样,考虑回收效率,最终选取1600 个样本作为调查对象。
针对“空白”人群抽样数据,运用方差分析进行特征选择,通过决策树划分群体收入分布,以反映“空白”人群特征与其收入区间的关系,实现“扩中”“提低”重点对象划分,为推动浙江全省共同富裕示范区建设提供现实依据。
| 试点成果
(一)“空白”人群的定义范围
对照浙江省试点内容和要求,形成筛选规则,将“空白”人群的概念界定为:男性年龄在16—60 周岁、女性年龄在16—55 周岁(法律上有劳动能力),无法通过行政记录(或其他可收集的相关记录)直接获取工作信息和收入信息的人群。
(二)七人普总体数据中“空白”人群筛选与识别
1.“空白”人群的筛选规则。本文以清洗得到的兰溪常住人口表为基础,通过规则探索逐渐定位“空白”人群。2022 年兰溪常住人口为57.8 万人,其中男性年龄在16—60 周岁、女性年龄在16—55 周岁的常住人口约34.49 万人。通过轮询接口等方式,初筛获得第一轮“空白”人群9.3 万人,后又经过讨论完善筛选形成“空白”人群6.6 万人,占常住人口比重为11.4%。如表1 所示,获得TOP5 有效命中规则的分别是三险缴纳、企业园区职工人员、学生、领取农业补贴以及公积金。其中,三险缴纳可以过滤45.47%的人员。
表1 不同筛选规则命中的人数(单位:人、%)
2.“空白”人群的区域分布。6.6 万“空白”人群占兰溪常住人口的比重为11.4%。对6.6 万“空白”人群进行区域分布研究可知,占比排前三的分别为兰江街道、上华街道和云山街道,这3 个街道刚好是兰溪市主城区所在地,尤其是兰江街道,其“空白”人群人数占比高达22.88%,是兰溪唯一常住人口突破10 万人(145624 人)的街道。
3.“空白”人群的群体特征。一是男女性别总体均衡,男性人口占比高于女性。在“空白”人群中,男性为36406 人,女性为30080 人,男女性别比为1.21:1,其中性别差距最大的为灵洞乡,差距最小的为水亭畲族乡。二是年龄结构分布适度,略微向中老年倾斜。兰溪市第七次人口普查数据显示,15—59 岁的人口为345222 人,占常住人口的比重为60.06%,“空白”人群中的年龄分布也同样呈现相同的特点,中老年人口的占比相对较高。三是受教育程度普遍偏低,主要以初中学历为主。据统计,初中学历人群有31267 人,占比为47.37%,在总体“空白”人群中占比最高(图1)。四是医保基本实现全覆盖,城乡居民基本医疗保险参保比例高。兰溪市“空白”人群当中,基本医疗保险参保覆盖面达95.64%,其中参加城乡居民基本医疗保险的人群比例最高(占比为66.57%),参加职工基本医疗保险的人群比例最低(占比为4.47%)。五是未工作原因较为复杂,女性以料理家务而未工作为主流原因。根据调查数据,深入了解“空白”人群未工作的具体成因,其中料理家务成为主流归因选项,离退休、丧失工作能力等原因的占比相对较低。
图1 “空白”人群总体学历分布情况(单位:人)
(三)抽样调查“空白”人群的特征分析
1.抽样调查问卷总体情况。本次抽样调查面向兰溪市11 个乡镇街道,共计发放问卷1600 份,实际回收有效问卷1519 份,回收有效率为94.94%。对问卷数据进行效度检验,结果如表2所示,KMO值为0.709,显著性水平小于0.05,说明数据来自正态分布总体。
表2 KMO和Bartlett的检验表
2.“空白”人群收入分布模型构建探索。围绕抽样调查中的“空白”人群数据,运用SPSS26.0、Python 和Power BI 软件,通过方差分析、决策树、逻辑回归等机器学习和统计分析方法构建模型,探索“空白”人群群体特征与收入分布的关系(表3)。
表3 机器学习和统计分析方法介绍
将11 个乡镇街道作为因子,将年收入作为因变量进行方差分析,结果如表4 所示,显著值为0.000,小于0.05。由此说明兰溪市11 个乡镇街道的年收入水平存在显著差异,地理位置可能为影响居民年收入的因素之一。
表4 乡镇街道与年收入的单因素方差分析
本文以年收入作为研究因变量,尝试建立以年龄、性别、受教育程度等为因子的方差分析模型,用以初筛影响年收入水平的特征变量。结果显示,受教育水平、电费、电话费、车房资产情况等因子,对年收入水平具有显著影响。基于上述分析,尝试运用决策树模型,构建预测“空白”人群年收入分布的模型。
受限于抽样数据的数据量,年收入暂时按照高收入(10 万元及以上)与低收入(10 万元以下)两档进行划分(图2)。结果表明,基于抽样数据和特征选择,目前决策树模型的正确率达63%,对“空白”人群的收入水平分布能够进行一定程度上的预测。
图2 “空白”人群收入分布预测决策树示意图
3.对照浙江省共同富裕目标分析。根据出台的《浙江省“扩中”“提低”行动方案》(以下简称《行动方案》),《行动方案》的目标之一就是到2025 年,家庭年可支配收入10—50 万元群体比例达到80%、20—60 万元群体比例达到45%。
结合目前抽样数据中的兰溪市“空白”人群收入分布情况,从而对兰溪市整体“空白”人群的收入分布进行统计推断分析。由于本研究针对的是“空白”人群个体收入情况,而《行动方案》中的测算指标为家庭年可支配收入,故在推断估计时进行了简要模糊换算,选定置信度95%,推断目前兰溪“空白”人群家庭年可支配收入10—50 万元群体比例约为71.25%,20—60 万元群体约为22.26%,较《行动方案》中的目标仍有一定差距。
| 对策建议
针对行政记录有所缺失的“空白”人群进行深入研究,不仅可以填补现有统计制度的空白,而且可以更有效地了解该人群的社会现状和收入分布状况,为浙江省高质量发展建设共同富裕示范区提供政策参考。现结合本文研究结果,提出如下对策建议:
(一)明确“空白”人群定义,制定配套统计标准
“空白”人群的研究尚处于探索阶段,浙江需制定相关指导意见,明确界定“空白”人群概念,并制定相配套的统计标准与统计制度。因此需要加强顶层设计,做好谋篇布局。一是政府层面需要制定体现普遍性和指导性的顶层政策。对于“空白”人群的概念、内涵以及覆盖范围等较为模糊的相关议题,需要全省在立法层面确定统一标准。二是形成跨部门协作机制,加快制定配套措施。依据文件,形成自上而下、主体明确的“空白”人群支持体系。
(二)实施定期抽样调研,获取特征优化模型
定期开展抽样调查,聚焦“空白”人群主要特征,不断拓展研究深度、广度。通过不断尝试探索新的关键变量,持续优化决策树模型,提升预测准确性。精准了解“空白”人群的收入水平分布,为政府决策提供参考依据,为浙江建设共同富裕示范区提供有力支撑。
(三)延伸建立家庭谱系,深入了解“空白”人群
以“空白”人员为切入口,延伸建立家庭谱系,进而研究“空白”家庭,分析家庭收入水平相关影响因素,实现“空白”人群信息全面覆盖的目标。在借鉴经验的基础上,逐个研究解决存在的障碍,建立可持续性模型来跟踪和掌握这类人群的情况,从而精准施策。
(四)完善社会保障制度,重点加强扶持机制
高度重视对“空白”人群的扶持和保护,针对全省地域差异,要因地制宜制定实施社会保障政策,特别是针对浙江山区26 县,需建立健全“空白”人群的社会保障机制;还要立足地方实情,坚持与时俱进,完善社会保障制度建设。同时加强宣传和教育工作,做好政策的宣讲,使其真正服务于有需要的人群,实现社会保障政策有效落地。
(五)建立社会支撑网络,构建数智交流平台
搭建政企协同“数据桥”,形成“空白”人群多元化社会支撑网络,加大政府对“空白”人群的服务供给。要加强“空白”人群数智信息管理平台的建设,将大数据、人工智能、云计算的技术优势以及各类数字化平台的信息和组织优势,与“空白”人群的管理相结合,实现数据的有效传输与深度融合,发挥其潜在的联动价值。