APP下载

中等收入群体规模测算及识别研究
——基于台州市2021 年住户调查数据

2022-02-01胡荣金冯继妙

统计科学与实践 2022年11期
关键词:台州市低收入支配

□岳 青 胡荣金 冯继妙

《中共中央国务院关于支持浙江高质量发展建设共同富裕示范区的意见》 要求 “实施扩大中等收入群体行动计划”。《浙江高质量发展建设共同富裕示范区实施方案》将 “率先基本形成以中等收入群体为主体的橄榄型社会结构,努力成为地区、城乡和收入差距持续缩小的省域范例” 作为推动共同富裕的目标之一。从中央到地方党委政府都很重视中等收入群体规模,将“扩中提低” 作为缩小居民收入差距,推动实现共同富裕的一项战略任务来抓。

中等收入群体是经济社会发展的 “压舱石” “稳定器”。推动更多低收入群体迈入中等收入群体行列,扩大中等收入群体规模,首先需要确定中等收入群体的规模有多大,哪些人属于中等收入群体,哪些人属于 “边缘群体”。即将跨入或跌出中等收入群体行列。这实际上就是中等收入群体规模测算及识别研究的问题。明确中等收入群体的规模大小和识别方法,有利于党委政府正确认识居民群体收入分布情况,精确瞄准中低收入群体,科学制定扩中提低政策,推动实现共同富裕。

本文基于台州市住户调查数据开展中等收入群体的规模测算及识别研究,分析台州市居民群体收入分布特征,科学认识台州市中等收入群体规模,精准识别中低收入“边缘群体”,以期为党委政府精准施策提供决策参考。

|中等收入群体的定义及界定标准

随着共同富裕的不断推进,中等收入群体已是一个被广泛提及的概念,但是对于中等收入群体的定义仍然较为模糊,还没有一个较为权威的界定标准。

根据 《浙江高质量发展建设共同富裕示范区实施方案》,浙江省推动实现共同富裕的目标之一是率先基本形成以中等收入群体为主体的橄榄型社会结构。橄榄型社会结构具体而言,就是到2025 年,家庭年可支配收入(以3 口之家来核算)10 万元—50 万元的群体比例要达到80%、20 万元—60 万元的群体比例要达到45%。

为了给党委政府推动共同富裕提供决策参考,本文结合浙江实际,将中等收入群体的界定标准确定如下:以三口之家为准,家庭年可支配收入达到20 万元—60 万元的群体即为中等收入群体,换句话说,人均年可支配收入达到6.67 万元—20 万元的群体即为中等收入群体。

|中等收入群体规模测算

该部分基于台州市住户调查数据,通过核密度估计的方式拟合台州市居民收入分布曲线,测算台州市中等收入群体规模。

(一)核密度估计方法概述

假设独立同分布F 的n 个样本点为x1,x2,…,xn,其概率密度函数为f,则核密度估计为以下形式:

其中,k()为核函数,已有研究表明核函数的选择对最终估计结果的影响并不显著。本文选择Gaussian 核作为核函数,其表达式如下:

h 为一个平滑参数,称作窗宽,最优窗宽的估计公式如下:

(二)测算结果及分析

我们综合城镇化率、人均生产总值、全体居民人均可支配收入以及城乡常住居民人均可支配收入排名情况,将台州市9 个县(市、区)划分为三组:椒江区、路桥区、玉环市为高人均组,黄岩区、临海市、温岭市为中人均组,天台县、仙居县、三门县为低人均组。根据上述核密度估计方法,选取Gaussian 核作为核函数,拟合出台州市及分区域居民人均年可支配收入的分布情况,如图1 所示。

图1 台州市人均年可支配收入核密度估计图

根据图1,从台州市整体看,居民人均年可支配收入为单峰平滑分布,以6.67 万元为分界,低收入群体的比例显著高于中高收入群体。分区域看,高人均组的可支配收入分布更加矮平,低、中、高收入群体分布更加均匀;低人均组的可支配收入分布主要集中在低收入,中高收入群体分布较少;中人均组分布则介于两者之间,与全市收入分布曲线高度重合。

另外,我们根据核密度估计方法测算了台州市及分区域的中等收入群体规模,如表1 所示。从台州市整体看,台州市低收入群体比重为72.3%,中等收入群体比重为26.4%,低收入群体比重过大,“扩中提低” 任重道远。分区域看,高人均组中等收入群体比重高达36.4%,离浙江省2025 年中等收入群体达45%的目标还差8.6 个百分点。低人均组中等收入群体比重仅为19.8%,是台州市 “扩中提低”的重点攻坚区域。中人均组的群体收入分布与台州市整体分布非常接近。

表1 台州市各收入群体比重(单位:%)

|中等收入群体识别研究

中等收入群体的比重从宏观上显示了居民收入分布情况。然而,具体到 “扩中提低” 政策制定,需要知道哪些家庭属于中等收入水平,哪些家庭属于低收入水平,哪些家庭达到中等收入水平但是还不稳固,哪些家庭属于低收入群体但是帮一帮、扶一扶就能达到中等收入水平,这就是中等收入群体识别问题。由于法律法规限制,家庭收入信息不可获得,只能通过其他指标特征开展识别研究。

(一)中等收入群体识别特征选取

中等收入群体识别特征的选取应当遵循以下两个原则:一是相关性原则,选取的识别特征应当与家庭可支配收入存在相关性,能够间接反映或影响家庭收入;二是可推广原则,选取的识别特征应当在相关部门具有行政记录信息,具有全省推广性。

根据以上两个选取原则,选取了以下五个方面的特征:(1)家庭资产信息:是否有房、建筑面积、家用汽车数量、家用汽车总价值区间;(2)家庭规模结构信息:家庭常住人数、老年人数占比、大专及以上文化程度人数和占比、户主文化程度;(3)家庭户籍信息:地区、城镇/农村;(4)家庭就业信息:就业率、雇主占比、体制内雇员占比、其他雇员占比、个体自营占比;(5)家庭支出信息:租赁房房租、是否缴纳养老保险。

(二)家庭收入类别判断——基于随机森林分类模型

1.随机森林分类模型。所谓随机森林分类模型就是由很多决策树分类模型集合而成的组合分类模型{h1(x),h2(x),…,hk(x)},对于给定的自变量x,每个决策树分类模型均会产生一个分类结果,随机森林分类模型结果根据多数投票决定。大量理论和实证研究表明随机森林不易出现过拟合,非常适于先验知识不清的应用问题。

2.随机森林分类模型结果分析。将住户调查数据按家庭人均年可支配收入进行分类:家庭人均年可支配收入低于66667 元的家庭为低收入群体,家庭人均年可支配收入介于66667—200000 元的家庭为中等收入群体,高于200000 元的家庭为高收入群体。基于上述随机森林分类模型,以70%的原始数据作为训练集,30%的原始数据作为测试集,决策树数量为1000。随机森林分类模型评估结果如表2 所示。

根据表2,随机森林分类模型对于家庭类别的预测准确率达到79.5%。这意味着给定100 个家庭,随机森林分类模型能够准确判断80个家庭的收入类别。所以,随机森林分类模型为判断家庭收入类别提供了一个较为可行的方法。

表2 随机森林分类模型评估结果(单位:%)

(三)家庭可支配收入评估——基于随机森林回归模型

1.随机森林回归模型。随机森林分类模型用于离散变量的类别预测问题,而随机森林回归模型则主要应用于连续型变量的回归问题。与随机森林分类模型类似,随机森林回归模型通过构造出n 棵家庭可支配收入决策树,取n 棵决策树输出值的均值作为家庭可支配收入的评估结果。

2.随机森林回归模型结果分析。该部分比较两种建模方法对家庭年可支配收入进行评估的优劣,第一种方法以住户调查数据总体样本建立随机森林回归模型,第二种方法将住户调查数据按收入类别划分为低收入、中等收入和高收入三个样本,分别建立低收入群体和中等收入群体的收入评估模型,高收入群体由于样本过少且不是 “扩中提低” 重点群体,暂不作考虑。

将样本数据中的70%作为训练集,30%作为测试集,以上文选取的中等收入群体识别特征作为输入特征,决策树数量为1000,得到两种方法的随机森林回归模型评估结果(如表3)。

表3 随机森林回归模型评估结果

MAE 为预测值与实际值绝对误差的平均值,R2为拟合优度,平均值为相应样本中所有家庭的可支配收入平均值,百分比为MAE 与平均值的比值。根据表3,以总体样本建模不仅拟合优度R2较低,仅为0.3,而且平均误差MAE 也较大,为65824.8 元,达到总体样本平均值的37.89%;分群体建模则大大提高了收入评估模型的拟合优度和准确性,中等收入和低收入群体收入评估模型的拟合优度R2分别提高到0.64 和0.62,平均误差MAE 分 别 为57700.1 和32762.2,分别为样本平均值的20.46%和26.58%,相对于总体样本的37.89%大为降低。

为了直观比较两种建模方法对收入评估的准确性和拟合度,我们从测试集中随机选择了50 个家庭的预测值与实际值绘制了图2。根据图2,两种方法建立的模型均有较高拟合度,但与总体模型相比,分群体建立模型拟合程度更高,评估更加精准。

图2 两种建模方法的拟合结果比较

综合随机森林分类和回归模型的分析结果,可以得到中等收入群体识别方法:归集家庭18 个识别特征数据以后,先使用随机森林分类模型判断出家庭的收入类别属于低收入群体、中等收入群体还是高收入群体,若判断出该家庭属于低收入或中等收入群体,则使用相应群体的回归模型进一步评估年可支配收入;若判断出该家庭属于高收入群体,则使用总体样本回归模型进一步评估年可支配收入。

|研究结论及政策建议

(一)集中优势力量资源,深入推进三县“扩中提低” 工作

台州市中等收入群体比重为26.4%,其中椒江、路桥、玉环中等收入群体比重为36.4%,黄岩、临海、温岭比重为26.1%,天台、仙居、三门三县比重为19.8%。为达成台州市2025 年中等收入群体比重45%的目标,党委政府应高度重视补齐天台、仙居、三门三县短板,以最大的政策力度、最多的资源投入深入推进三县 “扩中提低”工作,促进三县低收入群体增收致富,扩大三县中等收入群体规模。

(二)打通部门数据共享壁垒,建立 “全面覆盖+精准画像” 共同富裕基础数据库

输入家庭的18 个识别特征,随机森林分类模型能够以79.5%的准确率输出该家庭属于高收入、中等收入还是低收入群体,随机森林回归模型则能够较为准确地输出该家庭的可支配收入。地方党委政府应打通各行政部门壁垒,集成辖区家庭的识别特征行政记录数据,以随机森林分类模型和回归模型识别家庭类别、评估家庭收入,并建立辖区家庭 “全面覆盖+精准画像”共同富裕基础数据库,动态监测家庭收入情况和辖区中等收入群体比重变化,精准识别 “边缘群体”,为党委政府制定 “扩中提低” 政策、推动实现共同富裕提供决策参考。

猜你喜欢

台州市低收入支配
我国已有6200多万低收入人口纳入动态监测预警范围
山西六类低收入群体可获农村危房改造补助户均1.4万
书画教师作品选登
台州市出台多项措施鼓励外来人员就地过年
被贫穷生活支配的恐惧
黏黏花
跟踪导练(四)4
娶低收入老婆
基于决策空间变换最近邻方法的Pareto支配性预测
防风林莫名枯死,引出一起重大环保案 台州市路桥区金清“7·15”废酸倾倒案告破