APP下载

Logit 回归与决策树模型在贫困户致贫原因分析中的应用及启示

2020-06-19谢孟琪吴德燕

贵阳市委党校学报 2020年1期
关键词:决策树贫困人口贫困户

张 引 谢孟琪 吴德燕

(1.中共贵阳市委党校 公共管理教研部,贵州 贵阳 550005;2.贵州大学 经济学院,贵州 贵阳 550025;3. 中共余庆县委党校 教务科,贵州 遵义 564400)

自2013 年11 月习近平总书记在湘西考察时首次提出精准扶贫以来,我国扶贫工作进入精准扶贫的新阶段。以中共中央办公厅、国务院办公厅2014年1 月印发的《关于创新机制扎实推进农村扶贫开发工作的意见》为标志,我国开始实施精准扶贫。以2015 年11 月29 日国务院颁布的《中共中央国务院关于打赢脱贫攻坚战的决定》为标志,在全国范围全面实施精准扶贫精准脱贫方略。党的十九大报告明确指出,坚持精准扶贫、精准脱贫,“重点攻克深度贫困地区脱贫任务,确保到二〇二〇年我国现行标准下农村贫困人口实现脱贫,贫困县全部摘帽,解决区域性整体贫困,做到脱真贫、真脱贫”。我国实施精准扶贫精准脱贫方略后,相关研究方兴未艾,取得丰硕成果。2020 年中央一号文件明确指出:研究接续推进减贫工作。脱贫攻坚任务完成后,我国贫困状况将发生重大变化,扶贫工作重心转向解决相对贫困,扶贫工作方式由集中作战调整为常态推进。在全面建成小康社会倒计时阶段,精准脱贫的实践和研究对方法学的探讨和应用提出了更高的要求。归根结底,精准扶贫的对象是贫困户,因此贫困户致贫原因剖析对制定合理有效的精准扶贫策略显得十分重要。例如,贾瑞林(2018)等[1]指出,致贫原因在较大程度上影响着帮扶需求的类型及其空间分布;杨龙(2017)等[2]指出,分析贫困地区农户的致贫原因是精准扶贫的基础;陈烨烽(2017)等[3]研究表明,整村推进的扶贫工作对促进贫困村可持续发展起到了较好的推进作用,但由于贫困村具有各自贫困特征,需进一步地因地制宜、因村施策、开展针对性帮扶工作。虽然研究主题不同,学者们均从各自的角度强调了致贫原因分析对精准扶贫的重要性。从精准扶贫致贫原因定量分析的方法学探索来看,很多学者采取数理统计和计量模型进行了致贫原因的探析,研究结果为实践提供参考。例如,李辉(2018)[4]运用Logistic 模型分析A 县各类贫困人口致贫原因,探讨出文化程度、健康状况、劳动能力对各类型贫困人口的影响存在差异。又如,杨桂林(2018)[5]以贵州省剑河县为例,运用空间自相关分析方法筛选出9 个主要致贫因子进行地理加权回归分析。

决策树算法最早起源于人工智能的机器学习技术,是一种典型的预测分类算法,在社会科学研究中更多的是应用决策树方法探讨某一行为或现象的多个影响因素[6][7],但少有研究同时应用回归与决策树的方法探析贫困户的致贫原因。归根结底,贫困也是一种社会现象,且大部分贫困户的致贫原因并非单一,可运用决策树方法探讨贫困的相关影响因素,深入挖掘贫困户层面的因素并归类分析,找出其中的规律,探讨合理有效的精准扶贫策略,是对“自上而下”决策机制的补充和完善,可为实践决策提供有价值的参考。特别是在我国2020 年全面打赢脱贫攻坚战、全面建成小康社会、我国进入后精准扶贫时代后[8],对精准扶贫研究的方法学探索十分有必要。笔者采取典型调查方法,选择贵州省Z 县开展现场调研,采用Logit 回归和决策树模型,剖析贫困户致贫根源,为制定精准帮扶措施提供依据,也为其他地区探讨贫困原因提供有价值的参考,为深入研究精准扶贫提供方法学上的参考。

一、调查设计和样本选择

目前,扶贫项目多以县(市)级为单位具体管理推行,约80%的专项扶贫资金的管理权已经下放到县级,乡村两级治理单元掌握了丰富的扶贫信息,基层政府成了决定精准扶贫成败的关键环节。因此,笔者采取随机抽样和立意抽样调查结合的方法,选择贵州省Z 县,在Z 县所有乡镇中,随机抽取B 乡为调查对象,在B 乡内选择C 村,采取自制的问卷调查表(内容涵盖贫困户一般人口学信息、家庭收入、家庭资源、家庭支出、健康情况、教育背景等变量),抽取300 户贫困户开展入户调查,其中有效访谈为281户,有效率为94.5%。课题组对资料进行统一编码,使用EpiData3.1 建库、录入数据,并对数据进行严格的逻辑检查,采用SPSS 16.0 软件对数据进行分析。经统计,本文所涉及的结果变量的缺失率均在4.0%以下。

二、计量模型构建及分析

1.变量选择及定义

有研究表明:家庭贫困与否不仅与收入有关,还与家庭户主特征、人口特征、人力资本特征、生产特征等有关[9]。本文通过个体家庭调查数据定量分析发现,家庭人口数、家庭男性人口数、务工收入、家庭生产工具的数量、种植养殖收入、家庭支出是导致贫困的因素,差异有统计学意义。个体家庭的贫困与否不仅与收入有关,还与家庭情况和支出有关,在此基础上,本文运用计量经济学构建Logit 模型来分析Z 县的贫困发生概率并更为详细具体地找出致贫因素。选择家庭人口数、家庭男性人口数、家庭劳动力平均年龄、家庭在外务工人数、家庭生产工具数量、家庭收支情况等为Logit 回归分析的变量。变量名称及赋值如表1 所示。

表1 变量名称及赋值

2. Logit 模型选择及拟合

二元Logit 模型通常以因变量形式出现,记为:

本研究运用随机效应模型,其概率函数可以写为:

F 表示累积分布函数,常用形式有:标准正态分布(Probit 模型)、逻辑分布(Logit 模型)、极值分布(Gompit 模型)。研究假定其服从逻辑分布,利用随机效应二元Logit 模型构建贫困户的致贫原因。

其中是否贫困为模型中二分类选择变量yit,表示个人i 在t 时期二分类选择变量;xit表示观测到的影响二分类变量的相关变量,利用随机效应二元Logit 模型构建致贫因素,运用SPSS 软件对所选取的变量进行二元反应变量的非条件Logit 回归分析,结果显示整个模型有统计学意义,卡方值为181.316,P值为0.000。Cox & Snell R 方为0.475,Nagelkerke R方为0.719,模型解释程度较高,可以较好地解释致贫原因。Logit 回归模型分析结果显示,将贫困户家庭男性人口数、劳动力平均年龄、水稻玉米收入、打工收入、家庭生活支出、家庭看病支出等纳入回归模型,结果有统计学意义(如表2 所示),这与王晓兵[10]等的研究结论一致,家庭成员个数、受教育年限、家庭生产经营类型和村级特征变量,均对农户脱贫有重要影响;可见,对贫困户进行分类管理、分类施策,对于贫困户的稳定脱贫、防止返贫有重要意义。调查了解到,基层政府在精准扶贫的具体执行中,虽对贫困户的发展诉求有了解,但由于基层的技术力量较欠缺、人力有限等原因,对贫困户家庭特征相关数据的收集、归纳、分析和利用不足,分类分级管理不够,不利于掌握家庭成员特征及其相互的关系,不利于贫困户的稳定脱贫。

表2 二元反应变量的非条件Logit 回归模型分析结果

3.致贫原因分析的决策树模型

贫困家庭的致贫原因不仅仅是收入方面,单一的凭借人均收入来确定农民家庭是否贫困不够全面,应该从多个方面对家庭因素进行分析,综合确定家庭的贫困程度,为精准扶贫的具体实施提供基础。本文应用决策树模型,在Logit 回归基础上,对致贫原因进行深入剖析。

(1) 决策树方法的理论基础

分类是数据挖掘的一种重要数据分析形式,可用于对数据特征的提取和对数据未来趋势的预测分类,即通过特定的特征实现对事物的分门别类,体现数据从“量”到“质”的飞跃。这就需要从大量的数据训练集中以一定的分类建模方法,发现总结规律,建立合理有效的分类模型,然后依据这些模型实现分类目标,通过分析由属性描述的数据元组来构造模型。分类的研究方法主要包括决策树、贝叶斯方法、神经网络、最临近分类、粗糙集和模糊集方法等 。

(2)决策树方法及其应用

决策树归纳的基本算法是采用自顶向下递归的划分控制方式构造决策树。决策树的优点是算法成熟,速度快,分类精度高,且分析结果易懂。与其它分类方法比较,基于决策树的分类方法速度较快、较易转化成简单且容易理解的分类规则、较易转换成数据库查询语句。

课题组运用决策树方法对贫困和非贫困家庭进行分组,通过家庭特征、收入特征等因素对贫困家庭进行综合判别,达到精准识别贫困家庭的目的,为便于模型运算,本研究以人均年纯收入3000 元为贫困划分标准,将家庭男性人数、家庭劳动力平均年龄、家庭健康平均得分、人均务工收入分组、人均土地收入分组、人均牲畜收入分组、人均生活支出分组和人均医疗保健支出分组等8 个变量作为特征选择模型的初始变量:(1)缺失值最大百分比为70%;(2)单个类别记录最大百分比95%;(3)最大类别数记录百分比95%;(4)最小变异系数为0.1;(5)最小标准差为0.0。运行特征选择模型后,在8 个变量当中,有7 个变量对贫困的影响程度均重要,它们的重要性指数(importance)都大于0.95。模型结果显示:家庭男性人数、家庭劳动力平均年龄、家庭健康平均得分、人均务工收入分组、人均土地收入分组、人均牲畜收入分组、人均生活支出分组,这些属性与是否贫困之间存在正相关性,具体如表3 和图1 所示。

表3 变量赋值及解释

针对上述7 个变量,决策树模型结果的展示有两种:决策树图和规则集,由于决策树图的表现形式更为直观,本研究用决策树图进行展示,如图1 所示(由于无法进行完整截图,所以仅进行部分展示)。本研究规则集共形成10 个规则,其中4 个规则用于非贫困,6 个规则用于贫困,用此规则可以指导家庭贫困户的精确判别。

图1 决策树精准识别模型结果示意图

三、对精准扶贫工作的启示

1.建立多维度贫困人口识别,助力2020 年后扶贫工作

2020 年中央一号文件指出,脱贫攻坚任务完成后,我国贫困状况将发生重大变化,扶贫工作重心转向解决相对贫困,扶贫工作方式由集中作战调整为常态推进。可见,脱贫工作需要与时俱进、转型升级。目前贫困户识别主要依据贫困户家庭人均纯收入、“两不愁”、“三保障”等易于比较的指标,由于这类指标比较单一,难以全面衡量和评价贫困户的状况,对贫困户的稳定、可持续脱贫指标关注不够,换言之,无法很好地识别贫困户可能返贫的因素。在精准扶贫、精准脱贫的过程中,全面分析各种致贫因素,建议依据家庭男性人数、家庭劳动力平均年龄、家庭健康平均得分、人均务工收入、人均土地收入、人均牲畜收入对贫困户进行再次分类、细化,根据不同的分组情况,研制不同的扶贫措施,对目前的帮扶措施进行再次的优化组合。例如,笔者发现,贫困户的男性人口数有2 人及以上的比例为15.7%,明显低于非贫困家庭,且差异有统计学意义。说明非贫困户的男性人口数要明显多于贫困家庭,提示家庭男性人口数可能是致贫原因的影响因素。在精准扶贫的实践中,建议对比分析现有的贫困户监测系统数据,对贫困户的致贫原因与贫困户特征进行分类归纳,找出其中的规律和变化趋势,并与现行的帮扶措施进行比对分析,做到扶贫措施有的放矢、合理有效,做到精准施策,促进实现精准脱贫的目标。

2.加大健康安全网建设,避免因病返贫

家庭健康评分是贫困户致贫的因素之一,贫困人口生存环境相对恶劣,患病机会多,需加大措施提升家庭成员健康水平。在扶贫工作中,需要首先把加强贫困人口的健康服务作为减缓贫困优先考虑的内容。建立城乡统筹的能覆盖广大贫困地区和贫困人口的一体化运行的健康服务体系,避免贫困户因病致贫[11]。加强农村健康服务的管理,对各级医务人员、尤其是村级直接面对农民的医务人员进行岗前和在职培训,加强考核和业务能力培养提升。建立县、乡、村医务人员流动交流制度,县医疗卫生机构定期、轮流地接收乡村医生到医院进修培训或定期下乡进行业务指导,对乡村医务人员实行强化培训,提高其健康服务能力。

3.拓展就业渠道,增加务工收入

人均务工收入也是影响贫困户的因素之一,建议强化技能培训,对贫困人口进行科学区分,并分析和识别贫困农户的基本特点和状况,更好地选择、实施和创新脱贫措施。2020 年中央一号文件也明确指出:强化产业扶贫、就业扶贫。因此,需强化有劳动能力贫困人口的技术培训,提升生产效率。采取开展职业技能培训、转移就业、鼓励扶持自主创业、公益性岗位安置等措施,为有转移就业愿望的每个贫困家庭劳动力提供创业就业信息服务、政策咨询、就业指导、职业介绍、创业就业培训等免费创业就业服务,以促其尽快实现创业就业。多渠道加快二、三产业的发展,按照产业融合发展的要求,大力发展农产品加工业,打造从生产到加工、包装、储运、销售、服务的扶贫产业链条,培育一批生态游保健养生游等业态产品,增加贫困人口的务工机会。

4.回应贫困户发展诉求,完善利益联结机制

为进一步提升贫困户的自我发展能力,需了解并回应贫困人口的发展诉求。对比贫困户家庭成员、资源、生产资料、集体经济参与度、“三变”改革等特征,通过大数据归类分析贫困户家庭特征及与之相适应的帮扶措施,兼顾贫困户家庭发展生产的条件,并实施有针对性的扶贫政策,激发其内生动力,更好地提升贫困户的自我发展能力,防止返贫,帮助发展生产、增加收入、加快脱贫致富的步伐。大力发展专业合作组织,积极引导贫困户加入专业合作组织,融入龙头企业基地建设,成为产业链条中的一环,形成真正利益共同体。利用先进的现代农业科技和生产模式,培养农业科技人才,示范和引导农民提高科技素质和信息化经营管理技能,提高贫困户的生产效益。

猜你喜欢

决策树贫困人口贫困户
一种针对不均衡数据集的SVM决策树算法
致富闯路人带领贫困户“熬”出幸福
『贫困户』过年
贫困户 脱贫靠产业
隐形贫困人口
决策树和随机森林方法在管理决策中的应用
十八大以来每年超千万人脱贫
基于决策树的出租车乘客出行目的识别
重要的是给贫困户一份自立
要让贫困人口真正受益