随机森林在甘肃省农村贫困户识别中的应用
2018-05-14李佳容
李佳容
[摘 要]本文根据甘肃省农村入户调查资料,利用随机森林分类方法对其进行贫困户识别,经过研究发现随机森林分类在贫困户识别的中表现出了其在离散变量中的优势,识别正例的命中率达到71%。因此,在贫困户识别方法上可以有所借鉴。
[关键词]贫困户;随机森林;识别方法;精准扶贫
[中图分类号]F323.8 [文献标识码]A
自改革开放以来,虽然甘肃已取得了显著的减贫效果,但2011年国家提高贫困线(2300元)以后,甘肃的贫困覆盖面增大,据2013年的统计数据,甘肃共有552.2万贫困人口,贫困发生率为26.5%。因此,实现“精准扶贫”是当前需要解决的重要问题。本文结合目前应用广泛的随机森林方法,尝试精准识别贫困,为今后在贫困户识别方法上提供借鉴。
1 随机森林的应用及理论背景介绍
随机森林算法是Leo Breiman和Adele Cutler在2001年提出的一种集成学习算法,它是通过将bagging和随机特征选择结合起来,对决策树模型添加额外的多样性。即每次随机选择一些特征变量,独立建立决策树模型,不断重复。而且,需要确保每次建树时,特征变量等可能的被选择,这样在树的集成产生之后,使用投票的方法来组合预测结果。在随机森林被提出到现在,在生物学、经济、金融等很多领域都有广泛的应用。从随机森林算法提出至今,人们对随机森林算法进行了深入的研究,作出多种优化改进策略并取得了良好的效果。
2 随机森林模型识别贫困户
2.1 数据介绍与清洗
本文采用随机森林的方法对2015年甘肃省86个县(区)入户调查资料进行贫困户识别实证研究。数据信息包括住户基本信息、主要固定资产信息和期末耐用商品信息。因为调查户从业类型的不同,资产拥有情况也有明显的差异。由于本研究是对农村贫困户的识别挖掘,因此重点研究调查户中农业户的家庭情况。农村最低生活保障(简称“低保”)制度是指政府对家庭年人均纯收入低于当地农村居民最低生活保障标准的农村常住居民家庭实行的基本生活救助制度。所以领取低保的农业户通常是经济基础较差,生活有困难的住户,可以视为贫困户。
农业户调查数据主要包括住户基本信息、主要固定资产信息和期末耐用商品信息等,共有27個变量信息。总体描述如表1:
将原始调查数据经过简单的处理,主要为了方便导入R软件进行分析重新命名变量,然后导入到R软件中。对数据处理的步骤如下:对空值处理;对变量标准化;处理缺失值;处理异常值;对数据量非常少的变量处理。经过数据清洗整理,数据集共有12个属性变量、3296条记录。其中领取低保的农业户有722户,占所有调查的农业户的28%。
2.2 贫困户分类
首先将整理后数据集按70%和30%划分为训练集和测试集,并经过Kolmogorov-Smirnov(柯尔莫哥洛夫-斯莫洛夫)同质性检验,通过R语言中的函数ks.test()实现,由检验结果可知训练集与测试集具有同质性。
2.2.1 模型的构建过程
本文采用的是R语言中的party包中的cforest(函数训练的随机森林模型,具体模型构建过程:(1)通过party包中的cforest(函数对数据集train构建随机森林;(2)根据选取不同的树的数量值,构建随机森林,确定最优的树的数量。这里根据每次预测值计算的auc值来评价分类器的优劣,最终确定最优树数量是220棵;(3)将测试集test代入构建好的随机森林,并用predict函数进行预测,并绘制箱线图可视化结果;(4)绘制混淆矩阵,展示预测值的情况,并直观显示预测值与真实值之间的差距,来说明模型的准确性;(5)绘制ROC曲线图,来评价模型的适用性。
2.2.2 模型的结果及检验
根据模型在测试集预测结果建立混淆矩阵如下:
可以看出,预测的正确率为(410+157)/(410+356+65+157)= 58%;正例的覆盖率为157/(157+356)=31%,正例的命中率为157/(65+157)=71%。可见正例的命中率比较高,说明对贫困户识别的正确率比较高。
再次,对模型性能进行评价,绘制ROC曲线图(见图1)。根据评估结果,可以看出,随机森林模型表现得比较好。
3 总结与展望
精准扶贫在政府和学术界一直都是关注的重点,经济发展到今天,我们国家已经脱离了贫穷落后走向了繁荣富强,但是由于经济发展的不平衡,在一些地区仍然有贫困现象,那么如何在庞大的人群中准确地找到他们,是现在面临的一个难题。因此,本文尝试应用随机森林对甘肃省入户调查数据进行贫困户识别的实证研究。实证分析选择缺失数据较少的农业户生产性固定资产和期末耐用商品的拥有情况数据作为研究样本数据。由随机森林预测结果可知,正例命中率到达71%。因此对比逻辑回归方法,在相同数据集中,随机森林表现较好。
对于本次研究来说,由于数据集选取的是农业户的生产性固定资产和期末耐用商品的情况,无法全面得描述农业户家庭的整体情况,这也对分类分析造成一定的局限。为了得到更好的贫困户识别的准确性,在以后的研究里可以将更多的家庭情况考虑进来。因此,希望在今后的研究中可以有所借鉴。
[参考文献]
[1] 汪三贵.论中国的精准扶贫[J].贵州社会科学,2015(05).
[2] 汪三贵,王姮,王萍萍.中国农村贫困家庭的识别[J].农业技术经济,2007(01).
[3] 李昊源,崔琪琪.农村居民家庭贫困的特征与原因研究[J].上海经济研究,2015(04).
[4] 韩旭峰,豆红玉.甘肃省农村最低生活保障标准测算与分析——基于扩展线性支出模型[J].西北人口,2017(01).