APP下载

脱贫攻坚抽样设计中的若干问题研究

2022-01-10金勇进刘晓宇

统计理论与实践 2021年11期
关键词:户数样本量贫困县

金勇进 刘晓宇

(1.中国人民大学 应用统计科学研究中心,2.中国人民大学 统计学院,3.中国人民大学 调查技术研究所;北京 100872)

改革开放以来,我国政府长期致力于减贫事业,截至2019年底,我国贫困人口减少至551万人,贫困发生率降至0.6%,2020年,我国已如期完成全面总体脱贫,人民生活水平实现了质的飞跃[1]。习近平总书记指出:“农村贫困人口如期脱贫、贫困县全部摘帽、解决区域性整体贫困,是全面建成小康社会的底线任务,是我们作出的庄严承诺”[2][3]。如何衡量脱贫攻坚的实施效果,是一个重要而严肃的课题。

由于我国贫困人口绝对数量较多、分布较为分散,当前主要通过各地区各级政府对相关数据进行跟踪统计。但实际操作过程中,各级政府有各自的诉求,标准和口径也难以保持完全统一。目前,对国内脱贫攻坚相关政策影响分析的文章,主要基于中国家庭追踪调查 CFPS(Chinese Family Panel Studies)进行,通过寻找和设置一些工具变量来间接评价脱贫攻坚相关政策的效果。这样的处理受限于数据来源,缺少部分关键变量,可能造成数据分析层面的偏差,进而影响最终结论。由此可见,从国家层面开展针对性的调查,不但可以为各个领域的学者提供权威的分析数据,更为科学、全面评价我国脱贫攻坚的成效,对未来我国经济政策制定具有深远影响。

根据《国务院办公厅关于开展国家脱贫攻坚普查的通知》(国办发〔2020〕7号)的要求,各级政府已开展脱贫攻坚普查工作,并在此基础上,通过抽样调查的方式进行补充、完善[4]。本文从调查的目的、设计思路、权数问题及参数估计出发,对该抽样方案加以解读,从专业角度讨论该调查设计的科学性,为后续数据分析提供参考。

一、脱贫攻坚抽样调查方案的设计

此次脱贫攻坚调查的目的是:全面了解贫困人口脱贫实现情况,重点围绕脱贫结果的真实性和准确性,调查贫困人口“两不愁、三保障”实现情况、获得帮扶和参与脱贫攻坚项目情况等,为分析判断脱贫攻坚成效、总结发布脱贫攻坚成果提供真实准确的统计信息。

该调查由普查和抽样调查两部分组成。抽样调查是普查的补充。为增强结论的完备性和科学性,在对832个国家扶贫开发工作重点县和集中连片特困地区县、享受片区政策的新疆维吾尔自治区阿克苏地区7个市县所有建档立卡户进行普查的基础上,通过抽样调查了解非国家贫困县的建档立卡户情况。由于此次调查是我国首次对脱贫攻坚的实现情况进行调查,没有以往的抽样设计和调查经验可以借鉴。因此,在设计抽样方案时,不仅要切合调查目的,还要综合考虑现实条件的限制。

(一)现实挑战

我们将调查设计中存在的问题和需要克服的困难概括为以下几点:

1.抽样框的编制

好的抽样框不仅与目标总体保持一致,而且能尽可能多地提供与研究的目标量有关的辅助信息[5]。由于此次调查是为了全面了解脱贫攻坚的实施情况,待评估指标与目标变量较多,如何编制抽样框,便于后期设计抽样方案、提高估计效率,值得细思。

2.辅助变量的选取

抽样设计阶段往往需要借助辅助信息提高估计效率、减小抽样误差,例如,分层抽样需要借助辅助信息进行分层,确定层的数量、层分界点和每层抽取的样本量等,系统抽样中需要“按有关标志排队”等[5]。众多的待评估指标和目标变量无疑会为辅助变量的选择带来困难。此外,政府其他部门能够提供的数据一方面难以契合多目标估计的需求,另一方面可能会由调查的时间差引入其他误差。

3.样本量的确定与分配

相比单一抽样设计来说,复杂抽样下的样本量的确定更为复杂,不仅要达到精度需求,更要结合现实条件的限制,考虑调查目标的多样性和复杂性。该调查除需要掌握全国层面的情况外,还要了解各省(区、市)的脱贫攻坚实施情况。因此,样本量的确定需同时满足全国层面和省级层面的精度需求。此外,对非建档立卡户的抽样计划采用入户调查的方式进行,一些偏远地区如内蒙古、新疆和西藏等,地广人稀,调查成本较高,需要耗费较大的人力、物力和财力。这意味着,在分配各抽样阶段的样本量时,还需考虑地方执行部门的调查能力,平衡调查成本。

(二)抽样方案的设计

1.抽样框的编制

抽样框是抽样总体的具体体现。根据调查目的可以确定抽样总体是中西部20个省(区、市)非国家贫困县的建档立卡户,共涉及1072个县约758万建档立卡户。由于西藏自治区、青海省没有非国家贫困县,因此不参与抽样。

为便于后续抽取样本和分析数据,抽样框还需包含相关的辅助信息。最终确定的抽样框资料包括各非国家贫困县的建档立卡户数和人数、农村户籍人口数等指标,数据来源于2019年国务院扶贫办建档立卡信息系统,保证了数据的可靠性,能够降低由于时间差异可能造成的抽样框误差。

2.抽样方法

为了解全国非建档立卡户的脱贫攻坚情况,得到更加全面的评价结果,不仅要对全国层面的脱贫实现情况进行估计,还要掌握各省(区、市)的脱贫实现情况。因此,应采取以省(区、市)为总体的抽样方案,各省(区、市)内再分别抽取下一级单元。

各省(区、市)内非国家贫困县之间的脱贫情况也是有差异的,可以考虑概率比例规模抽样(以下简称PPS抽样)与分层抽样两种方式。若采用PPS抽样,必须要有能说明每个单元规模大小的辅助变量来确定每个单元的入样概率[5]。具体地,该调查的辅助变量可采用以下两个指标,一是各非贫困县的总户数(或总人口数),二是各非贫困县内贫困户的户数(或总贫困人口数)。对于前者,总户数(或总人口数)多的县不一定贫困户的户数(或总贫困人口数)多,据此抽取样本会造成成本的浪费,并且可能会产生额外的误差,降低估计精度;对于后者,贫困户的户数(或总贫困人口数)是一个动态变化的指标,且具有较强的时效性,难以获得较准确的度量值,无法保证估计效果。因此,该调查选择采用分层抽样的方式抽取省内的非贫困县,具体原因可概括为以下四点:第一,分层抽样原理较简单,在各层内独立抽样,方便调查工作的组织实施;第二,分层抽样适用性强,经得住现实考验,是全国各种大型抽样调查最常用的方式之一;第三,辅助变量的选择限制相对更少,在辅助变量与待研究变量相关的前提下,方便综合考虑数据的可获取性和准确性来选择合适的分层指标,有利于提高抽样效率;第四,分层抽样通过分层减少了地区发展不平衡对调查的影响,使样本中包含各种特征的单元,样本的分布更加均匀,从而增强了对总体的代表性,提高了估计精度。

分层抽样中,只要合理选择了层的划分指标,分层抽样的精度会高于简单随机抽样及其他抽样方式[5]。对于该调查,根据上文对PPS抽样辅助变量选择的分析,综合考虑数据的可获取性和准确性,层的划分可依据以下指标进行,一是各非国家贫困县的建档立卡户数(或人数),二是各非国家贫困县的建档立卡户数占总户数的比重,三是各非国家贫困县建档立卡人数占农村户籍人口数比重。最终决定采用第三个指标进行分层,该指标与贫困发生率(建档立卡未脱贫人口数占农村户籍人数的比例)有直接关系,能综合评价不同县的贫困人口状况,且该指标可从2019年国务院扶贫办建档立卡信息系统中获得,保证了数据的可靠性。

将各非国家贫困县划分到不同层后,在各层内独立进行县的抽取,由于分层时考虑了不同县的贫困人口状况,因此,在层内可采用随机抽样的方式抽取县,例如简单随机抽样、等距抽样等。本调查在实施过程中,将每层内的非国家贫困县按照建档立卡户数量从高到低排序,采用随机等距方法抽选样本县。这样做的目的是,使各层内不同建档立卡户数量的县分布更加均匀,提高样本代表性。为进一步提高工作效率,节约人力、物力等成本,确定样本县后,可以对该县内所有建档立卡户进行全面调查。

综上所述,此次脱贫攻坚抽样调查的方案是:以省(区、市)为总体,省(区、市)内采用分层整群抽样的方法抽取非国家贫困县,样本县内所有建档立卡户全部参与调查。

3.样本量的确定和分配

以省(区、市)为总体,在95%的置信度下,建档立卡户“两不愁,三保障”实现情况的绝对误差控制在0.05%的范围内,由于该指标属于比例,根据样本量的计算公式,可得:

由上式可知,每省(区、市)需要抽选不少于11144个建档立卡户进行调查,以达到0.05%的绝对误差要求。为进一步提高估计精度,对于非国家贫困县数量较多、建档立卡户数量较多的省(区、市),可适当增加样本量。

根据绝对误差计算各省(区、市)要抽取的建档立卡户数是为了得到一个最低样本量,以便在抽样和后续数据处理时进行对比,保证估计精度。根据抽样设计,在确定各省(区、市)要抽取的样本县数量时,需要参考该省(区、市)非国家贫困县数量和建档立卡户数量的分布。非贫困县数量少、建档立卡户数量少的省(区、市)少抽,非贫困县数量多、建档立卡户数量多的省(区、市)多抽。结合调查成本,最终确定各省(区、市)抽取的样本县数量在2—8之间。为便于后续进行误差估计,每层抽选的样本县数量需为偶数。根据上述的样本分配方式,本调查最终共抽取了100个非国家贫困县。

(三)评价

现行的抽样方案,采用以省(区、市)为单位,各省(区、市)内分层整群抽样的方式进行。通过分层,使层内各县建档立卡人数占农村户籍人口数比重相近,抽选少量样本县即可较好地代表该层情况;各层内采用随机等距的方式抽取,使得层内不同建档立卡户数量的样本县分布均匀。据此抽取的样本代表性强、抽样效率高。

分层抽样采用了非国家贫困县建档立卡人数占农村户籍人口数比重作为辅助变量进行分层,该指标能综合评价不同县的贫困人口状况,具有很好的借鉴性。层内等距抽样的排序指标采用各县的建档立卡户数量,确保了各县有均等的概率入样。此外,以上辅助信息均可从2019年国务院扶贫办建档立卡信息系统中获取得到,能够保证数据的准确性和可信度。

样本量的计算从估计出发,在达到精度要求下,确定各省(区、市)要抽取的建档立卡户数量,再确定各层抽取的样本县数量。考虑到后续估计的便利性,规定层内抽取的样本县数量为偶数。根据抽样设计,最终抽取了100个非国家贫困县样本。将各县的建档立卡户数量汇总到各省(区、市)进行核查,结果显示,各省(区、市)的总建档立卡户数均不小于11144,满足精度需求。

二、调查中的权数问题

根据抽样设计可以计算设计权数,后续调整以设计权数为基础,校正抽样实施过程中出现的与计划不符的情况。随后,还应对调整后的权数进行评估,以度量权数对估计的影响,决定是否对权数变异性进行进一步的控制。

(一)设计权数的计算

根据抽样设计,中西部20个省(区、市)的1072个非国家贫困县中,以省(区、市)为总体,采用分层整群抽样的方法共抽取了100个非国家贫困县,对抽中县的所有建档立卡户进行全面调查。根据方案,设计权数的计算需要考虑四个层面,分别是省级、层级、县级和户级。每个省(区、市)都进入样本,各省(区、市)的入样概率相等,在对省级层面的情况进行估计后可直接简单汇总得到全国层面的结果,因此,省级权数相等。对省(区、市)内的县进行分层抽样,层级权数与分层指标相关,由该层所有的建档立卡户数和全省建档立卡户数的比值决定。县由等距法抽取,抽中县内的卡户均参与调查,因此,县级和户级权数均相等。

根据以上分析可以得到,对于j省(区、市)第h层第i县的户而言,其中,Nj表示j省(区、市)的非国家贫困县数量,Njh表示j省(区、市)第h层的非国家贫困县数量,njh表示j省(区、市)第h层抽中的非国家贫困县数量。因此,j省(区、市)第h层第i县的各户权数。

(二)权数的调整

1“.无回答”情况的处理

此次调查中,“无回答”的来源可分为三种,分别是整户自然减少、失联和拒访。如何处理需考虑“无回答率”的高低。

根据抽样设计,为保证估计精度,每个省(区、市)需要抽选约1万个建档立卡户进行调查。分别统计20个省(区、市)的普查登记成功访问户数,结果显示,各省(区、市)有效户数均达到设计精度要求。因此,有理由采用直接剔除的方式处理“无回答”户,以抽中县有效户数作为该县建档立卡户数,未抽中县的建档立卡户数以抽样时国务院扶贫办提供的数据为准。

2.校准调整

在“无回答”户进行删减后,“无回答”户的户权数变为0,根据原有户权数推算的j省(区、市)第h层的建档立卡户数与实际建档立卡户数Mjh存在明显差异。因此,应在层级层面根据建档立卡户数进行校准,对于j省(区、市)第h层而言,校准权数。由此可得,j省(区、市)第h层第i县的最终户权数,m表示 j省jh(区、市)第h层抽中的所有建档立卡户数。

(三)权数的评估

通过对权数的校准调整,提高了样本对总体的代表性,但可能会导致权数自身大小有差异。权数的波动性过大会增加估计方差,造成估计的有效性降低[6]。是否需要对权数进行进一步的调整,控制权数的变异性,应在对权数评估后决定。

我们对校准后的权数计算权效应,得到权效应的数值为1.193,这表明权数的变异性对估计量方差的影响不大,本调查无需对校准权数进行截取调整。

三、估计量与方差的计算

经过以上分析,该调查通过科学的抽样设计得到了代表性强的样本,并经过合理的权数调整校正了可能存在的偏差,确保了估计量的准确性。如何利用权数进行估计,与不同的估计问题有关。

此次抽样调查中,入户调查涉及的内容主要包括建档立卡户基本情况、“两不愁、三保障”实现情况、获得帮扶和参与脱贫攻坚项目情况、主要收入来源等。对应的估计问题可分为两个层面,分别是户层面的比重估计和人层面的比重估计。现以j省为例,分别从户层面和人层面,对建档立卡户“两不愁、三保障”实现情况及其方差进行估计。假设j省有Nj个非国家贫困县,根据抽样设计划分为Hj层,每层抽取了njh个非国家贫困县。

(一)户层面的比重估计

(二)人层面的比重估计

(三)有关特定人群的估计

四、结语

为了科学、全面地评价脱贫攻坚的成效,我国定于2021年前后开展脱贫攻坚调查。该调查包括普查和抽样调查两部分,普查针对的是国家贫困县的建档立卡户,抽样调查作为普查的补充,针对的是非国家贫困县的建档立卡户。

由于此次调查是我国首次对脱贫攻坚实现情况进行的针对性调查,具有参考资料少、调查目的多和调查能力有限的特征,这无疑会为抽样框的编制、辅助变量的选取以及样本量的确定与分配带来困难。

现行的抽样方案,根据2019年国务院扶贫办建档立卡信息系统编制抽样框,采用以省(区、市)为单位,各省(区、市)内分层整群抽样的方式进行。设计权数的调整分“无回答”调整、校准调整两步。对于调查中涉及的辅助变量,无论是前期的方案设计还是后期的权数调整,均有可靠的数据来源,且在使用过程中符合抽样理论,具有可信性和合理性。最终抽取的样本量能同时满足国家层面和省级层面的估计需求。此外,本文将该调查关注的估计问题分为户和人两个层面,并给出了估计量及其方差的计算方式。

至此,本文完成了对该调查设计科学性的论述,为各领域学者基于该调查数据进行相关具体问题的研究分析提供参考。

猜你喜欢

户数样本量贫困县
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
样本量与东方蜜蜂微卫星DNA遗传多样性参数稳定性的关系
网络Meta分析研究进展系列(二十):网络Meta分析的样本量计算及精确性评估
医学研究中样本量的选择
山西省58个贫困县产品将陆续走进84所高校
全国832个贫困县全部脱贫摘帽
机构、外资“合力”加仓追捧逾百家公司筹码显著集中
山西已实现41个贫困县脱贫“摘帽”
153个:全国153个贫困县已摘帽
日本2017年木建住宅开工54.5万余户