我国脱贫攻坚指标数据质量检验
——基于Benford法则和面板数据模型
2021-07-22吴继英薛艳杰
吴继英, 薛艳杰
数据是国家的基础性战略资源,对生产、流通和分配等方面产生越来越重要的影响。学术研究离不开数据,高质量的统计数据是国家制定宏观政策的基础,也是考核官员政绩的重要依据。2021年2月习近平总书记在全国脱贫攻坚总结表彰大会上宣告我国脱贫攻坚战取得了全面胜利,现行标准下9 899万农村贫困人口全部脱贫。脱贫统计数据质量直接影响脱贫攻坚成果评价,从而引发社会各界关注。2020年初新冠疫情暴发,在脱贫工作完成的过程中,党中央国务院不止一次地提出拒绝数字脱贫、虚假脱贫。然而,有部分地区为了彰显政绩、谋取国家扶贫项目和套取国家扶贫资金,在脱贫数据方面造假,虚报农户收入水平、超报贫困人口数量、脱贫成效考核时更改贫困标准,导致数字脱贫与虚假脱贫现象时有发生(1)李晓园, 钟伟. 大数据驱动中国农村精准脱贫的现实困境与路径选择[J].求实,2019(5):78-87.。在此背景下把好脱贫统计数据质量关,进行脱贫统计数据质量检验,能够有效检验脱贫成果,为国家各级部门科学决策提供高质量的数据保障,使脱贫攻坚成果经得起历史和人民的考验,对我国进一步提升国际形象具有十分重要的意义。
一、 文献综述
统计数据质量检验一直是学术界关注的重点,检验的方法主要有逻辑关系检验法、调查误差评估法、计量分析检验法、统计分布检验法、多维评估法等。Benford法则属于统计分布检验法的一种,经过不断发展完善逐渐成为检验数据质量的常用方法之一(2)韩兆洲, 程学伟. GDP统计数据质量实证研究: 基于Benford法则和空间面板模型[J]. 数理统计与管理, 2019,38(3):394-404.,最早应用于会计领域用来检查会计相关行业统计数据的徇私舞弊行为(3)NIGRINI M J, MITTERMAIER L I. The use of Benford’s law as an aid in analytical procedures[J]. Auditing: a journal of practice & theory,1997,16(2):52-67.,后又逐渐应用于宏观和微观统计数据方面(4)许涤龙, 金瑛. 基于Benford法则的M2统计数据准确性研究[J]. 统计与信息论坛, 2010,25(8):20-24.,如检验调查数据质量(5)GEORGE J, LAURA S. Detecting problems in survey data using Benford’s law[J]. Journal of human resourus,2009,44(1):1-24.,检验GDP数据(6)曾五一, 薛梅林. GDP国家数据与地区数据的可衔接性研究[J]. 厦门大学学报(哲学社会科学版),2014(2):110-119.、保险行业相关数据(7)刘云霞, 曾五一. 关于综合利用Benford法则与其他方法评估统计数据质量的进一步研究[J]. 统计研究, 2013,30(8):3-9.和宏观经济统计数据(8)米子川, 杨小庆. Benford法则: 中国宏观经济统计数据质量评价的一种新范式[J]. 数学的实践与认识, 2014,44(24):10-18.的准确性等。亦有研究运用计量模型通过考察待评估指标与其他关联性指标的匹配度进行数据质量检验(9)刘思明, 臧梦玲. 中国地区GDP增长数据准确度评估——纳入太空灯光数据下修正“克强指数”的实证研究[J]. 云南财经大学学报, 2018,34(6):27-37.。Benford法则检验法多与计量模型结合使用,如刘云霞运用Benford法则和面板模型结合的方法对我国税收收入进行质量检验(10)刘云霞, 吴曦明, 曾五一. 关于综合运用Benford法则和面板模型检测统计数据质量的研究[J]. 统计研究, 2012,29(11):74-78.、阙里和钟笑寒对我国地区 GDP 增长的统计数据进行了真实性检验(11)阙里, 钟笑寒. 中国地区GDP增长统计的真实性检验[J]. 数量经济技术经济研究, 2005(4):3-12.。
综上所述,相关学者运用Benford法则和计量模型相结合对我国经济统计数据质量进行检测,为本文研究提供了良好的方法基础,但现有研究构建计量模型时,未对解释变量数据进行质量检验,容易造成检验结果的偏差性。因此,本文在构建面板数据模型之前,运用Benford法则对变量数据进行质量检验,同时为增加结果的可信度、避免单一方法检验所造成的误差,引入逻辑匹配检验和残差检验。现有检验数据质量的研究大多集中在对GDP等经济统计指标的检验,关于脱贫攻坚方面的研究也更多倾向于扶贫成效的测度方面(12)周玉龙, 孙久文. 瞄准国贫县的扶贫开发政策成效评估——基于1990—2010年县域数据的经验研究[J]. 南开经济研究,2019(5):21-40.(13)聂君, 束锡红. 青海藏区精准扶贫绩效评价及影响因素实证研究[J]. 北方民族大学学报(哲学社会科学版), 2019,145(1):33-41.,对脱贫攻坚指标数据进行质量检验的研究成果几乎未见。鉴于此,本文以2013—2018年我国农村地区(14)全国农村,涉及31个省份。和贫困地区(15)贫困地区:贫困地区包括集中连片特困地区和片区外的国家扶贫开发工作重点县,主要涉及22个省。为便于比较,本文以省为单位进行研究。范围内4个重要脱贫指标统计数据为研究对象,运用Benford法则对脱贫统计数据前两位数字的真实性进行检验,并构建主成分面板回归模型进行指标之间的逻辑匹配性检验,由回归分析得到的残差进一步检测脱贫指标问题数据出现的时间和区域。
二、 方法介绍
(一) Benford法则
Benford法则认为数据集的各位数字存在着某种分布规律,通过比较理论频率与实际频率来检验数据质量。Benford法则经过现象发现——给出数学表达式——证明、推导,不断发展和改善,已经成为检测数据是否存在修饰、篡改和舞弊等质量问题的重要方法之一(16)庞新生, 廖子宜. 分市县住户调查收支汇总数据的准确性评估[J]. 统计与决策,2019,35(22):11-15.。依据Benford定律,首位数字(非零非负)出现的频率为
(1)
第二位数字出现的频率为
(2)
…
其中,d1是数据的首位数字,为1~9,该数字应非零非负,p(d1)是该首位数字d1出现的频率;d2是数据的第二位数字,为0~9,该数字应非负,p(d2)是该第二位数字d2出现的频率。
Benford法则首位数字和第二位数字分布的理论频率如表1所示。
表1 Benford法则下首位数字和第二位数字分布的理论频率
依据理论频率分布可以发现:随着首位和第二位数字的不断增大,理论分布频率不断降低,且降低的幅度越来越小。高质量数据的数字分布应该符合Benford法则,如果数据存在人为调整、修改、修饰等行为,就会破坏这种规则(17)韩兆洲, 程学伟. GDP统计数据质量实证研究: 基于Benford法则和空间面板模型[J]. 数理统计与管理,2019,38(3):394-404.。Benford法则常用的检验方法主要有χ2拟合优度检验、修正的K-S拟合优度检验、距离检验和Pearson相关系数检验。
(二) 面板数据模型
Benford法则虽然可以从一定程度上检验问题数据出现的位数,但却无法准确地识别出问题数据出现的具体时间与地区,此外也容易受到样本数量的影响,单靠Benford法则无法确定统计数据是否真的存在质量问题,将其与面板数据模型结合,既可以很好地规避这一缺点,又可以很好地避免由于模型设定和变量选取的不同所导致的检验结果差异性。面板数据模型主要分为固定效应模型、随机效应模型和混合回归模型。其中,固定效应模型即假定每个个体回归方程具有相同的斜率,每个个体的截距项不同。具体形式如下:
yit=ui+b*xit+eit,i=1,…,n;t=1,…,T
(3)
其中,i表示每个研究个体,t表示研究时期。yit是被解释变量,xit是随个体与时间而改变的解释变量;ui是不随时间而变的个体特征,eit是随个体与时间而改变的扰动项。
三、 基于Benford法则的脱贫指标统计数据实证研究
(一) 指标选取与数据预处理
为保证脱贫统计数据质量的全面性与针对性,采用Benford法则分别对全国农村和贫困地区的脱贫统计数据前两位数字进行质量检验,既能检验全国脱贫数据的质量状况,又能有针对性地检测贫困地区的脱贫数据质量。数据来源于《中国农村贫困监测报告》中2013—2018年31个省(市、自治区)总的贫困数据以及贫困地区的数据。
在政府工作报告以及相关会议政策中,论述脱贫攻坚成效时都明确提到了贫困人口数、贫困发生率、人均可支配收入和人均消费支出等指标,这四项指标是考察脱贫攻坚成效的常用指标。贫困人口数、贫困发生率直接反映开展脱贫工作后的直接成果,人均可支配收入反映居民的基本生活保障度,人均消费支出反映了农村居民及贫困地区的消费能力。对这四项指标进行统计数据质量检验分析,对于衡量脱贫工作的真实成效具有重要的意义。鉴于此,本文最终选取贫困人口数(万人)、贫困发生率(%)、农村居民人均可支配收入(元)和人均消费支出(元)四项指标作为数据质量检验的基础性指标。
运用Benford法则需要满足四个基本条件:一是数据受主观因素影响较小且数据量较大,样本量一般大于等于100;二是数据从不同来源随机抽样,无人为限制;三是数据是自然形成的,不可人为赋值;四是首位数字非零非负,同时无最大值与最小值的限制,不能按一定规律排序。结合所选样本指标数据的特征(如《中国农村贫困监测报告》给出的贫困发生率数据大多为两位数字),对样本数据的前两位数字进行Benford法则验证,同时对不符合上述条件的数据进行处理,使其保留原始数据信息的基础上适合运用Benford法则(18)刘明宇. 基于Benford法则的城镇居民人均可支配收入质量评估[J]. 统计与咨询,2014(6):30-31.。
由于贫困人口数指标单位为万人,导致个别省份贫困人口数只有一位数字,对这样的数据一般至少乘以10。贫困发生率(%)指标个别省份数据小于百分之1或只有一位数字,将该指标样本数据值乘以100。为计算方便,将全国农村和贫困地区的这两项指标(贫困发生率和贫困人口数)的数据统一乘以100,得到符合要求的数据,该处理不影响Benford法则运算结果。另外,由于当部分省份某个指标某一年的数据较小而被忽略不计导致该指标数据缺失时,比如,在计算全国农村脱贫指标数据的理论频率时,北京(2013—2018)、天津(2013—2018)、上海(2013)、江苏(2015—2018)、浙江(2015—2018)、福建(2017—2018)、山东(2018)、广东(2016—2018)的贫困人口数和贫困发生率数据较小而缺失,在计算该类指标首位数字和第二位数据出现次数时,不考虑该指标上述省份上述年份的数据,在计算总数时也予以删除。经上述处理,得到符合要求的样本数据。
(二) 指标数据前两位数字频率分布
对处理后符合要求的样本数据,首先提取全国农村及贫困地区4个指标的首位和第二位数字;其次计算首位数字1~9和第二位数字0~9出现的次数,然后分别利用次数除以总次数,计算出首位数字1~9和第二位数字0~9出现的实际频率;最后将实际频率与Benford理论频率进行对比计算差异值,并对可能存在的差异是否显著进行χ2检验以判定脱贫指标的数据质量。
全国农村和贫困地区“贫困发生率”“农村贫困人口”“农村居民人均可支配收入”和“农村居民人均消费支出”四项指标数据,首位数字出现0~9和第二位数字出现1~9的实际频率、Benford法则下的理论频率以及二者之间的差异分别如表2所示(限于篇幅,其他3个指标的结果略)。
表 2 “贫困发生率”数据的实际频率、理论频率及差异
续表
由表2可知,贫困发生率指标的全国农村和贫困地区数据首位数字出现的实际频率除个别数值外,整体呈递减趋势;而全国和贫困地区数据第二位数字出现的实际频率分布趋势却未呈现依次递减趋势,分布趋势呈上下波动。进一步观察二者首位与第二位数字出现的实际频率与Benford法则下理论频率差异的绝对值,除个别值(贫困地区的贫困发生率首位数字为1、3、2,贫困地区第二位数字为0)较大以外,整体较小。
贫困人口数指标的全国农村数据首位数字除6以外,贫困地区数据首位数字除6和7的实际频率外,整体呈递减趋势;而第二位数字两者都时增时减,未呈现明显递减趋势的规律。二者首位数字与第二位数字出现的实际频率与Benford法则下理论频率差异的绝对值较小。
农村居民人均可支配收入指标的全国农村数据的首位数字之间呈现先减(1~4)后增(5~9)趋势,贫困地区除数字2、3、6以外,数字分布频率随着数字的增大逐渐呈递减趋势;第二位数字全国地区和贫困地区数字0~5出现频率随着数字的增大递减,之后递减趋势消失。全国地区首位数字出现的实际频率与Benford法则下理论频率差异的绝对值个别数值较大,贫困地区首位数字出现的实际频率与Benford法则下理论频率差异的绝对值相对较大,第二位数字差异相对较小。
农村居民人均消费支出指标的全国农村和贫困地区数据的首位数字出现1~9的频率先递减后递增再减;全国农村第二位数字除4、5、8、9以外呈现递减趋势,贫困地区数据中数字0~9出现的频率没有明显呈现随数字增大而递减。全国农村和贫困地区首位数字出现的实际频率与Benford法则下理论频率差异的绝对值均比较大,而第二位数字实际频率与理论频率差异较小。
综合来看,四项指标数据的首位数字与第二位数字实际频率分布趋势,与Benford法则下随着数字增大而减小的理论频率分布趋势不一致,且有部分指标出现上升趋势。除农村居民人均可支配收入和人均消费支出首位数字外,其他指标数据首位与第二位数字实际频率与理论频率差异相对较小。判断数据是否符合Benford法则,还需进行χ2拟合优度检验。
(三) Benford法则检验
对贫困发生率等4个指标的计算结果进行χ2拟合优度检验,如果χ2统计量小于临界值,则接受原假设(实际频率与理论频率之间无差异),拒绝备择假设,认为该统计数据符合Benford法则,数据准确性较高,人为篡改的可能性较小;如果χ2统计量大于临界值,则拒绝原假设,接受备择假设,即认为该样本数据不符合Benford法则,数据存在造假的可能。
χ2统计量计算公式为
(4)
其中,ei为首位(第二位数字)出现的实际频率,bi为Benford法则下首位(第二位)数字出现的理论频率,N为样本总量。在5%的显著性水平下,首位数字和第二位数字的χ2统计量的临界值分别为15.51、16.92(19)刘云霞, 吴曦明, 曾五一. 关于综合运用Benford法则和面板模型检测统计数据质量的研究[J]. 统计研究,2012,29(11):74-78.。
依据公式(4),得到如表3所示的检验结果。
表3 四项脱贫指标数据前两位数字分布的检验结果
由表3可知,2013—2018年全国农村脱贫指标中的贫困发生率、贫困人口数符合Benford法则,首位和第二位数字真实可信;贫困地区贫困人口数符合Benford法则,首位和第二位数字真实可信。此外,全国农村居民人均消费支出的第二位数字和贫困地区贫困发生率、农村居民人均可支配收入、农村居民人均消费支出的第二位数字的χ2检验结果也是接受原假设,表明上述指标第二位数字是真实可信的。2013—2018年全国农村居民人均可支配收入的首位和第二位数字、农村居民人均消费支出首位数字以及贫困地区的贫困发生率、农村人均可支配收入、农村居民人均消费支出的首位数字χ2检验结果均拒绝原假设,可认为上述指标相应位数的数字不符合Benford法则,可能存在数据质量问题。原因可能是不同省份指标之间的统计口径或核算角度存在差异,也可能是由于所选择的样本时期较短、样本量相对较少造成的。随着我国经济增长,人均可支配收入和人均消费支出也逐渐增长,指标数值变大造成这两项指标数据中首位数字中某些数字(通常是较小的数字)缺失。同时由于政府对脱贫的有效治理也会导致贫困地区的贫困发生率的首位数字集中于某个数字,从而出现不符合Benford规律的现象。以贫困地区的贫困发生率指标为例,结合表2中的计算结果可知实际频率比Benford理论频率大的首位数字为1、7、8、9,表明该指标出现质量问题的数据大概率会出现在首位数字为1、7、8、9的数据中,也即贫困发生率过低或过高均应引起注意,在检查数据质量时应该密切关注这些数据。
四、 基于面板数据模型的脱贫攻坚统计数据质量检验
由上述分析可知,无论是全国农村还是贫困地区,考察脱贫工作的直接指标“贫困发生率”的第一位数字均未通过统计检验,故需借助面板数据模型展开指标之间的逻辑匹配性检验,以进一步检验指标数据质量。由表3可知,全国农村范围内的农村居民人均可支配收入指标首位和第二位均未通过检验,可能存在质量问题,因此不适合作为解释变量构建面板数据模型。而贫困地区4个指标数据的第二位数字均通过了统计检验,整体数据质量相对较好,可以作为面板数据模型检验的样本。同时考虑到贫困地区作为脱贫攻坚战的主战场,相关指标数据质量直接影响国家脱贫政策的制定。因此,针对贫困地区的各项指标构建面板数据模型进行逻辑匹配性检验和残差检验。
(一) 变量的确定与数据处理
“贫困发生率”能够较好地反映不同时期不同地区的贫困状况,是衡量脱贫成效最重要的指标之一,故将其作为被解释变量。“贫困人口数”是贫困发生率的直接关联指标,考虑到贫困发生率与贫困人口数存在着一定的比例关系,选择贫困人口数x1对贫困发生率进行逻辑匹配性检验是合理的,可以验证二者的逻辑关系是否正确,故将其作为解释变量;同时选取“人均可支配收入x2”“人均消费支出x3”作为解释变量,通过构建面板模型进行逻辑匹配性检验。
为避免多重共线性需要对3个解释变量提取主成分,传统的主成分分析法对面板数据不适用,需采取全局主成分法;同时为了不减少数据信息量,提取与解释变量数量相同的主成分,与被解释变量进行回归。由于提取主成分时对原始解释变量进行了标准化处理,为保证一致性,对被解释变量“贫困发生率”也进行标准化处理。运用SPSS 23.0进行全局主成分提取,具体过程略。
(二) 面板模型估计
首先需要选择适当的模型进行回归。采用stata软件分别进行混合模型回归、固定效应回归和随机效应回归,然后利用F检验、LM检验和Hausman检验进行模型选择,最终拒绝混合效应回归模型和随机效应回归模型,选取固定效应回归模型。经检验,随机扰动项存在组间异方差、组内自相关和同期截面相关,因此采用FGLS对模型进行估计,得到回归系数估计结果如表4所示。
表4 个体固定效应回归系数估计结果
由表4可知,模型中解释变量F1、F2、F3的回归系数均通过了1%显著性水平检验,表明固定效应模型估计效果良好,所选取的自变量与因变量适合模型估计,接下来利用回归结果进行逻辑匹配性检验。
(三) 基于面板模型的逻辑匹配性检验
主成分变量虽然可以消除共线性,但是却无法很好地对被解释变量进行解释。因此需要把主成分与被解释变量之间的回归系数还原成原始变量与因变量之间的回归系数。依据主成分的生成原理与表4,还原出因变量贫困发生率与原始自变量贫困人口数、农村居民人均可支配收入之间的回归系数,如表5所示。
表5 还原后的回归系数
表5中贫困人口数与贫困发生率之间呈正向关系,表明贫困人口数越多,贫困发生率越高;农村居民人均可支配收入、人均消费支出与贫困发生率呈负向关系,表明农村居民人均可支配收入和人均消费支出越高,贫困发生率相应越低。从贫困发生率与贫困人口数计算关系来看,模型中得出的二者之间存在正向相关关系合理,随着国家扶贫政策投入的不断深入,贫困地区得到救助的人数越来越多,贫困人口不断减少,使得贫困发生率也逐渐降低。从社会发展规律和经济发展过程来看,农村人均可支配收入、人均消费支出与贫困发生率存在负向关系合理,因为这两项指标反映了农村居民的收入能力和消费能力,随着精准扶贫政策和措施的不断完善,国家扶贫产业不断发展,贫困地区的劳动力资源得到开发利用,农民有了收入来源和消费基础,生活水平逐渐提高,贫困发生率自然逐渐降低。因此,贫困发生率指标2013—2018年数据通过了逻辑匹配性检验,符合计算法则和社会发展规律。
(四)基于面板数据模型的残差检验
经过Benford法则检验和逻辑匹配性检验可知,所选取的脱贫攻坚指标2013—2018年数据整体质量较好,但个别省份个别年份的数据还存在质量问题,可利用残差的标准化值来揭示贫困发生率数据的异常值点。
残差标准化计算公式如下:
(5)
依据公式(5)计算2013—2018年贫困地区22个省贫困发生率的标准化残差值见表6。
表6 贫困地区贫困发生率的标准化残差值
续表
由表6可知,河北省2013—2015年、海南省2017—2018年、贵州省2018年和陕西省2013—2016年的标准化残差值大于2,为“异常数据”,其余地区均控制在2以内,说明上述省份的贫困县在上述年份的贫困发生率数据可能存在质量问题。进一步观察发现,河北省2016—2017年、重庆市2015—2016年、贵州省2017年、西藏2013—2014年、陕西2017年的标准化残差值虽然小于2,但均大于1.5,有些数值已达到1.9,非常接近于2,可将这类数据归为“濒临异常数据”处理,认为这些数据可能存在质量问题,应引起重视。值得注意的是,海南省和贵州省下属贫困县贫困发生率的标准化残差值呈逐年递增趋势,应引起预警。
为避免由于模型设定和变量选取导致残差检验结果出现不一致性,将Benford法则中理论频率与实际频率的差异值与残差检验结果相结合来进一步确定上述问题数据。Benford法则检验结果显示贫困发生率数据首位数字不服从Benford分布,表2显示首位数字理论频率与实际频率的差异最大的首位数字为1,其次为3和2。残差检验结果揭示问题数据(包括异常数据和濒临异常数据)共计18个,这18个问题数据中有7个数据(河北2014—2016年、陕西2013—2016年)的首位数字为1,1个数据(海南2018年)首位数字为3,2个数据(河北2013、西藏2013年)的首位数字为2,与Benford法则检验结果相符合。由此可见,这10个数据既是残差检验下的问题数据,又是Benford检验下的问题数据,可认定这10个数据存在质量问题。其他8个问题数据虽然与Benford法则中理论频率与实际频率最大差异值所在的首位数字结果不一致,但仍可以确定贫困发生率指标个别省份与年份的统计数据可能存在质量问题。整体而言,贫困地区22个省2013—2018年共132个数据,结合残差检验与Benford检验结果得到贫困发生率指标数据异常率为7.6%,可认为我国贫困地区的贫困发生率指标数据质量总体较好。
五、 结论
本文选取我国农村及贫困地区范围内贫困人口数、贫困发生率、农村居民人均可支配收入和人均消费支出四个最常用的脱贫攻坚指标,首先利用Benford法则对指标统计数据的前两位数字的分布规律进行检验;其次运用面板数据模型,以贫困发生率为因变量,由全局主成分法生成3个主成分为自变量构造个体固定效应模型,对四个脱贫攻坚指标的数据进行逻辑匹配性验证,最后由回归模型得到的残差进行残差检验。区别于单一方法检验,将Benford法则、逻辑检验和残差检验三种方法相结合对我国2013—2018年的脱贫指标数据质量进行检验,减小了检验结果偏差,使检验结果更具可信性。研究成果丰富了脱贫统计相关理论与方法,能够针对虚假脱贫与数字脱贫现象提供预警,为国家相关部门政策的制定提供高质量的数据保障。研究得到以下结论:
1. Benford法则的χ2拟合优度检验结果显示,全国农村和贫困地区范围内的脱贫统计数据质量相差不大。全国农村的贫困发生率和贫困人口数首位数字和第二位数字、农村居民消费支出的第二位数字、贫困地区贫困发生率、贫困人口数首位数字和第二位数字、农村居民人均可支配收入以及人均消费支出的第二位数字均通过了统计检验,说明从统计检验角度来看,数据质量良好,数据真实可信,不存在人为窜改的可能;全国范围内农村居民人均可支配收入的首位和第二位数字、贫困地区范围内的贫困发生率、人均可支配收入和人均消费支出的第一位数字未通过统计性检验,认为该数据存在质量问题。出现这种结果可能是所选择的样本时期过短、样本总量过少,使样本数据的首位过于集中于某位数字造成的,也可能是因为统计口径或核算角度的差异造成的,真实原因有待进一步探索和检验。
2. 基于固定效应面板模型的逻辑匹配性检验结果显示,贫困地区范围内,贫困人口数与贫困发生率之间呈正向相关关系,农村居民人均可支配收入和人均消费支出与贫困发生率呈负向相关关系,通过逻辑性匹配检验。
3. 对固定效应面板模型的残差检验结果表明,2013—2018年贫困地区大部分省份下属贫困县的贫困发生率数据通过了残差检验,共计18个统计数据可能存在质量问题,结合Benford检验结果发现这18个问题数据中有10个数据既是残差检验的问题数据,又是Benford法则检验的问题数据。残差检验与Benford检验结合所显示贫困发生率数据的异常率为7.6%。
综合来看,无论是Benford检验、逻辑检验还是残差检验,以全国农村或是贫困地区为统计范畴,所选取的脱贫攻坚四个常用统计指标2013—2018年期间整体数据质量良好。但仍有个别指标和个别地区的数据存在问题,为提高我国脱贫攻坚方面统计数据质量,本研究提出以下建议:
第一,对全国农村居民人均可支配收入2013—2018年的数据予以关注,探究其未通过统计分布检验的真实原因。同时对河北2014—2016年、陕西2013—2016年、海南2018、河北2013、西藏2013年下属贫困县的贫困发生率数据进行核查,看是否存在数据造假行为。2021年我国脱贫工作取得了举世瞩目的成就,实现全面脱贫,在国际国内高度关注下更应加大脱贫统计数据的核查力度,保证统计数据的真实性不被破坏,从而使我国脱贫攻坚成果经得起历史和人民的考验。
第二,统一相关指标数据核算口径,明确核算范围。例如统一农村居民可支配收入口径和核算范围,从而使得不同地区收入数据具有可比性,减少因口径不统一导致的数据失真现象发生。
第三,完善脱贫攻坚数据库系统。利用大数据技术,实时跟踪贫困地区贫困情况,建立和完善脱贫统计大数据仓库,实行动态管理模式,有效防范“虚假脱贫”“数字脱贫”现象发生。同时加大扶贫统计数据监管制度,完善相关法律法规,对数据造假行为予以法律约束和惩戒,维护党和政府的良好形象,为考察脱贫成效提供高质量的统计数据,为国家制定合理有效的脱贫政策提供科学依据。