基于数据汇总的普查调查框误差研究
2012-09-07金勇进
陶 然,金勇进
(1.国家统计局统计科学研究所,北京100826;2.中国人民大学应用统计科学研究中心,北京100872)
基于数据汇总的普查调查框误差研究
陶 然1,金勇进2
(1.国家统计局统计科学研究所,北京100826;2.中国人民大学应用统计科学研究中心,北京100872)
作为一种全面调查,普查数据的生产过程可以视为由个体数据汇总为总量数据的过程。为了开展普查数据质量评估与控制研究,从中国普查调查实施过程共性出发,构建普查数据汇总模型的一般形式,并以此为基础界定普查调查框及其作用,将普查划分为两种类型;同时从普查数据汇总的角度论述普查调查框误差的量化形式,进一步完善单位清查(清查摸底)环节在普查数据汇总中的理论意义。
普查数据质量;数据汇总模型;调查框误差
一、引 言
2010年第六次全国人口普查结束后,中国2003年调整后的普查制度经历了第一个完整的周期循环。周期性普查作为一项由政府在全国范围内组织的大规模调查,从调查误差角度考虑,由于不受抽样误差影响,非抽样误差毫无疑问地成为影响普查数据质量的一个重要因素。
随着国外20世纪40年代以来对调查中非抽样误差研究的兴起,人们意识到普查并不是尽善尽美的。从统计数据质量角度看:准确性是衡量统计调查数据质量的一个重要标准,而统计调查数据的准确性本质上是调查误差问题。为了开展对普查数据质量评估与控制研究,需要对普查数据汇总有一个清晰的认识;从普查数据汇总的过程看:普查数据可视为由个体数据汇总为总量数据的过程,准确性可表现为个体单元计数和指标登记的涵盖完整性。
在概率抽样中,编制能够涵盖目标总体的名录框用以抽取样本单元,称之为抽样框。从Deming开始[1],针对非抽样误差近70年的研究没有仅局限于抽样调查,但对联接目标总体单元与调查单元的调查框涵盖问题的研究却往往仅限于围绕抽样框开展。Lessler认为编制调查框的目的是为了概率抽样的实施以及特定估计方法的采用,例如比估计和回归估计[2]。国外一些学者虽然认为普查也存在类似调查框的涵盖问题,例如Szameitat和Schaffer、Groves在研究中提及对框中单元全部调查时也会存在涵盖问题[3][4]81-132,但并没有将调查框作为一个独立问题用于普查讨论;随着国外逐渐重视有关普查数据准确性的讨论,Hogan、Abbate等人、Wachter[5-7]、Fetter[8]从涵盖完整性角度研究了各自国家人口、农业和经济普查的准确性,但主要都是针对普查结果的讨论,并未从汇总过程考虑,因此也没有涉及普查调查框的讨论;直到Statistics Canada在其Quality Guidelines第五版中才明确提及了调查框涵盖问题适用于抽样调查和普查[9]19-22。
笔者从普查数据汇总出发,立足中国周期性普查调查实施过程,对基于普查数据汇总的调查框误差问题进行系统讨论,为普查数据质量的评估与控制奠定研究基础。
二、普查的调查实施过程
结合统计调查工作的一般过程认识,普查工作可划分为调查计划、调查设计、调查实施、数据处理、结果发布环节,而调查实施环节最能反映普查数据的生成过程。以下简要概述中国三大普查的调查实施过程。
(一)三大普查的调查实施
以2010年人口普查为例:人口普查对象是符合普查规定要求的自然人,以住户为单位进行登记。首先,根据地域原则在全国开展普查区域划分工作,并编制地址编码,绘制《普查小区图》,普查区域包括省、地、县、乡以及普查区和普查小区共六个层级;其次,开展清查摸底工作,编制《户主姓名底册》(简称《底册》);最后,根据《底册》于规定时间内开展普查入户登记工作,并汇总登记结果。
以2008年经济普查为例:经济普查对象是中国境内第二、第三产业的全部法人单位、产业活动单位和个体经营户。首先,开展普查区域划分工作,并绘制县、乡、普查区的三级普查区示意图;其次,逐户进行“地毯式”清查,将清查数据与统计部门现有基本单位名录库和其他部门行政登记资料进行比对,对基本单位名录进行查遗补漏,并汇总生成各级的普查名录;最后,依据普查名录组织普查资料的填报并逐级汇总。
以2006年农业普查为例:农业普查对象包括农村住户、城镇农业生产经营户和农业生产经营单位。首先,在全国农村地域和开展农业生产经营活动的城镇地域,划分普查区并绘制普查区地图;其次,对普查区内全部住户和单位进行清查摸底工作,确定普查登记对象,并编制《住户摸底表》和《单位摸底表》;最后,根据清查摸底结果统计表开展登记汇总。
(二)普查调查实施的共性
通过上述简要概述可以看到,人口普查的对象是社会领域的自然人,以住户作为调查单元;经济普查的对象是第二、第三产业的全部法人单位、产业活动单位和个体经营户,以基本单位为调查单元;农业普查的对象包括一般农村住户、农业生产经营户和经营单位,调查单元既包括住户也包括基本单位。三大普查调查实施均是在普查区划分的基础上,通过清查摸底(单位清查)得到调查单元的名录清单,以此为基础开展普查登记。归纳起来,普查调查实施的第一阶段即清查摸底阶段,在严格划分普查区和绘制普查区地图的基础上,通过对普查区内住户和基本单位的全覆盖清查,得到普查区域内调查单元的清单名录;第二阶段即登记汇总阶段,以清单名录作为访问普查对象的依据,通过登记、层层汇总得到最终的普查结果。
对三大普查调查实施共性的归纳,是为了从实践工作中寻找普查数据调查实施过程的一般规律,并以此为基础建立合理的普查数据汇总模型。
三、普查数据汇总模型的构建
(一)汇总模型及其适用性
若假设总体包含N个单元,θi表示总体中第i个单元的变量值(计数或指标值),θ是相应的变量值汇总结果,定义一般汇总模型形式:
如果汇总层级设置较多,数据需由基层单元逐级汇总,定义如下多级汇总数据模型:
式(2)表明总体包含N个初级单元,第i个初级单元包含Mi个二级单元,θij表示第i个初级单元下第j个二级单元的变量汇总;依次类推,θij…表示基础单元的变量值。
在中国现行政府统计体制下,通过周期性普查、经常性抽样调查和统计报表获取有关经济、社会发展的指标数据,都可以被视为是一种根据行政级别并由下至上按照街(乡)、区(县)、地(市)、省、国家等多个层级进行数据汇总的过程。针对统计报表,由于数据汇总中各种干扰因素的存在,将导致多级汇总数据的统计误差效应存在,王华据此研究了多级汇总数据中的计量误差效应识别与控制[10]。针对抽样调查,可以视为末级样本单元利用抽样权数进行调整后通过汇总推断总体目标量,但经常性抽样调查往往面临着如何满足多层次估计的矛盾,艾小青据此进行了不同层级的样本追加研究[11]。
针对周期性普查,中国周期性普查的对象主要分为自然人和基本单位。随时间变化,人口的流动性和基本单位的不断产生与消亡以及市场经济条件下多元化的利益主导,在普查过程中不可避免的存在自然人和基本单位的遗漏、重复以及错误包含,如果将一般汇总模型应用于普查,必须通过合理的形式反映这一普查特点。
(二)普查数据汇总模型的一般形式
从数据生成过程看,普查属于由基层微观个体数据汇总为宏观总量数据的过程。为了兼顾反映普查数据汇总过程和研究的便利性,在式(2)的基础上将普查数据汇总定义为目标总体单元计数和指标值的二级汇总。假设普查地域被划分为N个普查区,第i个普查区包括Mi个调查单元。目标总体依据普查项目具体规定确定,第i个普查区的Mi个单元并不一定都属于普查目标总体。令Uij表示第i个普查区第j个单元,Xij表示Uij的指标真值。
当普查不存在误差时可以得到:
普查目标总体计数汇总模型:
普查目标总体指标汇总模型:
普查是对所有目标总体单元的调查汇总,当每个调查单元Uij均是目标总体单元且不存在目标总体单元的遗漏、重复记录和错误包含时,显然有Ti
从全面调查的角度考虑,普查的准确性表现为目标总体单元的全面准确登记,而全面准确登记结合普查汇总模型式(3)和式(4)需考虑两个目标:为了得到普查汇总的计数,需要保证目标总体单元的全面计数,即不存在普查目标总体单元的重复记录、遗漏以及将不属于普查目标总体的单元包含进来;为了得到普查汇总的登记指标值,需要保证每个目标总体单元所对应的指标值被准确登记,即努力降低登记误差的影响。
四、普查调查框误差研究
(一)普查调查框的界定及作用
普查的第一个目标是确保汇总准确性的基础,如果普查登记中存在大量目标总体单元重复记录、遗漏和错误记录,即便指标登记无误,最终的汇总结果也是不准确的。理论上,为了提高普查对目标总体的准确涵盖,普查数据汇总需要依据一个被定义的联接规则。为此,在普查登记前建立一份能够涵盖目标总体的名录(清单或地图),作为访问目标总体单元的途径,笔者称之为普查调查框。前述中国周期性普查调查实施过程正是这一现实的映射,即通过普查区的划分绘制地图框,在每一普查区内开展单位清查(清查摸底)或通过其他外部记录途径编制普查对象名录框(清单),最终通过对名录框联接调查单元的访问进行普查登记汇总。
为了寻找一种途径实现式(3)和式(4)中调查单元Uij与目标总体的真实联接属性,本文进一步区分一般总体、目标总体和普查总体。一般总体(U)即普查区域内所有调查单元所组成的总体,其中符合普查对象属性特征(如时间、地点等)的调查单元组成目标总体(T),是通过普查想要推断其特征的总体;调查框总体即调查框(F),由通过绘制普查区地图和清查摸底编制的名录框(清单)所联接的调查单元构成,而理想的调查框F应当使与其唯一联接的调查单元均属于目标总体T的调查单元、即与调查框F所联接的一般总体单元与目标总体单元一一对应,才能为普查汇总的全面准确提供基础保证。
如果令U是一个现实存在的总体,可将其视为一个随时间不断变化的无限总体,但在某一具体时点是有限的;T是一个根据普查事先规定被定义的有限总体,普查的目的即是推断T;F是一个普查实践中被调查框定义的有限总体,也是实际调查所接触的总体。理想的情况下,F应当准确涵盖T,但现实中三个总体可能表现出如下的对应关系,见图1。
图1 普查调查框误差示意图
根据图1,三个总体在涵盖范围上有包含关系:UT、UF,其中代表一般总体集合;→代表时间轴;代表被普查遗漏的目标总体单元集合;代表被普查错误包含的非目标总体单元集合;代表目标总体与普查总体的正确涵盖范围。图1中调查框总体所涵盖的范围与目标总体范围并不一致,由此将产生普查调查框误差。
根据本文对普查调查框的定义,其作用在于寻找访问目标总体单元的有效途径,以2010年第六次全国人口普查为例,一般总体即中国境内所有的自然人群,目标总体即符合第六次人口普查对象属性规定的自然人群,普查调查框总体即通过全部普查区清查摸底得到的以“住户清单”为表现形式的《户主姓名底册》。人口普查登记中依据编制的《户主姓名底册》先访问住户单元,进而搜集户内具体人口相关信息。
(二)基于调查框联接特性的普查类型划分
人口普查目标总体是由一般总体中符合普查对象定义的人口单元组成,但与人口单元相联接的调查框总体并不是“人口名录清单”,而是《户主姓名底册》①中国第六次人口普查清查摸底《户主姓名底册》内容主要包括住户编号、住户内居住人数和户籍人数等信息,并不包括户内每个人的姓名等具体信息。中的“住户清单”。直观上人口普查调查框中“住户清单”联接的是住户单元,而其目标总体联接的是人口单元,存在调查框总体联接调查单元与目标总体联接调查单元层级不同的问题。与此相比,经济普查和农业普查中虽然也有人口单元的存在,但根据这两项普查对象定义②具体见中国第二次经济普查方案和第二次农业普查方案。,其目标总体却是由符合普查对象定义的相关基本单位和农村住户组成,调查框总体分别是《单位清查表》中的“单位清单”和《农村住户摸底表》中的“住户清单”,与两张清查表所联接的是产业基本单位和农村住户。可见,这里调查框总体联接的调查单元与目标总体联接的调查单元处于同一层级。
造成上述差异的主要原因是人口普查目标总体中人口数量众多,且具有较强的流动性,很难对人口单元直接编制调查框,但人口单元通过住户则表现出相对的稳定性,因此以人口作为普查目标总体时,其调查框的编制也仍然针对普查中的住户单元。经济普查和农业普查的目标总体中的基本单位和农村住户均相对稳定,其调查框的编制直接与基本单位和农村住户对应,不存在联接调查单元对应层级不同的问题。普查调查框总体(F)与目标总体(T)联接调查单元层级的不同,这一现象的独立存在,本身并不会导致调查框误差,只会影响到普查数据汇总模型的具体形式,此问题将在今后的研究中予以讨论。
本文将产业基本单位和住户这类数量规模相对较少、位置相对固定的一般总体单元统称为“地址调查单元”,而将人口这类数量规模相对较多、流动性较大的一般总体单元称为“基础调查单元”。如果将地址调查单元视为一级单元,则可将基础调查单元视为相应地址调查单元下的二级单元(地址调查单元与基础调查单元在不加区分时均统称为调查单元)。鉴于以上普查中存在实际问题,本文将普查目标总体和调查框总体联接单元均为“地址调查单元”类型,也即将两个总体联接调查单元处于同一层级的调查框称为普查调查框类型Ⅰ,基于此类调查框开展普查登记的普查项目称为普查类型Ⅰ,将两个总体联接调查单元处于不同层级的调查框称为普查调查框类型Ⅱ,基于此类调查框开展普查登记的普查项目称为普查类型Ⅱ。实践中,采用调查框类型Ⅱ的普查登记可以视为在使用调查框类型Ⅰ访问地址单元的基础上,对地址调查单元下的基础调查单元的进一步全面调查。
(三)普查调查框误差及其量化
根据本文提出的三个总体关系,结合图1,当一般总体调查单元在普查调查框总体和目标总体中的联接关系并非一一对应时,或者当调查框总体所涵盖的一般总体单元与目标总体涵盖的一般总体单元不一致时,将导致普查调查框误差。图1仅能识别调查框与目标总体之间的涵盖范围差异,却无法进行有效的识别,故需进一步研究出合理的量化形式。
为了研究抽样框误差,Lessle和Kalsbeek借鉴定义的经典抽样框联接形式[3],通过目标总体单元与抽样框单元间的直接对应关系来表现[12]56-82,其实质是将抽样框视为一种目标总体单元和抽样总体单元间的直接联接规则,因此仅存在目标总体和抽样总体两个总体概念,而不存在本文提出的一般总体概念。抽样框联接形式的这种定义,有利于研究抽样框遗漏、错误联接的不同类型的误差影响,但Lessle和Kalsbeek指出“抽样框误差的综合模型很难具体描述”[12]56-82,笔者也认为其并不适用于研究普查调查框问题。为了对普查调查框误差采用合理的方法进行量化,假设U被划分为N个普查区,第i个普查区中包含Mi个单元,Uij是第i个普查区中第j个单元,Xij是其指标真值。本文以一般总体调查单元Uij为出发点,定义其在T和F中的联接规则如下:
普查目标总体T是根据普查对象定义的,一般总体U中的调查单元是现实存在的。因此,调查单元Uij与目标总体T之间的关系只可能是联接(Uij属于T)或未联接(Uij不属于T),即如果Uij是目标总体单元,则与T只可能是唯一联接。根据联接规则的定义,如果属于目标总体T的所有Uij都能够与F也唯一联接,而不属于目标总体T的Uij也都未与F联接,则实现了F对T的准确涵盖。当仅存在Tij=1、Fij=1或Tij=0、Fij=0两种情况,普查调查框是完美的和不存在误差的。
普查调查框在实践中需要人为编制,受编制调查框的人力、物力、时间条件的限制,一方面可能会存在Uij与F之间的重复联接,另一方面还会存在同一Uij的联接规则Tij和Fij不一一对应,这些客观问题都会导致调查框误差。为了能够反映现实情况,重新定义Uij与F的联接规则如下:
Lessle和Kalsbeek认为抽样框一旦编制完,抽样框与目标总体联接属性视为一个确定值,抽样框误差将只会带来偏差影响[12]91。本文将普查调查框和目标总体与Uij的联接规则也做类似处理,即不考虑联接规则的示性变量取1和0的概率。如果将联接的实现视为一种计数,被联接单元Uij的指标真值也被记录,结合普查汇总模型一般形式(3)和式(4),由不完善的调查框编制导致的调查框偏差可以分别采用计数误差和指标误差予以表示。
不完善的调查框导致调查单元Uij计数误差:
以计数误差为表现形式的调查框误差:
不完善的调查框导致调查单元Uij指标误差:
以指标误差为表现形式的调查框误差:
五、结论与启示
普查调查框类型的划分并不影响上述调查框误差的量化形式,调查框的作用仅是作为普查登记访问调查单元的有效联系途径;实践中限于编制调查框操作的可行性,均只能编制“地址调查单元”的名录清单,例如经济普查中的基本单位名录库、人口普查中的《户主姓名底册》。在调查框类型Ⅱ中,只是用“地址调查单元”的名录清单作为进一步访问“基础调查单元”的有效途径,例如人口普查《户主姓名底册》中的“住户清单”,既是地址调查单元的联接情况,也可视为与户内人口单元调查框联接的情况,可以将地址调查单元的调查框联接属性直接作为相应基础调查单元的调查框联接属性,而实现基础单元调查框联接与目标总体联接同一层次的对比,同样采用式(6)和式(8)衡量基础调查单元的调查框误差。
从式(5)~(8)的普查调查框误差形式看,均采用净误差的形式表示,可被视为一种对目标总体单元计数的准确程度,即便以指标形式表示的调查框误差也是由于目标总体单元被调查框联接计数的不准确导致。计数不准确指的是遗漏、重复联接和错误联接的存在,即调查框总体F对目标总体T的准确涵盖程度,从形式上可以将普查调查框误差称为调查框涵盖误差。从全面调查结果的准确完整性考虑,在普查数据汇总过程中,调查框误差将和无回答、计量误差等非抽样误差一同对普查数据汇总的准确性产生影响,进而可用于研究金勇进和陶然提出的普查涵盖误差问题[13]。
针对中国现有三大普查,在制定详细的单位清查(清查摸底)方案基础上,还需要从数据质量评估和控制角度进一步完善单位清查(清查摸底)环节的调查框误差测量,从而为普查登记填报奠定良好的基础。本文研究表明:普查调查框与抽样框“同路殊归”,虽然形式上两者相似,可以采用地图框、名录框(清单)等形式,但两者的作用并不相同:抽样框用于保证能够依概率抽取样本,而调查框的作用是保证普查对目标总体单元的准确全面涵盖。笔者认为Lessle和Kalsbeek针对抽样框误差的测量,系统总结前人提出的与外部数据比较、流入流出测量技术、记录检查法和质量抽查法等方法,也可以用于调查框误差测量。普查中单位清查(清查摸底)阶段是提高中国普查数据质量的关键环节之一,据此才能在普查实践工作得到高质量的基本单位名录库和户主姓名底册。因此,调查框误差测量的直接目的是为了控制单位清查的数据质量,进而提高普查数据质量。特别是针对中国的经济普查,在单位清查基础上对普查调查框误差测量和控制研究将会涉及基本单位名录库的更新与维护问题,而此问题有待后续进一步研究解决。
[1] Deming W E.On Errors in Surveys[J].American Sociological Review,1944(9).
[2] Lessler J T.Frame Errors.Phase I Taxonomy Report[C].Proceedings of the 1980Conference on Census Undercount.U.S.Department of Commerce,Washington,D.C.1980.
[3] Szameitat K,Schaffer K A.Imperfect Frames in Statistics and the Consequences for Their Use in Sampling[C].Bulletion of the International Statistical Institute,1963,40.
[4] Groves R M.Survey Errors and Survey Costs[M].New York:John Wiley &Sons,1989.
[5] Hogan H.The Accuracy and Coverage Evaluation:Theory and Design[J].Survey Methodology,2003,29(2).
[6] Abbate C,Filipponi D,Viviano C.Improving the Coverage of the Economic Census by Integrating the Business Register a Method to Measure Under-over Coverage in the Two sources[J].Austrian Journal of Statistics,2004,33(1/2).
[7] Wachter K.The Future of Census Coverage Surveys[J].Probability and Statistics,2008(2).
[8] Fetter M J.An Overview of Coverage Adjustment for the 2007Census of Agriculture[C].American Statistical Association Proceedings of the Joint Statistical Meeting,2009.
[9] Statistics Canada.Statistics Canada Quality Guidelines[M].Ottawa:Statistics Canada Catalogue no.12-539-XIE,2009.
[10]王华.多级汇总数据中计量误差效应的识别与控制[D].中国人民大学,2006.
[11]艾小青.样本追加的理论与方法研究[D].中国人民大学,2009.
[12]Lessler J T,Kalsbeek W D.NonSampling Error in Surveys[M].New York:John Wiley &Sons,1992.
[13]金勇进,陶然.普查涵盖误差及其测量机制研究[J].统计研究,2011(8).
Research on Survey Frame Error Based on Aggregated Census Data
TAO Ran1,JIN Yong-jin2
(1.Research Institute of Statistical Sciences,National Bureau of Statistics of China,Beijing 100826,China;2.Center for Applied Statistics,Renmin University of China,Beijing 100872,China)
As a comprehensive survey,the production process of census data can be viewed as aggregated from the individual to the total data.In order to carrying out the census data quality assessment and control,this paper constructed the general form of aggregated census data model based on common features of implementation process in our censuses;and defined the role of the survey frame in census,under which censuses were divided into two types;and discussed the quantified form of survey frame error in census from the perspective of aggregated census data.This research further improved the theoretical significance of survey unit screening in the census process.
census data quality;aggregated data model;survey frame error
book=1,ebook=1
C811
A
1007-3116(2012)08-0003-06
(责任编辑:郭诗梦)
2012-01-17;修复日期:2012-05-30
全国统计科学研究重点项目《基于普查涵盖误差测量技术的基本单位名录库维护与更新研究》(2011LX003);国家社会科学基金项目《普查数据质量的事后抽查理论及其应用研究》(11BTJ009);中国人民大学研究生科学研究基金重点项目(中央高校基本科研业务费专项资金资助)《经济普查数据质量评估与控制研究》(10XNG049)
陶 然,男,河南汝南人,经济学博士,助理研究员,研究方向:抽样调查技术与统计数据质量;金勇进,男,北京人,教育部重点研究基地中国人民大学应用统计科学研究中心主任,教授,博士生导师,研究方向:抽样调查技术与数据分析。