基于设计效应的人口普查质量评估调查样本量测算

2020-10-12胡桂华范署姗

统计与信息论坛 2020年10期

胡桂华，范署姗，吴婷

(重庆工商大学 a.数学与统计学院；b.经济社会应用统计重庆市重点实验室，重庆 400067)

一、引言

1949年新中国成立后，分别于1953年、1964年、1982年、1990年、2000年和2010年进行过六次全国人口普查。从1982年起，中国正式采取质量评估调查开展人口普查质量评估工作[1]。联合国统计司建议各国使用质量评估调查估计人口普查覆盖误差及内容误差[2]。覆盖误差是由于普查多报与漏报引起的总体实际人口数与总体普查人口数之差。内容误差指由于普查多报与漏报及普查项目填写错误引起的类别实际人口数与类别普查人口数之差[3]。

质量评估调查属于大规模抽样调查，采取分层整群抽样或多重抽样[4]。至于具体采取哪种抽样方法，要结合本国的实际情况而定。中国、南非和乌干达等发展中国家采用分层整群抽样，抽样单位为普查小区或普查区，抽样框是上次普查地址码库。中国普查小区平均包括80个住房单元，250人。这样规定的理由是便于合理安排一个调查员的工作量，确保各个样本小区的数据采集工作同时完成。中国小区规模大致相当，按照小区规模对小区分层体现不出层与层之间的差异，失去分层意义。美国2000年质量评估调查采取分层二重整群抽样[5]。美国街区群之间规模差异较大，有的街区群包括住房单元0～2个，也有的包括住房单元3～79个，还有的街区群包括住房单元80个及以上。于是美国普查局在每一个州的第一重抽样之前按照规模对街区群分层。中国按照城乡分层各个省份的普查小区，在城市和乡村层，以小区为抽样单位简单随机或等距抽样或不等概率抽取普查小区样本。

人口普查质量评估调查工作的最初环节是测算和分配全国样本量[6]。然而在政府统计部门发布的人口普查质量评估研究报告中，很少见到样本量测算与分配的相关内容，代表当今人口普查质量评估最高水平的美国也是如此。一些国家的政府统计部门往往是凭经验、主观感觉确定全国样本总量，根据调查经费和调查便利程度分配全国样本量。这与政府统计部门不重视质量评估调查样本量测算有关。联合国统计司组织世界人口普查质量评估专家撰写的人口普查质量评估操作指南也未涉及样本量测算问题。中国在2010年及以前的人口普查质量评估调查中一直未能从理论上解决样本量测算与分配问题。抽样理论说明样本量测算与分配对总体指标估计精度有直接影响。在人口普查质量评估调查中重视这一工作，有助于减小人口普查覆盖误差及提高内容误差估计精度。

测算质量评估调查样本量有两种方法，一是直接测算法，二是间接测算法。直接测算法是指给出既定抽样方法的估计量抽样方差公式，同时给出估计量的精度要求，即估计量抽样方差的控制值。用方差公式表示以样本量为未知数的方程式，解这个方程得到所需要的样本总量。只要有条件这样做，毫无疑问就应该采用这种方法。但是，有的时候没有条件使用直接的方法来测算样本量。例如，抽样设计方案和估计量的构造形式复杂，难以直接写出估计量方差的数学表达式和列出样本量方程式，这时就只好使用间接法[7]。人口普查质量评估调查就属于这种情况。

中国国家统计局已确定在2020年人口普查质量评估调查中使用间接法测算样本量。下面以中国为例，讨论间接方法的具体测算步骤[8-10]。第一步，计算2020年实际抽样方案的设计效应。它为2020年实际抽样方案总体实际人口数估计量的抽样方差与简单随机抽样总体实际人口数估计量的抽样方差之比。显然，为了计算2020年设计效应，要设计两个抽样方案：实际采用的抽样方案称之为A方案；简单随机抽样方案称之为B方案。中国2020年A方案包含两个要点：使用分层整群抽样抽取样本和利用该样本资料构造三系统估计量估计全国实际人口数。三系统估计量很复杂，其抽样方差使用分层刀切抽样方差估计量近似估计。B方案的要点是：首先给出抽样估计精度要求，它是实际人口数估计量方差的一个控制值。然后依照这个控制值，如果以普查小区为抽样单位，在全国不分层抽取简单随机样本，构造全国实际人口数的简单均值估计量及其抽样方差估计量。第二步，根据精度要求，计算B方案全国需要的样本总量。第三步，将2020年A方案的设计效应乘以B方案2020年全国样本总量，得到A方案2020年全国样本总量。这里需要注意的是，2020年A方案尚未实施，还无法计算A方案的抽样方差，2020年A方案的设计效应自然也就算不出来。

如果2010年质量评估调查采用A方案(当时自然已经算出了该方案中估计量的方差)，那么只要再用2010年样本资料计算B方案的抽样方差，把这两个方差相除得到2010年A方案的设计效应。把这个设计效应拿到2020年使用应该没有问题。但问题是2010年质量评估调查可能没有使用A方案。由2010年的样本资料可以制造出来一个A*方案，其特点是：抽取样本的方式与A方案相同(事实上，中国2010年和2020年质量评估调查都采取分层整群抽样)，使用估计实际人口数的双系统估计量[11-12]，而不是三系统估计量[13]。

中国2010年没有使用双系统估计量估计全国实际人口数，并据此估计全国普查净误差率，而是通过比对样本普查小区的普查人口名单和质量评估调查人口名单估计样本普查小区的普查净误差率。

虽然中国在2010年没有使用双系统估计量估计全国实际人口数，但它采集了应用双系统估计量及其分层刀切抽样方差估计量所需要的样本数据资料，即拥有2010年全国416个样本普查小区的普查人口名单和质量评估调查人口名单及这两份人口名单的匹配人口名单资料。因此，中国国家统计局积累了2010年质量评估调查应用双系统估计量的实际数据资料。也就是说，虽然中国国家统计局没有使用双系统估计量，但积累了使用双系统估计量所需要的数据资料。这些实际资料可以用来计算2010年设计效应，我们并没有获得这些实际数据资料，是基于对中国质量评估调查的了解及长期研究，模拟了一套与实际数据基本吻合的微观数据。下面依据模拟的微观数据计算2010年A*方案的设计效应，并作为2020年A方案的设计效应[14]。

双系统估计量与三系统估计量的原理基本相同。不同的是，双系统估计量只用普查人口名单、质量评估调查人口名单的信息综合在一起构造估计量。与三系统估计量相比，缺少了行政记录人口名单(户籍人口名单)信息。由于缺少这个，双系统估计量的精度可能会比三系统估计量差一些。相应地，在一定精度要求下用A*方案的设计效应算得的2020年样本量会比实际需要的样本量大一些。这样的结果还是可以接受的，毕竟两种估计量属于同一个理论范畴，二者精度不会相差太多。

在人口普查质量评估领域，样本量测算与分配的研究成果较少。相比国内外发表的为数不多的相关论文，我们的创新工作体现在以下几个方面。一是将双系统估计量纳入设计效应计算中，丰富了设计效应理论；二是增加了数据分析环节，为政府统计部门设计质量评估调查样本量测算与分配方案提供了具体方法。受设计效应公式复杂及获取相关数据较难的限制，现有相关文献只是从理论角度研究质量评估调查样本量的测算与分配，而未进行数据模拟或实证分析。这不便于读者理解及成果推广应用；三是与中国国家统计局人口普查质量评估工作的一贯方法保持一致。现有相关文献讨论设计效应时，使用分层二重抽样或多阶段抽样抽取样本，而中国人口普查质量评估调查使用分层整群抽样抽取样本。基于这一现实情况，我们使用基于分层整群抽样的双系统估计量和基于简单随机抽样的简单均值估计量的抽样方差计算设计效应。

二、全国样本总量测算

(一)计算全国2010年设计效应

在2010年质量评估调查中，中国采取分层整群随机抽样，抽样单位为普查小区[15]。首先，按省份把全国分为31层，其次，每层按照城—乡分为两层，即城镇层和乡村层。考虑到西藏人口少，其样本量单独确定。这样全国小区共分在60个抽样层。抽样层用h表示，h=1，2，…，60，抽样层的小区数及样本小区数分别用Nh和nh表示。

(1)

在讨论式(1)之前，先构造双系统估计量和简单均值估计量及其抽样方差估计量。双系统估计量依据普查人口名单和质量评估调查人口名单构造，而简单均值估计量依据质量评估调查人口名单建立。

1.双系统估计量及其抽样方差估计量。质量评估调查日与普查日之间不可避免有人口移动。为便于讨论，忽略人口移动，构造无人口移动的双系统估计量。相关资料显示，双系统估计量来源于最初估计封闭动物总体规模的捕获-再捕获模型。双系统是指普查人口名单及质量评估调查人口名单，分别对应于捕获-再捕获模型的第一次和第二次捕获。该模型为第一次和第二次捕获的动物数量乘积除以同时在两次捕获中的动物数目。这启发我们构造双系统估计量须比对这两份人口名单，找出同时登记在两份人口名单的人口。此外还要注意的是，捕获-再捕获模型须在同质动物总体构造及使用。同质动物大多居住在一起(猴子等)，而不同质动物分开居住，因而捕获-再捕获模型所需要的同质性条件较易得到满足。但人在年龄、性别、居住环境和居住位置等方面存在较大差异，不具备同质性。相应地，在将捕获-再捕获模型移植到人类总体构造双系统估计量时，应该按照年龄、性别、文化程度、婚姻状况、是否有属于自己的房子等变量将总体人口分层，把变量值相同或大致相同的人放在同一层，称之为事后层或等概率人口层，用v表示[16]。显然，用于分层的变量越多，层v人口的同质性越强。但在样本规模一定情形下，层v的样本人口数就越少，在事后层建立的双系统估计量估计的实际人口数的抽样误差就越大。为计算方便，使用性别对总体人口分层，共分为两个事后层，即男性层和女性层。汇总所有事后层的双系统估计量，得到估计总体实际人口数的双系统估计量。

为什么在总体人口数估计中使用由普查人口名单及质量评估调查人口名单构造的双系统估计量，而不使用由这两份人口名单之一构造的单系统估计量呢？根本原因在于双系统估计量对总体人口的覆盖范围大于单系统估计量，所估计的人口数自然接近于总体实际人口数。南非2011年使用双系统估计量估计的全国人口数为49.79百万人，而采用依据普查人口名单构造的单系统估计量估计的全国人口数为42.08百万人，使用依据质量评估调查人口名单构造的单系统估计量估计的全国人口数为40.62百万人。南非2011年全国普查人口数为51.77百万人。使用三系统估计量估计的南非2011年全国人口数会更加接近于该年的全国普查人口数。

(2)

(3)

whi=Nh/nh

(4)

从式(3)和(4)可以看出，式(2)是一个复杂估计量，应该使用分层刀切抽样方差估计量近似计算其抽样方差[17]。双系统估计量的抽样方差为：

(5)

(6)

(7)

(8)

总体实际人口数的双系统估计量为：

(9)

在计算总体实际人口数双系统估计量的抽样方差估计量时，由于各事后层之间并不是相互独立，因此不仅需要计算各事后层的方差，还需要计算事后层之间的协方差。

(10)

V为事后层的总层数。

2.简单均值估计量及其抽样方差估计量。公式如下：

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(二)计算全国2020年样本量

我们要求2020年总体实际人口数估计量的抽样方差不超过指定值V。如果用抽样误差范围d和置信概率95%表示精度要求，那么由于估计量近似服从正态分布，当置信概率为95%时，标准正态分布双侧临界值的绝对值是1.96，这时有V=(d/1.96)2。如果用相对抽样误差范围δ和置信概率表示精度要求，这时V=(δY/1.96)2，其中Y为2020年全国实际人口数的真值，用2019年1‰人口抽样调查全国实际人口数估计值来代替。

在该精度要求下，假若2020年在全国范围内以普查小区为单位，简单随机抽取样本，构造简单均值估计量估计全国人口数，计算所需要的样本量。这里需要用到2020年普查小区之间人口数的总体方差S2(用2010年质量评估调查估计的全国小区人口数之间的总方差代替)、2020年全国小区数N和估计精度V。使用式(18)求出全国样本小区数目nSRS：

(18)

如果2020年采用与2010年相同的抽样方法，构造相同形式的估计量(双系统估计量)，那么样本中应含有的普查小区数nA*为：

(19)

如果在2020年采用比2010年更优越的抽样方法，将分层整群抽样换为分层二重整群抽样，双系统估计量换成三系统估计量估计全国人口数，所需要的样本含量(普查小区数)，会低于式(19)计算的结果。

三、全国样本总量分配

这包括两个层次，一是全国样本量在除西藏之外的30个省份分配，二是各个省份在抽样层之间的分配。一般按照各省份或抽样层最新普查小区数(或人口数)或上次普查小区数(人口数)比例分配。用n1A*，…，n30A*分别表示各个省份分配的普查小区数，计算公式为：

(20)

其中，k=1，2，…，30，Tk为第k省普查小区数或人口数，T为全国上次或本次普查小区数或人口数。用nklA表示抽样层l从nkA分配的普查小区数，l=1，2，…，60，计算公式为：

(21)

其中，Tkl为第k省的第l抽样层的人口数或普查小区数。

西藏人口稀少，在2010年质量评估调查中，城乡各指定1个样本普查小区。从人口普查净误差估计、普查漏报估计、普查多报估计，以及普查内容误差估计的角度来看，每个抽样层的样本量应该大于1。这是因为用于估计这些误差的双系统估计量、三系统估计量、普查漏报合成估计量、普查多报比率估计量、内容误差估计量属于复杂估计量。对于复杂估计量，抽样方差通常使用分层刀切抽样方差估计量近似计算。该抽样方差估计量的复制权数的分母为抽样层的样本量与1的差。在2020年质量评估调查中，中国全国样本普查小区数量将从2000年的602个和2010年的402个增加到1 000个。相应地，西藏最低样本量可规定为4个普查小区，其中城乡各两个样本小区。

四、模拟分析

如果能够获得2010年中国每个省份城市和乡村的普查小区数目、城乡的样本小区数目、全国每个小区的人数和2020年全国每个小区的人口数，就可以进行实证分析。尽管我们为中国国家统计局制订2020年人口普查质量评估方案，包括样本总量测算与分配方案，但受微观数据保密性所限，依然无法从国家统计局获得所需要的实际微观数据。不得已只能做模拟分析。2010年中国各省份的普查小区总数及样本小区总数可以从国家统计局网站或我们与国家统计局于2012年合作撰写的《人口普查的事后质量抽查报告》中得到，这便是实际数据。但该年各省份的城市和乡村各自的普查小区数及样本小区数没有得到，于是采用城乡人口数比例间接推算，这便是模拟数据。至于各个小区的住户数或人口数，则是模拟的。模拟分析中的表1～6的数据都是模拟的。

(一)计算全国样本总量

中国在2010年质量评估调查中，从全国(西藏除外)30个省份的城乡60个层中抽取样本普查小区400个，西藏城乡小区各1个。表1列示各层普查小区总数及样本普查小区数。

表1 2010年全国人口普查质量评估调查样本量

为了使用简单均值估计量估计全国实际人口数，需要获得每一个样本普查小区的人口数，具体见表2。利用表1～2的数据，使用式(11)～(17)，得到简单均值估计量(除西藏外)估计的实际人口数及抽样方差估计值分别为：

全国实际人口数估计值为：

总体方差估计量为：

=35 344 370 519 033

为使用双系统估计量估计全国(除西藏外)实际人口数，除了需要获得表1数据外，还需要获得每一个样本普查小区的普查正确登记人数、质量评估调查人数，以及它们的匹配人数。这里只列出北京市20个样本普查小区的人口数，见表3。

利用表1和表3数据，使用式(2)～(4)及式(9)得到双系统估计量估计的全国实际人口数为：

为计算双系统估计量的抽样方差，一项核心工作是使用式(8)计算每刀切掉每一层的每一个样本普查小区后，所有样本普查小区的复制权数，被刀切小区的复制权数为0。模拟研究需刀切400个普查小区，因此，最后的结果是400×400的矩阵，如表4。每刀切一个样本普查小区后重新计算的所有样本小区的复制权数之和为全国总普查小区数(5 520 099)。

表2 样本普查小区人数单位：人

利用表3和表4数据，以及式(5)～(8)及式(10)得到全国双系统估计值的抽样方差：

使用式(1)和算得的均值单元估计值和双系统估计值的抽样方差，得到2010年质量评估调查方案A*的设计效应为：

=0.771 9

如果要求2020年全国实际人口数估计值与实际值的误差范围为7 468 267人，并假定2020年全国普查小区数与2010年相同，为5 520 099个，2020年全国普查小区人口数总体方差与2010年相同，为464，那么使用式(18)得到2020年采取简单随机抽样全国样本总量为：

如果2020年采取与2010年同样的抽样方法和双系统估计量，那么使用式(19)得到2020年全国样本普查小区数为：

如果2020年采取更优的抽样方法和估计量，如分层二重抽样和三系统估计量，那么使用式(19)得到2020年全国样本普查小区数应该比751小，如700个。

表3 北京城乡样本小区普查人数、质量评估调查人数及匹配人数单位：人

表4 样本小区复制权数

(二)全国样本总量分配

假定2020年最终确定的全国样本普查小区数700个。利用表1数据，使用式(20)～(21)，得到全国各个省份及城乡抽样层按普查小区数或人口数比例分配的样本普查小区数，见表5和表6。

表5 基于小区数比例的2020年全国样本量分配结果

表5中的数据基本上按照式(20)～(21)分配。考虑到北京、天津、上海、宁夏和青海普查小区比例较小，适当增加了样本普查小区数，这与中国人口普查质量评估调查的一贯做法一致。

表6 基于人口数比例的2020年全国样本量分配结果

从表5和表6可以看出，采用2010年抽样层的普查小区数或人口数比率分配的样本量差异不明显。如辽宁、江苏、福建和云南，城镇和乡村无差异。但少数省份或其城乡，采用普查小区数或人口数分配有明显差异，如河南乡村样本量相差4个普查小区，四川城镇样本量相差5个小区及乡村样本量相差11个小区。这表明中国各个普查小区的人口数差异很少。事实上，中国样本普查小区是按照250个常住人口来确定的。

五、结论

第一，在人口普查质量评估调查样本总量测算中，使用总体实际人口数估计精度计算设计效应[18]。这与人口普查质量评估的主要目标一致，即估计普查时点的总体实际人口数及普查净误差。设计效应的分子是总体双系统估计量的抽样方差，分母是简单均值估计量的抽样方差。

第二，参照中国2000年和2010年普查净误差估计值，以及美国、乌干达和南非等国净误差估计值，综合确定中国2020年总体实际人口数估计值的误差范围。

第三，计算简单均值估计量的抽样方差，需要全国普查小区之间人口数的方差。该方差计算资料可以是2010年质量评估调查每个样本普查小区的人口数，或2010年全国每个普查小区的人口数，也可以是2019年全国1‰人口抽样调查资料。

第四，应用设计效应测算全国质量评估调查样本总量的前提是2020年采用与2010年同样的抽样方法和估计量。如果2020年采用优于2010年的抽样方法(分层二重抽样)和估计量(三系统估计量)，那么2020年所需要的样本总量会比同样抽样方法和同样估计量时的要少一些。此时，可以根据2020年质量评估调查的人力、物力、财力、时间及对普查覆盖误差和内容误差估计精度的要求，综合确定2020年全国质量评估调查的样本总量。

第五，全国样本总量确定之后，按照人口数或普查小区数比例分配全国样本总量。对人口数特别少的省份或抽样层，为避免因样本量严重不足而影响估计精度，单独确定样本量或适当增加样本量。