人口普查遗漏的组合式估计方法

2024-02-04胡桂华LPEZCARRDavid黄艳华

统计与信息论坛 2024年2期

胡桂华,LPEZ-CARR David,黄艳华,吴笛

(1.重庆工商大学 a.数学与统计学院,b.成渝地区双城经济圈建设研究院,重庆 400067;2.加州大学圣芭芭拉分校地理系,加利福尼亚圣芭芭拉,93106)

一、引言

人口普查不可避免发生遗漏,导致普查登记人口数低于实际人口数。人口普查遗漏指应该在普查中登记却未能登记在人口普查表中,要估计普查遗漏人口数,需要使用其他资料(如覆盖调查资料等),通过比对其他资料与人口普查资料来发现遗漏人口,或者在某假设条件下利用已有资料构造遗漏估计量。

人口普查质量评估实践表明,遗漏在整个人群中的分布并非均匀。不同人口群体或地区之间的遗漏率差异较大,美国2010年人口普查遗漏估计结果显示[1],西班牙裔少数民族的遗漏率高于非西班牙族白人;租房者遗漏率(8.5%)比有房者(3.7%)遗漏率高;在各州中,遗漏率从爱荷华州的2.6%到密西西比州的8.9%不等;大城市的遗漏率往往高于其他地区的普查遗漏率。

每次人口普查后,政府统计部门需要估计总人口的遗漏及各类别人口的遗漏。与遗漏相关的一个概念是净遗漏。虽然遗漏和净遗漏都反映了人口普查数据准确性的各个方面,但揭示的内容不同,遗漏反映的是本应在本次人口普查中登记却未登记的人数;净遗漏率反映的是遗漏人数的百分比与在普查中重复登记人数的百分比之差。比如,美国2010年全国的遗漏率为5.3%,而净遗漏率为0.01%。

造成人口普查遗漏的原因较多,有些受访者认为不应该将幼儿填写在人口普查表中[2]。美国2010年的一项专项调查结果表明,在低收入家庭的人口普查登记中,只有82%的家庭将幼儿填写在人口普查表中,另外18%的家庭认为幼儿不应该纳入人口普查登记范围。虽然人口普查操作指南手册明确规定应该登记普查日前出生的幼儿和收养的弃婴,但实际上并未严格遵守,从而导致遗漏幼儿。在人口普查登记期间,有些住户成员外出经商、旅游或学习,当普查员多次上门登记时不在家,从而造成遗漏;有些居民住宅修建在偏远地区,造成普查员登记困难,在普查表中未登记这样的住宅及其家庭成员;有些普查员不适当地将居住用住宅当作商业用房,从而未登记居住在其中的家庭和个人造成遗漏;多个家庭共用同一个地址和同一个门牌号码,普查员只登记了这个地址上的一个家庭,而未登记该地址上其他应该登记的家庭等。这些情况和其他尚未列举的情况表明,人口普查遗漏客观存在,有必要开展相关研究。

笔者研究过普查人口名单及覆盖调查人口名单情形下的完整遗漏估计量,以及这两项调查人口名单和行政记录人口名单情形下的合成遗漏估计量。完整遗漏估计量由一个单重遗漏估计量和两个双重遗漏估计量构成[2];合成遗漏估计量包括两个单重遗漏估计量、一个双重遗漏估计量和一个三重遗漏估计量[3]。这两种遗漏估计量适合于人口普查质量评估水平较高的发达国家使用。本文研究的组合式遗漏估计量包括一个单重遗漏估计量和一个双重遗漏估计量,适合于人口普查质量评估水平相对较低的发展中国家使用。

本文研究目标是,使用所提出的组合式遗漏估计量替代目前联合国统计司建议各国使用的单重遗漏估计量,以解决后者低估总体人口普查遗漏人口数的问题。

研究具有一定的理论意义与现实意义。理论意义表现在两个方面:一方面,组合式遗漏估计量由单重遗漏估计量和统计独立的双重遗漏估计量构成,双重遗漏估计量的理论基础是捕获—再捕获模型。为满足该模型等概率要求,需要使用体现人口在普查中登记概率大小的人口统计特征变量和居住位置变量对总体人口分层。在等概率层构造双重遗漏估计量,否则产生异质性偏差。在分层二重抽样下,双重遗漏估计量的构成要素使用再加权扩张估计量构造。另一方面,组合式遗漏估计量较为复杂,其抽样方差使用分层刀切抽样方差估计量近似估计,组合式遗漏估计量有偏,因此需估计其偏差。

现实意义表现在三个方面。第一,组合式遗漏估计量除了包括未登记在普查人口名单但登记在覆盖调查人口名单的单重遗漏人口外,还包括了双重遗漏人口,即同时遗漏于这两份人口名单的人口,因而覆盖了总体绝大部分遗漏人口(未包括覆盖调查与普查非独立情况下的双重遗漏估计量)。未包括这类双重遗漏估计量基于两点考虑,一是笔者已经研究过这类双重遗漏估计量,二是估计这类双重遗漏人口数需要双系统估计量和人口统计分析模型估计的总体实际人口数,以及覆盖调查数据处理误差数据。中国目前缺少这些数据,而本文为未来中国使用组合式遗漏估计量提供参考;第二,为构造组合式遗漏估计量,需要比对两份人口名单,在比对过程中,可查明遗漏者特征、遗漏原因、遗漏程度及遗漏在总体中的分布情况;第三,组合式遗漏估计量利用了普查人口名单辅助信息,使用高质量的、相关程度高的辅助信息是统计推断的一个重要原则。这三个方面的情况表明,组合式遗漏估计量有望提高人口普查遗漏估计精度,应用于政府统计部门人口普查遗漏估计。

本文的创新体现在两个方面,一是使用样本普查小区的普查人口名单和覆盖调查人口名单的原始数据,全面演示了组合式遗漏估计量的计算过程;二是讨论了组合式遗漏估计量的统计性质。尚未发现政府统计部门和国内外其他学者研究人口普查遗漏估计量的统计性质。

二、文献综述

估计人口普查遗漏的方法较多,如剩余法、行政记录比较法和覆盖调查法等[2]。基于剩余法的普查遗漏估计量为双系统估计量与基于比率估计量的普查正确登记人口数估计量之差[4-7]。普查正确登记人口数估计量为最终普查登记人口数与普查正确登记率的乘积。普查正确登记率为普查正确登记人口数估计量与至少填写了姓名和两个调查项目的普查登记人口数估计量之比。剩余法的优势是能够利用已经算出的结果快速取得普查遗漏估计值,劣势是无法分析遗漏者的人口统计特征。行政记录比较法的基本思想是,将总体中的相关人口行政记录合并为一份名单,以家庭为抽样单位,从这份名单中抽取若干家庭,并与人口普查微观记录进行比较。如果某人被登记在这份名单,而未登记在普查记录中,收判断这个人在普查中遗漏。这种方法的优势是确保了行政记录人口名单独立于人口普查,而且无需花费数据采集成本,劣势是获取行政记录人口名单难度大,另外还需要剔除行政记录人口名单中的重复人口,以及定期更新行政记录人口名单。覆盖调查是为了估计普查遗漏和其他指标在人口普查之后进行的一项抽样调查,其抽样单位不是人或住房单元,而是小范围的地理区域,例如中国的某一普查小区。在覆盖调查中,一方面可以得到样本普查小区的普查人口名单,另一方面还可以获得覆盖调查人口名单。普查人口名单由样本普查小区每个住房单元填写的普查表汇编而成,覆盖调查人口名单由样本普查小区每个住房单元填写的覆盖调查表编制而成,依据这两份调查人口名单可以构造单重遗漏估计量、双重遗漏估计量和组合式遗漏估计量。覆盖调查的优势是,可以构造多种形式的遗漏估计量,劣势是需要采取措施确保普查与覆盖调查之间的独立性,否则据此构造的遗漏估计量存在交互作用偏差。

单重遗漏估计量是目前许多国家估计普查遗漏的主要方法[8-10]。除美国和加拿大等少数国家和地区外,包括中国、南非和卢旺达在内的许多国家使用此方法[11-12]。单重遗漏估计量为样本普查小区的未匹配人口与其抽样权数的线性估计量。未匹配人口是指登记在覆盖调查人口名单而未登记在普查人口名单的遗漏人口[13],这里有一个假设,即样本普查小区的覆盖调查人口名单本身未遗漏人口。如果这一假设不成立,那就意味着,有些人同时遗漏于这两份调查人口名单(称为双重遗漏人口)。单重遗漏估计量未包括双重遗漏人口,因而低估遗漏人口数。虽然覆盖调查规模比普查小许多,而且调查员比普查员专业性更强,但覆盖调查依然可能遗漏人口。美国人口普查局设计的2000年、2010年和2020年人口普查质量评估方案中均有一章专门论述覆盖调查遗漏人口的处理方法。中国2000年、2010年和2020年覆盖调查样本规模分别为602个、402个和406个普查小区。如此小的样本规模,原则上应该做到无人口遗漏,然而实际上覆盖调查难以100%登记人口,这意味着,当构造普查遗漏估计量时,不能想当然认为覆盖调查不遗漏人口,而应该包括双重遗漏人口。与单重遗漏人口所不同的是,双重遗漏人口既未登记在普查人口名单,也未登记在覆盖调查人口名单,因此找到双重遗漏人口难度更大。要找到双重遗漏人口,首先,要估计研究区域内的双重遗漏人口数,如果估计结果为零,就放弃寻找双重遗漏人口;其次,如果估计结果不为零,就通过社区负责人筛选可能的双重遗漏人口,一般来说,双重遗漏人口主要是本社区的无固定住所者、犯罪人员、在逃人员、独住者和不关心国家大事者;最后,在确定双重遗漏人口后,通过面访调查或者人口行政资料(如户籍资料)获得其姓名、性别、年龄、文化程度、婚姻状况、职业等人口特征。

三、人口普查遗漏估计理论

(一)组合式遗漏估计量及其方差估计

为便于计算,将组合式遗漏估计量(Combined Omission Estimator,COE)的单重遗漏估计量和统计独立情况下的双重遗漏估计量放在同一等概率人口层(用v表示)建立,尽管单重遗漏估计量无需在等概率人口层构造,等概率人口层是通过对总体按照体现人口在普查中登记概率大小的变量进行分层得到的。变量值相同或大致相同的人在同一层,分层在覆盖调查样本抽取后实施,以确保样本中的每一个人有一个对应的层。分层目标是减少组合式遗漏估计量的异质性偏差[14]。分层变量越多,层内的同质性越强,异质性偏差越小,每一层的覆盖调查样本量也越少,估计遗漏人口数的抽样方差越大,因此,在确定对总体人口等概率分层变量及其变量值时,要综合考虑层内的异质性偏差、抽样方差及覆盖调查的样本规模。

为构造组合式遗漏估计量,引入不完整二维列联表,将同一样本普查小区的普查人口名单和覆盖调查人口名单的比对结果填入该表,见表1。

表1 等概率人口层v的不完整二维列联表

比对通常在同一样本普查小区内进行,其目标之一是查找登记在覆盖调查人口名单的人是否也登记在普查人口名单。如果未登记在普查人口名单,就判断这个人在普查中遗漏。为避免虚增遗漏,两份名单的比对范围应由此样本普查小区扩大到周围区域,即搜索区域(2)最理想的比对范围是全国普查微观记录数据库。在这个数据库搜索覆盖调查人口名单的人口,确定其是否在普查人口名单中登记。如果未登记,则作为普查遗漏人口。,判断是否能够在搜索区域的普查人口名单找到与覆盖调查人口名单一致的人,如果未找到则判作覆盖调查人口名单的这个人在普查中遗漏,如果找到了则不能够判作遗漏,有些人在普查中并未登记在所属的样本普查小区,而是登记在其搜索区域。在这种情况下,如果只是将比对范围局限在此样本普查小区,势必虚增遗漏人口。

(1)

(2)

(3)

(4)

表明,在普查中登记的人认为已经答复了普查问题,因而相比未参加普查的人,更加不愿意参加覆盖调查,使Y11v的人口数减少,从而高估等概率人口层v的实际人口数。

(5)

意味着,在普查中登记的人相比未登记的人更加意识到普查的重要性,从而更加愿意参加覆盖调查,使Y11v的人口数增加,从而低估等概率人口层v的实际人口数。本文构造的双重遗漏估计量为式(3)。

如果采取第二种方法,在同时满足两个假设条件的情况下(覆盖调查与普查独立,通过在这两项调查中使用不同的调查方法、不同的调查员和不同组织机构实现;总体中的每一个人有同样的概率登记在普查或覆盖调查中,通过对总体人口等概率分层来实现),(Yv,p1+v,p+1v)的最大似然函数为:

(6)

式(6)中的p1+v,p+1v分别为等概率人口层的人在普查和覆盖调查中登记的边际概率。

依据最大似然估计方法,得到式(6)中的Yv,P1+v,P+1v的最大似然估计量为:

(7)

考虑到覆盖调查实际为抽样调查,式(1)可写作式(8):

(8)

(9)

式(9)中,h表示第一重抽样层的任意层,h=1,2,…,H;g是对第一重样本进一步分的任意层,g=1,2,…,Gh。如果第一重样本小区i进入层g,那么xhgi=1,否则为0;如果继续进入第二重样本,那么shgi=1,否则为0;yhgiv为第二重样本普查小区hgi在等概率人口层v的观察值;αhgi为经过两重抽样后样本普查小区hgi的抽样权数,其功能是将样本指标扩张到总体指标。

式(8)为复杂估计量,采用分层刀切抽样方差估计量近似计算其抽样方差,表示为:

(10)

(11)

(12)

(13)

式(13)中,Chg,chg分别表示交叉层hg的普查小区集合和样本普查小区集合;Nh,nh分别是层h的普查小区总数目和样本普查小区数目;Mhg,mhg分别是层hg的普查小区总数目和样本普查小区数目。

(14)

(15)

式(15)中的协方差计算公式如下:

(16)

(二)组合式遗漏估计量的统计性质

1.无偏性

关于估计量的无偏性,应该从理论上证明[21]。如果估计量相对简单,那么完成其无偏性理论证明较容易,例如,简单随机抽样下样本均值是总体均值的无偏估计量,但当估计量复杂时,完成其无偏性的理论证明则会遇到较大困难。从式(8)和式(9)可以看出,要从理论上证明组合式遗漏估计量的无偏性是一项较难完成的工作。首先,这两个估计量的概率分布无从知晓;其次,在分层二重抽样下,采用双重扩张估计量构造,尤其是组合式遗漏估计量中的双重遗漏估计量是一个分数估计量,而且分母与分子都是依据双重扩张估计量构造[22]。鉴于这两个遗漏估计量难以从理论上进行无偏性证明,于是本文采用模拟的方法予以讨论。首先,根据抽样方法确定可能的样本个数,计算每个样本的组合式遗漏估计值;其次,计算所有可能样本的组合式遗漏估计值的平均值,将其作为组合式遗漏估计量的数学期望;最后,将组合式遗漏估计量的估计值作为其真实值,依据偏差公式(估计量的均值与真实值之差)计算这两个估计量的偏差,如果偏差为0,则为无偏估计量,反之为有偏估计量。组合式遗漏估计量可能为有偏估计量,需计算其均方误差。

2.有效性

有效性是指估计量与总体参数的离散程度。如果两个估计量都是无偏的,那么离散程度较小的估计量相对来说是有效的,离散程度用方差来衡量。从数理统计理论来看,讨论估计量有效性的前提条件是这两个估计量均为无偏估计量。单重遗漏估计量和组合式遗漏估计量是同一总体人口普查遗漏参数的两个估计量。在后面的模拟研究中,发现这两个遗漏估计量的偏差均不为零,即它们为有偏估计量。然而,并不意味着对这两个有偏估计量就不能进行有效性比较,仍可以使用均方误差来比较它们的有效性。

3.一致性

一致性是指随着样本规模的增大,估计量越来越接近总体参数的真值。在人口普查质量评估中,覆盖调查的样本规模受到严格限制,达不到一致性所要求的样本规模。因此,单重遗漏估计量和组合式遗漏估计量不具备一致性。

4.充分性

如果一个估计量利用了需要估计的总体参数的全部信息,则称其具有充分性。从理论角度论证估计量的充分性有两种方法,一是从充分估计量的定义出发,确定既定估计量取值后样本的条件分布;二是使用因子分解定理证明,使用这两种方法的前提条件是总体的概率函数已知,然而,要从理论上论证单重遗漏估计量和组合式遗漏估计量是否为充分估计量十分困难。困难之处在于,人口普查标准时点上的人口总体的概率函数未知,既无法确定条件分布,也无法使用因子分解定理,因此,在这里只从直观上讨论单重遗漏估计量和组合式遗漏估计量的充分性。在两份名单独立的情况下,为了估计总体遗漏,应该用到的全部信息包括登记在覆盖调查人口名单但未登记在普查人口名单的人,同时未登记在这两份调查人口名单的人。单重遗漏估计量利用了第一种信息,双重遗漏估计量利用了第二种信息,组合式遗漏估计量则同时利用了第一种和第二种信息,可见,单重遗漏估计量并没有利用全部信息,不具备充分性,而组合式遗漏估计量利用了全部信息,具有充分性。因此,从充分性看,组合式遗漏估计量优于单重遗漏估计量和双重遗漏估计量。

相较于对估计量统计性质的重视,政府统计部门更关注估计量是否覆盖了研究总体。在人口普查净误差估计中,尽管用来估计总体实际人口数的双系统估计量是一个有偏估计量,但1980年以来,部分国家一直使用双系统估计量[23-25]。美国在人口普查质量评估报告均未讨论双系统估计量的统计性质,主要原因在于不仅工作难度大,而且对实际工作并无多大益处。

四、实证与模拟

第一部分为实证分析,为政府统计部门提供组合式遗漏估计量及其抽样方差、偏差和均方误差估计量完整的计算程序,推广组合式遗漏估计量;第二部分为模拟分析,讨论单重遗漏估计量和组合式遗漏估计量的无偏性。

(一)实证分析

1.基本情况及数据来源

以XXX省级单位XXX市XXX区XXX街道为实证范围,估计该街道2010年普查遗漏人口数。采取分层二重抽样,抽样单位为普查小区,从街道的100个普查小区中抽取8个。在第一重抽样中,按城乡属性,将普查小区分为两层,即城市层(h=1)和乡村层(h=2),使用Nh表示层h的普查小区总数,nh为从层h抽取的第一重样本普查小区数;在第二重抽样中,对抽取的第一重样本普查小区,按照住房单元数目进一步分为两层,即70～90个层(g=1),以及70个以下和90个以上层(g=2),Mhg和mhg分别表示层hg的普查小区总数和样本普查小区数。

采用较为简单的2X2分层模式有两个原因。一是实证对象为郊区,既有城市普查小区,也有乡村普查小区,因此选择城乡属性对普查小区分层具有合理性,中国国家统计局一直按照城乡对普查小区分层;二是中国一个普查小区平均包括80个住房单元,根据普查小区实际规模对第一重样本普查小区分为上面的两个新g层,也具有一定合理性。实际中,采取何种分层模式与数据的可得性有直接关系。

在覆盖调查样本普查小区抽取之后和使用组合式遗漏估计量估计普查遗漏人口数之前,需要做的一项工作是对总体人口使用性别、年龄、户籍所在地、文化程度、民族等变量进行等概率分层。不难看出,分层变量越多,等概率人口层内部的同质性就越强,但是,在覆盖调查样本规模一定的情况下,分层变量过多会导致有些等概率人口层的抽样方差过大,为避免抽样方差过大,本文只选择性别对总体人口分层。

有关抽样及其结果和样本数据,见表2和表3。

表2 抽样层、样本和抽样权数

表3 层及样本数据

表2中的数据有两个用途,一是用来计算表4中的单元的加权人数,以及表5的遗漏估计值;二是用来计算表6进入第二重样本的每个样本普查小区的复制权数,以及表7的单重遗漏估计值和组合式遗漏估计值的抽样方差。

表4 等概率人口层的单元加权人数

表5 等概率人口层及总体的遗漏估计值

表6 第二重样本普查小区复制权数

表7 基于抽样方差的变异系数估计值

表3中的y10v,y01v,y11v是在比对同一样本普查小区的普查人口名单和覆盖调查人口名单,以及将比对结果划分到男性层和女性层的结果。为提高匹配人口数y11v,比对范围至少应该扩大到样本普查小区的邻近小区。由于没有获得邻近普查小区的这两份人口名单,比对只在样本普查小区内进行,y11v可能偏低。

2.估计结果

根据式(9)和表2～3样本数据,计算式(8)等号右边每个单元的加权人口数,计算结果见表4:

依据式(8)和表4计算男性层和女性层及总体的普查遗漏人口数,计算结果见表5:

从表5可以看出:(1)存在双重遗漏人口。这便是提出组合式遗漏估计量的原因,双重遗漏人口大多在普查和覆盖调查期间外出经商或旅游,或者故意躲避调查员。(2)如果采取组合式遗漏估计量,估计的总体遗漏人口数为173人;如果采取单重遗漏估计量,估计的总体遗漏人口数为170人。可见,单重遗漏估计量低估总体遗漏人口数3人。(3)无论是采取单重遗漏估计量还是组合式遗漏估计量,男性遗漏人口数均多于女性遗漏人口数,例如,如果采取组合式遗漏估计量,男性遗漏人口数为107人,而女性只有66人,可见,相比女性,男性更容易在普查中遗漏,这源于两方面的原因:一方面,男性外出经商、务工的人数多于女性,男性是流动人口的主要人群,普查员上门登记时,难以遇到他们,因此男性比女性更容易在普查中遗漏;另一方面,男性对人口普查的重视程度不及女性,认为人口普查与自身利益关系不大,因而不愿意抽出专门时间接受普查员调查,有意或无意躲避普查,造成遗漏,而女性比起男性更愿意接受调查。以上情况表明,在制定人口普查方案时,对男性应该给予足够的重视,采取有效措施防止男性普查遗漏。

计算遗漏估计值的抽样方差。使用表2和式(13)计算复制权数,结果见表6:

基于式(10)和式(15)以及表4～6数据,得到等概率人口层及总体的单重和组合式遗漏估计值的抽样方差等,结果见表7:

从表7可以看出,使用单重遗漏估计量估计的男性层、女性层及总体的变异系数分别为0.18、0.34、0.20;使用组合式遗漏估计量估计的变异系数分别为0.19、0.33、0.19。除男性层外,使用组合式遗漏估计量得到的女性和总体的遗漏人口数估计值的变异系数均小于相应的单重遗漏估计量,表明组合式遗漏估计量的估计精度高于单重遗漏估计量。因此,应该选择组合式遗漏估计量。

(二)模拟分析

为了进一步比较单重遗漏估计量和组合式遗漏估计量的抽样估计精度,对这两个有偏估计量,要考虑其偏差,不能只依据其抽样方差来判断其抽样估计精度,而要使用均方误差表示其抽样估计精度,采用模拟方法实现这个目标。根据前文理论中模拟分析的步骤,计算单重遗漏估计量和组合式遗漏估计量的偏差,讨论单重遗漏估计量和组合式遗漏估计量的无偏性问题。

由于单重漏登估计量及双重漏登估计量的偏差均不为零,需进一步计算其均方误差及变异系数。结果见表8。单重遗漏估计量男性层、女性层、总体的均方误差分别为546.03、579.63、1 629.7;组合式遗漏估计量男性层、女性层、总体的均方误差分别为496.89、551.81、1 456.82。单重遗漏估计量男性层、女性层、总体的变异系数分别为0.198、0.321、0.209;组合式遗漏估计量男性层、女性层、总体的变异系数分别为0.191、0.317、0.200。

表8 基于均方误差的变异系数估计值

表8表明三点重要信息,一是单重遗漏估计量及组合式遗漏估计量,其偏差均不为零,因而它们都是有偏估计量,应使用均方误差表示其抽样估计精度;二是无论是男性层、女性层以及总体,使用单重遗漏估计量的偏差均大于组合式遗漏估计量的偏差,例如,男性层使用单重遗漏估计量的偏差为13人,组合式遗漏估计量的偏差为10人,与其未包括双重遗漏估计量有直接关系,导致估计结果与真实值差距较大;三是基于均方误差计算的变异系数来看,单重遗漏估计量估计的男性层、女性层及总体的变异系数分别为0.198、0.321、0.209,而组合式遗漏估计量的变异系数分别为0.191、0.317、0.200,可见组合式遗漏估计量的变异系数均小于单重遗漏估计量,表明采用均方误差表示抽样估计精度,组合式遗漏估计量仍然优于单重遗漏估计量。

五、结语

虽然政府统计部门设法在人口普查中登记完全,但普查遗漏无法避免,当遗漏的人口数比重复登记的人口数多时,表现为净遗漏,当在普查中重复登记的人口数多于遗漏的人口数时,表现为净多报。遗漏是净遗漏的主要构成部分,由于重复登记可能抵消遗漏,所以遗漏比起净遗漏更能反映普查数据的质量。净遗漏为零,可能意味着没有一个人遗漏,也没有一个人重复登记,或者是遗漏和重复登记相互抵消,也就是说,从净遗漏中无法区分出遗漏和重复登记数量。政府统计部门组织人口普查质量评估工作的目标主要是通过估计的遗漏和重复登记数目来发现人口普查登记工作中的漏洞,从而更好地完成下次人口普查登记工作任务。

使用组合式遗漏估计量替代单重遗漏估计量有其必然性,然而,由于它需要对总体人口等概率分层,所以完成这种替代需要政府统计部门根据本国人口特点和覆盖调查样本规模设计相适应的分层方案,以减少其异质性偏差。

组合式遗漏估计量优势明显。首先,除了包括登记在覆盖调查而未登记在普查中的单重遗漏人口外,还包括同时遗漏于这两项调查的双重遗漏人口,因而估计值更接近真实值;其次,它不只能够查明单重遗漏人口的特征、居住位置及其遗漏程度,还能查明双重遗漏人口的这些情况,这对未来普查操作方案的改进具有重要意义。单重遗漏人口信息登记在覆盖调查表,检查该调查表可以知悉其姓名、性别、年龄、受教育程度、与户主关系、普查时点居住地、覆盖调查时点居住地、户籍所在地。通过研究区域内的负责人组织的入户调查等手段可以查找到双重遗漏人口,并获悉其人口统计特征变量值和居住位置变量值。

组合式遗漏估计量由单重遗漏估计量和覆盖调查与普查相互独立情况下的双重遗漏估计量组成。单重遗漏估计量构造的关键是这两项调查名单的比对质量。如果比对程序不合理,或者两项调查名单登记的人口信息不完整,就可能影响比对效果,错误地将匹配人口当作未匹配人口,或者将未匹配人口当作匹配人口,从而产生比对误差。双重遗漏估计量建立的前提是覆盖调查与普查独立,否则产生交互作用偏差。交互作用偏差源于普查与覆盖调查之间的因果相关性以及等概率人口层中的人口在普查与覆盖调查中登记概率的异质性。因此,在使用组合式遗漏估计量之前,要考虑到比对误差和交互作用偏差是否存在,如果存在,则要采取恰当方法将其列入,否则将低估或高估总体普查遗漏人口数。