新西兰人口普查的事后计数调查
2011-12-14胡桂华陈新华
胡桂华,陈新华
(广西财经学院 数统系,广西 南宁 530003)
新西兰人口普查的事后计数调查
胡桂华,陈新华
(广西财经学院 数统系,广西 南宁 530003)
新西兰国家统计局进行人口普查事后计数调查的主要目的是估计人口普查涵盖误差,即普查中遗漏或错误计数人口数。事后计数调查样本采取差别比例方式抽取。对抽取的单位使用问卷采集家庭和个人信息。对收集的信息进行比较。利用比较结果和抽样权数,使用线性估计量对实际人口数目进行估计。估计的涵盖误差指标有普查净遗漏率、净遗漏人口数、不同性别、年龄、种族和地区的净遗漏率,以及普查住宅遗漏和普查无答复率。
新西兰;人口普查;事后计数调查;涵盖误差估计
0 引言
新西兰第一次人口普查(为叙述方便,后面一律称普查)是在1851年。从1886年起,每隔5年进行一次普查。2006年是最近的一次普查。
在1996年前,新西兰统计局只是使用事后计数调查结果来评估普查登记质量,而没有用它来估计普查覆盖范围。1996年,新西兰进行了它的第一次正式的事后计数调查。为避免普查员和事后计数调查员在现场相互干扰彼此的工作,这次事后计数调查在普查结束后才开始。2001年事后计数调查在普查后两个星期实施。2006年事后计数调查在普查后一个星期进行。
2006年事后计数调查为私人住宅抽样调查。其主要目标是提供普查覆盖范围完整性的信息,也就是说,估计有多少新西兰居民在普查中被遗漏或被计数超过1次。样本分三步抽取,最终抽取了1011个基本抽样单位,共约含10900个私人住宅(占新西兰所有永久性私人住宅总数的0.7%)。样本抽出后,使用问卷采集事后计数调查数据,答复率为84%。对收集的数据在同一样本单位内进行家庭或个人记录比较。比较的目的是确定事后计数调查的回答者是否计数在某个地址或某个可能地址的普查表中,即是否在普查中被遗漏。使用比较的数据来估计普查个人或私人住宅的覆盖范围。
相比美国、瑞士和乌克兰,新西兰事后计数调查的一个显著特点是没有使用基于捕获-再捕获模型的双系统估计量估计全国实际人口数,而是使用线性估计量估计。该估计量的斜率是普查中应该被计数的人口数的估计值与实际在普查中被计数人口数的估计值之比。这两个估计值均是依据样本人口数与抽样权数计算的。截距是整个家庭被估算的普查人口数。自变量是全国实际普查人口数。
1 抽样设计
1.1 抽样总体
2006年事后计数调查抽样总体由新西兰私人住宅的常住居民和事后计数调查期间停留在新西兰私人住宅里的个人组成。在事后计数调查期间居住在新西兰私人住宅的海外访问者和普查晚上在新西兰某个地方的人也被包括其中。抽样总体包括海外访问者的目的是为了确定普查和事后计数调查间他们究竟是新西兰国内居民还是海外访问者。由于实际的原因,非私人住宅、其他私人住宅和遥远地区的住宅被剔除抽样总体。与国际统计惯例一致,抽样总体不包括居住或停留在非私人住宅的人口、居住在其他私人住宅(庙宇、有篷的车辆、游艇)的人口、普查晚前死亡的人口、普查晚后出生的人口、海外的外交官、他们的家庭和与他们住在一起的人口和外围岛人口(外河科岛除外)。
1.2 抽样过程
新西兰区域抽样框由41392个街区组成(城市街区通常是一大片居民区,每个街区一般含40个住宅;乡村街区通常覆盖一个更为宽广的地区)。为便于抽样,将全国所有街区合并为20394个基本抽样单位。为提高抽样效率,将这些基本抽样单位分在119层。分层依据为地区、城乡、种族和其他社会-经济变量(收入、就业状态、65岁及以上人口)。每层平均含160个基本抽样单位。每个基本抽样单位平均含私人住宅60个。
在这119层,随机抽取1768个基本抽样单位。从这抽取的1768个基本抽样单位中抽取1011个基本抽样单位。抽取的方法是:从毛利人、太平洋岛屿人和亚洲人都很多的层中抽取100%的基本抽样单位;从或毛利人多或太平洋岛屿人多或亚洲人多的层中抽取5/8基本抽样单位;从其他的南岛屿层中抽取1/2的基本抽样单位;从其余的层中抽取3/8的基本抽样单位。
将1011个基本抽样单位中的每一个分为6-7个小组,每个小组包括大约10个私人住宅。这些小组均被抽取,它们共含10900个住宅。
2 采集数据
普查工作结束后,新西兰统计局组织事后计数调查。为了便于居民回忆普查日前后发生的事情,事后计数调查日应该尽可能靠近普查日。使用问卷采集抽取的基本抽样单位的每一个私人住宅及其中的人口。如果居民不在家,由其邻居代替回答。对无法调查的住宅或信息不完整的住宅,进行后续调查(电话方式)采集额外信息。2006年事后计数调查答复率为84%。这里的答复率定义为样本中至少有一人回答了所有事后计数调查问题的住宅数目占样本住宅总数目的比值。总共有24900人答复了事后计数调查。
事后计数调查问卷包括的调查项目有姓名、性别、出生日期或年龄、种族或民族及地址。除了常住地址和普查日晚上的地址外,事后计数调查也收集某人可能包括在其他地方普查表的地址信息。这有助于确定多个普查计数。
为了实现事后计数调查目标,采集数据要与普查独立。为了确保独立,事后计数调查应该做到:不使用普查工作人员;在普查大部分现场工作结束后再进行事后计数调查;使用事后计数调查员从住宅居住者采集信息,而普查通过个人填写普查表。
3 比较和搜索
比较的目的是确定事后计数调查回答者是否计数在某个或某些地址的普查表中。这通过比较事后计数调查回答者提供的信息与普查表上给出的信息来实现。如果普查表上给出的地址不同于事后计数调查表所有的地址,那就要设法在样本基本抽样单位的周围区域进行搜索,看事后计数调查表中是否存在与普查表中相同的那个地址。
比较采取手工方式,对比事后计数调查问卷与普查文件图像。首先是比较住宅,如果事后计数调查表中的住宅在普查表中无法找到,就认为该住宅在普查中被遗漏。住宅比较的结果有三种:匹配住宅(事后计数调查表和普查表同时出现的住宅);未匹配住宅和比较状态悬而未决住宅
对匹配的住宅,下一步是比较其中的个人。用于个人比较的变量包括姓名、出生日期或年龄、性别、民族、常住居民还是访问者、家庭结构和关系。个人比较后的结果也有三种:匹配者;未匹配者和比较状态悬而未决者。
在进行个人比较时,要注意变量的可变性。例如,一个妇女可能在普查和事后计数调查之间结婚,并且把她少女时的姓改为婚后随其丈夫的姓,因此她普查表中的姓就与她在事后计数调查问卷中的姓就不匹配,但所有其他的数据都是一样的(第一个名字、性别、出生日期和民族)。在这样的情况下,认为这个妇女为匹配者是合乎道理的。
个人比较的基本原则是,除非有明显的证据证实某人没有在普查中计数,否则应该把他们当做是计数在了普查中的某个地址上。为了确保未匹配者数目由于不精确的比较而被过分夸大,坚持这个基本原则是极其重要的。
4 估计
4.1 全国实际人口数目的估计模型
其中
X=使用PES抽样权数估计的全国实际人口数
x=使用PES抽样权数估计的应该在普查中被计数的人口数
y=使用PES抽样权数估计的实际普查人口数
Y=普查实际人口数
S=未返回普查表但有足够证据证实家庭实际存在的普查人口数
注意,并非所有回答了事后计数调查问题的人都有资格包括在估计模型中。没有资格的回答者的例子包括普查日晚上后出生的婴儿、海外的来访者、在普查中提供不足搜索地址信息的人。
人口普查净遗漏是使用PES抽样权数估计的全国实际人口数与实际普查人口数目的差异。
4.2 PES抽样权数
4.2.1 住宅设计权数(Design Weight,简称DW)。每一个抽取的住宅和这个住宅中的个人都有一个初始的基于住宅抽样概率的权数。第h层第i基本抽样单位第j住宅的抽样权数为
其中,Whi=第h层所有基本抽样单位私人住宅数目/从第h层抽取的基本抽样单位的私人住宅数目 (等概率抽样),Khij=第h层第i基本抽样单位私人住宅数目/从第h层第i基本抽样单位抽取的住宅数目(等概率抽样)。
4.2.2 修正住宅权数(Housing Weight,简称HW)。对住宅设计权数进行修正,目的是提高住宅遗漏估计值的精度。修正时要考虑到某种住宅更可能比其他住宅在事后计数调查中被遗漏。
基本抽样单位中每个住宅被事后计数调查遗漏的概率大小是不一样的,那么对住宅设计权数进行修正就是必要的。通过事后分层,把被事后计数调查遗漏概率相同的放在一层,其他的放在另一层。分别在每个事后层内计算住宅的抽样权数。第g事后层第h层第i基本抽样单位第j住宅修正权数为
其中,PFSg为第g事后层第j住宅修正因子,为第g事后层私人住宅数目/第g事后层所有事后计数调查私人住宅设计权数的和。
4.2.3 个人权数(Person Weight,简称PW)。个人最终权数用来提高个人遗漏估计值的精度,要考虑到某类人比其他类人更能够答复被事后计数调查。
同一家庭内部,不同年龄、性别、地区的人被事后计数调查遗漏的概率是不一样的,这就需要在住宅权数的基础上对不同人使用不同的抽样权数。第g事后层第h层第i基本抽样单位第j住宅第K人最终抽样权数为
其中,WAghijk为权数修正,按年龄、性别、地区、种族分别确定。
5 抽样误差和非抽样误差
依据事后计数调查得到的净遗漏容易受到抽样误差和非抽样误差的影响。由于事后计数调查只是包括了总体中的部分住宅样本,所以从其得到的估计值将不同于依据所有住宅得到的数字。抽样误差是反映依据事后计数调查得到的估计值由于只是包括了住宅样本而可能带来的随机变化。
由于样本量有限,所以提供总体中各个不同类别的净遗漏估计值只是一种可能。有些估计值有比较大的抽样误差,使用时要特别小心。一般地说,全国范围下的子总体(地区和民族)的估计值的抽样误差比全国估计值的抽样误差要大一些。
由于抽样可变性带来的不准确性是抽样误差独有的问题。事后计数调查中的非抽样误差源于各种不同的来源,例如,无答复、回答者报告信息的不完整性、数据收集和数据处理。非抽样误差的影响可以通过精心设计事后计数调查表格、训练和监督调查员,有效地操作来减少。当比较遗漏估计值时,要考虑到抽样误差和非抽样误差的规模。
事后计数调查与普查之间的独立性要求并不总是成立的(在普查中遗漏的人很可能在事后计数调查中遗漏),这导致非抽样误差。当一个在普查中被遗漏的人有更大可能性被事后计数调查遗漏时,就是独立性不满足的情形。
在2006年事后计数调查前,抽样误差是使用近似分析公式计算的。权数修正方法的变化,以及新西兰统计局计算抽样误差的标准化,导致2006年事后计数调查抽样误差将使用重复抽样技术来计算。本质上看,重复抽样是一个从事后计数调查样本抽取多个子样本的过程。依据这些子样本中的每一个计算遗漏估计值和根据子样本估计值的变化来计算所有样本的抽样方差。
6 估计结果
新西兰2006年事后计数调查除提供总的结果外,还分别提供了按年龄、性别、种族和地区分类的结果。
6.1 近两次事后计数调查结果比较
表1列示了新西兰2006年和2001年事后计数调查结果。
从表1可以看出,相比2001年普查,新西兰2006年普查净遗漏率下降了0.2%(=2.0%-2.2%)。这表明新西兰公众参与普查的积极性提高了,自觉支持普查局的工作。2006年普查净遗漏81000人是遗漏的192000人被多计的11000人抵消的结果。净遗漏率2.0%是遗漏率2.2%与多计率0.2%的差。2001年普查净遗漏85000人,净遗漏率为2.2%。
2006年普查人口数为4030千人,但事后计数调查估计的普查标准时点的人口数为4111千人(4030+81)。
2006年事后计数调查提供的普查净遗漏率为2%的抽样绝对误差率为0.4%,因此有95.45%的概率保证总体净遗漏率在1.6%到2.4%之间。注意,这里没有考虑非抽样误差。2001年抽样绝对误差率为0.3%,真实净遗漏率在1.9%到2.5%之间。从全国范围来看,2006和2001净遗漏率没有显著性差异。
6.2 普查中的无答复
在普查中,有些家庭或个人遗漏,没有回答普查提出的问题。也有些家庭没有返回普查表,但有证据显示这些家庭是实际存在的。普查局为这样的家庭设计了专门的普查表,即替换普查表。
普查数应该包括遗漏的家庭及其个人和替换普查表。新西兰2006,2001,1996年普查无答复率分别是5.2%,5.0%和4.4%。2006年净遗漏比2001年稍微下降,原因之一是被替换普查表抵消的结果。
6.3 普查遗漏的国际比较
由于普查数据具有重大意义,所以许多国家通过事后计数调查估计他们国家人口普查的覆盖范围。澳大利亚、美国、加拿大和英国使用事后计数调查评估普查质量。
新西兰、加拿大、澳大利亚、英格兰和威尔士2001年普查净遗漏率分别为2.2%、3%、1.8%和6.1%。这些国家在年龄、性别、少数民族等净遗漏率也存在差异。
值得注意的是,国际比较应该谨慎,因为样本量、计数方法和惯例、抽样和非抽样误差等都有不同。
6.4 普查个人净遗漏率差异
在新西兰,不同年龄、不同性别、不同民族和不同地区的净遗漏率差异是明显的。有些子总体比其他子总体在普查中更容易被遗漏。
6.4.1 性别个人净遗漏率差异
2006年新西兰普查男性和女性的净遗漏率分别是2.1%和1.8%。在2001年普查中,男性和女性的净遗漏率分别是2.6%和1.9%。如果给定抽样绝对误差,那么2006年男性净遗漏率的范围在1.6%到2.6%,女性净遗漏率的范围在1.2%到2.4%。
其他国家的研究也表明,男性比女性更容易在普查中遗漏。例如,2001年澳大利亚,男性和女性净遗漏率分别是2.2%和1.4%。加拿大2001年普查男性和女性净遗漏率分别是4%和2%。
6.4.2 年龄个人净遗漏率差异
如果样本总量小,人口统计分析专家在按年龄和其他人口统计特征分析事后计数调查结果时就会很困难,因为抽样误差很大。为了分析,年龄数据不得不整合为四类:0-14岁;15-29岁;30-44岁;45岁及以上。
表1 新西兰两次事后计数调查结果
不同年龄的遗漏率差异比不同性别的遗漏率差异更显著。根据2001年经验,新西兰年轻成年人(15-29岁)属于流动人口,有很大的被普查遗漏风险,被确定为2006年普查计数的重点年龄组。年轻成年人的抽样误差最大,为1.6%,其他年龄组的抽样误差只有0.5%-0.6%。15-29岁年龄组真实净遗漏率区间为2.5%到5.7%。2006年0-14岁组的净遗漏率为1.6%,明显低于2001年的2.7%。2006年30-44岁组和45岁上组净遗漏率比较低,分别为1.3%和1.4%。
6.4.3 民族(种族)个人净遗漏率差异
不同民族的普查遗漏是有很大差异的,尤其是少数民族,被计数的情况比较差。在澳大利亚2001年事后计数调查中,本土澳大利亚人比非本土澳大利亚人的净遗漏率大。在2000年美国,全国净遗漏率0.5%,但黑人30-49岁男性净遗漏率超过了8%。
在新西兰,2001年事后计数调查发现,毛利人和太平洋岛屿人比少数民族欧洲人净遗漏率高,分别是4.4%,5.2%,1.7%。因此,新西兰2006普查要设法找到毛利人、太平洋岛屿人、少数民族和年轻人群,更主要是关注奥克兰地区,因为这个地区集中了这些难以计数的民族或种族。在毛利人和太平洋岛屿人群,组织定期联络,说服年轻人参加普查,是解决这类人群难以普查计数的好办法。
欧洲少数民族、毛利人和太平洋岛屿人,2006年净遗漏率明显减少。亚裔人2006年比2001年净遗漏率最高,达5.2%,随后是毛利人的3.1%和太平洋岛人的2.3%。欧洲人占整个新西兰人口的2/3,其2006年普查净遗漏率是最低的,为1.4%。
2006年亚裔人净遗漏率估计值的抽样误差最大,为3.2%,净遗漏区间为1.8%-8.6%。欧洲人抽样误差为0.4%,净遗漏率区间为1%-1.8%。
民族净遗漏率差异部分源于这些组之间年龄结构的差异。毛利人、太平洋岛屿人和亚裔人有更多的年轻人口。30岁下的亚裔人集中在15-29岁组,占整个亚裔人口的1/3。
6.4.4 空间个人净遗漏率差异
除了年龄和民族外,住处所在的地区也是影响普查范围的一个决定性因素。海外研究表明,地区之间和同一地区不同地方之间的净遗漏率差异是很明显的。澳大利亚2001年各州净遗漏率在1%和4%之间;而同一州内,首都地区比非首都地区的计数好很多。
2006年普查北方的北方岛(由奥克兰、北部地带、外卡多、帕冷提海湾组成)的净遗漏率超过了所有新西兰居民净遗漏率的一半以上,为2.4%,超过了全国的2%。南方的北部岛的净遗漏率只有1.3%。2001年普查北方的北方岛和南方的北部岛的净遗漏率分别是2.7%和2.2%。南方岛是唯一的2006年比2001年普查净遗漏率有所增加的地区,分别是1.8%和1.3%。北方的北方岛净遗漏率高的原因是这个群体的年龄和种族结构的差异。一半以上的毛利人和3/4的亚裔人和太平洋岛人居住在这里,而欧洲人居住在这里的少于一半。北方的北方岛年龄在30岁下的人口数比例也比较高。
6.5 普查住宅遗漏
新西兰2006年、2001年和1996年遗漏的永久性私人住宅分别是6300个,2400个,6000个;净遗漏率分别为0.4%,0.2%和0.5%。2006年永久性私人住宅的抽样误差是0.2%,私人住宅净遗漏率置信区间为0.2%到0.6%。
7 结论
与2001年相比较,新西兰2006年普查净遗漏率由2.2%降低为2.0%,净遗漏人口数由85000人减为81000人。总体实际净遗漏率2006年和2001年区间分别为1.6%-2.4%和1.9%-2.5%。
由于新西兰统计局进行了其他的家庭调查。这使得普通公众不那么愿意参加普查并提供信息,这增加了普查计数的困难。表现在遗漏和多计人口、建立了普查替换表和逾期普查表。2001年和2006年难以计数的普查表分别占7.2%和9.3%。1996,2001和2006年普查无答复率分别是4.4%,5.0%,5.2%。
1996,2001和2006子总体估计的净遗漏率是一致的。女性比男性计数好。老年比青年计数好。少数民族欧洲人比亚裔人、毛利人和太平洋岛人计数好。
事后计数调查是检查普查结果和过程的一种方法。2001年事后计数调查结果用来制订2006年事后计数调查计划,同样2006年结果用来帮助新西兰统计局制订2011年普查新方法。需要继续改进年轻人和少数民族人口的普查计数方法,这两类人口比其他人口增长的速度快许多。
[1]Dtz New Zealand.Census 2006 and Housing in New Zealand[R].Centre for Housing Research,Aotearoa New Zealand and Building Research,2007,8.
[2]Statistics Canada.Coverage:1991 Census Technocial Reports Series[R].Minister of Industry,Science and Technology,1994.
[3]Statistics Canada.Coverage:1996 Census Technocial Reports Series[R].Minister of Industry,Science and Technology,1999.
[4]Statistics Canada.Coverage:2001 Census Technocial Reports Series[R].Minister of Industry,Science and Technology,2004.
[5]Statistics New Newland.A Report on the 1996 Post-Enumeration Survey[R].Statistics New Newland,1998.
[6]Statistics New Newland.A Report on the 2001 Post-Enumeration Survey[R].Statistics New Newland,2002.
[7]Statistics New Newland.A Report on the 2006 Post-Enumeration Survey[R].Statistics New Newland,2007.
[8]Statistics South Africa.Census 2001 Post-Enumeration Survey:Results and Methods[R].Statistics South Africa,2004.
[9]StatisticsSouth Africa.The PeopleofSouth AfricaPopulation Census,1996:the Count and how it was done[Z].Statistics South Africa,Private Bag X44,Pretoria 0001,South Africa,1996.
[10]The Republic of Gambia.Population and Housing Census,1993:Report on Post Enumeration Survey[R].Central Statistics Department,Ministry of Finance and Economic Affairs,Banjul,Gambia,1994.
C921.3
A
1002-6487(2011)11-0158-04
国家社会科学基金资助项目(10XTJ003);全国统计科学重大项目(2009LD003);广西自然科学基金资助项目(2010JJA10018,2010GXNSFA013107);广西人文社会科学发展研究中心科学研究工程2010年度开放基金资助项目(KF2010021);广西教育厅科研资助项目(201012MS110)
胡桂华(1963-),男,湖北武汉人,博士,教授,研究方向:统计调查与数据处理。
陈新华(1964-),男,广西梧州人,硕士,副教授,研究方向:统计调查与数据处理。
(责任编辑/亦 民)