人口名录库及其在人口普查中的应用
2018-10-16沈文静
孟 杰,沈文静
(天津财经大学 中国经济统计研究中心,天津 300222)
一、引言
人口普查是获取人口统计数据的主要方式,事关国家经济、社会和人口政策的制定和社会公共服务管理。然而,无回答问题和调查成本攀升是当前人口普查工作的难点。对此问题的可行解决路径是在人口普查工作中积极使用行政记录。这不仅是中国国家统计局“十三五时期”统计发展改革的重要内容,也是当前世界各国人口普查理论研究和实践工作的主流趋势。解析部分发达国家的可复制经验发现,积极使用行政记录进行人口普查的关键在于:整合不同来源的行政记录,构造一套覆盖人口普查总体范围广、涵盖人口普查内容多的“超级人口行政记录”,也可称为人口名录库。它在人口普查中可以发挥巨大作用,如估计人口总数、处理无回答、完善住户地址信息,等等。
纵观国外人口名录库的发展现状,美国、加拿大和北欧国家在人口名录库的构造与应用方面已基本形成了成熟的理论和方法体系。美国人口普查历史悠久,多年以来,美国普查局对人口名录库进行了反复论证和试验。1991年美国国会通过立法要求人口普查中更多地使用行政记录,在确保普查准确性的同时降低调查成本[1]。于是,美国普查局在2000年人口普查和2010年人口普查中分别构建了美国人口名录库StARS1999[2]和StARS2009[3]25-48(Statistical Administration Records System),并将其应用于普查住户地址信息更新、无回答再调查、重复人口识别、人口普查质量评估、与其它社会经济调查的衔接等诸多方面。2010年至今,美国普查局正在积极总结过往经验并开展更有针对性的试点应用[4],以期在2020年人口普查中更大程度地使用人口名录库以控制不断攀升的人口普查成本[5]。加拿大统计局对人口名录库的应用主要集中于人口普查质量评估工作,现已形成了以住房分类调查、逆记录检查和普查重复记录研究为主的人口普查质量评估体系[6]51-81。其中,住房分类调查利用人口名录库中的地址信息识别住房是否有人居住;逆记录检查以人口名录库为基准,先从人口名录库合理抽取样本,再将样本与普查数据对比,估计本次普查的漏报人口[7];普查重复记录研究用于估计人口普查中的重复人口,即若人口名录库中的某个人对应于人口普查名单中的多个人,就称其为普查重复登记人口。以丹麦和瑞典为代表的北欧国家也早已构建了适合各自国家特点的人口名录库。这些国家主要利用人口名录库开展行政记录式人口普查,代替了传统形式的人口普查。对于北欧国家的成功经验,联合国欧洲经济委员会(United Nations Economic Commission for Europe)出版了专著《Register-Based Statistics in the Nordic Countries》[8]5-25,着重介绍了这些国家如何利用行政记录服务于政府统计工作。
与这些国家相比,中国也高度重视在人口普查中开发和利用行政记录。国家统计局“十三五”时期统计改革发展规划纲要中提出“要构建以重大国情国力普查、部门行政登记资料和各项统计调查资料为基础,及时维护更新名录信息的机制。”[注]“十三五”时期统计改革发展规划纲要:http://tjj.xjbt.gov.cn/c/2017-02-21/3528294.shtml。目前,以公安部、人力资源和社会保障部、卫生部和教育部为代表的很多政府行政机构已积累了大量行政记录,这为构建人口名录库提供了数据基础。不过,国内关于人口名录库的相关研究仍处于起步阶段,现有研究的贡献体现在三方面:一是将名录库方法引入中国,为实务部门和学者开展该领域研究奠定了基础[9];二是归纳了部分欧洲国家采用行政记录式人口普查或以行政记录为辅的人口普查工作经验[10];三是研究了整合多源行政记录的技术方法及其在单位名录库更新中的应用[11-12],这对人口名录库的构建具有较大的参考价值。然而,这些研究尚未深入探讨人口名录库的普适性构造过程,以及如何具体地在人口普查中应用人口名录库。为了进一步满足中国统计部门的需求,有必要进一步研究中国人口名录库的构造与应用,使之高效服务于中国人口统计工作。
基于此,本文的研究目标定位于解析人口名录库的构造过程,探究在中国人口普查中应用人口名录库的思路与方法。研究意义包括三方面:一是有助于统计实务工作者构建和应用接轨世界先进水平的中国人口名录库;二是为2020年人口普查的筹备工作、普查方案设计提供有价值的参考,以期在保证普查质量的前提下降低调查成本;三是对构建和应用人口名录库中若干技术方法的研究有助于提升中国在人口普查领域的基础理论研究水平。
二、人口名录库的构造
根据美国、加拿大和北欧国家构造人口名录库的经验,人口名录库的普适性构造过程包含三个环节,分别是合理地选择行政记录、对行政记录进行统计化编辑、整合多源行政记录。
(一)行政记录源的选择
构造人口名录库需要选择多套不同来源的行政记录,以保证对人口总体具有较高覆盖度。这是因为很少有国家能拥有一套覆盖全部人口普查目标总体的行政记录。譬如,美国普查局构造的人口名录库是基于国税局个人文件、国税局信息申报文件、医疗保险记录、社会保障总署记录、住房和城市发展部租户租赁记录、义务兵役制登记文件、土著居民服务登记文件等七套不同来源的行政记录。
概括来看,行政记录的选择需要注意三个方面。第一,不同行政记录文件对人口普查目标总体的覆盖应更有侧重、相辅相成。例如,中国公安部户籍人口资料对普查人口总体的覆盖度很高;教育部新生入学资料有助于提高低龄人口的覆盖度;医疗保险行政记录对老年人口的覆盖度较高;卫生部门行政记录能够涵盖新生儿和死亡人口信息,等等。第二,行政记录的统计时点与人口普查时点不一致,导致人口名录库覆盖的人口总体与人口普查目标总体不同,有必要对其进行调整。一方面可以通过顶层设计尽可能保证数据收集时点与普查时点保持一致,另一方面尝试利用统计模型估计普查标准时点的人口总数[13]。第三,尽可能选择国家层级的行政记录。虽然国家内各地区的行政记录可能对各地区的人口覆盖度较高,但其在格式、内容和统计口径的差异可能很大,这增加了行政记录统计化编辑和整合的难度与复杂度。
(二)行政记录的统计化编辑
行政记录统计化编辑就是将不同格式的行政记录进行标准化的编码处理,以便于后续的计算机和人工处理。其主要包含两个环节。首先,对每一条行政记录赋予唯一的识别码。其作用在于当发现某条行政记录有信息错误时,可通过识别码定位行政记录的来源并进行修正。其次,由于个人信息和地址信息在格式上存在较大差异,因而需要对它们分别独立地进行统计化编辑。对个人信息的统计化编辑内容包括对登记者的性别和出生日期等人口统计特征进行编码;对地址信息的统计化编辑内容主要是对省、市、区、县和街道等行政区划进行编码。
(三)多源行政记录的整合
整合多源行政记录是构建人口名录库的核心,即从不同来源的行政记录中识别同一个人的全部记录,并将重复记录剔除。这里使用的技术方法是Fellegi和Sunter提出的记录链接模型[14-15]。假设需要整合的两个行政记录源文件为D1和D2,记其中的行政记录分别为d1(d1∈D1)和d2(d2∈D2),目标是从D1和D2中识别出个人记录相互匹配的集合M和不匹配的集合NM。通常,每条记录中包含证件号码、姓名、地址、性别、出生日期等信息,将这些信息视为识别变量(其中尤为重要的识别变量是证件号码和姓名,用于判断登记对象是否是一个真实存在的人,以及能否与其他记录进行比较)。两个源文件中的每一条记录都要在全部识别变量上逐一比较,即定义
γ(d1,d2)={γ(d1,d2)1,γ(d1,d2)2,…,
γ(d1,d2)s}
(1)
其中,向量γ(d1,d2)中的每一个元素γ(d1,d2)i=1(i=1,2,…,s),表示在第i个识别变量上取值匹配,γ(d1,d2)i=0(i=1,2,…,s)表示在第i个识别变量上取值不匹配。若向量γ(d1,d2)中的大部分元素取值为1时,可视为两条记录可能匹配;反之,若γ(d1,d2)中的大部分元素取值为0时,说明两条记录可能不匹配。更一般的,定义R为匹配度
(2)
匹配度R反映了d1,d2来自同一个人的记录时γ(d1,d2)的概率与d1,d2不是来自同一个人的记录时γ(d1,d2)的概率的比值。通常,依据经验信息确定阈值U和L。若R≥U,则认为这些记录是匹配的;若R≤L,则认为这些记录是不匹配的;若L 多源行政记录整合过程中的一个难点是,尽管通过记录链接模型能识别出同一个人的记录,但仍可能出现大部分变量取值匹配而个别变量取值不匹配的情形,因而需要采用合理的方法处理这些取值不一致的变量,给出这个人该变量上最“真实”的取值。例如,源自不同文件的两条记录因证件号码、姓名等信息一致而被识别为同一个人,但这两条记录中的死亡日期不同。对此,美国普查局的解决方法是为性别、种族、出生年月、死亡日期等人口统计特征变量分别建立合理的、可靠的选择规则(Selection Rule)。以种族信息的选择规则为例,当同一个人的两条行政记录的种族不一致时:若美国土著居民服务文件记录中包含了这个人的记录,则判定他的种族信息为美国土著或阿拉斯加土著;否则,选择包含这个人的所有行政记录中出现频率最高的种族作为这个人的种族信息;当不同的种族登记信息出现频率相同时,依据社会保障总署文件中登记的种族信息作为最终决策。 以上是对人口名录库的一般性构造过程及其技术细节的介绍,图1给出了基本流程图。最终形成的人口名录库涵盖人口普查目标总体中每个个体的证件号码、姓名、性别、出生日期和死亡信息等人口统计特征以及家庭住址等信息。 人口名录库涵盖了人口普查登记中的绝大部分内容,可以在人口普查工作中发挥巨大作用。基于国外人口名录库的应用经验,结合中国人口特点,本文探索性地研究人口名录库应用于人口总数估计、无回答插补和普查住户地址信息完善的思路和方法。 由于人口移动、无回答、调查成本约束等各种原因影响,人口普查提供的人口总数不可避免地偏离真实人口总数。构造一个适当的估计量估计普查年人口总数,是判断人口普查数据能否使用以及在多大程度上使用的关键。 基于捕获-再捕获模型的双系统估计量是现今中国、美国和英国等绝大多数国家或地区估计普查年人口总数的主流方法[16]。这里的双系统通常指人口普查及人口普查事后质量评估调查(以下简称事后质量评估调查)。然而,当这两套人口登记名单存在相关性时会引起交互作用偏差,导致双系统估计量偏离真实人口总数。为了解决这一难题,目前人口总数估计领域的前沿方法是,在双系统的基础上引入人口名录库系统,构建以捕获-再捕获-再捕获模型为理论基础的三系统估计量。与双系统估计量相比,三系统估计量允许三个系统存在相关性的前提下,建立与这种相关关系对应的模型得到更准确的人口总数估计[17]。基于此,本文提出利用人口名录库、人口普查和事后质量评估调查这三个人口登记系统构造中国普查年人口总数的三系统估计量的方法。新方法可应用于2020年人口普查中人口总数的估计以及未来非普查年人口总数估计。 将人口普查(C)、事后质量评估调查(P)和人口名录库(A)视为对全国人口计数的三个系统。根据个人是否分别在这三个系统中被登记(登记记为1,未登记记为0),将总体中的个人划分到三维列联表的八个组格中,再以xijk表示八个组格的人口总数,如表1所示。例如,x111表示同时被三个系统登记的人口数,x000表示同时未被三个系统登记的人口数,在三维列联表中这是不可观测的组格。记x为三次登记中实际可观测到的人口数 x=x100+x010+x001+x110+x101+x011+x111 (3) 则真实人口总数估计量为 (4) 表1 三系统估计量的三维列联表 基于表1给出的三维列联表构建真实人口总数的三系统估计量需要利用对数线性模型。依据三个系统之间的统计相关关系,设定与这种统计相关关系对应的对数线性模型形式,进而以此估计不可观测单元格x000的人数,再带入式(4)得到真实人口总数估计。人口普查、事后质量评估调查和人口名录库三个系统之间的统计相关关系主要包括五种情况,分别是:①三个系统相互独立;②存在一对相关关系;③存在两对相关关系;④各系统之间均存在相关关系;⑤三个系统之间存在三维交互作用。其中,关系①在实践中很难满足,因而本文暂不考虑这种情况。另外,由于模型参数不能超过可观测的单元格个数,加之x000不可观测,因而需要假定关系⑤不成立,即三个系统之间不存在三维交互作用。 考虑最复杂情况关系④,以μijk表示单元格xijk的理论期望频数。建立对数线性模型为: (5) (6) (7) 表2给出了三个系统之间不同相关性情况下对数线性模型形式、未观测人口数估计量及其方差估计的表达式。实践中的另一个重点是对数线性模型形式的选择。这里的模型选择方法是:若能事先确定三个系统之间真实的统计相关关系,则可以直接建立与之对应的对数线性模型;若事先不能确定三个系统之间的统计相关关系,就利用似然比统计量或卡方统计量选择最优模型。似然比统计量和卡方统计量分别为 (8) (9) 表2 三个系统不同统计相关关系的人口总数三系统估计量及其方差估计 构造普查年人口总数的三系统估计量还需要满足若干前提条件以确保估计量的精度[18]。第一,三个系统的登记人口必须是对目标人口总体的正确计数,必需先识别和剔除三个系统中的错误登记人口。三个系统的人口登记名单进行匹配时,若姓名和人口统计特征信息有90%以上相互匹配可认为是匹配人口。第二,总体中的个人在三个系统中应具有相同的被登记概率(不同系统之间的登记概率可以存在差异)。然而,受年龄、性别、受教育程度等因素的影响,同一系统中的个人很难保证具有相同的登记概率。因此,需要先对总体中的个人进行分层,使同一层中的个人具有大致相同的登记概率。第三,三次人口登记必须面对相同的人口总体。但由于三次人口登记的时点不同,不可避免地存在人口移动。这就需要以人口普查时点作为标准时点,对另外两个系统追溯人口普查时点的登记人口数。第四,捕获-再捕获-再捕获模型中的三次捕获是对总体的全面捕获,因而三系统也应为对普查目标人口总体的全面登记。但事后质量评估调查是对人口总体的抽样登记,因而构造三系统估计量时要先利用抽样权数构造三维列联表中各组格的人口总数估计量。 人口普查工作中不可避免地会出现无回答。再调查(Non-Response Follow-Up)和插补(Item Imputation)是当前各国人口普查处理无回答的常用方法[19]。再调查是对无回答住户多次进行联系与访问,力争入户获取人口普查需要的信息。2010年美国人口普查会对无回答住户开展六次再调查,为此花费了巨额调查成本。插补法主要用于处理人口普查调查项目中的无回答。这里常采用热插补法对无回答的人口统计特征项目进行填补。 利用人口名录库可以更高效地辅助再调查和插补。首先,充分利用人口名录库的地址信息,识别哪些无回答住户的住址信息是商用地址或闲置住房,并将其从再调查对象中剔除,大幅降低再调查次数以降低调查成本。其次,如前文所述,人口名录库中的人口统计特征信息建立在可靠的选择规则基础之上,当人口普查项目存在无回答时,若这个人在人口名录库中被登记,可以直接利用人口名录库中登记的内容填补这个人在人口普查中的无回答项目,其可靠性优于热插补法。 人口普查工作的开展依赖于准确可靠的普查住户地址信息,这不仅事关普查小区的划分,也能避免因地址信息遗漏而造成的人口漏报。例如,中国人口普查在摸底工作中将公安部户籍信息作为更新和完善地址信息的重要来源。 人口名录库中的地址信息是在降低调查成本的前提下,及时完善普查地址信息的重要途径。在实践应用中,将人口名录库中的地址信息与人口普查前建立的地址信息库进行逐一比较,可以发现人口普查地址信息库中未包含的住户地址、有较大差异的住户地址以及无效的住户地址。对这些住户地址进行实地调查逐一确认以完善人口普查地址信息库。 本文解析了人口名录库的构造过程,并探究了它在普查年人口总数估计、人口普查的无回答处理和住户地址信息完善等工作中的实践思路和应用方法。得到的结论如下: 第一,使用行政记录开展人口普查工作是世界各国人口普查工作的主流趋势,其中的关键是构造和应用人口名录库。2020年中国第七次人口普查即将进入筹备阶段,这也是深入建设中国人口名录库的重要契机。相关部门和学者需要提升该领域的理论研究水平,为构建和完善能服务于中国人口普查的、可操作性强的中国人口名录库提供有价值的参考。 第二,从国外人口名录库的经验看,构造人口名录库主要包括行政记录的选择、统计化编辑、整合等三个环节。对于行政记录的选择,本文提出的一个建设思路是:在2020年人口普查期间,以历次人口普查登记资料和公安部的人口基础信息库[注]国家人口基础信息库建设项目征求意见http://www.mps.gov.cn/n2254314/n2254475/n2254481/c5345838/content.html。[注]国家人口基础信息库已存储有效人口信息13.99亿http://mil.news.sina.com.cn/2017-11-21/doc-ifynwhww5762184.shtml。为主要数据源,辅之以国家卫计委的流动人口调查数据构建人口名录库;而在2020年人口普查后,由更高层级的行政部门成立相关部门做好顶层设计工作以整合不同部门的行政记录。例如,同时使用历次人口普查数据、公安部的人口基础信息库、人力资源和社会保障部的社会保障登记资料、卫生部各医院的出生和死亡登记信息、教育部学籍信息作为构建人口名录库的主要数据源,提高对普查目标人口总体的覆盖度。而对于行政记录的整合,本文也建议在2020年及以后的人口普查中将中国公民的身份证信息纳入到人口普查内容。一方面身份证信息中包含了居民的户籍、性别、出生年月等基础信息,另一方面它也可以作为整合行政记录过程中重要的识别变量以及信息不一致时建立选择规则的重要依据。 第三,人口名录库可用于人口总数估计、无回答处理和地址信息的完善等诸多人口普查工作领域,显著降低普查成本、提高调查时效性。其中,利用人口普查、普查事后质量调查和人口名录库构造全国或区域人口总数的三系统估计量是人口总数估计领域的国际前沿方法。为了保证三系统计量的精度,需要满足它的假设条件。其中的重点是如何对人口总体进行分层,使得在相同层内的人口具有大致相等的登记概率,以满足同质性假设。目前常用的人口分层方法是事后分层法和Logistic模型法,然而这些方法都存在不同程度的缺陷[20]。事后分层法的主要问题在于,当分层变量过多时会导致有些层中的样本量过少甚至没有,而无法构造三系统估计量;Logistic模型的不足是其构造过程过于复杂,目前尚未在任何国家的普查年人口总数估计中被使用。对此,本文建议尝试引入随机森林[21]、朴素贝叶斯和关联规则等机器学习方法,旨在给出对人口登记难易程度的概率测度或选择重要分层变量。 第四,人口普查的重要性不言而喻,尽管人口名录库可以在人口普查中起到重要辅助作用,但仍需要严格审慎地先对其进行试点应用,待时机成熟时再全面使用。例如,美国普查局于1990年人口普查之后开始构建人口名录库,在2000年人口普查和2010年人口普查中分别进行了试点应用,才计划在2020年人口普查中更大范围、更大程度地使用人口名录库。因而有必要先对人口名录库的构建和应用开展有针对性的试点应用,并从中总结经验。特别是,有必要分别在行政记录资料积累丰富的地区和行政记录资料匮乏的地区对人口名录库的应用进行试点,并对比检验其效果。三、人口名录库在人口普查中的应用
(一)基于人口名录库估计普查年人口总数
(二)利用人口名录库处理无回答
(三)基于人口名录库完善普查地址信息
四、结语