人口学方法的传承与演变
——兼论中国人口学学科发展
2020-07-30宋健
宋 健
(中国人民大学 人口与发展研究中心, 北京 100872)
一、引言
人口学是以方法见长的学科,方法发展史一定程度上折射了学科发展史。人口学方法的传承遵循两条脉络。一条可追溯至1662年格兰特(Graunt)发表第一部人口学著作《关于死亡表的自然的和政治的观察》时所采用的主要方法。这条脉络沿着纯人口学(pure demography)或规范人口学(formal demography)的路径,从死亡现象出发,聚焦人口系统内部各要素之间的关系,使用特定的人口学概念、测量指标与人口统计学方法进行人口分析(demographic analysis)。另一条源自1798年马尔萨斯(Malthus)经典著作《人口原理》发表后开拓的路径,通过人口呈几何级数增长而粮食呈算术级数增长的不均衡表现及结果,激起了学界对人口过剩问题的争论,揭示了人口与经济之间的关系。这条脉络注重人口系统内部各要素及其变迁与社会、经济等人口系统外部各要素之间的关系及互动机制,吸引了来自不同专业领域的学者用各自的学科视角与方法进行人口研究(population studies)。
人口分析与人口研究也被认为是广义人口学所包含的两个方面[1]。其中人口分析的历史更为悠久,方法经典且面对新问题正不断深耕并寻找突破点;人口研究的领域更为广阔,方法集采众家之长、颇具海纳百川之气势。两个方面并行不悖,使人口学方法呈现出经典与现代、内敛与开放共存的特点。
中国的人口学学科发展起步相对较晚,但起点不低,一直比肩世界人口学前沿;加之中国丰富多彩的人口现象和独具特色的人口问题,为人口学发展提供了充足的动力。进入21世纪,中国的人口形势发生了重大转折性变化,如何透过现象深入本质,如何着眼当下展望未来?“事必有法,然后可成”,有效的方法是破解迷局、打破迷思的必备工具,为此对既有方法进行梳理和总结具有十分重要的意义。本文将以人口学方法传承的两条脉络为基础,分别从人口分析和人口研究两个方面,关注人口学方法的应用现状及其应对人口形势需求而发生的演变,并以此透视中国人口学学科的发展。
二、聚焦人口发展的内在规律,人口分析方法独特且具有强大生命力
人口分析是人口学的核心内容之一。基于人口数据,构建比、率等指标;关注人口规模、分布、结构及其变迁,以及死亡、生育等人口事件在不同规模和结构人群间的表现与差异;探索人口发展的内在规律,预判人口发展趋势,为制定相关政策提供依据和参考,是人口分析的主要特点。
从学科发展来看,早在公元前2000多年一些文明古国就开展了人口统计实践活动,但多仅限于人口数量和人口基本特征(如年龄、职业、健康状况、户籍身份等)的调查与登记,服务于国家财富掌握及征兵、赋役等国家管理事务,罕有人对这些数据进行系统分析。1662年格兰特基于英国几十年的人口统计资料进行潜心研究,发现了出生婴儿性别比、死亡年龄模式、城乡死亡率差异等人口结构和分布特点,编制了人类历史上第一张反映人口生存和死亡规律的死亡表(death table),并根据出生和死亡资料推算出人口总数,奠定了人口统计学的基础,也提供了人口分析的基本思路与框架。
1.数据可得性及其质量是人口分析方法有效发挥作用的基础
人口分析离不开人口数据,其中最基本的是分性别、年龄别人口数,以及各类人口事件特别是死亡和生育事件的发生与分布,因此数据的可得性及数据质量就成为人口分析方法能否有效发挥作用的关键因素。
目前大多数国家的人口数据主要来自人口普查、抽样调查和人口登记系统;普查和抽样调查一般获得反映人口现状的静态数据,动态连续的人口事件发生数往往需要依靠登记系统获得。不同的数据来源所对应的人口分析指标和方法有所不同:静态数据一般用于构建比和比例指标,揭示人口现状与结构;动态数据一般用于构建率指标,与时期长度相结合,计算人口事件的发生强度和水平。开展人口分析的权威数据首先来自普查。中国的1982年全国人口普查不仅第一次采用了电子计算机技术进行数据的储存和处理,还首次邀请了国际专家共同研讨数据的开发与使用。此后,每一次人口普查前后,关于普查技术的改善建议和数据质量的评估分析都会集中涌现,使中国人口普查内容不断丰富、技术不断提升。1990年普查首次增加了迁移流动相关项目;2000年普查首次采用了长短表相结合和光电录入技术,并增加了住房相关项目;2010年普查首次增加了针对港澳台和外籍人员的短表。学者们根据国家统计局公布的汇总表数据和提供的普查抽样数据,对普查时点的人口状况、普查期间的人口变化等进行多角度分析。随着抽样调查技术的推广,全国性和区域性人口专项抽样调查层出不穷,推动着人口分析更加深入。
利用多来源数据和间接估计技术评估数据质量、推算和检验重要的人口指标,是人口分析的重点内容之一。数据质量的评估有多种技术手段,常用的包括队列存活逆推法、间接估计技术、数据内部一致性检验或多来源数据外部验证等。年龄和性别数据的质量对人口数据整体质量具有举足轻重的作用,对年龄和性别结构进行准确性检验有一系列较为成熟的指标和方法(如惠普尔指数、迈耶尔指数等),其共同特点是先构建一个年龄均匀变化的人口,以这样的年龄结构为标准,比较现实人口与标准人口的年龄结构,以两者离差的大小为尺度,判别现实人口的年龄数据是否准确;对质量不高的数据,指出在哪些年龄尾数上存在堆积或回避。由于现实人口年龄结构可能并非均匀变化,有中国学者提出了基于概率判断基础上的、利用人口函数的年龄变动符号分布的检验方法[2],更适合处于变迁中的人口的年龄性别结构检验。
需要指出的是,数据收集手段相对落后、开放度不够和对不同来源数据缺乏有效整合是中国学者对一些基本人口状况(如生育水平、流动人口规模等)存在认识分歧的主要原因,也是学者们进行深入人口分析的制约性因素。2010年第六次人口普查时我国采用的仍是传统的入户问卷调查法,给应答率和准确率造成挑战;一些发达国家已开始尝试用来自不同行政记录来源的信息替代传统的人口普查[3]。中国是最早建立户口登记制度的国家,但迄今为止各类人口登记数据的公布和使用仍是有限的,不同行政部门的数据在统计口径、收集方式和最终结果上有时存在不一致的问题。以全面两孩政策实施后引人注目的2017年出生人口数为例,国家统计局(1)见人民政协网:国家统计局.2017年我国出生人口1723万人,http://www.rmzxb.com.cn/c/2018-01-19/1936146.shtml?n2m=1和原国家卫生和计划生育委员会(2)见搜狐-财经网:2017年全国住院分娩活产数为1758万 其中二孩占比为51%,http://www.sohu.com/a/235609499_313745分别公布的数据就存在不一致,其原因是数据收集方式不同:统计部门数据利用年度人口抽样调查推算得到,原国家卫生和计划生育委员会数据则来自住院分娩活产登记系统,结果的差异在一定程度上造成了公众的困扰。
数据收集方式和数据性质的改进有助于激发人口分析的新思路和开拓人口分析的新领域。如随着追踪数据越来越普遍,一些新的分析方法(如事件史分析、序列分析及将二者结合的序列分析多状态模型等[4])应运而生,使以往截面数据不能满足的生命历程和轨迹研究(life course and trajectories study)得以发展,因为长时期的追踪数据可以提供长时期的丰富的个人信息,能够捕捉人口事件发生的次数、顺序、时长和类别,使更细致、更深入的分析得以实现。如在最近的一项研究中,有学者基于追踪数据,综合使用序列分析(sequence analysis)、聚类技术(data-driven clustering techniques)和多变量回归模型(multivariate regression models),探讨女性生命历程中生育期望的变化对其终身不育的影响[5]。以往缺乏相关数据的情况下,学者们从事这类研究是心有余而力不足的。
改进调查技术、提升数据质量、增加数据开放性以及系统整合不同来源数据,已成为当前人口信息化平台建设的主要任务,这也是推进中国人口学发展的重要的基础性工作。
2.经典的分析方法技术使人口学独树一帜
生命表技术、假定队列分析方法、人口预测技术,以及标准化和因素分解技术是经典的人口分析方法技术,这些方法技术至今仍具有强大的生命力,并赋予人口学相比其他社会科学而言独具一格的视角和学科魅力。
(1)生命表技术不仅仅用于死亡分析。生命表技术最初用于死亡分析。格兰特首次编制的死亡表仅包含了各种年龄存活者的比例;梅尔尼(Milne)基于英格兰西北部城市卡莱尔两个教区1779—1787年间的年龄别人口和死亡数据,于1815年编制完成的生命表,被公认为规范了生命表的常规计算方法与表达形式,沿用至今[6]。队列生命表(cohort life table)由于数据可得性和时效性均较差的缘故,很少被编制;作为一种统计模型的时期生命表(period life table)更受青睐。时期生命表的基础数据是年龄别死亡率。在数据准确可靠的前提下,通过将基于时期人口的死亡率转换为基于队列的死亡概率,再借助假定队列分析技术,可以获得一个人口队列从出生到死亡的全生命历程,以观察不同年龄人群间的存活和死亡情况及关系;计算得到的平均预期寿命,是度量时期死亡率水平的综合指标。如果不是通过构建死亡模型、模拟不同年龄人口的死亡率曲线,直接对年龄别死亡率和死亡概率进行转换的话,年龄组间死亡人口的平均存活年数就成为编制时期生命表的关键指标。该指标的选取既可以套用死亡水平相当的国家或地区的经验数据,也可以使用基于本地区人口的详细死亡登记信息。中国在1982年第三次全国人口普查后,获得了较为详细的年龄别死亡数据,分别编制了中国第一套全国和区域完全生命表[7]和首套区域模型生命表[8]。
死亡数据的准确可靠是理想状况,现实情况是死亡数据质量常常遭到质疑。其中婴幼儿死亡率是衡量死亡水平的敏感指标,对该指标数据准确性及其影响的讨论在死亡分析领域一直方兴未艾。随着人口转变的完成,包括中国在内的很多国家婴幼儿死亡率已降到比较低的水平,当前的技术发展主要着眼于低死亡率、高预期寿命背景下人口的死亡模式和规律探寻,如死亡减速(deceleration,指高龄组死亡率增长率的下降)和压缩(compression,指死亡年龄分布的方差随时间减少)现象[9]等。
生命表技术目前不仅仅用于死亡分析,其应用包含了将其他因素与死亡综合考虑构建多因素生命表,获得如健康预期寿命[10]、幸福预期寿命[11]等指标,也包含将这一模型拓展到婚姻、家庭、劳动就业等领域,编制婚姻生命表[12]、家庭生命表[13]、劳动生命表[14]等;生命表技术特别是其“存活分析”(survival analysis)的思路还被应用于其他学科领域,如用于害虫生物防治[15]、植物种群的年龄结构分析[16]等。
总体而言,生命表技术是较为成熟的人口分析方法。有学者认为,19世纪末以前所谓规范人口学的发展轨迹,某种程度上就是生命表技术的演变历程[17]。这一技术至今仍焕发着勃勃生机。
(2)假定队列分析方法构建时期综合指标。假定队列分析方法是人口学特有的分析方法。在真实队列数据难以获取的现实情境下,用假定某队列按照某时期年龄别率(如年龄别死亡率或年龄别生育率)度过一段时期(如一生或育龄期)可能会发生的情景来构建指标,结合了时期数据易于获取和队列思路易于理解的双重优势,反映人口事件在某时期的综合发生水平,在人口学多个领域有着广泛使用,构建出的经典指标有平均预期寿命、总和生育率、再生产率、内在自然增长率等。
随着学科的发展,对假定队列分析方法构建的指标的应用局限性,学界有了越来越深刻的认识,主要集中于生育领域对总和生育率指标的反思和检讨。特别是当人口形势急剧变迁和人口事件模式发生变化时,试图用假定队列分析方法构建的时期综合指标来预测未来发展趋势就变得更有风险和更不可靠,需要探索新的更适合的指标和方法。学者们通过构建去进度效应总和生育率(tempo-adjusted TFR)[18]或使用能逐步消除生育率进度效应的递进总和生育率、内在总和生育率,与队列生育率和总和生育率等多个指标一起,综合判断时期生育水平及其发展趋势[19]。
(3)人口预测集数学、统计学和人口学方法之所长。人口预测是人口学使用最为广泛的分析方法之一,从分析思路上可分为期望模型和随机模型两种类型。二者是对时间、年龄和人口状态及其变化过程的不同视角和认识,取决于把人口发展过程视作期望性还是随机性的生命过程。
基于期望模型的确定性人口预测(determinant population projection)方法,经历了从数学方法、统计学方法到人口学方法的演变,其演变历程与数据的可得性和人类对人口现象的认识过程相一致。数学方法(包括简单数学模型和复杂数学模型)与统计学方法(包括回归模型和时间序列模型)基于有限的数据,通过构建模型,对人口进行单变量预测[20]。其中,简单数学模型方法常常按照几何级数增长或指数增长模式来预测未来人口规模;复杂数学模型方法是在数据不充分的条件下,利用灰色模型、神经网络系统等方法进行人口预测。灰色模型也称GM(n,h)模型,其中n表示n阶导数,h表示时间序列个数,基于模糊数学中的模糊不确定性,将人口系统视为灰色系统,通过模型用系统的已知信息推测未知信息,将系统中的因素从不明确转为明确[21]。神经网络系统来源于生物学的神经元学说,神经网络中的单个神经元具有自组织复合模式,并反映非线性特征,能够重建任意非线性连续函数。利用人工神经网络(如BP神经网络)系统思想可建立基于回归分析的和基于时间序列的相应数学模型进行人口预测,其假设一次观测中的过去值与未来值之间存在联系,构建以过去观测值为输入、以未来预测值为输出的函数[22]。在BP神经网络模型中,通过信号的正向传播和误差的逆向传播的反复学习过程,最终经过多次迭代,得到期望的输出值[23]。统计学方法通过构建回归模型或时间序列模型(如ARIMA模型,即自回归移动平均模型)预测未来人口规模。20世纪50年代,人口学预测方法——队列要素法(cohort-component projection method)被广泛使用并成为主要的人口预测方法,通过设定死亡、生育和迁移等要素参数,实现“如果”满足这些参数要求,人口规模、结构及增长“就”将会怎样的预期。
基于随机模型的人口概率预测(probabilistic projection method,也叫作随机预测方法、区间预测方法等)自20世纪90年代逐渐发展起来,其核心是将随机技术和概率推理运用于人口预测中,也可认为是将统计学方法与人口学方法有机结合。确定性人口预测通过高、中、低方案,量化人口预测结果的不确定性,但这种方法不能提供各个方案的发生概率,且往往会低估死亡率的下降和预期寿命的提高,在估计各人口指标时存在内部不一致的问题[24]。人口概率预测技术可以给出在未来某时刻出现某种人口状态的概率,并对确定性人口方案预测的实现可能性进行定量评价[25]。
目前通常使用概率预测方法(多基于贝叶斯分层模型或时间序列模型)先对生育和死亡等要素本身进行预测,然后再基于这些要素利用队列要素法进行全人口预测。通常仍会给出高、中、低三种方案,以框定未来人口发展的值域范围,也可以给出不同条件下的其他方案。如联合国人口司近些年在进行世界人口展望时,就通过对生育、死亡和迁移的不同设定,给出了9套预测方案结果[26]。我国有学者利用概率预测方法尝试对小区域人口进行预测,以解决小区域人口数据缺乏和受迁移流动扰动的问题[24]。
(4)标准化与因素分解技术应用广泛且不断推陈出新。指标(直接或间接)标准化以及因素分解(demographic standardization and decomposition techniques),也称为要素分析法(component analysis)或偏离—份额分析法(shift-share analysis),是经典的人口分析技术。其核心在于排除或区分人口结构因素与事件率因素,其中事件率是人口分析最关注的指标形式,反映了一定时期内事件发生的强度(事件别率同时反映事件发生水平和模式);结构因素除了年龄结构之外,还包括婚姻结构、孩次结构等。生育领域内经典的寇尔生育指数和邦戈茨生育率模型等都是以这一技术为构建基础。邦戈茨近期一篇关于怀孕结果影响因素的文章中再次使用了这一技术,将总和怀孕率(Total Pregnancy Rate,或TPR)表达为总和生育率(Total Fertility Rate,或TFR)和总和流产率(Total Abortion Rate,或TAR)之和的形式,并将总和生育率按照是否想要这个孩子以及其出生时间是否符合计划进行进一步划分[27]。
使用标准化和因素分解技术对于准确把握人口形势具有重要的作用。如2016年全面两孩政策实施之后,社会各界对中国生育政策的效果极为关心。如果仅看出生人口数(B),由于该指标受到育龄妇女年龄结构的影响,并不能准确反映政策实施后的生育水平;即使只看总和生育率(TFR),由于其是多个孩次生育的结果,也不能准确反映二孩政策的实施效果。因此需要区分孩次结构,观察二孩生育率的变化。分析结果显示,政策宽松化改革后,二孩生育率呈现非常显著的上升态势,说明中国二孩政策的实施效果是明显的;出生人口数和总和生育率提升效果不尽如人意,主要原因是一孩生育率在下降[19]。这样通过孩次结构因素的分解,对事实的把握才更为精准,对政策进一步完善的建议也才更科学合理和更有针对性。
在死亡分析领域,广泛用于随机死亡率预测的李-卡特(Lee-Carter)模型[28]将死亡率变化分解为年龄别平均死亡率、年龄别变化速度和时间变化三个部分,通过调整年龄别变化速度和时间变化,可生成不同预期寿命水平的年龄别死亡率。有学者使用修正了李-卡特模型在中长期预测中的性别差异扩大和年龄别死亡率失调问题的改进模型,来预测高预期寿命水平下的年龄别死亡率并对模型生命表进行拓展[29]。此外,鉴于平均预期寿命本质上与年龄别死亡率存在密切关系,将两张生命表上平均预期寿命的差异分解为其年龄别死亡率的差异,可深入探究死亡水平和模式变化发展的规律。波拉德(Pollard)和阿里亚加(Arriaga)分别从不同的角度和适用性提出了分解平均预期寿命差异的方法,前者通过将平均预期寿命差异表达为对死亡力差异的加权积分形式,将其分解为年龄别风险函数和生存函数之和[30];后者通过固定其他年龄组死亡率,考虑某年龄组死亡率变化时,将其对平均预期寿命的影响,分解为直接效应(即该年龄组死亡率降低所带来的该组生存人数增加对平均预期寿命的提高效应)、间接效应(指该年龄组死亡率降低带来其后续年龄组生存人数的影响)和交互效应[31]。有学者对这两种方法用中国数据进行了验证,发现当需要进行动态差异分解或者分解成风险率和生存函数时,应选用波拉德模型;当只有大组距年龄分组数据、需要计算开口组影响,或者需要分解到对各个年龄区间影响的情况下,使用阿里亚加的方法分解更为合适[32]。
年龄—时期—队列分析(Age-Period-Cohort Analysis,或APC分析)方法在本质上也是一种因素分解方法。传统人口学通过年龄、时期以及队列分析方法观察人口现象在时间上的变化;20世纪70年代,将这三个与时间相关的要素相结合的模型被提出,之后得到了广泛的认可和应用。APC分析方法的目的是,在控制其他两个因素的条件下,评估其中某一个因素的净效应,以更细致地揭示人群特征或事件发生水平的年龄模式(反映了生命历程中生理变化、社会经验的积累、角色或地位变化的影响)、时期趋势(反映社会、文化或环境变迁的作用)和队列异同(反映早期生活条件和成长经历的作用)。从基于汇总数据的会计/多分类模型(age-period-cohort accounting /multiple classification model)到基于多期截面微观数据的分层模型(hierarchical age-period-cohort model,或HAPC)[33],这一方法随着数据性质的变化和应用的拓展不断被推进。
作为经典人口分析方法的标准化和因素分解技术不仅应用广泛,而且不断推陈出新。随着微观数据的日益普遍和丰富,一些学者开始基于个体微观数据与回归分析方法相结合,尝试对回归模型的系数进行因素分解(regression decomposition technique),如采用瓦哈卡-布林德分解方法(Oaxaca-Blinder decomposition)对线性模型的系数进行因素分解;对非线性模型(如logit模型、Probit模型、泊松回归模型等)的系数或OR值进行因素分解,或对风险率模型中的概率进行分解等,将其分解为已释的(或特征/禀赋)因素和未释的(或系数/效果)因素[34],等等。这是在微观数据推动下人口学因素分解方法与统计学回归标准化等方法相结合的做法,也是未来人口分析方法一个可能的发展方向。
三、注重各要素间的关系及互动机制,人口研究方法多学科交叉融合
人口研究注重人口系统内、外各要素之间的关系及互动机制,内容更丰富多彩。从学科分类来看,人口研究可进一步区分为社会人口学(用人口系统外部要素解释人口系统内部要素)和应用人口学(用人口系统内部要素解释人口系统外部要素)两个分支,这两个分支的共同点在于,除了构建指标和模型之外,着重基于宏观面板数据或微观调查数据进行描述和回归统计,并探索现象之间的因果关系。
人口发展具有其规律性,表现为不同人口要素在人口转变各阶段以及在不同结构和特征的人群中呈现出差异性。人口要素为什么会呈现出这样的差异性?哪些社会经济因素发挥了作用?人口要素的不同特点会对社会经济、资源环境造成何种影响?社会人口学和应用人口学分别回答上述“为什么”和“会怎样”两大类问题,对上述问题感兴趣的来自经济学、生物学、统计学、数学、社会学和地理学等不同专业领域的学者纷纷加入,使人口研究呈现多学科方法交叉融合的局面。
1.多元统计方法特别是回归模型被广泛使用
人口研究的领域极为广阔,难以逐一列举。本文仅就几个涉及主要人口要素的重点领域及其研究方法,通过案例方式进行粗略地梳理和归纳。总体来看,在人口研究方面,多元统计方法特别是回归模型被广泛使用,因果机制的探索是大多数研究的努力方向;不同专业领域贡献了很多理论、思路和技术,跨界使用和融合构建的指标与方法不断涌现,丰富着人口学科的方法工具箱。
生育涉及个体的生物学基础,与人类的婚姻、家庭等社会制度,以及生育政策、文化传统等因素密切相关;生育结果对家庭稳定、社会经济发展和国家安全具有重要影响,因而是社会人口学和应用人口学均青睐有加的研究领域,成果可谓汗牛充栋。人口转变完成之后,徘徊不前的低生育率形势在包括中国在内的很多国家出现并引起了广泛担忧。到底是什么因素导致了如此低迷的生育水平?低生育水平会产生怎样的社会经济后果?阻碍家庭生育意愿和生育计划的是什么?生育会给女性带来怎样的影响?上述问题成为近年来我国生育研究的重点。
作为影响人口增长的重要因素之一,相比较死亡和生育,迁移/流动在本质上是一种社会、经济、政治现象,加之其涉及空间要素,使得与其相关的统计和研究更为复杂。迁移/流动不仅改变着地区间的人口分布格局、影响着迁移/流动者的生活,对迁/流入地和迁/流出地的社会经济发展也具有立竿见影或潜移默化的影响。流动人口是中国一道独特的风景,其流动状态、流动原因、流动方向、居留/返乡意愿、社会融合、权益保障、对城乡社区/城乡家庭/家庭成员个体的影响等都为学者所关注。乡城迁移同时也是城镇化的必经之路,中国的“半城镇化”现象和未来的城镇化发展趋势与政策定位密不可分。迁移/流动相关研究自20世纪90年代以来热度不减,对上述议题进行了多角度的观察。
人口结构要素作为死亡、生育和迁移等人口事件的结果和未来人口事件的惯性影响机制,在人口分析领域一直被高度重视。人口研究不仅关注人口结构对社会经济的整体影响,也关注人口老龄化、劳动年龄人口和出生性别比的影响因素及后果。
上述人口要素的影响因素及其社会经济后果研究,大多基于微观抽样调查数据或省/市级面板数据,通过构建回归模型,关注自变量对因变量的影响,特别是探索二者间的因果机制。建模策略(modelling strategy)是20世纪70年代自世界生育率调查(World Fertility Survey,或WFS)数据可得以来,国内外人口实证研究的通常做法[35]。这些实证研究的一般思路是:首先基于文献和理论,提出研究问题和研究假设,并确定因变量和主要自变量;其次根据数据对变量进行操作化处理,并进行描述分析和列联统计;然后构建相应的模型进行相关分析和因果推断:检验变量间的互动关系,报告模型中统计显著的参数的意义。在利用回归模型探索变量间因果机制的过程中,研究方法不断被推进。如越来越多的学者注意到内生性问题,逐渐采用倾向值分析、工具变量或使用追踪调查数据进行修正和纠偏;在多因素回归分析中考虑嵌套或分层、考虑模型的不确定性并使用贝叶斯方法(Bayesian approach)选择合适的模型等[35]。笔者随机摘录了中国知网上近些年来运用回归分析方法的部分社会人口学和应用人口学研究案例,结果如表1和表2所示。
表1 运用回归分析方法的部分社会人口学研究案例
表2 运用回归分析方法的部分应用人口学研究案例
2.指标和方法的跨界使用与融合构建
从表1和表2的案例可以看到,经济因素频繁出现,是学者们非常关注的非人口要素。事实上,关于人口与经济之间关系的讨论,自马尔萨斯以来就在人口研究领域长盛不衰;二者之间的关系有时还加入更多的要素,较常见的是同时考察资源、环境和生态状况。其中人口要素包括人口规模、增长、密度、素质、结构等。
20世纪70年代罗马俱乐部的著名报告《增长的极限》中刻画了人口增长、粮食供应短缺、资本投资、环境污染和资源枯竭如何通过循环体系结构影响世界经济增长[36]。21世纪以来,全世界对人口、经济和资源、环境间的关系更加关注。中国不断攀升的人口数量和令世人瞩目的经济迅速增长对资源环境造成了很大压力。对中国近10年省级层面人口集聚、经济集聚和环境污染三者间的关系研究显示,三者短期呈现单向环形因果关系,长期呈现双向环形因果关系。该研究从产业经济学和区域经济学领域引入了区位熵(Location Quotient,又称区域产业专业化率)的概念测算集聚度,基于面板数据的特点采用了单位根检验(检验面板数据的平稳性)、面板协整检验(对非平稳面板数据确定变量间的长期关系)以及面板误差修正模型(PECM,确定因果关系的方向和类型),同时考虑到内生性问题,采用了动态广义最小二乘法(DGLS)估计三者间的因果关系[37]。通过该研究案例可以看到,除了运用回归模型之外,跨专业概念的引入、对数据的细致检验,以及对变量间因果关系的谨慎处理,使具有学科交叉性质的人口研究呈现更加规范化和精细化的特点。
除了人口与经济研究领域的跨学科交流和融合之外,人口分布研究领域也吸纳了来自地理学和经济学的一些指标和方法,如反映人口分布均衡性的5个常用指标中,人口密度(Population Density)、人口集中指数(Population Concentration Index)和人口重心(Center of Population)指标来自地理学;洛伦茨曲线(Lorenz Curve)和基尼系数(Gini Coefficient)来自经济学。随着空间分析技术的不断发展,地理学贡献了更多的指标和方法催动人口地理学的发展,分异指数(Index of Dissimilarity)、熵指数(Entropy Index),以及结合地理信息系统(Geographic Information System,简写为GIS)和空间自相关分析技术的莫兰指数(Moran’s I)等指标近些年也被频繁使用。
广泛应用于心理学、教育学、行为科学、医学和经济管理等领域的横断历史元分析方法近年来也被引入人口学研究,这一定量文献研究方法有助于把多项相互独立,但具有共同目标的研究按照时间顺序加以连贯,进而考察研究变量随时代变化的趋势,借以归纳人口发展的一般规律,并依此预测未来的趋势。这一方法已在生育意愿变迁研究中得到运用[38]。
对经典模型和方法进行改造也是人口研究方法使用中的一个突出特点。如人口对环境的影响可通过公式“I(影响)=P(人口规模)×A(人均财富)×T(技术水平)”简要表达[39]。针对该模型只能在保持其他要素不变条件下观察其中一个要素变化效应的不足,学者们对其进行了改进。有研究基于改进后的随机模型(STIRPAT),利用动态面板数据,讨论了二氧化碳排放与人口、经济、技术的关系,发现人口对二氧化碳排放的影响具有明显的双向性,经济增长和技术进步则分别促进和缓解了二氧化碳排放[40]。
值得一提的是,统计学方法的进步总是会(或早或晚地)反馈在人口研究领域,与数据的丰富和改善一起,推动着人口学方法的进步。20世纪90年代以来,可直接用概率分布描述未知统计参数不确定性的贝叶斯统计(Bayesian statistics)得到了迅速的发展,与将统计检验建立在重复抽样的频率分布基础上的频率论统计学(frequentist statistics)分庭抗礼[41]。这一趋势不仅反映在人口研究方法的改善上,如更倾向于使用分层回归模型(hierarchical regression models)检验多层数据中自变量与因变量的关系,也反映为人口分析方法的推进,如前面所述的在人口预测中将概率预测法与队列要素预测法相结合、在APC分析中使用分层回归模型打破年龄、时期、队列三者的共线性等。
四、增强方法的独特性与交叉性,拓展应用性,推进人口学学科发展
从学科起源和发展路径来看,人口学具有“自然的”和“政治的”内在属性,这使其与生物学、统计学、社会学、地理学等相关学科有着“剪不断、理还乱”的关系,这一关系在人口研究领域表现得更为明显。人口学方法在人口分析方面主要呈现为独特性;在人口研究方面主要呈现为交叉性;服务于社会经济发展的应用性特点贯穿人口学发展的始终。
方法的独特性塑造了人口学作为社会科学中偏重实证分析的学科属性,使其与其他社会科学相比独树一帜,这是人口学学科发展的基础,必须加以巩固并不断完善。人口分析方法着重回答“是什么”的问题,倚重全面而准确的数据进行事实描述,揭示人口现象和事件的状态。对人口规律的探寻往往使用生命历程或队列视角,通过指数构建和因素分解的方法,剥茧抽丝、披沙拣金,逐渐接近真相。大量运用图形工具或模型作为人口分析的辅助:直观呈现人口年龄和性别结构的人口金字塔,有效分解年龄、时期和队列效应的列克西斯图,化繁就简的静止人口模型(或追踪静止人口生命轨迹的时期生命表模型),对众多方法而言本固枝荣的稳定人口模型,以及基于不同条件的人口发展(增长/预测)模型等,散发着人口学独特的光辉。当前人口分析方法面临的挑战是,如何保持经典方法技术的生命力并在理论上有所突破。人们对人口发展规律的认识总是局限于一定的社会历史条件,人口学经典方法技术多源自稳定人口假设,这是基于西方的人口转变经历和社会实践所概括出的模型,现实中发展中国家快速的社会转型早已突破了这一窠臼,前人的贡献需要在时机成熟时加以超越。当人口现实用原有的理论难以解释、现有的技术方法束手无策时,新的技术和方法将应运而生。当前有很多现实问题亟待回答:如完成了人口转变后生育率为什么未能稳定在更替水平附近?低生育率国家能否摆脱以及如何摆脱“低生育率陷阱”?不断延长的人类寿命是否存在上限?流行病学转变经历了从传染病向退行性疾病的转化后,未来将怎样发展?等等。这些问题的回答不仅有赖于经典的人口分析方法和技术,更有赖于新的理论支持下的新思路和新方法。
方法的交叉性使人口学成为一门兼容并蓄的开放性学科。无论是原因探析还是结果预期,聚焦人口变量,同时将视野拓展至其他各个学科领域,极大丰富了人口研究的内容,并为人口学学科发展带来了源源不断的活力。人口研究方法着重回答“为什么”和“会怎样”的问题,通过建立变量之间的有机联系,深入挖掘变量间的互动机制,探索变量间的因果关系。各学科专业视角和方法的融入,对人口研究方法的推陈出新具有很大启发性。需要指出的是,在人口研究过程中,必须牢记初心,即研究应围绕人口变量的影响因素(determinants)和社会经济后果(consequences)展开,无论是社会人口学还是应用人口学,核心都应是人口变量,目的是探寻人口系统与外系统相互作用的关系与规律;否则很容易“乱花渐欲迷人眼”,在多学科交叉中失去人口学学科的定位。当前人口研究方法面临的挑战是,大多数研究被多元统计分析所垄断,方法随统计学的发展亦步亦趋,难以凸显人口学方法特点。未来的努力方向在于整合多来源数据,整合多学科方法,将独特性与交叉性相结合,围绕人口学核心指标和方法,构建多元、动态的人口研究方法体系。
人口学自创建伊始,就是一门应用性社会科学,服务于社会经济发展。当生育政策的宽松化改革不断推进、当机构调整取消了部委名称中的“人口”和“计划生育”,很多人开始质疑伴随中国计划生育成长的人口学学科是否将裹足不前甚至从此销声匿迹。事实是,服务于社会经济发展的人口学的应用性属性,从来都使其站在时代前沿,与时代同呼吸共命运;人口学方法一直与时俱进,始终探索作为社会经济发展主体的人类人口的发展轨迹和规律。因此,人口学的强大生命力来源于其学科研究对象、研究方法和研究内容。我们看到,一方面,追踪数据和多期截面数据不断积累,描述性统计与因果性推断并驾齐驱,移动互联网、大数据、云计算等信息技术日新月异;另一方面,本世纪人口达到峰值、惯性正增长悄然转向惯性负增长、低生育水平和人口老龄化长期并行、人工智能开始替代人类劳动甚至挑战人类智慧等现实,都需要人口理论和研究方法不断革故鼎新。当代中国的社会变革和实践创新,为人口学方法的发展提供了强大动力,为人口学学科发展展示了广阔空间。