中国近现代死亡人口历史分布形态研究
——基于海量在线逝者纪念数据
2022-09-20政光景梁玉成
政光景 梁玉成
(中山大学 社会学与人类学学院,广东 广州 510275)
1 问题的提出
辛亥革命以来,中国社会经历了剧烈的社会变迁,对人口结构与分布形态构成了强烈的影响,最直接的就是对死亡人口分布形态的影响。但是,在历史人口学领域,虽然对近代人口变动有一些研究分析,但对20世纪初中国人口特征的研究则明显不足[1]。然而,要想全面深刻了解中国20世纪中国人口变迁状况,必须结合建国前后两个不同的时代同时进行分析[2]。然而,对这一时段的人口进行分析,其最主要的障碍是缺乏数据,并且数据的缺乏几乎是绝对的[3]。而近代中国流离的社会形态,也严重影响了人口统计数据的科学性[4]。
民国政府虽然在1908-1911年、1928年进行过两次人口普查,但其规范性和科学性都存在很大问题。Ho的研究认为,1908-1911年人口普查和新中国早期的人口普查在大多数地方都是由县政府和当地士绅进行的,或者说是被操纵的;而1928年的人口普查中,只有16个省提交了报告,截至1931年仍有12个省没有提交报告,对于大多数省份来说,国民党时期的人口数字几乎纯粹来自猜测[5]。米红等认为1912年的人口调查资料虽然包含了一些资料,但由于出生数与死亡数的漏报,使得这些资料严重失真[6]。
与其他人口统计资料相比,死亡人口数据的缺失和低质量问题则显得更为严重[7-8]。民国时期的中国人口死亡率记录来源于本就质量不高的普查、人口登记和民间的一些抽样调查,这些数据质量不一,也不具备全国代表性[9]。 中华人民共和国建立后,从1954年开始对死亡人数做过统计,但对死亡率的深入研究不够:一是对死亡人口年龄调查的次数太少; 二是调查的范围只在局部地区[10]。长期以来,中国未建立完善的生命统计制度,以致分年龄死亡率资料很不健全[11]。新中国用于决策和绩效评估的死因数据主要来自基于抽样的死亡率监测系统,包括中国疾病预防控制中心(CDC)的全国代表性疾病监测点系统和中国卫生部的人口动态登记系统,而前者直到1978年才建立,后者虽然在1950年代得以应用,但只收集了13个城市的死亡率数据[12]。在1980年代前,中国官方的年度死亡率都是从公安登记系统中得出的,然而,由于登记的死亡人数没有按年龄、性别或死因报告,因此该系统唯一可用的死亡率统计数据是粗死亡率[13]。
总的来看,20世纪上半页中国社会的动荡,外加统计制度与统计体系的长期不完善导致人口统计数据的大量缺失与不完善,而其中死亡人口数据的缺失则尤为严重。因此,中国现代一直缺乏一张百年来的完整的死亡人口历史分布形态图。本研究则试图通过采用海量的在线逝者纪念数据,并对其进行加权调整,得到中国100年来的死亡人口历史分布形态。
2 过往的研究
过往对解放前中国死亡人口的研究主要集中在死亡率、婴幼儿死亡率、死亡规模、预期寿命的研究上,并且大部分都是短时点的、局部的研究。从对死亡率的研究来看,20世纪早期中国总体呈现高死亡率的特征。Janet的研究认为在1930年代和1940年代,在没有霍乱流行的年份,粗死亡率介于18‰到30‰之间,在流行年份,受影响地区的粗死亡率高达50‰[14]。Judith依据1929-31年的农村调查研究了中国农民家庭的死亡人口问题,认为1929-31年中国农民家庭的生育率适中,但估计死亡率非常高,为每千人口41.5人,略高于粗出生率,特别是婴儿死亡率极高:据估计,大约30%的婴儿在第一年死亡[15]。Barclay等学者认为,中国在二十世纪早期的死亡率很高,出生时预期寿命估计不到25岁[16]。Clive认为在1949年之前的中国,新生儿破伤风已导致高达10%的婴儿死亡[17]。谢晓博认为,在 1900-1943 年,中国人口出生率维持在 37.0‰,死亡率约为 33.4‰,自然增长率为3.6‰[18]。
还有部分研究探索了抗日战争期间中国的死亡人口问题。Janet的研究认为1937-1949年战争期间的总死亡人口估计超过2500万[19]。姜涛和卞修跃认为在抗日战争期间,除国共两军抗战人员伤亡损失有历年统计相对可靠外,平民伤亡皆都只是初步性的统计。抗战时期,中国人口直接死于战争者为2062万,期间的人口损失则超过5000万[20]。孟国祥和张庆军认为,八年抗战中,中国军民伤亡总数为数2226万,如果加上“九一八事变”至“七七事变” 期间及日本抓捕劳工等造成的伤亡则远不止这个数[21]。袁成毅(1999)认为,从1931年到1945年中国最低限度的人口伤亡数为22828469[22]。总的来看,大部分研究对抗日战争期间直接死亡人口的估计在2000-2500万之间,而由于战争导致的人口损失数则没有一个确切的研究进行验证。
1949年后,中国的人口死亡形态则发生了急剧的变化。在不到十年的时间里,人口的粗死亡率几乎减半,这主要得益于战争的停止、土地改革、粮食的分配、传染病的控制和医疗水平的提高[23]。建国前后死亡率发生下降的另一个主要原因就是传染病的控制[24-25]。在1949年之前的中国,新生儿破伤风已导致高达10%的婴儿死亡,但到1981年,这种疾病已是罕见。在1960年至1980年间,中国人口的总预期寿命增加了27岁[26]。总体上,建国后中国人口发展呈现为三个阶段:死亡率下降驱动的人口转型期(1970年之前)、生育率下降驱动的人口转型期(1970-1999年)和后人口转型期(2000年之后)[27]。
对建国后的死亡人口的研究主要集中在对困难时期的损失人口与死亡人口的估计上。曹树基采用了1953、1964和1982年全国各市县人口普查数据作为分析的基础,通过各地地方志中记载的历年人口数,计算出各地灾前、灾后的人口增长速度[28]。 李若建利用公安系统1957 年的大规模分年龄人口和分年龄死亡人口数据,建构了分年龄人口在1953-1964年间的生存率,并进一步计算出1964年的预期人口,将其与1964年人口普查时实际的分年龄人口进行比较,证实了当年确实有大量的人口损失存在[29]。米红、贾宁基于改进的Lee-Carter 死亡率预测模型,以官方统计的分年龄别死亡率数据为基础,重构了“三年困难”时期历年单岁组死亡率,并逆向估计在没有饥荒的情况下,当时正常状态下的死亡人口数量[30]。
总而言之,关于中国近现代的死亡人口研究呈现研究结论与研究方法上的两个突出特征。一是具体研究结论上的阶段性、碎片化特征。大部分研究都是基于某一个特定时间段的某一个死亡特征进行的分析与研究,缺乏长时段的跨历史时期的整体死亡人口图景。二是研究方法上主要是基于不同的官方的人口统计数据相互进行推测与验证。大部分研究都是基于有限的官方统计数据进行的,一方面,官方数据在这个时期本就非常缺乏,另外数据质量也不高;另一方面,官方数据具有较强的政治性,也会导致其一定程度的失真。
3 研究方法与数据处理
正因为中国近现代的死亡人口统计数据存在大量缺失与失真问题,研究者需要通过其他调查数据、档案文献等等进行回溯修正[31]。通过民间的档案文献资料进行修正的方法的本质是根据老百姓在日常生产生活中产生的真实的历史资料去分析宏观的人口社会历史变迁状况。过往就有一些根据族谱、墓碑等民间历史资料进行死亡人口历史分析的研究。如Zhao根据中国王姓106卷族谱,研究了1000多年来王姓家族人口的长期死亡率模式[32]。李凡选择《辽宁海城尚氏家谱》和《江西宜丰淮康蔡氏族谱》两部家谱,整理了家谱中的人口数据,对清朝时期的的人口的出生时间和人口死亡率进行了分析[33]。杨林英依据湖南省凤凰县白果村家族墓碑资料,结合家谱资料,研究了该村百年间的人口结构变迁[34]。
通过民间档案文献资料对统计数据进行修正具有几方面的优势:一是不受统计制度与统计技术的影响,不存在因统计过程的不完善而导致的偏差;二是受宏观政治经济环境影响相对较小;三是来源于日常生活实践,具有较高的客观性和真实性;四是具有大量的细颗粒度信息,一般能具体到个人;五是具有较长的历史跨度,如族谱等资料可以轻松跨越百年[35]。但民间档案文献资料也存在着一定的缺陷与不足:一是区域性、局部性资料比较多,缺乏具有全国代表性的资料。如前文列举的基于族谱和墓碑的研究就是具有非常明显的局部性特征的;二是统计资料的信息有限,不如专门的官方统计资料全面;三是数据的产生存在着特定的社会选择机制,可能是有偏误的。
在网络时代和数字时代,人们为了纪念逝世的亲朋好友,会在线上建立逝者纪念馆,以表示对逝者的哀思和纪念,这些逝者纪念资料一般包含了逝者的出生日期、逝世日期、性别、生平简介等信息,是很好的用于研究死亡人口的原始资料。线上逝者资料一方面具有传统的民间统计档案资料的优势,另一方面又突破了区域性的限制,在全国范围内具有较广的覆盖面。因此,线上逝者纪念数据这种具有长历史跨度的、连续的、相对真实死亡人口资料为准确、全面地还原中国近现代死亡人口分布提供了可能性。
本研究采用的逝者纪念文本数据是采用网络爬虫从多个中文逝者纪念网站爬取的数据,基本涵盖了所有的中文逝者纪念网站。不过因为这类数据属于用户生成性内容(user generated content),不可避免的带有样本选择性偏误的问题,本研究将采用依据外部死亡人口数据校准加权的方式来进行修正。在将采集的线上逝者数据中不带有对逝者的生平描述的样本去除后,最终本研究的样本量为152662个。该样本中还包含有一部分烈士的纪念数据,在后面的分析中会做专门的处理与说明。
3.1 线上逝者纪念文本数据的选择性偏误分析
在学术研究采用的互联网数据中,一般包括线上概率数据和非概率数据。前者是概率的招募方法,采用RDD(random-digit dial)或ABS(address-based sample )数据框;后者则是互联网用户主动进入这类数据中,他们没有已知的选择概率,因为他们是在“互联网上的人”的池中自我选择的人,这使得没有互联网接入的人群被排除在外[36]。UGC数据是典型的互联网非概率数据,因此有必要对本研究收集的线上逝者数据与真实的死亡人口统计数据进行对比分析。从理论意义方面来看,对比分析可以用来明确具有哪些属性的逝者群体更可能被其他人进行线上纪念;从方法意义方面来看,这种对比分析能为数据选择性偏误纠偏和加权提供依据。
因为该线上逝者数据包含了不同时代逝世的逝者数据,因此本研究收集到了1929-1931、1945-1949、1953、1964、1981、1989、2000、2010和2019年的统计或估计数据来与同时代的线上逝者数据进行比对分析。其中,1929-1931和1945-1949死亡人口分年龄、性别统计数据来自《中国人口史(第六卷)》[37];1953年死亡人口分年龄、性别统计数据来自翟振武研究的估计[38];1964年死亡人口分年龄、性别统计数据来自 Banister和Hill研究的估计数据[39],其他年份数据均来自《中国人口(与就业)统计年鉴》。
为了与上述外部统计数据(S)进行对比,本研究将线上逝者数据(s)的逝世年份划分为1911—1940年、1940年代、1950年代、1960年代、1970年代、1980年代、1990年代、2000年代和2010年代,并分别与上述统计数据的分年龄性别死亡人口统计数据进行比对分析。为了能更好的分析哪些分性别年龄段的死亡人口更可能被线上纪念。本研究设计一个样本-总体比例比(ratio)的自然对数指标()对其进行分析,其中分子Rs表示线上逝者数据某年龄段人口比例,分母Rs表示外部数据中某相应年龄段死亡人口比例。若Y>0,则表示该年龄段死亡人口更可能被线上纪念;Y<0,则表示该年龄段死亡人口更不可能被线上纪念,Y越大,则该年龄段死亡人口被线上纪念的可能性越大。
分年龄段死亡人口被线上纪念概率分布如图1所示,样本-总体ratio对数越高,表示该年龄段死亡人口更可能被线上纪念。从年龄的分布来看,大部分年代的分布呈现“倒U型”,中青年人逝者被线上纪念的概率最大,并且中年以后,年龄越大,被线上纪念的可能性越小。从年代的差异来看,随着时代发展,少年儿童逝者被线上纪念的可能性越来越大。从1980年代到2010年代,时间越靠后,中老年死亡人口有可能被线上纪念转变为不可能被线上纪念的年龄拐点越小(1980年代、1990年代为65岁;2000年代为55岁;2010年代为50岁)。从性别差异来看,在大部分年代,女性被线上纪念的可能性要高于男性。并且随着时代的发展,女性高于男性概率的年龄段越来越多。
图1 不同时代死亡人口分年龄、性别被线上纪念概率分布
3.2 线上逝者纪念文本数据的校准加权
因线上数据存在选择性偏误,因此应该对该数据进行校准加权,校准加权提供了一种系统的方法来比较两个样本之间的不同,并根据辅助信息进行加权调整,以提高调查估计的准确性[40]。本研究采用的方法是根据具有总体代表性的外部统计数据对线上逝者数据进行加权校正,以减少无响应和覆盖误差[41-43]。校准加权的辅助数据来源可以多样,也可以是总体汇总数据或个人层次的数据[44]。校准加权的主要思路是利外部的数据,通过调整权重的方式,使被加权调整的数据的分布符合外部数据的分布[45-46]。与其他降低覆盖和响应误差的方法相比,校准加权的一个优点是其不需要对数据或建模进行假设[47]。
校准加权的第一步是分不同时代,按各个时代的分年龄、性别死亡人口联合分布概率对不同时代的线上逝者数据进行加权。因该线上逝者数据包含了长期的跨历史时期的逝者数据,每个时代的死亡人口分布有很大差异,因此应该区分不同时代分别进行加权调整。因此本研究将1929-1931、1945-1949、1953、1964、1981、1989、2000、2010和 2019年的统计或估计数据作为校准加权的外部数据。将以上数据分别转换为分年龄、性别死亡人口比例后可得到表1。
表1 1910年以来9个时期分年龄、性别死亡人口分布比例
在获得9个时期的分年龄、性别死亡人口分布比例后,本研究将线上逝者数据的逝世年份划分为1911-1940年、1940年代、1950年代、1960年代、1970年代、1980年代、1990年代、2000年代和2010年代共9个子样本,并分别将以上9个子样本依据上述9个时期的外部统计数据的分年龄、性别死亡人口统计数据进行校准加权。具体的加权算法采用的是Deming和Stephan 提出的迭代比例拟合算法,其基本思路是逐步调整调查抽样权重,以达到已知的人口特征的边际分布(例如性别、教育、年龄等)。直到给定变量的边际分布与样本数据的分布小于一个阈值或迭代次数足够时,以上调整过程才会停止[48]。
续表1 1910年以来9个时期分年龄、性别死亡人口分布比例
在第一步加权调整的基础上,第二步是分不同时代的死亡人口规模对过去百年的线上逝者数据进行校准加权。在1949年前,中国没有一个相对准确的死亡人口数字。根据Fang的研究,中国在1919年的人口为5.28亿,1925年的人口为4.85亿[49],1935年的人口为4.42亿,这三个年份的人口均值为4.85亿,正好是1925年的人口,因此本研究利用1925年的4.85亿人口作为推算1911-1940年死亡人口的依据。Fang认为在1949年前,中国的人口死亡率在25-33%间[50],因此本研究使用25‰与33‰的中位值29‰计算得到1925年的死亡人口为15312000。因1925年处于1911-1940的中间点,本研究将15312000乘以30得到了1910年代-1930年代的死亡人口总数为421950000。根据Fang的研究,1944年的中国人口为4.25亿,依据同样的29‰死亡率水平,1944年的死亡人口为12325000[51]。本研究用其代表1940年代的死亡人口均值,将其乘以10得到的死亡人口为123250000。1949年以后各个时代的死亡人口数,均根据The World Factbook提供的各年份实际死亡数加总获得[52]。因此,可以得到以下1910年以来9个时代的死亡人口规模及比例统计表。基于各个时代的死亡人口规模比例,依据迭代比例拟合算法进行第二阶段校准加权即可得到最终的具有全国代表性的长时期死亡人口历史数据。
4 近现代死亡人口分布
表2 1910年以来9个时代的死亡人口规模及比例统计
在进行校准加权后,本研究通过绘制加权前后的线上被纪念逝者的人口金字塔图可以有效对比哪些性别年龄阶段的死亡人口被进行了怎样的调整。由图2可见,5岁以下和60岁以上的逝者比例被明显调高了。10-50岁的逝者比例被调低了,尤其是20-40岁的逝者比例被明显调低了。
图2 加权-未加权线上被纪念逝者的人口金字塔对比
从逝世年的分布来看(见图3),加权调整后的逝世年分布与未加权的分布密度有着完全不同的分布。加权后的分布体现了过去110年(1911年以来)中国的死亡人口分布情况,其中在解放前出现了两个死亡人口高峰,一个就是抗日战争时期的1937-1940年左右,第二个高峰是1949年左右的解放战争时期。其他年份的死亡人口大体平稳,除了在2010年附近受线上纪念高峰(未加权数据中死亡人口集中在该年份)的影响,导致死亡人口略微偏高。
图3 加权-未加权线上被纪念逝者的密度分布对比
通过与未加权线上纪念逝者数据对比,可以发现,1949年解放战争的线上纪念密度分布要高于实际死亡人口的密度分布。因此,通过排除烈士和不排除烈士的加权密度分布对比可以发现(见图4),不排除烈士的死亡人口分布导致1949年解放战争期间的密度增高很多,而抗日战争时期则仅有少部分增加。这一定程度反应了社会对解放战争烈士的线上纪念概率要高于对抗日战争烈士的线上纪念概率。
图4 加权调整后线上被纪念逝者排除烈士样本前后密度分布对比
从不同性别的死亡人口分布形态来看(见图5,图6:因1910年代缺失量较多,图中略去该年代的男性比),在1935-1945的抗日战争期间,男性死亡人口明显高于女性,这符合战争会导致男性大量死亡的普遍规律。在1960-1965年,男性的死亡人口也要高于女性,这说明灾害也会更多地导致男性死亡。从改革开放后,男性死亡比例一直保持上升的趋势。在2015年后,男性死亡人口明显高于女性。在从1950至改革开放前的时段,女性死亡人口多数时候要明显高于男性。
图5 加权调整后线上被纪念逝者(排除烈士样本后)的分性别密度分布对比
图6 加权调整后线上被纪念逝者(排除烈士样本后)的男性比例分布
从不同年龄段的死亡人口对比来看,理论上一个合理的死亡人口分年龄分布模式应该是老年人最高,青壮年人口次之,青少年及儿童人口最低。青少年及儿童死亡人口较高,往往是由于营养卫生条件较差导致,最能反应死亡人口的结构是否合理。从过去一个多世纪的变化来看(见图7),解放前青少年及儿童死亡人口占比始终处于高位,建国后有一个明显的下降趋势。另一个明显的下降趋势是从1980年改革开放之后。青壮年的死亡往往是由于战争或社会剧烈变迁引起的。在抗日战争期间,青壮年的死亡人口确实最高,在改革开放后的20年内,因为社会剧烈变迁,青壮年死亡人口比例也较高。从2005年后,中国人口的死亡模式开始回归正常状态。
图7 加权调整后线上被纪念逝者(排除烈士样本后)的分年龄段密度分布对比
从过去百年的死亡人口寿命来看(见图8),1930-1950年间,死亡人口平均寿命在40岁左右,处于过去一个世纪的最低位。这段时间的低死亡人口平均寿命显然与战乱、疾病、低生活水平、较差的卫生条件紧密相关。建国后,死亡人口寿命有一个明显的增加趋势。而在2000年-2005间逝世的人口有一个短暂的寿命下降的趋势,随后在2010年后,死亡人口寿命有一个急剧的上升。
图8 加权调整后线上被纪念逝者(排除烈士样本后)的寿命分布对比
5 结论
总体来看,本研究以线上逝者纪念数据为基础,采用外部的具有全国代表性的总体死亡人口数据对其进行加权调整,使得近现代中国死亡人口历史分布形态既具有长历史跨度的连续性,又能突破局部性限制,具有全国的代表性。所以,从理论上看,本研究得到了中国近现代历史上第一张完整的、连续的、具有全国代表性的死亡人口历史分布形态图,并能基于此得到详细的死亡人口的性别分布形态和寿命分布形态。这也是本研究相比于以往的历史人口学关于中国近现代死亡人口研究最大的贡献所在。具体来看,通过该分布图能较为完整地恢复抗日战争期间的死亡人口分布,能看到中国近现代的死亡人口分布形态具有明显的阶段性特征,其大致可以分为解放前的高死亡率阶段、解放后到改革开放前的死亡模式调整动荡阶段、改革开放后至2005年间的转型阶段和2005年后的稳定阶段这样一种“四阶段”的中国近现代死亡人口阶段模式。从研究资料的使用和方法论上来看,在历史人口学领域,本研究依据外部数据对海量大数据进行校准加权的方法也具有一定的开创性(尤其在当前采用大数据方法进行人口学研究还比较少的情况下),可以作为人口学研究的一种方法思路上的借鉴。
当然,本研究也存在一定的局限性。如加权调整使用的外部数据资料的可靠性本研究并未进行深入验证;用某一个时点的死亡人口统计数据去推测一个时间段的数据本身也存在一定的误差;进行校准加权的变量参数是有限的等等。另一方面,基于本研究的方法和结论,也还可以进行更多的后续的人口学的研究,如在人口老龄化趋势下的死亡模式预测研究、人口死亡模式变迁的社会经济动力机制研究等。借本研究的机会,也呼吁人口学学者更多地应用大数据方法来开展人口学的研究。