APP下载

少数民族人口生命表编制方法与实证

2015-01-02李兴绪强菲菲陈贻娟

统计与决策 2015年18期
关键词:生命表怒族独龙族

李兴绪,强菲菲,陈贻娟

(云南财经大学 统计与数学学院,昆明 650221)

0 引言

人口死亡率和人口平均预期寿命是人口生存分析和生命表编制中两个最为重要的指标。人口死亡率是编制生命表中其他元素的基础,其编制精度会对生命表的编制质量产生重要影响。而人口平均预期寿命则是生命表的重要编制成果,它是衡量社会保障政策和社会保险服务的重要指标。该指标综合反映了一个地区疾病状况和卫生服务水平,国际上通常把它作为衡量一个国家或地区居民生活质量和医疗卫生水平的重要指标。

我国是一个多民族的国家,56个民族相互交织、平等团结和谐发展。由于各民族的生存环境、风俗习惯存在较大差异,必然会造成其在死亡率、预期寿命等指标上的差异。因此,专门编制各少数民族的生命表,对于研究各个少数民族的生存状况同样具有重要的意义。而云南省是我国少数民族最多的省份,全国56个民族中,云南有52个。其中,人口在6000人以上的世居民族有26种,除汉族外,有25种少数民族,其中15种为云南特有。截止第六次人口普查时点,全省总人口为4596.68万人,其中:汉族3061.76万人,占66.61%;少数民族1894.92万人,占33.39%。本文选定云南省怒江州的3个世居民族进行实证分析,它们分别是傈僳族、怒族和独龙族。

自人口普查正式实行以来,关于人口生命表编制技术的研究开发并不鲜见,但关于少数民族生命表研究却不多。现有的研究少数民族生命表的成果大多由于采用的生命表编制方法而导致结果的不太合理。黄荣清(2005)根据第五次人口普查资料,提出了计算不同民族年龄组死亡率的不同方法,包括针对大人口规模的自修正迭代方法和针对中小人口规模的样条函数插值方法,并由此分析了各民族在20世纪90年代末的死亡水平。但其仅提出了针对不同民族年龄组编制简略生命表的方法,对于如何编制完全生命表并没有涉及。郭子宏等(2005)使用传统生命表方法编制了云南省各民族简略生命表,并分析了1999~2000年云南省各民族预期寿命和婴儿死亡率的变化趋势。两者共有的特性是:“少小”民族,即人口规模在3万人以下的民族,其预期寿命被明显高估而婴儿死亡率明显低估。以独龙族为例,其人口规模不足1万。在前一篇论文中,独龙族的预期寿命在66~70岁之间,婴儿死亡率在20~40‰之间,与此相对应的,傈僳族和怒族的预期寿命却小于66岁,其婴儿死亡率也在60‰以上。而后一篇论文中,独龙族男性和女性的预期寿命为58.4岁和65.2岁,高于傈僳族的55.9岁和60.7岁以及怒族的60.4岁和61.5岁。而独龙族男性和女性的婴儿死亡率仅为17‰和0,远远低于傈僳族的101‰和109‰,以及怒族的91‰和116‰。

参照云南省少数民族的实际情况,这显然是不合理的。从地理分布上看,傈僳族、怒族、独龙族都是怒江傈僳族自治州的世居民族。根据第六次人口普查数据:傈僳族现有66.8万人,其中近一半以上聚居在云南省西部的怒江傈僳族自治州各县,在各县人口构成中,傈僳族都占30%以上;怒族现有3.2万人,主要分布在怒江傈僳族自治州的福贡、贡山及兰坪县的免峨乡;独龙族仅有人口6353人,是我国人口最少的民族之一,聚居在怒江傈僳族自治州贡山县的独龙江两岸。结合怒江州的经济地理分布,产值主要集中于兰坪县和泸水县,福贡县和贡山县产值则较低,其中尤以贡山县最低,社会卫生服务事业投入也相应成比例。通常,我们认为人口寿命与社会经济卫生条件息息相关:聚居于贡山县独龙江两岸的独龙族,其生存环境恶劣,所处社会经济卫生条件相对落后;相对而言,占全州人口大多数的傈僳族,其生存状况很可能与全州总体水平趋同,怒族则应趋近于福贡和兰坪县的人口水平,自然这两个民族的生存状况都优于独龙族。因此,独龙族的预期寿命理论上应当低于傈僳族和怒族,并且有一个较高的婴儿死亡率。

此外,国内在生命表编制研究中,也多倾向于使用传统生命表编制方法。当然,传统生命表方法简便易行,基于Excel和SPSS等软件都可以轻松实现。但其缺陷也越来越明显,主要是传统生命表编制方法无法应用于数据缺失较多或死亡率波动剧烈的人口数据,同时传统生命表方法离散化的表征了人口生命过程这一动态变化的进程,具有一定的偏差。而这正是模型生命表能够克服的问题。实际上,国外早在19世纪50年代就编制了第一套模型生命表系统。到目前为止,人口统计学家共编制了5套模型生命表系统,分别是:1955年联合国模型生命表,Coale-Demeny区域模型生命表,Lederman模型生命表,Brass logit模型生命表,联合国发展中国家模型生命表。美国编制2005年生命表时,也采用了模型生命表编制方法。

1 数据与方法

1.1 数据

生命表编制最重要的基础数据是人口分年龄的生存、死亡数据。第六次人口普查提供了2010年普查时点的年龄别人口数和普查时期内年龄别死亡人口数,从而提供了编制生命表的基础。

然而,云南省少数民族人口的普查数据却存在这样的问题:人口差异很大,“少小”民族数据缺失。人口死亡可以看作随机事件,在普查时期中存在很大的不确定性,因而对于人口不足万余的“少小”民族,普查期间内某些年龄段的死亡人口数会有很大波动,甚至没有死亡人口,而这必然使年龄别死亡率产生更大的波动。因而,基于这类原始数据直接编制的生命表反而会失去真实反映该类型人口一般死亡规律的作用。

根据第六次人口普查数据:在云南省各少数民族中,人口超过100万的民族有6个,超过10万不到100万的民族有9个,超过1万不到10万的民族有8个,超过4000不到1万的民族有3个,另有其他几种世居民族人口共1.9万。具体的人口规模列举见表1

表1 云南省少数民族人口规模列举

上述问题在人口规模不足10万的民族中十分突出,人口越少,死亡人口数据的缺失越多。鉴于各民族人口规模差异巨大,本文认为可以考虑对不同人口规模的少数民族采用不同的死亡人口处理方法。为了便于比较和表达,本文以傈僳族、怒族和独龙族3个少数民族为例进行讨论。选取这3个民族主要基于三个理由:一是这3个民族在不同的人口规模下,其人口规律对于本规模层有很好的代表性;二是这些都是云南省的世居民族,能够较好地反映云南省的少数民族人口生存规律;三是这3个民族的聚居地存在一定的重叠(主要是是云南省怒江傈僳族自治州),其生存环境比较相似,因而可以排除社会经济和医疗卫生等因素的差异,便于进行后续的比较分析。

1.2 计算和编制方法

针对这种情形,本文提出了针对不同人口规模的少数民族的死亡人口处理方法,并由此计算年龄别死亡率,进而编制各民族人口生命表。更进一步的,编制人口生命表过程中,区别于传统生命表编制方法,本文引入了模型生命表编制方法,以更好的估计死亡概率和平均预期寿命。具体如下:

1.2.1 死亡人口数据处理方法

(1)人口超过10万:以傈僳族为例

由于人口规模较大,年龄别死亡人口数据比较完整,可以采用自修正迭代方式计算年龄别死亡率。

令x表示年龄下标,以一岁为间隔,即x=0, 1,…,n,l(x)为出生到x岁时的存活人数,如l(x)是连续的,显然有l(x)=100000×S(t)。若l(x)是离散的,用lx表示。qx表示x岁的人口在以后1年中死亡的概率,Dx表示2009年11月1日至2010年10月31日期间的x岁死亡人口数,Px表示普查时点上的x岁人口数。LP(k)x表示在第k次迭代时2009年11月1日至2010年10月31日期间x岁的年中平均人口数。表示第k次迭代时x岁至x+1岁的年中人口数至x+1岁人口数的留存率。则迭代步骤如下:

第一步:首先给定LPn的数值,选定迭代误差ε(如取为 0.000001)。任取 SRx+0.5,使之满足 0<SRx+0.5<1(x=0,1,…,n-1)。

当迭代收敛时,即可求出年龄别死亡率 Mx=Dx/LPx,x=0,1,…,n。

(2)人口超过1万但不到10万:以怒族为例

由于人口规模相对较小,在0-14岁的低龄组中经常出现死亡人口缺失,可以采用三次样条函数插值方法填补缺失的死亡人口。然后,根据填补的死亡人口数据,使用前面介绍的自修正迭代方法计算年龄别死亡率Mx。

三次样条函数插值步骤为:找出死亡人口为0的年龄组,即为插值点k;以插值点相邻的两个年龄组k-1和k+1为节点,以相应年龄组的死亡人口的累计值为节点值;从而对插值点进行三次样条函数运算。

需要说明的是,我们使用的节点值是死亡人口的累计值,而不是实际观测值。这是因为使用累计值能够更好的反映在假定Cohort法下,该人口总体的死亡变化趋势。但是,也因为使用了累计值,在得到三次样条函数的插值结果后,还应将其变换为原来的形式。

(3)人口超过4000但不到1万:以独龙族为例

由于人口规模很小,在各个年龄组别均可能出现死亡人口缺失,缺失数据的数量很多。最理想的情况是,可以使用该民族聚居地区的人口死亡水平来代替缺失部分。然而,对于这种小人口规模民族,其聚居地通常很小,以行政区划来看大多属于区县一级,缺乏精确的统计数据;即便有数据,很可能本身也是非完整的。从我国的统计精度考量,建议采用州县统计数据计算。

具体方法为:根据原始数据计算年龄别死亡率,与怒江州年龄别死亡率对比,取两者中较大值,作为该民族的年龄别死亡率Mx。每一年龄别上死亡率的选取公式如下:

1.2.2 模型生命表编制方法

模型生命表编制方法的核心就是拟合生存函数模型。在拟合生存函数的模型中,使用得比较多的有Weibull模型,Compertz模型,Logistic模型,多项式模型等。但对不同国家或地区,由于实际情况不一样,适合采用的模型也各不相同。根据云南省少数民族的人口特征,本文采用了分段拟合的生存函数模型:其中,对0-14岁年龄组,使用Weibull模型,而对15-90岁年龄组,则使用Logistic模型。该模型形式如下:

其中,S(t)是研究对象在时间t仍然存活的概率。

整理上式后可以得到如下的等价模型形式,它的表达式更简单,便于参数估计:

其中 A=eα0,B=α1。

由于生存函数模型的拟合采用分段函数形式,我们应当关注在生存函数的分段区间[1 4,15] 内,Weibull模型和Logestic模型拟合结果的一致性。在区间[14,15] 内,取0.1为步长,分别计算Weibull模型和Logestic模型的拟合结果SW和SL,用这两者的离差平方和error作为对模型估计误差的度量:

取ε=0.0001。若error<ε,认为两个模型在分段区间不存在间断,模型建立适宜;反之,若error≥ε,认为两个模型在分段区间内的拟合结果存在较大差异,模型存在跳跃点,这时我们应该对模型进行修正。针对后一种情形,我们取分段区间[1 4,15]的相邻区间,如[1 3,14] 或[1 5,16],重复上述步骤计算两模型的估计结果误差error,直到找到一个区间[k ,k+1] ,使得 error<ε。一般的,这样的区间总在我们的分段区间[1 4,15]附近。那么,我们把这样的区间[k ,k+1]作为模型最终生存函数模型拟合的分段区间。

2 结果分析与方法比较

2.1 死亡人口处理方法比较

为了比较上文中关于不同规模人口总体的死亡人口处理效果,我们演算了一种简易的插值方法,从而比较两种方法下模型生命表的编制合理性。即,在死亡人口数据缺失情形下,使用该少数民族居住地的平均死亡人口进行插值。我们使用该少数民族的居住地平均死亡率,而不是全国人口的平均死亡率,一方面不会影响这种插值方法计算的简易性,另一方面能够获得更近似所研究人口总体的死亡率模式。

考察云南的民族分布情况:傈僳族现有66.8万人,其中近一半以上聚居在云南省西部的怒江傈僳族自治州各县,其余散居在丽江、保山地区和迪庆德宏、楚雄、大理等自治州。怒族现有3.2万人,主要分布在怒江傈僳族自治州的福贡、贡山及兰坪县的免峨乡,迪庆州维西县也有少量分布。独龙族仅有人口6353人,是我国人口最少的民族之一,聚居在怒江傈僳族自治州贡山县的独龙江两岸。

再者,怒江傈僳族自治州(以下简称怒江)是一个多民族聚居的地方,人口总数为53.43万人,其中少数民族人口占87.65%,是云南省少数民族人口比例最高的少数民族自治州。傈僳族、怒族、独龙族、普米族、白族、彝族、景颇族、傣族、藏族、纳西族、回族、汉族等12个少数民族居住于此,其中傈僳族、怒族、独龙族和普米族是怒江州的4个世居民族。

由于上述3个民族的居住地重叠于怒江州,简易插值方法就使用怒江的平均人口死亡率作为基础数据。使用不同的死亡人口处理方法,计算的平均预期寿命结果如下表2。

首先,怒江州作为傈僳族的自治州,全州人口的大部分由傈僳族构成,因而傈僳族的平均预期寿命67.64岁与怒江州全州平均预期寿命67.69岁非常接近。而傈僳族的平均预期寿命略低于全州水平的原因是汉族等高预期寿命(73.75岁)民族的存在,虽然人口比重不如傈僳族,但是仍然会带动整个怒江州平均预期寿命的升高。

其次,怒族的平均预期寿命略高于简易方法下的平均预期寿命。这是因为,在怒族缺失的15个死亡人口数据中,其中13个三次样条函数的插值结果与简易方法的插值结果相同,而在高龄组中的2个缺失值的插值结果低于简易方法。

表2 不同死亡人口处理方法下的预期寿命

再者,对于独龙族的平均预期寿命,本文分别使用了3种死亡人口处理方法计算,分别为55.82岁、40.27岁和49.17岁。在对比过程中,可以看到使用年龄别死亡率插补的方法得出的预期寿命要明显高于另外两种方法。我们认为这是一个很合理的现象。作为人口不足1万的民族,无论是使用简易方法插值,还是用简易方法和三次样条插值相结合的方法,独龙族的预期寿命会明显下降。这是因为,独龙族人口基数很小,直接用死亡人口数这一绝对量进行插补,年龄别死亡率会迅速上升,自然地,预期寿命会相应快速下降。特别是使用简易方法和三次样条插值相结合的方法,双重插值会使得死亡人口的增加更多。相比之下,直接使用怒江州年龄别死亡率这一相对量进行独龙族年龄别死亡率的插补,就不会产生上述问题,从而可以得出比较合理的预期寿命估计值。

2.2 模型生命表结果与传统生命表比照

2.2.1 生存函数模型拟合结果

参照上文中的模型生命表方法,使用分段的生存函数模型进行拟合,以傈僳族的生存函数模型拟合结果为例,其生存函数拟合模型为:

类似的,怒族和独龙族的生存函数拟合模型亦具有与上述方程相同的形模型式,只是参数估计结果不同,下面(表3)仅给出其参数估计值:

表3 生存函数模型参数估计值

为了检验模型分段处的拟合误差,表4中给出了分段区间[1 4,15]内的生存函数模型的拟合误差:

表4 分段区间拟合误差

依前文所述,取ε=0.0001。若error<ε,认为两个模型在分段区间不存在间断,模型建立适宜;反之,若error≥ε,认为两个模型在分段区间内的拟合结果存在较大差异,模型存在跳跃点,这时我们应该对模型进行修正。

显然,取ε=0.0001时,我们认为对傈僳族和怒族的生存函数分段拟合是适宜的,而对独龙族的拟合则存在跳跃点,需要进行修正。取分段区间[1 4,15]的相邻区间进行测试,最终我们寻找到的符合条件的区间为[1 2,13] ,其估计误差由原来0.000785下降到1.75E-05,我们将其作为独龙族生存函数模型拟合的最终分段区间进行估计。

2.2.2 模型生命表与传统生命表比照

模型生命表方法最大的优势在于,通过拟合生存函数模型,可以得到生命表中个元素的连续取值,从而表征整个人口生命的连续过程。这无疑突破了传统生命表离散观测的局限性。同时,使用模型生命表方法计算的死亡概率能够过滤死亡的随机波动,相比传统生命表方法可以获得更加光滑并且合理的结果。

图1中给出了三组生存曲线,分别是本文中研究的三个少数民族使用模型生命表方法和传统生命表方法生成的生存曲线。所使用的数据是经过分人口规模的死亡人口处理方法调整后的民族人口数据。这样便于显示使用模型生命表方法对死亡波动的调整情况。

图1 各民族模型生命表与传统生命表生存曲线比较

从图1中生存曲线的形状来看,对于规模较大的人口群体,例如傈僳族,模型生命表相比传统生命表的改进非常有限。但对于规模较小的人口群体,例如怒族和傈僳族,传统生命表的波动非常明显,模型生命表能够把这些波动在较大区域加以平滑,从而修正死亡的随机性。由生存函数模型拟合得出的模型生命表,相对于由原始数据计算的传统生命表,更能表现所研究人口总体的一般生存、死亡规律。

2.3 傈僳族、怒族和独龙族生存状况比较分析

2.3.1 婴儿死亡率和预期寿命概述

不同民族具有不同的年龄结构,而同一民族的年龄结构在不同时期间也是变化的,这种年龄结构的变化会对死亡率产生很大的影响。婴儿死亡率、预期寿命则能够排除年龄结构的影响,准确反映出所研究人口总体的死亡力大小。所以,在确定了上述死亡人口处理方法和生命表编制方法后,本文采用婴儿死亡率、预期寿命来观察各民族的死亡水平(见表5)。

表5 各民族婴儿死亡率和平均预期寿命

一般而言,人口死亡率和平均预期寿命与人口规模显示出很大的相关性。人口规模很小时,婴儿死亡率会显著升高,而平均预期寿命会明显降低。独龙族的婴儿死亡率和平均预期寿命很好的印证了这一点,其婴儿死亡率为62.4‰,平均预期寿命为55.82岁。

但也如表5中所见,婴儿死亡率与人口规模又不存在绝对的相关关系:傈僳族人口超过66万而婴儿死亡率为32.6‰。相比之下,怒族的人口为3万左右而婴儿死亡率为30.0‰,反而低于人口规模远大于自身傈僳族。这表明,除了人口规模之外,还存在一个影响婴儿死亡率和平均预期寿命的因素,这就是人口年龄结构。

2.3.2 死亡率水平模式的差异

由于人口规模不同,不同民族之间的死亡率和预期寿命差异较大。傈僳族的死亡率曲线模式比较平滑,婴儿死亡率相对较低,5岁-35岁年龄组呈低水平线,35岁-65岁组呈曲线上升,而65岁以后呈直线式上升。怒族的死亡率曲线模式与傈僳族大致相同,但是婴儿死亡率略低于傈僳族,并且65岁-85岁组的死亡率明显低于其他两个民族。而独龙族的死亡率曲线则在各个年龄段上都有比较明显的起伏,曲线相对于其他两个民族不够光滑,特别是低年龄组的死亡率呈现先下降后上升的态势。

2.3.3 死亡率水平与预期寿命的关系

根据生命表各指标间的推算关系,各民族预期寿命的差异实际上是其在各个年龄组上死亡率水平差异共同作用的结果。一般而言,死亡率水平越高,预期寿命越低,两者之间存在负相关关系。

为了验证这一关系,我们计算了各年龄组死亡率与预期寿命的相关系数,部分年龄组的相关系数见表6。很显然,这种负相关关系确实存在,特别是在10-69岁年龄组中,预期寿命与年龄存在高度的负相关关系,其相关系数的绝对值都在0.9以上。但70岁以后,这种相关关系就快速减弱。此外,在低年龄组中,主要是1-9岁组,年龄与预期寿命的关系并不明确。这种不明确关系是由于1-9岁年龄的人口,其死亡概率相对较低且比较稳定,对预期寿命的影响较小。

表6 部分年龄组与预期寿命的相关系数

3 结论

本文基于云南省第六次人口普查数据,提出了处理云南省不同人口规模的少数民族的生命表研制方法。其中,着重强调了针对不同人口规模的少数民族采用不同的死亡人口数据处理方法,并进一步引入模型生命表方法解决少数民族生命表的波动性问题。

本文认为,对于在10万以上的民族,其人口统计数据通常是完整的,可以直接使用自修正迭代的方法计算年龄别死亡率;对于人口超过1万但不到10万的少数民族,其人口统计数据可能缺失1-14岁年龄组的个别数据,可以采用三次样条插值的方法插补死亡人口数,然后使用自修正迭代方法计算年龄别死亡率;对于人口少于1万的少数民族,其人口统计数据通常大量缺失,建议使用其人口聚居地或者居住州的年龄别死亡率进行插补,然后计算年龄别死亡率。在得到年龄别死亡率后,使用恰当的生存函数拟合模型,编制各民族的生命表。

通过方法比较,本文认为所提出的方法具有一定的合理性。对少数民族人口(特别是小规模人口类型)的生命表编制工作有较大的借鉴意义。而根据实证分析结果,本文认为不同人口规模的少数民族之间,其死亡率水平和预期寿命存在差异。但共同的是,各年龄组死亡率与平均预期寿命存在负相关关系。

最后,需要注意的是,对于人口很少的民族,其死亡变动受到调查误差、统计误差、社会变动、人口迁移等多方面因素的影响,因而解释其人口死亡变动并非易事。对于死亡变动的研究,我们应当多方面的考察误差来源,分析人口构成,从而选择恰当的处理方法。

[1]][美]内森·凯菲茨著,郑真真译.应用数理人口学[M].北京:华夏出版社,2000.

[2]王力宾.生存函数模型及其在生命表制作中的应用[J].云南财贸学院学报,2004,(2).

[3]黄荣清.20世纪90年代末中国各民族人口的死亡水平[J].人口与经济,2005,(4).

[4]郭子宏等.1990~2000年云南省各民族预期寿命和婴儿死亡率变化趋势[J].卫生软科学,2005,(5).

[6]李洪娟等.三次样条插值理论在生存函数中的应用[J].统计与决策,2009,(24).

[7]胡英.中国分城镇乡村人口平均预期寿命探析[J].人口与发展,2010,(2).

猜你喜欢

生命表怒族独龙族
整族脱贫后独龙族研究综述
最后的蝴蝶部落
——独龙族纹面女
云南贡山县6~80岁独龙族居民营养不良影响因素分析
怒族婴幼儿护佑习俗的教育人类学阐释
怒族7~17岁学生身体生长发育动态分析
独龙族传统体育文化的传承与发展①
生命表在运动寿命研究中的初步探索
黄曲条跳甲实验室种群的生命表研究
两个温度条件下台湾稻螟的实验种群生命表
怒族民间医药调查概述