基于数据差异的Lee－Carter模型的估计与应用

2012-08-16张颖

淮北师范大学学报(自然科学版) 2012年4期

张颖

(南京邮电大学通达学院，江苏南京210003)

随着社会经济的发展和医学技术的进步，死亡率的持续降低与预期寿命的不断提高已经是一种全球性趋势.长寿固然是人类社会进步的表现，但长寿却给国家的养老保险、企业的养老金计划等带来严峻的财务风险和挑战.对死亡率下降趋势的估计与预测是评估和管理长寿风险的基础，所以死亡率建模一直都是理论与实务研究的热点问题.其中，随机死亡率模型在近一二十年得到了快速的发展.1992年，Lee-Carter[1]在考虑到死亡率随时间变化的因素后提出了一种死亡率预测模型.该模型简洁方便，对死亡率历史数据拟合较好，因而成为应用最广泛的模型之一.其后的很多研究都是在Lee-Carter模型基础上的改进.

在我国，对死亡率进行估计与预测的研究相对较少，如卢仿先等[2]利用Lee-Carter模型对中国人口死亡率进行了估计与预测，祝伟等[3]利用Lee-Carter模型对中国城市人口死亡率进行了预测，黄顺林等[4]利用加入出生年效应的模型对男性人口的死亡率进行了预测.这些研究在使用样本数据进行模型参数估计时，大多没有对中国死亡率经验数据时间跨度短、来源不统一等特点进行具体分析，而是对所有数据统一对待.本文将在Lee-Carter模型的参数估计中纳入数据质量因子，对不同数据质量的数据分配不同的权重，然后再根据Brouhans等[5]提出的死亡人数服从泊松分布的极大似然法，利用牛顿迭代算法得到各参数的估计值.最后根据参数估计值，利用ARIMA时间序列建立死亡率预测模型.在这种估计框架下得到的参数值与实际更相符，从而使得死亡率的预测更可靠、准确.最后，应用这种估计方法对中国男性人口死亡率的Lee-Carter模型各参数进行了估计，并对未来的死亡率和预期寿命进行了预测.

1 基于数据差异的Lee-Carter模型估计方法

在考虑到死亡率变动除与年龄相关外，还随时间变化，Lee和Carter在文[1]中年提出了模型

其中，mxt表示 x岁的人在第 t年的中心死亡率;参数 αx反映了年龄对死亡率变化的影响;参数 κt反映了时间变动对死亡率变化的影响;βx是与年龄相关的参数;εxt为误差项，其期望为0，标准差为 σε.Lee和Carter在对 βx和 κt进行标准化后，利用矩阵奇异值分解得到参数的唯一估计值和，并为了提高拟合精度而对 κt进行了二次估计.

Brouhans等[5]在假定死亡人数服从泊松分布的基础上，使用极大似然法对Lee-Carter模型的参数进行了估计，即假定

其中，D(x，t)表示第 t年死亡的 x岁的人数，E(x，t)为第 t年 x岁人的死亡风险暴露数(本文用年中人数近似).

模型的似然函数为:

相应的对数似然函数为:

其中，φ为需要估计的参数向量.

在中国的实际应用中，由于死亡率数据分别来源于人口普查数据、1%人口抽样数据，1‰变动人口抽样数据，所以数据的质量并不一致.其中，普查数据质量最好，1%人口抽样数据、1‰变动人口抽样数据则可能存在一定的误差.如果1%人口抽样与1‰变动人口抽样具有良好的随机抽样特征，则对估计造成的偏差可以忽略，否则就要考虑抽样方式可能对模型估计带来的影响.

在各日历年数据来源一致的条件下，对随机死亡率模型的各参数进行估计，各年的数据在似然函数极大化过程中具有相同的地位，但当各日历年数据来源不一致时，我们可以通过对各年数据在似然函数极大化过程中加权来反映各日历年数据的区别.为了将数据来源的不一致性纳入估计框架，参考文献[6]在利率模型估计中的做法，定义各日历年数据的权重向量为:

其中，x表示年龄，t为日历年，rt表示第 t年的抽样比例.

此时，模型相应的对数似然函数为:

然后利用牛顿迭代算法得到各参数的估计，迭代公式为:

其中，φ(h)表示经过 h次迭代后得到的参数向量估计值，l(h)=l(φ(h))，表示第 h次迭代时的似然函数值.

如果抽样的差别有影响，则在这一框架下估计的模型参数可以较真实地反映这种差别，而较少受抽样的影响.因为在估计过程中，更多的利用了数据抽样的信息.

2 模型的应用

我国历年的《中国人口统计年鉴》提供了1986年、1989-1990年、1994-1999年和2001-2008年的中国男女性人口粗死亡率数据，《中国2000年人口普查资料》提供了2000年的中国男女性人口粗死亡率数据.由于1994年之前的数据缺失较多且不连贯，所以一般只采用1994-2008年中国男女性人口按每5岁进行年龄分组的粗死亡率数据作为样本数据.对于1995年、2000年和2005年数据中的90-100+数据进行合并，而对1996年85+的数据进行了拆分.

在这些数据中，2000年的数据是人口普查数据，1995年和2005年数据为1%人口抽样数据，其余各年为1‰变动人口抽样数据.结合这些数据来源差异，利用前文介绍的加权极大似然估计方法对中国男性人口死亡率的Lee-Carter模型的各参数进行估计.

模型的参数 αx、βx和 κt的估计值如图1所示(本文中所有计算均通过R软件得到).图1中的α^x反映了年龄变化对死亡率的影响，容易看出在新生儿出生后死亡率一直下降，但在10岁附近死亡率达到最小，其后死亡率除在20岁左右有波动外，基本随年龄增加而增大.图1中的κ^t反映了时间变化对死亡率的影响，从κ^t近似的线性下降可以看出死亡率随时间进展不断下降的趋势.

图1 中国男性人口Lee-Carter模型的各参数估计值

对于参数估计值κ^t序列，运用ARIMA模型拟合，根据拟合残差的Q统计量和序列相关的LM检验结果，得出ARIMA(0，1，0)模型的拟合效果最好.模型的估计结果为:

(8)式下面括号内的数为渐进标准误差.从渐进标准误差和模型的回归误差(0.715)来看，将数据来源差异纳入估计框架中的方法在预测中的误差更小(未考虑数据差异下的渐进标准误差和模型的回归误差分别为0.278、1.042)，从而预测的结果更可靠、更符合实际.

在各参数的估计结果和κ^t的预测模型基础上，就可以根据公式

预测未来各年的分年龄动态死亡率，并进一步制定出生命表，得到各年在不同年龄上的预期寿命.

表1给出2010年、2015年和2020年新生儿、25、45与60岁男性人口的预期寿命.不难看出各年龄的中国男性人口的未来预期寿命逐渐提高，例如，在2010年的60岁男性的预期寿命为20.82岁，到2015年为21.89岁，2020年则增加到22.89岁.0岁男性的预期寿命则从2010年的74.82岁，增加到2015年的76.26岁，在2020年则达到77.45岁.虽然这些数字也许只是理论上的预期，但它反映了人的寿命不断提高的趋势，这种高龄化的趋势必须引起重视，否则将给国家的养老保障带来很大的支付压力.

表1 不同年份中国男性人口不同年龄的预期寿命

3 结束语

考虑到我国人口分年龄死亡率数据的来源差异，本文在Lee-Carter模型的参数估计中纳入数据质量因子，对不同数据质量的数据分配不同的权重，然后利用极大似然法得到各参数的估计值.并应用这种估计方法对中国男性人口死亡率的Lee-Carter模型各参数进行了估计，并对未来的死亡率和预期寿命进行了预测.结果表明，依据这种框架得到的参数估计值建立的预测模型的总体误差更小，从而使得未来死亡率和预期寿命的预测更可靠、更准确.预测结果表明，我国男性人口未来各年龄上的预期寿命不断提高，长寿风险不容忽视.

[1]LEE R D，CARTER L R.Modeling and forecasting US mortality[J].Journal of the American Statistical Association，1992，419:659-671.

[2]卢仿先，尹莎.Lee-Carter方法在预测中国人口死亡率中的应用[J].保险职业学院学报，2005(6):9-11.

[3]祝伟，陈秉正.中国城市人口死亡率的预测[J].数理统计与管理，2009(4):736-744.

[4]黄顺林，王晓军.加入出生年效应的死亡率预测及其在年金系数估计中的应用[J].统计与信息论坛，2010(5):81-85.

[5]BROUHANS N，DENUIT M，VERMUNT J K.A Poisson log-linear regression approach to the construction of projected life tables[J].Insurance:Mathematics and Economics，2002，31:373-393.

[6]陈晖，谢赤.利率期限结构最优估计及其应用[M].长沙:湖南教育出版社，2008.