区间删失生存数据的统计分析方法及其应用*

2016-12-26李丽贤曾彦彦沈罗英李钊洪陈慧林郭胜楠陈金宝侯雅文

中国卫生统计 2016年3期

李丽贤汤茗曾彦彦沈罗英李钊洪陈慧林郭胜楠陈金宝侯雅文陈征△

李丽贤1＃汤茗1＃曾彦彦1沈罗英1李钊洪1陈慧林1郭胜楠1陈金宝1侯雅文2陈征1△

在临床研究中，当只知道事件发生在某一给定的时间区间内，而不知道其确切时间点时，将这类数据称为区间删失数据（interval censored data），表示为T∈（L，R］［1］，其中 T表示个体的生存时间，L表示删失区间的下界，R表示上界。显而易见，区间删失包括左删失和右删失，临床研究中，区间删失现象比较常见，特别是在患者进行周期性随访的临床试验和队列研究中。

在处理区间删失数据时，很多研究者往往为简便起见，直接用删失区间的中点或右端点作为生存时间的估计值，再利用类似于处理“右删失资料”的方法估计生存率，并据此进行参数估计和假设检验［2］。Dorey［3］等通过模拟研究发现，若将删失区间的中点作为观察时间，用右删失方法处理，则会高估生存率。此外，Rücker［4］等发现，若将删失区间的右端点作为观察时间，进行Kaplan-Meier估计，则会过低估计误差方差，从而易得出假阳性的结果。可见，这些简单的处理方式不仅会降低生存率估计的准确性，而且会影响估计的精度，是不合理的。因此，采用专门的统计分析方法来处理区间删失数据是非常必要的。本文将介绍有关区间删失数据的非参数方法以及半参数模型，并以“静脉注射毒品成瘾患者的HIV感染情况的生存分析”为例，展示其应用。

原理与方法

1.非参数估计

设第 i个个体的生存时间为 Ti（i＝1，…，n），（Li，Ri］为 Ti所属的删失区间，S（t）＝P（T＞t）为生存函数（即生存率）。令｛τj（即｛0＝τ0＜τ1＜τ2＜…＜τj＜…＜τm｝）等于｛0，Li，Ri；i＝1，…，n｝为唯一顺序元素，可见｛τj为研究中能观察到的全部时间点（也就是所有观察区间的端点），τj为第j＋1个时间点。使 αij＝I（（τj－1，τj］∈（Li，Ri］），i＝1，…，n，j＝1，…，m，I（）为指示变量，对于第 i个个体，若区间（τj－1，τj］包含在区间（Li，Ri］中，则 αij＝1，否则为 0，由 αij可得知，一个发生在区间（Li，Ri］上的事件，是否发生在（τj－1，τj］上。定义 pj＝S（τj－1）－S（τj），j＝1，…，m，p＝（p1，…，pj，…，pm）T，pj在这里表示第 j个时间点的死亡概率。似然函数可表示为

取对数，得对数似然函数 log（L（p）），然后对 pj求偏导数有

这里，ηi表示第 i个个体的死亡概率，dj则为在（τj－1，τj］区间上的所有个体的ηi倒数之和。

由公式（3）和（4），可知当 pj＞0时，μj＝0，dj＝μ0＝n，而当 pj＝0时，μj≥0，dj＝μ0－μj≤n。当 μj≥0和 dj＋μj－μ0＝0称之为满足库恩-塔克条件。因此，对所有的 j，当 dj＝n（j＝1，…，m）时，p为所求的 NPMLE。值得注意的是，Peto［7］提出:只有当 τj－1＝Li和 τj＝Rk（i≠k）时［7］，有 pj≥0，但不排除满足以上两个条件后，仍有一些pj＝0。

求S（t）和p的过程中，可通过不同的迭代计算方法进行求解。其中，Turnbull［8］提出的修正乘积极限估计算法（Turnbull算法），以及 Gentleman［9］在 EM算法的基础上提出的修正EM算法应用较为广泛。

（1）Turnbull算法

Turnbull［8］提出了一种类似乘积极限估计的方法，该生存函数估计式可以由自一致性算法来估计。迭代的初始值由乘积极限法求得，设为的第r次迭代结果，其迭代过程可表示为:

（2）EM修正算法

修正EM算法为Gentleman和Geyer在EM算法的基础上提出的一种修正迭代算法［1］，初始值的极大似然估计的计算分为两个部分——降维与最优化。计算出初始值后，使用EM算法对其进行迭代，计算出新的生存函数估计式与该区间内的死亡概率。当某些区间的死亡概率低于某个值的时候，先将区间的死亡概率归为0，并验证库恩-塔克条件，即验证此区间的死亡概率是否真正为0。若不满足，则将区间内的概率密度函数加上一较小值，再进行EM算法迭代。当迭代之后最大的变化量小于某个规定值，并且满足库恩-塔克条件时，极大似然估计值收敛，即求出非参数估计结果。

2.区间删失数据的非参数检验

针对 g组（g≥2）区间删失数据［1］，设 hl（t）为第 l组在时间 t的风险函数，l＝1，2，3，…，g，其中 t（l）为第 l组的生存时间。

即有如下假设，

H1∶各组死亡率 hl（t）不等或不全相等，l＝1，2，3，…，g

利用非参数极大似然估计函数公式（1）L（p），可求出得分统计量 U＝（U1，U2，…，Ug），第 l组的得分统计量Ul可表示为:为权重，cjl表示在原假设下第 l个组在区间（τj－1，τj］内的死亡人数的期望值。cj表示第j个区间内的总死亡人数的期望值，类似地ajl和aj表示危险集的期望值，构造检验统计量χ2＝U∑U′，服从自由度为g-1的卡方分布。其中，∑为U的协方差矩阵，可通过置换方法（permutation method）得到［10］。针对 U统计量的不同权重 wj，主要有 Sun模型与 Wilcoxon-type模型［2］，其权重分别为wj＝1和wj＝（tj－1）。

3.半参数估计的区间删失ICM算法的Cox模型

基于所有个体的观测时间t，风险函数h（t）、基线风险函数h0（t），当引入协变量Z及协变量系数β时，Cox比例风险函数的表达式为 h（t｜Z）＝h0（t）exp（βTZ），基线生存函数S0（t）与协变量Z及协变量系数β存在关系式 S（t｜Z）＝S0（t）exp｜（βTZ），此时，区间删失生存函数的对数极大似然函数变为:

针对对数极大似然函数L（S0，β），可利用ICM（iterative convex minorant）算法进行迭代计算［11］。参数的初始值转化为右删失数据通过经典比例风险模型计算得出，并将Breslow估计值作为基准风险h0（t）的初始值。在对β进行显著性检验，使用轮廓似然法和信息矩阵等方法都能估算出的方差。但由于生存数据计算量大，以上方法迭代较慢，bootstrap方法成为一个较好的选择。Efron在1986年的随机模拟中发现［2］，在不同的删失率下，bootstrap方法计算速度快，且能保持较小的偏倚。因此综合考虑采用bootstrap方法进行方差估计。

实例分析

对某戒毒中心的881名静脉注射毒品患者经过戒毒治疗后的HIV感染数据进行分析［6］，此研究的起始时间为戒毒治疗的开始，事件为发生HIV感染。HIV病毒直接的感染情况可通过定期的血清检测来确定，以血清检测由阴转阳的时间来确定HIV感染。在该研究中，研究中心以月为单位定期检测血清情况。因事件发生（HIV感染）的确切时间并不能被直接观察到，即可将这些患者感染HIV看作区间删失型数据，其删失区间的左端点为最近一次血清检测为阴性的时间，右端点为第一次血清检测为阳性的时间。若在观察期内未检测到血清抗体呈阳性，则该患者为右删失数据。如第694号个体，第一次检测为阳性的时间为第42月，在此之前最近一次血清检测阴性的时间为第29月，故 t694∈（29，42］。

在观察随访的881个样本中，707例为男性，174为女性；患者年龄的中位数为19岁，其中400例患者小于等于19岁，481例患者大于19岁。576例患者在观察期内感染HIV（事件发生），305例未感染（右删失）。另外，按研究的观察时间，我们将历期（calendar period）分为1972至1985年和1986至1997年两大组，分别为539例和342例。

实例分析中将对患者的生存时间进行非参数估计，并将性别、历期、年龄（分为小于等于19岁与大于19岁）作为3个因素，进行组间比较和多因素回归模型分析。

1.生存率的非参数估计

对于HIV抗体由阴转阳情况，利用中点算法、Turnbull算法、修正EM算法，对患者的生存时间进行非参数估计，其生存率的比较见图1A。Turnbull算法与修正EM算法计算出的生存曲线除在尾部有些许差异，其余几乎重合。此外，类似于 Dorey［3］等人，将删失区间的中点当作右删失时间点，用Kaplan-Meier估计法进行计算，得到生存曲线，结果显示，中点处理后的生存率大体较高于Turnbull方法与修正EM算法，特别是在前期。不同的分组变量的生存率（图1B、1C、1D）估计亦显示中点算法得到的生存率大体上要高于修正EM算法得到的生存率。

图1 三种方法所得生存率估计的总比较及分亚组比较

2.以性别、历期、年龄为分组因素分别做组间比较

采用权重为1的Sun模型，以历期为分组因素，进行组间比较，可得出检验统计量Z＝3.456，P＝0.001，显示不同的历期间生存率有统计学差异。若对生存时间取中点化为右删失数据后，使用log-rank检验比较组间差异，则得χ2＝0.083，P＝0.773提示差异没有统计学意义。但是，结合图1C可看出两个历期的生存率是不同的，从侧面上反映了1986年前进入戒毒中心的患者比1985年后进入的患者更容易感染HIV病毒。按性别分组，进行组间比较，两种算法均显示有统计学差异，从图1B中也可以看出，男性的生存率明显高于女性。由图1D可知，年龄分组基本没有差异，特别是中点算法，两条生存曲线基本重合，两种算法的组间比较亦显示没有统计学差异，P值均大于0.05。

表1 SUN模型与取中点的log-rank的组间比较结果

3.以性别、历期、年龄作为分组因素做半参数回归模型

通过ICM算法，对患者的性别、历期、年龄分组进行半参数估计，计算参数β，并用bootstrap方法进行40000次有放回抽样，得出β的95%置信区间。此外，将区间中点转换为右删失数据，并计算其Cox模型参数。如表2所示，两种算法均显示不同性别的HIV感染情况有统计学差异，女性比男性更容易感染HIV病毒，图1B亦可看出男性的生存曲线明显分离高于女性的；年龄之间显示生存率没有统计学差异，两种算法的95%置信区间均包含了0；对于历期，虽然取中点的Cox比例风险模型中历期的置信区间包含0，提示不同的历期之间的HIV感染情况没有统计学差异，但是从图1C中可以看出，不同历期之间的生存率差异还是比较大的，同时，ICM算法的Cox模型显示不同历期的生存率是有统计学差异的，所以在这里取中点的Cox比例风险模型应用于区间删失数据的分析并不是很合理。

表2 ICM算法与取中点Cox模型的参数估计及95%置信区间

讨论

区间删失数据在医学领域中是一种常见的数据类型，但是医务工作者常将其简化成右删失的形式，再采用Kaplan-Meier估计、Log-rank方法、Cox比例风险模型进行统计分析，从本文实例分析以及 Dorey［3］与Rücker［4］等人所做相关模拟可知，区间删失数据若简化成右删失的形式，会造成不合理的结果，因此对于区间删失数据处理，采用专门的分析方法是十分必要的。

本文所介绍的区间删失数据属于II型区间删失数据［12］。抽涉及的非参数估计、组间比较、半参数回归模型是较为主流的方法，几乎都能通过现行的SAS软件、R软件进行实现，例如本文使用R软件的interval，intcox等程序包，能够为行业内相关人士在具体的研究当中提供一定的帮助，得出更合理的估计、以及恰如其分的统计学结论。

［1］Fay MP，Shaw PA.Exact and asymptotic weighted log-rank tests for interval censored data:the interval R package.Journal of Statistical Software，2010，36（2）:i2.

［2］Mongoué-TchokotéS，Kim J.New statistical software for the proportional hazards model with current status data.Computational Statistics＆Data Analysis，2008，52（9）:4272-4286.

［3］Dorey FJ，Little RJA，Schenker N.Multiple imputation for threshold crossing data with interval censoring.Statistics in Medicine，1993，12（17）:1589-1603.

［4］Rücker G，Messerer D.Rem ission duration:an example of interval censored observations.Statistics in Medicine，1988，7（11）:1139-1145.

［5］Gómez G，Luz Calle M，Egea JM，et al.Risk of HIV infection as a function of the duration of intravenous drug use:a non-parametric Bayesian approach.Statistics in Medicine，2000，19（19）:2641-2656.

［6］Hanson MA.Invexity and the Kuhn-Tucker Theorem.Journal of Mathematical Analysis and Applications，1999，236（2）:594-604.

［7］Peto R.Experimental survival curves for interval-censored data.Journal of the Royal Statistical Society.Series C（Applied Statistics），1973，22（1）:86-91.

［8］Turnbull BW.Nonparametric estimation of a survivorship function with doubly censored data.Journalof the American Statistical Association，1974，69（345）:169-173.

［9］Gentleman R，Geyer CJ.Maximum likelihood for interval censored data:consistency and computation.Biometrika，1994，81（3）:618-623.

［10］Heinze G，Gnant M，Schemper M.Exact log-rank tests for unequal follow-up.Biometrics，2003，59（4）:1151-1157.

［11］Pan W.Extending the iterative convex m inorant algorithm to the Cox model for interval-censored data.Journal of Computational＆Graphical Statistics，1999，8（1）:109-120.

［12］梁洁，王彤，崔燕.II型区间删失数据的生存分析.中国卫生统计，2016，33（2）:357-361.

国家自然科学基金（81202288）；广州市科技计划（2012J5100023）；广东省科技计划（2010B031600100）

1.南方医科大学公共卫生学院生物统计学系、广东省热带病研究重点实验室（510515）

2.暨南大学经济学院统计学系

＃共同第一作者

△通信作者:陈征，E-mail:zchen@smu.edu.cn

（责任编辑:郭海强）

展开全文▼