变点问题在生存分析中的应用综述
2014-08-08周杏杏
作者简介:周杏杏(1989-),女,汉族, 山东济南人,在读研究生,浙江财经大学,研究方向: 变点问题、生存分析。摘要:变点问题在医学研究、保险精算以及可靠性控制中有着及其重要的应用,而这类数据的研究问题都属于生存数据的研究范畴。本文根据变点模型的研究现状,分别讨论了单发事件和复发事件的变点问题,并对复发事件分别关于实际事件数据和面板数据这两类数据进行综述。由于复发事件数据的存在更具广泛性,且对复发事件变点问题的建模和参数估计研究涉及到的文献非常少,本文对两类复发事件数据的综述又分为有变点和无变点的情形。最后得出结论,给出可做的后续工作。
关键词:变点;复发事件;协变量;删失;最大似然估计
引言
变点问题(change point problem)一直是统计学中非常热门的研究方向,变点反映事物的某种质的变化,在各种领域常见且具有重要性。变点问题的研究是分析突发事件对模型影响的关键之一,可作为研究气候突变、灾异事件、股市波动预测、改革之成效以及新型药物、治疗方案的疗效等的重要工具。进一步,变点问题在医学研究、保险精算以及可靠性控制中有着及其重要的应用,而这类数据的研究问题都属于生存数据的研究范畴。
生存分析(survival analysis)是研究既有事件的发生时间又有事件结局资料的统计学方法,与一般统计数据不同的是,它强调所研究问题的结果变量是某一事件发生的时间,通常用来分析生存时间和事件与众多影响因素之间的关系及其程度大小。
随着生存分析的方法被广泛应用到医学研究领域,如现场追踪研究、临床疗效试验、疾病预后分析等,生存时间(survival time)的涵义也随之扩展到更广义的范围。由最初事件的失效时间(failure time)(属单发事件数据)推广到事件发生多次的时间(属复发事件数据)。而复发事件数据广泛地出现在诸如生物、医学试验和公共健康的数据分析,工业和商业经济数据分析,可靠性、社会科学和保险精算等的研究中,最近二十年,对复发事件数据的研究受到了广泛的重视,也得到了很快的发展。所谓复发事件数据(recurrent event data)是指对一些个体进行观察,某些我们感兴趣的事件重复发生的时间点、时间间隔、累积次数等所组成的数据,如观测一些人群在某一段时间内住院的次数以及相应的医疗费用,艾滋病毒感染者的疾病复发次数,在保险精算中的个体事故理赔次数以及相应的理赔额度等。这类数据不同于单发时间数据,因为事件重复发生的时间是有顺序的,并且具有相依性,同时由于删失时间的存在,以及删失时间可能与事件发生的累积次数具有相依性,使得对复发事件数据的分析、建模及统计推断具有更大的挑战性。
本文结构如下:第二部分对单发事件的变点估计问题进行综述;第三部分对复发事件的相关研究进行综述;第四部分得出结论,分析后续工作。
1. 单发事件的变点估计
关于生存数据的变点问题建模国内外的研究起步较晚,文献也不多。Matthews和Farewell[1]建立了最基础的生存数据风险函数分段常数单变点模型:,检验了内科医生为缓解白血病人的症状而使用一种新的治疗方案之后,能否改变白血病的复发时间这一问题。这一假设检验问题实际上就转变为检验风险函数是否存在变化的问题。这篇关于生存数据变点的文章,引发了人们对这类问题的研究兴趣,发现了研究变点问题对于生存分析的重大意义。它与传统的变点问题有相似之处,但又有很大的区别,有其特殊的理论和实际意义。
Chang,Chen和 Hsiung[2]提出了首先采用Nelson-Aalen非参数估计来估计变点,然后再使用极大似然函数来估计参数,并考虑了生存数据的删失性,结合非参数和参数方法来提高变点和参数估计的精度。
Dupuy[3,4]将常数单变点模型进行了推广,加入了协变量对生存数据的影响,同时考虑了数据的删失,提出了变点和参数的极大似然估计,并进行了假设检验。
Zhao,Wu和Zhou[5]首先考虑了含有持久生存数据的单变点风险函数模型,采用Kaplan-Meier估计,结合Chang,Chen和 Hsiung[2]的Nelson-Aalen非参数估计和极大似然参数估计来给出变点和参数估计,并证明了估计的相合性。以上这些研究都只是围绕风险函数的单变点模型进行讨论,对多变点模型的分析非常少。
2. 复发事件的变点问题
以上研究主要集中于生存分析中单发事件数据的变点问题建模及分析,由于复发事件数据的存在更具广泛性,最近二十年,对复发事件数据的研究受到了广泛的重视,也得到了很快的发展。复发事件数据可以分为两类,一类是实际事件数据,需要已知每次事件的具体时间;第二类是面板计数数据,只需已知事件时间所在区间即可。下面将针对这两类数据分别进行相关文献综述。
2.1 实际事件数据
2.1.1 无变点的实際事件数据
Prentice,Williams 和 Peterson[6]提出了两类关于复发事件强度率函数的模型。第一类是的分层模型,第二类是来对事件之间的时间建模。他们用部分似然方法来估计参数,用统计量来检验回归系数是否为零。
2.1.2有变点的实际时间数据
以上文献都是关于复发事件数据的建模方法和统计推断,对复发事件变点问题的建模和参数估计研究涉及到的文献非常少,目前有Akman 和 Raftery[7]考虑了强度函数的分段常数单变点模型中变点与其上界的比值为常数的一般情况及极限形式的情况,得到了变点估计值及渐进正态分布,并且对变点的存在性进行了检验。
Scariano和Watkins[8]针对强度函数的分段常数单变点模型的变点估计问题,提出了三种非参数估计方法,通过模拟对这三种方法进行比较,得到变点估计的一致性,但是没有给出渐进分布。
Loader[9]考虑了强度函数的对数线性模型,用最大似然估计来估计参数,用剖面似然函数来估计变点,并且得到了参数的置信域。
Frobish和 Ebrahimi[10]考虑了含有两个变点的分段常数强度率模型,分别采用最大似然法和非参数的Nelson-Aalen方法来估计变点及参数,并分别得到了变点估计值的一致性。
Oueslati 和 Lopez[11]考虑了计数过程在比例危险结构的假设下一种新的回归模型。计数过程的危险率模型为,其中表示处于危险的过程,是基础危险函数,是时间相依协变量。同时他们假设基础危险函数是分段常数形式,有未知的时间跳跃点,即变点。由于未知参数众多,对数似然计算起来比较复杂,因此他们提出了用迭代算法来对待估参数进行最大似然估计。对于变点的存在性问题,通过似然比法进行检验,并且用自助法计算临界值通过模拟和实际数据的分析,证明了他们所提的模型可以看做Cox回归模型的一个有效的替代,特别是在事件发生时间出现打结的情况下。
2.2 面板计数数据
在实际的生存分析中,病人只会对调查者报告到上一次就医为止疾病复发的次数,这些数据即为面板计数数据。由于缺少信息量,面板计数数据的估计值有效性要比实际事件数据差。
Thall[12]利用混合Poisson回归模型来对事件发生次数的期望建模,用似然法来对混合模型进行估计,通过求区间中点处强度率的值与区间长度的乘积来近似事件发生次数的期望。
Thall 和 Lachin[13]为了检验两个治疗组的强度率是否相等提出了非参数的方法,通过对每个区间的事件发生的次数与区间长度的比值求和来对估计每个个体的强度率,他们假设两个组的随机观测时间是同分布的,检验统计量是近似正态的,协方差阵的一致估计。
Staniswalis,Thall和 Salch[14]對Thall[12]的参数模型进行了改进,利用非参数的基准强度函数构造半参数模型,用广义剖面似然法来估计协变量系数,用核光滑估计来估计基准强度函数,得到估计值的一致性和渐进正态分布。
Lawless 和 Zhan[15]假设基准函数是分段常数形式且变点已知,用似然法进行估计,基于似然比或Wald统计量的渐进分布进行统计推断,并且讨论了用估计方程的方法来避免Poisson假设,得到了估计值的一致性和渐进正态分布。
Sun 和 Fang[16]在不考虑任何协变量的条件下,通过保序回归估计检验了k个治疗组的累积强度函数是否相等,检验统计量可以写成各组均值与整体均值差的加权和,检验统计量渐进正态分布,并且得到了方差估计量的一致性。
3. 结论
通过上述综述可以发现,关于复发事件的变点模型研究较少,而且在这些研究中的数据主要是实际事件数据,对于在实际情况中更常见的面板计数数据基本没有相关文献。复发事件的变点模型主要集中于分段常数的强度率函数模型,对于连续变点的复发事件模型基本没有相关研究。并且在生存分析中,由于医疗技术的发展,现在治愈病人越来越多,因此只是单纯的考虑删失,对于研究药物疗效是不完善的,需要引入长期生存者,考虑含有治愈部分的复发事件变点模型。因此,关于复发事件的变点模型可做的后续工作有:
⑴将复发事件变点模型应用于面板计数数据,进行相应的变点估计和统计推断。
⑵研究连续变点的复发事件模型,进行相应的变点估计和统计推断。
⑶对复发事件建立既含有协变量又含有长期生存者的突变点模型,并进行相关统计推断。
参考文献:
[1]Matthews, D.E. and Farewell, V.T. On testing for constant hazard against a change-point alternative [J]. Biometrics: 1982, 38: 463-468.
[2]Chang, I.S., Chen, C.H. and Hsiung, C.A. Change-point Problems: Estimation in change-point hazard rate models with random censorship [J]. Inst. Math. Statist., Hayward, CA: 1994, IMS Lecture Notes Monograph Ser. 23: 78-92.
[3]Dupuy, J.F. Estimation in a change-point hazard regression model [J]. Statistics and Probability Letters:2006, 76: 182-190.
[4]Dupuy, J.F.Detecting change in a hazard regression model with right-censoring [J]. Journal of Statistical Planning and Inference: 2009, 139: 1578-1586.
[5]Zhao, X.B., Wu, X.Y., Zhou, X. A change-point model for survival data with long-term survivors [J]. Statist. Sinica: 2009, 19: 377-390.
[6]Prentice, R., Williams, B. and Peterson, A. On the regression analysis of multivariate failure time data [J]. Biometrika: 1981, 68: 373-379.
[7]Akman, V. and Raftery, A. (1986) Asymptotic Inference for a Change-Point Poisson Process[J]. Annals of Statistics: 1986, 14: 1583-1590.
[8]Scariano, S. and Watkins, T. (1988) Nonparametric Point Estimators for the Change-Point Problem[J]. Comm. Stat. Theory Meth. 1988, 17(11): 3645-3675.
[9]Loader, C. A log-linear Model for a Poisson Process Change Point[J].Annals of Statistics: 1992, 20 :1391-1411.
[10]Frobish D.and Ebrahimi N. Parametric estimation of change-points for actual event data in recurrent events models[J]. Computational Statistics and Data Analysis: 2009, 53: 671-682.
[10]Oueslati A.and Lopez O. A proportional hazards regression modelwith change-points in the baseline function [J]. Lifetime Data Anal: 2013, 19-59
[11]Oueslati A.and Lopez O. A proportional hazards regression modelwith change-points in the baseline function [J]. Lifetime Data Anal: 2013, 19-59
[12]Thall, P. Mixed Poisson likelihood regression models for longitudinal interval count data [J]. Biometrics: 1988, 44:197-209
[13]Thall, P. and Lachin, J. Analysis of recurrent events: nonparametric methods for random-interval count data [J]. Journal of the American Statistical Association: 1988, 83:339-347.
[14]Staniswalis, J., Thall, P. and Salch, J. Semiparametric regression analysis for recurrent event interval counts [J]. Biometrics: 1997, 53: 1334-1353.
[15]Lawless, J. and Zhan, M. Analysis of interval-grouped recurrent-event data using piecewise constant rate functions [J]. Canadian Journal of Statistics: 1998, 26: 549-565.
[16]Sun, J. and Fang, H. A nonparametric test for panel count data [J]. Biometrika: 2003, 90: 199-208.