肿瘤监测数据的生存分析方法比较*
2017-01-09曹志刚徐望红
张 华 曹志刚 莫 淼, 徐望红△
肿瘤监测数据的生存分析方法比较*
张 华1曹志刚2莫 淼1,2徐望红1△
肿瘤监测数据通常采用队列法和完全法计算长期生存率,以反映不同癌种对生命的危害程度,并用于评价公共卫生决策和治疗措施的远期效果。这两种方法计算出来的生存率有一定的局限性,不能及时反映当前的生存率信息。近几年来,现时生存分析、分期调整现时生存分析、混合法和预测法在肿瘤监测数据分析中的应用引起了重视。本文将比较上述几种方法的概念及原理、应用条件、优缺点及计算方法,并介绍应用实例。
概念及原理
分析肿瘤长期生存率(通常为5或10年),首先要确定一段研究时间,即感兴趣时期(period of interest)。如以2002-2006年为感兴趣时期,计算该时期肿瘤病例的5年生存率,最真实准确的方法是将2002-2006年确诊的病例分别随访至2007-2010年,计算活满5年的人数占所有人数的比例。此法得到的生存率称之为“真实生存率”(如表1“真实生存率”所示)。但如果感兴趣时期是当前,例如在2007年分析2002-2006年的5年生存率,则无法得到该队列的5年随访资料来计算真实生存率,此时可采用其他方法进行估算。
1.队列法(cohort method)
队列法是目前估计长期生存率最常用的方法[1]。以5年生存率为例,它是将感兴趣时期(2002-2006年)之前5年(1997-2001年)确诊的病例纳入队列,随访至感兴趣时期结束,计算活满5年的人数占所有队列人数的比例。计算时不涉及对右删失数据的处理(如表1“队列法”所示)。
队列法估计的长期生存率能直观有效地解释肿瘤病例的生存情况,但其最大缺点在于纳入随访的病例是感兴趣时期之前而非感兴趣时期内确诊的病例,不能反映最新最及时的生存情况。如上例中队列法计算得到的5年生存率,实际上是1997-2001年确诊病例的5年生存率,而不是2002-2006年确诊病例的生存状况。随着医疗技术的发展,癌症的诊断和治疗水平不断提高,肿瘤生存率不断上升,因此在肿瘤的长期监测中使用队列法估计的生存率会低于真实情况。所研究的生存率时间越长,这种偏差越明显。
2.完全法(complete method)
为了使估计的生存率更接近真实生存率,可在队列法的基础上,将感兴趣时期内新确诊病例同时纳入研究,随访至感兴趣时期结束,称之为完全法[1-2]。
如感兴趣时期为2002-2006年,可将1997-2006年确诊的所有病例均纳入队列,随访至2006年止。计算时需要对右删失数据进行处理。此方法包含了1997-2001年和2002-2006年两个5年队列。依此类推,在计算10年生存率时会存在三个5年队列。因此该方法又称为多队列随访法(variable follow-up cohort method)(如表1“完全法”所示)。
相对队列法而言,完全法纳入了感兴趣时期新确诊病例的生存信息,因此信息更新更及时。在所有方法中,完全法纳入研究病例数最多,是对已有生存信息的最大利用,因此它的稳健性和精确度最高。但由于完全法仍包含了感兴趣时期之前的生存信息,因此它的及时性有待提高。
3.现时生存分析(period survival analysis)
现时生存分析由德国流行病学家Hermann Brenner于1996年首先提出,至2002年逐渐发展成熟[1,3-5]。该方法纳入的研究对象一部分是感兴趣时期新确诊的所有病例,另一部分是在感兴趣时期之前确诊且在感兴趣时期仍然存活的病例。以感兴趣时期为2002-2006年为例,研究对象包括在2002-2006年期间新确诊病例,以及2002之前确诊并在2002-2006年期间仍存活的病例。计算时需要对感兴趣时期之前确诊的左删失数据和该时间段截止时仍存活的右删失数据进行处理(如表1“现时生存分析”所示)。
现时生存分析是一种类似现时寿命表的分析方法,纳入的对象均在感兴趣时期内进行随访。在感兴趣时期新确诊数据和随访数据都具备的情况下,相对于完全法,排除了感兴趣时期之前的随访信息,仅保留了之前确诊但仍存活的病例,因此更接近真实生存率。但由于现时生存分析利用的信息比完全法少,因此精确度降低,稳健性下降,生存率的方差增大。计算生存率时需要在精确度和及时性之间进行权衡。以全人群为基础的肿瘤登记数据或多中心研究数据,由于样本量大,精确度已得到足够的保证,及时性显得更为重要,此时应首选现时生存分析。此外,可通过前后移动现时生存分析感兴趣时期的起始点,得到一个精确度和及时性的平衡点,前移则精确度增加、及时性降低,后移则相反。
表1 几种生存率分析方法示意图*
4.分期调整现时生存分析(stage-adjusted period analysis)
尽管现时生存分析比传统方法更及时,但其纳入的研究对象包括感兴趣时期之前确诊的病例,如果这些时段的肿瘤分期状况因肿瘤筛查等原因而比感兴趣时期的病例差,那么现时生存分析会低估生存率[6]。为了解决这个问题,Brenner等[7]于2005年提出按照肿瘤分期调整进行现时生存分析,即在肿瘤分期信息登记完善的前提下,对不同分期情况(如局限灶、局部转移、远处转移、未知等)赋予不同的权重,加权后进行现时生存分析。
分期调整现时生存分析仍可能低估生存率,一方面由于肿瘤分期记录不准确,很难完全调整分期的影响。如果肿瘤诊断不断精化,可能会增加局部转移和远处转移患者的检出概率,使感兴趣时期的分期状况偏向于晚期,这一现象称之为分期迁移(stage migra-tion)。此时分期调整现时生存分析会低估生存率。另一方面,分期调整现时生存分析只排除了分期变化的影响,未考虑治疗方式明显改进的效应。此外,种族、接受筛查患者的比例、接受新颖有效治疗方法的病例比例等,都可能是生存分析中存在的混杂因素。因此,分期调整现时生存分析仅适用于纳入对象在各时期的分期情况等可比的条件下。分期调整的另一个缺点是增加了分析的复杂性,而且结果的解释不够直接。
5.混合法(hybrid method)
现时生存分析虽然能够提供及时的生存率,但它要求新确诊数据和随访数据都完整可用。由于肿瘤新确诊病例登记常存在延迟[8-9],现时生存分析的使用会受到限制。以计算感兴趣时期2002-2006年的10年生存率为例(如表2所示),现时生存分析需要2002-2006年的肿瘤随访数据(A部分)和新确诊数据(B部分),但由于肿瘤新确诊病例登记延迟,导致B部分的数据不可用,因而无法进行现时生存分析。
针对这种情况,Brenner[10]于2004年提出一种将队列法与现时生存分析法相结合的“混合法”,具体做法是将感兴趣时期之前同样时间长度的新确诊病例代替感兴趣时期的新确诊病例。如上例中采用1997-2001年确诊病例(C部分)代替2002-2006年确诊病例(B部分)。这样就包含了1997-2001年的队列法和2002-2006年的部分现时生存分析。
由于大多数肿瘤死亡发生在确诊后5年内,如果不采用C部分数据代替,而是直接舍去B部分数据,会失去大量确诊后5年内的生存信息,导致计算出的生存率可靠性差。因此,虽然在登记数据都完整时混合法计算生存率不如典型的现时分析准确及时,但可应用于新确诊数据登记延迟的情况下。需要注意的是,混合法要求分析的生存期长于感兴趣时期,否则相当于队列法。
表2 混合法示意图
6.预测法(projection method)
不仅肿瘤新确诊数据登记会延迟,随访数据登记也会延迟,再加上因数据分析和结果发表导致的延迟,生存分析结果通常超过5年才可用。为了及时获得生存信息,Brenner于2009年提出了一种以模型为基础的长期生存分析方法,是利用若干年之前的完整的肿瘤登记数据推算当前的生存率,称之为预测法[11-13]。以感兴趣时期为2002-2006年为例,首先按照现时分析法纳入1982-1986年、1987-1991年、1992-1996年、1997-2001年四个时期的观察对象,然后以随访时期以及随访年份为自变量,每一年的条件1年生存率为因变量,采用二项回归(或Poisson回归,此处尚存争议)建立广义线性回归模型,预测2002-2006年的生存率(如表3所示)。预测法充分利用了先前的生存信息,及时性更好,甚至可以预测未来的生存率。
预测分析法的唯一依据是过去不同时期的生存率变化趋势,是建立在生存率随着时期均匀变化这一假设基础上的,这种假设在肿瘤生存率不变或稳定增加的条件下基本成立。但在近期筛查或治疗措施显著改进时,可能会导致推算错误。此外,由于肿瘤登记一般从20世纪70年代开始完善,采用预测法计算5年生存率最多可用到5个时期的生存信息,如果计算10年生存率,可用到的时间段将更少,从而受到限制。这一问题会随着肿瘤登记的发展而逐渐消失。
计算方法
1.直接法
直接法仅适用于数据完整无删失的情况,公式为:
C表示开始随访的病例总数,L表示随访满n年尚存活的病例数。
虽然直接法计算简单直观、便于理解,但由于肿瘤随访数据通常存在删失,直接法无法利用这些删失数据,或者仅从分母中减去删失数,这样得到的生存率偏差较大。
表3 肿瘤新确诊和随访数据登记延迟情况下的预测法示意图
2.寿命表法
寿命表法克服了直接法不能利用删失数据的不足,它通过对分母按照时段进行校正,将删失数据作为半数计算加以利用。真实生存率、队列法、完全法、现时生存分析和混合法计算生存率的方法均采用寿命表法[14],区别在于纳入对象的确诊时间和随访时间不尽相同。计算的第一步,是按照上述内容选择研究对象和随访时间;第二步是将一般肿瘤登记数据整理成寿命表的形式;第三步,计算随访第i年的条件1年生存率ni表示随访第i年初人口数,di表示随访至第i年结束时的死亡人数,ci表示第i年内删失人数。
最后将k年的条件1年生存率进行累乘,得到相应的k年生存率
计算5年生存率时,k=5。
寿命表法的计算方法简单,但计算量庞大。建议先按要求筛选数据,再利用统计分析软件中的“寿命表法”和“Kaplan-Meier法”进行分析。Brenner提供了两段SAS宏命令程序用于现时生存分析,即“period”和“periodh”,其相对生存率分别采用EdererⅡ法和Hakulinen′s法。完全法、混合法等可以通过对该程序进行部分调整实现。相关程序可从网站http://www.imbe.med.uni-erlangen.de/issan/SAS/period/period.htm免费下载[14]。
3.加权法
主要用于计算分期调整现时生存率[14]。首先按肿瘤分期信息,将纳入的病例分为4组(可按肿瘤登记详尽程度进行调整):局限灶、局部转移、远处转移、未知。用n表示研究人群的总样本量,ri表示第i组在研究人群中所占的比例,si表示相应组在标准人群中的比例。然后对每个病例(无论是生存、死亡还是删失)及其对暴露人数和死亡人数的贡献,赋予权重si/ri。此步骤首先意味着加权研究的人群和标准人群在每个分组上拥有相等的权重(nri(si/ri)=nsi),其次意味着两个人群有着相同的总权重最后利用这些加权后的数据进行现时生存分析,这样权重就会应用到每一个病例及其对暴露人数和死亡人数的贡献中去。分期调整现时生存分析可在加权后采用Brenner提供的SAS宏命令程序“adperiod”和“adperiodh”进行扩展分析[14]。
4.模型预测法
以表5为例,计算的第一步是按照现时生存分析的方法,纳入1982-1986年、1987-1991年、1992-1996年和1997-2001年这4个时期的研究对象;第二步是计算每一年的暴露人数和死亡人数,并计算每一年的条件1年生存率;第三步将确诊时期和随访年份作为自变量,每一年的条件1年生存率作为因变量,拟合回归模型。Hakulinen等[11,13]提出,该模型是在二项回归(或者Poisson回归)的广义线性模型的基础上增加了log-log连接。
诊断后第j个时期随访第i年的条件1年生存率rij可表示为:
时期j编码为:j=0表示第1个随访时期,j=1和n分别表示接下来的第2个和第n+1个随访时期。如上例中j=0表示1981-1985年,j=1表示1986-1990年,以此类推。i表示每个时期内随访第i年,如1986-1990年中,1986年的i=1,1987年的i=2,以此类推,1≤i≤k(k表示每个随访时期的随访总年数)。
用Rj表示第j个时期中随访累积满k年的相对生存率
可采用SAS软件的GENMOD过程来实现。
几种生存分析方法的应用
Brenner[15]基于芬兰肿瘤登记机构1953-1992年的数据,采用队列法、完全法、现时生存分析法估计了1953-1957年和1988-1992年16种常见肿瘤的5年和10年生存率,发现两段时期真实生存率变化较小的肺癌和胰腺癌,使用三种方法估计的生存率相差不大,提示这两种癌症在筛查和治疗上均无突破性进展;而其他肿瘤都表现为真实生存率略高于现时生存分析法的估计值,完全法居中而方差最小,队列法得到的生存率最低。差别最大的是膀胱癌,这三种方法与真实的5年和10年生存率分别相差2.0%、4.0%、6.3%和4.8%、8.5%、13.6%,提示该肿瘤的生存率有较大的改善。
Brenner等[7]采用分期调整现时生存分析、现时生存分析和队列法、完全法估计了美国女性1973-1996年的乳腺癌5年和10年生存率,发现队列法和完全法与真实5年生存率分别相差0.2%~7.9%和0.5%~6.8%,而现时生存分析法和分期调整现时生存分析法与真实5年生存率的差距大都小于1.5%,最高分别为5.3%和3.7%;10年生存率也有类似的结果。可见,当肿瘤分期有变化时,分期调整进一步增强了现时生存分析提供及时生存率的优势。
利用1973-2000年SEER数据,Brenner[10]假设1985-1989年新发病数据登记延迟,采用混合法、队列法和完全法分析了1985-1989年儿童肿瘤及儿童白血病的10年生存率。两者的真实10年生存率分别为66.5%和64.3%,混合法分别为61.3%和55.1%,完全法为58.1%和50.3%,队列法为55.1%和45.5%。对于生存率明显提高的淋巴瘤,混合法的优势更为显著;而对于诊疗无明显进步的中枢神经系统肿瘤,三种方法计算的生存率相差不大。可见,当新发病例登记延迟时,混合法估计最接近于真实值,并可以通过与传统生存分析方法结果的对比,反映肿瘤的诊疗措施是否有显著进步。
Brenner[16]还采用队列法、现时生存分析法和预测法估计了新确诊数据与随访数据登记均延迟的急性成髓细胞白血病的5年生存率。队列法估计1996-2000年、1995-1999年、1994-1998年、1993-1997年的5年生存率分别为10.2%、10.6%、9.8%和9.3%;现时生存分析法为13.0%、11.5%、10.9%和10.6%;预测法为14.9%、13.5%、12.0%和11.4%。预测法最接近各时期的真实5年生存率(15.6%、15.9%、15.4%和15.4%),现时分析法次之,队列法最差。在肿瘤登记延迟的情况下,预测法能提供比现时生存分析更为及时准确的生存率。按照不同的年龄进行分层,比较预测法和传统方法的差异,可以分析年龄对生存率提高的影响。
马雅婷等[17-18]采用现时生存分析法分析了1988-2004年林州市人群胃癌和食管癌的生存状况及不同时期的变化。张欣峰[19]进一步采用队列法、完全法以及现时分析法分析了1997-1999年林州市食管癌和胃癌患者的5年生存率,发现队列法估计的5年生存分别为28.00%和23.19%,完全法为32.08%和29.03%,而现时生存分析法为36.67%和33.98%,最接近36.82%和34.04%的实际5年生存率。
可见,现时生存分析、分期调整生存分析、混合法和预测法等新的生存分析方法,不仅可以提供更及时准确的生存率,更早地发现不同时期生存率的变化,还可以通过比较其与传统方法所估计的生存率差异,反映肿瘤患者生存率的变化趋势:如果新方法得到的生存率明显大于传统方法,则说明生存状况得到明显改善;两种结果差异不大,说明该肿瘤在诊疗措施上并无突破性进展。此外,按照不同性别、年龄层、国家和地区之间等因素分层比较两者的差别,可反映这些因素在生存率变化中的作用[4-5]。
应用实例
上述几种生存分析方法也适用于大样本临床数据。我们前期基于复旦大学附属肿瘤医院1997-2011年确诊的7275例上海户籍女性原发性乳腺癌病例数据,以感兴趣时段2002-2006年为例,分别采用队列法、完全法和现时生存分析法估计了5年生存率,并与真实的5年生存率进行比较[20]。至2011年12月31日,共有1,182例病例死亡。如表4所示,纳入的乳腺癌患者2002-2006年的真实5年生存率和相对生存率分别为80.8%和92.3%,而队列法、完全法和现时生存分析法估计的5年生存率分别是74.2%,77.6%和79.6%,5年相对生存率分别是84.7%,88.6%和90.9%。现时生存分析法的估计值与实际值最为接近,队列法相差最大,提示近几年来乳腺癌的5年生存率有较大的提高。此外,现时分析法与分期调整现时法所得结果差别不大,提示近几年乳腺癌5年生存率的提高可能主要是因为治疗效果改善,而非乳腺癌早发现所致。
表4 复旦大学附属肿瘤医院2002-2006年女性乳腺癌5年真实生存率与估计值
结 语
国内外研究已证实了现时生存分析等方法的准确性和及时性。这些分析方法值得应用于我国肿瘤监测数据,以获得更新更及时的肿瘤生存率信息,为临床实践和公共卫生决策提供最新的数据依据,便于选择更合适的临床治疗方案、指导临床试验、完善筛选方案、评价干预措施效果,并开展卫生经济学评价。
[1]Brenner H,Hakulinen T.Period estimates of cancer patient survival are more up-to-date than complete estimates even at comparable levels of precision.JClin Epidemiol,2006,59(6):570-575.
[2]Brenner H,Gefeller O.Deriving more up-to-date estimates of longterm patient survival.JClin Epidemiol,1997,50(2):211-216.
[3]Steliarova-Foucher E,Arndt V,Parkin DM,et al.Timely disclosure of progress in childhood cancer survival by′period′analysis in the Automated Childhood Cancer Information System.Ann Oncol,2007,18(9):1554-1560.
[4]Brenner H.Long-term survival rates of cancer patients achieved by the end of the 20th century:a period analysis.Lancet。2002,360(9340):1131-1135.
[5]Brenner H,Francisci S,de Angelis R,et al.Long-term survival expectations of cancer patients in Europe in 2000-2002.Eur JCancer。2009,45(6):1028-1041.
[6]Sant M,Allemani C,Capocaccia R,et al.Stage at diagnosis is a key explanation of differences in breast cancer survival across Europe.Int JCancer,2003,106(3):416-422.
[7]Brenner H,Arndt V.Further enhanced monitoring of cancer patient survival by stage-adjusted period analysis.Cancer Epidem iol Biomarkers Prev,2005,14(8):1917-1921.
[8]Dickman PW,Hakulinen T,Luostarinen T,et al.Survival of cancer patients in Finland 1955-1994.Acta Oncol,1999,38(Suppl 12):1-103.
[9]Sankaranarayanan R,Black RJ,Swam inathan R,etal.An overview of cancer survival in developing countries.IARC Sci Publ,1998,(145):135-173.
[10]Brenner H,Rachet B.Hybrid analysis for up-to-date long-term survival rates in cancer registries with delayed recording of incident cases.Eur JCancer,2004,40(16):2494-2501.
[11]Brenner H,Hakulinen T.Up-to-date estimates of cancer patient survival even with common latency in cancer registration.Cancer Epidem iol Biomarkers Prev,2006,15(9):1727-1732.
[12]Brenner H,Gondos A,Pulte D.Expected long-term survival of patients diagnosed with multiplemyeloma in 2006-2010.Haematologica,2009,94(2):270-275.
[13]Mariotto AB,Wesley MN,Cronin KA,et al.Estimates of long-term survival for new ly diagnosed cancer patients:a projection approach.Cancer,2006,106(9):2039-2050.
[14]Zhang-Salomons J,Mackillop WJ.Estimating the lifetime utilization rate of radiotherapy in cancer patients:the Multicohort Current Utilization Table(MCUT)method.Comput Methods Programs Biomed,2008,92(1):99-108.
[15]Brenner H,Soderman B,Hakulinen T.Use of period analysis for providing more up-to-date estimates of long-term survival rates:empirical evaluation among 370,000 cancer patients in Finland.Int JEpidem iol,2002,31(2):456-462.
[16]Pulte D,Gondos A,Brenner H.Expected long-term survival of patients diagnosed with acutemyeloblastic leukem ia during 2006-2010.Ann Oncol,2010,21(2):335-341.
[17]马雅婷,连士勇,刘志才,等.河南省林州市人群胃癌的现时生存分析.肿瘤,2009,29(7):650-653.
[18]马雅婷,连士勇,刘志才,等.河南省林州市食管癌人群现时生存分析.中华预防医学杂志,2009,43(12):1100-1104.
[19]张欣峰,娄清涛,陆建邦,等.现时生存分析方法的应用实践与评价.中国卫生统计,2011,28(1):26-28.
[20]张华,曹志刚,柳光宇,等.队列法、完全法和现时生存分析方法在乳腺癌随访研究中的应用.肿瘤,2014,34(6):550-556.
(责任编辑:刘 壮)
上海市第四轮公共卫生计划重点学科建设课题(课题号15GWZK0801)
1.复旦大学公共卫生学院流行病学教研室,教育部公共卫生安全重点实验室(200032)
2.复旦大学附属肿瘤医院乳腺外科,复旦大学上海医学院肿瘤学系
△通信作者:徐望红,E-mail:wanghong.xu@fudan.edu.cn