固定点处k组生存率比较的非参数统计方法研究*
2017-09-03吕晶晶陈金宝吴天敏贺钰锟骆雨桐侯雅文
吕晶晶 陈金宝 吴天敏 贺钰锟 骆雨桐 刘 丹 侯雅文 陈 征△
固定点处k组生存率比较的非参数统计方法研究*
吕晶晶1陈金宝1吴天敏1贺钰锟1骆雨桐1刘 丹1侯雅文2陈 征1△
目的 当仅需比较某固定时间点上组间生存率的差异,或者不满足组间风险率成比例假设时,如生存曲线存在交叉,log-rank检验不再适用,且现有固定点检验法仅限于两组间,故本文发展固定点处多组间生存率的比较方法。方法 首先提出多组间五种固定点检验法(经典法、对数转换法、双对数转换法、反正弦平方根转换法及逻辑转换法),并通过Monte Carlo模拟评价五种方法在不同情形下的一类错误和检验效能。最后对满足和不满足风险率成比例假设两个实例用上述方法进行分析。结果 综合Monte Carlo模拟得到的一类错误及检验效能结果,以经典法和反正弦平方根转换法最为激进,对数转换法略保守,逻辑转换法最为保守,而双对数转换法最为稳健。结论 在进行多组间生存率比较时,当仅想比较多组间某固定点处生存率差异或者组间不满足成比例假设,可使用上述五种固定点检验法,其中优先建议使用双对数转换法。
固定点 多组间比较 生存率 Kaplan-Meier估计 Monte Carlo模拟
临床随访研究中,多组间生存率差异的比较是重要研究内容之一,当组间生存曲线交叉时,通常结果显示多组在整个随访期上是无统计学意义的,Liu[1]和Li[2]指出由于交叉而不满足风险率成比例假设,导致log-rank检验的检验效能降低,此时会掩饰有部分时间段或者某个有重要意义的时间点上有差异的事实。另外,相对于整个随访期内生存率的比较,有时候研究者感兴趣的是某个时间点上生存率的差异,如在第5年多组疗效的差异。例如在一项探究三类种族对淋巴细胞白血病预后影响的研究中,生存曲线大约在第5、10年出现交叉(图1)。经Grambsch-Therneau检验[3]发现三组间风险率不成比例(χ2=7.030,P=0.008),因此log-rank检验发现无统计学差异(χ2=3.500,P=0.177)的结果不可靠。除此之外,多条生存曲线存在交叉在临床研究中频繁出现,如Oosten[4]和Kawada[5]分别指出Llor等[6]和Benito-León等[7]的研究中由于三条生存曲线存在交叉,log-rank检验或Cox回归模型并不适用。另外,Iacobelli等[8]指出生存曲线发生交叉时比较整体上的差异并不是最重要的,可能更感兴趣的是某部分区域或者某些固定时间点上组间的差异问题。本文仅针对某些固定时间点上组间的差异进行探讨研究。
陈金宝等[9]介绍了基于对生存率进行不同形式转换,构造两组间固定点上生存率差异的多种检验法,但却无法直接比较多组(3组及以上)的情况。Klein等[10-11]虽然提到多组固定点生存率比较的问题,却没有尝试多种方法的转换校正。因此,本文将针对多组间固定点处生存率差异的比较及其多种转换方法展开研究。
方法介绍
假设在第k组(k=1,2,…,p)中,nk为该组样本量,tki表示该组第i个个体事件发生的时间,其中tk1<tk2<…<tkn,dki和Yki分别表示该组tki上的事件数和风险人数。Kaplan-Meier估计及其方差分别为^Sk(t)=
图1 不同种族下淋巴细胞白血病患者的生存曲线
在两条生存曲线某固定点的比较中[10],原假设为在某固定点t上,两组生存率相等,即S1(t)=S2(t)。设对第k组生存率的转换函数为φ,则生存率转换后形式为φ(^Sk(t)),对应方差为V[φ(^Sk(t))],检验法基本构造形式为:
在原假设成立的前提下,检验统计量Z服从自由度为1的χ2分布。为了将其推广到适应于多组固定时刻点上生存率的差异检验,此时的原假设H0为在某固定时间点t,多组生存率都相等,即S1(t)=S2(t)=…=Sp(t)。首先将公式(1)的分子部分扩充为一个含(p-1)个元素的向量,记为A,表示如下:
然后将公式(1)的分母部分扩充为一个(p-1)×(p-1)的方差协方差矩阵,记为∑。其中,∑的主对角线上元素为^V[φ(^Sk(t))]+^V[φ(^Sp(t))],k=1,2,…,p-1。非对角线上元素为^V[φ(^Sp(t))]。由此得到多组固定点上比较的统计量基本形式为:
在H0成立的前提下,检验统计量X(公式(3))服从自由度为(p-1)的χ2分布。
由于生存率不服从正态分布,并基于两组比较的研究[9-10],本文提出5种多组间固定点上生存率比较的检验方法,均构造不同的向量A(公式(2))以及对应的方差协方差阵∑,主对角线元素和非主对角线元素构造不同,最后代入公式(3)得到最终检验统计量X。
1.经典法(naive)
经典法中,向量A(公式(2))里的φ变换为φ(^Sk(t))=^Sk(t),则
∑矩阵主对角线上元素为^V[^Sk(t)]+^V[^Sp(t)],非对角线上元素为^V[^Sp(t)]。在H0成立的前提下,最终统计量服从自由度为(p-1)的χ2分布,下列检验法也全部服从自由度为(p-1)的χ2分布。
2.对数转换法(log)
3.双对数转换法(cloglog)
4.反正弦平方根转换方法(arcsin)
模拟研究
为了评价五种多组固定点检验法的性能,采用Monte-Carlo模拟研究各检验法的检验效能和一类错误,其中在检验效能方面,三组的生存时间均由指数分布产生(Exp(λk)),为控制生存曲线开口大小,选择不同参数(λ1=0.693,λ2=0.462,λ3=0.315)使得时间点为1时的生存率分别约为0.50,0.63,0.73(如图2),即相对于第一组而言,第二组HR=1.5,第三组HR=2.2;删失时间C均由指数分布产生。在一类错误方面,三组的生存时间均由参数为0.2的指数分布(Exp(0.2))产生,删失时间C由服从于U(0,a)、U(0,b)和U(0,c)的均匀分布产生。记录时间为t=min(T,C),δ=1[T≤C],通过改变删失时间分布参数,可使得每组的平均删失率相同且约为0、15%、30%、50%。通过预模拟发现,合并样本时间25%分位数近似为2,进而比较三组在时刻点为2时的生存情况。考虑样本均衡(n1,n2,n3均为30、60或100)和不均衡(n1=30,n2=n3=60;n1=n2=30,n3=60;n1=30,n2=60,n3=100)的情形,每一种参数组合下模拟10000次,显著水平α=0.05。
图2 检验效能模拟情形
表1展示的是一类错误模拟结果。naive转换法相比其他检验有更高的一类错误,arcsin转换法次之,且都高于检验水准0.05,易得出有差异的结果,其余三种检验法的一类错误均较小,显得稍微保守。随着样本量增加,五种检验法一类错误均越接近0.05,但在样本量不均衡时,log转换法的一类错误相对地出现较大上升,特别是在样本量为(30,60,100)时。
表2是五种方法检验效能的模拟结果。随样本量的增加和删失率的减少,五种检验法检验效能均呈上升趋势。naive转换法和arcsin转换法有较高的检验效能,cloglog转换法的检验效能比其余两种检验法的高。
综合一类错误和检验效能,以naive法和arcsin转换法最易得有统计学意义的结论,其余三种转换法显得相对保守,其中log转换法一类错误高于其余两组,但是检验效能却是最低的,显得最不易发现差异的存在,cloglog转换法显得最为稳健。
表1 五种检验方法一类错误模拟结果
表2 五种检验方法检验效能模拟结果
续表2
实例分析
本文分别提供满足和不满足风险率成比例假设的两个实例分析,用于进行多组生存曲线的固定点检验法的验证。
【例1】一项关于探究不同种族对淋巴细胞白血病预后影响的研究,即图1对应的实例。研究起点为初诊确认为淋巴细胞白血病,终点事件是患者发生死亡,其余为右删失。3类人种的平均生存时间分别约为5年、7年和8年,删失率分别约为25%、23%和26%。三组的log-rank检验结果(χ2=3.500,P=0.177)并不可靠,进一步对第3、5、10、15、20年进行固定点上生存率检验,结果显示除第5年和第10年无统计学差异外,其余时间点上均有。通过模拟发现,cloglog转换法所得到的结果最为稳健,故固定点检验结果以cloglog转换法为准。进一步选取有统计学差异的固定时间点,利用Bonferroni法进行多重比较,发现在第3年上黑种人和美国印第安人患者的预后情况(P=0.012)、第15年(P=0.033)和第20年(P=0.033)上黑种人和亚洲或太平洋岛民患者的预后情况具有统计学差异。
表3 例1的分析结果
【例2】一项关于三种疗法对白血病患者预后影响的研究,共纳入66名白血病患者,按所接受的不同疗法分为3个组别(图3):疗法1含25人,疗法2含19人,疗法3含22人,删失率分别约为5%、10%和11%,中位生存时间分别约为29天、75天和40天。三组满足风险率成比例假设(χ2=0.349,P=0.555),log-rank检验(χ2=5.600,P=0.061)显示不同疗法下的白血病患者生存率无统计学差异。但由图3观察发现三条曲线中后期开口较大,因此进一步对第25、50、75、100、150、200天进行固定点上生存率比较检验,发现在第75天、100天和150天存在差异。进一步选取有统计学差异的固定点,利用Bonferroni法进行多重比较,发现在第75天(P=0.050)、第100天(P=0.044)和第150天(P=0.034)上疗法1和疗法2下患者的预后情况具有统计学差异。
图3 不同疗法下白血病患者的生存曲线
表4 例2的分析结果
讨 论
多组间生存率比较是临床随访研究中最重要的研究内容之一,其中log-rank检验是整体差异检验的经典检验方法之一。但在进行多组间生存率比较时,仅对生存曲线上某固定点处的生存率差异感兴趣时,可使用本文所提出的固定点处多组间生存率比较的检验方法。同时,由本文模拟检验结果得到,在五种多组间的固定点检验方法中,以naive转换法和arcsin转换法较激进,log转换法和logit转换法较保守,以cloglog转换法最为稳健,建议使用cloglog转换法。
[1]Liu K,Qiu P,Sheng J.Comparing two crossing hazard rates by Cox proportional hazardsmodelling.Stat Med,2007,26(2):375-391.
[2]Li H,Han D,Hou Y,et al.Statistical inference methods for two crossing survival curves:a comparison ofmethods.PLoSOne,2015,10(1):e116774.
[3]Grambsch PM,Therneau TM.Proportional hazards tests and diagnostics based on weighted residuals.Biometrika,1994,81(3):515-526.
[4]van Oosten DC.Re:Efficacy of anti-inflammatory or antibiotic treatment in patients with non-complicated acute bronchitis and discoloured sputum:randomised placebo controlled trial.BMJ,2014.(http://www.bm j.com/content/347/bm j.f5762/rr/680601).
[5]Kawada T.Long sleep duration in elders without dementia increases risk of dementia mortality(NEDICES).Neurology,2015,85(4):388.
[6]Llor C,Moragas A,Bayona C,et al.Efficacy of anti-inflammatory or antibiotic treatment in patientswith non-complicated acute bronchitis and discoloured sputum:randomised placebo controlled trial.BMJ,2013,347:f5762.
[7]Benito-Leon J,Louis ED,Villarejo-Galende A,et al.Long sleep duration in elderswithout dementia increases risk of dementiamortality(NEDICES).Neurology,2014,83(17):1530-1537.
[8]Iacobelli S,EBMT Statistical Committee.Suggestions on the use of statisticalmethodologies in studies of the European Group for Blood and Marrow Transplantation.Bone Marrow transplantation,2013,48(1),S1-37.
[9]陈金宝,邱李斌,王北琪,等.固定点处组间生存率比较的统计检验法.中华流行病学杂志,2015,36(2):186-188.
[10]Klein JP,Logan B,Harhoff M,et al.Analyzing survival curves at a fixed point in time.Stat Med,2007,26(24):4505-4519.
[11]Klein JP,Moeschberger ML,et al.Survival Analysis:Techniques for cencored and truncated data.2th ed.New York:Springer,2003.234-238.
(责任编辑:邓 妍)
M ethods of Com paring M ultiple Survival Rates at a Fixed Time Point
Lv Jingjing,Chen Jinbao,Wu Tianm in,et al(Department of Biostatistics,School of Public Health,Southern Medical University(510515),Guangzhou)
Objective In comparing multiple survival curves at a fixed pointin time,log-rank test is inapplicable.Besides,its power would be worse in crossing survival curves because of notmeet the proportional hazard assumption.Hence,we use themethod of comparing survival rates at fixed point to dealw ith them.However,thismethod can only use for two groups.In view of the above,we considered the comparison of multiple survival curves at fixed point.M ethods We first proposed 5 methods to comparemultiple survival curves at fixed point(naive,log,cloglog,arcsin,logit).Monte Carlo simulationswere carried out to evaluate the type Ierror and power of thesemethods.Finally,we used two examples for analysis by using abovemethods.Results Comprehensive results of type Ierror and power,naive and arcsin were themost radical ways;log and logitwere more conservative;and cloglog was themost robust.Conclusion In comparison ofmultiple survival rates,someone can choose our methods of comparingmultiple survival curves at fixed-pointwhen these survival curves do notmeet the proportional hazard assumption or only interested at fixed-point in time.And we suggested cloglogmethod.
Fixed point;Comparison ofmultiple survival curves;Kaplan-Meier estimation;Monte Carlo simulations
国家自然科学基金(81673268),广东省自然科学基金(2017-1714050008015)
1.南方医科大学公共卫生学院生物统计学系(510515)
2.暨南大学经济学院统计学系
△通信作者:陈征,E-mail:zchen@smu.edu.cn