复合终点
2012-01-08彭菊聪孙甜甜田金徽杨启梅1张玲娟王丽君
彭菊聪 孙甜甜 李 伦 田金徽 杨启梅1, 张玲娟 王丽君
由于医疗技术的进步,继发于常见病的不良事件(如心肌梗死)发生率降低,这一点对患者是有益的。但对临床研究来说,事件低发生率却带来了更大的挑战,这意味着研究者需设计更大规模、更长时间的临床试验去评估新治疗措施的安全性和疗效,也就意味着花费更多的资金[1]。因此,研究者引入了复合终点(composite endpoints),即与临床相关的多个终点事件的合并,经常用作RCT的主要终点,可以提高结果指标统计效能[2]。复合终点在临床试验中广泛使用,尤其是在心血管疾病领域。如若将主要终点设置为心肌梗死、中风和死亡等复合终点,这时终点事件的发生率会提高,检验出统计学差异所需的样本量将大为减少,花费的时间和费用也将削减。此外,一项临床试验往往有多个结局指标,使用复合终点是用于处理具有多个结局指标的一种有效的方法。
1 复合终点的类型
复合终点基本有两种类型。第一类为等级量表(rating scale),即临床上所用的各种量表及评分系统,是由若干临床指标组成的复合终点。例如在抑郁研究中使用的汉密顿抑郁量表(HAMD)[3],主要用于精神病药物的临床试验。这种类型的复合终点是否适用取决于等级量表的信度和效度,信度和效度都较高的量表才能得出可靠的结论。第二类为多个事件发生率或至事件发生时间(time to the event),源于生存期分析,将几种终点事件合并定义一个复合终点。受试者只要出现了事先确定的构成变量列表(如死亡、心肌梗死或中风等)中的一个或多个事件,就认为复合终点发生[4],这种情况在心血管疾病临床试验中最常见,在其他疾病临床试验中使用也逐渐增多。复合终点是否有效,取决于构成指标是否具有临床相关性和临床意义。
2 构建复合终点条件
必须在临床试验开始前事先确定复合终点,并明确定义复合终点的各个组成变量[2]。只有满足以下条件才能使用复合终点:首先,干预措施对复合终点的构成指标影响一致,即各指标的相对危险度(RR)降低程度相似,避免选择对治疗不敏感的指标,否则会导致变异性增大,使不同治疗组之间优效性检验的敏感度降低。这主要根据既往同类型研究的经验判断,若经验难以判断,建议选择不同临床表现指标时,应基于相关病理生理过程的相似程度。第二,选择的终点指标的发生率应相近,若各指标发生率差别较大时,根据复合终点得出的结论可能会产生误导[1, 5]。如复合终点为“死亡或心绞痛”且只有几例患者死亡,根据复合终点得出治疗能降低病死率及减少心绞痛发作次数的结论不具有说服力,因为心绞痛发生率远高于病死率,关于病死率结果没有充分的数据支持。第三,各构成指标对患者有足够的重要性且重要程度相似,避免选择临床意义较小的指标[1, 6]。当各终点指标对患者的重要程度相似时,即使终点事件的发生率有一定差别,得出的临床结论依然有参考价值,只要干预措施对复合终点的影响是有益的,就认为该措施有效。若各指标的重要程度不相同时,则需要赋予不同的权重,权重的分配依据主观等级或客观标准,等级方案的制定根据本领域专家关于不同事件严重程度的评价及事件发生率大小[6];以明确治疗对各组分的影响程度。
3 复合终点的优势
首先,通过使用复合终点提高终点事件发生率,从而减少所需的样本量及降低成本,缩短试验周期[2, 4, 6, 7],这应是研究者选择复合终点最主要的原因。只要各构成指标风险降低或危险比相似,那么所需样本量通常比仅使用任何一个单独指标要小。例如,一项临床试验对照组某事件的发生率是5%,要观察到危险度(HR)为0.75时(效能80%,α=0.05),需要2 460例患者,如对照组该事件发生率为20%,则只需要780例患者。但在某些情况下,如果治疗对复合终点中的一个或多个事件无影响或影响较小,这种优势将会被削弱。
其次,由于各观察指标并不是相互独立的,选择多个指标作为主要终点指标时就会存在着竞争风险,虽然已有多种统计学方法可用于处理竞争风险,但至今仍然没有一种方法令人满意,此时使用复合终点可以避免竞争风险[6]。例如,一项关于晚期心力衰竭患者的临床试验,选择住院作为终点指标是不恰当的,因为部分患者入院前已经死亡,入院前死亡的患者与生存时间足够长的患者出现住院结局指标的概率不同,如由于死亡而删除的患者在两组分布不一致时,会导致对治疗效果的评估产生偏倚。假如干预措施减少了住院率却增加了病死率,仅用住院作为终点指标,就会误以为该措施有效。此时解决的办法就是使用复合终点,将死亡和住院这两个指标合并,避免了死亡成为住院的竞争风险事件。
第三,当几个结局指标的重要性相似时,选择终点指标有争议,此时使用复合终点可以避免选择主要结局指标的困惑[8, 9],而且使用复合终点能全面的评价干预措施的疗效,提高统计学效能,一个结局指标只能反映干预措施有效性和安全性的一个方面[10]。例如,溶栓治疗心肌梗死,能降低患者病死率但同时显著地增加出血及中风事件,如果仅用病死率作为终点指标,就不能观察到溶栓的不良反应。此外如使用多个终点指标,就需要对各指标进行多重比较,而使用复合终点则可以避免了对多个指标进行多重比较的麻烦[2]。但Neaton等[6]认为对同等重要的终点指标选择有困难时不能成为使用复合终点的理由。
4 复合终点的局限性
首先,使用复合终点最常见的缺陷是当治疗措施对各个终点指标的影响不一致时,即每个指标的发生率或RR降低程度存在很大差异,会削弱统计学效能,可能导致对结果解释产生误导[5, 10],最极端的情况是干预措施对构成指标的疗效截然相反[6]。如果某治疗措施能增加病死率,但对非致命的终点指标有很好的疗效,从复合终点上显示出整体效果是有利的,在这种情况下,使用复合终点会掩盖治疗措施对致命终点指标的不利影响。例如,一项关于糖尿病的RCT研究得出罗格列酮8 mg可使糖尿病高风险人群糖尿病发生率和病死率降低60%,但单独分析各终点事件,却发现罗格列酮使糖尿病发生率降低60%(RR=0.40,95%CI:0.36~0.46),但对病死率无显著影响(RR=0.91,95%CI:0.55~1.49)[11]。
其次,当各终点事件对患者重要性不一致时,对结果的解释可能有困难,而且制定复合终点也比较复杂,需要计算各指标的权重。通常最严重的事件往往与最低的发生率相联系,较不严重的事件发生率相对较高,这样干预措施对复合终点的影响主要由较不严重的事件决定,从而导致对治疗效果的错误评估、较重要变量的不良影响被整个复合终点的结局所掩盖[2, 8]。
第三,使用复合终点需要准确的确定每一个组成事件,而且为了得到干预措施对各组成事件影响的确切结论,需要调整Ⅰ类错误率[12]。因此不仅增加了研究者的工作量,也增加了准确计算事件发生率的资源投入。
5 报告复合终点
作者不仅要报告干预措施对复合终点的影响,同时也要对所有组成变量分别进行分析报道。例如,如果试验报道100例患者出现了复合终点(死亡、非致命心肌梗死或中风),那么还应当报道死亡事件、非致命心肌梗死或中风事件的发生数[13]。Freemantle等[2]主张将复合终点所包含的各组成事件作为试验的次要结局指标,并与复合终点的分析一起报告,最好列在同一个表格里。一方面为了确定干预措施对各构成指标的影响是否一致、判断是否有某个指标在复合终点中起主导作用,另一方面可以暴露出干预措施对某个指标是否有不利影响[4]。对复合终点结果的报道必须清晰详细,避免诸如单个指标显示有效的笼统描述[2, 12]。此外,还应随访患者至研究结束,以获得所有可能发生的事件,收集到全部的数据,即使是同一事件的重复发生,也能提高试验结果的精确度[6]。如患者出现非致命中风后,应继续随访观察是否再次出现中风或其他事件。Lubsen等[13]建议根据构成指标重要性不同分为不同的等级水平:等级一,全因病死率;等级二,病因别病死率;等级三,非致命的临床事件;等级四,症状、体征和临床相关指标。分别报道各构成指标所有可能的组合,如患者死亡但没有住院、住院后死亡、住院后存活、其他。如仅报道总病死率及住院率,会歪曲试验结果的真实性,高估或低估干预措施疗效。
6 复合终点的应用情况
复合终点已被广泛应用于临床试验,尤其是心血管疾病临床试验。Freemantle等[2]检索了1997至2001年发表于Lancet、AnnalsofInternalMedicine、Circulation、BritishMedicalJournal、JAMA、ClinicalinfectiousDiseases、JournaloftheAmericancollegeofCardiology、NewEnglandJournalofMedicine和Stroke9种高影响力杂志的RCT,共检出167篇文献(包括300 267例患者)使用复合终点,其中心血管疾病领域107篇(64.1%),肿瘤领域15篇(9%),其他疾病如糖尿病、白血病、周围血管疾病等应用相对较少。 Lim等[14]对复合终点在心血管疾病临床试验中的应用情况进行系统回顾,检索了2000至2007年发表于心血管领域的14种杂志,共检索出1 231篇RCT,其中454篇(37%)采用复合终点,排除非两组平行对照试验150篇后,221/304篇(73%)使用复合终点作为主要结局指标,83篇(27%)作为次要结局指标。复合终点平均由3个事件构成,死亡事件是最常用的构成指标,常被定义为“全因死亡”。
复合终点虽然在临床试验被大量采用,但由于使用不规范,存在诸多问题。研究显示,由于复合终点变量构成不合理,最常见各组成事件的重要性及发生率不一致,复合终点定义前后不一致以及结果报道不全面等,常误导读者并夸大了干预措施的疗效。Cordoba等[15]纳入于2008年发表的采用复合终点的40篇RCT研究,发现仅有1项试验对构成变量的选择进行说明,6项试验复合终点各组成指标的临床重要性相近并进行可靠评估,28项(70%)试验组成指标的重要性不合适等,其中20项将病死率与住院率组合,13项试验在摘要、方法、结果部分对复合终点的定义不相同。Ferreira-Gonzalez等[16]对2001至2003年发表于6种影响力较高杂志的心血管疾病RCT进行评估,发现114项试验采用复合终点,其中79项(69%)试验由药厂提供资金赞助或者提供药物及设备,大部分试验仅报道复合终点。
7 复合终点应用实例(HOPE试验[17])
在HOPE试验中,9 297例具有冠状动脉疾病高危因素的患者随机分为雷米普利组(4 645例)和安慰剂组(4 652例),平均随访5年,由于心血管疾病死亡、心肌梗死、中风临床重要性相近,故将三者合为复合终点。雷米普利组和安慰剂组分别有651例、826例出现复合终点结局指标(死于心血管疾病或出现中风或发生心梗)。雷米普利组出现心血管疾病死亡、心肌梗死、中风分别为282例、459例、156例,3个结局指标的发生情况之和为897,大于复合终点指标发生数(表1),同样见于安慰剂组。1例患者发生心肌梗死后,有可能出现中风,然后死于心血管疾病。若采用复合终点对于同一患者只记录1次,但若采用单个指标则需要记录了3次。因此在使用复合终点时,还需要记录每个构成变量发生情况,本试验即为患者死于心血管疾病及出现中风、心肌梗死的例数。在结果分析中评估雷米普利的疗效,不仅报道其对复合终点的影响,同时还应该分别报道其对各组成指标的影响。
表1 HOPE试验中主要结果指标和死亡病例(n)
8 结论
复合终点就像一把双刃剑[12],能提高事件发生率从而减少了所需的样本量,可提高统计学效能及评估干预措施的净临床效益,但前提是要满足构建复合终点的条件。若各构成指标对患者重要性不一致及治疗对各指标的影响不一致时,依然使用复合终点作为终点指标,不仅不能发挥其优势,反而会增加所需的样本量,并导致解释结果困难,甚至得出错误的结论,误导临床医师及患者。因此,在确定终点指标之前,应对各组成指标进行仔细地评价,如不满足条件,不能勉强使用复合终点。
[1]Montori VM, Permanyer-Miralda G, Ferreira-González I, et al. Validity of composite end points in clinical trials. BMJ, 2005,330(7491):594-596
[2]Freemantle N, Calvert M, Wood J, et al.Composite outcomes in randomized trials: greater precision but with greater uncertainty?JAMA, 2003,289(19):2554-2559
[3]Behnke K, Sogaard J, Martin S, et al. Mirtazapine orally disintegrating tablet versus sertraline: a prospective onset of action study. J Clin Psychopharmacol, 2003,23(4):358-64
[4]Chi GY. Some issues with composite endpoints in clinical trials. Fundam Clin Pharmacol,2005,19(6):609-619
[5]Ferreira-Gonza L, Permanyer-Miralda G, Busse JW, et al. Composite endpoints in clinical trials: the trees and the forest. J Clin Epidemiol, 2007,60(7):660-661
[6]Neaton JD, Gray G, Zuckerman BD, et al. Key issues in end point selection for heart failure trials: composite end points. J Card Fail, 2005,11(8):567-575
[7]Braunwald E, Cannon CP, McCabe CH. An approach to evaluating thrombolytic therapy in acute myocardial infarction. The 'unsatisfactory outcome' end point. Circulation, 1992,86(2):683-687
[8]Carneiro AV. Composite outcomes in clinical trials: uses and problems. Rev Port Cardiol,2003,22(10):1253-1263
[9]Freemantle N, Calvert M. Weighing the pros and cons for composite outcomes in clinical trials. J Clin Epidemiol, 2007, 60:658-659
[10]Cannon CP. Clinical perspectives on the use of composite endpoints. Control Clin Trials, 1997,18(6):517-529
[11]Tomlinson G, Detsky AS. Composite end points in randomized trials: there is no free lunch. JAMA, 2010,303(3):267-268
[12]Ferreira-González I, Permanyer-Miralda G, Busse JW, et al. Methodologic discussions for using and interpreting composite endpoints are limited, but still identify major concerns. J Clin Epidemiol, 2007,60(7):651-657
[13]Lubsen J, Kirwan BA. Combined endpoints: can we use them? Stat Med,2002,21(19):2959-2970
[14]Lim E, Brown A, Helmy A, et al. Composite outcomes in cardiovascular research: a survey of randomized trials. Ann Intern Med, 2008,149(9):612-617
[15]Cordoba G, Schwartz L, Woloshin S, et al. Definition, reporting, and interpretation of composite outcomes in clinical trials: systematic review. BMJ,2010,341:1-7
[16]Ferreira-González I, Busse JW, Heels-Ansdell D, et al. Problems with use of composite end points in cardiovascular trials: systematic review of randomised controlled trials. BMJ, 2007,334(7597):1-7
[17]Yusuf S, Sleight P, Pogue J, et al. Effects of an angiotensin-converting-enzyme inhibitor, ramipril, on cardiovascular events in high-risk patients. The Heart Outcomes Prevention Evaluation Study Investigators. N Engl J Med, 2000,342(3):145-153