Ⅱ/Ⅲ期无缝临床试验中合并检验法与改良法的比较*

2015-01-27南京医科大学流行病与卫生统计学系211100

中国卫生统计 2015年5期

关键词：改良法检验法无缝

南京医科大学流行病与卫生统计学系(211100)

曹金金刘丽亚赵杨陈峰于浩△

Ⅱ/Ⅲ期无缝临床试验中合并检验法与改良法的比较*

南京医科大学流行病与卫生统计学系(211100)

曹金金刘丽亚赵杨陈峰于浩△

目的研究Ⅱ/Ⅲ期无缝设计中最常用的合并检验法与最新提出的改良法的统计学特性，推荐选择较优的分析方法。方法系统地回顾无缝设计的基本设计思路和统计分析方法，采用计算机模拟技术，分别研究两种统计分析方法的总I类错误和检验效能。结果合并检验法和改良法相比，两者在控制总I类错误方面无明显差异，但在检验效能方面，合并检验法始终优于改良法。结论建议优先选择合并检验法进行Ⅱ/Ⅲ期无缝临床试验的统计分析。

Ⅱ/Ⅲ期无缝设计早期结局指标主要结局指标合并检验法改良法

传统的临床试验设计思路清晰，目的明确，但存在试验周期长、较多受试者可能长时间暴露于疗效差的试验组等缺陷。Bauer和Kieser于1999年首次提出将Ⅱ期和Ⅲ期临床试验联合设计并实施的思想[1]，后经Gallo等人推广应用。临床试验的Ⅱ/Ⅲ期无缝设计(seamless phase Ⅱ/Ⅲ trial design)是指将原本在Ⅱb期和Ⅲ期临床试验中独立的几个研究整合在一个完整的试验中。良好的Ⅱ/Ⅲ期无缝设计可以合理控制I类错误，充分利用手头信息，减少受试者人数和暴露于低效组的时间，缩短研发周期，使真正有效的药物尽快上市[2]。

目前为止已有很多学者发表了关于无缝设计统计分析方法的论著，这些方法包括Stallard和Todd提出的成组序贯法[3]、Bauer和Keiser提出的合并检验法[1]、 Koenig等人提出的适应性Dunnett法[4]以及Wu Yujun等人提出的改良法[5]。本文采用Monte Carlo模拟分析探讨最常用的合并检验法与最新提出的改良法的统计学特性，推荐选择较优的分析方法。

设计原理

Ⅱ/Ⅲ期无缝设计分两个阶段，即探索阶段和确证阶段。探索阶段一般有多个治疗组，例如多个剂量组，或多个用药方案组，外加一个或多个对照组。探索阶段结束时进行期中分析，选择疗效好、安全性佳的治疗组，连同对照组一起进入确证阶段继续研究，而疗效差、安全性差的治疗组则终止。确证阶段结束时合并两阶段的信息进行统计分析。流程见图1。

不同统计检验方法

1.改良法

Pr(Z1,n

(1)

由于只有第一试验组进入第2阶段研究，只需针对该试验组进行假设检验，原假设表示为H10∶θ1=0。此时，拒绝全局假设H0等价于拒绝H10。若只有第二试验组进入确证阶段研究，分析思路与情形A1类似。

2.合并检验法

Bauer和Kieser于1999年提出通过合并检验的方法进行数据的统计分析[1]，主要是先分别求得各阶段独立数据的P值，最后分析时将各阶段P值进行合并，并做出统计推断。合并P值的方法有很多，本文采用加权逆正态法[6]：

C(P1,P2)=1-Φ[w1Φ-1(1-P1)+w2Φ-1(1-P2)]

(2)

期中分析时将每个试验组与对照组比较，选择统计量最大的试验组进入确证阶段研究。

合并检验法和改良法的主要区别可以概括为：

(1) 期中分析时，合并检验法基于疗效指标数据进行假设检验，根据统计量的大小筛选优效试验组。改良法不进行假设检验，根据每组样本的疗效均值大小筛选优效试验组。

(2) 最终统计分析时，合并检验法将根据各阶段独立数据计算的P值合并，从而做出统计推断。改良法是在获得调整的统计量的条件分布基础上进行统计分析。

模拟评价

1.模拟试验A

试验的第一阶段设有2个试验组和1个对照组，各组间样本比为1∶1∶1，期中分析时根据早期结局指标选择最优试验组进入第2阶段研究，不考虑早期终止。模拟试验中，计划第1阶段每组样本量为200，第2阶段每组样本量也为200。由于本文不讨论样本量的影响，所以给予一个较大的样本量以保证在特定的参数组合下样本量满足分析要求。

(1)试验目的

考察两指标相关系数、早期结局指标表示的疗效均值差对两种方法总I类错误的影响。

(2)参数设置(见表1)

(3)试验步骤流程见图2。

(4)试验结果

表2的结果表明，合并检验法和改良法估计的总I类错误率都控制在0.025范围内。随着相关系数ρ的降低，总I类错误率也随之降低，结果越来越保守。这种保守性源自于期中分析时是基于早期结局指标数据进行组别筛选的，目的是选出主要结局指标估计的最优组进入第二阶段研究。当ρ=0时，两指标相互独立。当ρ>0时，两指标正相关，基于早期结局指标数据进行组别筛选的结果一定程度上与基于主要结局指标数据进行组别筛选的结果相一致，从而降低了保守性。随着相关系数增大，保守性逐渐降低。类似地，当ρ<0时，两结果是背离的，保守性会增大。ρ取不同值时，合并检验法和改良法相比，总I类错误无明显差异。

总I类错误虽未出现膨胀，但相较于理论值还是偏小的，说明试验犯第二类错误的风险增大。针对这个问题，我们进行了模拟试验B的研究。

2.模拟试验B

(1)试验目的

考察两指标相关系数、主要结局指标表示的疗效均值差对两种方法检验效能的影响。

(2) 参数设置

(3) 试验步骤

(4) 试验结果

综上，合并检验法和改良法相比，两者在控制总I类错误方面无明显差异，但在检验效能方面，合并检验法始终优于改良法。因此，建议采用合并检验法进行Ⅱ/Ⅲ期无缝临床试验的统计分析。

讨论

Ⅱ/Ⅲ期无缝设计由于其灵活、科学且符合伦理的特点，受到临床研究者和制药企业的重视，也有了一些成功的应用，如Barnes等人探讨了茚达特罗(indacaterol)治疗慢性阻塞性肺病(COPD)[11]；Friede等人将这种方法应用于多发性硬化症的研究[12]；Lu等人用于对前列腺癌的研究[13]。目前为止，无缝设计尚未得到广泛应用。其主要原因在于，这种方法在研究设计与统计分析方面仍然存在一些尚未解决的问题，而且尚未被相关管理部门正式认可[14]。

本文对Ⅱ/Ⅲ期无缝设计中最常用的合并检验法与最新提出的改良法的统计学特性进行了研究。模拟设计时，没有考虑样本量的影响。样本量越大，期中分析时筛选出有疗效组别的概率越高，最终统计分析时的检验效能越大。两种统计方法在样本量取不同值时的性能比较，还有待进一步研究。闭合检验原则和多重比较校正方法的应用使得总I类错误控制在原先设定的检验水准范围内。利用早期结局指标作为替代指标进行期中分析的组别筛选，两指标间的相关性越大，控制总I类错误的结果越理想；当试验药有疗效时，早期结局指标表示的疗效均值差越大，该试验组被选择的概率越高，检验效能也越高。改良法与合并检验法相比，在控制总I类错误方面无明显差异，但检验效能始终低于合并检验法。两种方法在期中分析组别筛选和最终统计分析的原理不同，改良法未能达到“改良”的目的，优先推荐选择合并检验法进行Ⅱ/Ⅲ期无缝临床试验的统计分析。

临床试验研究除了想获得试验结束时计算的确证的P值，还需找到疗效的点估计及可信区间。目前在研究疗效的点估计和可信区间的方法方面已取得一些成果[15-16]，但仍存在偏性较大的问题，还有待改进。

本研究的模拟试验，虽然已经尽可能地考虑了其代表性，但是也难以包含所有的复杂情况，有待进一步研究。如期中分析时，综合考虑疗效和安全性因素，选择多个试验组连同对照组进入确证阶段研究；其他类型的资料(如定性资料、生存资料)分析结果如何；实际工作中可能遇到的问题(如入组率、失访率、随访时间长短)对上述方法统计学性质的影响等。

[1]Bauer P,Kieser M.Combining different phases in the development of medical treatments within a single trial.Stat Med,1999,18(14):1833-1848.

[2]Bretz F,Schmidli H,König F,et al.Confirmatory seamless phase Ⅱ/Ⅲ clinical trials with hypotheses selection at interim:general concepts.Biom J,2006,48(4):623-634.

[3]Stallard N,Todd S.Sequential designs for phase Ⅲ clinical trials incorporating treatment selection.Stat Med,2003,22(5):689-703.

[4]Koenig F,Brannath W,Bretz F,et al.Adaptive Dunnett tests for treatment selection.Stat Med,2008,27(10):1612-1625.

[5]Wu Y,Zhao PL.Interim treatment selection with a flexible selection margin in clinical trials.Stat Med,2013,32(15):2529-2543.

[6]Mosteller F,Bush RR,Green BF.Selected quantitative techniques.London:Addison-Wesley,1970.

[7]Marcus R,Peritz E,Gabriel KR.On closed testing procedures with special reference to ordered analysis of variance.Biometrika,1976,63(3):655-660.

[8]Dunnett CW.A multiple comparison procedure for comparing several treatments with a control.J Am Atat Assoc,1955,50:1096-1121.

[9]Friede T,Stallard N.A comparison of methods for adaptive treatment selection.Biom J,2008,50(5):767-781.

[10]Todd S,Stallard N.A new clinical trial design combining phases Ⅱ and Ⅲ:Sequential designs with treatment selection and a change of endpoint.Drug Inf J,2005,39:109-118.

[11]Barnes PJ,Pocock SJ,Magnussen H,et al.Integrating indacaterol dose selection in a clinical study in COPD using an adaptive seamless design.Pulm Pharmacol Ther,2010,23(3):165-171.

[12]Friede T,Parsons N,Stallard N,et al.Designing a seamless phase Ⅱ/Ⅲ clinical trial using early outcomes for treatment selection:an application in multiple sclerosis.Stat Med,2011,30(13):1528-1540.

[13]Lu M,Freytag SO,Stricker H,et al.Adaptive seamless design for an efficacy trial of replication-competent adenovirus-mediated suicide gene therapy and radiation in newly-diagnosed prostate cancer(ReCAP Trial).Contemp Clin Trials,2011,32(3):453-460.

[14]Stallard N.A confirmatory seamless phase Ⅱ/Ⅲ clinical trial design incorporating short-term endpoint information.Stat Med,2010,29(9):959-971.

[15]Bebu l,Luta G,Dragalin V.Likelihood inference for a two-stage design with treatment selection.Biom J,2010,52(6):811-822.

[16]Stallard N,Todd S.Point estimates and confidence regions for sequential trials involving selection.Journal of Statistical Planning and Inference,2005,135(2):402-419.

(责任编辑：郭海强)

The Comparison of Combination Test Approach and Modified Test Approach in Seamless Phase Ⅱ/Ⅲ Trial

Cao Jinjin，Liu Liya，Zhao Yang，et al.

(Department of Epidemiology and Biostatistics，School of Public Health，Nanjing Medical University(211100),Nanjing)

Objective To compare the combination test approach,the most commonly used method and the recently proposed modified test approach in the analysis of seamless phase Ⅱ/Ⅲ clinical trials.Methods The basic principle of seamless design and two statistical methods were reviewed.Simulation studies were then used to understand the power and the family-wise type I error rate in different scenarios.Results There is no significant difference between combination test approach and modified test approach in terms of controlling family-wise type I error rate.However,combination test approach always shows higher power.Conclusion When conducting statistical analysis of a seamless phase Ⅱ/Ⅲ trial design,combination test approach has the priority.

Seamless phase Ⅱ/Ⅲ design; Early endpoint; Primary endpoint; Combination test approach; Modified test approach

国家自然科学基金(81273184)

△通信作者：于浩，E-mail：njyuhao@vip.sina.com