临床试验中救助治疗对临床效应评价的影响研究*
2015-01-27阎小妍
曾 新 姚 晨,△ 郭 翔 阎小妍
·论著·
临床试验中救助治疗对临床效应评价的影响研究*
曾 新1姚 晨1,2△郭 翔3阎小妍2
目的 本文引入秩方法对含有救助治疗的临床试验疗效结果进行分析,并与目前国内常用方法进行比较,为分析该类数据选择合适的方法提供统计学依据。方法 采用Monte Carlo模拟的方法,考虑调整患者不同时点观测值之间的相关系数和救助阈值,分析疗效评价的Ⅰ型错误和检验效能,并与目前国内常用的完整案例分析和末次观测结转法进行比较。结果 Ⅰ型错误方面,当救助比例在20%左右时,不同方法差异较小,当救助比例较大时,按时间和末次观测值调整的秩方法是最佳的方法。效能方面,当救助比例小于40%时,所有方法效能均大于0.8,当救助比例较大时,按末次观测值调整的秩方法是最佳的方法。结论 在实际研究过程中,需要根据实际情况选择合适的分析方法,而不是直接采用完整案例分析和末次观测结转法,以得到更有效的结果。救助治疗的分析方法可以为安慰剂对照试验提供一种新的设计和分析思路。
救助治疗 秩方法 Ⅰ型错误 检验效能
在临床试验中,有时为保护受试者,在方案中会规定可合并的治疗(或者用药),一类是基础治疗,还有一类是在受试者指标达到警戒时的紧急救助治疗。在临床研究中,如果药物疗效不佳,患者可能会发生危险,这时需要研究者事先规定好一个阈值,一旦患者的主要指标达到该阈值,就对该患者采用预先规定好的救助方式进行治疗。
显然,救助治疗后的试验观测值无法准确反映试验药物的真实效果,因为反映的是试验药物和救助药物的疗效总和。一般而言,救助治疗会使得观察到的治疗效果比未经救助时的结果更好,救助治疗对疗效带来的有利影响会减弱组间差异[1]。
在试验规模较大或救助治疗比例较小时,研究者可能忽略救助治疗对结果的影响,直接分析观测到的数据。如果研究者认为救助治疗会对疗效分析产生影响,一般的思路是将救助治疗后的数据视为缺失值,因此处理救助治疗的办法也就是常见的处理缺失数据的办法。如果将救助治疗之后的数据看作缺失,可以发现这种缺失往往属于随机缺失(missing at random,MAR)[2],因为救助治疗的发生与救助前的观测值密切相关,但与救助后的观测值无关。
在救助治疗数据处理上,目前国内广泛采用的方法是完整案例分析(complete case analysis,CC)和末次观测结转法(last observation carried forward,LOCF)[3]。这两种方法都简单易行,但都是基于完全随机缺失(missing completely at random,MCAR)的机制[4-5],用来分析救助治疗并不合适。多重填补法(multiple imputation,MI)和重复测量的混合模型(mixed-effects model repeated measures,MMRM)是两种适用MAR机制的缺失数据处理的方法[6-8],但处理方式相对复杂,在国内使用较少。
目前国内外针对救助治疗数据处理的研究文献很少,White提出了一种秩方法的思路[1]。在临床试验中,救助治疗本身有时可以被看作是一种“坏”的结果,因为暗示着试验药物的真实治疗效果并不乐观。为此,一个合理的思路是给接受救助治疗的患者安排一个相对靠后的秩[9]。
对象与方法
1.改进的秩方法
对于未经过救助治疗的患者,他们的观测值都能反映所用药物的真实疗效。在最坏秩假设中,所有接受过救助治疗的患者的秩是一样的,这样并不合理。所以改进的思路在于给这些患者排序。在最坏秩方法的基础上还可以进一步提出三个假设。
对于所有接受过救助治疗的患者:
1.末次观测值越大,说明潜在结果越坏;
2.救助之前最后一次观测的值越大,说明潜在结果越坏;
3.救助时间越早意味着潜在结果越坏。
2.模拟研究方法
本研究共模拟比较以下几种方法:
(1) 完整案例分析(CC);
(2) 末次观测结转(LOCF);
(3) 秩方法。
下面通过模拟一项降血糖的研究来比较各方法。数据模拟的一个优势在于,我们事先知道试验药物和对照药物的实际疗效,因此可以将前面提到的方法的结果与真实数据(REAL)的结果进行比较。设该研究共有10个访视点,主要指标是末次访视点的糖化血红蛋白(HbA1c)。
数据模拟由计算机完成,模拟数据的软件采用R 2.15.0。组间比较均采用Wilcoxon秩和检验。本研究设定的模拟次数为5000次,样本量设定为100人,两组各50人。
假定没有救助治疗时,各组患者不同时点的HbA1c值服从多元正态分布。根据以往试验得到的数据,糖尿病患者基线时的HbA1c均值为9,同一患者不同时点HbA1c值之间的相关系数约为0.7,不同患者HbA1c值的标准差约为1.2,据此可以设置分布的均值向量和协方差矩阵。
我们规定,从第4个访视点开始,如果某位患者的HbA1c值大于设定的救助阈值,将对其采取指定的救助治疗。同样假设各访视点HbA1c的下降值服从正态分布,通过设置均值向量和标准差可以模拟该分布。
模拟结果
1.Ⅰ型错误的模拟比较
(1) 参数设置
在比较Ⅰ型错误时,模拟比较的两组在末次访视点的疗效应无差异,为此设在末次访视点两组的HbA1c均值为9.5。检验一类错误率时的具体参数见下表1。
对模拟产生的数据集用各方法进行分析,计算所有的模拟检验中出现阳性结果(P≤α)的比例即该方法的Ⅰ型错误水平[10]。
(2) 模拟结果
从表2可以看出,随着同一患者不同时点HbA1c值之间的相关系数增大,按时间和末次观测值调整的秩方法(ARTLV)始终是最佳的方法,因为该方法的Ⅰ型错误最小且最接近真实数据(REAL)的结果;完整案例分析(CC)的Ⅰ型错误在相关系数为0.9时突然增大;末次观测结转法(LOCF)的Ⅰ型错误有逐渐减小的趋势;在相关系数为0.9时除CC和按救助前最后一次观测值调整的秩方法(ARLV-BR)之外其余方法的Ⅰ型错误都很接近。
从表3可以看出,随着救助阈值的增大,按时间和末次观测值调整的秩方法(ARTLV)始终是最佳的方法,该方法的Ⅰ型错误保持在0.05~0.06之间;完整案例分析(CC)的Ⅰ型错误在0.05~0.07之间波动;末次观测结转法(LOCF)的Ⅰ型错误逐渐减小;在救助阈值为11时各方法的Ⅰ型错误都很接近。
从表2和表3可以看出,从控制Ⅰ型错误的角度看,按时间和末次观测值调整的秩方法(ARTLV)始终是最佳的方法,但是当救助阈值达到11或者相关系数达到0.9时,LOCF方法和秩方法的Ⅰ型错误差异不大。同时,随着救助阈值的增大和相关系数的增大,不同方法Ⅰ型错误的变化情况是相似的。事实上,救助阈值的增大和相关系数的增大,都将导致患者的救助比例减小,当救助比例足够小时,不同方法之间的自然不会有明显差异。进一步分析救助比例与Ⅰ型错误的关系见表4。可以发现,当救助比例在20%左右时,LOCF方法得到的 Ⅰ 型错误和其他方法与秩方法差异不大,从简单易行的角度考虑,LOCF是更合适的方法。
2.检验效能的模拟比较
(1) 参数设置
在比较检验效能(1-β)时,模拟比较的两组在末次访视点的疗效应有差异,为此设在末次访视点试验组的HbA1c均值为8.5,对照组为9.5。检验检验效能时的具体参数见下表5。
对模拟产生的数据集用前文所述的方法进行分析,计算所有的模拟检验中出现阳性结果(P≤α)的比例即该方法的检验效能。
(2) 模拟结果
由表6可以看出,随着同一患者不同时点HbA1c值之间的相关系数的上升,除真实数据(REAL)的结果外,按末次观测值调整的秩方法(ARLV)始终保持效能最大,是最佳的方法,其次是按时间和末次观测值调整的秩方法(ARTLV);CC是效能最低的方法,这是因为CC会减少样本量,自然导致效能降低;其他秩方法和LOCF的检验效能差异很小。
不同方法的检验效能与救助阈值的关系和与相关系数的关系类似,见表7,最佳方法是按最后一次观测值调整的秩方法(ARLV),其次是按时间和最后一次观测值调整的秩方法(ARTLV),CC最差,其余方法差异很小。
不同方法的检验效能与救助阈值的关系和与相关系数的关系类似,见表7,最佳方法是按最后一次观测值调整的秩方法(ARLV),其次是按时间和最后一次观测值调整的秩方法(ARTLV),CC最差,其余方法差异很小。
从效能最大的角度看,最佳方法始终是按末次观测值调整的秩方法(ARLV),其次是按救助时间和末次观测值调整的秩方法(ARTLV)。同样地,当救助比例很小时,不同方法得到的检验效能差距不大,见下表8。当救助比例小于40%时,所有方法的检验效能均大于0.8,从检验效能的角度看,这时所有方法均可以选择。
讨论与结论
如前所述,国内大多直接采用处理缺失数据的方法处理救助治疗数据。然而救助治疗不同于一般的缺失数据,首先救助治疗不符合完全随机缺失的假定,而这是目前国内常用处理方法CC的基本假设[11]。更重要的是,救助后的观测值并不是缺失,而是确实存在的,只是其中混杂了很多信息救助药物的信息。如果能从中提取出试验药物的信息,就可以最大化的利用所有数据。然而,缺失数据的分析方法,无论是简单的LOCF还是复杂的MMRM都不可能利用到救助后的信息。
Ⅰ型错误和检验效能是反映一种检验方法是否合理的两个重要指标。笔者考察了预先设定的救助治疗对临床效应评价的影响,模拟比较了完整案例分析、末次观测结转和秩方法。模拟结果说明,当救助治疗的比例在20%左右时,从方便实施的角度考虑,LOCF方法是可行的;当救助治疗比例大于30%时,使用笔者提出的按末次观测值调整的秩方法(ARLV)和按救助时间和末次观测值调整的秩方法(ARTLV)是更好的选择。考虑到一类错误率的上升意味着认为假药有效的可能性上升,而检验效能说明的是有效的药物不能上市的风险,药监局往往更关心前者。从这个角度看,按救助时间和末次观测值调整的秩方法(ARTLV)是最佳方案。
预设救助治疗的思路可以被应用到安慰剂对照试验中。对于有公认疗法的疾病,不顾拖延治疗的后果,采用安慰剂对照的做法常常被认为是不符合伦理的[12]。一个临床试验如果能够显示出试验药优于对照药,便能为试验药的有效性提供足够证据,不需要外部信息的支撑。而一个阳性对照的“等效性”试验本身并不能证明新疗法的有效性,因为“等效性”也可以指两种药均无效,为了得出结论还需要外部信息证明阳性对照药的有效性[12]。
因此,从疗效评价的角度,安慰剂对照试验比阳性药对照试验更可靠。但正如前文所说,安慰剂对照常常被认为是不伦理的[13]。因为安慰剂组的患者,很有可能出现病情加重的情况,特别是对于亟需及时治疗的疾病。这时为了保护患者,可以预先在临床试验中设计救助治疗机制,如果出现问题便会采用救助治疗。预设救助治疗的安慰剂对照试验是符合伦理的,但是目前国内常用的分析方法并不合适。常用方法之一是将救助治疗的患者视为脱落,最后比较两组的脱落率,这样的分析方式会降低样本量,进而降低检验效能。同时,如果救助治疗比例大于20%,脱落率也将大于20%,高脱落率可能导致整个试验设计被质疑。
本研究讨论的救助治疗的分析方法可以为安慰剂对照试验提供一种新的设计和分析思路。对于安慰剂对照试验,如果预先设定好救助治疗机制,并在试验过程中详细记录各时间点信息,对于救助后的患者,也不将其视为脱落,而是继续记录其各时间点的数值,最后,在分析阶段,就可以选择恰当的方式对结果进行分析。我们希望通过本研究能够促进大家对于救助治疗的理解,期待同行的后续深入研究和探讨。
[1]Ian RW,Christina B,Pollyanna H,et al.Randomized clinical trials with added rescue medication:some approaches to their analysis and interpretation.Statistics in Medicine,2001,20(20):2995-3008.
[2]唐健元,杨志敏,杨进波,等.临床研究中缺失值的类型和处理方法研究.中国卫生统计,2011,28(3):338-343.
[3]陈渊成,张菁.确证性临床试验中数据缺失的处理指南.中国新药杂志,2012,21(7):732-736.
[4]European Medicines Agency.Guideline on missing data in confirmatory clinical trials.Committee for Medical Product for Human Use:London,2010.
[5]庞新生.缺失数据处理方法的比较.统计与决策,2010(24):152-155.
[6]Ohidul S,HM James Hung,Robert O′Neill.MMRM vs.LOCF:a comprehensive comparison based on simulation study and 25 NDA datasets.Journal of Biopharmaceutical Statistics,2009,19(2):227-246.
[7]Ohidul S.MMRM versus MI in dealing with missing data-a comparison based on 25 NDA data sets.Journal of Biopharmaceutical Statistics,2011,21(3):423-436.
[8]Donald BR.Multiple imputation for non-response in surveys,vol.307.New York:Wiley,2009:15-17.
[9]John ML.Worst-rank score analysis with informatively missing observations in clinical trials.Control Clin Trials,1999,20(5):408-422.
[10]Andrea B,Douglas GA,Patrick R,et al.The design of simulation studies in medical statistics.Statistics in Medicine,2006,25(24):4279-4292.
[11]Roderick JA Little,Donald BR.Statistical analysis with missing data,vol.539.New York:Wiley,1987:7-10.
[12]Temple R,Ellenberg SS.Placebo-controlled trials and active-control trials in the evaluation of new treatment.中美生物医学和健康研究伦理学高级研修培训班论文集,2005.
[13]王晓敏.安慰剂对照试验的伦理辩护.论理学研究,2013(2):124-127.
(责任编辑:郭海强)
Research on the Impact of Rescue Therapy to the Evaluation of Clinical Effects in Clinical Trials
Zeng Xin,Yao Chen,Guo Xiang,et al.
(Medical Statistics office,Peking University First Hospital,Peking University(100034),Beijing)
Objective Author introduces and improves rank method to analyze the results of clinical trials containing rescue therapy,compares it with the conventional methods and provides statistical basis for the analysis of such data to select the appropriate method.Methods Through Monte Carlo simulation,consider adjusting the correlation coefficient of the observed values of the same patient at different points and rescue threshold,compare type I error and power of efficacy evaluation among rank method and conventional methods (complete case analysis (CC) and last observation carried forward (LOCF)).Results In terms of type I error,when the rescue proportion is about 20%,the difference between different methods is small;when the rescue proportion is large,rank method adjusted with time and last visit (ARTLV) is the best choice.In terms of power,when the rescue proportion is less than 40%,the power of all methods is larger than 0.8,when the rescue proportion is large,rank method adjusted with last visit (ARLV) is the best choice.Conclusion Researchers should select appropriate method based on actual situation to get accurate results.It′s ethical to set rescue therapy in placebo-controlled trials,so analysis method of rescue therapy can provide a new idea for the design and analysis of placebo-controlled trials.
Rescue therapy;Rank method;Type I error;Power
自身免疫性疾病和病毒性肝炎等重大疾病的国际化新药临床评价研究技术平台建设(2012ZX09303019001)
1.北京大学第一医院医学统计室(100034)
2.北京大学临床研究所
3.默沙东研发(中国)有限公司
△通信作者:姚晨,E-mail:13801378685@139.com