APP下载

含安慰剂组三臂临床试验基于bootstrap再抽样的非劣效评判*

2012-12-04南方医科大学南京临床医学院南京军区南京总医院210002刘丽霞刘玉秀

中国卫生统计 2012年1期
关键词:检验法错误率均数

南方医科大学南京临床医学院 南京军区南京总医院(210002) 刘丽霞 刘玉秀 陈 林 成 琪

采用以阳性药(R)和安慰剂(P)作为对照进行试验药(E)非劣效评判的三臂临床试验,弥补了仅以阳性药作为对照的两臂临床试验不能评估检测敏感性和难以确保假设恒定性的先天性不足〔1〕,ICH E10将其视为非劣效评判的“金标准”设计〔2〕。

2003年,Pigeot等在正态分布且方差齐性的条件下提出了一种基于均差之比的假设检验,在预先给定的阈值(θ)的条件下,若试验药与安慰剂疗效之差大于阳性药与安慰剂疗效之差的100θ%,即可得出非劣效的结论〔3〕。2008年,Mario等研究发现在方差不齐时,此假设检验式会偏离预先给定的第一类错误水平,因此提出了正态分布下方差不齐时,采用Welch校正t检验的假设检验式〔4〕。

本文以Silva-Costa-Gomes等报道的一篇三臂临床试验结果为基础〔5〕,通过随机模拟实验探讨以对数正态分布和Gamma分布为代表的偏态分布下,三臂临床试验基于bootstrap再抽样技术的非劣效评判问题。

Bootstrap方法

记 XE=(XE1,…,XE,nE)、XR=(XR1,…,XR,nR)、XP=(XP1,…,XP,nP)分别为三臂临床试验的试验组、阳性对照组及安慰剂组的样本观测值,nE、nR、nP分别为三组的观测例数。假设这些随机变量相互独立,其对应的总体均数分别为 μE、μR、μP,方差分别为、、。假定观测值越大,疗效越好。

基于bootstrap再抽样技术,进行的三臂临床试验非劣效评判的具体实施步骤如下:

第一步,在三组原始样本中进行bootstrap抽样,获得bootstrap样本,记为

第二步,对bootstrap样本X*b计算试验组与安慰剂组均数之差与阳性对照组与安慰剂组均数之差的比值。

第三步,重复第一步、第二步B次获得bootstrap样本统计量b构成的bootstrap分布,用百分位数法求出该分布2.5%的分位点,记为(2.5)。该量即为公式(1)对应参数的97.5%置信区间的下限估计值。

第四步,以θ作为非劣效判定的界值,一般取θ≥0.8,即试验组与安慰剂组的均数之差至少应保证是阳性对照组与安慰剂均数之差的80%以上才可判定为非劣效。在预先给定的第一类错误α=0.025水平下,若存在(2.5)>θ则可得出非劣效的结论。

Welch校正t检验方法

对于三组随机变量相互独立且服从均数为μE、μR、μP,方差为、、的正态分布的三臂临床试验可建立如下假设:

该零假设可以转换为μE-θμR-(1-θ)μP≤0。在此假设下,当方差不齐时,Welch校正t检验统计量计算式为:

若 t> t1-α,^v即可得出非劣效的结论。

随机模拟实验

Silva-Costa-Gome等报道在开胸手术后,应用阿米三嗪联合一氧化氮(ALM+NO)预防单侧肺通气缺氧的三臂临床试验研究中,以30分钟后单侧肺通气氧分压的观测值为观测指标.考察低剂量ALM(ALM4)相对于高剂量ALM(ALM16)的非劣效性,研究结果见表1。该组数据服从正态分布但方差不齐,Mario等以此数据为例,在α=0.05、θ=0.8的条件下经Welch校正t检验得出试验组(ALM4+NO)非劣于阳性对照组(ALM16+NO)的结论。本文的随机模拟实验即基于该试验结果进行模拟。

表1 开胸手术30分钟后各组单侧肺通气氧分压的统计描述

1.α-模拟

本文的Monte Carlo模拟实验均借助于SAS 9.1统计分析系统,因该系统没有提供根据均数和标准差直接产生对数正态分布和Gamma分布的随机函数,需间接实现,这里分别给予说明。

产生对数正态分布随机样本的基本步骤为:根据欲产生的对数正态分布的均数(μ)和标准差(σ),求得其对数转换后所对应的正态分布下的均数(mean),和标准差(std),[std=ln利用正态分布的随机函数产生服从均数为mean,标准差为std的正态分布的随机样本后,再进行指数转换即获得服从均数μ、标准差为σ的对数正态分布的随机样本。

产生Gamma分布随机样本的基本步骤为:根据欲产生的Gamma分布的均数(μ)和标准差(σ),求得产生Gamma分布的两参数,形状参数a,(a=σ2/μ)和尺度参数 b,(b= μ2/σ2)〔7〕。利用 Gamma 分布的随机函数产生服从形状参数为a、尺度参数为b的Gamma分布的随机样本,即均数为μ、标准差为σ的Gamma分布的随机样本。

在 μR=36.7,μP=16.5,σE=10.4,σR=13.2,σP=7.5,α=0.025,θ=0.8的条件下,进行 α 模拟。根据θ=0.8,可得出无效假设下的μE=32.66。固定其中两组的样本量为50,第三组的样本量分别取25、50、75、100、125,按三组各自的均数和标准差分别产生100000个服从正态分布、对数正态分布和Gamma分布的随机样本,采用Welch校正t检验法在α=0.025检验水准下进行非劣效统计推断,由于bootstrap法模拟耗时较长,这里仅产生2000个随机样本进行bootstrap法的模拟。随机模拟的Welch校正t检验法和bootstrap法的第一类错误率,结果见表2。

表2 不同分布下的三臂临床试验非劣效推断模拟实验的第一类错误率(名义检验水准为α=0.025)

由表2可知,数据服从正态分布时,Welch校正t检验的第一类错误率始终保持在预先给定的α=0.025水平,波动范围不超过3%,而bootstrap法的第一类错误率,在样本量大于50时,也基本保持在α=0.025的水平,波动范围不超过8%。

数据服从对数正态分布时,固定试验组和阳性对照组的样本量nE=nR=50,改变安慰剂组样本量nP=25、50、75、100、125,Welch 校正 t检验的第一类错误率非常接近α=0.025的水平,波动范围不超过4%。bootstrap法在样本量大于50时,第一类错误率在α=0.025的水平上下波动,范围不超过10%。固定阳性对照组和安慰剂组的样本量nR=nP=50,改变试验组的样本量 nE=25、50、75、100、125,Welch 校正 t检验的第一类错误率随着样本量的增加而逐渐增大,偏离了α=0.025的水平,而bootstrap法的第一类错误率在样本量大于50时,基本保持在α=0.025的水平,波动范围不超过2%。固定试验组和安慰剂组的样本量nE=nP=50,改变阳性对照组的样本量 nR=25、50、75、100、125,Welch校正t检验的第一类错误随着样本含量的增加而逐渐减小,偏离了α=0.025的水平,而bootstrap法的第一类错误率在样本量大于50时,在α=0.025的水平上下波动,波动范围不超过8%。可见,在各组样本量较大时(n>50),bootstrap置信区间法较Welch校正t检验法能更好地控制第一类错误,具有较好的稳健性。

数据服从Gamma分布时,固定试验组和阳性对照组的样本量nE=nR=50,改变安慰剂组样本量nP=25、50、75、100、125,Welch 校正 t检验法的第一类错误率始终保持在低于α=0.025的水平,偏离较大。而bootstrap法的第一类错误率在α=0.025的水平上下波动,波动范围不超过4%。固定阳性对照组和安慰剂组样本量nR=nP=50,改变试验组的样本量nE=25、50、75、100、125,Welch 校正 t检验法的第一类错误率随着样本量的增加而逐渐增大,偏离了α=0.025的水平,而bootstrap法的第一类错误率在α=0.025的水平上下波动,范围不超过10%。固定试验组和安慰剂组的样本量nE=nP=50,改变阳性对照组的样本量nR=25、50、75、100、125,Welch 校正 t检验法的第一类错误率随着样本含量的增加而逐渐减小,偏离了α=0.025的水平,而bootstrap法的第一类错误率在样本量大于50时,在α=0.025的水平上下波动。范围不超过6%。可见,在各组样本量较大时(n>50),bootstrap置信区间法比Welch校正t检验法能更好的控制第一类错误,具有较好的稳健性。

2.power模拟

基于正态分布,在 μR=36.7,μP=16.5,σE=10.4,σR=13.2,σP=7.5,nE=nR=nP=50、60、70,α=0.025,θ=0.8的条件下,(μE-μP)/(μR-μP)分别取 0.8、0.9、1.0、1.1、1.2 时,μE分别取 32.66、34.68、36.7、38.72、40.74,进行 Welch 校正 t检验法和 bootstrap法的power模拟实验,计算出推断结论为非劣效的百分比即为所谓的power,模拟结果见图1。

同理,可以得出数据服从对数正态分布及Gamma分布下的模拟结果,分别见图2和图3。

图1 正态分布时校正t检验与bootstrap法power模拟比较(a)、(b)、(c)分别对应各组等样本量为50、60、70的情形

图2 对数正态分布时校正t检验法与bootstrap法的power模拟比较(a)、(b)、(c)分别对应各组等样本量为50、60、70的情形

从图1、图2和图3可以看出,随各组样本量的增加,同一(μE-μP)/(μR-μP)条件下的 power逐渐增大,固定各组的样本量,随着(μE-μP)/(μR-μP)的增加,power也逐渐增大的特性。

讨 论

图3 Gamma分布时校正t检验法与bootstrap法power模拟比较(a)、(b)、(c)分别对应各组等样本量为50、60、70的情形

bootstrap法是一种基于样本数据再抽样的方法,在总体分布不明、存在极端值、方差不齐以及无具体假设检验式等特殊情况下,能帮助研究者进一步的探讨数据的结构及其内在的信息〔8〕。本文建立了一种适用于三臂临床试验非正态分布的非劣效评判的bootstrap法,并从第一类错误率和power进行了模拟验证。模拟实验显示,在数据服从正态分布,样本量较大时,Welch校正t检验法和bootstrap法均表现出较好的统计性能。但当数据呈偏态分布时,Welch校正t检验法和bootstrap法的power模拟结果基本相同,但Welch校正t检验法的第一类错误率会随着样本量的变化而偏离预先给定的第一类错误水平,而bootstrap法在样本量较大时,第一类错误率基本保持在预先给定的水平。第一类错误的控制对于新药研发的非劣效评判是极为重要的。因此,当三臂临床试验的样本量较大时,若数据服从正态分布且方差不齐时最好应用Welch校正t检验法进行统计推断,而当数据呈偏态分布时,在目前无具体的检验统计式的情况下,则可考虑采用bootstrap法进行非劣效判定。

早期国内及国外的非劣效试验研究主要集中在非劣效界值的确定和两臂非劣效试验的设计、数据分析和解释等研究〔9-11〕,但随着研究的发展和深入,一些研究发现两臂非劣效试验由于缺乏安慰剂对照组在研究设计、数据分析、结果解释方面存在一定的缺陷〔12,13〕。并且以历史研究数据为基准设计的两臂试验,存在试验与试验之间,试验组内和试验组外等多种误差,而Hung在研究中指出这些误差对非劣效界值的确定影响很大,而目前的假设检验统计式还无法消除这些误差的干扰。因此,Tang在研究中指出,在伦理条件允许的情况下,应该使用三臂临床试验进行非劣效的研究〔14〕。

本文是以θ作为非劣效评判的标准,但是由于θ是基于试验药和阳性对照药与安慰剂相比疗效大小比值而确定的,如果转化为试验药与阳性对照药差值的非劣效界值,显然该界值将随着试验结果的不同而存在不确定性,因此,有学者提出了三臂临床试验时仍采用类似于两臂非劣效临床试验事先固定试验药与阳性对照药效应差值的非劣效界值的方法进行非劣效的判定,并给出了正态分布且方差齐性条件下的统计检验式〔15〕。数据服从正态分布且方差不齐或数据服从非正态分布的三臂临床的固定界值法目前尚未见报道,有待进一步的研究和探讨。

结 论

对于数据不服从正态分布的三臂临床试验的非劣效判定,在目前无具体的统计检验式的情况下,建议应用bootstrap法进行数据的分析和判定。

1.Brown D,Volkers P,Day S.An introductory note to the CHMP guideline:Choice of the non-inferiority margin and monitoring committees.Statistical in Medicine,2006,25:1623-1627.

2.ICH GuidelineE10:Choice of control group and related issues in clinical trials.International Conference on Harmonization of Technical Requirements for Registration of Pharmaceuticals for Human Use(ICH),2000.

3.Pigeot I,Schäfer J,Röhmel J,et al.Assessing non-inferiority of a new treatment in a three-arm clinical trial including a placebo.Statistics in Medicine,2003,22:883-899.

4.Mario H,Richardus V,Ludwig A.Assessing non-inferiority of a new treatment in a three-arm trial in the presence of heteroscedasticity.Statistics in Medicine,2008,27:490-503.

5.Silva-Costa-Gomes T,Gallart L,Valles J,et al.Low-vs-high-dose almitrine combined with nitrc oxide to prevent hydroxia during open-chest one-lung ventilation.British Journal of Anaesthesia,2005,95(3):410-416.

6.Welch BL.The significance of the difference between two means when the population variances are unequal.Biometrika,1938,29:350-362.

7.Laster LL,Wang SJ,Tsong Y,et al.Some fundamental issues with noninferiority testing in active controlled trials.Statistics in Medicin.,2003,22:213-225.

8.Efron B,Tibshirani RJ.An introduction to the bootstrap.Chapman &Hall:New York,1993.

9.Thomas R,Fleming.Current issues in non-inferiority trial.Statistics in Medicine,2008,27:317-332.

10.马玉全,周俊,周爱平,等.非劣效试验中对照的选择和界值确定方法.中国临床药理学杂志,2009,14(9):961-965.

11.刘玉秀,姚晨,陈峰,等.非劣效等效性试验样本含量估计及把握度分析.中国卫生统计,2004,21(1):31-35.

12.Hung HMJ,Wang SJ,O’Neill R.A regulatory perspective on choice of margin and statistical inference issue in non-inferiority trials.Biometrical Journal,2005,47:28-36.

13.Hung HMJ,Wang SJ,O’Neill R.Challenges and regulatory experiences with non-inferiority trial design without placebo arm.Biometrical Journal,2009,51:324-334.

14.Tang ML,Tang NS.Tests of non-inferiority via rate difference for three-arm clinical trials with placebo.Journal of Biopharmaceutical Statistics,2004,14:337-347.

15.Hida E,Tango T.On the three-arm non-inferiority trial including a placebo with a pre-specified margin.Statistics in Medicine,2011,30:224-231.

猜你喜欢

检验法错误率均数
限制性随机试验中选择偏倚导致的一类错误率膨胀*
PCR 检验法和细菌培养法用于阴道细菌检验的效果
正视错误,寻求策略
解析小学高段学生英语单词抄写作业错误原因
关于均数与偏差
关于均数与偏差
关于均数与偏差
降低学生计算错误率的有效策略
关于均数与偏差
关于协方差的U统计量检验法