临床试验随机化方法的优选
2019-05-24袁阳丹刘甜甜刘玉秀陆梦洁周憧憧刘雅琦
袁阳丹 刘甜甜 刘玉秀,3△ 陆梦洁 周憧憧 陈 羽 刘雅琦
1.南方医科大学公共卫生学院生物统计学系(510515) 2.中国人民解放军东部战区总医院医学统计学教研室 3.南京医科大学公共卫生学院生物统计学系
【提 要】 目的 近十几年来涌现出一些新的随机化方法,能有效提升随机化的性能,但其在临床试验中真正应用的情形并不多见,仍然以传统的区组随机化设计占据主导,存在着严重的潜在选择性偏倚风险。本研究将通过探讨多种随机化方法的统计性能,为临床试验随机化方法的选择提供实用性指引。方法 选择简单随机化设计(SR)方法,以及目前常见的五种限制性随机化方法,包括固定区组设计(PBD)、变化区组设计(VBD)、大棒设计(BSD)、带不平衡限制的偏币设计(BCDWIT)、区组瓮设计(BUD),借助随机模拟方法,在不同的最大容许不平衡性(MTI)设定下,分别从随机性和均衡性两个方面对各方法的统计性能进行整体评价。本研究涉及的随机化方法优选仅在限制性随机化方法中进行,并将各方法的随机化性能指标作为评价优选的依据。结果 PBD和VBD方法的固定分配概率、猜对分配概率最高,相比之下,BSD、BUD 、BCDWIT方法具有更好的随机化性能。具体看, BUD有着最小的固定分配概率,BCDWIT其次;BSD有着最小的猜对分配概率,BUD其次。结论 为了减少试验的选择性偏倚,区组随机化设计不应再作为开放性临床试验随机化的推荐方法,而应考虑在其他几种限制性随机化方法中进行选择。在随机化方法选定后,还可通过大量模拟筛选出最佳的随机分配序列。
近年来,因区组随机化设计(block design)较高的固定分配概率和猜对分配概率,而产生的较大选择性偏倚风险,备受学术界质疑和关注。Berger 多次强烈建议区组随机化不应该再被使用[1-4]。为了克服区组随机化的确定性特征,一些学者提出了多种其他方式的限制性随机化方法。例如,Soares和Wu提出了大棒法(big stick design,BSD)[5];Chen提出了带不平衡限制的偏币设计(biased coin design with imbalance tolerance,BCDWIT)[6];Zhao等人提出了区组的瓮式设计(block urn design,BUD)[7]。
本文将针对两处理组的情况对多种随机化方法进行多指标的比较,探讨多种随机化方法的统计性能差异,为临床试验随机化方法的选择提供实用性的建议和指引,以降低因随机化而导致的临床试验质量减损。
随机化方法性能评价指标
随机化方法的性能通常从均衡性和随机性两个方面来进行综合评价。然而,研究表明在大样本的情况下(例如大于200),因不均衡所导致的把握度损失不大[8],因此对于带有较强的均衡性限制条件,例如限定最大容许不平衡性(maximal tolerated imbalance,MTI)在一定范围的限制性随机化方法而言,并不会出现严重的不均衡,通常可以忽略对均衡性的考量,而将重点放在随机性指标的评价上。
1.均衡性评价指标
常用的均衡性指标有3个,分别是:分配过程中组间受试者例数差的最大值(the maximum absolute imbalance in the randomization sequence,MI)、组间例数分配相等的概率(the probability of achieving exact balance in the randomization sequence,EB)以及组间例数差的绝对值均数(the absolute mean of the difference in treatment group sizes,DN)。当试验为了避免因受试者入组时间不同而导致偏倚时,需要考虑MI指标。EB指标在实际应用中较为少见,在一些大样本的临床试验中更为少见。当组间例数的不均衡受样本量影响时,DN就显得较为重要。
2.随机性评价指标
常用的随机性指标有固定分配概率(deterministic assignment,DA)和猜对分配概率(correct guessing,CG)。其中,固定分配概率表示受试者被分配到某一组的概率为1或0的次数占总分配次数的比例,猜对分配概率指按照分配到例数少的组猜测并且猜对的比例。
指标CG由Blackwell和Hodges两位学者于1957年提出[9],其公式如下:
(1)
其中:
(2)
Ti表示第i例受试者的分配结果,ni-1,1和ni-1,2分别表示第i-1例受试者完成随机分配以后组1和组2的分配例数。
这两个指标是将随机性进行量化的指标,其值越小表示随机性越高。
几种随机化方法的分配概率
1.简单随机化方法
简单随机化(simple randomization,SR)在分配过程中能保证受试者分配到任意一组的概率都为0.5,简单随机化的条件分配概率为:
(3)
2.区组随机化方法
固定区组随机化设计(permuted block design,PBD)在实际应用中使用较为普遍,设其区组长度为b,其条件分配概率为:
(4)
变化区组随机化设计(variable block design,VBD),首先确定拟变化的区组个数及其长度,然后在其中随机选择,之后按照选定的区组再随机分配。
3.BSD方法
BSD方法是由Soares和Wu等人在1983年提出的一种仅限于两处理组平衡试验的随机化方法,其主要思想是通过设置MTI来控制处理组间的不均衡性。MTI指两组例数相差最大能允许的例数上限。其条件分配概率为:
(5)
其中di-1表示第i-1例受试者分配之后,两处理组例数之差,即ni-1,A-ni-1,B;后同。
4.BCDWIT方法
BCDWIT方法是由Chen在1999年提出的一种随机化方法,该方法是在Efron的偏币法的基础上加入了MTI限制,以保证处理组间具有足够的均衡性,该方法也可以认为是升级版的BSD方法,它在BSD的基础上添加了调整概率Pbc(在0.5至1之间取值)。BCDWIT方法的条件分配概率为:
(i=1,2,…,n)
(6)
BCDWIT的条件分配概率不仅与MTI有关,与调整概率Pbc也存在一定的关系。当调整概率为0.5时,该方法即BSD方法,随着Pbc增大,组间的均衡性改善。但是调整概率过大,容易根据以往的分配猜测出当前分配结果。有文献研究表明,偏币法的调整概率设为2/3,既能保证一定的组间均衡性,又能确保一定的随机分配结果的不可预测性[8]。
5.BUD方法
BUD方法是由Zhao和Weng两人在2011年提出的替代区组随机化的一种方法。该方法结合区组随机化和瓮模型来达到随机分配的目的,不仅适用于两组平衡试验,还可用于多组或不平衡试验。BUD方法简单易操作,其条件分配概率为:
(7)
几种随机化方法的统计性能模拟比较
1.模拟方法
针对前面提到的多种随机化方法,为了比较各方法的统计性能,我们首先对不同方法的随机性和均衡性进行评价,MTI设置为2,对SR、PBD、BSD、BCDWIT、BUD以及VBD(VBD方法选定区组长度为4和6两种区组)这6种方法,选定样本量50、100、300、500和800进行模拟。在同样的样本量设定下,我们又另外对PBD、BSD、BCDWIT、BUD这4种限制性随机化方法进行模拟比较,区组长度分别取2、4、6、8、10、12、14、16共8种情况,相对应的MTI值分别为1、2 、3、4、5、6、7、8。BCDWIT方法中的调整概率Pbc取0.667。通过10000次的模拟来评价各个方法的随机性指标(DA 、CG)和均衡性指标(MI、EB、DN)。本次模拟使用SAS 9.4系统编程实现,分别求出各随机化方法的评价指标,对各随机化方法进行多指标比较分析。
2.模拟结果
在上述的模拟情境下,模拟结果显示,不同样本量设定时各方法随机性能指标的统计行为特征类似,为节约篇幅,本文仅给出样本量为500时的模拟结果。
由表1、图1和图2可见,在MTI设置为2的条件下,固定分配概率DA由小到大依次是SR 表1 不同随机化方法各评价指标的模拟比较(MTI=2,VBD区组长度为4和6,样本量为500,模拟10000次) 由表2、图3和图4可见,不同MTI值的情况下,从随机性指标DA来看,4种方法的DA值都随着MTI增大而减小,其中BUD的DA值最小,其次是BCDWIT,DA由小到大依次是BUD 图1 6种随机化方法随机性能评价指标DA的模拟比较(MTI=2,VBD区组长度为4和6,样本量为500,模拟10000次) 图2 6种随机化方法随机性能评价指标CG的模拟比较(MTI=2,VBD区组长度为4和6,样本量为500,模拟10000次) 尽管均衡性评价对于这里比较的4种随机化方法并不重要,但为了获得较为全面的印象,我们还是给出了相应的模拟结果。可见,4种方法的均衡性和限制强度MTI密切相关,MTI越大,均衡性越差。这也提示我们在选择随机化方法时对MTI的设定不应太大。 为使随机化效果更进一步优化,在随机化方法选定后,还可以通过大量模拟筛选出最佳随机分配序列,可考虑选择CG+DA最小的随机分配序列作为临床试验遴选的目标序列。 以BSD方法为例,某临床试验随机分为等比例的两组,每组50例,设定MTI=2,模拟5000次,得到CG+DA的分布图见图5。 BSD方法5000次的模拟中,共挑选出5个最小的CG+DA=0.76的随机分配序列,以其中2个为例可得到图6~7。 表2 不同MTI设定下4种限制性随机化方法各评价指标的模拟比较(样本量为500,模拟10000次) 图3 不同MTI情况下4种随机化方法的DA指标变化情况比较(样本量为500,模拟10000次) 图4 不同MTI情况下4种随机化方法的CG指标变化情况比较(样本量为500,模拟10000次) 图5 BSD方法模拟5000次的CG+DA分布图(样本量N=100,MTI=2) 图6 BSD方法模拟5000次中CG+DA最小值的随机分配序列(CG+DA=0.76,N1=49,N2=51) 图7 BSD方法模拟5000次中CG+DA最小值的随机分配序列(CG+DA=0.76,N1=50,N2=50) 在限制性随机化方法中,PBD和VBD方法均呈现较高的固定分配概率(DA)和猜对分配概率(CG),使临床试验的选择性偏倚风险增高。为了减少试验的选择性偏倚,区组随机化设计不应再作为开放性临床试验随机化的推荐方法,而应考虑在其他的几种限制性随机化方法中进行选择。从DA看,BUD最小,BCDWIT其次。从CG看,BSD最小,BUD其次。我们认为从临床实际看 CG 的影响更大, 更倾向于推荐 CG较小的随机化方法,例如BSD、BUD方法。本研究的结论仅针对开放性临床试验的随机化,对于双盲设计的临床试验,区组随机化方法并未受到排斥。 人们似乎已经认识到PBD的不足,进而采用VBD来加以改善,甚至将VBD奉为一种随机化的好方法。从直觉上, VBD的区组变化是随机的,理应增加预测受试者分组的难度。然而,临床研究人员预测下一个受试者的分组并不是依据区组大小来判断,而是猜测分配到受试者例数较少的一组,因此即便不公开PBD区组大小或者VBD随机变化区组长度,由于猜测的行为规律导致了区组随机化的性能较低。VBD方法选定区组长度为4和6两种区组,其随机性仅稍优于PBD方法,且不如其他3种限制性随机化方法。 在具体随机化实施中,为更进一步优化选出最佳随机分配序列,一旦选定随机化方法,还可通过大量模拟选出随机性能最佳(可考虑用CG+DA最小进行选择)的序列,该机制为提高随机化的质量提供了很好保证。选择合适的随机化方法固然重要,然而,更重要的是做到分配隐蔽,这则另当别论了[10-11]。 本文在以往研究的基础上,对多种限制性随机化方法的统计性能进行了探讨,完善了随机化方法学的研究,为临床试验随机化方法的选择提供了参考,对保证随机化质量具有重要意义。最佳随机分配序列的遴选
结论与讨论