Ⅰ期临床试验最大耐受剂量探索新方法—贝叶斯最优区间设计介绍*

2018-12-29李天萍

中国卫生统计 2018年6期

刘晋邵凤王璐李天萍

【提要】目的介绍国外新出现的贝叶斯最优区间(Bayesian optimal interval，BOIN)设计的原理、方法、统计特性及应用优势，为提升我国Ⅰ期临床试验统计学设计水平提供新方法。方法 BOIN方法在贝叶斯框架下，以决策错误率最小为目标确定剂量增减、维持的决策界值。该方法具有长期记忆一致性以及大样本下收敛于目标毒性对应剂量的性质。结果 BOIN方法由于决策界值可以在试验前确定，与目前基于模型的方法相比在应用便捷性上有较大优势，该方法提供多种评价指标，示例显示该方法具有较好的安全性与有效性。结论 BOIN方法具有良好的统计特性和实际应用便捷性，是值得推广的Ⅰ期临床试验剂量探索方法。

Ⅰ期临床试验的主要目的是通过观察人体对新药的耐受程度和药物代谢动力学表现，快速，准确地找到药物的最大耐受剂量(maximum tolerated dose,MTD)和药代动力学参数[1]。Ⅰ期临床试验受试者虽然多为健康人，但在某些情况下，常需选择特殊人群，如在研究具有显著潜在毒性的药物(如细胞毒性药物)时，受试者大多为标准治疗失败的癌症患者[2]。故在遵循最大限度保护受试者的伦理学原则下，对统计设计中受试者在不同剂量组的分配方法提出了更高要求。Ⅰ期临床试验的另一个显著特点是样本量较小(一般为30～40例)[3]。因此如何在小样本情况下得到MTD的准确估计，给经典统计带来了挑战。

与经典统计相比，贝叶斯统计由于不仅可以利用当前观察到的信息(以抽样分布形式体现)，还可定量使用试验前信息(以先验分布形式体现)，自适应地进行统计推断，使其在Ⅰ期临床试验设计中获得了较频率统计更为广泛的应用[1,4-14]。实际上，由于贝叶斯统计不依赖大样本理论，不存在频率统计框架下的多重性问题，通过应用“今天的后验是明天的先验”的贝叶斯统计原理，不断利用前一次已知试验信息对下一次未知试验结果进行适应性评估(与Ⅰ期临床试验操作特点一致)。因此，贝叶斯统计为Ⅰ期临床试验设计提供了良好的方法学平台。Liu与Yuan于2016年提出基于贝叶斯最优区间(Bayesian optimal interval，BOIN)的设计方法，该方法基于贝叶斯后验概率构建满足最优化条件的决策界值，以此决定剂量的升高、降低与维持[15]。这一方法具有良好的统计学特征且设计方法简单易用，在国外Ⅰ期临床试验中已有成功应用，但国内尚未见对此方法的系统介绍。本文将从设计原理与方法、参数设置、统计特征、应用及评价等方面对BOIN作一系统介绍，以期为我国引进这一新技术提供统计方法学支持。

原理与方法

1.原理

在保护受试者安全的前提下，Ⅰ期临床试验设计需解决的主要问题是如何将受试者合理配置到不同剂量组，快速准确地找到MTD。出于安全性考虑，试验将从最低剂量开始，然后根据每一剂量下观察到的结果，采取以下三种行动中的一种分配给受试者,即维持受试者在原剂量、递增或下降剂量。在药物毒性随剂量单调增加的假设下，理想的情况是：在当前剂量等于或接近MTD时，在原剂量水平上继续试验；在当前剂量低于MTD时，递增剂量以避免将受试者处于剂量不足状态；在当前剂量高于MTD时，减小剂量以避免将受试者暴露于药物中毒状态[16]。然而，这种理想设计在实践中是无法做到的，因为研究者不能确切知道当前剂量是否低于、高于或等于(或接近)MTD，只能根据当前的试验结果进行决策推断。由于I期临床试验的小样本特点和观察数据的随机误差，基于观察数据将受试者分配到某一“理想”剂量组的决策有可能是错误的[17]。从实际应用和伦理观点看，非常希望将这种错误最小化，使实际设计尽可能与理想(无差错)设计相近。BOIN设计的原理就是为了实现这一目标。

2.方法

假定某Ⅰ期临床试验为探索最大耐受剂量，试验开始前由研究者根据专业知识与既往经验预定J个剂量水平，Φ为预定目标毒性概率。受试者按照预定的队列长度依次入组，并根据毒性事件发生情况在预定的J个剂量范围内进行剂量增减或维持。在贝叶斯最优区间设计下，其剂量增减或维持的判断按照如下规则进行。

(1)第一队列的受试者被分配到最低剂量。

(3)重复步骤(2)直到预定最大样本量，或者试验因为超过毒性界值而停止。

从以上步骤不难看出，BOIN方法的核心在于确定判断界值λ1j和λ2j,在上述界值下决策错误率最小，这就需要定义正确与错误决策。令pj代表j剂量下的真实毒性概率，建立以下三个假设：

H0j:pj=φ

H1j:pj=φ1

H2j:pj=φ2

(1)

令Bin(x;n，p)代表总体参数为n,p的二项分布累计分布函数，令πij代替pr(Hij)，njλ1j、njλ2j分别为达到剂量增减的毒性人数界值，公式(1)变为：

a(λ1j,λ2j)=π0j{Bin(njλ1j;nj，φ)+1-Bin(njλ2j-1;nj，φ)}+π1j{1-Bin(njλ1j;nj，φ1)}+π2j{Bin(njλ2j;nj，φ2)

(2)

为使该决策概率最小化，将二项分布的累计概率函数展开，转化为求解满足以下条件的λij(i=1,2)：

(3)

从贝叶斯统计角度看，两个界值λ1j、λ2j具有深层含义，即λ1j、λ2j是分别使H1或H2的后验概率大于H0的最大值。用公式表示为：

(4)

当三个原假设的先验概率相等，即pr(H0j)=pr(H1j)=pr(H2j)=1/3，不难得出决策区间的上下限总是满足如下关系：φ1<λ1<φ，φ<λ2<φ2；同时第j个剂量的决策上下限λ1j、λ2j和剂量水平j下的入组病例数目nj无关。在此假设下，通过对式的简单代数变换可得：

(5)

此时，式中λ1j、λ2j的表达式不再包括nj，因此判断界值不仅和剂量分配结果无关，亦和剂量j无关，仅由目标毒性概率φ和判断界值φ1、φ2决定。这样的特性能够在试验设计阶段就确定剂量增减的界值，从而极大降低了试验的操作难度。

3.重要参数的设置

在BOIN设计阶段，需要确定的参数有剂量增减的判断界值φ1、φ2以及先验概率π0j、π1j、π2j。φ1、φ2与φ的差值若过小，则不足以分辨毒性概率间的差别；过大会造成精度不足。一般令φ1∈[0.5φ,0.7φ] ，φ2∈[0.6φ,1.4φ]。π0j、π1j、π2j一般取无信息先验，即π0j=π1j=π2j=1/3。在此条件下BOIN方法具有固定的决策区间及长期一致性统计特征(详见下文的统计学特征部分)。

为了确保试验的安全性，如果某一剂量毒性过大应中止试验，因此BOIN设计规定若某一剂量水平下的毒性率大于目标剂量的概率过大(通常设置为0.95)即中止试验。即：pr(pj>φ|mj,nj)>0.95同时nj≥3 ，则大于等于j的剂量将被从试验中剔除，如果第一个剂量水平被剔除，则整个试验终止。

4.统计学特征

在π0j=π1j=π2j条件下，BOIN具有长期记忆一致性(long-term memory coherence)特征。所谓长期记忆一致性是指，当前剂量组的观察累积毒性概率高于或者低于目标毒性概率时，下一组剂量水平将不会增加或减少。这一特性的证明过程如下，由于λ1j<φ<λ2j，可得

(6)

该特性比Cheung等提出的短期一致性[18]更为合理。短期记忆一致性是指当前队列观察到的毒性概率大于目标概率时，则剂量不会递增。因此，BOIN在实际应用中均采用设定。

(7)

基于公式(7)，可证明BOIN具有如下特性：

(2)如果预定剂量中没有剂量满足条件pj∈(λ1,λ2)，但目标毒性概率φ满足φ∈(p1,pj)，则最终分配剂量将在包含目标毒性概率的两个剂量之间分配。

(3)如果有多个剂量满足pj∈(λ1,λ2)，则最终分配的剂量将收敛于这些剂量中的一个。

不难看出，无论当选择的剂量毒性概率与目标剂量毒性概率关系如何，BOIN方法在大样本理论下，最终选择剂量均在MTD附近。这一特性的实际意义是使更多的受试者分配到最大耐受剂量或者附近，有利于最后选择出接近MTD的剂量。

方法应用

BOIN可在三种平台实现：R软件包、网页、Windows平台软件。不同平台下操作步骤一致，分为设计与分析两个阶段。在设计阶段，BOIN根据预定设计参数，首先获取剂量增减、维持的决策界值，而后通过模拟试验获得评价指标。在分析阶段，BOIN根据试验数据估计MTD。 BOIN的网页和软件操作简单，适合非统计专业人员使用。网页版访问网址为http://ibl.mdanderson.org/BOIN/，软件版下载网址为https://biostatistics.mdanderson.org/softwaredownload/SingleSoftware.aspx?Software_Id=99。R软件包则需要输入命令，虽然难度增加但更为灵活，适合统计专业人员使用，现以一实例说明BOIN的R软件包使用方法。

某抗肿瘤药治疗CD20阳性B细胞非霍奇金淋巴瘤患者Ⅰ期临床试验，目的为探索该肿瘤药MTD。MTD目标毒性率为0.25，拟定5个剂量水平，入组队列长度为3，总样本量30例。为获得BOIN的评价指标，预期5个剂量水平下，剂量耐受毒性率为 0.05,0.1,0.25,0.45,0.6，剂量限制性毒性(DLT)定义为自给药开始至给药后21天内发生与治疗相关的神经毒性反应和血液学反应等。

首先根据目标毒性概率、队列长度、总样本量，确定决策界值表，并通过模拟试验得到此决策下的评价指标。相应代码如下：

#1、安装、载入BOIN软件包

install.packages(“BOIN”)

library(BOIN)

#2、获取剂量增减的决策界值

get.boundary(target=0.25,ncohort=10,cohortsize=3,extrasafe=TRUE)

#3、通过模拟得到评价指标

get.oc(target=0.25,p.true=c(0.05,0.1,0.25,0.45,0.6),ncohort=10,cohortsize=3,ntrial=1000)

get.boundary函数的作用是获取决策界值。其参数含义如下：target为目标毒性概率，本例为0.25。将每次入组病例视为一个队列，nchort为队列个数，cohortsize为队列的长度。本例由于预定队列长度为3，而总样本量为30，因此nchort为10，cohortsize为3。等效毒性概率区间(φ1，φ2)的上下限未赋值，因此使用BOIN默认值(往往也是最优的)，φ1=0.6φ，φ2=1.4φ，φ=target=0.25。其余参数如安全性终止界值均取默认值。因此，本例中get.boundary的意义是：在指定目标毒性概率为0.25，入组队列为3，总样本量为30，等效毒性概率区间、安全性终止界值等参数取默认值下，得到剂量增减、维持的决策界值。

get.oc函数通过模拟，得到BOIN方法的评价指标。target和nchort、cohortsize参数含义和上文相同。p.true为向量参数，用于存储各剂量水平下的“真实”毒性概率，该参数的作用是产生各剂量水平下的模拟中毒人数数据。n.trial为模拟次数，本例中为1000次。因此本例中，get.oc函数得到在目标毒性概率为0.25，预定5个剂量的毒性概率的真实值分别为0.05,0.1,0.25,0.45,0.6时，队列长度为3，总样本量30，等效毒性概率区间、安全性终止界值等参数取默认值条件下，BOIN的评价指标。需要注意的是，get.oc函数和get.boundary函数的对应参数取值应保持一致，只有这样，get.oc得到的评价指标才和get.boundary指定的设计方法对应。

表1为BOIN设计的决策表，其中第一行为当前剂量累计治疗病例数。第二行为剂量升高的界值，即当前剂量下累计DLT人数应小于等于该界值，下一入组队列升高一个剂量水平。第三行为剂量减少的界值，即当前剂量下累计DLT人数大于等于该界值，下一入组队列降低一个剂量水平。第四行为终止试验的界值，即当前剂量下累计DLT人数大于等于该界值，则出于安全性考虑，实验终止。在试验过程中，研究者根据当前剂量下的累计治疗病例确定表格中相应列，根据当前剂量累计发生DLT人数确定表格中相应行，做出下一剂量的增减、维持或者终止试验的决策。值得注意的是，这里累计治疗病例是指当前剂量下的累计治疗病例，而非试验总的累计治疗病例。如试验累计入组9人，当前剂量2累计治疗6人，剂量2下累计DLT发生数累计为1，应选择累计治疗病例6而非9这一列的DLT决策界值进行比较，此时的决策应为升高剂量。

表1 BOIN方法剂量调整决策界值表

表2展示了本例BOIN设计的各项评价指标。MTD选择概率、每个剂量受试者平均数目这两个指标，反映剂量选择的效率和准确性。平均毒性人数，过毒性风险概率则反映剂量探索方法的安全性。因此上述指标从准确性和安全性两个侧面展示了BOIN方法的性能。由表2可知，以0.25为目标毒性概率，其对应的剂量被选为MTD的概率最高，达到62.7%，且分配的受试者平均数目为10.8，在各剂量组中最高，显示其具有较高的剂量探索效率。而平均发生毒性事件的人数为5.9，发生过毒性风险的概率也较低，超过60%的受试者被分配到大于MTD的概率为0.9%，这从另一方面反应了BOIN的安全性较好。

表2 某抗肿瘤药在目标毒性概率为0.25时的 BOIN方法评价指标

试验结束后，可得到各剂量水平下发生剂量限制性毒性(dose-limiting toxicities,DLTs),合计病人数和各剂量水平下分配的病人总数，从而计算出相应的DLTs发生率。采用前述保序统计变换得到单调的DLTs发生率及其95%置信区间。由于本实例尚处于设计阶段，因此以下数据系人为指定。

R的代码如下：

n<-c(3,3,15,9,0)

y<-c(0,0,4,4,0)

sel.single<-select.mtd(target=0.25,ntox=y,npts=n)

summary.boin(sel.single)

n为各剂量下的累计治疗人数，y为各剂量下的DLT人数，使用select.mtd函数得到在此数据下，目标毒性概率为0.25时的MTD估计。

由表3可见，本临床试验前4个剂量水平DLTs发生率的点估计分别为0.02、0.02、0.27、0.45,由于没有受试者分配到剂量5，因此该剂量的毒性概率无法估计。需要说明的是，剂量水平1和2下虽然实际发生DLT人数为0，但通过保序变换，其估计值为0.02。最终剂量3的毒性概率0.27和目标毒性概率0.25最为接近，因此选择剂量3作为MTD。

表3 某抗肿瘤药通过保序统计变换得到的DLTs发生率及95%可信区间

讨论

本文介绍了BOIN方法[15]的设计原理、统计特性以及评价指标。BOIN方法使用贝叶斯思想，能够充分利用现有信息和既往信息，这一点在Ⅰ期试验样本量较小的条件下尤为重要。在小样本条件下，该方法具有长期记忆一致性的特点，即当观察到的剂量毒性概率过高时不应再继续增加剂量，符合Ⅰ期临床试验剂量探索对于安全性的要求。大样本条件下，在目标毒性概率和预定剂量毒性概率的三种关系下，剂量分配可收敛于最接近预定毒性概率的剂量，保证了剂量选择的有效性。

研究证实，BOIN方法和经典的连续重评估方法(continuous reassesment method，CRM)的统计特性大体相当，在部分剂量-毒性关系下优于CRM，部分略差于CRM[19]。但与CRM方法相比，BOIN方法只需确定毒性等效界值φ1、φ2，这两个参数具有明确的临床解释，易于被临床研究者理解，而CRM则需要预先指定骨架概率。一方面在试验前准确指定骨架概率难度较大，另一方面若指定不准确，则易造成MTD选择偏倚。CRM需要根据试验的毒性数据动态确定准则，因此计算量明显大于BOIN方法，这些问题限制了CRM方法在实际工作中的应用。与目前Ⅰ期临床试验常用的3+3设计相比，BOIN方法对信息的利用更为充分，结果更为可靠。同时，在易用性上与3+3方法基本相当[20]。

我国Ⅰ期临床试验方法目前多延用已经使用了几十年的3+3设计，引入更为准确、安全的新方法以提升Ⅰ期临床试验质量显然十分迫切。BOIN方法具备统计特性良好、易于使用的特点，并已开发了多种平台下的软件包，大大降低了使用门槛，是一个值得推荐的Ⅰ期临床试验剂量探索方法。