APP下载

抗肿瘤药物主方案试验设计进展及统计考量*

2022-01-19苏丽文言方荣

中国卫生统计 2021年6期
关键词:亚组方案药物

高 珺 苏丽文 袁 鹰 言方荣△

【提 要】 在精准医疗的背景下,选择性作用于肿瘤特定分子靶标的靶向治疗愈发受到重视,其作用机制也对临床研究提出了新的挑战。传统的临床试验设计往往忽略了患者的异质性,而对患者按生物标记物进行筛选的富集设计则面临效率低下、可行性低等问题。主方案设计是一种在同一试验结构下评估多种药物或肿瘤分子亚型的新型试验设计,不仅能较好地处理患者异质性问题,适应靶向治疗的作用机制,且有利于加快药物研发,目前在国外已有一定应用。本文旨在结合实际应用案例,对篮式设计、伞式设计、平台设计等主方案设计的基本特点和研究进展进行综述。

过去的二十年间,随着生物信息学领域的发展,人们对癌症相关的分子作用机制的理解更加深入,癌症治疗的策略开始从非特异性的化学疗法转向选择性针对肿瘤分子机制的靶向治疗,比如免疫治疗[1]。分子靶向药物(molecularly targeted agents,MTA),包括免疫治疗药物,已成为乳腺癌、结肠癌、肺癌、胰腺癌等癌症治疗方案的组成部分[2],具有广阔的研发与应用前景。当前批准上市的MTA已达50余种[3],更多MTA尚处于临床研究阶段。在2008到2014年间发表于学术期刊的I期临床试验中,MTA占全部试验的49.8%[4]。

对于研究药物为MTA的临床试验,以往使用的试验方案存在诸多缺陷。传统的试验方案通常针对肿瘤的特定组织学分型开展,然而,MTA试验更应考虑的是肿瘤的分子分型[5]。同一类肿瘤的患者根据其基因表达情况可以被细分至不同的亚组,许多MTA仅对特定的患者亚组有效,而传统的试验方案忽略了患者分子靶标的异质性,无法分离亚组对疗效的效应。另一方面,基因测序技术的进步使入组前基因筛检成为可能,推动了基于生物标记物的新型试验设计的发展。富集设计即根据患者的生物标记物检测结果,仅纳入携带特定基因突变标记物的患者,排除其他患者[6]。但是,对于某些罕见的患者亚组,严格的入选标准或导致试验无法招募到足够的受试者,或试验持续时间过长,筛检效率低下,加重试验的经济负担。

为了加快抗癌药物研发,提高基因筛检效率,同时解决MTA面临的患者异质性问题,人们提出了使用同一方案评估多种药物或肿瘤亚型的新型试验设计,该类设计统称为主方案设计(master protocol)。本文结合实际应用案例,对抗肿瘤药物主方案试验设计进行了较细致的梳理,主要包括:篮式试验、伞式试验和平台试验设计,并进一步讨论其涉及的相关统计学问题。

主方案设计研究进展及应用

根据美国FDA最新发布的指导原则[7],主方案的定义为由多项平行子试验组成,在同一试验结构下研究一种或多种药物治疗一种或多种疾病亚型的临床试验设计,一般应用于临床II期和III期试验。每项子试验根据患者的生物标记物及治疗方案进行划分,具有不同的目标。根据试验中的药物与治疗组的划分情况和试验目标,主方案试验可分为篮式试验、伞式试验和平台试验等类型。图1总结和对比了篮式试验、伞式试验和平台试验的基本特点。

图1 篮式试验、伞式试验和平台试验的基本设计结构

1.篮式试验

在具有同种或同类基因变异的不同组织学类型的患者人群中,评价一种药物(或治疗方案)的主方案试验称为篮式试验。篮式试验多为临床II期探索性试验,通常根据肿瘤的组织学分型将患者分为不同的亚组,每个亚组即为一项子试验。由于不依赖于组织学分型,篮式试验可以入组更多患者,尤其是为罕见肿瘤的患者提供了接受试验药物治疗的机会,同时也降低了试验招募受试者的难度。

篮式试验的每项子试验一般采用独立的Simon两阶段设计,在试验过程中通过一次期中分析评价药物对各个患者亚组的有效性,提前停止治疗效果不佳的子试验。为保证对每个亚组的评价都具有足够的检验效能,当试验中的亚组较多时,基于独立的Simon两阶段设计的试验样本量可能呈现指数级别的增长。Cunanan等人[9]在此基础上提出一种提高总体试验效率的方法,在期中分析时评价各个患者亚组的治疗效果是否具有同质性,若根据当前数据认为治疗效果同质且药物有效,则可以合并所有子试验的患者数据进行后续的分析。若认为同质但药物无效,则应提前终止整项试验。该方法可以为试验节省第二阶段的样本量,但是无法较好地评价药物对特定患者亚组的治疗效果。其他文献中的篮式试验设计几乎都使用了贝叶斯的方法。Simon等人[10]针对早期探索性篮式试验建立了一种两参数的贝叶斯模型,两个参数分别表示患者亚组之间治疗效果的同质性,以及药物对特定患者亚组有效的先验概率,在拟合模型之前需要指定它们的先验值。该模型实现了不同患者亚组之间的信息借用,同样可以节省需要的样本量。Thall等人[11]和Berry等人[12]先后提出使用贝叶斯层次模型(Bayesian hierarchical model,BHM)以达到在患者亚组之间信息借用。模型将患者亚组治疗效果的方差作为“收缩参数”,用于控制亚组之间信息借用的幅度。收缩参数越小,信息借用的幅度越大,收缩参数为0则等同于合并分析。首先需要指定收缩参数的先验值,在试验过程中通过数据不断调整。然而,Chu和Yuan[13]注意到当试验中的患者亚组数较少时(比如小于6组时),BHM方法无法准确地估计收缩参数,因此导致I类错误率的膨胀。对此,他们提出了校正贝叶斯层次模型法(calibrated Bayesian hierarchical model,CBHM),建立收缩参数与亚组同质性之间的函数关系,通过试验数据不断对该函数进行校正。模拟结果表明CBHM能更好地控制I类错误率。BHM和CBHM方法均假定患者亚组具有“互换性”,即只要存在异质亚组就不进行信息借用,即使其中的某些亚组是同质的。Hobbs和Landin[14]对Kaizer等人[15]提出的多源互换性模型进行改进,提供了一种能够对亚组互换性进行监测的贝叶斯层次模型,这种方法成对地评价所有亚组,从而识别其中的可互换亚组。另一种考虑亚组互换性的篮式试验设计是贝叶斯潜亚组(Bayesian latent subgroup trial,BLAST)设计[16]。BLAST设计按照治疗敏感程度将不同肿瘤类型归类为若干个亚组,假设每个亚组内部具有同质的治疗效果,可以进行信息借用,并通过模型选择方法决定亚组个数。例如,亚组个数为2则表示将所有肿瘤类型划分为敏感和非敏感两类。除此之外,该设计还利用了生物标记物的纵向信息,建立生物标记物与临床结果的联合模型以提高试验的决策效率。

目前,已完成的篮式试验有BRAF V600(NCT01524978)和SIGNATURE(NCT02187783)等[17]。BRAF V600是一项维莫非尼治疗携带BRAF V600基因突变的非黑色素瘤患者的II期篮式试验[18]。试验包括6个指定的患者亚组:非小细胞肺癌、卵巢癌、结肠癌、胆管癌、乳腺癌、多发性骨髓癌,不属于这6种癌症但携带BRAF V600突变的患者作为第7亚组(其他组)。如果其他组中某种癌症的患者达到一定数量,也可以进行单独的分析。每个亚组使用Simon两阶段设计,主要终点为缓解率,共入组208名患者。试验结果表明BRAF V600对于某些癌症类型而言是可行的靶点,但不适用于所有类型。SIGNATURE是由8项篮式试验组成的平台项目,每项试验针对不同靶点研究一种药物[19]。其中,NCT02187783是一项瑞博西尼治疗CDK4/6通路诱导的肿瘤患者的II期篮式试验,目前已完成研究,共招募了31种肿瘤类型的106名患者[20]。试验在统计分析中首先使用Dirichlet混合模型对所有肿瘤类型亚组按历史缓解率聚类,然后采用BHM方法实现聚类内部的亚组间信息借用。

2.伞式试验

在同一肿瘤类型的患者人群中,同时评价多种药物(或治疗方案)的主方案试验称为伞式试验。伞式试验仅针对肿瘤的一种组织学分型招募患者,根据生物标记物将患者划分为不同的亚组,并为每个亚组分配对应的最有效的治疗方案。这种设计既可以用于II期探索性试验,也可以用于III期确证性试验。与篮式试验相比,伞式试验针对特定的肿瘤类型和患者亚组得出的结论更有意义,能够为特定人群和适应症中的药物上市批准提供更有说服力的证据。但是,伞式试验面临着与富集设计相同的问题,当患者亚组较为罕见时,试验将很难招募到足够的患者。另一个问题是某些患者可能符合多个亚组的入选标准,需要预先指定这些患者的分配规则。

伞式试验通常采用随机对照试验的设计方法,可以使用共同对照组的策略。目前没有专门针对伞式试验提出的试验设计。有观点认为,伞式试验中的各项子试验都可以视作单独的富集试验[5],所以可以在子试验中应用现有的富集设计方法。

目前,已完成的伞式试验有BATTLE-1(NCT00411632)和NCT00903734等[17],后者尚未公布试验结果。BATTLE-1是一项晚期非小细胞肺癌患者的II期试验[21],共入组341名患者,最终参与随机化的有255人。治疗方案包括埃罗替尼、凡德他尼、埃罗替尼联合蓓萨罗丁、索拉非尼,针对的基因通路分别为EGFR、KRAS/BRAF、维甲酸-EGFR以及VEGFR。前97名患者被平均分配至每个治疗组中,剩余158名患者通过贝叶斯层次模型下的自适应随机化方法进行分配,根据患者肿瘤标记物的情况自适应地为其分配收益最高的治疗组。试验的主要目标是判断各治疗方案在对应的患者亚组中是否有效,主要终点为第8周疾病控制率(disease control rate,DCR),次要终点包括缓解率、无进展生存期(PFS)、总生存期(OS)以及毒性。试验结果证实治疗方案与标记物之间存在一定关联,例如在KRAS/BRAF亚组中,索拉非尼的DCR达到79%,而埃罗替尼的DCR仅为14%。

3.平台试验

平台试验通常针对同一肿瘤类型的患者,使用多个治疗组同时评价多种候选药物(或治疗方案),除对照组之外,每个治疗组对应一种治疗方案。特点在于允许候选药物种类与数量的动态变化,即允许治疗组的退出和加入,使得试验永续进行。平台试验尚未有明确统一的定义,广义的平台试验即同时评估多种生物标记物和多种药物的试验,与伞式试验非常类似。Simon[5]认为两者的区别在于伞式试验中生物标记物与药物的对应关系是已知的,而在平台试验中是未知的。更严格的定义认为,平台试验必须允许治疗组的动态变化[22]。更复杂的平台试验还可以结合篮式试验与伞式试验的特点,在不同肿瘤类型的患者中评价多种药物。随着试验数据的累积,平台试验使用基于后验概率或预测概率的贝叶斯决策规则判断各治疗组中候选药物的疗效。若认为药物无效或过毒,则提前终止该组的试验,淘汰该候选药物;若认为有效,则该候选药物可以从平台中“毕业”,进入研发的下一阶段,因淘汰或毕业空缺出来的位置可用于评估新的候选药物。因此,平台试验可以在同一试验框架下不断地评估新加入的候选药物,极大地提高了药物评估的效率。由于其高效性和灵活性,平台试验尤其适合探索多种药物的不同组合,或是直接地比较不同治疗方案的效果[23]。Berry等人[24]认为,平台试验的重心在于疾病,而不仅是对特定治疗手段的评估。即便已完成对初始候选药物的评估,试验也会持续进行。除了评估候选药物对特定疾病的疗效,平台试验也可以加入对患者异质性的考虑,通常使用响应自适应随机化的方法分配患者。响应自适应随机化可以根据患者所属生物标记物亚组为其分配更可能有效的治疗方案,使试验中的患者获益。然而也有批判的观点认为,临床试验不应将更多患者提前分配到仍处于评估阶段的治疗方案中,试验更应关注的是更广泛的未来患者群体的获益[17]。

Yuan等人[25]首先提出了一种针对MTA的II期平台试验设计,名为自适应迭代多候选设计(multi-candidate iterative design with adaptive selection,MIDAS)。MIDAS设计对候选药物的PFS和二元毒性结果分别建立贝叶斯模型,作为治疗组早期停止决策的基础。除平台设计的上述特点之外,MIDAS设计还改进了自适应分配规则,使新加入的候选药物具有更高的随机化概率,从而迅速积累样本量。并且,为了使更多患者有机会接受更加有效的治疗,当对照组的样本量达到预先规定的阈值后,对照组的随机化概率将逐渐缩小。当试验中的任一候选药物毕业或被淘汰时,MIDAS设计将立即开始评估新的候选药物,如有需要,也可以首先使用贝叶斯最优区间设计[26]完成新候选药物的I期导入阶段,以确认其安全性。Hobbs等人[27]提出了基于预测概率的平台试验设计,考虑二元有效性结果的情形。该设计使用贝叶斯预测概率制定无效停止规则,能够在试验开始之前列出无效停止边界。期中分析时无需进行额外的计算,只需根据响应人数判断是否需要提前停止某一治疗组。Tang等人[28]提出的ComPAS设计专门针对药物组合的平台试验,并且提出一种基于贝叶斯层次模型的新型自适应收缩法。考虑若干待研究化合物与若干主治疗方案的组合,令各组合响应率的logit变换值服从正态分布。如果认为不同组合的响应率只与主治疗相关,在待研究化合物之间同质,则可将各组合的响应率收缩到各主治疗的均值;更进一步,如果认为所有组合都近似可互换,则可将响应率收缩到所有组合的总体均值,从而实现不同组合间的信息借用。以上设计均针对临床II期试验,而Li等人[29]讨论了I期平台试验的情形,即在一次试验中同时评估多种研究药物的多个剂量水平,并且根据生物标记物划分了患者亚组。试验目标是为每个亚组找到最优药物的有效可耐受剂量。设计使用连续重估方法[30]寻找各亚组中每种药物的最大耐受剂量,使用BHM法建立剂量与有效性的关系模型,并实现剂量之间的信息借用。

I-SPY2(NCT01042379)是较早开展的平台试验之一。I-SPY2是一项局部晚期乳腺癌女性患者的临床II期试验[31],设置两个标准治疗组,其余治疗组为五种新型候选药物与标准治疗的组合,每个治疗组的样本量设为20~120。根据生物标记物情况划分患者亚组,HER2阴性患者对应的标准治疗为紫杉醇,HER2阳性患者对应的标准治疗为曲妥珠单抗联合紫杉醇。目标是在患者亚组中判断是否存在疗效优于标准治疗的治疗方案。期中分析时计算各治疗方案优于标准治疗的贝叶斯预测概率,概率较高的治疗方案与对应生物标记物的治疗组将从试验中毕业,进入临床III期研究,概率较低的治疗组将被舍弃。新候选药物如果满足基本的安全性和有效性要求,可在任一治疗组毕业或被舍弃后进入试验。同时应用贝叶斯自适应随机化方法提高试验的效率,以更高的概率为患者分配疗效更优的治疗组,从而更快地完成对该组的评估。I-SPY2平台试验可以作为快速评估新药疗效的范例,已发表多篇研究成果[32-33]。

4.其他复杂试验

根据实际需求,主方案设计也可以融合篮式试验与伞式试验的设计特征,形成更加复杂的试验设计。例如,NCI-MATCH(NCT02465060)是一项针对无公认标准治疗,或接受标准治疗后疾病进展的各类实体或淋巴瘤患者的II期试验,预期设置25个MTA治疗组,入组1000个携带基因突变的患者[34]。仅目前披露的10个治疗组的信息中,就已涉及八种药物和靶点。无论肿瘤类型,试验根据肿瘤的分子亚型将患者分配到对应的治疗组中。因为NCI-MATCH在多个肿瘤类型的患者中同时评估多种药物对多个肿瘤分子亚型的治疗效果,所以难以归为以上具体某一类别。在以往的文献中,NCI-MATCH既有被作为篮式试验的案例,也有被作为伞式试验的案例[35]。Siu等人[36]将该类主方案试验称为“混合试验”。

统计学考虑

主方案试验较普通试验设计而言通常更为复杂,统计方法的正确运用可以在一定程度上确保试验结果的准确性与可靠性,同时提高试验的效率。以下将讨论主方案试验中涉及的统计学问题以及可用的统计方法。

1.控制错误率

主方案试验中普遍存在多重检验的问题,需要控制试验中的总体I类错误率。其中篮式试验因为同时纳入多个肿瘤类型的患者,在对药物进行最终的汇总分析时尤其容易出现假阳性的结果[17]。有些篮式试验在期中分析时,会使用“修剪(pruning)”的方法减少进入最终汇总分析的亚组数量,例如根据期中分析数据提前停止响应率较低的肿瘤类型对应的治疗组。如果修剪是基于试验数据进行的,则会导致I类错误率的膨胀,需要对其进行校正以控制总体I类错误率。对此,Chen等人[37]针对III期篮式试验中可能使用的三种样本量调整策略,提出了对应的校正I类错误率的方法。Yuan等人[38]针对使用修剪策略的篮式试验,提出一种在控制总体I类错误率的条件下保证功效的成组序贯富集设计。

2.对照组

同时评价多种药物对一种肿瘤类型疗效的主方案试验可以采用共同对照组策略,仅设置一个标准治疗组作为所有其他治疗组的对照,有利于减少所需样本量,提高试验效率。例如,LUNG-MAP试验(NCT02154490)是一项针对晚期或转移性肺鳞癌患者同时评价四种靶向治疗方案的伞式试验[39]。试验由五项子试验组成,根据患者的生物标记物情况将其随机分配到对应子试验中的靶向治疗组或对照组,不符合任何靶向治疗生物标记物要求的患者将被分配到为阴性患者准备的子试验中。由于对照组共享,试验仅设置四个靶向治疗组、一个无匹配(non-match)治疗组以及一个标准治疗组。共同对照组的策略已得到美国FDA的认可与提倡[7]。需要注意的是,主方案试验通常持续时间较长,如果公认的标准治疗药物出现更替,则试验中对照组的用药也应随之调整,以符合伦理要求。

涉及多个肿瘤类型的主方案试验中可能出现不设置对照组的情况,例如篮式试验或更复杂的主方案试验。Mullard[34]表示,不设置对照组的原因是无法对多个肿瘤类型的患者确定统一的标准治疗,并且难以平衡试验中治疗组与对照组的患者数量。然而,对照组的缺失很可能影响试验对疗效的评价,导致对疗效的高估或低估。

3.基于生物标记物的亚组划分

在根据生物标记物分配治疗组时,可能出现患者携带多个生物标记物,同时符合多个治疗组的入组标准的情况,所以通常需要提前指定该类患者的分配方法。可以考虑使用的方法大致有以下两种:一种方法是根据生物标记物的稀缺性或入组率判断,若患者携带的生物标记物均比较普遍,则可以将患者随机分配到对应的任意治疗组。若存在较稀缺的生物标记物,则可以为该组设置更高的随机化概率或将患者直接分配到更稀缺的生物标记物治疗组。例如在LUNG-MAP试验中,治疗组的随机化概率与以往研究数据中生物标记物的普及率成反比。另一种方法是按照生物标记物的预测价值提前设置优先级,将患者优先分配到更具预测价值的治疗组中。另外,如果患者接受某个治疗方案一段时间后出现了疾病进展,也可以考虑为其重新分配治疗组。例如在BATTLE-1试验中,有18个患者参与了多次随机分配[21]。

一些临床试验会针对所有生物标记物均为阴性的患者设置无匹配治疗组,作为额外的子试验,保证试验入组的所有患者均能接受治疗。这种处理方法尚不具备充分的合理性,目前存在争议。并且,由于无匹配治疗组中患者人群混杂,其试验数据可能无法作为历史数据支持未来的新药审评[8]。

展 望

在精准医疗的背景下,随着更多MTA的研发进入临床评价阶段,主方案无疑提供了一种更加经济、高效的试验设计方法。基于分子分型招募患者的篮式试验提高了试验的筛检效率,使罕见肿瘤患者有了参与临床试验的机会,而伞式试验和平台试验能够快速完成对多种治疗方案的评价,平行比较各组的治疗效果,使有效的治疗方案更快地进入市场。无论对企业还是对患者而言,主方案设计都是极其有利的,可以预见其广泛的应用前景。

然而,在实际中应用主方案设计仍面临诸多挑战。首先,主方案设计对试验的基础设施、信息交流渠道和机构间合作提出了更高的要求,主方案框架下的大型试验可能涉及多个地区的研究中心,研究药物可能来自多个不同企业,需要多领域之间的密切交流与协作。其次,目前对患者的治疗组分配大多基于生物标记物的测定,但是不是所有的生物标记物都已有成熟、可靠、可重复的测定方法。最后,主方案作为一种新兴的试验设计,在试验的很多实施细节上尚无公认的最优方法。这就需要临床研究者与统计学家的深入研究,从科学的角度探索更加合理、高效的试验方法。

猜你喜欢

亚组方案药物
烂脸了急救方案
槭叶铁线莲亚组的研究进展
如何选择降压药物?
不是所有药物都能掰开吃——呼吸系统篇
艾灸神阙穴对不同程度力竭运动大鼠海马区单胺类神经递质的影响❋
冠心病患者肠道菌群变化的研究 (正文见第45 页)
定边:一份群众满意的“脱贫答卷” 一种提供借鉴的“扶贫方案”
主动脉标化的儿童室间隔缺损与肺动脉宽度的相关性研究
最熟悉的药物伤你最深
稳中取胜