临床研究中的多重检验

2023-02-15区倩华阮光峰丁长海

广州医药 2023年1期

区倩华阮光峰丁长海，3

1 中山市人民医院重症医学科(中山 528403) 2 广州市第一人民医院临床研究中心(广州 510180) 3 南方医科大学珠江医院临床研究中心(广州 510280)

临床研究中若具有多个研究终点、需要比较不同治疗组间的差异、不同亚组间的差异分析以及对同一结果在不同时间的多次分析等，都需要进行多重检验，然而多次的假设检验会增加犯Ⅰ类错误的风险，从而导致试验结果的不准确性[1]。只有部分文章在多重检验中进行校正以减少Ⅰ类错误发生的概率，且很少说明进行校正的理由[2]。一项研究评估了2012年1月—2012年12月之间发表在4种主要医学期刊(BritishMedicalJournal、Lancet、NewEnglandJournalofMedicine和PLoSMedicine)上的多臂试验，发现只有一半(49%)的多臂验证性试验进行了多重性校正[3]。多重检验是较复杂的统计学问题，本文尝试简单地解释多重性校正的原理、条件及方法，帮助研究者更好地理解此问题。

1 单个假设检验和多重检验

单个假设检验是多重检验的出发点，因此先对单个假设检验进行回顾。在进行检验时，我们会先确定好显著性水平α(通常取0.05)，这是在此次检验中会得到假阳性结果的风险，即Ⅰ类错误的发生概率。换句话来说，研究者会控制单次检验中可能出现假阳性结果的概率在5%。

与单个假设检验类似，若同时检验多个假设时，控制好Ⅰ类错误的概率也是主要任务。举个例子，研究中有k个假设，每个假设都是相互独立的，显著性水平都是α，那就意味着如果进行k次假设检验，那么不犯Ⅰ类错误的概率是(1-α)k，则至少犯一次Ⅰ类错误的概率是1-(1-α)k。而且当k不断增加时，(1-α)k趋向于0，1-(1-α)k趋向于1，见图1，多重检验大大增加了Ⅰ类错误的发生概率[4]。

图1 多重检验中Ⅰ类错误增加趋势

图1：当α=0.05时，y=(1-0.05)k，z=1-(1-0.05)k。随着k的增加，y和z发生变化。

2 多重检验的错误率

在多重性检验的问题上，我们可以将多个单一的假设检验看成一个整体，然后对这个整体的每个假设同时检验的结果进行分类总结，就可以定义度量整体错误标准，从而提出多重校正来控制Ⅰ类错误的发生概率。如果同时检验m个假设Hi，i=1，2……，m，得到的检验结果见表1。

表1 多重检验整体错误数

其中V、S、U、T都是随机变量，V和T分别表示犯第Ⅰ类错误和第Ⅱ类错误的个数；R是m个检验中拒绝原假设的总个数，m0和m1分别是实际上原假设为真和原假设为假的个数。

定义多重检验中错误率有以下四种：

(1)PFER(per-family error rate)：亦称平均总体错误率，定义为E(V)，表示的是多重检验中错误拒绝(犯Ⅰ类错误)的个数的期望值，但是忽略了检验的总个数m的存在，反应不出两个不同检验整体的差异。

(2)PCER(per-comparison error rate)：亦称平均比较错误率，定义为E(V)/m，这是在PFER的基础上得出的，表示的是多重检验中错误拒绝(犯Ⅰ类错误)的个数在m各检验中所占的比例。

(3)FWER(family-wise error rate)：亦称总体错误率，定义为Pr(V≥1)，这是一个概率值，表示多重检验中至少犯一次Ⅰ类错误的概率，也可用上文提到的1-(1-α)k表示。

(4)FDR(false discovery rate)：亦称错误发现率，定义为E{V/(V+S)}=E(V/R)，表示的是多重检验中错误拒绝原假设(拒绝真的原假设，即犯Ⅰ类错误)的个数占所有被拒绝的原假设个数的比例的期望值，我们用Q表示V/(V+S)，那么FDR亦可表示为E(Q)。此外，应当注意以下两种情况：①当所有的原假设为真时，即m=m0和S=0，根据Q=V/R的公式可得，当V=R=0时，Q=0；当V≥1时，Q=1，则此时Pr(V≥1)=E(Q)，即FWER=FDR，此时FWER与FDR在衡量多重检验中错误率是等价的；②m00,则Q=V/R≤1,认为Pr(V≥1)≥E(Q),即FWER≥FDR。根据以上的推导过程可以得出，多重检验中控制FWER过程中也同时控制FDR；而只控制FDR虽然很难保证FWER在合理的范围内，但是不会过于严格，随着m1的增大，S也会增加，即检验效能也不断增大[5]。

目前PFER和PCER在多重检验中并不多用，而常用基于FWER和FDR的控制方法进行多重校正。

3 进行多重校正的情况

3.1 多个治疗组

随机对照试验中通常会设置多个试验组与对照组进行比较，意味着要在多组试验组之间要进行多次比较，同时也要考虑不同干预之间的交互作用。最简单的例子便是进行多个总体均数间的比较，使用完全随机设计资料的方差分析(one-way ANOVA)，在进一步两两比较的时候为了避免I类错误的增加，应考虑多重校正。

3.2 亚组分析

临床试验中除了对不同干预手段进行分组外，还可以根据性别、年龄、是否存在合并症或疾病严重程度进行分组，以确定总体试验结果是否适用于所有符合条件的患者，或者不同亚组间的干预效果是否存在差异。如2009年发表在NewEnglandJournalofMedicine上的一篇关于替卡格雷和氯吡格雷在急性冠脉综合征(acute coronary syndrome, ACS)患者中疗效的Ⅲ期临床试验，结果表明使用替卡格雷的人群中主要终点事件发生率降低了16%，而亚组分析表明服用高剂量的阿司匹林(≥300 mg)的ACS患者使用替卡格雷疗效不佳[6]。亚组分析会进行多次的假设检验，因此需要考虑多重校正。

3.3 相同结果的重复测量

在不同时间重复检验相同结果也会增加犯Ⅰ类错误的风险。临床研究中，通常在不同治疗组中对受试人群按照一定的时间间隔进行重复测量，目的是观察不同治疗方式随时间变化的趋势[7]。对于不同治疗组，研究者反复测量血压、药物清除率、抑郁或疼痛评分等结局时，注意多重检验造成Ⅰ类错误的增加。一项在意大利进行2年时间的随机临床试验中涉及了多个时间点的测量，该研究是比较高位或低位结扎肠系膜下动脉对于直肠癌患者术后肛门功能和性功能的影响，比较的时间点分别是术前、术后1个月和术后9个月。研究涉及多个时间点的重复测量，但是作者并未对该结果进行多重检验。

3.4 多重性结果

临床试验通常是通过评估多种结果(或“研究终点”)来判断试验的效果。心血管研究中，感兴趣的结果可能包括住院、中风、心力衰竭、心肌梗塞、心脏骤停、残疾和死亡。如果我们以5%的显著性水平分别检验每个结果，那么FWER会高于5%，此时应调整分析方案。同样，在比较不同结扎方式对于直肠癌患者术后肛门功能和性功能影响的研究中，需要进行多重检验的情况也包括多个研究终点(尿流量的测量、排尿后的膀胱残余尿量、男性前列腺功能评价等)，作者也未对该结果进行多重检验。

3.5 多次中期分析

在临床研究中通常需要进行长期监测，即在不同的时间对同一结果进行多次分析，目的是为了确定是否提前终止试验，出现的原因可能是新的治疗方法与对照组之间存在显著差异或造成严重的不良事件。进行多次分析需要对各阶段积累的数据进行反复比较，从而增加了犯Ⅰ类错误的风险。这种情况类似与相同结果的重复测量。

3.6 探索性试验和验证性试验

验证性试验(如随机对照试验)是检验预先确定的关键假设，需要确定合适的样本量进行数据收集和分析，必要时需进行多重校正，为研究提供有效可信的证据。而探索性试验(如观察性研究、Ⅰ期或Ⅱ期临床试验早期)是进行新干预措施之前的早期试验，可以说是发现假设的一个过程，探索性试验的结果后期需要进行验证性试验进一步检验，因此可不要求进行多重性校正。

下面讲述的例子是一项北美的3期随机临对照床试验(2016年1月11日—2017年3月22日)，该项试验主要研究加那珠单抗(Galcanezumab)相比于安慰剂在治疗偏头痛上是否更有效。该研究设计了两个剂量的加那珠单抗(120 mg和240 mg)和安慰剂组作比较，多个研究终点包括每月偏头痛的天数、每月需要使用解热镇痛剂来缓解偏头痛的天数、偏头痛特异性生活质量问卷评分、偏头痛残疾评估评分。多个治疗组和多个研究终点的分析均需要进行多重性校正。多重性校正后，与安慰剂相比，两种剂量的加那珠单抗均能显著减少每月偏头痛的天数和改善患者的生活质量，而两种剂量间的疗效并没有显著差异。

4 多重性校正的方法

多重校正有很多种方法，较基本的方法是用于控制FWER和FDR的Bonferroni和Benjamini-Hochberg(BH)校正。

Bonferroni法是最简单、最经典的。为了使FWER达到0.05，那么每次多重检验中显著性水平都必须低于0.05，即1-(1-α)k中的α低于0.05。而Bonferroni校正就是通过调整显著性水平来控制多重检验中犯I类错误的概率，公式为α′=α/k。在此方法中，每次检验的显著性水平都是α/k，其中k是检验次数，α指的是原先的显著性水平，这样可以保证这一组假设总体犯Ⅰ类错误的风险在α之内。然而，Bonferroni校正总是以牺牲检验效能(1-β)来保证FWER，此时若要维持Ⅱ类错误在合理的水平，就需要增加样本量[8]。

BH法过程较复杂，步骤如下：(1)将原始m个P值升序排序，排序后表示为P1、P2……Pm；(2)(i / m)×q计算每个P值的BH临界值，其中i是P值等级，m是检验次数，q是FDR(自由取值，通常≤0.05)；(3)排序后的P值与BH值进行比较，找到小于或等于临界值的最大原始P值，此时对应排序等级为J，记为PJ，则PJ≤(J/m)×q。(4)拒绝所有等级在PJ之前及PJ(即1≤i≤J)对应的原假设，接受这些原假设对应的备择假设，即认为差异具有统计学意义[5, 9]。

2016年在NewEnglandJournalofMedicine上发表的一项关于比较新型抗凝剂贝曲沙班和目前使用广泛的依诺肝素在预防静脉血栓发生风险的随机对照临床试验上运用了BH法进行多重校正。该研究中，研究者根据患者年龄和体内D-二聚体的水平分成了2个亚组，即在3个组别中分别比较了两种抗凝剂的疗效，分别是D-二聚体水平升高的患者(组别1)、D-二聚体水平升高且年龄大于75岁的患者(组别2)、所有入组的患者(组别3)。在3个组别中对比贝曲沙班和依诺肝素的作用效果，得出的P值分别是0.054、0.03、0.006，按照P≤0.05来看，两种抗凝剂的使用在组别2和组别3是有区别的。通过BH法进行多重校正后，BH临界值分别是0.05、0.03、0.017，则只有在组别3中两种抗凝剂是有差异的。因此，在患有内科急症的住院患者中，贝曲沙班在降低静脉血栓的发生率优于使用依诺肝素的患者。为了确定该结果是否适用于所有患内科急症的住院患者，经过多重校正的亚组分析表明，在D-二聚体水平升高或者合并年龄大于75岁的患者中，贝曲沙班的使用并没有显示出优势。

以下是关于BH法和Bonferroni法在多重校正中的区别。

表2 BH法、Bonferroni法校正后及未校正前的多重检验(m=10，FDR=q=0.05，α=0.05)

实际上，BH法是对排序后的假设重新确定了新的显著性水平(相当于临界值)，随着等级i的不断增加，重新确定的显著性水平(临界值)也不断增加。相对于Bonferroni法中显著性水平一直是α/k来说，BH法拒接原假设的标准显得不过于保守。这样就能从统计学上保证FDR不超过α，从而保证多重检验整体犯I类错误的概率低于预先设定的显著性水平α。

虽然两种方法都是用于多重检验中控制Ⅰ类错误的发生，但两者之间仍有区别。Bonferroni校正方法虽简单，但过于严格，灵敏度不高，难以比较出不同组别之间的差异；用于控制FDR的BH方法会基于每个P值进行校正，显得更加灵活，且提高了检验效能。实际上，多重性问题会存在不同的复杂情况，如研究方案中多个治疗组、多重性结果和多次中期分析并存等，那么多重性校正就更具有挑战性，简单的Bonferroni和BH方法并不能解决问题，需要更复杂的统计方法[10]。

为了保持统计结果与结论的严谨性和一致性以避免误导读者，研究者应该清楚地认识多重性校正的重要性，并根据问题及时调整研究方案或分析策略，且应在发表文章中给出明确的解释。