7种单组率的置信区间所需样本量的估计方法比较

2023-02-27于米铼石晓彤邹碧清安胜利

南方医科大学学报 2023年1期

于米铼，石晓彤，邹碧清，安胜利

南方医科大学公共卫生学院生物统计学系，广东广州510515

样本量估计在医学研究中至关重要。其通常有两种估计方法，假设检验法基于显著性检验和检验效能［1,2］计算出所需的样本量。置信区间法关注精确度［3-11］，通过指定置信区间的宽度，计算样本量。在流行病学调查中，研究目的常常是估计某一人群中某特定疾病的患病率［12,13］，流行病学家为了以合理的准确度评估患病率，计算所需的样本量需要用置信区间法。单组率基于置信区间法的样本量估计，在1991年，Lwanga 和Lemeshow给出了基于正态近似的Wald 法样本量计算公式［4］。2008年Machin给出了大样本率下、极端样本率下、有限总体下［14］，基于Wald 法，单组率置信区间法的公式。2013年Vallejo等人给出了基于Wilson Score法置信区间法计算样本量的公式［15］。虽然有众多单组率置信区间的估计方法［16］，现在还没有除了Wald 法和Wilson Score法以外基于置信区间的样本量计算方法。因此，本文拟基于Wald 法、ADD4 法、ADDZ2 法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法这7种常见的单组率置信区间估计方法，估算所需样本量并模拟比较，并给出不同情况下的推荐方法，为相关研究提供参考。

1 方法

1.1 单组率的置信区间估计

1.1.1 Wald法（Wald CI）基于正态近似、点估计中心对称理论［17］。如式（1）所示，p表示事件发生率，n表示样本量。

1.1.2 ADDZ2 法（Agresti-Coull add z2CI）Agresti 和Coull提出的ADDZ2法［18,19］，实际是从Wald法入手，将样本成功例数和失败例数都增加。如式（2）所示，其中

1.1.3 ADD4 法（Agresti-Coull add 4 CI）Agresti 和Coull 提出的ADD4 法［18］，在ADDZ2 法中，当α=0.05时，≈4，即将样本成功例数和失败例数都增加2，如式（2）所示，其中x*=x+2，n*=n+4，p*=x*/n*。

1.1.4 Wilson Score法（WS CI）假设事件发生率为π，总体X～B(n,π)，n表示样本量，x表示事件发生数，p=x/n表示事件发生率，如式（3）所示［17］。

可解得π 为

1.1.5 Clopper-Pearson 法（Clopper-Pearson confidence interval）该法可保证置信区间覆盖率在指定概率［20］。区间上限pU和下限pL分别为式（5）的解。

1.1.6 Mid-p 法（Mid-p confidence interval）该法是Clopper-Pearson法的矫正，在保证覆盖率的同时可以比Clopper-Pearson法保守性少一点。区间上限pU和下限pL分别为式（6）的解［19,21］。

1.1.7 Jefferys 法（Jefferys confidence interval）假设X～B(n,p)，p的先验分布为Beta(α1,α2)，那么p的后验分布为Beta(X+α1,n-X+α2)，因此100(1-α)%Bayes 区间为式（7）所示［17］。

1.2 基于置信区间估计的样本量计算方法

本文将采用搜索算法［22,28］对7种置信区间法所需样本量进行估计。

步骤一：给定参数p（预计总体率），ω（置信区间宽度的一半），给n（样本量）一个初始值，假设总体X～B(n,p)，根据7种置信区间估计法，每种方法产生Κ个置信区间。

步骤二：计算出Κ个置信区间宽度平均值2ω*。

步骤三：若2ω*大于（或小于）2ω，则增加（或减少）n的值，重复步骤一和步骤二。

步骤四：重复步骤三直到半区间宽度ω*非常接近给定的ω，即样本量满足n=min{n:|ω*-ω|≤0.001}，得到近似样本量。

步骤五：若达到指定迭代次数，依旧无法达到收敛，则判定样本量估计失败。

2 模拟与实例

2.1 模拟步骤

本研究用R 语言模拟了Wald 法、ADD4 法、ADDZ2法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法这7种单组率样本量估计法。模拟步骤如下：（1）固定半置信区间宽度ω，在不同事件发生率p下估计样本量。具体方法见1.2；（2）基于步骤（1）估计的样本量，重复10000次，计算比较各方法的区间覆盖率、置信区间宽度和尾侧不覆盖率比值。考虑事件发生率p在[0,1]范围内基于0.5对称，因此进行参数选择时只考虑[0,0.5]范围内的p。参数设置：ω=0.05、0.1，p=0.01-0.5（间隔0.01），置信水平1-α=0.95。

2.2 评价指标

本研究通过计算在所估计出的样本量下置信区间的区间覆盖率、宽度和尾侧不覆盖率来评估比较各方法。

2.2.1 区间覆盖率（CP）统计上，一个置信区间的覆盖率是它包含感兴趣真值的次数占总次数的比例。区间覆盖率越靠近置信水平越好。I[p∈CI(x;n,α)]为给定X=x，样本量n，检验水准α的条件下，一次模拟研究覆盖情况的示性函数，置信区间包含事件发生率时，即p∈CI(x;n,α)，I[p∈CI(x;n,α)]取值为1，否则为0，如式（9）所示。

若给定的置信水平为95%，则覆盖率越接近95%，置信区间估计越好。当覆盖率小于94%时，认为覆盖率较差。当覆盖率大于96%时，认为区间估计较保守。本研究中，以覆盖率在[0.94,0.96]定义为较好。

2.2.2 置信区间宽度（CW）如式（10）所示，其中U(x)和L(x)分别表示置信区间的上限和下限。

本研究中，在保证区间覆盖率的前提下，由于事先指定了半置信区间宽度（ω=0.05,0.1），模拟过程中若半区间宽度估计误差值在0.001 之内，则所估计的样本量将被接受。因此主要考察估计出的样本量计算的置信区间宽度是否在指定范围[0.098,0.102]，[0.198,0.202]之内，若在指定宽度范围之内，则认为样本量估计精确。

2.2.3 左右尾侧不覆盖率（MNCP，DNCP）置信区间下限大于真值的概率称为MNCP，置信区间上限小于真值的概率称为DNCP，见式（11）。左右尾侧不覆盖率应尽可能接近，越接近说明置信区间对称性越好。

2.2.4 尾侧不覆盖率比值：MNCP/（MNCP+DNCP）越接近0.5说明置信区间的对称性越好。在本研究中，当尾侧不覆盖率比值在0.4～0.6间，认为该方法的对称性较好。

2.3 模拟结果

2.3.1 样本量估计失败情况如表1 所示的半置信区间宽度和事件发生率的情况下，估计样本量失败，因而均不计算置信区间宽度，覆盖率，尾侧不覆盖率比值。

表1 样本量估计失败情况汇总Tab.1 Summary of failure of sample size estimation

2.3.2 样本量比较随着事件发生率的增加，样本量逐渐增加（图1）。Clopper-Pearson法所估的样本量明显大于其他方法，其他方法计算结果相近。

图1 样本量随事件发生率p的变化情况Fig.1 Influence of p on sample size estimation(ω=0.05,0.1).

2.3.3 区间覆盖率（CP）比较在ω=0.05时，在低事件发生率p=（0.01-0.1）时，建议选择覆盖率较保守的ADD4法、ADDZ2法和Clopper-Pearson法。而Mid-p法偶尔发生覆盖率低于0.94，也可参考选择。在其余情况下，除了Clopper-Pearson法较保守，其他方法的覆盖率都相对稳定，Mid-p法和Jefferys法偶尔发生覆盖率低于0.94的情况（图2）。

图2 区间覆盖率(CP)随事件发生率p的变化情况Fig.2 Influence of event probability(p)on coverage probability(ω=0.05).

在ω=0.1时，在事件发生率极低p=（0.01-0.05）时，除Clopper-Pearson法外，其余方法都存在无法迭代的情况，建议选择Clopper-Pearson 法。其他情况与ω=0.05的情况类似，不多赘述。

2.3.4 尾侧不覆盖率比值(MNCP/(MNCP+DNCP))的比较在ω=0.05时，当事件发生率极低时p=（0.01-0.05），所有方法的对称性表现都不好。在p=（0.05-0.15）时，Mid-p 法和Clopper-Pearson 法的对称性较好。在p=（0.15-0.3）时，除了Wald 法，其余方法都可以选择。Wilson Score法、Jefferys法偶尔存在尾侧不覆盖率比值不在指定范围的情况。在p=（0.3-0.5）时，所有方法对称性都在指定范围，都可选择（图3）。

图3 尾侧不覆盖率比值(NCP)随事件发生率p的变化情况Fig.3 Influence of p on noncoverage probability (ω=0.05;NCP=MNCP/(MNCP+DNCP)).

2.3.5 置信区间宽度（CW）的比较随着事件发生率的增加，各方法的置信区间宽度逐渐趋于指定宽度，有些方法会在事件发生率p较低时，宽度大于指定范围，但误差尚在0.001内，故基本认为各方法无明显差异（图4）。

图4 置信区间宽度(CW)随事件发生率p的变化情况Fig.4 Influence of p on confidence interval width(ω=0.05).

2.4 实例分析

本文采用Lwanga在样本量计算指南中的例子［4］。

卫生部门希望估计当地五岁以下儿童的结核病患病率。如果已知真实率不太可能超过20%，那么应调查多少儿童，以便在95%的置信度下，将患病率估计误差控制在真实值的5%以内。即事件发生率p=0.2，ω=0.05（表2）。

表2 不同方法所估计出的样本量及有关指标Tab.2 Sample size and relative indexes estimated by different methods

可见，Clopper-Pearson法计算的样本量明显大于其他方法。所有方法的置信区间宽度都在指定范围内。综合考虑区间覆盖率和尾侧不覆盖率比值，建议选择ADDZ2法，它的区间覆盖率接近0.95，尾侧不覆盖率比值最接近0.5。ADD4 法和Mid-p法表现也相对较好。与模拟结论一致。

3 讨论

本文从常用的7种单组率置信区间估计法入手，通过迭代计算，得到了基于置信区间估计的样本量计算方法，并模拟比较了在不同精度（ω=0.05，0.1）、不同事件发生率下各种方法计算得出的样本量。

在推荐方法的选择时，由于各方法区间宽度无明显差别，因此建议先考虑区间覆盖率，再考虑对称性，最后考虑置信区间宽度。若有多个方法入选，用户可以自行选择。

当精度要求较高时（ω=0.05），若事件发生率在p=（0.01-0.05）时，所有方法对称性都较差，Mid-p法、Clopper-Pearson法、ADD4法、ADDZ2虽然覆盖率较高（保守），但是综合表现最优，建议选择。在p=（0.05-0.15）时，Mid-p法表现最优。在p=（0.15-0.3）时，除了Wald 法，其余方法表现差异不大，Wilson Score 法和Jefferys法偶尔存在尾侧不覆盖率不在指定范围情况，也可以参考选择。在p=（0.3-0.5）时，所有方法表现差异不大，都可以选择。

当精度要求适中时（ω=0.1），在事件发生率极低p=（0.01-0.05）时，除Clopper-Pearson法，其余方法都存在无法迭代的情况，建议选择Clopper-Pearson法。其余情况与ω=0.05类似。

由于Clopper-Pearson法覆盖率有时过高，导致估计结果过于保守，使计算出的样本量大于其他方法，考虑其成本效益，在有别的方法选择时，建议选择其他方法。Mid-p法的计算方法运算比较缓慢，在实际应用中也应考虑这一点。

当ω=0.1且事件发生率较低（小于0.1）时，有较多方法估计样本量失败，可能的原因是置信区间法首选需固定置信区间宽度，而方法本身可能无法产生满足该区间宽度的样本量估计结果。同时，为了满足指定的区间宽度，可能会导致区间对称性较差。因此在此条件下，不推荐本研究中涉及的置信区间法进行样本量估计。

本文仍有值得继续探索的地方。

（1）单组率的置信区间估计方法众多［16］，本文只是挑选了其中代表性的方法，仍有其他方法估计样本量值得探寻；（2）本文样本量估计是基于搜索迭代法，部分方法在运算时存在运算缓慢的情况，有的置信区间估计法甚至会无法得出结果。有的学者是从置信区间估计公式本身出发［3,4,13,29］，通过列等式换算，给出样本量的计算公式，在此基础上做出矫正，但该方法不适用于置信区间估计方法较复杂、无法直接样本量计算公式的情况，需要进一步探索如何基于置信区间估计计算样本量的其他方法［30］，如鞍点逼近法等等；（3）基于置信区间宽度（精度）的设置，本文只设置了2 种情况，即ω=0.05 或0.1。还可设置更多情况，以探索不同精度下的各方法的优劣。