Bland-Altman一致性评价的样本含量估计*
2015-01-27陆梦洁刘玉秀缪华章钟伟华李永昌
陆梦洁 刘玉秀 缪华章 钟伟华 李永昌
南方医科大学南京临床医学院(南京军区南京总医院)(210002)
Bland-Altman一致性评价的样本含量估计*
陆梦洁 刘玉秀△缪华章 钟伟华 李永昌
南方医科大学南京临床医学院(南京军区南京总医院)(210002)
目的 两种定量测量方法的一致性评价普遍采用Bland-Altman方法,但有关其样本含量的估计迄今未见报道。本文初步探讨Bland-Altman一致性评价的样本含量估计方法。方法 根据Bland-Altman方法采用LoA可信区间进行一致性推断的原理,对相应的样本含量公式进行了理论推导,并借助Monte-Carlo模拟方法对计算公式进行了正确性验证。通过事先确定α和β水平,采用导出的公式计算出两方法测量结果差值总体均数不同水平下的样本含量,并分别模拟获得相应样本含量下的把握度。结果 模拟获得的把握度与事先给定的β水平能够很好地吻合,验证了计算公式的正确性。结论 本文导出的样本含量计算公式可以用于Bland-Altman一致性评价研究。
Bland-Altman一致性 样本含量 把握度 Monte-Carlo模拟
在医药卫生领域定量方法比较研究中,经常会采用 Bland-Altman方法进行一致性评价,进而判定方法间的可互换性。然而,该方法迄今仍未解决样本含量估计问题。Bland曾有过一些推荐,认为采用Bland-Altman分析的样本含量最好达到100例[1],但并未形成具体的方法。Bland-Altman方法的实际应用表明,一致性评价在设计时普遍缺少样本含量估计[2]。本文拟根据Bland-Altman方法LoA的可信区间估计公式,结合统计推断原理,对相应的样本含量计算公式进行理论推导,并借助Monte-Carlo模拟方法验证公式的正确性。
样本含量估计公式推导
两种方法同时对个体进行一次测量的Bland-Altman方法,其应用有三个假定:一是差值的平均趋势在测量范围内保持不变(constant bias);二是差值的散布程度在测量范围内保持一致(no proportional bias);三是差值的分布呈正态分布(normality)。测量数据在这三方面的表现总称为数据行为(data behavior)。若测量结果满足这三个条件,可认为数据行为良好(well-behaved data),否则认为数据行为不良(badly behaved data)。只有数据行为良好的方法对比研究结果才适用于Bland-Altman方法进行一致性评价[3]。
Bland-Altman一致性评价时,首先计算100(1-γ)%的LoA,公式为
(1)
然后计算100(1-γ)%LoA的100(1-α)%的可信区间[4-5],公式为
(2)
按服从t分布的假设,由图1可得
则
(3)
(4)
β=β1+β2=
(5)
(6)
该公式中t分位数和样本含量有关,需要采用迭代方法,第一次迭代时用标准正态分布分位数t分位数替代获得n的初值,当迭代前后两次结果无明显差异时即可停止,最后结果即为所求的样本含量n。
样本含量公式Monte-Carlo模拟验证
为了验证所推导的样本含量的正确性,我们对上述不同设定下获得的样本含量,逐个进行Monte-Carlo模拟,获得相应的把握度,如果该把握度和事先设定的β能够吻合,即模拟得到的把握度和100(1-β)%接近,则可验证上述公式是正确的。
具体模拟步骤如下:
(2)重复第(1)步骤10000次,计算得出一致性推断的次数,该次数除以10000即为把握度。
模拟结果见图3所示。结果表明模拟获得的把握度和事先设定的把握度非常接近。
样本含量估计实例分析
按照设定的参数采用公式(5)和(6)进行样本含量估计。首先根据公式(6)计算得到n=103作为迭代初值,经迭代运算最终得到样本含量为80例。该样本含量经Monte-Carlo模拟得到把握度为79.18%。
讨 论
本文提出的样本含量估计在某种程度上类似于临床等效性试验中有关情形。而等效性试验的样本含量至今仍然存在着问题,例如Chow等提供的样本含量公式用β/2[7-8],有的学者用β[9-10]。于莉莉、夏结来进行模拟验证,提出当组间总体疗效差异为0时,公式用β/2,若差值不为0,则采用β[11]。但这都是有问题的,若差值不为0时,不论差值的大小一味使用β,会导致差值较小时达不到应有的把握度要求。不考虑差值的大小对样本含量的影响,这必然导致不同差值时可能会出现把握度不足或者把握度浪费的问题。本文提出的方法可为完美地解决上述等效性试验样本含量估计的问题提供借鉴。
由于本文给出的样本含量估计公式和把握度是一体化存在的,因此,容易实现一致性评价的把握度计算。
[1]Bland JM.Sample size for a study of agreement between two methods of measurement.http://www.users.york.ac.uk/~mb55/meas/sizemeth.html.
[2]Bland JM,Altman DG.Agreed statistics:measurement method comparison.Anesthesiology,2012,116:182-185.
[3]Bland JM,Altman DG.Statistical methods for assessing agreement between two methods of clinical measurement.Lancet,1986:307-310.
[4]缪华章,陈林,刘玉秀.定量方法对比研究一致性评价Bland-Altman法LoA的可信区间估计.中国卫生统计,2014,31(1):64-67.
[5]刘玉秀,缪华章,陆梦洁,等.定量方法对比研究重复测量设计Bland-Altman一致限LoA 的可信区间估计.中国卫生统计,2014,31(2):224-229.
[6]周宇豪,许金芳,贺佳.诊断试验一致性评价中几种方法的比较及应用.中国卫生统计,2011,28(1):40-46.
[7]Chow SC,Shao J,Wang H.Sample Size Calculation in Clinical Research.2nd edition.Chapman & Hall/CRC.2008:57-61.
[8]刘玉秀,姚晨,陈峰,等.非劣性/等效性试验的样本含量估计及统计推断.中国新药杂志,2003,12(5):371-376.
[9]周国诗,柳伟伟,陶丽新,等.对基于均差做推断的成组设计非劣效性试验功效分析及样本量估计公式正确性的探讨.中国卫生统计,2011,28(2):203-206.
[10]王杨,李卫,成小如,等.随机模拟法验证非劣效临床试验样本量计算公式.中国卫生统计,2008,25(1):26-27.
[11]于莉莉,夏结来.模拟验证等效性检验中β的单、双侧取值.中国卫生统计,2006,23(5):407-409,412.
(责任编辑:郭海强)
*国家自然科学基金项目(81473066)
△通信作者:刘玉秀,E-mail:liu_yuxiu@163.com