单样本率精确概率检验的样本量估计方法及在Stata中的实现*
2014-04-03复旦大学公共卫生学院卫生统计与社会医学教研室公共安全教育部重点实验室200032肖林海赵耐青
复旦大学公共卫生学院卫生统计与社会医学教研室,公共安全教育部重点实验室(200032) 肖林海 赵耐青
在实际的临床试验中,有时由于诸多因素的限制,并不总能进行随机对照的临床试验,特别是在某些医疗器械临床试验中,往往由于伦理学或临床操作可行性的问题,很难进行随机对照的临床试验。因此,一些非随机对照的设计方法应运而生,目标值法(objective performance criteria, OPC)设计就是其中之一,该法通常为单臂临床试验(single-arm clinical trial),故又叫单组目标值法[1]。
目标值法的临床试验是将被试产品的主要评价指标的双侧95%置信区间的上/下限与预先设定的目标值进行比较的单组试验,通常其主要评价指标为定性指标或定量指标,而定量指标的研究问题本质是单样本定量资料与总体的比较,可采用单样本t检验完成,该问题已得到较好的解决[2]。
针对定性指标,本文以结局为二分类变量时以率作为终点评价指标的单组临床试验为研究背景,就目标值法的样本含量估计和统计分析方面存在的问题进行讨论。
二分类变量以率作为终点评价指标的单组临床试验,其统计学本质实际是样本率与总体率比较的问题。经典的估计样本量的方法是采用渐进正态法,可利用以下公式[2]:
其中:Z1-α、Z1-β为标准正态分布的分位数。
P1:被试产品预期的主要评价指标值(如:有效率、成功率、事件发生率等)
P0:目标值
α:犯第I类错误的概率;
β:犯第II类错误的概率
但用该方法进行样本含量的估计时,要求结局事件发生率P1不太接近于1或0。且样本量n足够大时,特别是当nP1和n(1-P1)都大于5时,才可以采用渐进正态估计的方法进行统计分析。
上述样本量计算公式,虽然计算简便,但不够准确,尤其是在实际临床试验中,结局事件发生率靠近极端的情况,此时估计样本含量出现的偏差相对更大。
对于定性指标的单组目标值试验,除渐进正态法外,也可采用精确概率法作为样本量与统计分析的方法。以下重点阐述精确概率法进行单组目标值法的样本量估计原理,并通过Stata编程进行实现。
单样本率精确概率法估计样本量的方法学介绍
1.精确概率法假设检验的基本思想:
精确概率法的基本思想与其他假设检验的基本思想是类似的,其本质是把样本点或检验统计量的各种可能取值的范围分为拒绝域和不拒绝域,并且在H0为真的情况下,样本点或检验统计量出现在拒绝域的概率≤α。因此,当样本点或检验统计量落在拒绝域范围时,则拒绝H0,反之,则不拒绝H0。
以下以单侧检验为例,具体阐述如下:
右单侧检验:H0:π=π0vsH1:π>π0
左单侧检验:H0:π=π0vsH1:π<π0
其中,π0为目标值,π为样本所代表的总体的反应率,定义显著性水平为α。
如果样本点x属于拒绝域,根据假设检验的小概率事件原理,则所有小于Px时对应的事件A出现的次数i,更应归入拒绝域内,并且拒绝域范围内所有取值点的累计概率应≤α。对于单侧检验,只需要根据H1的方向,计算样本点及H1方向的所有累计概率。因此,
2.把握度的计算
记样本所在总体的实际发生率为πT。
3.单侧检验的样本量估计方法
右单侧检验的样本量估计:
给定α和β,给定H0:π=π0和给定样本所在总体的发生率πT
(1)由于单样本检验的样本量一般都是大于5,所以初始样本量为5,用计算机软件,对每固定一个样本量n,
(2)选择满足xk使PR-value(xk)≤α且满足|PR-value(xk)-α|≤|PR-value(x)-α|,如果找不到xk,则n增加1,重复上述过程,直到找到xk使PR-value(xk)≤α且满足|PR-value(xk)-α|≤|PR-value(x)-α|
(4)如果power<1-β,则n增加1,重复第(2)步,第(3)步,直至满足power≥1-β,终止,这个n就是所要估计的样本量。
左单侧检验的样本量估计:
给定α和β,给定H0:π=π0和给定样本所在总体的发生率πT
(1)由于单样本检验的样本量一般都是大于5,所以初始样本量为5,用计算机软件,对每固定一个样本量n,
(2)选择满足xk使PL-value(xk)≤α且满足|PL-value(xk)-α|≤|PL-value(x)-α|,如果找不到xk,则n增加1,重复上述过程,直到找到xk使PL-value(xk)≤α且满足|PL-value(xk)-α|≤|PL-value(x)-α|
(4)如果power<1-β,则n增加1,重复第(2)步,第(3)步,直至满足power≥1-β,终止,这个n就是所要估计的样本量。
用Stata编写ado文件,实现精确概率法估计单样本率检验的样本量估计
Stata是一个小型的统计软件,统计功能非常全面,运算速度非常快[3]。ado文件是用Stata自己的语言编写的高级统计模块。本文编写的ado程序文件是按前文所述的算法用Stata实现精确概率法估计单样本率检验的样本量估计。
1、程序名为sampleexact。
该程序有4个参数,第一个参数是alpha:第I类错误,第二个参数是 beta:第II类错误,第三个参数是P0:目标总体率,第四个参数是P1:样本所代表的总体的发生率。
下面是编写的程序:
clear
capture program drop sampleexact
program define sampleexact/*定义程序名为sampleexact*/
version 11
args alpha beta p0p1/*要求输入的四个参数*/
quietly {
if ‘p1’>‘p0’{/*右单侧*/
local i=5/*设置初始样本量为5*/
while ‘i’<=200000{
local k=int(‘i’*‘p0’+0.5)/*设置观察到的事件发生数k*/
while ‘k’<=‘i’{
bitesti ‘i’ ‘k’ ‘p0’/*bitesti命令*/
if r(p_u)<=‘alpha’ {/*右单侧的概率小于alpha */
local kkk=‘k’
bitesti ‘i’ ‘k’ ‘p1’
if r(p_u)>(1-‘beta’ ){ /*要求把握度大于1-beta */
scalar nn=‘i’/*此时的i即为算得的样本量nn */
local i=1000000000
}
local k=‘i’+1
}
else {
local k=‘k’+1
}
}
local i=‘i’+1
}
}
else {/*左单侧*/
local i=5
while ‘i’<=20000{
local kk=int(‘i’*‘p0’+0.5)
local k=‘kk’
while ‘k’>=0{
bitesti ‘i’ ‘k’ ‘p0’
if r(p_l)<=‘alpha’ {
local kkk=‘k’
bitesti ‘i’ ‘k’ ‘p1’
if r(p_l)>(1-‘beta’) {/*要求把握度大于1-beta */
scalar nn=‘i’
local i=10000000
}
local k=-1
}
else {
local k=‘k’-1
}
}
local i=‘i’+1
}
}
}
local nnn=nn
if ‘p0’<‘p1’{
di "右单侧检验的样本量估计"
}
else {
di "左单侧检验的样本量估计"
}
di "sample size=" nn /*输出样本量的计算结果,为nn*/
bitesti ‘nnn’ ‘kkk’ ‘p0’
bitesti ‘nnn’ ‘kkk’ ‘p1’
if ‘p0’<‘p1’{
di "右单侧检验的power=" r(p_u) /*输出检验的把握度*/
}
else {
di "左单侧检验的power=" r(p_l) /*输出检验的把握度*/
}
end
2. ado程序文件使用方法
将该ado程序文件复制到Stata安装目录下的adoase,然后在Stata操作界面上输入连接命令net set ado Stata 安装目录(首次使用时需要输入)。如安装在C盘,则输入命令: net set ado c:stataadoase 即可。最后,在命令窗口输入欲实现的统计分析命令即可。
模拟研究
以事件发生率很低为例,假定单侧检验的α=0.05,Power=0.80,p0=0.05,预期事件发生率为0.001。
用精确概率法算得的样本量为59,正态近似法算得的样本量为62。分别进行精确概率法的假设检验和正态近似法的假设检验,利用SAS9.3软件模拟10000次,所得结果见表1。
表1 模拟结果
由上述结果可看出,在事件发生率很低,本例为0.001时,用正态近似法算得样本量为62,但不满足nP1大于5的条件。在此情况下,仍用正态近似法与精确法算得的样本量进行假设检验,由结果看出,精确法检验的一类错误要远小于近似法,其把握度也更高,且在真实的率差别减小时,两者的把握度差别也更明显。
讨 论
样本量估计是临床试验设计中极为重要的环节,充足的样本量才能保证试验有足够的把握度发现实际存在的差异。无论采用渐进正态法还是精确概率法,在结果分析(即计算结果95%置信区间)时所采用的方法应与试验设计时一致。即使用渐进正态法估计样本量时,则结果的分析也要基于渐进正态法。若采用精确概率法估计样本量时,则结果的分析要基于精确概率法。如果试验设计时采用渐进正态法计算样本量,但结果分析时却采用精确概率法计算95%置信区间,则可能导致研究实际的把握度无法达到设计时的预期水平。
本文并没有对双侧检验进行样本量估计,是因为用精确概率法与渐进正态法原理不同。采用渐进正态法时,对α=0.05的双侧检验,由于概率分布的对称性,其对实际问题单侧检验时的假阳性率为0.025。但用精确概率法检验时,由于二项分布的不对称性,若采用双侧检验则无法保证单侧的假阳性率为0.025。由于实际研究的问题往往是单侧的,因此建议精确概率法检验时采用单侧检验,这样才能保证,假阳性率仍为0.025。
在成琪等人的文章[4]中,也对单组临床试验目标值法的精确样本含量估计给出了常见参数的样本量估计结果列表,本文利用Stata程序也算出相应参数时的样本量,与成琪等人列表中得到的样本量估计一致,但利用Stata程序更加方便快捷,且不受限于参数的设定。
本文给出了二分类变量以率为结局指标的单组临床试验目标值法样本含量计算的精确方法,并给出了Stata程序,可使研究者对样本量的估计更加方便和准确,在实际研究中有较好的推广意义。
参 考 文 献
1.吕德良,李雪迎,朱赛楠,等. 目标值法在医疗器械非随机对照临床试验中的应用. 中国卫生统计,2009,26(3):258-260.
2.赵耐青主编. 卫生统计学. 北京:高等教育出版社,2008.
3.StataCorp.Stata Statistical Software: Release 11. College Station, TX: StataCorp LP,2009.
4.成琪,刘玉秀,陈林,等. 单组临床试验目标值法的精确样本含量估计及统计推断. 中国临床药理学与治疗学,2011,(5):517-522.