常用临床试验设计的样本含量估计
2018-07-21李黎唐雨欣何伟张韬李吉杰
李黎 ,唐雨欣 ,何伟 ,张韬 ,李吉杰
1.四川大学华西第二医院病案管理科,四川成都 610041;2.四川大学华西公共卫生学院,四川成都 610041
近年来,我国新药上市评审机制日益规范,对药物临床试验生物统计工作的指导和规范也更加严格。2016年6月3日起正式执行的新版 《药物临床试验的生物统计学指导原则》[1],是在上一版的基础上,根据当前国际公认原则和共识理念,并适当体现近年来生物统计学的发展趋势而制定的。但该文件过于凝练,部分内容缺少细节描述,容易造成临床医生理解不到位,使得该文件的指导和规范意义降低[2]。并且很多临床医生对于样本量估计的公式选择或者软件应用存在一定困惑,导致估算的样本量不够准确[3]。该文对临床试验中常用类型的样本量估计方法进行系统研究,包括各类样本量估计的适用条件、所需参数、公式计算等,旨在对研究者在研究设计时提供适宜方法估计样本量,提高研究质量。常用临床试验样本量估计分类[4]:临床试验的比较类型分为以0为参照的差异性检验和以Δ为参照的检验,以Δ为参照的检验又分为优效性检验、等效性检验、非劣效性检验。按资料类型可分为计量资料和计数资料,按参数检验方法可分为均数比较或非参数检验、率的比较等,按试验组数可分为单组、两组或多组;该文将从以上几个方面进行对常用临床试验的样本含量估计方法进行阐述。
1 均数比较或非参数检验
1.1 单组
单组均数的差异性检验常用单样本的t检验或基于差值均数的配对t检验和单因素重复测量方差分析等。另外还有等效性配对t检验。样本含量计算公式如下:
此公式适用双侧检验,其中Zα/2为标准正态分布的双侧临界值;若为单侧检验,可改成单侧临界值;无论是双侧还是单侧检验,Zβ均取单侧临界值[5]。若为配对比较,σ可取σd,若用S估计则可取Sd[6]。上述公式也可用于交叉设计的样本含量估计[7]。
例如:为了解某药对心率的影响,随机抽取10名受试者做预试,测得标准差S=6.2次/分。若受试者心率高于普通人群3.0次/分认为有专业意义,α=0.05,β=0.10,需要多大样本含量?
本例 S=6.2 次/分,δ=3.0 次/分。 现 α=0.05,β=0.10,均取单侧,查 Ζ 临界值表得 Ζα=Ζ0.05=1.645,Ζβ=Ζ0.10=1.282,代入上式得N≈37。故需37位受试者,才有90%的概率发现该药对心率的影响。
1.2 两组
两组均数比较常用两样本的t检验或秩和检验和两组重复测量方差分析、交叉设计的方差分析。样本含量估计方法可分为非劣效性检验、等效性检验和优效性检验[8]。
①非劣效性检验两样本均数比较的样本量估计公式如下[9]:
式中 δ=μ1-μ2,为两总体均数的差值,μ1和 μ2分别为试验组和对照组的总体均数。Δ为非劣效性界值。σ为两总体合并标准差。Zα,Zβ为标准正态分布的单侧临界值;Q1和 Q2为样本比例,Q1=n1/N,Q2=n2/N[7]。
②等效性检验两样本均数比较的样本量估计公式如下[10]:
③优效性检验两样本均数比较的样本量估计公式如下[11]:
式中 δ=μ1-μ2,为两总体均数的差值,μ1和 μ2分别为试验组和对照组的总体均数。Δ为优效性界值。σ为两总体合并标准差。其他符号同前。
1.3 多组
多组均数比较的差异性检验常用方差分析。样本含量估计公式如下[12]:
例如:某研究欲比较3种方案治疗婴幼儿贫血患者(血红蛋白<100 g/L)后,血红蛋白变化有无差异,3组各需观察多少例。预试验:将随机抽取婴幼儿贫血患者(血红蛋白<100 g/L)均分为3组,分别采用3种方案治疗后血红蛋白增加的均数Xi分别为18.5 g/L、13.2 g/L、10.4 g/L, 标准差 Si为 11.8 g/L、13.4 g/L、9.3 g/L。参数:
①α:为检验水平,本例取α=0.05
②β:为检验效能,本例取β=0.10
③K:为组数,本例K=3。
④Ψ:该例K=3,自由度V1=K-1=2;自由度V2=N-1,N 未知,可取最大 ∞,查 α=0.05,β=0.10 时的 Ψ值表得:Ψ(α,β,K-1,∞)=2.52。
⑤:分别为第i组的均数(X1=18.5、X2=…)和标准差(S1=11.8,S2=…)的估计值,由预试验或文献来估计。
⑥X均的确定:X均=(X1+X2+X3)/K=(18.5+13.2+10.4)/3=14.0
代入计算出样本例数:n≈51。
2 率的比较
2.1 单组
单组率的比较常用单样本或配对设计的χ2检验和或确切概率检验,样本含量估计公式如下:
适用于大样本情形,Zα/2和 Zβ同前其中π0为已知的总体概率,π1为预期实验结果的总体概率[13]。
例如:用常规方法治疗过敏性鼻炎的有效率为85%,现试验新药预计有效率为95%。若α=0.05(单侧),β=0.10,问需多少病例?
2.2 两组
两组率的比较常用两样本的χ2检验、构成比检验或CMH检验,可分为非劣效性检验、等效性检验和优效性检验。
①非劣效性检验两样本率比较的样本量估算公式如下[14]:
式中Zα,Zβ为标准正态分布的单侧临界值。π1和π2分别为试验组和对照组的阳性概率。πc为两总体合计概率,πC=Q1π1+Q2π2。 Q1和 Q2为样本比例,Q1=n1/N,Q2=n2/N。 δ=π1-π2。 Δ 为非劣效性界值。
例如:为研究某药物治疗手足廯的疗效,拟采用阳性药物做对照的非劣效性试验。主要指标为临床治愈率,已知对照药的治愈率为85%,试验药的治愈率为80%,在一项随机对照试验中如果试验药比对照药最多差10%则可被接受。设α=0.025(单侧),β=0.20,Q1=Q2=0.5,则需要的例数为:
即每组需要n1=n2=Q1N=0.50×1181≈906例。
②等效性检验两样本率比较的样本量估计公式如下[15]:
式中Zα/2和Zβ/2为标准正态分布的双侧临界值。为等效性界值。其他符号同前。
③优效性检验两样本率比较的样本量估计[16]:
说明:与非劣效性试验的公式相仿,只是分母由δ+Δ变成了δ-Δ,且Δ由非劣效性界值换成了优效性界值(当Δ=0时,样本量估计公式与通常的差异性检验的意义相同)[14]。其他符号同前。
2.3 多组
多组率的比较的差异性检验常用列联表的χ2检验、线性趋势检验和构成比的比较等。样本含量估计公式如下[17]:
注意,该公式中出现反正弦函数,以对样本率进行以弧度为单位的反正弦被换,从而解决该类资料的率向两侧偏离的偏态现象[15]。其中,λ根据检验水平α,检验效能 β,和设计的组数查值表可得,即 λα,β,K-1;Pmax、Pmin:分别为最大率和最小率,根据预试验或查文献来估计。
例如:比较矫治近视的3种方法的效果有无差异,问需观察多少例?预试验:采用3种方法矫治近视,结果A方法有效率为37.78%,B方法为18.75%,C方法为27.78%。
参数:
①α:检验水平,本例取α=0.05;
②β:检验效能,本例取β=0.10;
③K:设计的组数,本例K=3;
④λ:查 α=0.05 时的 λ 值表得,λ(α,β,K-1)=12.65;
⑤SIN-1:反正弦函数,若用Excel函数计算0.5的反正弦值:=ASIN(0.5)
⑥Pmax、Pmin:分别为最大率和最小率,根据预试验或查文献来估计。该例Pmax=0.3778,Pmin=0.1875。代入计算得样本例数n≈138。
样本含量对于临床研究的作用应受到足够的重视,若样本含量被高估,可能导致医药研发投入更多的人力、物力和财力以及研究时间。若样本含量被低估,抽样误差大,观察指标稳定性低,检验效能低;得到阴性结论时难以判断是检验效能过低导致未能检测出总体实际存在的差异还是差异确实没有统计学意义[18]。
综上所述,各种不同类型的临床试验需要考虑不同的样本含量计算方法以估算合适的样本量。