SAS、PASS、Stata三种常用软件样本量计算方法及结果差异的比较
2015-01-12孙志明
林 洁 孙志明
1.国家人口计生委计划生育药具不良反应监测中心,江苏南京210036;2.江苏省计划生育科学技术研究所,江苏南京210036
SAS、PASS、Stata三种常用软件样本量计算方法及结果差异的比较
林 洁1,2孙志明1,2
1.国家人口计生委计划生育药具不良反应监测中心,江苏南京210036;2.江苏省计划生育科学技术研究所,江苏南京210036
目的分析和探讨运用SAS、PASS、Stata 3种软件在两均数(率)比较中进行样本量估计的结果差异,推荐合适的样本量估计软件。方法通过设定不同的参数情况,分别运用3种软件计算各自样本量,并且与公式计算结果进行比较。结果在两均数比较时,Stata和PASS的样本量估计结果最准确,不同的参数会影响SAS的结果;在两个率比较时,SAS最准确,PASS的准确性与样本量大小有关系,Stata结果偏大且受不同参数的影响。结论不同软件计算结果并不一致,综合考虑推荐用SAS软件进行两样本均数(率)比较的样本量估计。
样本量估计;SAS;PASS;Stata
样本量(sample size)是指承受研究实施的样本所包含之观察单位数,或样本例数。除个别设计方法外,在研究设计中必须确定需要多少实验对象或观察对象。样本量对研究效果有重要影响,在小样本研究中尤其如此[1]。一系列规范的的医学研究报告,如加强观察性流行病学研究报告质量的声明和临床试验报告统一标准等均要求在研究报告中描述“如何计算样本含量”[2-6]。开展一项研究,往往因为各种因素(人力、物力、经费等)限制,只能对总体中的一部分进行研究,即研究样本,然后由样本统计量推断总体参数。样本过小,结果不稳定,不能真实地反映总体规律;而样本量过大,会增大研究的难度,并造成人力、物力的浪费[7]。所以合理的样本量,一方面,可以在既定的经费下保证精确度和可靠性;另一方面,可以在既定的精确度和可靠性合理利用资源,保证抽样推断的最大效果。
目前可以用于估计样本含量的软件很多,其中较常用的有SAS、Stata、PASS等。SAS是由美国北卡罗来纳州立大学1966年开发的统计分析软件,在国际上被誉为统计分析的标准软件,在各个领域得到了广泛应用[8];Stata是Statacorp于1985年开发的统计程序,在全球范围内被广泛应用于经济学、社会学及流行病学等领域;PASS是由Hintze等人研发,专门用于计算样本量的统计软件,操作简便快捷。然而各软件计算结果是否一致,研究者该选择何种类型的样本量计算软件是研究中亟待解决的实际问题。本次研究的主要目的是以计算两均数(率)之差的样本量为例来比较SAS、Stata、PASS 3种软件的结果差异,探讨各软件计算样本量的优缺点。
1 资料与方法
1.1 两均数比较
1.1.1 样本量计算公式
两均数比较时,样本量取决于以下4个条件:①假设检验的第Ⅰ类错误α;②假设检验的第Ⅱ类错误β,或检验效能1-β;③两总体均数之差δ;④σ总体标准差[9-11]。假设两组样本量相等,所需样本量可由下式估计:
1.1.2 参数设置
根据公式(1)假设第Ⅰ类错误琢=0.10,0.05,0.01;检验效能1-茁=0.80,0.90,0.95;组1总体均数滋1=1,两总体均数之差啄=0.10,0.20,0.30…,2.0;总体标准差σ=1;双侧检验。
1.1.2.1 SAS 9.3程序:
1.1.2.2 Stata10命令:
sampsi 1.1 1,a(0.1)power(0.8)sd1(1)
不同参数下,Stata命令语句类似,只需替换sampsi命令后面的两组均数值,以及第Ⅰ类错误α、检验效能power和组1标准差sd1括号里的值。
1.1.2.3 PASS 11主菜单选择PASS 11关于两均数比较样本量估计的参数设置主菜单选择见图1。
图1 PASS 11关于两均数比较样本量估计的参数设置
1.2 两个率比较
比较两样本率的目的是推断它们各自所代表的总体率是否相等。
1.2.1 样本量计算公式两个率比较
样本量取决于以下3个条件:①假设检验的第Ⅰ类错误琢;②假设检验的第Ⅱ类错误茁,或检验效能1-茁;③两总体率p1,p2[9-11]。假设两组样本量相等,所需样本量可由下式估计:
图2 PASS 11关于两个率比较样本量估计的参数设置
2 结果
2.1 两均数比较的样本量估计结果
通过给参数琢、茁和啄/滓赋予不同的取值,分别运用3种软件和公式计算得出的两均数比较样本量估计结果,见表1。
从表1中可以看出,无论第Ⅰ类错误(琢)、检验效能(1-茁)以及总体均数之差与总体标准差的比值(啄/滓)如何变化,Stata估计的样本量与公式计算结果完全一致。PASS的结果与公式计算也基本结果一致,但发现琢=0.05或0.1,1-茁=0.80,啄/滓=4.0时,公式计算的样本量为1,而PASS为2,可能是因为通过PASS软件估计的样本量最小值为2,为了验证这一假设,于是增大啄/滓至1000,发现PASS的结果仍为2,于是可得结论PASS估计的样本量下限为2。SAS的结果略大于其他3种方法,发现当琢和1-茁一定时,随着啄/滓的增大,样本量增加的幅度有增大趋势;当琢和啄/滓一定时,随着1-茁的增大,样本量增加的幅度有减小趋势;当1-茁和啄/滓一定时,增幅随琢变化的趋势不明显。通过模拟发现,SAS仅比公式多出1、2例,所以可以忽略。
2.2 两个率比较的样本量估计结果
通过给参数琢、茁和Δp赋予不同的取值,分别运用3种软件和公式计算得出的两个率比较的样本量估计结果,见表2。
从表2中可以看出,无论第Ⅰ类错误(琢)、检验效能(1-茁)以及率差(Δp)如何变化,SAS估计的样本量与公式计算结果完全一致。当所得样本量≥117时,发现PASS与公式计算结果一致;当样本量臆101时,PASS
1.2.2 参数设置
根据公式(2)假设第Ⅰ类错误琢=0.10,0.05,0.01;检验效能1-茁=0.80,0.90,0.95;两总体率p2=0.10,Δp=0.025,0.05,0.10,…,0.80;双侧检验。
1.2.2.1 SAS 9.3程序[12]:
procpower;
twosamplefreq
groupweights=(11)
pdiff=0.025 0.05 0.10.20.30.40.50.60.70.8
refproportion=0.1
power=0.80.90.95
alpha=0.100.050.01
ntotal=.;
run;
1.2.2.2 Stata 10命令:
sampsi0.1250.1,a(0.1)power(0.8)
不同参数下,Stata命令语句类似,只需替换sampsi命令后面的两个率的值,以及第Ⅰ类错误α、检验效能power括号里的值。
1.2.2.3 PASS 11主菜单选择PASS 11关于两个率比较样本量估计的参数设置见图2。
结果比公式略小。而Stata计算出的样本量则较大,发现当琢和1-茁一定时,随着Δp的增大,样本量增加的幅度有增大趋势;当琢和Δp一定时,随着1-茁的增大,样本量增加的幅度有减小趋势;当1-茁和Δp一定时,随着琢的增大,样本量增加的幅度有增大的趋势。
表1 不同参数下4种方法的两均数比较样本量估计结果
表2 不同参数下4种方法的两个率比较样本量估计结果
综上所述,在两均数比较时,Stata和PASS样本量估计结果最准确,不同的参数设置会影响SAS的计算结果;在两个率比较时,SAS最准确,PASS的准确性与样本量大小有关系,Stata结果偏大且受不同参数的影响。
3 讨论
本文对两种常见研究类型的样本量估计进行了比较,发现3种软件计算结果并不完全一致。SAS在两个率比较时得出的样本量准确性最高,而在两均数比较时得出的样本量略大,但经模拟实验发现,无论将参数进行何种组合设置,结果发现每组结果仅比公式多出1、2例,这对实际的样本收集影响不大;PASS和Stata在估计两均数比较样本量时准确性最高,但PASS在估计两个率比较的样本量时,当样本量低于100左右时,会低估样本量,无形的降低了检验效能;相反Stata则高估样本量,可能会增加实际样本收集的难度,同样也会增加研究成本,尤其是当每例样本的成本较大时更为明显。因此,在实际运用中,推荐运用SAS进行这两种类型的样本量估计,而对于其他研究类型,将在后续研究中进行探讨。
以上样本含量的研究是基于理论之上,而实际研究中,样本量的估计还要考虑研究中面临的一些实际问题,如研究对象的选择、完成研究所需的经费等成本问题。除此之外,还需要考虑研究对象的依从性和失访等因素,通常会将样本量增大20%左右。伦理也是在确定样本量时必须考虑的因素,如果确定了较大的样本量,但实际效果不明显,或为达到所需的研究结果,在较长期限内让研究对象承受生理上的不适。这些都是需要研究者权衡的因素[13-15]。
[1]陆守曾,陈峰.医学统计学[M].北京:中国统计出版社,2009:166-170.
[2]Begg C,Cho M,Eastwood S,et al.Improving the quality of reporting of randomized controlled trials.The CONSORT statement[J].JAMA,1996,276:637-639.
[3]王波,詹思延.观察性流行病学研究报告规范——STROBE介绍[J].中华流行病学杂志,2006,27(6):547-549.
[4]陈茹,段芳芳,詹思延.如何撰写高质量的流行病学研究论文第二讲分子流行病学研究报告规范—STROBE—ME介绍[J].中华流行病学杂志,2013,34(7):740-744.
[5]林小燕,苏文亮,方晓义.CONSORT标准评价心理学随机对照研究报告的质量——以国内网络成瘾干预研究为例[J].中国心里卫生杂志,2013,27(12):883-889.
[6]盛晓阳.参照CONSORT2010声明撰写平行对照随机临床研究论文[J].临床儿科杂志,2013,31(2):198-200.
[7]董芬,李超,彭晓霞,等.临床研究中样本含量计算的意义、计算方法及注意事项[J].中国卒中杂志,2009,4(10):854-859.
[8]朱世武.SAS编程技术教程[M].北京:清华大学出版社,2007:1.
[9]金丕焕,邓伟.优效性、等效性和非劣效性试验的统计检验和样本大小的估计[M].上海:复旦大学出版社,2004:86-92.
[10]吴兴,李婵娟,丁伯福,等.两均数比较的有效性临床试验样本量估计[J].数理医学杂志,2013,26(5):517-519.
[11]李婵娟,蒋志伟,王锐,等.随机对照药物临床试验样本量估计[J].中国临床药理学与治疗学,2011,16(10):1132-1136.
[12]朱玲湘,唐欣然,段重阳.样本量估计及其在nQuery和SAS软件上的实现——率的比较(五)[J].中国卫生统计,2013,(1):146-149.
[13]Sakpal T.Sample size estimation in clinical trail[J].PerspectClin Res,2010,1(2):67-69.
[14]李雪迎.临床研究样本量的统计学估算[J].中国介入心脏病学杂志,2014,(7):430-430.
[15]Billoir E,Navratil V,Blaise BJ.Sample size calculation in metabolic phenotyping studies[J].Bridf Bioinform,2015,19:1-8.
Com paring the differences between SAS,PASS and Stata for sam p le size calculation
LIN Jie1,2SUN Zhiming1,2
1.NPFPC Contraceptives Adverse Reaction Monitoring Center,National Population and Family Planning Commission, Jiangsu Province,Nanjing 210036,China;2.Jiangsu Institute of Planned Parenthood Research,Jiangsu Province, Nanjing 210036,China
Objective To analyze the differences between SAS,PASSand Stata for sample size calculation in a test of twomeans(rates)and recommend the appropriate software for sample size calculation.M ethods By setting different parameters,sample sizeswere calculated using three kinds of software respectively and compared with the formula results. Results In two sample means test,Stata and PASS had themost accurate results,the results in SASwere affected by different parameters.In two sample rates test,the SAS resultswere the best of three,the accuracy of PASSwas related with the sample size,the results in Stata were larger than others and affected by different parameters.Conclusion The results are not consistent using different software,SAS is recommended for two samplemean(rate)of sample size calculation.
Sample size calculation;SAS;PASS;Stata
R181
A[文献标识码]1673-7210(2015)06(c)-0133-05
2015-03-15本文编辑:程铭)
江苏省卫计委指导性科技项目(JSFPC2014012)。
林洁(1987-),女,汉族,硕士;研究方向:卫生统计与药物警戒流行病学。
孙志明(1973-),男,汉族,硕士,副研究员;研究方向:药物警戒流行病学。