APP下载

方差不齐时两组及以上均数比较时不同分析方法的稳健性和把握度比较

2016-12-27复旦大学公共卫生学院生物统计教研室卫生部卫生技术评估重点实验室

中国卫生统计 2016年1期
关键词:稳健性均数样本量

复旦大学公共卫生学院生物统计教研室,卫生部卫生技术评估重点实验室

蒋 丹 赵耐青

方差不齐时两组及以上均数比较时不同分析方法的稳健性和把握度比较

复旦大学公共卫生学院生物统计教研室,卫生部卫生技术评估重点实验室

蒋 丹 赵耐青

目的 本文着重比较秩和检验、调整自由度的t′检验、混合效应模型(mixed model)以及方差加权最小二乘法(VWLS)等方法在方差不齐时,用于两组/多组独立样本均数比较时的稳健性和把握度。方法 本文通过模拟分析方法,分别设计总体均数相等或不等时,在不同标准差和样本量的条件下,用几种统计方法比较2组及3组样本均数的Ⅰ类错误和Power度。结果 (1)证实样本量相等时,t检验对于方差不齐的2组样本均数比较具有稳健性,但是样本量相等方差不齐的3组独立样本均数比较时,方差分析方法却不具有稳健性。(2)不论是2组还是3组样本均数比较,秩和检验在特定条件下对于方差不齐具有稳健性。(3)两组方差不齐样本均数比较时,t′检验和mixed model因为Ⅰ类错误更稳健,比VWLS方法更稳定,且这三种方法的Power值相互比较接近。(4)三组方差不齐样本均数比较,mixed model方法在样本量较少时比VWLS方法Ⅰ类错误更稳健,但是随着样本量增加,这一优势消失,而VWLS的Power值明显高于mixed model统计方法。结论 2组方差不齐样本均数比较时,可以使用t′检验、mixed model及VWLS等方法,其中首选更为稳健的t′检验、mixed model,3组方差不齐样本均数比较时可以使用mixed model及VWLS等方法,当样本量较小时首选mixed model方法,样本量增大时,以VWLS方法更优。

方差不齐 均数比较 第Ⅰ类错误 把握度

比较两组总体均数是否相同,通常使用t检验进行统计推断,比较三组及以上总体均数是否相同,则可使用ANOVA方差分析。然而,不论t检验还是ANOVA,均要求数据满足独立性、正态性、方差齐性等前提假设。而数据是否具有独立性在研究设计时已经明确;大数定律则告诉我们:在样本量足够的情况下不论数据本身是否服从正态分布,样本均数的抽样分布都可以逼近正态分布[1]。因此,在样本量较大情况下,偏态分布的资料也可以用t检验或方差分析。所以,对于t检验或方差分析,样本资料是否满足方差齐性就显得尤为重要。

倘若方差齐性检验的统计学结论为方差不齐,则传统医学统计教材往往会给出如下建议:2组总体均数比较使用调整自由度的t′检验或者非参数统计分析方法如Wilcoxon秩和检验,3组及以上总体均数比较使用非参数统计分析方法如Kruskal-Wallis检验。然而,Wilcoxon秩和检验和Kruskal-Wallis检验的无效假设为:两个或多个样本来自同一总体[2]。当出现方差不齐情况时,也就是对应的已经不是同一总体而是两个总体或多个总体了。此时,如果还用上述秩和检验就存在明显的逻辑问题,当然不排除在特殊情况下,方差不齐对于秩和检验也可能是稳健的(robust)。正如2组总体均数比较的情况下,2组样本量相同,t检验对于方差不齐具有稳健性[3](即2组样本量相同情况下,可以忽略方差不齐情况,t检验仍然有效)。从线性模型的角度考虑,混合效应模型(mixed model)和方差加权最小二乘法(variance-weighted least squares,VWLS)也可以用于方差不齐的2组或多组均数比较。综上所述,本文研究目的有二:一是探究方差不齐时,使用以下4种方法比较2组独立样本均数的稳健性和把握度:调整自由度的t′检验、Wilcoxon秩和检验、混合效应模型(mixed model)以及方差加权最小二乘法(VWLS);二是探究方差不齐时,3组及以上独立样本均数比较用以下3种分析方法的稳健性和把握度:混合效应模型(mixed model)、Kruskal-Wallis检验、方差加权最小二乘法(VWLS)。

研究方法

根据研究目的,有必要对方差不齐程度、样本量之比归类来观察不同条件下Ⅰ类错误和把握度(power)的大小变化情况,从而对各种方法的稳健性和把握度进行比较分析,因而需要在不同的情况下进行模拟分析,下面对各种模拟情境作简单介绍。

A、成组独立样本均数比较的模拟情境

A1:设两组总体均数相等为25,总体标准差之比为 1、1.5、2、2.5、3、4,使样本量之比为 1、2、3、4,在不同情况下产生两组服从正态分布的独立样本,观察Ⅰ类错误大小。

A2:设两组总体均数不等,第1组为24,第2组为25,总体标准差之比和样本量之比的考虑同上,在不同情况下产生均服从正态分布的两个独立样本,比较power值大小。

B、三组独立样本均数比较的模拟情境

B1:设三组总体均数相等均为25,考虑σ1=σ2<σ3和σ1<σ2<σ32种情形,并考虑3组样本量相等、3组中有2组样本量相等、3组样本量互不相等的三种情况,在不同情形下产生均服从正态分布的3个样本,观察Ⅰ类错误大小的变化。

B2:设三组总体均数互不相等,分别为24.5、25、25.5,总体标准差和样本量的考虑同上,得到不同情况下均服从正态分布的3个样本,比较power值大小。

上述4种模拟情境,在每种情形下独立模拟2000次,将Ⅰ类错误α设为0.05;使用SAS9.3和stata11.0统计软件进行模拟分析。

结 果

1.两组独立样本连续型定量资料比较

——使用 t′检验、VWLS、mixed model和秩和检验统计方法

(1)观察Ⅰ类错误的变化

由表1可知 t′检验、VWLS、mixed model这三种方法始终表现出稳健性,Ⅰ类错误大小随机波动,与标准差之比、样本量之比无任何关联;但是 VWLS统计方法分析时Ⅰ类错误的发生比例高于其他2种方法;此外,表1中t检验Ⅰ类错误大小的稳定性,证实了文献中提到的当样本量相等时,t检验对方差不齐的稳健性;因为样本量相等时t检验是mixed model的特例,所以由模拟结果可知两种方法的Ⅰ类错误大小完全一致。

表1 两组样本量和总体标准差不同比例下几种方法Ⅰ类错误比较

虽然秩和检验在样本量相等时Ⅰ类错误会随着标准差之比的扩大而增加,但是表1结果显示秩和检验的Ⅰ类错误大小在特定条件下增幅不十分显著,比如总体标准差之比为2时,Ⅰ类错误发生的比例增大5%;如果样本量之比与标准差之比大小变化方向一致,那么随着两组样本量或总体标准差之间差距拉大,Ⅰ类错误呈递减趋势(见表1上半部分),相反地,样本量之比与总体标准差之比大小变化方向相反,那么随着差距拉大,Ⅰ类错误呈递增趋势(见表1),其变化幅度与样本量之比成正比。所以当样本量相等且标准差之比不超过2时,秩和检验具有稳健性。

(2)观察power值的变化

不论样本量之比和总体标准差之比大小如何变化,t′检验、VWLS、mixed model统计方法的 power值相互都比较接近;秩和检验当样本量相等和标准差之比不超过2时,power值同样靠近其他方法。因为标准差之比大于2后秩和检验不具有稳健性,所以power值不被纳入比较范畴。

表2 两组样本量和总体标准差不同比例下几种方法power值比较

2.三组独立样本连续型定量资料比较

——使用秩和检验\mixed model\VWLS统计方法

(1)观察Ⅰ类错误变化(3组标准差存在形式如下:σ1=σ2<σ3\σ1<σ2<σ3)

当样本量相等时,表3和表4的结果说明发现方差分析、秩和检验的Ⅰ类错误随着标准差之比的增加而增加;mixed model方法和VWLS方法的Ⅰ类错误大小稳定,且其变化随机波动,与标准差之比无任何关联;但是在表3和表4中,当每组样本量为30时,VWLS方法Ⅰ类错误的发生比例明显高于mixed model方法,尤其当标准差形式是 σ1<σ2<σ3,由此说明当样本量较小时,mixed model方法比VWLS方法对于方差不齐更为稳健。

遇到样本量不等时,秩和检验Ⅰ类错误大体的变化趋势如下:当样本量之比和标准差之比大小变化方向一致时,Ⅰ类错误随着样本量或者标准差之间差距增大呈现降低趋势;当样本量之比与标准差之比大小变化方向相反时,Ⅰ类错误随着样本量或者标准差之间差距拉大呈现递增趋势(见表3、4后半部分),变化幅度与样本量之比成正比;表中结果说明了mixed model和VWLS的Ⅰ类错误发生比例的稳定性,与样本量和标准差之比无关联的趋势性改变。(见表3、4后半部分)。

表3 3组独立样本在不同情况下几种方法Ⅰ类错误比较(1)

*:每种情况重复独立模拟2000次,标准差存在形式为σ1=σ2<σ3

(2)比较power值大小(3组标准差存在形式如下:σ1=σ2<σ3\σ1<σ2<σ3)

由表5、表6可知,不论标准差之比和样本量之比大小如何变化,VWLS方法的 power值始终高于mixed model方法。

讨论与结论

从统计学背景看,方差不齐的多组独立样本比较已经不符合非参数秩和检验的原假设H0,即总体分布相同。当方差不齐时,总体分布已经为偏离H0假设,为符合H1的情况。所以,方差不齐的程度越大,即越偏离H0假设,Ⅰ类错误越不稳健。如本研究发现,当样本量相等时,Ⅰ类错误大小随方差之比的增加而增加,样本量不等时,Ⅰ类错误大小随着样本量之比的增大而拒绝比例渐渐远离检验水准 α(本研究 α=0.05);然而纵观 t′检验、mixed model、VWLS,原假设是总体均数相同,方差不齐不属于这些统计检验方法的目标,且这3种方法容许存在方差不齐的情况而进行分析计算,所以才使得Ⅰ类错误保持稳健性,未随着方差之比的变化而变化。

从模拟结果来看,在表1中样本量之比为1∶2,标准差之比 3时,t′检验、mixed model、VWLS的Ⅰ类错误全部增至0.06左右,因为上述现象是独立出现的,样本量之比改变使其恢复正常,又因为该现象涉及了研究所用的所有参数检验方法,且这些方法的数学计算容许方差不齐的情况存在,因此考虑种子数设置引起的误差所致,调整模拟所需种子数后,上述现象消失,Ⅰ类错误回归至0.05附近(结果未显示)。

方差不齐的2组独立样本均数比较证实了样本量相等的t检验对于方差不齐具有稳健性,同时说明秩和检验在样本量相等、标准差之比不超过2时是稳健的。因为 t′检验、mixed model、VWLS这 3种参数检验中,VWLS方法的Ⅰ类错误发生比例最大,所以mixed model和t′检验比VWLS方法更稳健,并且这三种方法的把握度又相互接近,所以t′检验和mixed model方法更优。

当方差不齐的3组独立样本均数比较时,证实当样本量相等时,方差分析对于方差不齐是不稳健的,此结果与ROGAN文中的结果一致[4]。而秩和检验在样本量相等、方差之比较小如不超过2时才算稳健,Ⅰ类错误偏颇不至太大。

3组独立样本均数比较的模拟结果显示,当样本量偏小时,VWLS方法Ⅰ类错误发生比例易过大增至0.06左右,主要是因为VWLS的加权方差由样本的方差决定,所以样本量较小时方差偏差较大,导致Ⅰ类错误发生比例增大;因为mixed model方法的Ⅰ类错误仍在0.05(本研究设置的α值)附近,所以样本量较小时mixed model更稳健;但是样本量增加使VWLS的Ⅰ类错误大小恢复至设定值附近,又因为VWLS的把握度明显高于mixed model,这时以VWLS方法更优。

表4 3组独立样本在不同情况下几种方法Ⅰ类错误比较(2)

表5 3组独立样本在不同情况下几种方法的power值大小(1)

表6 3组独立样本在不同情况下几种方法的Power值大小(2)

[1]赵耐青,陈锋主编.卫生统计学.北京:高等教育出版社,2008:49-61.

[2]方积乾主编.卫生统计学.北京:人民卫生出版社,2008:177-192.

[3]Posten HO,ChengHY,Owen DB,et al.Robustness of the two-sample t-test under violations of the homogeneity of variance assumption.Communications in Statistics Theory and Methods,1982,11(2):109-126.

[4]Rogan JC,Keselman HJ.Is the ANOVA F-Test Robust to Variance Heterogeneity When Sample Sizes Are Equal?:An Investigation via a Coefficient of Variation.American Educational Research Journal,1977,14(4):493-498.

A Comparison of Different Statistical Methods of Their Robustness and Power When Analyzing the Population Mean Difference of Unequal-variance Data

Jiang Dan,Zhao Naiqing
(Biostatistical Department of Public Health School of Fudan University;Key Lab of Health Technology Assessment,Ministry of Health(Fudan University),(200032)Shanghai)

Objective To compare the Type I error and power of different statistical methods,such as Rank Sum Test/t′test/Mixed Model and VWLS,for analyzing independent unequal variance data.Methods Under the hypothesis of equal population means and unequal population means,two/three independent groups with various ratios of standard deviation and sample size are simulated and compared using above statistical ways for thousands of times to acquire their each Type I Error and Power.Results (1)t test is robust to unequal variance data with equal sample size.However,ANOVA lacks its robustness to unequal variance data with equal sample size.(2)The method of Rank Sum Test is robust to unequal variance data only when special conditions are met.(3)t′test and Mixed Model are better than VWLSbecause of their model stable Type I Error when analyzing independent samples with unequal variance.Plus,the Power of these method is very close to each other.(4)When analyzing three independent unequal variance groups,Mixed Model is more robust than VWLS if the sample size is small;with the size getting bigger,VWLS gets robust and is better than Mixed Model for higher power.Conclusion When it comes to the analysis of two independent quantitative samples with unequal variance,t′test/Mixed Model/VWLS all can be used but the first two methods are better.When it comes to the analysis of three or more unequal variance groups,Mixed Model is better than VWLSunder the situation of small sample size,but with the size getting bigger,VWLSis getting better than Mixed Model.

Unequal variance;Means compare;Type I error;Power

郭海强)

猜你喜欢

稳健性均数样本量
医学研究中样本量的选择
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
会计稳健性的定义和计量
会计稳健性的文献综述
货币政策、会计稳健性与银行信贷关系探析
Effect of Ammonia on the Performance of Catalysts for Selective Hydrogenation of 1-Methylnaphthalene
关于均数与偏差
关于均数与偏差
样本量估计及其在nQuery和SAS软件上的实现——均数比较(二)