APP下载

如何正确运用方差分析
——方差齐性检验与SAS实现

2022-03-02胡纯严胡良平

四川精神卫生 2022年1期
关键词:方差定量总体

胡纯严,胡良平,2*

(1.军事科学院研究生院,北京 100850;2.世界中医药学会联合会临床科研统计学专业委员会,北京 100029

方差齐性检验就是检验某试验因素两个水平或多个水平下观测的定量数据所代表的总体方差是否相等,它是定量资料均值比较的重要前提条件之一。通常,方差齐性检验分为单因素两水平设计与单因素多水平设计下一元定量资料方差齐性检验两种情形。在第一种情形下,只有一种F检验法;而在第二种情形下,有三种F检验法和一种χ2检验法。本文将介绍前述提及的五种方差齐性检验法,并通过三个实例和SAS软件实现各种方差齐性检验。

1 五种方差齐性检验方法

1.1 概述

在进行两个或多个均值比较时,若希望采用经典统计学中的参数检验法[(包括Z检验、t检验和方差分析(或称F检验)],定量资料应满足三个前提条件:独立性、正态性和方差齐性。当只有一个两水平的试验因素时,方差齐性检验的方法比较简单,只需要用较大的样本方差除以较小的样本方差,依据F分布,就可推断两总体方差是否相等;然而,当只有一个试验因素且水平数大于2时,就不适合采取前述的方法进行方差齐性检验。SAS/STAT的GLM过程[1]中介绍了四种方差齐性检验方法,将在下文进行阐述。

当试验研究涉及多个试验因素时,传统的做法仍然是对每一个试验因素分别进行方差齐性检验。若采用混合效应模型进行方差分析,在SAS/STAT的MIXED过程中,改变了思路,不直接检验各前提条件是否满足,而是假设给定的定量资料具有某种“方差和协方差结构”。基于特定的假设去构造混合效应模型,并计算一系列衡量模型对给定定量资料拟合效果的评价指标或统计量。分别采用多种可能的“方差和协方差结构”对同一个资料进行建模,最后,依据前述提及的评价指标的数值来确定哪个混合效应模型能最好地拟合给定的资料[1-2]。

1.2 两总体方差齐性检验

式(1)中,F服从分子自由度为df1、分母自由度为df2的F分布。拒绝域:F≥F(1-α/2)(df1,df2),则p≤α(注:此时宜采用双侧检验)。

两总体方差齐性检验属于双侧检验,而通常的基于均值比较的方差分析(F检验)属于单侧检验。理由如下:在方差齐性检验中,无效假设为两总体方差相等。若拒绝此无效假设,就意味着两总体方差不等,此时,第1个总体方差可能大于第2个总体方差,也可能小于第2个总体方差;而在基于均值比较的方差分析(F检验)中,无效假设为各组均值相等,在此假设成立的条件下,所构造的检验统计量F的分子为“组间方差”,分母为“组内方差(或误差方差)”。通常检验统计量F的分子大于等于分母,故此时宜采用单侧检验。

1.3 多总体方差齐性检验

1.3.1 Bartlett’s χ2检验

Bartlett提出了一种等方差检验,这是对正态理论似然比检验的修正。用于方差齐性检验的Bartlett’sχ2检验的原理如下[3-4]。设有k个总体,每个总体的方差为,则建立检验假设如下,H1:k个总体方差不等或不全相等。构造检验统计量见式(2):

式(2)中,若k个样本均来自独立的正态分布总体,则χ2服从自由度为df=k-1的χ2分布;拒绝域为q和h分别见式(3)、式(4):

式(3)中,“lg”代表取以10为底的常用对数,ni代表从第i个总体中抽取样本的样本含量,N代表总样本含量,为第i个总体的样本方差,为合并的样本方差,其计算见式(5):

Bartlett’sχ2检验可以通过 SAS 软件实现:调用SAS/STAT中的GLM过程时,在其内的MEANS语句的选项中加上“HOVTEST=BARTLETT”[1]。

1.3.2 Levene’s F检验

导致对基础分布更稳健的检验方法是转换因变量的原始值以导出离散变量,然后对该变量进行方差分析。方差同质性检验的显著性水平是离散变量方差分析F检验的P值。除Bartlett方差齐性检验外,PROC GLM中可用的所有方差齐性检验均使用此方法[1,4]。

Levene’s检验被广泛认为是方差的标准同质性检验(HOVTEST=Levene选项)。Levene’s检验采用前面讨论的离散变量方差分析形式,其中离散变量为以下任一项:

采用式(6)或式(7)对原始数据yij做变量变换后,得到新数据zij。然后直接对新数据采用单因素k水平设计一元定量资料方差分析,对应的检验统计量见式(8):

在式(8)中,F服从分子自由度为k-1、分母自由度为N-k的F分布。

1.3.3 O′Brien’s F检验

O′Brien提出了一个检验(HOVTEST=OBRIEN),它基本是对Levene方法的一种修改,使用式(9)等号左边的离散变量[1,4]:

式(9)中,ni是第i组的样本大小,是其样本方差。可以使用括号中的W=选项[例如:HOVTEST=OBRIEN(W=0.5)]来调整O′Brien的离散变量,以匹配设定分布的可疑峰度。默认情况下,W=0.5[1]。将式(9)代入式(8),就可实现对新变量进行方差分析,但其结果是O′Brien’s方差齐性检验的结果。

1.3.4 Brown-Forsythe’sF检验

Brown和Forsythe建议使用式(10),即组中位数的绝对偏差[1,4]:

在式(10)中,mi是第i组的中位数。可以使用HOVTEST=BF选项指定此检验。将式(10)代入式(8),就可以实现对新变量进行方差分析,其结果是Brown-Forsythe’s方差齐性检验的结果。

如果其中一项检验拒绝方差同质性假设,则应使用Welch’s方差分析而不是通常的方差分析来检验组间均值的差异。然而,只有当使用一个稳健的方差齐性检验(即不适用于HOVTEST=BARTLETT)时,这个结论才成立;即使如此,任何方差齐性检验的能力都太小,无法始终检验Welch’s方差分析是否合适[1]。

2 用SAS实现方差齐性检验

2.1 问题与数据结构

【例1】研究呼出气冷凝液中氮氧化物与哮喘发病的关系。探讨哮喘急性发作期患者和健康体检者呼出气冷凝液中氮氧化物的水平,了解其与哮喘发病、病情变化及肺功能的关系。选取13例哮喘急性发作期患者和13名健康体检者,两组重要的基础资料比较差异均无统计学意义,哮喘急性发作期患者与健康体检者的氧氮化物含量(单位:µmol/L)数据如下[5]。哮喘急性发作组:0.62、1.28、1.44、0.26、1.19、1.03、2.11、1.38、1.40、1.42、0.96、2.27、1.55;健康对照组:0.93、0.68、0.54、0.18、0.82、0.88、0.54、1.00、0.94、0.31、0.72、0.25、0.88。试问两组定量资料所取自的两个总体的方差是否相等?

【例2】抽样测定了32名蓄电池厂工人的尿ALA(尿氨基-γ-酮戊酸)含量(单位:µmol/L),平均值为53.8662,方差为2460.4768;测定了6名化工厂工人的尿ALA含量,平均值为26.5640,方差为52.6150。试问两厂工人尿ALA含量的方差是否相等[3]?

【例3】宾夕法尼亚大学一项嗅觉鉴定测试[1],旨在探索年龄和性别与嗅觉的关系。共有180名20~89岁的受试者暴露于40种不同的气味中,对于每种气味,受试者被要求从四个词中选择一个最能描述该气味的词。Freeman-Tukey修正的反正弦变换用于正确识别气味的比例,得出嗅觉指数。将受试者分为五个年龄组:年龄≤25岁、25岁<年龄≤40岁、40岁<年龄≤55岁、55岁<年龄≤70岁、年龄>70岁。设年龄分组变量为agegroup,嗅觉指数变量为smell。试验数据较多,此处从略,参见文献[1]。试检验五个年龄组受试对象嗅觉指数的方差是否相等?

2.2 对例1的分析与解答

【分析与解答】这是一个单因素两水平设计(常简称为成组设计)一元定量资料,若希望采用单因素两水平设计一元定量资料t检验,需要先检查前提条件是否满足,方差齐性检验是其中的一个。设所需要的SAS程序如下:

【SAS程序说明】在以上程序中,只调用了PROC TTEST过程,因为该过程中包含了两总体方差齐性检验,但未对定量资料进行正态性检验。因此,还需要使用PROC UNIVARIATE过程实现正态性检验;若资料不满足正态性和方差齐性,还需要调用PROC NPAR1WAY过程对定量资料进行秩和检验。

【SAS输出结果及解释】

因F=3.67,df1=df2=12,P=0.0328<0.05,说明两总体方差不等。

2.3 对例2的分析与解答

【分析与解答】这是一个单因素两水平设计一元定量资料(缺乏详细的原始数据),若希望采用单因素两水平设计一元定量资料t检验,需要先检查前提条件是否满足,方差齐性检验是其中的一个。设所需要的SAS程序如下:

【SAS程序说明】由于缺乏详细的原始数据,无法利用SAS中的PROC TTEST过程实现方差齐性检验,只能用两样本方差比的计算公式,并利用F分布的分位数函数FINV(1-α/2,df1,df2)计算F分布曲线下横坐标上的上侧临界值(按双侧检验来确定)[6]。

【SAS输出结果及解释】

在输出结果中,var1和var2分别代表两个样本方差,F=46.7638为检验统计量的值,F005和F001代表与显著性水平α分别等于0.05和0.01对应的双侧检验的临界值。由F=46.7638>F001=12.6395,故得到P<0.01,说明两总体方差不等。由于var1=2460.48>var2=52.615,说明蓄电池厂工人尿ALA含量的变异度大于化工厂工人尿ALA含量。

2.4 对例3的分析与解答

【分析与解答】这是一个单因素五水平设计一元定量资料,若希望采用单因素五水平设计一元定量资料方差分析,需要先检查前提条件是否满足,方差齐性检验是其中的一个。设所需要的SAS程序如下:

【SAS程序说明】在SAS过程步中有4个“MEANS语句”,分别代表4种具体的方差齐性检验方法。其中,后3个被放置在注释语句“/**/”中,被当作注释(不被SAS系统执行);每次只能让一个“MEANS语句”处于可被执行的状态。

【SAS输出结果及解释】

第一,采用Bartlett’s方法进行方差齐性检验的计算结果。

以上呈现的是各年龄组smell的平均值和标准差的计算结果(注:第2列为样本含量)。

以上呈现的是采用Bartlett’s方法对五组定量资料(smell)进行方差齐性检验的结果,其中,说明该定量资料不满足方差齐性要求。

第二,采用Brown-Forsythe’s方法进行方差齐性检验的计算结果。

以上呈现的是采用Brown-Forsythe’s方法对五组定量资料(smell)进行方差齐性检验的结果,其中F=5.47,df=4,P<0.0004,说明该定量资料不满足方差齐性要求。

第三,采用Levene’s方法进行方差齐性检验的计算结果。

以上呈现的是采用Levene’s方法对五组定量资料(smell)进行方差齐性检验的结果,其中F=6.35,df=4,P<0.0001,说明该定量资料不满足方差齐性要求。

第四,采用O′Brien’s方法进行方差齐性检验的计算结果。

以上呈现的是采用O′Brien’s方法对五组定量资料(smell)进行方差齐性检验的结果,其中F=6.16,df=4,P=0.0001,说明该定量资料不满足方差齐性要求。

3 讨论与小结

3.1 讨论

当数据的基本分布为正态时,Bartlett’sχ2检验具有准确的I型错误率和最佳功效,但如果该分布稍不正态,则可能不准确。因此,一般情况下,SAS不建议使用 Bartlett’sχ2检验[1]。基于对原始定量资料进行变量变换后的三种F检验(即Levene’sF检验、O′Brien’sF检验和Brown-Forsythe’sF检验),对于变换后的新数据而言,在本质上就是“基于均值比较的方差分析”,实现了对原始数据的方差齐性检验。采用以上4种方法对本文例1的定量资料进行方差齐性检验,得到结果汇总如下:

Bartlett’sχ2检验法:χ2=4.5524,df=1,P=0.0329(单侧概率)。Levene’sF检验法:F=3.21,df1=1,df2=24,P=0.090(单侧概率)。Brown-Forsythe’sF检验法:F=1.64,df1=1,df2=24,P=0.2131(单侧概率)。O′Brien’sF检验法:F=2.86,df1=1,df2=24,P=0.104(单侧概率)。

以上4种检验结果仅Bartlett’sχ2检验的结果与例1的基于方差比的检验结果完全一致,其他3种检验得出了相反的结论。由于例1的两组定量资料均服从正态分布,故Bartlett’sχ2检验的结果精确度高。

3.2 小结

本文对五种方差齐性检验的理论和方法进行了详细介绍,呈现了两种具有不同数据结构的单因素两水平设计一元定量资料,并采用两种途径实现了方差齐性检验;对于单因素多水平设计一元定量资料,基于SAS中的PROC GLM过程实现了三种F检验和一种χ2检验。

猜你喜欢

方差定量总体
有机物官能团的定量关系在解题中的应用
宪法修改的重大意义总体要求和原则
方差生活秀
习近平总体国家安全观图解
直击高考中的用样本估计总体
形成初步定量思维。做好初高中化学衔接学习
揭秘平均数和方差的变化规律
方差越小越好?
方差在“三数两差”问题中的妙用
坦克的组成和总体布置