关于方差分析的一种直觉推导和一个现实应用
2012-04-29黄海燕
黄海燕
摘 要:方差分析是一种重要的用于假设检验的统计方法,常用于分析和判断某一因素的不同水平对事物的影响是否有显著差异。虽然方差分析有非常广泛的应用,但不少统计方法应用者对方差分析中采用F检验的原因并不清楚。而且,也很难发现有中外文献或资料对此原因做出解释。长期以来,F检验统计量似乎已成为方差分析约定俗成的既定工具。文章从较为直观的视角,结合统计常识和基础知识,对方差分析中的F检验统计量进行了较为充分的推导和证明。这种包含直觉成分的推导思路和过程很有可能与原有的推导有很大不同,但其一样有效地诠释了方差分析F检验的机理和实质。
关键词:方差分析 F检验 假设检验 理论推导 合并总体
中图分类号:F222文献标识码:A
文章编号:1004-4914(2012)09-038-03
一、引言
方差分析是检验多个总体均值是否相等的统计方法。当要判断分类型自变量是否对数值型因变量有显著影响时,可以采用方差分析的方法。例如,要判断不同种化肥对农作物的产量是否有显著影响、不同生产工艺对产品的质量是否有显著影响、不同的培训项目对员工技能提高是否有显著影响等,都可以考虑通过方差分析对问题进行研究。
作为一种非常重要的检验方法,方差分析采用F检验统计量进行显著性检验。虽然方差分析有非常广泛的应用,但不少的使用者并不十分清楚为什么采用F检验进行方差分析。所见到的文献几乎都把方差分析中的F检验仅作为一种统计工具予以介绍,而并不对方差分析中之所以采用F检验的原因进行解释。笔者目前还没见到关于方差分析F检验推导过程的中外相关文献或资料。
作为一种科学的统计检验方法,方差分析中采用F检验统计量肯定有其非常严谨的推导过程,这是勿容置疑的。但或许正是由于其推导过程过于严格和复杂,从而鲜有文献资料对其给以说明和推证,只是把F检验作为一种约定俗成的做法施加于方差分析过程。
本文笔者通过思考,尝试找到一种关于方差分析F检验的推导方法。在整个推导过程中,所采用的都是一些基础性的统计知识,并掺插着对统计学问题的直觉认识。所以,笔者所采用的推导方法并不复杂,很容易让方差分析方法的使用者明白使用F检验统计量的个中缘由。本文第二部分再现了这种推导过程。但有别于原本的方差分析推导过程所应具有的规范性和严谨性,本推导过程中的个别环节可能还值得进一步推敲。希望能与读者进行相关交流和探讨。本文的第三部分提供了一个用方差分析进行产品改良的商业案例,用以展现方差分析的具体过程和应用价值。
二、对方差分析F检验统计量的直觉推导
(一)方差分析基本内容
方差分析是要判断分类型自变量是否对数值型因变量有显著影响。分类型自变量代表着某种影响因素或称为因子。影响因素以某一水平作用于若干个体对象上。所有可能被因素施以某一(水平)影响的个体构成一个相应的总体,而所观察到的受到因素某一(水平)具体影响的所有个体构成一个观测样本。这样,如果某一影响因素具有k个水平,意味着分类型自变量可以取k个不同的数值,因素k个水平下的观测值共构成k个对应样本。
若考察单一因素不同水平的影响,样本观测值的数据结构如下表1所示。影响因素第i水平下有ni个观测值,即第i个样本包含ni个个体。个体总数n=n1+n2+…nk。来自第i个总体(水平)的第j个观测值为xij。
根据以上数据结构,可以计算出如下统计量:因素各水平下观测值的均值xˉi、全部观测值的总均值x=、总误差平方和SST、组间误差平方和SSA、组内误差平方和SSE。在此基础上,还可以通过SSA和SSE分别除以各自的自由度,进一步计算出组间均方MSA以及组内均方MSE。
方差分析要根据k个样本提供的信息判断k个总体的均值是否相等。若k个因素水平所对应总体的均值分别为μ1,μ2,…,μk,则方差分析的原假设和备择假设可陈述为:
H0∶μ1=μ2…=μkH1∶μ1,μ2…,μk不全相等
对假设进行检验的统计量为:
F=■~F(k-1,n-k)
此为F统计量。其中,k-1和n-k分别为F分布的第一和第二自由度,并分别与SSA和SSE(或者说,与组间均方MSA、组内均方MSE的计算)相对应。
(二)F检验统计量推导过程
方差分析有三个基本假定:(1)每个总体都服从正态分布;(2)各个总体的方差相同;(3)观测值独立。在这些假定下,k个总体的分布如图1所示。
如果原假设“H0∶μ1=μ2…=μk”成立,则k个总体的分布完全相同,如图2所示。由k个总体合并一起构成的“合并总体”的分布等同于任一水平所对应总体的分布。用σ2E表示任一水平所对应总体的方差,σ2P表示k个总体构成的“合并总体”的方差,μP表示“合并总体”的均值,则由“μ1=μ2…=μk”可知:μP=μk,σ2P=σ2E。所以,“μ1=μ2…=μk”等价于“σ2P=σ2E”。
如果原假设不成立,即备择假设“H1∶μ1,μ2…,μk不全相等”成立,则由k个总体合并一起构成的“合并总体”的分布将不同于任一水平所对应的总体的分布。“合并总体”相对于与每一水平所对应总体来说,其个体之间的差异将变大,分布将更离散,从而其概率密度曲线将更扁平,如图3所示。类似方差分析中给出的“每个总体都服从正态分布”的基本假定,这里同样假定“合并总体”服从正态分布。
依然用σ2E表示任一水平所对应总体的方差,σ2P表示k个总体构成的“合并总体”的方差,则由“μ1,μ2…,μk不全相等”可知:σ2P>σ2E。所以,“μ1,μ2…,μk不全相等”等价于“σ2P>σ2E”。
从以上的分析能够看出,方差分析中原假设和备择假设关于均值的陈述
H0∶μ1=μ2…=μkH1∶μ1,μ2,…,μk不全相等
可以转换成关于方差的陈述
H0∶σ2P=σ2EH1∶σ2P>σ2E
在上述的假设陈述转换的基础上,下面分析检验统计量的构建。对于k个总体中的第i个总体,根据χ2分布的定义等知识或者直接根据样本方差的抽样分布,可得
■~χ2(ni-1)
再根据χ2分布的可加性,将k个总体的上述统计量相加,得
■~χ2(n-k)
即■~χ2(n-k)(式子1)
从k个总体构成的“合并总体”的角度,原本对应于第i个水平的ni个观测值构成一个容量为ni的随机样本。还用σ2P表示“合并总体”的方差,μp表示“合并总体”的均值。在前述的“合并总体服从正态分布”的假定下,有
x-i~N(μp,■)(式子2)
需要说明的是,如果第i个水平的ni个观测值足够多,亦即随机样本的容量ni足够大,完全可以放松前述的“合并总体服从正态分布”的假定。
根据χ2分布的定义,由式子2得
■~χ2(1)
即■~χ2(1)
对于k个随机样本,根据χ2分布的可加性,得
■■~χ2(k)
上式中μp未知,用总均值x=来估计和替换。由于x=是k个x-i的加权平均数,意味着对上式中所涉及到的k个x-i施加了一个约束条件,所以x-i,从而χ2分布的自由度下降1,即
■■~χ2(k-1)
于是■~χ2(k-1)(式子3)
根据F分布的定义(两个χ2分布除以各自的自由度,服从F分布),将式子1和式子3左侧除以各自对应的自由度,然后再进行对比,得
■■~F(k-1,n-k)
因为MSA=■,MSE=■,所以
■~F(k-1,n-k)(式子4)
对于原假设和备择假设
H0∶σ2P=σ2EH1∶σ2P>σ2E
检验统计量为式子4当原假设成立时的情形,所以检验统计量为
F=■~F(k-1,n-k)(式子5)
此假设检验为右侧检验。对于给定的显著性水平α,根据式子5中F检验统计量的值是否大于临界值Fα(k-1,n-k)判断是否拒绝H0∶σ2P=σ2E,亦即据此判断是否拒绝H0∶μ1=μ2…=μk。
三、方差分析方法的一个具体运用案例
一家饮料生产厂商某种饮料的销售情况一直不好,其准备从口感和营养概念方面对此种饮料进行改良。针对口感方面,饮料厂商设计了三种不同的口味配方(配方A、B和C),并分别在三个大型商场同时对消费者进行调查。消费者品尝饮料某一口味配方样品后,对口感情况进行评分。评分分值介于0到100分之间。接受三种口味配方A、B和C品尝调查的消费者分别为50人、60人和55人。调查数据在这里省略。此饮料厂商希望通过调查和分析,判断饮料的三种口味配方是否显著影响消费者的口感评价,并确定是否从中选择一种较优的配方方案。
要判断饮料的三种口味配方是否显著影响消费者的口感评价,等同于判断消费者对饮料的三种口味配方的口感评价是否有显著差异,因此要判断消费者(包括现实的和潜在的消费者)对三种口味配方的口感评价的均值是否相等。针对此问题,可以采用方差分析(单因素方差分析)等统计分析方法。
方差分析作为一种假设检验方法,首先要提(下转第41页)(上接第39页)出原假设和备择假设。
H0∶μA=μB=μCH1∶μA,μB,μC不全相等
而进行方差分析,数据应满足前述的方差分析的三个假设条件。在此问题中,正态性检验从略。由于消费者调查是分开进行,可认为数据的独立性不存在问题。对于方差相等性,使用Minitab软件进行检验。检验结果如图4所示。
由图4的结果容易看出,Bartlett检验的P值为0.861,Levene检验的P值为0.752,可以认为饮料不同口味配方所对应的3个消费者总体的方差是相等的。
继续使用Minitab软件对数据进行单因素方差分析,分析的主要结果如表2所示。
从表2所示的分析结果可以看出,F检验的P值为0,检验结果显著,说明饮料的三种不同口味配方显著影响消费者的口感评价,其效果有很大差异。另外,从口感评价的95%置信区间估计来看,口味配方B应该是三者之中较优的配方方案。
四、结论
方差分析是一种非常重要的假设检验方法,常用于判断某一因素的不同水平对事物的影响是否有显著差异。方差分析在各个领域都有非常现实的应用,广泛用于产品改良和流程设计。本文运用统计学的基础知识,结合对相关问题的直觉认识,对方差分析检验统计量进行了推导和解释。除了对方差分析的推导,本文还给出了一个企业通过方差分析进行产品改良的商业案例。此案例虽然只是方差分析的一个具体应用,但其真实再现了方差分析的应用过程和现实意义。本文所进行的关于方差分析的理论推导和案例演示,将有助于广大方差分析使用者充分理解方差分析的机理和实质,而不仅仅局限于把方差分析中的检验作为一种惯常做法或者约定俗成的工具。
参考文献:
1.马逢时等.六西格玛管理统计指南:MINITAB使用指南.北京:中国人民大学出版社,2007
2.袁卫等.统计学(第三版).北京:高等教育出版社,2009
3.Anderson.D.R.,et al. Statistics for Business and Economics.
Mason,OH:South-Western Cengage Learning,2011
(作者单位:郑州大学西亚斯国际学院 河南新郑 451150)
(责编:贾伟)