APP下载

高教版《体育统计》中单因素方差分析模型实际意义解析

2012-12-11余红盈

关键词:平方和方差均值

余红盈

高教版《体育统计》中单因素方差分析模型实际意义解析

余红盈

运用文献资料法与逻辑分析法详细地阐述了方差分析的思想,并以高等教育出版社1998年7月出版的《体育统计》第三章中的方差模型及第七章中的单因素方差分析统计模型为例,解析其实际意义,旨在帮助体育统计学习者及使用者在学习和应用单因素方差分析时所遇到的困惑。

方差;方差分析;单因素方差分析;统计模型;实际意义

参阅了许多统计学方面的教材方差分析部分,发现教材上均给出了方差分析的统计模型计算公式,但为什么要这样或那样计算,教材中并没有给出详细地说明,不注重统计思想的培养,因此给读者留下了许多疑点。读者都知道有方差分析这么一个统计模型计算公式,到要用的时候就按照这个公式套就是了,甚至有些读者连公式都不想套,直接用一些统计软件轻轻一点,数据分析结果就出来了,至于分析结果是怎么样出来的就一无所知了,结果是否可信或存在什么缺陷就更不知道了。

1 方差分析思想的解析

假设检验是以小概率事件为基础的,而以小概率事件为基础的假设检验统计模型在实际应用过程中容易犯统计学中的两类错误,即第一类为纳伪,第二类为弃真。在进行多重比较的时候如果采用两两配对假设检验得出结论就很容易犯统计学中的两类错误。如在显著性水平为α=0.05时比较随机抽取的K组样本数据的均值(mean)是否存在差异显著性,如果进行两两配对的独立样本t检验,共要检验C2K次,每一次检验都会得到一个α值,这是每一次犯第一类错误的概率,只有综合了C2K次α值才能得出结论。规定不犯第一类错误的概率为95%,因此每一次不犯第一类错误的概率为95%。根据邦弗隆尼(Bonferroni)不等式原理可知进行C2K次检验后,不犯第一类错误的概率则为95%的C2K次方,而95%的C2K次方必然小于0.95%,这时的 α必然大于0.05。随着比较次数的增多,α会变得越来越大。规定显著性水平(significance level)为0.05时才为小概率事件,而经过C2K次检验后α值大于0.05时也认为是小概率事件。因此在进行多重比较的情况下,用两两配对t检验,不仅麻烦,而且容易拒绝原假设。若原假设是真,则犯第二类错误。[1]

随机抽取的K组样本数据的均值本身在数值上就存在差别,但我们并不知道这种数值上的差别是由随机抽样造成的还是由样本所来自的总体本身存在的差异所造成的,因此如果能设计一种检验模型,把所有样本之间的差异分解为由于随机分组造成的差异和随机抽样造成的差异两部分,并能检验出由于随机分组造成的差异远远大于由于随机抽样造成的差异,那么就有充分的理由说明这K组样本数据的均值存在差异显著性。为了解决这个问题,英国统计学家费歇尔(Ronald A.Fisher)于1924年在加拿大多伦多举行的国际统计学会大会上,作了题为《关于一个引出若干周知统计量的误差函数的分析》的报告,正式提出了方差分析(analysis of variance;ANOVA)的概念及思想,最初主要应用于生物和农业田间试验,而后推广到各领域应用。[2]

方差分析思想的核心就是将组间方差(sum of squares for factor A,SSA)与组内方差(sum of squares for error,SSE)进行对比,分析二者是否存在差异显著性。组内方差是反映本组内各变量值相对于本组均值的分布离散程度的统计量,实际上代表的是样本总方差中不能用分组因素解释的部分,反映的是样本个体观测指标之间的差异,即随机抽样所造成的差异,这是抽样本身不可避免的。组间方差是反映各组均值相对于总体均值的分布离散程度的统计量,实际上代表的是样本总方差中可以用分组因素解释的部分,反映的样本组观测指标均值之间的差异,即随机分组所造成的差异,这与抽样无关。如果组间方差远远大于组内方差,就有充分的理由说明上述K组样本数据存在差异显著性。

2 方差模型实际意义解析

方差分析在体育科研工作中是一种非常实用且应用广泛的统计分析技术,但它的思想和方法的确有难以理解的地方。要解析方差分析模型的实际意义就必须先解析方差(variance)模型的实际意义。

我们首先来看高等教育出版社1998年7月出版的《体育统计》第三章中的方差模型:

方差是用来描述各变量值(variable)与均值离散程度的统计量,方差越小表明观测值越向均值集中,方差越大表明观测值与均值越分散。在理想状态,当n→∝时,我们对方差的数学期望为0,但在一次抽样中实难办到,这是小概率事件。因此在一次抽样中只能力求方差越小越好,而当n一定,n-1也一定,只有将希望寄托在∑(x-珋x)的身上了。又由于在一次抽样中x-珋x可正可负,所以在x与珋x左右偏差较大时,也可能使∑(x-珋x)最小或者为0,此时不能排除珋x左右两边异常值对∑(x-珋x)的影响,因此根据最小二乘法原理,考虑将∑(x-珋x)平方,使∑(x-珋x)2最小,即总离差平方和(sum of squares for total,SST)最小,可保证在一次抽样过程中方差最小,又可排除珋x左右两边异常值对∑(x-珋x)的影响。

为什么要用总离差平方和∑(x-珋x)2除以n-1呢?n-1在这里称为自由度(degree of freedom,df),是指当利用样本统计量来估计总体参数时,样本中能自由变化的变量值的个数。[2,4]例如;有一组独立样本观测变量x1,x2,x3……xn,则样本观测变量x有n种自由变化的可能,如果从这组样本观测变量中任意取出一个x来时,则样本观测变量x还有n-1种自由变化的可能,以此类推,当取出n-1个x来时,则样本观测变量只有1种自由变化的可能。之所以用n-1作除数,是由于抽样会产生误差,数理统计已经证明,除以n-1更接近真值。[5]因此用总离差平方和∑(x-珋x)2除以自由度n-1得到的是均离差平方和,即方差。

3 单因素方差分析模型解析

单因素方差分析是方差分析中最简单的一种统计方法,它是学习和理解多因素方差分析和多元统计的基础。因此下面我们就从单因素方差分析模型入手来进行逐步解析。

以下是高等教育出版社1998年7月出版的《体育统计》第七章中的单因素方差分析统计模型:

我们不防用逆向思维来理解和分析这个统计模型。上面方差分析思想中已经提到方差分析思想的核心就是将组间方差与组内方差进行对比,得出结论。由于组间方差与组内方差不服从统一的分布,如果将组间方差与组内方差进行比较,将没有统计意义,故而需要利用组间方差组内方差构造一个统计量,再对这个统计量进行评估,这样就能得出结论了。而利用组间方差与组内方差的比值构造一个统计量刚好服从一定的分布,由于这种分布是英国统计学家费歇尔(Ronald A.Fisher)发现的,因此用姓氏的首字母F将这种分布称之为F分布,这种统计量称之为F统计量。为了使用方便,他将这种分布制成表称之为F分布表。将求得的F统计量与从F分布表中查得的 Fα(n'1,n'2)进行比较,最后得出结论。由方差模型知道,要求组间方差与组内方差就要利用它们各自的离差平方和及自由度,而数理统计学已经证明了总离差平方和可以分解为组间离差平方和与组内平方和,且服从各自的自由度,[6]只要抽样与分组结束,模型中的k-1和N-k就一定,观测变量x可测,因此总方差可以分解为组间方差和组内方差两部分,这样问题就迎刃而解了。

4 结语

体育统计在体育科研工作中应用非常广泛,而每一种统计方法及模型都是根据具体问题而建立的,必然有其适用的范围,如果超范围应用则属张冠李戴,会贻笑大方。由于种种原因造成了基层体育工作者文化科研理论相对溥弱,有一部分体育科研工作者在从事体育科研时不愿意去碰统计学这条高压线,不能对数据进行深层的分析,使辛辛苦苦得来的有价值的数据白白浪费。因此基层体育科研工作者很有必要加强自身的统计学修养,在运用统计学进行数据分析时不但要知其然还要知其所以然,才能让统计学为我们的体育科研工作更好地服务。

[1]周皓.统计基础和 SPSS11.0入门与提高[M].北京:清华大学出版社,2004.

[2]管于华.统计学[M].北京:高等教育出版社,2005.

[3]丛湖平.体育统计[M].北京:高等教育出版社,1998.

[4]百度百科.自由度[EQ/OL].http://baike.baidu.com/view/327514.htm2009-9-11.

[5]姜达维.实用统计学[M].北京:机械工业出版社,2005.

[6]盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2001.

[7]张文彤.世界优秀统计软件工具SPSS 11.0统计分析教程[M].北京:北京希望电子出版社,2002.

The Implication of the One-way Analysis of Variance Model Provided by Sports Statistics

Yu Hongying

With the literature and logic analysis approach,the paper tries to explain in detail the analysis of variance and One-way Analysis of Variance prescribed in Chapter 3 and Chapter 7 of the textbook"Sports Statistics"published by Higher Education Press in July 1998.The aim is to help the learners solve the problems in their study and application of the One-way Analysis of Variance.

variance;analysis of variance;one-way analysis of variance;statistical model;practical meaning

G80-05

A

1672-6758(2012)04-0139-2

余红盈,硕士,荆楚理工学院公共体育部,湖北·荆门。邮政编码:448000

Class No.:G80 -05Document Mark:A

(责任编辑:郑英玲)

猜你喜欢

平方和方差均值
概率与统计(2)——离散型随机变量的期望与方差
方差越小越好?
计算方差用哪个公式
费马—欧拉两平方和定理
利用平方和方法证明不等式赛题
方差生活秀
勾股定理的扩展
关于四奇数平方和问题
关于均值有界变差函数的重要不等式
对偶均值积分的Marcus-Lopes不等式