APP下载

缺失原始数据的单因素方差分析方法研究

2017-05-30于向鸿肖阳

安徽农业科学 2017年8期
关键词:方差分析

于向鸿 肖阳

摘要对缺失原始数据的数据资料进行了方差分析。从方差分析的基本原理入手,对基本统计数据进行反向推理,得到处理间和误差项的各项离差平方和、自由度以及均方,从而可以实现缺失原始数据下的方差分析,并编写了SAS程序予以实现整个计算和方差分析过程。

关键词方差分析;缺失原始数据;二次数据;SAS

中图分类号O212 文献标识码A文章编号0517-6611(2017)08-0014-02

Research on the One Way Analysis of Variance with the Loss of Original Data

YU Xianghong, XIAO Yang

(Statistics Office, Graduate School of the Chinese Academy of Agricultural Sciences, Beijing 100081)

AbstractWe completed the analysis of variance without original data. Based on principle of analysis of variance and basic statistics, it was carried out mathematic deduction to obtain sum of square, degree of freedom and mean square of errors and treatments, so analysis of variance could be accomplished in the condition of loss original data. In the end, SAS procedure was programmed to realize the whole process of calculation.

Key wordsANOVA;The loss of original data;Second data;SAS

方差分析(Analysis of Variance,简称ANOVA)是英国统计学家Fisher首次在科学试验中提出的数据分析方析,是一种重要的科研数据的基本统计分析方法,目前在农业和生物学等领域有着广泛的应用[1-2]。

方差分析法就是利用方差的可分解性,从总变异中分解出组间(处理)变异和组内(重复)变异,并把组间变异与组内变异进行对比,进行显著性检验,从而得到各个处理之间的真实差异[3]。

在科学研究领域,由于时代变迁、人员更替等原因导致原始科研数据丢失,或者公开发表的学术论文中没有原始数据,而只有各处理的均值、标准差或者标准误以及重复数等基本统计数据,这样的数据也被称作二次数据,数据中大量的原始细节信息已经丢失,要对其进行方差分析较难。

方差分析中最简单、最常见的是单因素方差分析[4],所有复杂的方差分析在基本原理上等同于单因素方差分析,笔者以常见的单因素方差分析为例(以下提到的方差分析均指单因素方差分析),通过对方差分析基本原理的分析,对均值、重复数和标准差数据进行了反向推算,最终得到各项的离差平方和、自由度以及均方,实现了缺失原始数据的方差分析。

1方差分析的基本原理

1.1单因子试验概述

单因子试验为只考虑1个试验因子对试验指标产生影响的试验,是最常见、最简单的科学试验[5]。记因子为A,有r个水平:A1,A2,…,Ar,此处也称为r个处理。又设在Ai水平下重复进行mi次试验,i=1,2,…,r,总试验处理数n=m1+m2+…+mr。记yij为因子A在第i个水平下第j次试验的观测值,则它的总平均值为:

=1nri=1mij=1yij=1nri=1mii(1)

式中,i为水平Ai下mi次重复试验的均值。

1.2离差平方和的计算

这n个数据的变异来源用离差平方和SST来表示:

SST=ri=1mij=1(yij-)2(2)

利用代数运算可将SST分解为2个离差平方和:

SST=ri=1mij=1(yij-i)2+ri=1mi(i-)2(3)

式中,第1个离差平方和称为组内平方和,又称误差平方和,记为SSe;第2个离差平方和称为组间平方和或因子A的平方和,记为SSA。则有:

SSe=ri=1mij=1(yij-i)2(4)

SSA=ri=1mi(i-)2(5)

SST=SSA+SSe(6)

1.3自由度的計算

总自由度dfT=n-1,因子A的自由度dfA=r-1,误差项的自由度:

dfe=ri=1(mi-1)(7)

满足等式:

dfT=dfA+dfe(8)

1.4均方的计算

因子A的均方MSA和误差项的均方MSe分别为:

MSA=SSAdfAMSe=SSedfe(9)

取F统计量为因子A的均方与误差项的均方之比:

F=MSAMSe(10)

则此F统计量服从第一自由度为dfA,第二自由度为dfe的F分布。

1.5方差分析表

根据方差分析的基本原理,即可在0.05的显著性水平下对F统计量进行检验[6],得到方差分析表(表1)。

2缺失原始数据的方差分析

对于原始数据缺失的科研数据,通常只给出各处理(即

因子A的水平)的均值、标准差(或方差)或均值的标准误以及重复数。标准差、方差和标准误之间可以相互换算,只要知道其中任何1项即可得出其他2项,通常给出的是标准差。该研究以数据给出各处理(r个处理)的均值i、标准差Si和重复数mi(i=1,2,…,r)为例进行分析,方差分析的所有统计量都可以由这几个基本统计量计算得到。

2.1离差平方和的计算

对于给定的标准差Si,首先取平方转换成方差S2i。首先需进行总平均值的计算,总平均值其实质为各处理的加权平均值:

=1nri=1mii=ri=1miiri=1mi(11)

计算因子A的离差平方和,其实质为加权的离差平方和:

SSA=ri=1mi(i-)2(12)

计算误差项的离差平方和:

SSe=ri=1mij=1(yij-)2

=ri=1(mi-1)S2i(13)

2.2自由度的计算

因子A的自由度dfA=r-1,误差项的自由度dfe=ri=1(mi-1),总自由度dfT=ri=1mi-1。

2.3均方的计算

计算因子A的均方:

MSA=SSAdfA=1r-1ri=1mi(i-)2(14)

计算误差项的均方:

MSe=SSedfe=ri=1(mi-1)S2iri=1(mi-1)(15)

3方差分析计算实例

3.1实例

考察3种不同配方的饲料(因子A)对猪的育肥效果[7],试验指标为猪的日增重(y,单位g),每种饲料饲喂5头猪,但由于参与第3种饲料试验的1头猪因病中途退出试验,只剩下4头猪完成试验。由于某种原因,原始试验数据缺失,最后只有3种饲料育肥试验的重复数、平均日增重和日增重的标准差,试验数据如表2所示。

对上述试验数据中3种饲料间育肥效果是否存在显著差异进行方差分析。

3.2方差分析结果

根据公式(11)~(15),可以计算试验因子(饲料A)和误差项(e)的自由度、离差平方和、均方以及F统计量和其显著性P值,可得到如下方差分析表(表3)。

方差分析结果显示,F=6.041 6,P=0.017,在0.05显著性水平下,P=0.017(<0.05),表明3种饲料(因子A)间对猪的育肥效果存在显著差异,还可以进一步进行3种饲料育肥效果均值的多重比较[8]。

4结论与讨论

通过对方差分析基本原理进行剖析和推导,以平均值、标准差以及重复数等数据为基础进行计算,最终可以得到处理间和误差项的各项离差平方和、自由度以及均方,从而可以实现缺失原始数据一样的方差分析,使二次数据得到充分利用。

同时运用该方法,对于公开发表的学术论文里的方差

分析结果,在没有原始数据的情况下也可以进行方差分析的核验。

该研究只对最常见、最简单的单因素方差分析进行了分析和推导,得到了缺失原始数据的方差分析,而对于其他更复杂的方差分析在原理上相同,也可以进行类似的分析[10]。

对于试验指标的均值的多重比较,因为误差项的均方已经得到,相对就较为简单,需要进行下一步的均值多重比较即可得到[11],该研究不再赘述。

结合科研上的实例,运用强大SAS软件[12]进行编程,实现了缺失原始数据的方差分析的 SAS程序[13],大大简化了分析过程,极大地提高了计算效率和准确性。

参考文献

[1] 郭萍.单因素方差分析在数理统计中的应用[J].长春大学学报,2014,24(10):1370-1373.

[2] 高卓.单因素方差分析应用的实证研究[J].赤峰学院学报(自然科学版),2014,30(3):4-6.

[3] 阮敬.SAS统计分析从入门到精通[M].北京:人民邮电出版社,2009:53-54.

[4] 刘加妹,彭景楩.生物实验数据的单因素方差分析[J].动物学杂志,2001,36(6):34-37.

[5] 茆诗松,周纪芗,陈颖.试验设计[M].北京:中国统计出版社,2004:13-22.

[6] 盖钧镒.试验统计方法[M].北京:中国农业出版社,2006:101-103.

[7] MIROSLAV K,LAMBERSON W R.Biostatistics for Animal Science[M].Cambridge:CABI Publishing,2004:212-226.

[8] 高惠璇.实用统计方法与SAS系统[M].北京:北京大学出版社,2001:43-46.

[9] 胡小平,王长发.SAS基础及统计实例教程[M].西安:西安地图出版社,2001:116-122.

[10] 高惠璇.SAS系统:SAS/STAT软件使用手册[M].北京:中国统计出版社,1997:250-263.

[11] SAS Institute Inc.Statistic II:ANOVA and Regression[M].Kerry,USA:SAS Institute Inc.,2005:156-161.

[12] 夏坤莊,徐唯,潘红莲.深入解析SAS:数据处理、分析优化与商业应用[M].北京:机械工业出版社,2014:334-340.

[13] 刘荣.SAS统计分析与应用实例[M].北京:电子工业出版社,2013:56-58.

猜你喜欢

方差分析
Excel在生物统计学双因素无重复方差分析中的应用
Excel在生物统计学双因素无重复方差分析中的应用
Excel在生物统计学单因素方差分析中的应用
Excel在动物科学试验中的应用
Excel在《生物统计学》双因素有重复方差分析中的应用与探讨
高校二手书市场细分研究
应用统计学课堂教学组织实践与探索
农机单因素试验设计与分析