多组数据方差分析模型:以杀虫剂药效为例
2014-12-27陈维
陈 维
(天津职业技术师范大学,中国 天津300222)
0 前言
在试验法研究调查中,我们常常采取最传统的方法,分为试验组和对照组两组进行研究。然而,在实际生活中由于研究问题的复杂性,往往需要研究多于两组的研究对象之间的差异,其中多组数据位置的比较就是最基本的问题,我们正是通过方差分析来解决这一问题。在参数统计中,常常需要数据符合正态分布假定[1-3],但是,当先验信息不满足或者不足以支持正态分布时,就要采取非参数方法解决。
1 方差分析法的说明
根据试验设计的不同,我们采取不同的方差分析方法
1.1 完全随机设计
当影响因素只有一个时,如例1,分析这样的数据的方法就叫做单因素方差分析,这是最简单的实验设计。
例1:对三个工厂生产的灯泡进行寿命测试,每品牌随机试验,结果得如下数据(单位:天)
表1
完全随机设计必须具备的两个条件:
(1)试验材料(材质,地质,动植物)是同质
(2)每种处理(温度,照明)要随机安排试验材料
假设检验H0∶μ1=μ2=μ3H1∶∃i,j,i≠j,i,j=1,2,3,μi≠μj(至少有一种处理的均值不等)
1.2 完全随机区组设计
假设需要对A,B,C三种处理的车(在这里三种处理就相当于三种品牌,车包括自行车,摩托车和汽车)油耗设计比较试验,每种处理方法重复观测5次。也就是说,将15辆车分为五组,每组三辆,分别接受三种不同的处理,共生成3×5=15份报告,供三种处理方法进行比较。而实际中,我们知道,由于每辆车自身的不同,油耗的差异可能比较大,若刚好油耗少的分配到较好的处理方法,而油耗大的分配到较差的处理方法,结果可能测不到哪种处理方法更好。这是由于在该实验中,不同的车自身构成除了处理之外的另一个因素,称为区组。如果只取汽车,这就是完全随机区组设计,如例2,其中汽车为区组。
例2:下表是世界三大汽车公司的五种不同的车型某年产品的油耗
表2
完全区组的实验设计的需具备的条件:
(1)试验材料不同应根据需要分成几组,几个性质相近的实验单位为一区组,从而减小区组内个体差异,增大区组间差异。
(2)每个区组内的试验个体随机的全部参加各种处理。
(3)每个区组内的试验数等于处理数。
假设检验H0∶μ1=μ2=μ3H1∶μi≠ μj,∃i,j
1.3 均衡的不完全区组设计
因为不能保证每个区组都有对应的样本出现,这就产生了不完全区组设计。如处理组很大,但同一组的样本数又不允许太大,在一个区组中可能不能完全包含所有的处理,则只能在一个区组内安排部分处理,也就是说不是所有区组的处理都被用于各组的试验中[4],称这种区组设计为不完全区组设计,其中最常用的就是均衡不完全区组设计。
均衡区组设计,记为BIB(k,b,r,t,λ),需具备以下条件:
(1)在同一区组中每个处理最多出现一次。
(2)每个区组的样本数为t,t小于处理个数k。
(3)每个处理出现在同样多的r个区组中。即:b≥r或kffgt;t
(4)在同一区组中,每两个区组相遇次数一样(λ次)。
即:(1)kr=bt
(2)λ(k-1)=r(t-1) (1.1)
(3)b≥r或kffgt;t
特别的:t=k,r=b,则为完全随机区组设计
2 方差分析的检验方法
2.1 Cochran检验
对于一个完全区组设计,如果观测值只有“是”或“否”,“同意”或“不同意”,“1”或“0”等等,这些二元定性数据。因为重复的数据太多,秩方法受到了限制,这就要使用Q检验法,来分析多数据之间的差异是否存在。
假设有k个处理和m个区组,样本为计数数据,如表3。
假设检验
H0:k个总体分布相同(或各处理发生概率相等)
H1:k个总体分布不相同(或各处理发生概率不相等)
表3
分析:
n.j为第j个处理中1的个数,即之间的差异可以显示出各个处理之间的差异。ni.为每一个区组中1的个数表示每格成功概率。
H0成立时,每一区组i内的成功概率Pi,j相等,对∀j=1,2,…,k,∀I,Pi1=Pi2=…=Pik=Pi.,nij服从两点分布b(1,Pi.)。
一般n.j之间并非相互独立,但是当n.j足够大时,认为n.j近似独立,得到自由度为v=k-1的近似χ2分布,即Cochran值为
结论:当检验统计量的值Q<χ2
0.05,k-1,不能拒绝H0,反之接受H1。
2.2 Durbin不完全区组分析法
由前面提到,数据组很大,但是区组允许的样本量有限,一个区组中很难包含所有处理。较常见的就是BIB设计,这里我们介绍一种秩检验,能够应用于均衡不完全区组设计。
分析:
Xij表示第j个处理第i个区组中的观测值,Rij为第i个区组中第j个处理的秩,Ri.=Rij,i=1,2,…,b。
H0成立时,k个处理的秩和非常接近,反之,当某处理效应大时,秩和与总体平均之间的差异也较大,于是统计量为
结论:对于显著性水平α,如果D很大,比如大于或等于D1-α,D1-α为最小满足PH0(D≥D1-α)=α的值,就可以拒绝零假设。在零假设下,对于固定的k和t,当r→∞时,D→χ2(k-1)。
3 实际应用
试验一:现有A,B,C,D四种杀虫剂,在南方四个地区试用,由于试验用蚊子不足,故每种药剂只能使用于三个地方,每一次试验使用400只蚊子,其死亡数如下。如何检验四种药剂的药效是否不同?
表4
分析数据:得到下表,括号内的数,为各组内按4种处理观测值大小。
表5
假设检验问题为
H0:四种药剂的药效相同
H1:四种药剂的药效不同
统计分析:
t=3,k=4,r=3,自由度v=4-1=3,由(1.1)可知此设计为不完全区组设计。要采用Durbin不完全区组分析法,由(2.2)则:
结论:实际测得D=6.75<χ20.05,3=7.82,不能拒绝H0,没有明显的迹象表明四种药剂药效之间存在差异。
实验二:为了考察其中三种杀虫剂的杀虫能力,又设计了一个实验[5],选取12位使用者,对产品投票,若使用者认为满意,则给1分,否则给0分,所得结果如下,分析三种产品效果是否相同。
表6
分析数据,得到下表,分别求出每一区组,和每种处理的得分和
表7
假设检验问题为
H0:三种产品满意程度相同
H1:三种产品满意程度不同
统计分析:
由于各使用者每人杀虫的手法和使用习惯的不同,对药剂的杀虫效果也有差异,故应以使用者为区组,由(2.1),则
结论:实际测得Q=8.2222>χ20.05,2=5.991,接受H1,表明三种杀虫剂满意程度不同,即表明三种药剂杀虫效果不同,C比较受欢迎。
实际上,我们也可以计算一下三种药剂的概率点估计
由计算可得p^.,1=0.12,p^.,2=0.35,p^.,3=0.53也支持了这一结论。
通过以上两种试验设计,第一组试验并没有表明四种药剂的药效区别,依然无法决策。而第二组试验,则分析出了其中三种之中C产品的满意度最好,即药效最好,这就方便了我们做决策。同样的道理,我们还可以分别将三种药剂进行试验,最终得到四种药剂中效果最好的产品。
[1]Rice J.Mathematical Statistics and Date Analysis[M].3rd ed.Boston:Duxbury Press India 2007:22-57.
[2]Vapnik V N.Statistical Learning Theory[M].New York:Wiley-Interscience 1998:8-27.
[3]张尧庭.高等数理统计[M].北京:北京大学出版社,1998:4-34.
[4]刘勤,金丕焕.分类数据的统计分析及SAS编程[M].上海:复旦大学出版社,2002:57-75.
[5]David Hand,等.数据挖掘原理[M].张银奎,等,译.北京:机械工业出版社,2003:173-183.