科技期刊论文写作系列讲座:XⅢ.试验设计和统计分析
2011-07-31张久权
张久权
(中国农业科学院烟草研究所,青岛 266101)
试验设计和统计分析所涉及的内容较多,有些需要掌握比较高深的统计理论和数学方面的知识。国外许多研究机构(包括医学和农业等)都有专门的统计学专家负责进行试验设计和统计分析。试验设计正确与否,统计分析是否合理,对结论的正确性至关重要。如果在这方面出了问题,所得结论往往不合理,甚至是错误的。从来稿看,试验设计和统计分析方面的问题较多,有些问题比较严重。作者辛辛苦苦做了几年的试验,最后才发现试验设计不合理,统计方法存在问题,导致退稿,造成损失和遗憾。下面,我列举一些常见问题以及解决方法,供大家参考。
1 对“试验设计”的描述不完整、准确
对于“试验设计”部分的内容,作者应该说明该试验包括哪几个因子,各因子的水平,因子之间的关系(如因子处理结构),试验单元(如小区),处理如何分配到试验单元,重复数,田间排列方法(随机区组,完全随机,裂区等)。如果是正交试验,还需要对因子处理用表格进行说明。如果是室内试验,也应该注意对试验单元的排列方式进行描述。试验地点和年份,是否是多点多年试验?观察记载项目和操作,取样时间和操作等都应该交待清楚。如果论文中包括多个试验,应该分别对每一个试验进行描述。
例:
试验设3种土壤:紫色土(Z)、牛肝土田(N)、砂泥田(S)。5个施氮量水平:N1、N2、N3、N4、N5分别为0.0、67.5、135.0(当地习惯施氮量)、202.5、270.0 kg/hm2,土柱施氮量按其横截面积折算。试验共15个处理,3次重复。
试验共2个因子(土壤、氮肥),土壤因子包括3个水平,氮肥因子5个水平,共15个处理组合。遗憾的是,作者没有说明这15个处理组合是如何分配到各小区的,田间排列方法是什么?这2项内容对后面的统计分析至关重要。
2 处理之间没有遵循“唯一差异”原则,缺乏可比性
我们先来看一个烟草叶面喷施钾肥试验的例子:
试验设喷硫酸钾与不喷(CK)2个处理,3次重复,小区面积50 m×50 m,小区排列方式为完全随机。
存在的问题是在喷硫酸钾的同时,也喷施了一定量的水。如果喷施时天气很干旱,就很难判断到底是钾肥还是水,或者是二者一起产生的效果。如果我们将CK改为喷施等量的水,问题就解决了。
因此,我们在进行试验设计时,一定要坚持“唯一差异”原则,在进行处理间比较时,除了试验处理不同外,其他所有条件应当保持相同或尽量一致,才能使处理间的结果具有可比性。
3 试验设计中没有贯彻“随机化”原则
我们所进行的统计分析,都是依赖于各种统计分布(如正态分布),而许多分布函数最基本的假设条件就是变量是随机的。如果我们做试验设计时,对试验单元不进行随机化,就违背了统计分布的基本条件,所得结果就会缺乏理论根据。随机化的另一个重要目的是获得无偏的误差估计量,从而进行正确的统计推断。
个别学者对随机化原则不理解,或者虽然知道但因怕麻烦不认真执行,甚至为了提高论文的刊用率,随便冠以随机化的字眼,这样就失去了科学研究的真正目的。因此,在进行试验设计时,我们应该从统计学的角度认真做好随机化的工作。比如,采用合理的排列方式(完全随机、随机区组、拉丁方等),将处理组合指定到某个试验单元(如小区)时,采用随机数字表等。
4 缺乏统计分析
有些学者对统计分析的认识不足,或者因为对统计分析了解不多,也为了省事,做试验设计时,很少考虑以后的统计分析,不进行随机化处理,采用简单的排列方式(如,顺序排列,对比法试验等)。这样,虽然进行了大量的试验操作,但所得结果的可靠性和科学性会大打折扣。
有的学者试验设计进行得很好,操作时也进行了随机化处理,但没有进行统计分析。撰写论文时对结果只是进行简单地定性描述,单凭数值的大小主观判断结果是否具有差异,有的甚至用“显著”、“极显著”等统计专用术语。这些都是不可取的,会大大降低稿件的录用率。因此,建议作者在撰写论文的“结果”部分之前,认真做好统计分析。如果你自己不会,完全可以请同事帮忙完成。
5 做了统计分析,但结果描述时却忽视了统计分析结果
我们在审稿中发现的另一个较普遍的问题是:试验设计合理,统计分析方法正确,但作者在进行结果描述时,却完全抛开了统计分析结果,按自己的思路说处理A比处理B效果好,虽然他们之间没有显著差异。当然,统计分析只是一个数学推断的分析手段,存在I类或II类误差,对最终结果的解释,还是要靠学者的专业知识。但误差只是个别情况,但在没有充足的理由否定统计结果时,我们还是要尽量参考统计分析结果。
6 统计检验前提条件不满足,误用统计分析方法
统计检验依赖于统计模型,每种分布模型的随机变量都对数据有一定的要求,如样本的独立性、数据的分布型(如,正态分布)、数据的类型等。目前,由于统计软件的使用比较方便,学者往往对应该如何选用合适的统计方法考虑甚少,直接将数据输入计算机,几秒种后出来一大堆结果,这些结果很容易造成误导。为了防止不懂统计的人员误用,国外著名统计软件SAS,故意将界面做的很差,只给一些简单的分析提供界面,其他许多功能强大或复杂的分析都需要分析人员理解统计原理后自己编程进行分析的。
选择正确的统计方法,有时需要咨询专业的统计人员,也可以参考相关书目。笔者在此仅举几个例子:
对于独立的双样本,当数据呈正态分布时,可以做t检验,否则就要进行非参数Mann Whitney U 检验;对于非独立双样本呈正态分布的数据,可以进行配对样本t检验;当数据为非正态时,应采用非参数统计中的2个相关样本检验方法进行。当分组在3组或3组以上时就必须采用方差分析法。对于独立的多组样本,采用单方向ANOVA分析,当结果差异显著时,还需要进一步进行多重比较分析。
值得一提的是,对于非参数统计,它们中的许多方法假设条件简单,不需要正态分布。可以用其进行序数、计数、比例、比率、分类等数据类型的统计分析。
7 多点试验或多年试验的统计分析不合理
有些试验,尤其是农业试验,常常需要进行多点或多年试验。在进行这样的试验统计分析时,有些学者只是按各地点或年份进行单独分析,或者取平均数进行分析,这都是不可取的。
多年或多点试验数据之间有可能存在相关性,许多统计方法可以对此进行检测。如果这些数据在空间或时间上相互独立,我们可以采用一些参数或非参数的统计分析方法对其进行分析;如果数据在空间或时间上相关,可以采用区域化变量分析(regionalized variable analysis)和时间序列分析方法进行分析。
8 统计结论的描述不确切
统计分析固然重要,但我们不能过分依赖统计结果。有的人把5%或1%水准当作圣典,这是不可取的。其实,当初Fisher选用5%、1%这2个水准完全是出于对5、1这2个数据尺度方便的考虑。由于某种原因,这个标准就通过教科书沿用下来并成为“固定的标准水准”了。根据具体情况,把显著水准定在 6%或4%也无可厚非。
统计分析的基础是概率论,而统计结论的理论依据是小概率事件。如果得出的概率为 4%,就表明该个体属于该总体的可能性只有4%,也就是说96%的可能性不属于该总体。由此推断他们之间存在显著差异。一般来说,P值越小,就越有理由认为差异越显著,但并不是说小概率事件就不发生。因此,下结论时就不能绝对化。
统计分析得出结论,两组间数据达5%显著或1%极显著差异,但差异有多大,这要由它们之间实际相差大小,再结合专业知识才能确定,并不能由P< 0.05或P< 0.01来决定。统计上说的差异显著(P< 0.05),差异极显著(P< 0.01)是统计学术语,不能说P值越小,处理间的差异就越大。例如,2个烤烟品种红花大金元和K326,红花大金元的产量比K236的高,统计分析结果表明差异达极显著水准,此并不表示红花大金元在产量方面比K326高很多,只是表示红花大金元比K326的产量高的可能性非常大。红花大金元的产量是否比K326的高很多,要由其具体的产量数据来说话。为了避免歧义,建议用“差异有极显著意义”、“差异有显著意义”代替以前的“差异极显著”、“差异显著”。
9 对统计过程的中间结果进行过多表述
有的作者在投稿时,将方差分析等统计分析的中间结果详细用表列出,这是完全不必要的。如果前面已经交待清楚了试验设计,包括小区排列方式和重复数,采用的统计方法,方差分析结果列出P值就可以了。其实,读者最关心的是后面的多重比较结果。
10 方差分析结果可能没有达到差异显著水准,就做多重比较
一般来说,进行方差分析,如果处理间差异达到显著或极显著,就有必要选择合适的多重比较方法进行多重比较,找出具体是哪些处理间存在差异。如果方差分析结果表明处理间差异不显著,表示处理间存在差异的可能性非常小,就没有必要做多重比较了。但从来稿中,我们常常看到如下表1所示的情况。
表1 不同处理成熟期烟株各部位烟叶的SPAD值
表1多重比较结果表明,上部叶、中部叶4个处理间差异不显著,下部叶差异达显著水准但没达到极显著水准。由于作者没有提供方差分析的P值,我们不知道做方差分析时处理间是否达到5%显著差异。在一般情况下,如果方差分析结果表明差异显著,做多重比较时处理间会出现差异。因此,建议作者提供P值。只有在处理间差异达到显著或极显著后,才能进一步做多重比较,这样一般不会出现全是“a”的情况。如果万一出现,也有可能是所采用的多重比较方法不对,需要进行调整。总之,在做表时,不要将全“a”或“A”一一列出。