农作物试验设计和统计分析值得注意的7个问题
2014-02-06张久权苏以荣黄一兰
张久权,苏以荣,黄一兰,张 瀛
(1.中国农业科学院烟草研究所,青岛 266101;2.中国科学院亚热带农业生态研究所,长沙 410125;3.中国科学院大学,北京 100049;4.福建省烟草公司三明市公司,福建 三明 365000)
农作物试验设计和统计分析值得注意的7个问题
张久权1,2,3,苏以荣2,黄一兰3,4,张 瀛3,4
(1.中国农业科学院烟草研究所,青岛 266101;2.中国科学院亚热带农业生态研究所,长沙 410125;3.中国科学院大学,北京 100049;4.福建省烟草公司三明市公司,福建 三明 365000)
进行科学试验研究时,试验设计的正确性和统计分析的合理性直接影响结论的可靠性。目前,农作物试验研究存在大量的统计问题,此给我国的科技创新造成了较大的负面影响。为了进一步提高相关科技工作者的研究水平,更好地运用统计学,提高科技创新的效率,笔者对农作物试验研究中经常出现的统计方面的问题进行了阐述,如对试验设计和统计分析重视不够,试验计划不完善,将统计的显著水准视为固定的标准,忽视方差分析的前提条件,滥用回归分析,对重复测量数据的分析不合理,对统计的表达不恰当等。并对部分问题提出了相应的解决办法。
试验设计;统计分析;问题;农作物
国内外科技界普遍认为,SCI数据库所收录的科技论文质量高,数据可靠,值得信赖,然而,其中的一些论文仍然存在试验设计和统计分析方面的问题。有学者从具有极高影响因子的 SCI期刊中选取 49 篇文章,其被引次数均超过 1000 次,发现其中 33%的论文所报道的结果经不起时间和实践的检验[1]。更有甚者,美国波士顿 Tufts 大学医学院的 John Ioannidis 撰文,从统计学角度证明大多数已发表的论文其研究结果是错误的[2]。究其原因,很多情况下是因为试验设计或统计分析出了问题。高水平的 SCI论文尚且如此,我国的情况如何呢?张亘稼[3]采用类型抽样法,从 CNKI 中选取较有影响的100 种科技期刊,进行统计方法误用方面的调查,发现农林类期刊论文中误用率最低为 9.4%,最高达27.5%,平均为 18.45%。此仅仅是该学者独自进行的统计方法方面的错误调查,如果邀请一个专家小组对试验设计和统计分析错误进行全面调查,错误率和错误的严重程度估计会更高。
著名统计学学家胡良平教授经过多年审读期刊文稿和参与科研成果评审后得出结论:“在国内已发表的医学研究成果中,从科研设计、统计分析到结论都正确的很难寻觅”[4]。纵观已发表的科技论文,从试验设计、数据收集、统计分析,到结果的解释和所下结论等环节,都能找出破绽,有的会出现实质性的问题,如结论错误[5]。笔者曾阅读过农作物方面的科技论文近6000篇,亲自审阅稿件3000余篇,发现论文中最多、最严重的是试验设计和统计分析方面的问题。某些科技论文因为试验设计不妥或统计方法不对,所得结论很难令人信服。
出现此情况的原因是多方面的,其中,有两点最为突出:一是随着计算机统计软件包的普及,尤其是窗口式统计软件包如 SPSS,DPS 等的广泛运用,给广大科技工作者带来了极大的便利,但同时也带来了巨大的潜在危险和问题。因为我们使用这些窗口式软件时,往往忽视了统计方法必须满足的前提条件和数据特点,只是将数据输入计算机,盲目运行程序,这样计算出来的结果,往往是不可信的,有时甚至是错误。二是某些试验设计和统计分析教科书质量本身不是很高、远离实际应用。统计学本身是一门很难的课程,涉及的理论较深、范围较广,学完了统计课程后往往不会解决实际问题,这在硕士和博士研究生中大有人在,甚至一些拥有博士头衔的统计学教师都不会进行合理的试验设计或数据分析[4]。
为了更好地进行科技创新,充分利用统计学知识完善农作物类试验设计和数据分析,使研究结论尽量趋于完善合理,符合逻辑,尽量减少统计方面的错误,笔者就容易出现的7个方面的统计问题进行概述。在随后的系列文章中,笔者将对这些问题和解决办法进行详细讨论。
1 轻视试验设计和统计分析在科学研究中的作用
进行科学研究时,我们根据前提条件,结合试验数据,也就是论据,通过论证,得出符合逻辑的结论,发现规律。在这个过程中,只有正确合理的试验设计、数据收集和统计分析,才能作出科学的推断。统计学作为科研的必备工具,使我们头脑更清醒、智力更超常、眼睛更明亮、手段更有力。如果缺乏统计学知识,忽视统计学在科学研究中的地位和作用,或者误用统计方法,所得到的结论往往没有说服力,会经不起时间的考验[1],甚至是错误的,这样就造成了人力、物力和时间的巨大浪费。
目前,在农作物类研究中一些科技人员整天忙于各种会议、应酬、项目申报和鉴定,不能静下心来进行认真的思考和研究,工作浮躁,往往轻视试验设计和统计分析在科学研究中的作用。试验施行时,缺乏试验设计;试验结束后,无法进行统计分析。有的学者试验结束后未进行统计分析,单凭数值的大小进行直观比较[6],做出差异显著的结论,这是缺乏统计学意识的突出表现[7]。
另一个普遍现象是虽然做了正确的试验设计和统计分析,但他们在描述结果时,完全抛开了统计结果,武断地认为处理A比处理B好,虽然方差分析和多重比较结果表明他们之间并无显著差异。有的不进行多重比较,或者多重比较方法不正确,尤其是比较复杂的多因子全因素试验,许多学者只进行主处理间的多重比较,忽视因子间交互作用的多重比较,裂区试验不知道如何进行主区因子或付区因子、以及他们之间的交互作用的多重比较等[8]。
更有甚者,一些学者在进行农作物试验时,往往为了赶季节,准备不充分,未进行合理的试验设计,试验过程中虽然收集了大量的数据,试验结束后才发现不知资料应该如何进行统计分析。事实上,前面的环节如试验设计、数据收集等错了,后期根本无法进行正确的统计分析。这种现象在农作物试验中很普遍。当然,要做好试验设计和统计分析对科技工作者是一个较大的挑战。因为其所涉及的内容较多,统计理论较深奥。国外许多研究机构尤其是农业和医学方面的机构,都有专门的统计学专家负责协助进行试验设计和统计分析。作为合格的科技工作者,我们应该树立正确的统计思想,充分利用正确的统计学知识,进行合理的试验设计和数据分析,保证所得结论的科学性。
2 缺乏完善的试验计划
为了保证科学研究的客观性和严谨性,我们需要投入大量的时间和精力,运用专业知识,充分考虑统计方面的要求,制订详尽的试验计划,为数据收集和统计分析打好基础。设计一个良好的试验计划实际上是一项难度较大的工作,其中试验设计又是试验计划的核心,因此,做好试验设计至关重要。国外有学者曾引用亚伯拉罕.林肯的格言:“如果有8小时砍树,就用 6小时磨斧子”。然而,目前一些学者对试验设计的不够重视,所做的设计不合理,主要表现在以下方面。
2.1 违背“随机原则”
统计分析都依赖于某种统计分布(如 t分布),而绝大部分分布函数最基本的假设条件就是变量是随机的。只有随机,我们才能获得误差的无偏估计,消除其他非试验因素所带来的误差[9],从而进行正确的统计推断。设计试验时,如果对试验单元(如小区)不进行随机化,就违背了统计检验的基本条件,所得结果就会缺乏理论根据。
遗憾的是,一些科技人员进行试验时,小区排列仍然采用顺序或对比排列设计,使试验结果的可信度大大降低。个别学者对随机化原则不理解,或者虽然了解但因嫌麻烦不认真执行,甚至为了提高论文的录用率,随便冠以随机化的字眼,这样就失去了科学研究的真正意义。因此,在进行试验设计时,我们应该从统计学的角度认真做好随机化的工作。比如,采用合理的排列方式(完全随机、随机区组等),将处理组合指定到某个试验单元(如,小区)时,采用随机数字表或者计算机生成随机数字来完成[9]。
2.2 试验未设重复
除极个别的探索性试验外,试验都要求设重复,用来估计试验误差,减少试验误差和消除非试验因素的影响。如果试验不设重复,从一个试验单元得到的结果有可能是偶然因素造成的,无法验证。从操作层面上讲,如果试验没有重复,统计分析也无法进行,只能进行简单的直观比较。
目前,在农作物类试验中,不设重复的现象仍然存在,需要引起注意。有些学者不设试验小区重复,在同一小区进行重复取样,并将其等同于“小区重复”,这是完全错误的。重复取样只是重复测量,与试验所要求的重复有着本质的区别。重复取样根本不能取代试验设计所指的小区重复。
2.3 违背“唯一差异原则”
唯一差异原则是指除了处理因素有区别外,其他非试验因素要尽量保持一致[10]。否则无法区分处理效应和非试验因素所带来的干扰。如,某学者进行玉米喷施钼肥试验,以不喷为对照,设一个喷钼处理。由于喷钼时同时也喷洒了水。如果天气干旱,我们就无法分清到底是钼肥还是水,或者是二者一起产生的效果。若将对照改为喷等量的水,就不会混淆了。因此,在进行试验设计时,要坚持“唯一差异原则”。
3 把传统的统计显著水准视为固定的标准
统计学上通常将 α= 0.05、0.01、0.001 作为显著性水准,以此来界定某几个样本是否属于某特定总体,或处理之间是否有显著差异等。可能是受教科书的影响,许多学者把这3个显著水准当成固定的标准,这是不可取的。当初 Fisher选用 0.05、0.01、0.001 这 3 个水准时,完全是出于对这 3 个数字方便的考虑,没有特定的科学依据。由于某种原因,就通过教科书和科技期刊一直沿用下来并成为“固定的标准水准”了。
统计分析的基础是概率论,而统计结论的理论依据是小概率事件。如果得出的概率为≤4%,表明该 2 个样本来自于同一个总体的可能性≤4%,也就是说有≥96%的可能性这 2 个样本所属总体不同,由此推断他们之间存在显著差异。一般地,p值越小,就越有理由认为差异越显著,但并不是说小概率事件就不发生。在进行假设检验和统计推断时,存在犯 I型错误(如处理 A与处理B事实上没有差异,但统计检验的结果显示处理A与处理B有显著差异)或 II型错误(如处理 A 与处理 B 事实上有差异,但统计检验的结果显示处理A与处理B没有显著差异)的概率,因此,具体标准定在 0.05 还是其他值,应结合专业知识,根据具体情况具体对待。实际上,对于某些涉及公共安全或金融方面的统计检验,我们可以把临界值 α 定的很低,如 0.005。
4 忽视方差分析等的前提条件
方差分析在农作物试验中应用广泛,遗憾的是,很多学者在进行方差分析时并没有检查方差分析所需要的前提条件,例如,一元方差分析要求样本是独立的,数据为正态分布且为计量数据,方差相等(齐性)等[11-13]。
目前,由于统计软件的使用比较方便,一些学者往往未事先检验方差分析的前提条件,直接将数据输入计算机,数秒后出来一大堆结果,但这些结果很可能是错误的。
需要注意的是,方差分析对正态性的要求,是针对各处理水平的,即要求某特定处理水平所包含的所有重复的数据为正态分布,不是针对整个试验数据的。对于一个单因子5水平完全随机试验,我们需要保证所有5水平的数据均为正态分布。
如果数据不满足方差分析的前提条件,我们应当进行数据转换。如果转换后仍然不满足,我们只能做非参数检验了,如 Mann Whitney 检验[9,13]。具体检验方法笔者将在后续文章中详细介绍。另外,要分清数据类型。如方差分析、t检验、多重比较等主要是针对计量定量资料的,计数资料和定性资料应采用卡方检验等[10,13]。对于非参数统计,他们中的许多方法假设条件简单,不需要是正态分布。可以用他们进行序数、计数、比例、比率、分类等数据类型的统计分析[13]。
目前,显著性检验方法选择不当甚至错误是首当其冲的问题[12],可以通过咨询统计专业人员或参考相关书目来解决。
5 滥用回归分析
随着统计软件的推广,人们可以非常方便地进行回归分析。一些学者事先不做散点图,任意地将2组或多组数据输入计算机,立即获得回归方程和各种参数,有的甚至连p 值是否小于 0.05 都不检查,只要决定系数超过 0.5,就认为回归方程合理。实际上,如果考察散点图,就会发现某些情况下自变量和因变量之间的关系并不明显,或者并不是我们所想象的直线关系,有的甚至呈一圆盘状。此时,我们不能为了早出成绩、多出成绩,勉强凑合建立这种回归模型。许多毫无联系的数据,通过计算机运行后,计算机都会拟合某种方程,尤其是数据量大的情况,但此并不代表他们之间有真正的统计学或专业意义。
建立回归模型时,首先要考察变量间是否真正存在专业意义上的关系,然后绘制散点图,如果各散点图呈圆盘状时,说明2变量无关,不必进行回归分析[14]。如果变量间相关,应根据变量的数据特征和分布,采用不同的建模方法[15]。例如,只有当因变量为连续性定量变量、方差相等、相互独立、且为正态分布时,我们方能进行简单线性回归或多元回归分析[13];如果上述条件满足,但自变量之间存在多重共线性时,我们可以进行主成分回归或岭回归分析[13]。如果因变量为二值或多值名义变量、多值有序变量,我们可以进行多重 logistic 回归分析或 Probit 回归分析[13,15]。如果因变量为计数资料,我们可以进行 Probit 回归或 Poisson 回归。一些学者往往不顾数据特征,盲目进行回归是不妥的。
在多元回归分析中,很多学者使用逐步回归方法来选择自变量,但国外有学者[16]主张在任何时候都不要使用该方法,主要是因为许多情况下自变量并不相互独立,存在多重共线性现象,使用逐步回归方法所得到的模型只对本套数据有效,如果将所得模型运用到新数据进行预测时往往失败。SAS,SPSS 等软件已经开发了新的模块来避免此问题,如在 GLMSELECT 程序里,可以使用 LASSO 或LAR 等方法进行自变量的筛选[13]。
对于重复测量所得的同一个自变量或因变量数据,进行回归时,我们往往取平均值进行建模,这样就人为地降低了试验误差,更可惜的是损失了大量有用的信息。此时应该按具有重复测量数据的回归方法进行分析[13-14]。
对于异常值,一些学者在进行回归分析时,往往不仔细观察和分析散点图,通过计算机直接运行程序,造成所得模型基本上由某一个异常值所控制的现象,这种回归模型肯定是没有任何意义的。当然,我们不能随便舍弃可能的异常值,要结合专业知识和通过统计手段,进行综合判断。遇到此种情况时,建议使用 SAS 的 ROBUSTREG 程序或其他软件的相应程序进行处理[13]。
对于具有层次结构特征的数据的处理[17-19],也应该引起重视。例如,在我国,由于气候、人文(如饮食习惯、口味偏好)等条件存在地域差异,不同地域的烟民对同一卷烟的感觉不同,因此,我们研究感官质量时,宜建立二水平模型[19]。在过去,由于受统计手段的限制,人们常常对多水平数据进行不适当地简化处理,仅当成单层数据进行分析。欧美国家上世纪 80 年代中后期发展起来的多水平模型分析技术,可有效处理传统多元统计方法难以分析的问题[17-18]。
6 对重复测量数据的分析不合理
农作物常常需要进行多点或多年试验,对某些观察值进行重复测量记载。在分析此类数据时,有些学者只是按各地点或年份进行单独分析,或者取平均数进行分析,如按完全随机或随机区组等设计进行统计分析,也有的学者把地点或时间当成一个因子,按照裂区设计进行统计分析,这些都是不可取的。
多年或多点试验数据之间有可能存在相关性,SAS、SPSS、Stata 等统计软件有专门的程序和统计方法对此进行统计分析[13],如 SAS 的混合模型[12]。如果这些数据在空间或时间上相互独立,我们可以采用一些参数或非参数的统计分析方法对其进行分析;如果数据在空间或时间上相关,可以采用区域化变量分析[20](regionalized variable analysis)和时间序列分析方法进行分析。具体分析方法笔者将在后续文章里详细阐述。
对于重复测量数据,我们面临簇内协方差矩阵的问题。通常利用 SAS 或 SPSS 的 GLM 模块进行处理,检查球对称性条件,如果需要,调整误差自由度并对重复测量因子进行统计检验。这在以前是标准做法。最近,SAS等软件为我们提供了更好的统计方法,通过使用混合模型分析协方差结构,进而选取最佳模型。对于连续型变量,我们可以利用SAS 的 MIXED,NLMIXED 和 GLIMMIX 程序进行分析;对于离散数据,可以采用 GENMOD,NLMIXED 和 GLIMMIX 程序进行分析[13]。
7 对统计的表达不恰当
统计表达最常见的错误之一是将统计显著性与专业术语上的差异程度混为一谈。一些学者认为,统计分析所得p值越小,差异就越大,此完全是错误的。p值仅表示统计意义的大小,并不表示数据间的差异大小。数据达 5%显著差异,如,所得 p 值≤0.03,此表示从概率的角度讲,有≥97%的可能性此2组数据确实不是来自于同一个总体,有差异,但有≤3%的可能性他们来自同一总体,没有差异。如果所得 p 值≤0.003(达 1%极显著水准),表示有≥99.7%的可能性此 2 组数据不是来自于同一个总体,有差异,但有≤0.3%的可能性他们来自同一总体,没有差异。此与2组数据究竟差异多大没有一点关系!为了避免歧义,建议用“差异有极显著意义”、“差异有显著意义”代替“差异极显著”、“差异显著”等说法。最近也有学者建议将“显著意义”(significant)改为“非偶然的”更贴切[21]。
对于计量资料,多数学者一概用算术平均数来衡量数据的平均水平。其实,只有当数据为正态或对称分布时,才宜用算术平均数;如果数据呈偏态分布,用中位数更合适[10]。如果描述离散趋势应用四分位数间距等[7]。
很多学者用“平均数±标准差”来表示试验结果,殊不知这种表示主要用来表达呈正态分布的资料,说明其数据分布的集中和离散趋势。如果数据本身呈偏态分布,此就不能表示其数据分布的集中和离散趋势了。有的学者将标准差与标准误混淆,用“平均数±标准误”来表示数据分布的集中和离散趋势是不妥的,因为“平均数±标准误”反映的是样本均值与总体均值的接近程度。
在科技论文和试验报告中,许多作者对所使用的方法和过程的描述过于简单,对所采用的试验设计类型(如完全随机、随机区组、裂区、全因子设计等)[22],重复次数,所使用的具体统计方法,假设检验所使用的检验水准等,都没有交代清楚[10]。尤其是室内试验,往往缺乏对试验单元排列方式的描述。对于复杂的统计模型,也未对变量进行定义或过程进行说明,只是笼统地提及用何种软件进行统计分析,让读者无法判断结果的正确性[9]。
在统计图上添加误差线(Error Bar)得到了广泛的运用,误差线的长度表示标准差的大小,说明其数据分布的集中和离散趋势。然而,如前所属,此种表示必须以数据为正态分布为前提,否则不妥。另外,如果原始数据存在成簇(clustered)现象,如重复测量数据,所计算得到的误差线会长一些,会引起误解。
8 结 语
对于广大科技工作者来说,要全面、正确地掌握统计学,并合理运用到作物类科研中,是一项极富挑战性的任务。我们不可能掌握所有的统计学知识,但要充分认识统计学在科研中的重要地位和作用,在统计专业人员的协助下,尽量减少试验设计和数据分析方面的错误。笔者在此对农作物试验中常常出现的问题进行了概述,在后续文章中,将针对这些问题进行更为详细的说明,并探讨确实可行的解决办法。
[1]蒋文. 临床研究结果面临时间的考验[J]. 中国医学论坛报,2005,31(27):1.
[2]Ioannidis J P A. Why Most Published Research Findings Are False [J]. PLoS Medicine, 2005, 2(8): e124.
[3]张亘稼. 略论科技期刊论文中统计方法的误用[J]. 中国科技期刊研究,2012(3):413-415.
[4]胡良平. 科研设计与统计分析:怎么强调都不过分[J].科技导报,2008,26(18):99
[5]胡良平. 在医学科研和医学写作中如何正确运用统计学[J]. 中国骨肿瘤骨病,2002,1(3):157-159.
[6]刘起业,刘洪祥,刘中庆,等. 烤烟新品种鲁烟 2 号的选育及其主要特征特性[J]. 中国烟草科学,2014,35(1):1-6.
[7]苏虹,朱启星. 科研资料统计分析的常见问题[J]. 安徽预防医学杂志,2004(2):126-129.
[8]闫伸,符云鹏,景沙沙,等. 豫中烟区烤烟移栽期和成熟度与质体色素及降解产物的关系[J]. 中国烟草科学,2014,35(2):43-48.
[9]张建军. 科技论文中 的 统 计问题[J]. 中国比较医学杂志,2008(11):77-79.
[10]韩维栋,党少农. 科技论文中常见的统计学问题及解决意见[J]. 中国编辑,2009(5):47-49.
[11]高辉,胡良平,金松华,等. 常见试验设计定量资料统计分析错误辨析[J]. 中西医结合学报,2008,69(9):979-982.
[12]王书亚,谭颖波,王云亭. 医学科研论文中实验设计和统计分析内容的正确表述[J]. 中国科技期刊研究,2005(1):116-118.
[13]SAS Institute. SAS 技 术支 持[EB/OL]. [2014-11-20]. http://support.sas.com/techsup/.
[14]胡良平. 医学科研与新药评价等工作中一个不可忽视的问题—轻视和误用统计学[J]. 军事医学科学院院刊,1996,20(3):202-205.
[15]UCLA Statistical, Consulting-Group. What statistical analysis should I use?[EB/OL]. [2014-11-20]. www.ats.ucla.edu/stat/mult_pkg/whatstat/default.htm.
[16]Thompson B. Stepwise regression and stepwise discriminant analysis need not apply here: A guidelines editorial[J]. Educational and Psychological Measurement, 1995, (55): 525-534.
[17]吴晓云,曾庆,周燕荣. 多水平模型的最新进展[J]. 数理医药学杂志,2003,16(2):152-154.
[18]李佳萌. 多水平模型及其在卫生领域的应用[J]. 中国慢性病预防与控制,2007(5):514-515.
[19]杨建云,张天栋,朱东来,等. 多水平模型在区域环境卷烟感官质量评价中的应用[J]. 西南农业学报,2013(6):2514-2521.
[20]Virk D S, Witcombe J R. Evaluating cultivars in unbalanced on-farm participatory trials[J]. Field Crops Research, 2008, 106(2): 105-15.
[21]杨锦忠,宋希云. 单一响应变量统计分析在烟草学研究中应用的若干问题[J]. 中国烟草学报,2014(4):108-114.
[22]杨锦忠,宋希云. 烟草学术论文的统计学表达与展示[J].中国烟草学报,2013(4):114-118.
Seven Problematic Areas of Design and Statistical Analysis in Crop Experiments
ZHANG Jiuquan1,2,3, SU Yirong2, HUANG Yilan3,4, ZHANG Ying3,4
(1. Tobacco Research Institute, Chinese Academy of Agricultural Science, Qingdao, 266101, China; 2. Institute of Subtropical Agriculture, Chinese Academy of Sciences, Changsha 410125, China; 3. University of Chinese Academy of Sciences, Beijing 100049, China; 4. Sanming Tobacco Company of Fujian Province, Sanming, Fujian 365000, China)
Correctness of experimental design and reasonability of statistical analysis influence the correctness of the results when conducting scientific experiments. Currently, statistical issues in crop study have caused much negative influence to scientific and technological innovation in China. We describe the problematic areas which occurred frequently when conducting crop experiments, which includes ignoring experiment design and statistical analysis, lack of study planning, placing importance on study results only when p values are less than .05, indiscriminant application of regression and analysis of variance, issue with repeated measurement data, and improper statistical expression, and suggest some resolutions to some of the problems, so that the related researchers can improve their research ability, make better use of statistics, and increase the efficiency of scientific and technological innovation.
experimental design; statistical analysis; problem; crop
S572
1007-5119(2014)06-0098-06
10.13496/j.issn.1007-5119.2014.06.020
中国烟草总公司面上项目“土地整理后土壤养分变化与修复及烤烟变量施肥技术研究”(2013-149)
张久权,男,副研究员,主要从事烟草信息和栽培方面的研究。E-mail:zhangjiuquan@caas.cn
2014-08-10