生物统计学在农科专业数据分析中的应用
2018-11-29
(青海大学农牧学院,青海 西宁 810016)
农业是国民经济的基础,农业生产是人类以生物为生产对象,生产出能满足人类自己生活需要的活动。社会的发展为农业生产提出了更高的要求,农业生产要以高产优质、低消耗以及不对环境产生污染为目标。农业生产的对象农业生物既受到自身生长发育规律的影响,同时还受到自然环境因素、社会环境因素等许多随机因素的影响,表现为各种各样的随机现象。这些都需要用生物统计进行优劣比较、综合选优、聚类分析、预测和预报。生物统计学是一门应用统计学的原理和方法来研究生命科学的学科,是从数量方面揭示大量随机现象中存在的必然规律的学科,是概率论与数理统计在生物领域的应用,是农业生产过程中进行农业试验的田间试验与统计分析课程的完善提高。它在实践中的应用十分广泛,是农业学科定量化的重要分析理论与方法,是农业学科人员应具备的基本知识和素质,是联系农业理论与农业生产的桥梁与纽带,是验证农业专业理论是否正确的重要方法。随着农业科学专业化、精准化的飞速发展,只有定性的结论已不能满足实践的需要,实现农业科学结论定量化是人们长期追求探索的目标。
一、农业试验及农科专业数据的特殊性
(一)农业试验对象的生物学性及农业试验数据的误差性较大
农业试验是以农业生物(农作物、牲畜、园艺植物、林木等)及其相关伴生生物(昆虫、病菌、土壤微生物、杂草等)为研究对象的试验。以生物体本身生育过程的反应作为试验指标研究有关生长发育的规律、某些因素的规律及某些技术的效果等,这是农业试验的重要特征。生物体往往是一个具有多种遗传变异的群体,不可控因素多,这就决定了试验材料本身存在产生试验误差的多种因素,从而导致农科专业数据的试验误差较大。
(二)农业试验条件的开放性及农业试验数据的误差性较大
农业试验大都是在开放的自然条件下进行的,试验环境包括多变的土壤、气候,甚至病虫等生物条件,农业试验周期较长,最后产品的指标测定要在生物的全生育期内完成。因此,农业试验的环境条件决定了产生较大误差的试验数据。
(三)农业试验统计分析的多样性
现代农业涉及面广,农业生产过程中的育种、栽培、饲养及农产品加工等农业生产活动的各个环节、方方面面,都受到诸多随机因素的影响,农业试验的具体要求也千差万别。农业试验的统计分析方法多种多样,常见的有显著性分析、相关回归分析、聚类分析、因子分析和综合评价等。
显著性分析主要是进行新品种、新技术等优劣的比较,一般只有两个处理时用T测验,多于两个处理时用方差分析。相关回归分析是研究平行因素之间的相关的密切程度及方向;因果因素之间的回归模型有直线回归、曲线回归、多元一次回归及多元多次回归等。聚类分析也称为群分析,它是研究样品(或指标、变量)分类问题的一种多元统计分析方法。现实生活中,存在大量的分类问题,随着生产力和科学技术的发展,分类不断细化,以往仅凭经验和专业知识做定性分类的方法已经不能满足实际的需要,也不能做出准确的分类,必须将定性和定量分析结合起来进行分类。因子分析包括主成分分析、判别分析等,就是在尽可能不损失信息或者少损失信息的情况下,将多个变量减少为少数几个潜在的因子,这几个因子可以高度地概括大量数据中的信息。这样既能减少变量个数,又能再现变量之间的内在联系。综合评价是指利用反映多种事物和现象动态平均变化程度的指数的计算比较,对该现象进行定量综合评价。
(四)农科内不同行业数据来源不同,数据特点不同
农业试验包括种植业、养殖业、林业、渔业、农产品加工业等,各个行业的试验得到的专业数据均有连续性数量性状数据、间断性数量性状数据和质量性状数据,但各个行业的试验对象有区别,试验数据的种类比例也有一定区别。种植业的田间小区试验较多,指标测定的连续性数量变数较多;养殖业和渔业的试验对象多为动物,质量性状数据较多一些;林业的试验对象是体积较大的树木,间断性数量性状数据较多;农产品加工业在室内试验较多,指标测定的连续性数量变数较多。数据的种类不同所需具体的分析方法也不同。
二、计算机的运用为农科专业数据的快速整理分析提供了可能
计算机硬件的迅速发展,大大提高了数字运算速度,而计算机软件的开发利用大大提高了数据整理分析的速度。现在大多数统计问题已经不需要试验者进行大量的数学运算。试验者掌握了统计学原理后,根据自己的试验设计,借助专业的统计软件就可以解决大量的计算问题,而且在试验设计上也有很大的拓展。SAS统计软件、SPSS统计软件、DPS统计软件、3414肥料试验统计软件、区域试验统计软件等,均可以解决农科专业数据的快速整理分析。通过对农业生产中随机现象的试验分析,找出农业规律,服务于农业生产。未来的生物统计学将会与信息技术密切结合,较少侧重传统数理统计,而会更多注意数据分析,尤其是大型数据库的处理。
三、农科专业数据整理中常见的问题及其解决办法
(一)合理的试验设计是获取正确试验数据的基础
不重视试验设计是农科试验中经常出现的问题。合理的试验设计是获取正确试验数据的基础,就和盖楼房先要有好的设计方案一样。设计没搞好,以后的工作就没有意义。初次搞试验的人或者工作不认真的人在试验设计时往往会出现试验因素选择不合理、水平设置不合理、试验指标选择不合理等问题。试验设计没有遵循重复、随机和局部控制三项基本原则,处理比较没有遵循“唯一差异原则”。最后导致从测定中获取的一大堆数据没有用或者没有可比性,或者说明不了什么问题,而需要的数据又没有,不利于得出试验结论。有些试验者在进行试验时没有具体的试验方案,试验实施完成后没有能力进行数据的整理分析,也没有相应的数据分析软件,造成劳民伤财的后果。所以要获取能反映实际情况的数据就必须进行合理的试验设计。合理的试验设计是根据社会需求来确定试验研究的因素和指标,根据研究因素的多少、特点以及掌握程度来确定试验设计方法。试验设计中必须遵循试验设计的重复、随机和局部控制三项基本原则。试验设计的处理比较中要遵循“唯一差异原则”。在条件允许的时候,尽量增加重复次数。
(二)试验实施过程严谨是获取准确试验数据的保证
试验实施过程不严谨是农科试验数据不准确的主要原因。严谨的试验实施过程是获取正确试验数据的保证,试验实施过程中产生试验误差是不可避免的,有些试验者不注重试验材料一致性的选择,造成处理之间的试验材料误差增大。如果田间管理和指标测定时不严谨,不按照“唯一差异原则”进行试验管理和指标测定,就会造成田间管理和指标测定时处理之间的误差增大。有的一个指标由多人测定,造成指标测定时因测定标准不一致而产生误差。所以为了减少试验实施过程的误差,在试验地块的选择、试验材料及试验地的准备,小区的面积大小、形状、重复次数、对照的设置及重复及小区的排列及保护行的设置时必须要遵循相关原则。田间管理和指标测定最好在一天完成,一天内完成不了整个试验就先完成一个重复的工作。整个试验管理和指标测定都要遵循“唯一差异原则”,尽量减少试验误差。
(三)具备基本统计知识有助于对农科专业数据进行正确的整理分析
试验者缺乏基本统计知识导致对农科专业数据不能进行正确的整理分析是数据分析中常见的问题。农科专业数据分析就是利用统计学的一些基本原理、计算公式反映试验后获取的数据的基本变化规律。由于试验者缺乏基本的统计概念、参数和统计数的计算公式及代表的意义、基本的统计分析方法的原理和步骤,从而导致对已获取的原始数据不能辨认真假,不会剔除错误的数据,不会进行数据的归类整理,更不知道如何利用相关统计软件进行统计分析。进行农科专业数据分析时必须了解指标值、观测值、总体、样本、统计数、参数、随机变量、随机变数、分布、回归、相关、聚类、综合评价等基本概念;方差分析的数据必须满足可加性、正态性和同质性的要求,T测验、回归分析等。
(四)应运用农科的专业知识指导专业数据的整理分析
试验统计分析只是解决农科专业试验问题的方法,必须具备一定的农科专业知识才能指导完成农科专业试验及其结果的统计分析。如果试验者没有农科专业知识,只是用统计的方法对数据进行整理分析,有可能得出不符合农业规律的统计结果。譬如回归分析整个区间没有规律时可以将区间分为几段,看区间内某一段有什么规律,然后组合起来。而如何分段就要求试验者要有一定的农科专业知识。试验者只有具备良好的专业知识能力,以及正确处理和分析试验数据并对试验结果做出专业解释的能力,才能对农科专业数据进行正确的统计分析,并得出正确的结论。
(五)善于利用现成的统计软件分析农科专业试验数据
当前专业人员已经普遍利用统计软件解决各行各业的统计问题,如何将试验统计分析的基础概念、公式、定理以及统计方法的基本原理与统计软件结合起来是当前统计分析上遇到的一个新问题。有了统计软件并不是不用学习统计分析原理、试验设计方法,而是要在掌握了统计分析原理、试验设计方法的基础上,在农科专业知识的指导下,灵活简便地利用相关统计软件进行农科专业试验数据分析。当前农科专业试验数据分析中的常用软件有Microsoft Office Excel、SAS统计软件、SPSS统计软件、DPS统计软件、3414肥料试验统计软件、区域试验统计软件等。
Microsoft Office Excel是Microsoft为使用Windows和Apple Macintosh操作系统的计算机编写的一款电子表格软件,计算机上均有安装,可以解决农科专业数据的整理及基础分析,但不足的是运算速度慢,统计方法不全。SAS(Statistical Analysis System)是由美国North Carolina州立大学1966年开发的统计分析软件,主要通过语言命令的方式对农科专业数据进行整理分析。SPSS是英文Statistical Package for the Social Science的缩写,是社会学统计程序包,20世纪60年代末由美国斯坦福大学的三位研究生研制成功,1975年在芝加哥组建SPSS总部。SPSS统计软件的特点是操作比较方便,统计方法比较齐全,绘制图形、表格比较方便,输出结果比较直观。DPS统计软件是目前国内唯一一款中国人拥有自主知识产权的统计软件,具有试验设计及统计分析功能齐全、价格适合国内用户、技术上达到国际先进水平的特点。SAS、SPSS、DPS的功能强大,主要功能有数据的采集、准备与整理,描述性统计分析,简单分析,方差分析,相关与回归分析,聚类和判别分析,因子和主成分分析,应分析,信度和尺度分析,生存分析,完全可以满足农科数据分析的需要。
(六)农科专业试验数据的比较标准不宜过高
农业试验是以生物为研究对象,在自然开放的环境中进行的试验,周期长,对试验结果的影响因素多,随机性强。比较其他人工控制性强的试验结果误差大。所以,对农科试验数据进行统计分析时比较的标准不宜过高,否则会造成已有的显著差异由于误差大而表现不出来。在试验因素内水平的设置不宜过小,否则处理之间的差异表现不出来。
四、结语
综上所述,农业科学试验在自然开放的环境中以生物为研究对象,试验误差较大。在计算机出现以前主要进行一些显著性测验,近30年以来,由于计算机技术的飞速发展,农业试验设计和统计分析有了前所未有的发展。试验者在进行农业试验设计及农科数据资料整理时,要充分考虑到试验数据误差大的特点,充分利用现有的计算机软件进行试验设计和统计分析。