科技论文中平均差、标准差、标准误和误差线的正确使用
2013-07-11王海科
王海科
(郑州大学学报编辑部,河南 450001)
在科学研究过程中,常常需要对试验结果进行统计分析,平均差(Average deviation)、标准差(Standard deviation)和标准误(Standard error)是数据分析中经常用到的3个统计量。在科研结果的整理和论文写作过程中,如何正确合理的应用平均差、标准差与标准误也是常常碰到的问题。本文从中国知网随机抽查2011-2012年度使用excel进行数据处理和作图的100篇自然科学领域的论文,调查论文图表中对标准差、标准误和误差线的使用情况及应注意的问题进行讨论。
一、平均差、标准差的区别
2010年两小麦新品种在不同地区的株高(表1)
计算说明,不论是用标准差还是平均差,都说明对于不同地区来说,甲品种比乙品种的株高稳定性好。
虽然标准差和平均差都说明了观测值之间的离散程度,但是在某些情况下,对于同一套数据进行计算,二者却得出不同的结论。我们仍以小麦两品种在不同地区种植的株高数据为例来进行说明。
2011年两小麦新品种在不同地区的株高(表2)
南阳75 80郑州80 82洛阳80 80 85 90平均株高( -x)
二、标准差、标准误的区别
标准差S与样本均数()同时用,可以对正态或近似正态分布的总体正常值范围进行估计。一般±1.96S表示双侧95%正常值范围,±S表示双侧 68%正常值范围,+1.65S或-1.65S表示单侧95%正常值范围等,只有在正常值范围估计时才使用±S。当正态分布的样本容量太小(小于30或100),或者数据与正态分布相差很大时不宜用±S估计正常值范围。标准误(S-x)是主要描述小样本试验中,样本容量相同的同质的多个样本均数()间的变异程度的统计量,标准误的计算公式是适用于正态或近似正态分布的数据。即如果一个试验进行多次重复,可获多个,它们之间的变异程度用表示。可知越小,的变异就越小,越稳定估计总体均数就越可靠。科技论文中,为说明-x的稳定性、可靠性,应当用±描述数据。与一起使用还能够给出正态总体均值的可信区间估计,常用±t0.05(n- 1)表示总体均值的95%可信区间,表示总体均值有95%的把握在所给范围内〔其中t0.05(n-1)为样本容量,是n的t界值〕。
三、标准差与标准误的正确使用
科技期刊上不断出现有标准差和标准误的错误使用,这严重影响了科技文章的科学价值和学术水平。为使科学研究者熟知这一知识,使各类科技期刊在交流中能统一标准,正确使用标准差和标准误,需要了解两者的联系和区别。标准差和标准误既有密切的联系,又有显著的区别,标准差描述了观测值个体间的变异,即个体差异,表示观察值间波动的大小,标准差小,表示观察值围绕均数的波动较小,反之波动则大[1-2]。如在一项农业研究中,某小麦品种甲20株株高平均为82.7cm,其标准差为7.12cm,这种情况下,约68%的小麦株高数值将落在平均数上、下各一个标准差内,95%的数值将落在平均数上下各1.96个标准差内,99%的数值将落在平均数上下各2.58个标准差内。这一特点使标准差成为表示观测值个体间离散程度的最好方法。这些数据不仅使研究者知道品种甲株高的集中趋势,同时还能清晰的知道品种甲株高95%的数值将落在68.5~96.9cm之间。又假如小麦品种乙20株株高平均值为80cm,其标准差为6.98cm,品种乙的标准差小于品种甲,说明品种乙株高观察值围绕均数的波动较小,该平均值更能作为所有观测值的代表。标准误是说明统计量的抽样误差,即样本统计量与总体参数的离差程度[3]。比如在进行小麦株高的调查研究中,研究者不可能调查所有对象,而是仅研究一小都分作为代表性样本,从这一样本所得出的株高平均数是所有对象的真正株高平均数的估计值之一,同理还可以算出第二、第三个样本均数。从理论上讲可以计算出全部可能样本的平均数,这些所有可能样本株高平均数的标准差既是平均数的标准误。由此可见,标准误并不能象标准差那样指示观察数值的变异范围,而是指示一个样本均数在估计真正总平均数时的误差,即说明样本均数这一变量值离散程度的指标。标准误常用于比较两样本均数相差的显著性检验,即研究两组计量资料的均数间有没有显著差别。上面例子中要考察两品种的株高平均值是否有显著差异,就需计算±t0.05,看品种乙株高平均值80cm是否落在该范围内,如果落在该范围内就说明两品种的株高平均值无显著差异。由此可见,标准差与标准误虽然都是反映变异程度的指标,但是两者属于不同的统计学概念。标准差描述的是样本中各观察值间的变异程度,而标准误表示每个样本均数间的变异程度,描述样本均数的抽样误差。在论文的表格中总结数据时,宜把均值、标准差和标准误均列出来,以便读者根据这两个值分别了解观测值的离散程度和样本均值与总体均值之间的离散程度。
四、误差线的正确使用
由于实验设备的精度有限,以及实验人员自身的限制,实验中经常会出现误差。要在图表中准确表述数据,应该在每个数据点上添加误差线。误差值是根据这些已知因素计算出来的,应该作为数据记录的一部分包括在图表内。误差线指示每个数据点的误差(或不确定性)范围,显示潜在的误差或相对于系列中每个数据标志的不确定程度,以更加准确的方式呈现数据。通常在统计或科学数据中,正确使用误差线可以使读者清楚每个数据点的可能范围,提升文章影响力,促进学术交流。
本文从中国知网公布的自然科学期刊中,选择2011年到2012年发表的文章中随机抽查100篇作误差线使用情况调查,在抽查的100篇含有误差线的论文中,有63篇中的误差线表示的是标准差,有23篇中的误差线表示的是标准误,有14篇论文的图上显示了误差线,但未告知误差线表示的意义。在标注误差线意义的86篇论文中,有54篇是在图注中标注了误差线的意义,另外32篇是在文中解释了误差线的意义,但未在图注中标注。误差线的表示使用标准差、标准误或者1.96倍的标准差等都是可以的,但一定要标注出来,一般杂志都会要求在图注中标注,另外从读者的习惯上来说,研究人员阅读文献的量都会比较大,在时间紧迫的情况下会优先阅读摘要和图、表等,如果在图注中找不到相应的标注,就要去文中去寻找,这就无形中增加了阅读文献的负担,因此作者最好在图注中把需要标注的项目都标注上。从调查的文献中给出两个例子,借以说明如何更好准确地使用误差线,具体见图 1[4]、图 2[5]。
图1 柱状图中误差线使用
图2 折线图中误差线使用
图1属于柱形图中误差线的标注,黑色柱子影响了误差线的标注效果。所以,一般情况下,如果是柱形图一般只标注正误差,因为如果柱形图的颜色是深色的话会掩盖误差线,或者同时有几个柱的话就会使误差线叠加而看不清,因此只标注正误差就可以了。图2属于线形图误差线的标注,可以看出,如果是线形图等可同时显示正、负误差线。误差线除了显示了观测值的离散程度(标准差)和样本均值与总体均值之间的离散程度(标准误)外,还可以在拟合趋势线时看趋势线是否超出合理的误差范围,根据此来选择合适的趋势线。
[1]崔党群.生物统计学[M].北京:中国科学技术出版社,1994.
[2]李春喜,姜丽娜,邵云,王文林.生物统计学[M].北京:科学出版社,2005.
[3]徐克学.生物数学[M].北京:科学出版社,2002.
[4]柴强,杨彩红,黄高宝.交替灌溉对西北绿洲区小麦间作玉米水分利用的影响[J].作物学报,2011,37(9):1623-1630.
[5]阴启蓬,胡锋,徐莉,李辉信,井永苹,李伟明,李露.不同土培条件下荧蒽在水稻和小麦中的分布特征[J].农业环境科学学报,2012,31(8):1467-1474.