关于算术平均数计算方法的思考
2017-05-05袁胜波
袁胜波
【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089(2016)34-0167-02
平均分析的方法在整个统计方法体系中占有十分重要的地位,很多统计分析方法都以平均分析为依托。譬如动态分析,指数分析,抽样估计,回归分析等等,无一不与平均分析相关联,具有基础性作用。而算术平均数又是所有平均数里面最为基本最为重要的一种平均数。但一直以来,在统计学教科书的编写上,对于算术平均数计算方法的阐述,却存在较大的弊端,以至于对教学产生了不利影响。
一、算术平均数是否存在“基本公式”?
几乎所有的统计教材都会在具体介绍算术平均数的计算方法之前,先给出一个算术平均数的基本公式,即:算术平均数=标志总量/总体总量。可以举出许多例子,说明算术平均数的计算符合这个基本公式。譬如,三个学生的身高分别为1.7m,1.6m,1.5m,身高的算术平均数=总身高/总人数=Σx/n=(1.7+1.6+1.5)/3=1.6m。符合“基本公式”。如果在已分组(变量数列)条件下,譬如有30名学生的身高资料:
身高(m.) 人数(人)f. 组中值x. 总身高xf
1.5~1.6 10 1.55 15.5
1.6~1.7 18 1.65 29.7
1.7~1.8 2 1.75 3.5
Σ 30 — 48.7
30名学生身高的算术平均数=Σxf/Σf=48.7/30=1.62m。不管是未分组或是已分组,不管是简单算术平均数或是加权算术平均数,都是用总身高比总人数,符合“标志总量/总体总量”这一“基本公式”的算法。
但只要稍加推广,这个“基本公式”并不“基本”,并不具备任何普遍意义,计算上存在很大的局限性,实际上只适用于对绝对数计算平均数。比如上面学生身高就是绝对数,平均身高的算法就符合所谓基本公式的算法。如果平均的对象即各单位变量值是对相对数或平均数,这个基本公式就不适用了。譬如,三个班的学生考同一科的及格率分别为90%,85%,80%,求平均及格率。这是对3个单位的3个相对数计算平均数,这个时候能不能用“标志总量/总体总量”?回答显然是否定的。首先,不能计算标志总量。因为三个单位的变量值是相对量,不是绝对量,不具有可加性;其次,总体总量为3,这个3也不能加入计算。即不能把3个百分比相加除以3得到3个班的平均及格率。再譬如,3个班考同一科的平均成绩分别为90分,85分,80分,求总平均成绩。这是对3个单位的3个平均数计算平均数。同样,不能将3个平均成绩相加除以3得到总平均成绩。3个单位的变量值是平均量,不是绝对量,不能相加得到标志总量。总体总量3也不能加入计算。所以,这个所谓基本公式,原本就没有广泛的适用性。
二、统计教材未能就算术平均数的计算方法阐述清楚
阐述方法先从概念入手。一般教材都把平均数的概念表述为变量值的一般水平。这固然是正确的。但这还不够,还应当进一步指出,变量值的数值形式是多种多样的,可以是绝对数,也可以是相对数,还可是平均数本身。平均数不是基本的统计指标,它是各种各样的统计指标的代表值。它可以是绝对数的代表值,如此3个学生的平均身高,也可以是相对数的代表值,比如3个班的平均及格率,还可以是平均数的代表值,比如3个班的总平均成绩。这正是统计教材阐述算术平均数时所缺失的内容,从而导致了理解和掌握算术平均数的困难。
在统计教材里面,一般都先使用对绝对数计算平均数的例子引出简单算术平均数和加权算术平均数的计算公式,然后再举一个已分组(变量数列)条件下对相对数计算平均数的例子。以下就是最常见的例子:
计划完成 企业数 计划数. 组中值. 实際数
(%) (家) (万元)f. (%)x (万元)xf
80~90 5 1000 85 850
90~100 15 10000 95 9500
100~110 10 8000 105 8400
Σ. 30 19000 - 18750
30个企业的平均计划完成程度=总实际数/总计划数=Σxf/Σf=18750/19000=98.7%。每当编写到此,编者都要给读者指出一个“重要问题”,即:“此处存在一个权数选择问题,似乎企业数可以作权数,实际上不能作权数,只能将计划数作权数”等等。编者似乎忘记了或者回避了前面已经交代过的算术平均数的“基本公式”。但到底是什么原因不能用“基本公式”去计算这30个企业的平均计划完成程度?为什么这里的企业数不能作权数加入计算,而要用计划数作权数加入计算?从来都没有一个使人信服的说法。这就使读者产生很大的疑惑,甚至是一头雾水:到底按不按“基本公式”计算?“基本公式”还有没有用?这就无形中加大了统计学的教学难度。
纵观林林总总的统计教材,在阐述算术平均数的部分,几乎都普遍存在几个奇怪的现象:其一,几乎所有编者都一成不变的这样写,从来没有花样翻新;其二,几乎所有编者都去举例说明在已分组条件下对相对数计算平均数,都不去举例说明在已分组条件下对平均数计算平均数;其三,几乎所有编者都不涉及在未分组条件下对相对数或平均数计算平均数,比如上面所举3个班的及格率的平均数,3个班的平均成绩的平均数。似乎原本就不存在这样的问题,这是很让人匪夷所思的事情。
三、在统计学中,应当如何阐述算术平均数的计算方法?
(一)应当彻底摈弃算术平均数的“基本公式”。正是这个所谓基本公式的存在和一直沿袭,产生了严重的误导作用,导致了算术平均数计算方法的教学困惑和迷茫。
(二)应当按平均对象的数值形式(绝对数,相对数,平均数)分别介绍算术平均数的计算方法。
先阐述对绝对数计算平均数。阐明两点:其一,对绝对数计算平均数的确存在一个统一的计算公式,即:标志总量/总体总量。其二,在未分组条件下使用简单算术平均数的方法,在已分组条件下使用加权算术平均的方法,各组次数(频数或频率)就是权数。显然,开始就用对绝对数计算平均数的例子引出简单算术平均数和加权算术平均数的公式,比较浅显易懂。
再阐述对相对数或平均数计算平均数。阐明两点:其一,对相对数或平均数计算平均数,无论是否已分组,都不能采用简单算术平均法,要采用加权算术平均法。比如,对前面3个班及格率计算平均数,不能简单相加除以3,要用3个班的参考人数作权数加权平均。因为及格率的计算,无论是各个班计算,或是将3个班合起来计算,都是用及格人数比参考人数。同理,3个班的总平均成绩的计算,同样要用3个班的参考人数作权数加权计算。没有权数,就不能计算平均数。其二,对相对数或平均数计算平均数,不存在统一的计算公式。由于相对数和平均数都是派生指标,要根据具体的相对数和平均数本身的算法去计算。因为平均数是平均对象的代表值,平均的结果不能摆脱平均对象的本来属性。比如上面计算的平均计划完成程度98.7%,其本身仍然是一个计划完成相对数,只不过是30个企业的计划完成程度的代表值。各个企业的计划完成程度是用实际数比计划数,把30个企业合起来计算一个计划完成程度,也同样是用总实际数比总计划数。因而,在已分组条件下,必然要用各组计划数作权数加权平均。假如给出的是未分组资料,即给出30个企业的计划完成百分比,也不能采用简单算术平均的方法,把30个百分比相加除以30。所以,作为总体总量的30个企业,原本就不能加入计算。因此,就不存在权数的“选择问题”。再譬如,有30个企业生产同一种产品,给出的是按单位成本分组的资料,要计算30个企业的平均单位成本。这是在已分组条件下对平均数计算平均数。各组的产量自然是权数。因为单位成本的计算,无论是各个企业计算,或是30个企业合起来计算,都是总成本比总产量。作为总体总量的30个企业不能加入计算,同样不存在“权数的选择问题”。
以这样的思路去阐述算术平均数的计算方法,或许更为合理更为准确,对教学更为方便。
随着经济快速发展和社会全面进步,统计学的运用越来越广泛,尤其是即将到来的大数据时代,更需要人们掌握和运用各种各样的统计方法和技能,以适应时代的要求。同时,统计学也必然迎来前所未有的发展机遇,统计方法的研究和创新有着更为广阔的空间,对于统计学里面一些带基础性的方法问题更有必要澄清和理顺,这正是本文的初衷。