APP下载

数据代表的选择

2008-12-23张唯一

关键词:月工资工资水平中位数

张唯一

我们知道,一个原始数据的集合包含了该数据集合的所有信息.信息的提取依赖于我们对数据的整理加工,仅仅看一看原始数据是很难提取其中的信息的.利用统计图表对一组数据进行整理和描述,可以得到数据分布的一些面貌和特征.在许多情况下,人们更感兴趣的是从一组数据中找出一些代表,即将大量的数据概括为很少的几个有代表性的数值.例如,考察某地区水稻产量,通常关心该地区的平均亩产量;要想比较同年级两个班学生身高的情况,将两个班学生一一进行比较是比不出什么结果的,往往是比较两个班的平均身高.除了平均数,中位数、众数也是统计中常用的数据的代表.作为数据的代表这三个量各有特点.

例 1 某小企业共有员工16人,月工资及相应的人数如表1所示.

(1) 指出企业月工资的平均数、中位数、众数.

(2) 请问:企业月工资的平均数能客观反映该企业的工资水平吗?

解:(1)通过加权平均数公式,求得企业月工资的平均数为

x==1 400.

从表中还容易找出,企业月工资的中位数为800,众数为800.

(2)观察表格中的数据不难发现,企业所有16个员工中,有13个员工的工资是在平均数以下的,而且大部分都是800元,大大低于平均数;只有3个员工的工资高过平均数.显然平均数1 400不能客观反映该企业的工资水平.而这里的中位数或众数800,则比平均数1 400更能客观反映该企业的工资水平.

比较该企业月工资的平均数、中位数、众数,可以发现它们不尽相同,而且平均数和中位数、众数之间的差距还很大.作为同一组数据的代表,三个量之间的差别为什么会这么大呢?选取数据集合的代表时,我们又该如何在它们中间取舍呢?下面,分别就中位数、众数、平均数的作用结合上面例子进行分析.

一组数据的中位数把数据分成同等数目的两组,一半小于等于这个数,而另一半大于等于这个数.于是将一组数据由小到大排列,数据为奇数个时,处于中间位置的数就是中位数;数据为偶数个时,则以中间两个数的平均数为中位数.可见,中位数不一定是原数据,但它很好代表了一组数据的中点,而且只要把数据按照由小到大的顺序排列,就很容易找出中位数,不需要什么计算.另外,中位数不受极端值的影响.例如,由于6 000这个数据的存在,很大程度上抬高了平均数,但是不影响中位数,甚至把6 000改为60 000,中位数还是不会变,仍是800,而这时的平均数却会变得比原来大很多.事实上,确定中位数时,仅仅利用了中间值,对其他数据则利用了它们和中间值之间的相对位置关系,而没有利用它们的具体大小这些信息.因此,仅知道一组数据的中位数而不给出这组数据时,无法知道这组数据中那些比中位数大(小)的数据究竟比中位数大(小)到什么程度.例如,如果只告知企业月工资的中位数为800,我们就没法知道比中位数大的那些工资跟800的差距有多大,也无法知道比中位数小的那些工资跟800的差距有多大.

中位数不受极端值影响,某些情况下是优点.上面例子中,中位数没有受极端值6 000的影响,比较客观地反映了企业的工资水平.

中位数不受极端值影响,某些情况下也是一个缺点.比如,税务部门调查、征收个人所得税时,则6 000这一极端值不能被忽略,仅凭中位数就很难发觉极端值的存在.

众数是指一组数据中出现次数最多(或称最典型)的数据,相对来说是三个数据代表中用得比较少的一个.众数一定是数据集合中的原数据,有时可能不止一个.找众数只需要观察原数据并进行计数,不需要什么计算.众数反映了数据的最大集中点,因此只能告诉我们这个值出现的次数比其他的值出现的次数多,但并未告诉我们它具体出现了多少次,它比其他数据出现次数多的程度有多大.例如,如果只告知企业月工资的众数是800,我们并不能知道工资是800的人具体有多少,工资是800的人比其他人多多少.和中位数一样,众数也不受极端值的影响.

平均数是所有数据相加的和除以数据的个数所得的商,是我们最常用的一个数据的代表.平均数往往不是原数据集合中的数据.平均数的计算,利用了原始数据集合中的每一个数据,因此任何一个数据的变化,都会影响平均数,而中位数和众数都不具有这个性质.因此,和中位数、众数比较起来,平均数可以反映出更多关于数据集合的信息.也正因为如此,平均数容易受极端值的影响.这在某种情况下是优点,在某种情况下则是缺点,上面例子就是一个很好的佐证.

从上面对中位数、众数和平均数的分析可以看出,它们作为数据的代表各有优缺点.要根据数据特点及实际问题选取合适的数据代表.一般地,如果数据中有极端值时,最好不要使用平均数;当小的数据与大的数据的个数大致相同时,则用平均数作为代表比较合适.如果小的数据个数明显比大的数据多,或者大的数据个数明显比小的数据多,我们最好用中位数作为代表.有时,为了决定对一个数据集合是使用平均数还是中位数,最好两者都算出来.如果它们的值很接近,则我们使用平均数;如果它们有很大的不同,则我们使用中位数.

另外,我们还可以发现,对数据的概括会使得数据高度简单化.但同时,任何简化都意味着某些信息的丢失.

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”。

猜你喜欢

月工资工资水平中位数
FDI的异质性与工资水平的空间溢出
数据的数字特征教学设计
拒不支付劳动报酬罪中农民工“月工资”的司法认定
在北方的冬天
HAIR AND NOW
中位数教学设计