如何用频率分布直方图估计样本总体的数字特征
2022-03-25李婵平
李婵平
在得到频率分布直方图后,我们常常要利用频率分布直方图估计总体的数字特征,即众数、平均数、中位数、方差和标准差.
1.众数是数据中出现次数最多的数.在频率分布直方图中,频率最大的组的中点值就称为众数.若有多个组是相邻组,且各组的频率相等,那么我们可以把这几组看成一个大组,将大组的中点值作为这组数据的众数.
2.平均数是所有数据的和除以数据总个数的值,反映了数据的平均水平.但是在频率分布直方图中,所有数据的取值并不是具体的,给出的只是某组数据出现的频率.因此,在求平均数时,我们可以取直方图中这一组数据的中点值,将其作为这一组数据的代表值,记为 xi ,并设该组内数据出现的频数为 ni ,那么这组数据的和就是nixi ,如果所有数据分布在 m 个组内,那么 i=1,2, …,m, 各组内数据的和依次是 n1x1, n2x2, …,nmxm , 所有数据的和就是n1x1+n2x2+…+nmxm ,,若数据总个数为 n ,则n =n1+n2+…+nm , 所有数据的平均数= n1x1+n2x2+…+nmxm该式可变形为= n x1+ n x2+…+ n xm , 由于第一组的频率为f1= 第二组的频率为 f2= 第 m 组的频率为fm= , 所以所有数据的平均数 =x1f1+x2f2+…+xmfm.这就是利用频率分布直方图计算平均数的公式.
3.中位数是指在按照大小顺序排列的一组数中居于中间的一个数据.若中间有两个数,则取这两个数的平均数.在频率分布直方图中,不大于中位数的数据占所有数据的一半,这些数据出现的频率是0.5;不小于中位数的数据占总数据的一半,这些数据出现的频率也是0.5.因此,如果过中位数所在的点作一条垂直于横轴的直线,那么这条直线把频率分布直方图中的矩形分成面积相等的两部分,直线左侧的矩形面积为一半,右侧的也为一半.我们可以根据频率分布直方图的这个特点,通过累计频率来求得中位数.其步骤为:第一步,将各组数据的频率计算出来,列出表格;第二步,从第一组开始累计频率,如果从第一组开始加到某一组时频率之和大于0.5,那么中位数就在这一组数据内;第三步,设中位数为 m .求出m 所在组的频率,并且根据频率等于对应组的矩形的面积,得到一个关于 m 的一元一次方程,解方程就可以确定 m 的值.
下面举例说明.
例1.一个社会调查机构就某地居民的月收入调查了1000人,并根据所得数据画出样本频率分布直方图.试根据图形,求该地居民月收入的众数、中位数、平均数.
解析:(1)求众数.由于第三组和第四组所对应的矩形高度是相同的,且这两组是相邻的,需把第三组和第四组看成一个大组,即2000~3000,并且该组的中点值为2500,即该地居民月收入的众数是2500元.
(2)求中位数.第一步,将各组的频率计算出来,并列出表格,如表1:
第二步,从第一组起累计频率,可知前三组频率之和为0.55>0.5,故可以确定中位数在第三组.
第三步,设中位数为m ,根据中位数的特点可知,数据落在[1000, m )内的频率为0.5,由于前两组的频率之和为0.1+0.2=0.3,所以[2000,m)内的频率是0.2.在频率分布直方图中过横轴上的点 m 作一条垂直于横轴的直线,可以得到数据范围[2000,m )所对应的小矩形,该矩形的面积是0.2,矩形的宽是 m -2000,高是△xi =0.0005, 所以( m -2000)×0.0005=0.2,解得 m =2400,故该地居民月收入的中位数是2400元.
(3)求平均数.第一步,将各组的频率和中点值列成表格(见表2),
于是平均数 =1250×0.1+1750×0.2+2250×0.25+2750×0.25+3250×0.15+3750×0.05=2400,故该地居民月收入的平均数是2400元.
4.方差反映数据相对于它的平均数的偏离程度,方差公式是 s2=(x1-)2+(x2-)2+…+(xn -)2公式中的分子是 n 个数据 x1,x2, …,xn 分别与它们的平均数的差的平方的和,分母是数据的总个数.在频率分布直方图中,每一组数据的频数就是每一组的中点值,套用方差公式,就可以求得所有數据的方差.设n 个数据分为 m 组, m 组的频数分别是 n1,n2 , … ,nm , 则 n1+ n2+…+nm=n , 所有数据的方差 s2=n1(x1-)2+n2(x2-)2+…+nm(xm -)2把分子拆开得,s2= n (x1-)2+ n (x2-)2+…+ n (xm -)2, 由于各组的频率分别为f1= ,f2= , …,fm = , 所以 s2=f1(x1-)2+f2(x2-)2+…+fm(xm -)2, 这就是利用频率分布直方图求方差的公式,这里 x1,x2,…,xm 分别是各组的中点值,而 xˉ 是所有数据的平均数.
5.标准差是方差的算术平方根,标准差公式为
例2.求例1中该地居民月收入的标准差(保留两位小数).
解析:先求方差.由例1知该地居民月收入的平均数是 2400 元,即 xˉ= 2400, 而各组的代表数据分别是x1 = 1250,x2 = 1750,x3 = 2250,x4 = 2750,x5 = 3250,x6 = 3750,又由表1知各组频率分别为 f1 = 0.1,f2 = 0.2,f3 = f4 = 0.25,f5 = 0.15,f6 = 0.05, 因此方差 ,
再求标准差. s = s2 = 452500 ≈ 672.68, 故该地居民月收入的标准差是672.68元.
利用频率分布直方图求数据的众数、中位数、平均数及标准差,是现实生活中经常遇到的问题,这也是高考试题中经常考查的问题,解题的关键是要记住公式,明确众数、中位数、平均数、方差及标准差等数字特征的意义,并会正确套用公式进行计算.
(作者单位:陕西省神木市第七中学)