从不同角度求样本的数字特征
2022-05-23孙杰
孙杰
统计学研究的对象是客观事物的数量特征和数量关系,它是关于数据的搜集、整理、归纳分析和解释的科学,其基本思想是用样本估计总体,用样本的某种数字特征(平均数、方差等)去估计总体的相应数字特征。平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小。标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定。
一、用定義与公式求样本的数字特征
例1 袁隆平院士是中国杂交水稻事业的开创者,50多年来,他始终在农业科学的第一线辛勤耕耘、不懈探索,为人类运用科技手段战胜饥饿带来了绿色的希望和金色的收获。袁老的科研团队发现“野败”后,将其带回实验,在试验田中随机抽取了100株水稻统计每株水稻的稻穗数(单位:颗)得到如图1所示的频率分布直方图(同一组中的数据用该组区间的中点值为代表),则下列说法错误的是()。
A.a=0.01
B.这100株水稻的稻穗数平均值在区间[280,300)中
C.这100株水稻的稻穗数的众数是250
D.这100株水稻的稻穗数的中位数在区间[240,260)中
分析:利用样本的频率分布直方图估计总体的数字特征的方法:众数的估计值是最高小矩形的底边中点的横坐标;中位数的估计值将频率分布直方图分成左右面积相等的两部分;平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和。
解:根据频率分布直方图知组距为20,所以20x(0.005+0.0075x2+0.0175+a+ 0.0025)=1,解得a=0.01,A正确。这100株水稻的稻穗数平均值x=20x(0.005x210+0.0075x230+0.0175x250+0.01x 270+0.0075x290+0.0025x310)=256,可知这 100株水稻的稻穗数平均值在区间[240,260)中,B错误。由频率分布直方图知第三个小矩形最高,所以这100株水稻的稻穗数的众数是250,C正确。前两个小矩形的面积是0.25<0.5,前三个小矩形的面积是0.6>0.5,所以中位数在第三组中,即这100株水稻的稻穗数的中位数在区间[240,260)中,D正确。应选B。
点评在频率分布直方图中,众数只能表示样本数据中的很少一部分信息;样本中位数不受少数几个极端值的影响,但它仅仅利用了排在中间的数据的信息;样本平均数与每个样本数据有关,任何一个样本数据的改变都会引起平均数的改变,这是中位数、众数都不具有的性质。也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据的信息。
二、利用性质求样本的数字特征
例2 一组数据中的每一个数据都减去80,得到一组新数据的平均值是1.2,方差是4.4,则原数据的平均值和方差分别是。
分析:利用样本的数字特征的性质求解。解:由平均数和方差的定义可知,一组数据中的每一个数据都减去80,平均数也减少80,但方差不变。
因为新数据的平均值是1.2,方差是4.4,所以原数据的平均值和方差分别是81.2,4.4。
点评本题考查平均数和方差的变化特点。若原数据都乘以同一个数,则所得数据的平均数也乘以同一个数,而方差要乘以这个数的平方。
三、利用数字特征反推原始数据
例3 为了考查某校各班参加课外小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为()。
A.8
B.9
C.10
D.11
分析:本题中的样本数据较少,根据已知条件可列出方程组,通过观察和配凑找到方程组的解。
解:设这5个班级的人数分别为x1,x2,x3,x4,x5。不妨设x1由题意得x1+x2+x3+x4+x5=35,且(x1-7)2+(x2-7)2+(x3-7)2+(x4- 7)2+(x5—7)2=20。若样本数据中的最大值为11,则(x1—7)2+(x2—7)2+(x3—7)2+(x4—7)2=4,而样本数据互不相同,显然此式不成立;若样本数据为4,6,7,10,代入验证均成立。故样本数据中的最大值为10。应选C。
或者,由题意得x1+x2+x3+x4+x5=35,且(x1-7)2+(x2-7)2+(x3-7)2 (x4—7)2+(x5—7)2=20。因为5个整数的平方和是20,且这5个整数互不相等,所以只能配凑出一种结果,即(—3)2+(—1)2+02+12+32=20,所以x1=4,x2=6,x3=7,x4= 8,x5=10。应选C。
点评解答本题的关键是利用配凑法,反推原始数据。
四、巧妙构造函数求样本特征数
例4 已知总体的各个个体的值由小到大依次为2,3,3,7,a,b,12,14,17,20,且总体的中位数是11,则总体方差的最小值为()。
A.32
B.34
C.34.2
D.342
分析:数据的总体方差可由数值a,b来表示,再能挖掘到a+b=22这一条件,该最值便可借助二次函数求出。
解:
显然,当a=b=11时,g(a)取得最小值2,即f(a,b)取得最小值2。故s2的最小值为34.2。应选C。
点评本题巧妙构造二次函数,再利用二次函数的性质求出最值。
感悟与提高
已知一组数据x1,X2,x3,··,xn的平均数为x,方差为s2。若3x1+1,3x2+1,3x3+1,,3xn+1的平均数比方差大4,则s2—2的最大值为。
提示:
作者单位:江苏省盐城市时杨中学
(责任编辑郭正华)