用样本分布估计总体分布
2017-12-07陈忠
陈忠
用样本分布估计总体分布是从样本分布状况的角度分析总体的规律,涉及的内容有图表和数字特征. 其中图表包括频率分布表及直方图、折线图、散点图、茎叶图. 数字特征包括平均数、中位数、众数、方差、标准差等. 考纲对这部分内容的要求是识图、读图和估计. 本文将通过几个实例分析这类题型的解法.
数据特征
例1 为评估一种农作物的种植效果,选了[n]块地作试验田.这[n]块地的亩产量(单位:kg)分别为[x1],[x2],…,[xn],下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A. [x1],[x2],…,[xn]的平均数
B.[x1],[x2],…,[xn]的标准差
C.[x1],[x2],…,[xn]的最大值
D.[x1],[x2],…,[xn]的中位數
解析 刻画评估这种农作物亩产量稳定程度的指标是标准差.
答案 B
点评 众数:一组数据出现次数最多的数叫众数,众数反应一组数据的多数水平. 中位数:一组数据中间的数(起到分水岭的作用),中位数反应一组数据的中间水平. 平均数:反应一组数据的平均水平. 方差:反映和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小),并把它叫作这组数据的方差.在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定.标准差是方差的算术平方根,意义在于反映一个数据集的离散程度.
频率分布表及频率分布直方图
例2 某手机卖场对市民进行国产手机认可度的调查,随机抽取100名市民,按年龄(单位:岁)进行统计的频数分布表和频率分布直方图如下. 求频率分布表中[x,y]的值,并补全频率分布直方图.
解析 由图知,[P(25≤x<30)=0.01×5=0.05],
故[x=100×0.05=5].
[P(30≤x<35)]=1-(0.05+0.35+0.3+0.1)=1-0.8=0.2,
故[y]=100×0.2=20.
图中缺失部分:[频率组距=0.25=0.04](画图略).
点评 用样本估计总体是统计的基本思想,而利用频率分布表和频率分布直方图来估计总体则是用样本的频率分布去估计总体分布的两种主要方法. 频率分布表在数量表示上比较准确,频率分布直方图比较直观. 频率分布表中的频数之和等于样本容量,各组中的频率之和等于1;在频率分布直方图中,各小长方形的面积表示相应各组的频率,所以,所有小长方形的面积的和等于1.
例3 某大学艺术专业400名学生参加某次测评,根据男、女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图.
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)上的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解析 (1)根据频率分布直方图可知,样本中分数不小于70的频率为[(0.02+0.04)×10=0.6].
所以样本中分数小于70的频率为[1-0.6=0.4].
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意知,样本中分数不小于50的频率为[(0.01+0.02+0.04+0.02)×10=0.9],分数在区间[[40,50)]上的人数为[100-100×0.9-5=5].
所以总体中分数在区间[[40,50)]上的人数估计为[400×5100=20].
(3)由题意知,样本中分数不小于70的学生人数为[(0.02+0.04)×10×100=60],样本中分数不小于70的男生人数为[60×12=30].
所以样本中男生人数为[30×2=60],女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生的人数比例估计为3∶2.
点评 利用频率分布直方图求众数、中位数和平均数时,应注意三点:①最高的小长方形底边中点的横坐标即为众数;②中位数左边和右边的小长方形的面积和是相等的;③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
折线图
例4 某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
解析 观察折线图知,每年7月到8月折线图呈现下降趋势,月接待游客量减少,选项A错误;折线图整体呈现出增长的趋势,年接待游客量逐年增加,选项B正确;每年的接待游客量7,8月份达到最高点,即各年的月接待游客量高峰期大致在7,8月,选项C正确;每年1月至6月的月折线图平稳,月接待游客量波动性更小,7月至12月折线图不平稳,月接待游客量波动性大,选项D正确.
答案 Aendprint
点评 折线图能比较明显地反映数据的变化趋势.折线图是频率分布直方图的近似,但它比频率分布表更直观、形象地反映了样本的分布规律.
茎叶图
例5 某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下.
A地区: 62 73 81 92 95 85 74 64 53 76
78 86 95 66 97 78 88 82 76 89
B地区: 73 83 62 51 91 46 53 73 64 82
93 48 65 81 74 56 54 76 65 79
根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
解析 两地区用户满意度评分的茎叶图如图.
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
点评 由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似. 它优于频率分布直方图的有两点:(1)从茎叶图中能看到原始数据,没有任何信息损失;(2)茎叶图便于记录和表示. 其缺点是当样本容量较大时,作图较烦琐. 利用茎叶图对样本进行估计时,要注意区分茎与叶,茎是指中间的一列数,叶是从茎的旁边生长出来的数.
散点图
例6 为了研究某班学生的脚长[x](单位:厘米)和身高[y](单位:厘米)的关系,从该班随机抽取10名 學生,根据测量数据的散点图可以看出[y]与[x]之间有线性相关关系,设其回归直线方程为[y=bx+a].已知[Σi=110xi=225,Σi=110yi=1600,b=4,]该班某学生的脚长为24,据此估计其身高为( )
A. 160 B. 163
C. 166 D. 170
解析 由线性回归方程为[y=4x+a,]
则[x=110Σi=110xi=22.5,y=Σi=110yi=160.]
则数据的样本中心点(22.5,160).
由回归直线方程样本中心点得,
则[a=y-4x=160-4×22.4=70.]
所以回归直线方程为[y=4x+70.]
当[x=24]时,[y=4×24+70=166.]
则估计其身高为166.
例7 下面的4个散点图中,两个变量具有相关关系的是( )
[③④][①②]
A. ①② B. ①③
C. ②④ D. ③④
解析 由图可知:①是一次函数关系,不是相关关系;②的所有点在一条直线附近波动,是线性相关关系;③不具有相关系;④在某曲线附近波动是非线性相关关系. 所以两个变量具有相关关系的是②④.
答案 C
点评 散点图一般用来判断相关关系或者进行线性回归分析. 线性回归分析时,要注意样本点不一定在回归直线上,但样本点的中心[(x,y)]一定在回归直线上.endprint