扫描统计解题中的思维误区
2019-02-26苗子涵
■苗子涵
本文针对统计解题中常见的易错、易混、易忘的典型问题进行错解剖析,帮助大家识破命题者精心设计的陷阱,希望对同学们的学习有所帮助。
误区1:对系统抽样的特征理解不到位
例1中央电视台动画城节目为了对本周的热心观众给予奖励,要从2014名小观众中抽取50名幸运小观众。先用简单随机抽样从2014人中剔除14人,剩下的2000人再按系统抽样方法抽取50人,则在2014人中,每个人被抽取的可能性( )。
A.均不相等
B.不全相等
错解:应选A或D。
剖析:上述解法对个体的入样可能性与抽样间隔理解不透。认为由于剔除14人,被抽取到的机会就不相等了,从而错选A。由于利用了剔除后的数据计算,从而错选D。
正解:在系统抽样中,若所给的总体个数不能被样本容量整除,则应先剔除几个个体。本题应先剔除14人,然后再分组,在剔除过程中,每个个体被剔除的机会相等,也即每个个体被抽到的机会都相等。故在2014人中,每个人被抽取的可能性均为应选C。
警示:当总体容量较大,总体可以分为均匀的几个部分时,用系统抽样较为合理,当总体容量除以样本容量不是整数时,要先在总体中剔除部分个体。总体中的每个个体被剔除的机会是均等的,也就是说每个个体不被剔除的机会也是均等的,由此可知在整个抽样过程中每个个体被抽到的机会仍然相等。设在第1段内用简单随机抽样的方法确定的个体编号为a1,按照系统抽样,则抽取样本an满足(N为总体容量,n为样本容量)。
误区2:忽视分层抽样的特征
例2某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体情况,需从中抽取一个容量为36的样本,则适合的抽样方法是( )。
网课是一个更新潮的东西,它是在互联网的发展下形成的,通过网络的连接,将老师上课的视频录下来,通过视频的方式演示,还可以随时返回,重复观看。这种学习方法对现在的人来说是一种十分受欢迎的方法,尤其是在大学时期,许多学生要自学去考试考证,但又不能耽误自己平时的专业课,所以网课对他们来说就是很好的一种选择,既能随时观看,又能根据自己的时间去安排学习的时间,学习的时间长短,是很方便的,但这种学习方法需要自己有很好的自控能力,能够抵挡住外界的诱惑,专心学习。
A.简单随机抽样
B.系统抽样
C.直接运用分层抽样
D.先从老年人中随机剔除1人,再用分层抽样
错解:因为总体由差异明显的三部分组成,所以可考虑用分层抽样。因为总人数为28+54+81=163,样本容量为36,按抽样时无法得到整数,因此考虑先剔除1人,将抽样比变为若从老年人中随机剔除1人,则老年人应抽取中年人应抽取(人),青年人应抽取(人),从而组成容量为36的样本。应选D。
剖析:如果用简单随机抽样先从老年人中剔除1人,则老年人被抽到的概率显然比其他人群小了,这不符合随机抽样的特征,即每个个体入样的可能性相等。错解中明确说明“先从老年人中随机剔除1人”,这与从总体中随机剔除1人是不一样的。
正解:由分层抽样法,可知从老年人,中年人和青年人中应抽取的人数分别为应选C。
误区3:忽视频率分布直方图中的组距
例3有一容量为500的样本,把数据分成7组,它的频率分布直方图如图1所示,根据其频率分布直方图,请你估计数据落在[15.5,24.5)内的数据个数。
图1
错解:由频率分布直方图可知,数据落在[15.5,18.5)内的频率为0.054,落在[18.5,21.5)内的频率为0.06,落在[21.5,24.5)内的频率为0.075,所以数据落在[15.5,24.5)内的数据个数为500×(0.054+0.06+0.075)=94.5。故估计数据落在[15.5,24.5)内的数据个数大约为95。
剖析:上述解法忽视纵坐标所表示的意义,把纵坐标表示的数据作为频率了,其实纵坐标表示的是。若要计算频率,则需要求组距。从横坐标中明显可以看出组距为3。
正解:由频率分布直方图可知,数据分成7组,其组距为3,所以数据落在[15.5,18.5)内的频率为0.054×3,落在[18.5,21.5)内的频率为0.06×3,落在[21.5,24.5)内的频率为0.075×3。故数据落在[15.5,24.5)内的数据个数为500×(0.054×3+0.06×3+×0.075×3)=283.5,即估计数据落在[15.5,24.5)内的数据个数大约为284。
警示:利用频率分布直方图解题要注意三点:①纵坐标是,而不是频率;②频率;③小长方形的面积=频率。利用频率分布直方图可求众数、中位数与平均数:①最高小长方形底边中点的横坐标即是众数;②中位数左边和右边的小长方形的面积和是相等的;③平均数是频率分布直方图的“重心”,它等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和。
误区4:忽视方差的统计意义
例4甲、乙两种冬小麦实验品种连续5年的平均单位面积产量如表1所示(单位:t/k m2)。
表1
若某村要从中引进一种冬小麦大量种植,请给出你的建议。
错解:由题意和表1可得10。由此可知甲、乙两种冬小麦的平均产量都等于10,所以引进两种冬小麦的任一种都可以。
剖析:上述解法只对两种冬小麦的平均产量进行了比较,而忽略了对冬小麦产量稳定性的讨论。
正解:由题意和表1可得10。由方差公式可得
警示:平均数反映的是样本个体的平均水平,方差和标准差则反映了样本的波动和离散程度。对于形如“谁发挥更好、谁更稳定、谁更优秀”之类的问题,除比较数据的平均数外,还应该比较方差或标准差的大小,以作出更为公正、合理的判断。