随机抽样,为何偏差太大?
2019-03-27王森
王 森
(作者单位:江苏省海安市李堡镇初级中学)
抽样调查是常用的调查方式之一,但随机抽取样本有一定的原则,若抽取时太过随机,有时会使样本的代表性失真,这时需要进行“干预”,以便使随机抽取的样本更有代表性,让抽样调查更能反映总体的情况。以下面两例分析随机抽样造成偏差太大的原因,并提出一些改进建议。
例1 小明同学为了调查全市初中生人数,对自己所在城区人口和城区初中生人数作了抽样调查:城区人口约3万,初中生人数约1200。全市人口实际约300万,为此他推断全市初中生人数为12万。但市教育局提供的全市初中生人数约8万,与估计数据有很大偏差。请你用所学的统计知识,帮助他分析造成很大偏差的原因。
【解析】由抽样调查的原则知小明同学这次抽样仅选取了城区人口,不能很好地代表全市人口,所以估计的初中生人数与实际人数有较大差距。其错误原因是抽样没有代表性,没有考虑城区与农村两种区域代表。
例2 小刚、小强和小颖住在同一小区中,在学习了“数据的收集与整理”后,他们用不同的方法调查了解所在小区中小朋友的年龄情况:小刚调查了当天在院子里玩耍的小朋友,情况如图1;小强调查了他所居住的二单元的小朋友,情况如图2;小颖调查了每个单元一楼的两家住户家中小朋友的年龄,数据如下:
3,16,14,15,17,8,4,6,9,7,17,12,2,13,6,5,12,14,3,15,5,16,1,1(单位:岁)。
图1
图2
这个小区中小朋友的年龄情况到底如何?你认为谁的调查方式好一些,为什么?如果你去调查的话,有没有更好的方案?
【解析】这个小区中小朋友年龄在0~7岁比例最多,14~17岁占比第二,7~14岁的小朋友占比最少。
三个人中,以小颖的调查好一些。原因如下:小刚调查的范围只是当天在院子里玩耍的小朋友,在特定时间段与特定的地点(院子里)去进行这样的调查时,抽样一般不具有代表性;而小强调查的只是住在二单元的小朋友,对象较少,不具有广泛性;相对来说,小颖调查的效果较好。
解后回顾:为使样本更具代表性,这个问题的抽样还可以进一步优化,比如我们在调查前应认真规划好抽样的方案,应用抽签法对不同单元、不同楼层进行调查,体现样本抽取的随机性、代表性和广泛性。