APP下载

经历系统的数据处理过程在解决实际问题中发展数据分析素养

2021-05-25程海奎章建跃

数学通报 2021年4期
关键词:样本量平均数方差

程海奎 章建跃

(1.河北师范大学数学科学学院050024;2.人民教育出版社 课程教材研究所100081)

统计以数据为研究对象,利用概率论进行数学建模,通过收集整理所观察对象的数据进行量化分析,进而作出推断和预测,为决策提供依据和参考.统计中提供的“运用数据进行推断”的思想方法已成为现代社会的一种普遍使用且强有力的思维方式,统计无处不在、无所不用.高中必修课程中的统计主要学习收集数据的方法,解决单变量的统计问题(样本估计总体).本单元要通过一些典型案例,使学生经历数据处理的全过程,熟悉统计的基本思想方法,逐步形成统计观念,养成尊重事实、用数据说话的态度,在解决实际问题中发展数据分析素养.

1 课程定位

课程标准对概率统计的定位为:概率研究的对象是随机现象,为人们从不确定性的角度认识客观世界提供重要的思维模式和解决问题的方法.统计的研究对象是数据,核心是数据分析.概率为统计的发展提供理论依据.

课程标准指出,本单元的学习,可以帮助学生进一步学习数据收集和整理的方法、数据直观图表的表示方法、数据统计特征的刻画方法;通过具体实例,感悟在实际生活中进行科学决策的必要性和可能性;体会统计思维与确定性思维的差异、归纳推断与演绎证明的差异;通过实际操作、计算机模拟等活动,积累数据分析的经验.课程标准强调,统计的教学应通过典型案例进行,引导学生经历系统的数据处理全过程,学习数据分析方法,理解数据分析的思想,运用所学知识和方法解决实际问题;要注重利用计算器、计算机进行模拟活动、处理数据,帮助学生更好地体会统计思想.

2 内容与要求

1.获取数据的基本途径及相关概念

(1)知道获取数据的基本途径,包括:统计报表和年鉴,社会调查,试验设计,普查和抽样,互联网等.

(2)了解总体、样本、样本量的概念,了解样本数据的随机性.

2.抽样

(1)通过实例,了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法:抽签法和随机数法.会计算样本均值和样本方差,了解样本与总体的关系.

(2)通过实例,了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.结合具体实例,掌握分层随机抽样的样本均值和样本方差.

(3)在简单的实际情境中,能够根据实际问题的特点,设计恰当的抽样方法解决问题.

3.统计图表

能够根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.

4.用样本估计总体

(1)结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.

(2)结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.

(3)结合实例,能用样本估计总体的取值规律.

(4)结合实例,能用样本估计百分位数,理解百分位数的统计含义.

与初中的统计课程相比较,本单元的内容有些是初中没有的,例如分层抽样、分层抽样样本均值和样本方差、百分位数等,有些是初中就有的,但有不同的要求.例如,对总体、样本等概念,要求在结合具体问题进行描述性说明的基础上,适当引入严格定义;了解数据的随机性,了解样本和总体的关系等.这样的课程设计,体现了统计这个内容独特性.

3 本单元的认知基础分析

在初中阶段,学生学习了随机抽样的必要性、简单随机抽样方法、用统计图表整理和表示数据,了解了平均数、方差等数字特征的意义及计算,学习了简单的统计推断以及用统计方法解决实际问题等,这些知识经验为学习本单元知识打下了一定的认知基础.不过,初中数学课程对统计的要求不高,总体、样本等概念仅仅是描述性,学生对样本数据的随机性,样本均值、样本方差等数字特征的随机性还缺乏认识.在高中阶段的统计学习中,要结合实际问题,利用信息技术,使学生能够对样本估计总体效果的评价、样本容量对估计精度的影响、以及估计结果的解释等有新的认识,对平均数、中位数、百分位数、方差、标准差等数字特征,也要借助更加丰富的实际背景进行更深入的理解,在提高认识水平的基础上,能够用于解决实际问题.

4 核心内容的理解与教学思考

下面重点就随机抽样、总体、样本的概念,数字特征的刻画方法,百分位数的概念及应用,分析内容的本质及其蕴含的统计思想,讨论教学中需要注意的问题.

4.1 随机抽样、总体、样本的概念

用统计方法解决实际问题,要明确研究对象的范围是什么?关心的指标是什么?这些指标是数值指标还是属性指标?将这些指标统称为变量,通过随机抽样得到变量的一些具体值(样本观测数据),计算样本数据的特征值,由此估计总体的特征,最后提出决策与建议.因此,统计学习首先要抽象总体和样本的概念.课程标准指出:对统计中的基本概念(如总体、样本、样本量等),要结合具体问题进行描述性说明,在此基础上适当引入严格定义.

4.1.1 总体和样本的概念

我们将总体直观描述为研究对象的全体, 组成总体的每个对象称为个体.在实际问题中,我们往往关心调查对象的某些指标,这些指标大致可分为数量指标和属性指标.例如,学生的身高、居民家庭月用电量、空气污染指数等都是数量指标;性别、近视或不近视、等级成绩等都是属性指标.进一步地,还可以把总体描述为全体个体的指标值,更一般地,将总体抽象为一个变量X(随机变量),称其为总体变量.

从总体中按照等概率原则抽取的部分个体称为样本.一次抽样实际上得到的是一组个体指标值x1,x2,…,xn,称为样本观测值.由于随机抽样要满足抽到每个个体概率相等,在相同的样本量下,重复抽样得到的样本观测值不会完全相同,因此样本具有随机性.样本的严格定义是:

对总体变量X的n次观测X1,X2,…,Xn,满足独立同分布(与X具有相同的分布).

在教学中,不必追求概念的严格性,只要对研究的实际问题,能明确研究对象的范围以及考察的指标变量即可.例如,研究某中学全体学生的身高分布情况,范围是该中学全体学生,指标变量为身高.如果研究全体学生的近视情况,指标就是取值为近视和不近视两个值的属性变量.

4.1.2 随机抽样

根据总体的规模和结构特点,有很多种抽样方法.课程标准要求了解简单随机抽样和比例分层抽样,简单随机抽样又分为有放回随机抽样和不放回随机抽样.不论哪种抽样方法都要满足每个个体被抽到的概率相等,这是为了保证统计推断不会产生系统性误差.

关于随机抽样的必要性,初中已有了解,具体的抽样方法属于操作性知识,不难理解.为了发展学生的数据分析素养,教学中要引导学生思考下面的问题.

(1)不同的抽样方法的适用范围及优缺点是什么?

有放回和不放回随机抽样,适用于总体规模和样本量都较小的情形.有放回随机抽样的优点是:各次抽样的结果互相不受影响,便于进一步统计分析,也便于计算机模拟实现;缺点是产生极端样本的可能性较大.比较而言,不放回随机抽样同一个体不会被重复抽到,产生极端样本的可能性要小,但各次抽样结果之间不独立,统计分析要困难一些.

比例分层抽样适合于总体包含多个子类,同一类中个体的变量值差异较小,但不同类之间个体的变量值差异较大.分层抽样可以避免极端样本的产生,在实际中也便于实施,是最常用的抽样方法.

(2)如何认识和理解估计结果的不确定性?如何评价估计的效果?

以样本均值估计总体均值为例,为了理解样本均值的随机性(不确定),可以就相同的样本量,进行重复多次抽样,观察这些样本均值是否相同,样本均值波动幅度的大小,以及和总体均值的关系.

首先看一个极端例子:

四名学生A,B,C,D的身高构成总体, 其中A,B为女生,C,D为男生.h(A)=156cm,h(B)=160cm,h(C)=170 cm,h(D)=174cm,随机抽取2名学生,用样本平均值估计总体的身高的平均值.总体4个身高的平均数为165cm.

采用有放回抽样,共有16种等可能的样本.如表1所示,有八分之一的可能出现极端样本(156, 156),(174,174),由极端样本计算的样本平均数与总体平均数偏差很大.

表1 有放回抽样的16种等可能样本

采用不放回抽样,有12种等可能的样本,如果不考虑顺序,可合并为6种等可能的样本,不会出现上述极端样本.

比例分层抽样,只有4种等可能的样本(156, 170),(156, 174),(160, 170),(160,174). 样本平均数与总体平均数都比较接近.

样本均值的波动情况如图1所示:

图1

三种抽样方法的样本均值都围绕总体均值波动,直观看, 波动幅度越大,表示估计的误差较大的可能性也较大.定量评价估计的效果,是比较在相同限定误差下的概率大小.例如,限定误差为2,比较样本均值落在区间[163, 167]的概率p,如表2所示.

表2

可以看到,用样本估计总体,不放回抽样效果好,但放回抽样方便统计分析,如何解决这个矛盾?实际上,当样本容量远小于总体容量时,两种抽样方法差别很小.

(3)样本容量的大小对估计结果的精确性有什么影响?

用样本估计总体,由于样本的随机性,估计的结果也具有随机性,误差是不可避免的.一般地,样本量越大,估计的效果也越好.如何描述样本容量对估计结果的影响呢?在高中阶段,概率知识还不足以支持进行严格的描述,可以结合具体问题,采用计算机模拟重复抽样,借助于统计图的直观来认识.

问题某中学高一年级学共有700名学生,其中男生360人,女生340人.全年级学生的平均身高为165.0 cm.用简单随机抽样的方法,从这些数据中分别抽取容量为25和100的样本各10组,分别计算出样本平均数,绘制统计图如下(图2):

图2

定性分析:观察图形发现样本均值围绕着总体均值波动,且具有随机性,但没有系统性偏差;样本量为100的样本均值的波动幅度明显小于样本量为25的.结论是:增加样本量使误差较小的可能性增大.但就一次抽样而言,样本量大的平均值未必一定比样本量小的平均值误差小.

定量分析:我们知道方差可以描述一组数据的波动大小,分别计算10个样本均值的方差.通过方差的大小,比较两组样本均值的波动大小.

容量为100的10个样本平均数方差明显要小,所以波动也小.

4.2 数据集中程度、离散程度的刻画

1.对数字特征的理解

用样本推断总体是最重要的统计思想.统计估计和假设检验是两种基本的推断方法, 估计内容包括用样本数字特征估计总体特征.

描述数据特征的量称为统计量,按其作用可分为以下几类:

(1)描述数据集中趋势的量:平均数、中位数、众数、百分位数.

(2)描述数据离散程度的量:方差、标准差、极差等.

(3)描述两组数据关系密切程度的量:相关系数.

其中,平均数、百分位数和方差是最重要的统计量.表3给出了这些统计量的意义、各自的优缺点及适用范围.

表3 各种统计量的意义、优缺点及适用范围

2.对数字特征认识的层次性

对于平均数和方差,学生在初中已有初步认识.如何在初中的基础上引导学生进一步理解它们的意义和优缺点,掌握它们的适用范围,这是教学中需要认真思考的问题.下面通过具体案例进行说明.

案例1对平均数认识的几个层次.

随着学生年龄增长、学习的深入,他们对平均数的认识层次也在不断提升.

(1)初中阶段:平均数是将数据之间的差异抹平后得到的一组数据的代表值,反映这组数据的整体水平.平均数作为一个度量性概念,主要用于不同总体某个指标的比较.一组数据的平均数定义为

(2)高中阶段:要求理解样本平均数与总体平均数的关系,用样本平均数估计总体平均数,理解样本平均数的随机性.根据频率分布表或直方图近似计算平均数,由多个样本平均数计算总平均数.

作为拓展,在教学中还可以引导学生讨论如下性质:

这一性质揭示了平均数是一组数据与其偏差平方和最小的代表值,同时也说明方差的特殊性.证明中用到的平方和分解的方法,在统计分析中具有广泛应用.

换一个角度看,就是用最小二乘法估计参数的思想.

例如,假设某段公路的长为a(未知参数),n次测量的数据为x1,x2,…,xn,根据测量数据,如何估计参数a?

(3)大学阶段:大学《数理统计》课程中,大数定律严格描述了样本均值与总体均值(数学期望)的关系.

假设X是总体随机变量,X1,X2,…,Xn是取自总体的一组样本(看成独立同分布的随机变量),且E(X)=μ,D(X)=σ2,则

样本均值的期望等于总体随机变量的期望,说明样本均值估计总体均值无系统误差,而样本均值的方差随着样本容量的增大而减小,即波动幅度越来越小,逐渐稳定到总体均值.频率稳定到概率是其特殊情形.

案例2构建一组数据的方差的过程.

这里的目标是构建一个统计量,用于描述一组数据相对于其平均数的离散程度,其基本思路和调整过程大致可以概述如下:

另外,还有如下问题需要解决:

(6)如果要比较两组均值不等数据的离散程度,或者要消除量纲的影响,该怎么做?

(7)为什么有时用方差

根据要刻画的数字特征的意义,从直观想法出发,逐步进行修正,是构造统计量的常用的思想方法.构造描述成对数据的相关系数、估计回归系数时的偏差平方和、独立性检验的统计量都用到这种思想.

4.3 百分位数的概念及应用

总体百分位数的估计是新增加的内容.根据课程标准的要求,这一内容的教学也要结合一些典型的案例,使学生经历系统的数据处理全过程.具体而言,就是要从实际问题出发,通过收集数据,构建百分位数进行数据分析,并用样本推断总体,做出决策.

中位数是一个反映数据集中趋势的量,也就是50百分位数,它是一个描述数据中间位置的量.在实际中,仅用中位数反映数据的特征信息量还不够,需要将中位数推广到任意的百分位数.先看下面的实际问题.

问题某市政府为了减少水资源的浪费,计划对居民生活用水实施阶梯水价制度,即确定一户居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望80%的家庭能享受平价,如何确定a?

如果能获得全体居民月用水量数据,然后确定一个数值a,使得不超过a的数据占80%,那么问题得到解决.但实际中很难获得全部数据,可以通过随机抽样得到一组居民月用水量的样本数据x1,x2,…,xn,然后确定一个值,使得样本中不超过的数据占80%,然后用估计a.

对于任意的n以及任意的百分数p%, 如何给百分位数下个确切的定义呢?能否仿照中位数的定义进行直接推广呢?

由于中位数太特殊了,直接推广有难度,先看下面的两种特殊情形.

(1)有重复数据的情形:测量10名同学的身高数据(单位:cm)如下:

165 168 170 172 172 175 176 176 176 180

10个数据由小到大排列的第8个数和第9个数都是176,如果把176作为80%分位数,这10个数据中小于或等于176的数至少占80%(90%),而大于或等于176的数至少占20%(40%).

(2)n×p%不是整数的情形:测量8名同学的身高数据(单位:cm)如下:

165 168 170 172 172 175 176 178

8×80%=6.4,取第7个数176作为80%分位数,这 8个数据中小于或等于176的数占87.5%,而大于或等于176的数占25%.

对上面问题进行归纳,给出百分位数定义:百分位数是位于由小到大排列的一组数据中某一百分位置的数值,一般用Pp表示.它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.显然50%分位数P50也就是中位数.

根据定义,可得计算一组数据百分位数的方法.

(1)由原始数据确定百分位数.

第1步 按从小到大顺序排列原始数据;

第2步 计算i=n×p%;

第3步 若i不是整数,而大于i的比邻整数为j,则Pp为第j项数据;若i是整数,则Pp为第i项与第(i+1)项数据的平均数.

(2)由频率分布表估算百分位数.

表4是根据100户居民月用水量整理的频率分布表,试估计月用水量样本数据的80%分位数P80.

表4

由累计频率列看到,月用水量在13.2 t以下的居民用户所占比例为77%,而月用水量在16.2 t以下的居民用户所占比例为86%.因此,第80百分位数位于[13.2,16.2]内,这个区间长度为3,其中分布的数据占9%,假设数据在区间内均匀分布,可得

由特殊到一般,可以得到估算百分位数的一般公式.

其中,Lmin为百分位数所在组的下限,s为组距,m%为小于Lmin的频率.

注意:对总体的百分位数的概念在高中不做要求,对有限总体,可以理解为全体个体对应指标值的百分位数.可使用Excel中的函数PERENTILE.EXC计算百分位数.

5 教学建议

(1)注意初、高中内容的衔接

学生在初中已经学习过一些统计知识,本单元是在此基础上的进一步学习.与初中的统计比较,本单元有些内容是新增的,有些内容则是内容相同但要求不同.例如,对于抽样方法,初中只要求了解简单随机抽样方法;高中除了要求了解简单随机抽样,还要求了解分层随机抽样,并要求会设计恰当的抽样方法解决问题.对于简单随机抽样,高中不但要求了解它的含义及其解决问题的过程,还要掌握两种实现简单随机抽样的方法.又如,在初中只要知道方差可以刻画数据的离散程度,并会计算简单数据的方差;但高中需要理解方差的统计含义,对方差定义的合理性有所体会,会结合实例计算分层随机抽样的样本方差,以及会根据具体问题选择恰当的特征数(标准差、方差、极差)刻画数据的离散程度.因此,准确把握本单元的教学要求,除了要认真研读课程标准和教科书,还需要了解初中的统计内容和要求.

(2)从统计的整体看局部的统计方法

一个统计问题的完整解决包括从收集数据到获得结论的一系列过程,而具体的统计方法往往是针对某个具体环节而言的.只有使学生在较为系统的数据处理过程中学习统计方法,才能理解其目的和本质.例如,抽样目的是为了估计总体,研究抽样方法是为了有效地抽取样本,从而更好地估计总体.只有在估计总体这个大目标下,才能体现出简单随机抽样的概率合理性,分层随机抽样的必要性.又如,画频率分布直方图的目的是为了观察样本数据的分布规律,进而估计总体的分布规律.因此组数多少应以是否有利于观察数据的分布规律以及估计总体的分布规律为标准.

(3)在问题解决过程中培养数据分析素养

针对研究对象获取数据,运用数学方法对数据进行整理、分析和推断,形成关于研究对象的知识,这是高中统计需要重点培养的素养.数据分析素养的培养需要在具体问题的解决中逐渐形成.本单元的教学,应结合典型案例,引导学生根据实际问题的需求,选择不同的抽样方法获取数据,理解数据蕴含的信息;根据数据分析的需求,选择适当的统计图表描述和表达数据,并从样本数据中提取需要的数字特征,估计总体的统计规律,解决相应的实际问题.对统计中的基本概念(如总体、样本、样本量),应结合具体问题进行描述性说明,在此基础上适当引入严格的定义,并利用数字特征(平均数、方差等)和数据直观图表(直方图、散点图等)分析数据.

(4)合理使用信息技术

信息技术既是现代统计的组成部分,也是统计学习的有效手段.因此,在统计教学中,必须加强信息技术的使用,这不仅是为了提高教学的效率,同时也是为了更好地体现统计的学科特点.例如,绘制频率分布直方图涉及数据的分组、频率的计算、图形的绘制等大量工作,用统计软件可以快速绘制出不同组距和组数的直方图,节约重复计算、机械性操作的时间,从而把更多的精力花在直方图信息的提取上;又如,平均数、方差等特征数的计算,在学生已经知道如何计算的前提下,统计软件的使用就可以大大节约时间,进而把更多的精力花在理解特征数的统计含义上.在中学阶段,信息技术最大的优势在于可以实现随机模拟,它使大量重复试验成为可能,可以让学生直观观察、体验样本的随机性和规律性,了解样本和总体之间的关系,弥补没有理论基础的不足.教学中,应鼓励学生尽可能运用随机模拟的方法,更好地体会统计的思想.

猜你喜欢

样本量平均数方差
医学研究中样本量的选择
概率与统计(2)——离散型随机变量的期望与方差
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
方差越小越好?
计算方差用哪个公式
不一样的平均数
方差生活秀
关注加权平均数中的“权”
平均数应用举隅