APP下载

中学数学中统计内容的问题与建议

2018-12-27曹广福张蜀青罗荔龄

数学教育学报 2018年6期
关键词:总体样本教材

曹广福,张蜀青,罗荔龄



中学数学中统计内容的问题与建议

曹广福1,张蜀青2,罗荔龄1

(1.广州大学 数学与信息科学学院,广东 广州 510006;2.广州市执信中学,广东 广州 510090)

1 引言

2 统计学简史

统计学产生于17世纪的欧洲,最早用于国情调查,1662年,格朗特(John Graunt)发表了他第一本也是唯一一本手稿《基于死亡账单的自然与政治观察》(),分析了生男孩和女孩的比例.

19世纪中叶,统计学形成了两个主要的学派,数理统计学派与社会统计学派.随着概率论的成熟,为统计学的发展奠定了数学基础.19世纪中叶,比利时的阿道夫·凯特勒(1796—1874)主张用自然科学的方法研究社会现象,把古典概率论引入了统计学,使得统计学进入了一个新的发展阶段.不过凯特勒将自然科学的观点与方法机械套用到犯罪、道德等社会问题,混淆了自然现象与社会现象之间的本质区别.尽管如此,凯特勒把概率论引入统计学至少使得统计学在“政治算术”的“算术”方法基础上往准确化道路迈进了一大步,他为后期数理统计学的形成与发展奠定了基础.

社会统计学派比数理统计学派的形成稍晚一些,19世纪后半叶,德国经济学家、统计学家克尼斯(1821—1889)以及恩格尔(1821—1896)、梅尔(1841—1925)等人沿着凯特勒的“基本统计理论”继续向前发展,认为统计学是一门社会科学,是研究社会现象变动原因和规律性的实质性科学.从那时开始,数理统计学与社会统计学便形成了两个相互对立的阵营,社会统计学派认为,由于社会现象的复杂性和整体性,需要进行整体的大量观察和分析,研究其内在联系,才能揭示现象的内在规律,这就是该学派所谓“实质性科学”的显著特点.

社会统计学与数理统计学的根本区别在于前者在统计研究中以事物的质为前提,强调认识事物质的重要性,后者则不关心事物的质.

传统的统计学(也称为记述统计)通常是对所搜集的大量数据资料进行加工整理、综合概括,通过图示、列表和数字,如编制次数分布表、绘制直方图、计算各种特征数等,对资料进行分析和描述.

随着科学技术的发展,统计学的研究方法也有了很大的变化,到了20世纪,人们在搜集整理观测的样本数据基础上对有关总体做出推断,这就是所谓的推断统计.推断统计的典型特征是根据随机的样本数据以及问题的调查和假定,以概率形式表述对未知事物作出的推断,现在所谓的科学统计方法主要指推断统计.

随着社会科学与自然科学的发展,统计学与各个学科相结合,产生了五花八门的分支.从大的方面看,统计主要有3个分支:数理统计、经济统计与应用统计.美国大学的统计学设置则涵盖4个方面:生物统计、金融统计、应用统计和数理统计,有些学校下设统计系,有些学校在数学系下设统计学.中国大学统计学的设置情况与此类似,教育部在2011年的学科目录调整中统一将统计学归类到理科,但在授予学位时除了可以授予理学学位,依然可以授予经济学学位.

统计学与数学一样涉及几乎所有的自然科学与社会科学,如果将统计学进行细分,可以分出众多的方向:

(1)数理统计学;(2)经济统计学;(3)生物统计学;(4)商务统计学;(5)化学统计学;(6)数据挖掘(使用统计学和模型来发现数据中的规律和知识);(7)人口统计学;(8)数量经济学;(9)能源统计学;(10)金融统计学;(11)工程统计学;(12)卫生统计学;(13)地理统计学;(14)图像统计学;(15)心理统计学;(16)社会统计学;(17)农业统计学;(18)风险管理;(19)精算学;(20)保险学.

几乎每一个科学分支都可以与统计学发生联系,统计的范畴已覆盖了社会生活的所有领域,几乎无所不包,成了普适的方法,被广泛应用于社会科学和自然科学的各个方面.

随着社会的发展,统计的意义已经不仅局限于对已经发生和正在发生的事物进行统计,提供统计资料和数据,它还担负着一个重要使命:统计预测与统计决策,统计学也吸收了信息论、控制论及系统论的思想方法,使得其内容得到了极大的丰富.特别是计算机技术的发展使得统计数据的搜集、处理、分析、存贮、传递等过程有了革命性的变化,计算机科学已经成为统计学不可分割的组成部分.如今的统计学无论是理论还是实践的深度与广度都是过去所无可比拟的.统计学的重要性不言而喻,正如英国统计学家哈斯利特所说:“统计方法的应用是这样普遍,在我们的生活和习惯中,统计的影响是这样巨大,以致统计的重要性无论怎样强调也不过分.”

3 概率为先还是统计为先

3.1 概率与统计的逻辑梳理

中学阶段的统计该侧重于什么方面?是数理统计还是社会统计?两者无论是方法还是思想都是不同的,不把这个问题弄清楚,统计学的教学就可能不着要点,甚至带来逻辑上的混乱.一线教师不仅应该了解中学教材,更应该读一读大学教材中的相关内容,例如,可以读一读大学“概率论与数理统计”的相关内容(参见文[2]).

既然中学的统计作为数学课程的一部分,而且与概率放在一起,说明是以概率作为基础的,所以应该属于数理统计的范畴.比较好的方案是将选修2-3中的概率调整到必修3中,将必修3的统计内容调整到选修2-3,这样的调整有利于内容的连贯性与逻辑的严谨性.但有意思的是,中学数学必修3将统计放在了概率之前,而在选修2-3中又将统计放在了概率之后.也难怪在概率章节不介绍样本空间,在统计学中却讲到了抽样统计与样本概念,是不希望概念混淆?概率中的样本点与样本空间与统计中的样本值的确有所不同,也正是因为概念上有所差别,更应该加以辨别.简单地说,统计上一个容量为的简单随机样本来自某个随机变量的分布函数,即:

定义1:设是具有分布函数的随机变量,若1,2,…,X是具有同一分布函数的相互独立的随机变量,则称1,2,…,X为来自分布函数(称为总体或称为总体)得到的容量为的简单随机样本,简称样本.它们的观察值1,2,…,x称为样本值,又称为总体的个独立的观察值.

从上述定义可以看出,这里的样本值与随机试验的样本点有关但又有所不同,从随机试验的角度看,所谓总体实际上是随机试验所有可能的结果,也就是样本空间,由于随机变量是样本空间到实数域的映射,所以也把随机变量称为总体.这里的随机样本指的是个随机变量的笛卡尔积,所以也可以说随机样本是一个随机向量(1,2, …,X),且每一个随机分量都有相同的分布函数.这样说可能会让人难以理解,通俗地说,所谓随机样本就是从总体中随机抽取个样本点构成的集合.

传统数理统计的内容包括哪些呢?虽然不同的教科书在编排上有所不同,但大同小异,主要包括:样本及抽样分布(随机样本、直方图、统计量、抽样分布)、参数估计(参数的点估计、估计量的评选标准、参数的区间估计、正态总体均值与方差的区间估计、置信区间)、假设检验(正态总体均值与方差的假设检验、分布拟合检验)、方差分析和回归分析(单因素试验的方差分析、一元回归分析).

3.2 线性回归分析

研究者不主张在中学阶段介绍回归分析.事实上,线性回归方程的系数需要最小二乘法进行估计,由于涉及两个参数的估计,通常需要多元微积分的偏导数才能计算其估计公式,也就是教材中系数与的估计.某个教材是这样阐述这部分内容的.

在实际问题中,变量之间的常见关系有如下两类:

一类是确定性函数关系,变量之间的关系可以用函数表示.例如,圆的面积与半径之间就是确定性函数关系,可以用=π2表示.

一类是相关关系,变量之间有一定的关系,但不能完全用函数来表达.例如人的体重与身高有关.一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.

用怎样的数学模型刻画两个变量之间的相关关系?

身高与体重之间是一种什么关系?教材没有将本质问题揭示出来,却抛出了一个讳莫如深的问题,此后再也没回头关心过这个问题,甚至连简单的说明都没有,紧接着转向了另一个问题.

某小卖部为了了解热茶销量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对照表:

气温/℃26181310 4-1 杯数202434385064

如果某天的气温是-5℃,那么你能根据这些数据预测这天小卖部卖出热茶的杯数吗?

这个数表显然是杜撰出来的,杜撰数据本来并无不可,但至少应该有一定的生活价值.如果是某个饮料加工厂做这样的统计倒是有一定的可信度,当然样本量绝不可能是短短的6天.有哪一家小卖部会做这样无聊的事?小卖部最多每天统计一下收入了多少,不会专门去统计一个数据来进行分析.即使想估算销量,也只会估算未来几天的销量,而且如此小的样本量,凭直觉就可以判断,何须如此复杂的理论?教材为什么不针对开始时的身高与体重的关系接着往下讨论呢?例如,可以将某个学校的学生身高与体重做一个统计,哪怕是随机杜撰一个数据表也未尝不可,这样的统计要有价值得多.身高与体重问题是一个经典的问题,也有一定的社会价值.令人疑惑的是,为什么教材欲言又止地把一个有价值的问题抛出来又扔掉,转而讨论一个莫名其妙的问题?

在给出上述数表后,接着给出了散点图以及最小二乘法的概念,并给出了参数估计公式:

接下来,需要计算使(,)取得最小值的和,可以用公式

这里xy是观察数据,=1, 2, …,,其计算过程如下:

…………

的计算公式不难解释,的计算公式从何而来?教材甚至连来历都不作介绍,就这么堂而皇之地摆在那里.或许编写者像金庸笔下的武林高手一样,要学生先把“武功秘诀”背下来,待到武功修为达到一定境界后自然就会领会.问题是学生将来如果学习相关的专业,这些对于他们就是不值一提的常识性问题,如果不学习相关专业,这些就是很快就会被遗忘的毫无价值的东西,因为,他们不仅不知其所以然,甚至不知其然,如何让他们在忘记公式之后还能领会蕴含在其中的思想方法?教材用一句推导公式比较复杂,这里不作要求一带而过.这个公式的推导还真的非常简单,只是学生还没有学习多元函数微积分而已.

在选修2-3中介绍了随机误差、线性回归模型后,引出了相关系数的概念,此处也是“科普”式的处理方法,只是在“链接”中解释了相关系数为什么越接近1,两个量之间的线性相关程度越强.

纵观必修3与选修2-3中的回归分析部分,存在两个方面的问题:(1)回归分析的本质没有解释清楚,这个问题下一节会作说明;(2)原理解释不清,几乎都是“拿来主义”式的介绍,至于怎么来的一概不作解释,参数估计公式便是个典型的例子.

4 统计学教学策略

4.1 随机样本与随机抽样

教学最好做两个比较大的调整:(1)将统计移到概率之后讲授;(2)在传统数理统计基础上通俗点讲授.

也许比较合适的方案是从随机变量的角度引入随机样本,也就是定义1所说的容量为的样本,在此基础上介绍抽签法、随机数表法、系统抽样以及分层抽样.这样讲授便于学生对抽样方法有一个整体认识,抽签法、随机数表法、系统抽样以及分层抽样不过是几个具体的随机抽样方法,学生也不至于仅仅停留在对随机抽样的感性认识上.可以先通过对下面的问题分析入手.

问题1:兵工厂生产了一批炮弹,技术部门需要对这批炮弹进行合格鉴定,该如何鉴定?

最好的检验方法当然是试射,但不可能把所有炮弹都拿出去射了,所以存在一个抽样检查的问题.类似的问题很多,例如,工厂生产的产品在上市之前一般也需要技术部门做合格鉴定,工商部门也会对市场上的商品做合格检查,但由于这些产品都有包装,一旦打开,这些产品就不能再卖了,所以不可能将所有产品都拆开检查.即使是不需要损坏产品包装,也可能由于数量的庞大,很难对每件产品都做检验,只能抽取部分产品做鉴定.在此基础上引入简单随机抽样的概念.

定义2:假设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(≤),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样,这样抽取的样本,叫做简单随机样本.

问题2:道观或寺庙里常常有抽签算卜一说,一个桶里放着若干竹签,竹签上刻着“上”“中”“下”等字样,每根竹签上还刻有号码,善男信女们拿着桶摇晃,直到桶里掉出一根签来,然后拿着掉出来的竹签去找道士或和尚.道士或和尚根据竹签上的号码找到对应的签诗,那首签诗里便“隐藏着”你或你关心的人的祸福.道士或和尚根据签诗为你解卜,回答你所关心的事情的吉凶.这是唯心主义的东西,不过是给人心理上的某种慰籍,自然信不得.但可以探讨一下抽签过程中所蕴含的数学原理,你能用数学方法描述一下这个过程吗?例如签桶里的签是什么?摇桶的过程可以作何解释?竹签掉出来说明了什么?

抽签问卜实际上就是个随机抽样,不过问卜者问完卜之后一般要将签放回签筒里.可以假定签筒里有根签,有(<)个人先后摇签问卜,在他们问卜完成之前,签是不会被放回签筒里的,这就是个简单的随机抽样,这样的随机抽样方法就叫抽签法.

定义3:假设总体中有个个体,将这个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.这样的随机抽样方法称为抽签法.

除常用的抽签法,还有一种简单随机抽样方法,称为随机数法,教师按照教材的做法告诉学生怎么做就可以了,基本上是一种机械化操作方法.客观地说,抽签法或许有一定的实用价值,但随机数法的实际应用价值有待检验,现实中谁会真的对着一张随机数表去抽样?不过作为抽样方法之一,让学生有所了解未尝不可.

问题3:如上一节课所述,简单随机抽样仅适用于容量较小的总体,如果总体的容量很大怎么办?有没有合适的抽样方法?例如,为了做一项社会调查,需要从某群体的10 000名人士中抽取1%做调查,怎么抽取比较科学?

从10 000个人中抽取1%等于要抽取100个人,为10 000个人制作10 000个签显然不太现实,即使制作出来了也很难进行均匀搅拌,随机数法的工作量也比较大.10 000个人做编号是必要的,否则无从抽取,问题是编号后如何抽取?学生所能想到的多半是根据编号的某种特征进行抽取,例如号码的奇偶性等.但由于每个人的编号已经确定了,根据编号的奇偶性抽样并非真正的随机抽样,而是一种有选择的抽样.

问题的关键在于总体的容量偏大,使得抽签法或随机数法不可行或工作量比较大.可以通过具体的例子引导学生思考.例如全年级有1 000人,20个班,每个班50人,现在需要从全年级中随机抽取10%的人参加某项活动,如何抽取既简单又合理?学生很容易想到每个班随机抽取5个人.虽然这种抽取方法与从1 000人中随机抽取100个人并非同样的随机抽样,因为1 000人抽取100人并不一定会平均到每个班级,但却给问题1的解决带来某种启发,即将总体进行分组.但分组应该也是随机的,换言之,按随机的方法将总体进行编号.某版教材对这个问题的分析有误:

某校高一年级共有20个班,每班有50名学生.为了了解高一学生的视力状况,从这1 000人中抽取一个容量为100的样本进行检查,该怎样检查?

现实中如果真的要进行类似的检查,的确很可能采取每个班抽取5名同学的办法,但这与1 000人中随机抽取100人不属于同一个问题,尽管每个班里的5名同学可能是随机抽取的.但教材接下来的分析不是针对1 000人的总量,而是针对每个班进行分组:

通常先将各班学生平均分成5组,再在第一组(1—10号学生)中抽签法取一个,然后按照“逐次加10(每组中个体数)”的规则分别确定学号为11—20、21—30、31—40、41—50的另外4组中的学生代表.

这已经不是对总体(1 000人)分组了,而是对总体的一部分(某个班级)进行分组.事实上,50人的班级不算大容量的总体,即使是按照班级随机抽取,也无需如此麻烦,直接用抽签法就可以了.最重要的是,这样的分析给学生的理解带来很大的困惑,到底对总体分组还是对部分分组?

恰当的方法是将1 000人随机编号分成100个组,每组10人,第一组随机抽取一个号l,然后将编号为l,l+10,l+20,…,l+99的100人抽出,这才是对具有1 000个个体的总体进行系统抽样的正确方法.

教师课堂上可以针对问题1进行分析,这类问题在社会调查中是很常见的.

通过对问题1的详细分析,可以归纳出系统抽样的一般方法.

定义4:从容量为的总体中抽取容量为的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.

关于分层抽样,教材解释得还是比较清楚的,这里无需重复.

4.2 频率直方图

教材没有说明数据总量与区间之间的关系,也没有说明应该将区间分割成多少小区间,学生在实际操作时就可能显得盲目随意.虽然理论上讲组距越小越好,但精细与可操作性之间需要达到一定的平衡.数据与区间之间的关系,分割区间的个数等问题有必要做出详细解释.有了直方图之后,频率分布折线就不难理解了.教师在课堂教学中,宜将重点放在对频率直方图的详细分析,频率折线图则可以一带而过.此外,频率密度曲线在折线图之后出现显得有点突兀,也超出了学生可以接受的范围,虽然貌似解释得比较通俗,但仔细分析一下会发现,如果总体是有限的,无论如何也过渡不到密度曲线,即使总体无限,也未必能得到一个连续的密度曲线.所谓总体分布的密度曲线是什么?这里也无法解释清楚,事实上,这条光滑曲线(实际未必光滑)已经不是频率的分布密度曲线了,而是概率密度曲线.说得主观一点,此处的频率密度曲线有画蛇添足之嫌.

4.3 统计推断

例1:一枚被怀疑灌过铅的骰子60次掷得的数如下.

4331234656 2413353434 3345456451 6442332445 6362464632 5463335314

如果骰子没有被灌铅,那么上表中的60个数字应该如同从盒子(盒子里有6个数字1,2,3,4,5,6)里随机抽取60次(随机有放回)的结果,每个数字应该出现10次左右,期望频数为10.要弄清楚数据与期望的比较如何,需要统计一下每个数出现的次数,得到观察频数如下.

呈现值观察频数期望频数 1 410 2 610 31710 41610 5 810 6 910 76060

(1)确定总体(随机变量或分布函数),并将总体进行分类,例如掷骰子试验中,将总体按数字1,2,3,4,5,6进行分类;

严格说来,假设检验中还需要一个量——显著水平,根据显著水平确定拒绝原命题的范围——拒绝域.统计量本身已经令学生应接不暇,有兴趣的教师不妨自己了解一下其细节,可以参考任何一本数理统计书籍.

4.4 回归分析

什么叫回归分析?它研究的是什么问题?选修2-3对回归的来历做了简单介绍,但对于第二个问题的本质语焉不详,教师在课堂上最好做适当的补充.

随机变量(因变量)与某个确定性变量(自变量)之间可能存在着一定的关联.由于是随机变量,对于在某个范围内的各个确定值,的取值范围随试验的结果而定,在此基础上可以引入教材中身高与体重的例子.这里身高是一个确定性变量(自变量),体重是随机变量(因变量),以例子解释随机变量与确定性变量之间的关系,学生自然就清楚研究的是什么问题了.

接下来应该解释清楚为什么可以用随机变量的数学期望替代随机变量?对这个问题的解释与理解并不困难.如果是随机变量,那么方差与数学期望之间有如下的关系:

原理搞清楚了,还要考虑实际的可操作性,回归函数通常是未知的,回归分析的任务是根据数据去估计回归函数.很多情况下都是假设回归函数是线性的,更复杂的情况估计难度更大,例如也可能用形如++2的二次函数进行拟合,那样将涉及3个系数的估计.

上式称为残差平方和.

学生对这个原理的理解应该没有太大难度,但如何求最小值则超出了他们的理解范围,尤其是如果在此之后才学习微积分,那就更如同听天书了.但如果学生学习过一元函数的微积分,可以从几何上作出直观解释.与曲线的极小值一样,曲面的最小值处的切平面与平面是平行的,因而两个偏导数等于0,高中阶段大概也只能到此为止了.如果原理不清不楚,教材中再多的例子也难以让学生开窍.

教材中关于样本相关系数的解释比较清楚,有了上面的一番准备工作,学生对线性相关性检验的理解应该不难.

[1] FREEDMAN D,PISANI R,PURVES R,等.统计学[M].北京:中国统计出版社,1997:570-590.

[2] 盛骤,谢式千.概率论与数理统计及其应用[M].北京:高等教育出版社,2004:114-205.

Problems and Suggestions on Statistical Content in High Middle Mathematics

CAO Guang-fu1, ZHANG Shu-qing2, LUO Li-ling1

(1. Faculty of Mathematics and Information Science, Guangzhou University, Guangdong Guangzhou 510006, China;2. Zhixin High Middle School, Guangdong Guangzhou 510095, China)

G632.0

A

1004–9894(2018)06–0007–06

曹广福,张蜀青,罗荔龄.中学数学中统计内容的问题与建议[J].数学教育学报,2018,27(6):7-12.

2018–06–25

国家“万人计划”领军人才、广东省“特支计划”、广州市教育名家工作室联合资助

曹广福(1960—),男,江苏海安人,教授,博士生导师,首届国家高等学校教学名师奖获得者,入选国家“万人计划”领军人才,主要从事数学研究与数学教育研究.

[责任编校:周学智、张楠]

猜你喜欢

总体样本教材
教材精读
教材精读
用样本估计总体复习点拨
教材精读
教材精读
2020年秋粮收购总体进度快于上年
外汇市场运行有望延续总体平稳发展趋势
推动医改的“直销样本”
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计