浅谈大数定律教学设计
2021-11-03于淼吴素文宋贽杨吉会张阚
于淼 吴素文 宋贽 杨吉会 张阚
[摘 要]大数定律是概率论与数理统计课程中抽象难懂的重要教学内容,如何设计与完备大数定律教学是课程教师实践中不断的追求。在教学积累过程中,以切比雪夫不等式为基础,以依概率收敛概念为依托,介绍了大数定律的一般形式,给出了随机事件频率稳定在其概率的精确表达,并探索服从大数定律的充分条件,找出大数定律之间的内在联系,从而培养学生的概率统计思维模式及理论联系实际的应用能力。
[关键词]切比雪夫不等式;依概率收敛;大数定律;思维模式;应用实践
[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2021)11-0079-04
在概率论与数理统计的课程教学中,大数定律既很重要又是难点,它以严格的数学形式, 表达了随机现象最根本的性质——平均結果的稳定性,在理论与实践中均有广泛应用[1]。它是承上启下的教学内容,既是前面概率论部分的必要补充,又为数理统计部分提供理论依据,被称为“统计学的灵魂”[2]。由于大数定律理论性较强,内容复杂,教学比较抽象与枯燥,且难于掌握和理解,因此更好地梳理与设计大数定律的教学内容具有重要的理论与实践意义。
一、知识复习与准备
(一)切比雪夫(Chebyshev)不等式
设随机变量X的数学期望和方差都存在,则对任意常数[ε>0],有
[PX-E(X)≥ε≤D(X)ε2],
或[PX-E(X)<ε≥1-D(X)ε2].[3]
切比雪夫不等式是大数定律的基础,是证明大数定律的有力工具[4],可以说,伯努利(Bernoulli)大数定律、切比雪夫大数定律、马尔可夫(Markov)大数定律均是借助于切比雪夫不等式完成证明的,使用了[PX-E(X)<ε≥1-D(X)ε2]形式。
(二)依概率收敛
随机变量序列[Xn]依概率收敛于X是指[limn→∞PXn-a<ε=1],记作[Xn→Pa],表示绝对偏离[Xn-a]小于任一给定量的可能性随着n增大而愈来愈接近于1。
大数定律是一类定理的统称,涉及的是依概率收敛问题。大数定律这节内容包括大数定律的一般形式和四个常见的大数定律:伯努利大数定律、切比雪夫大数定律、马尔可夫大数定律和辛钦(Khinchin)大数定律。
二、教学设计
(一)伯努利大数定律
1.背景
伯努利大数定律背景的介绍不仅可以使学生们知道定理的来龙去脉,更能提高他们的学习兴趣与积极性,乐于跟随教师走进大数定律的抽象世界。历史上第一个极限定理属于伯努利,就是伯努利大数定律,其思想源于概率论与数理统计第一章中讲到的事件发生的频率随着试验次数的增加稳定在事件的概率,如多次抛掷一枚硬币,正面向上与反面向上的频率会稳定在其概率0.5,最为著名的要数蒲丰投针实验。1777年,法国数学家蒲丰在一张白纸上画出多条等距平行线,并将长度为平行线间距一半的2212枚针随机投到白纸上,观察到与平行线相交的针为704枚,由此得到圆周率π的近似值[π≈2212704≈3.142][5]。将频率稳定性给予精确地描述就是伯努利大数定律。
2.定理内容及证明
伯努利大数定律阐述了事件发生的频率依概率收敛于该事件的概率。
可以采用切比雪夫不等式来进行证明,采用逆向思维,从结论入手,需要证明事件A的频率[μnn]依概率收敛于其概率[P(A)=p],即[limn→∞Pμnn-p<ε=1]。考虑到与切比雪夫形式的一致性,如果频率[μnn]本身是一个随机变量,且概率p是该随机变量的期望就好了。而频数[μn]是n重伯努利试验中事件A出现的次数,确实是随机变量,服从二项分布[B(n,p)],期望[E(μnn)=p],方差[D(μnn)=p(1-p)n]。现在要证[limn→∞Pμnn-p<ε=1],已知[Pμnn-p<ε≤1],由切比雪夫不等式[Pμnn-p<ε=Pμnn-E(μnn)<ε≥1-D(μnn)=1-p(1-p)nε2],再根据夹逼准则得证。
3.应用
用蒙特卡罗(Monte Carlo)方法之随机投点法计算定积分[J=01f(x)dx, 0≤f(x)≤1]。
(二)大数定律的一般形式
伯努利大数定律给出了频率稳定性的精确表述,其实大量测量值的算术平均值即样本均值同样也具有稳定性,这种稳定性是大数定律存在的客观背景[6]。
从伯努利大数定律引出大数定律的一般形式:频数[μn~B(n , p)],而二项分布可以看成是有限个相互独立的两点分布之和,即[μn=i=1nXi],[Xi~B(1, p)]。此时[E(μnn)=E(1ni=1nXi)=p],可得
[limn→∞P1ni=1nXi-E(1ni=1nXi)<ε=1],记样本均值[X=1ni=1nXi],得到结论样本均值[X]依概率收敛于样本均值的期望[E(X)],也就是总体均值[E(X)],即[X→PE(X)]。
由此给出了大数定律的一般形式:对任意的[ε>0],有[P1ni=1nXi-1ni=1nE(Xi)<ε=1],即
[1ni=1nXi→P1ni=1nE(Xi)]。
大数定律反映了大样本条件下平均结果的稳定性,为人类世界提供了一个基本规律:在一个包含众多个体的大群体中,由于偶然性个体间会产生差异,但是在大数定律的作用下,整个群体却能呈现出某种稳定的状态[7-8]。当然,在样本容量扩大的过程中,样本均值序列偏离总体均值的机会始终存在,但会随着样本容量的扩大而减小,当样本容量达到一定程度时,样本均值依概率收敛于总体均值,样本均值近似看作总体均值[9]。
在理解了大数定律的结论后,我们想要知道在什么情况下随机变量序列会服从大数定律,即服从大数定律有哪些充分条件。为此,我们继续学习切比雪夫大数定律、马尔可夫大数定律和辛钦大数定律。它们从不同的角度给出了服从大数定律的条件。
(三)切比雪夫大数定律
1.条件
切比雪夫给出了服从大数定律需要满足两个条件:一是随机变量序列[Xn]两两不相关;二是[D(Xn)]存在且有共同的上界,即[D(Xn)≤c],c为常数。
2.定理证明
仍从结论入手,需要证明
[P1ni=1nXi-1ni=1nE(Xi)<ε=1]。仍然借助切比雪夫不等式,得[P1ni=1nXi-1ni=1nE(Xi)<ε≥1-D(1ni=1nXi)ε2],因为[Xn]两两不相关,且[D(i=1nXi)=i=1nD(Xi)+2Ci 3.伯努利大数定律与切比雪夫大数定律的关系 伯努利大数定律是切比雪夫大数定律的特例。伯努利大数定律满足切比雪夫大数定律的两个条件:频数可以看成是有限个相互独立的两点分布之和,即随机变量序列[Xn]独立同参数为p的两点分布。独立自然两两不相关,满足条件一;两点分布的方差为[p(1-p)],方差存在且相等,有共同的上界,满足条件二。 4.推论 如果随机变量序列[Xn]独立同分布,且方差有限,则[Xn]服从大数定律。在证明切比雪夫大数定律的过程中,我们发现其实只需要当[n→∞]时[D(1ni=1nXi)=1n2D(i=1nXi)]的极限为0即可,这正是由切比雪夫的学生马尔可夫给出的大数定律的条件。 (四)马尔可夫大数定律 1.条件 马尔可夫大数定律只要求满足一个条件:[1n2D(i=1nXi)→0(n→∞)],称为马尔可夫条件。 由此可见,马尔可夫大数定律对随机变量序列[Xn]没有任何同分布、独立性、不相关的假设,使用起来比较简单,因此应用较多。 2.应用举例 设[Xn]为同一分布、方差存在的随机变量序列,且[Xn]仅与[Xn-1]和[Xn+1]相关,而与其他的[Xi]不相关,试问该随机变量序列[Xn]是否服從大数定律? 3.切比雪夫大数定律与马尔可夫大数定律的关系 切比雪夫大数定律是马尔可夫大数定律的特例。从切比雪夫大数定律的证明过程来看,切比雪夫的两个条件都是为了得到马尔可夫条件,进而服从大数定律。 (五)辛钦大数定律 1.条件 辛钦大数定律也要满足两个条件:一是随机变量序列[Xn]独立同分布;二是[E(Xn)]存在。 这与切比雪夫大数定律的推论相比,条件一相同,条件二将方差简化为了期望,使用起来更加简便。切比雪夫与马尔可夫大数定律中都对方差做了要求,辛钦大数定律只需考虑期望。 辛钦大数定律的证明借助于特征函数的概念,在课上未对学生进行讲解,一方面由于特征函数理论涉及复数,相对较难,另一方面也容易打破知识结构的系统性。 2.应用举例1 将教材中应用切比雪夫大数定律推论的例子放到此处,并且可以去掉一个已知条件[E(X4n)<∞],应用辛钦大数定律得到相应结论。 设随机变量序列[Xn]独立同分布,若令[E(Xn)=μ,D(Xn)=σ2],考察[Yn=(Xn-μ)2, n=1, 2, …]是否服从大数定律? 3.应用举例2 用蒙特卡罗方法之平均值法计算定积分[J=01f(x)dx,0≤f(x)≤1]。 4.伯努利大数定律与辛钦大数定律的关系 伯努利大数定律是辛钦大数定律的特例。伯努利大数定律中,随机变量序列[Xn]独立同参数为p的两点分布,满足辛钦大数定律的两个条件,条件一独立同分布,条件二两点分布的期望存在,为其参数p。 三、知识总结 大数定律这节主要介绍了大数定律的一般形式,即随机变量的样本均值依概率收敛于总体均值;还讲述了四个大数定律,其中伯努利大数定律精确解释了频率的稳定性,而其他三个大数定律分别给出了服从大数定律的充分条件,并且四个大数定律之间具有内在联系。讲授过程中步步深入,逐渐展开,自然过渡,衔接流畅,富于逻辑性,有助于学生的消化理解及整体性的把握。本节要求掌握与理解大数定律的基本理论,并能应用大数定律完成相关问题。图1为本节的知识结构图。 四、结论与讨论 (一)注重教学过程中思维模式的培养 概率论与数理统计是高校十分重要的基础课程,也是当代数学最为活跃的分支之一,是研究随机现象统计规律性的一门学科,经常采用大量实验与观测的方式找出与分析事物间的内在规律性,因此培养学生的概率直觉思维能力与统计辩证思维方法显得尤为重要[10]。 大数定律表明大量随机现象由于偶然性相互抵消而呈现出必然数量规律[11]。它是“算术平均值法则”的理论基础[12],是概率论与数理统计课程的精华所在。然而由于大数定律较强的理论性及学习的困难性,很多教师将该节内容不讲或略讲,使学生不能完整构建概率统计的思维逻辑并完成从概率论到数理统计的顺利过渡,更谈不上对于大数定律理论联系实际的应用。客观世界中充满了不确定性,但要从中找到确定性,大数定律的思维模式必不可少,相对于“小数”,“大数”更具理论与应用价值,为实际生产生活提供了必不可少的理论依据和方法论,是大数据分析中海量与多样化的信息运用的前提之一。同时,大数定律所蕴含的概率统计思想也体现出做事锲而不舍、知难而进的宝贵精神品质,让学生们在学习知识的过程中体会与完善人格魅力。 (二)课上适量进行理论知识拓展 课上讲授的大数定律给出了服从大数定律的充分条件,在其他情况下是否也会得出服从大数定律的结论,也就是是否存在其他的充分条件。茆诗松等编写的《概率论与数理统计教程第二版》大数定律一节的习题中又给出了三个大数定律,这里是要完成对它们的证明,自然也可以让同学们在完成习题的基础上学习与理解这三个大数定律,包括泊松(Poisson)大数定律、伯恩斯坦(Bernstein)大数定律与格涅坚科(Gnedenko)大数定律。对于感兴趣的学生还可以自己查阅资料或探索其他充分条件。 (三)开展课外应用实践活动 现实生活中,人们很多时候都会有意或无意的运用大数定律理论方法。例如人们在实际观测中,往往并不是只做一次观测得到观察值,而是大量重复观测后取平均值作为真实值[13]。 授课过程中举了两个应用蒙特卡罗方法的例子——分别用伯努利大数定律和辛钦大数定律计算定积分。蒙特卡罗方法也称为随机模拟方法,是一种大数收敛的数值计算方法,依据概率论与数理统计理论知识建立模型并借助于现代计算机技术来实现算法,再经大量随机仿真而形成真实值的逼近[14]。蒙特卡罗方法不仅可以实现定积分的计算,还可以求解不规则图形的面积[15],也可以在蒲丰投针实验思想指导下,利用Matlab软件模拟计算圆周率π的近似值[5]。 大数定律是保险业和彩票业存在和发展的数理基础。例如它是保险公司收取保费的理论依据,保险公司利用“个别情形存在的不确定性将会在大数中消失”的规则,可将个别风险单位遭遇损失的不确定性转化为风险单位集合损失的确定性[16]。 教师可以给学生布置课外应用实践的任务,以小组为单位,查阅资料,总结或实现大数定律的实际应用过程。不仅可以使学生更好地掌握和理解大数定律理论知识,同时可以在应用中找到课程学习的重要意义。 [ 参 考 文 献 ] [1] 李伯德.大数定律在重积分中的一些应用[J].兰州商学院学报,1988(2):64-69. [2] 邱志平.大数定律教学设计探究[J].教育教学论坛,2016(3):153-155. [3] 茆诗松,程依明,濮晓龙.概率论与数理统计教程第二版[M].北京:高等教育出版社,2018:12. [4] 沈伟利.谈切比雪夫不等式的应用[J].郑州铁路职业技术学院学报,2005(1):24-25. [5] 李娜,王丹齡.大数定律的教学设计研究[J].高师理科学刊,2017(9):74-76. [6] 许芳忠,许金华.大数定律及中心极限定理的教学课程设计探讨[J].科技资讯,2010(36):227. [7] 李蕊.浅谈几个著名的大数定律及应用[J].科学咨询(科技管理),2010(12):64-65. [8] 于进伟,赵舜仁.大数定律与中心极限定理之关系[J].高等数学研究,2001(1):15-17. [9] 杨小勇,王兴福.重视衔接,兼顾情感:“大数定律与中心极限定理”的教学思考[J].数学教学研究,2011(10):50-51. [10] 贾天理,李春浓,黄金华,等.大数定律应用问题分析与概率直觉思维培养[J].绵阳师范学院学报,2010(2):6-9. [11] 王昕,程希明.概率论与数理统计案例教学方法探析[J].沈阳师范大学学报(自然科学版),2013(3):372-375. [12] 罗弟亚.大数定律和中心极限定理的可视化(教学)[J].四川工业学院学报,2000(1):70-75. [13] 王成,邹海雷,银俊成.概率论教学探讨:重视概念理解[J].商情,2011(16):30. [14] 车金星.蒙特卡洛计算方法及其在定积分求解中的应用[J].考试周刊,2011(88):71-72. [15] CR劳.统计与真理——如何运用偶然性[M].北京:科学出版社,2019:8-9. [16] 赵国栋.大数定律的生活体现[J].教育界,2016(24):152. [责任编辑:林志恒]