追本溯源,读懂正态分布
2019-02-04李艳
李艳
摘 要:生活中很多随机现象都可以用正态分布来描述其统计规律,熟悉和掌握正态分布的性质及应用对概率统计的系统学习很重要。
关键词:正态分布 中心极限定理
引言
正态分布是本科《概率论与数理统计》课程中介绍的重要的连续型随机变量分布之一。之所以说它重要,是因为,一方面,正态可以用来描述生活中的很多随机现象,比如人的生理特征方面的身高、体重、智力等,还有产品的质量分布和测量误差等;另一方面,在满足一定的条件下,它还是其他许多分布的极限分布;另外,本科阶段所学习的参数之区间估计和假设检验也主要是针对正态分布进行讨论的。可以说,正态分布的性质和应用,贯穿于整个课程的教学内容。[1]
然而课本上并没有提及得到正态分布的来龙去脉,如此惊艳的公式,却有种从天而降的感觉,真是应了那句:“神说,要有正态分布,就有了正态分布;神看正态分布是好的,就让随机误差服从了正态分布。”互联网上有些相关的资料,语言生动有趣,但难免跟后续的内容相联系过多,导致初学者越看越迷茫。因此,对正态分布这节内容的讲解的深度和广度就显得很重要,在恰当的地方讲恰当的内容,避免正态分布成为熟悉的陌生人。[2]
一、人生若只如初见
在讲正态分布之前,为了不让学生觉得内容枯燥突兀,可以先从生活中比较直观的例子切入,比如关于某高校大二某班学生身高。给出数据,可以让学生自己绘出频率直方图,一般情况下得到的直方图具有中间高两边低的趋势,连接每个小矩形顶部中点,可以得到一条同样走势的折线如图a所示。
如果统计身高的学生数逐渐增多,身高区间划分得逐渐细致,图a中的折线会变得越来越光滑,最终形成如图b所示的一条光滑曲线,那么自然想到这条曲线对应的函数是什么呢,就目前所学知识,可以直接给出该曲线的方程:
其中μ,σ (>0) 为参数 ,并称以该函数为密度函数的随机变量服从正态分布,
记作。μ是正态曲线的对称轴,σ是拐点到的距离。
有了分布,自然要进行概率计算。由高等数学的知识可知,一般正态随机变量落在某个区间内的概率无法通过积分得到,那该如何去求呢?一般的概率统計教材上都是通过一个线性变换,令,然后证明。这里用到的证明方法从知识点上看属于随机变量的函数的分布,在内容编排上属于后续的学习内容,从多年的执教经验来看,讲解这个证明过程对理解正态分布并无多大益处,可以讲完随机变量的函数的分布之后,再让学生自己去证明。我们可以利用图像的变换,把一般正态分布的对称轴移到坐标系中唯一的y轴,然后令数轴上所有的点到对称点的距离缩小σ倍,即得标准正态分布。标准正态分布地得到,既解决了一般正态随机变量的概率计算问题,也为后续的中心极限定理做好了铺垫。
二、千呼万唤始出来
上一节中,我们似乎很轻松地得到了正态分布,事实上,正态分布地得到可不是天才们一拍脑门就想出来的。我们一起穿越时空,回顾那段精彩的历史。
首先出场的大神是法国数学家棣莫弗。他所撰写的《机遇论》是概率论发展史中很重要的一本书。促使棣莫弗推导出正态分布是类似于如下的一个问题:假设随机变量 X~B(n,p)(二项分布), 求X 落在平均值np附近的概率P(|X–np|≤ε)。对于 p=1/2 的特殊情况, 棣莫弗做了一些计算并得到了一些近似结果,但是不够
理想,进而他又利用斯特林公式,得到了如下的结果:
(1)
正态分布的密度函数就在上面的积分中低调地出现了。之所以说它低调,一是因为棣莫弗个人并没有完全意识到正态分布的神奇之处,二是他的工作当时并没有得到多少人的重视,也没有在统计学中发挥它的作用,因此他也错失了正态分布的冠名权,而后高斯基于在天文学中随机测量误差服从正态分布等一系列工作而获得冠名权,所以正态分布也称高斯分布。
三、天下谁人不识君
再回到(1)式,不难概括出该式体现的就是二项分布的极限分布是正态分布。棣莫弗研究了 p=1/2 的情形,后来拉普拉斯把二项分布的正态近似推广到了任意 p的情况。这个结果就是棣莫弗-拉普拉斯中心极限定理。
在这些工作的基础上,中心极限定理随后又被其他数学家们推广到了其他任意分布,比如李雅普诺夫中心极限定理和莱维-林德伯格中心极限定理。这些定理揭示了正态分布产生的源泉和自然界中正态分布应用的广泛性。统计学家发现,在样本容量充分大的时候,一些随机变量的极限分布都可以用正态来描述,这构成了数理统计学中大样本理论的基础。这部分内容在本科阶段的区间估计和假设检验中都有涉及。正态分布的问世以及它在中心极限定理和误差分析中的应用,得到了许多数学家统计学家的认可、推崇与赞美,使得它称霸于众多概率分布,艳压群芳,一枝独秀,以至于当时有些统计学家认为正态分布几乎无所不能。它在经济管理、物理、社会科学、医学、农业、工程等许多领域都堪当研究指南,在实验和观测数据的解读中是必不可少的工具。
结语
任何数学知识都有其特定的产生背景和在实际生活中的应用。基于这样的思考,针对所授知识点,在教学过程中适当讲述些知识背景,学生就不会觉得突兀,也能更好地激发他们的学习动机和兴趣,更好地学习本课程。
参考文献
[1]盛骤,谢式千,潘承毅.概率论与数理统计[M].合肥:中国科学技术大学出版社,2008:14,36.
[2]戴维·萨尔斯博格,刘青山译.女士品茶[M].江西人民出版社.