论正态分布的由来与推导
2020-09-10黄诗哲黄孝祥覃秦
黄诗哲 黄孝祥 覃秦
摘 要 本文通过对正态分布的起源、发展和不同学者的推导等三个方面,对正态分布进行详细的介绍,因为正态分布作为具有划时代意义的一个分布,现在很多的学生对它并不了解,很多有统计背景的专业的学生对正态分布的推导只知其然,而不知其所以然,这里有必要对该分布进行一个详细的介绍。
关键词 正态分布 误差分布 最小二乘法
中图分类号:O212.1 文獻标识码:A DOI:10.16400/j.cnki.kjdks.2020.05.021
Abstract In this paper, the origin, development and derivation of normal distribution are introduced in detail, because normal distribution is a landmark distribution. Now many students don't know about it. Many students with statistical background only know the derivation of normal distribution, but don't know why. It is necessary to introduce the distribution in detail.
Keywords normal distribution; error distribution; least square method
如若向在大学里学过数理统计的学生或者大学里的老师、学者提出这样一个问题:你认为数理统计学中,哪一个概率分布是最重要的?那他们的回答一定是比较一致的:正态分布。不论是从它在实际应用中作为描述数据的统计模型来说,还是从在理论上的作用来说,都很明显的体现了这一点。从19世纪的统计学发展来看,正态分布一直处于主导地位,不同性质和不同类型的数据均服从这个分布,使得许多学者在后期的研究中,感觉从混乱里找到了秩序和方向。这个分布的钟型曲线形状优美、对称,密度充满了美感,进行标准化以后的密度函数更加简洁,含有数学中的两个重要常量。正态分布又称高斯分析,所以人们很自然的认为这个分布是由高斯发现的,但回顾历史,我们不仅可以学习这个分布的详细内容,还可以从中找到这个分布的发展和推导过程,除了高斯,其它的很多有名的统计学家均做出了他们的贡献。整个正态分布的发现完全可以看作是一篇跌宕起伏的历史故事,下面一起来揭开它的真实面目。
1 正态分布的雏形
从棣莫弗推导的上式很明显的可以看到,积分中的被积函数正是后世的标准正态分布的密度函数,这个结论也说明了二项分布近似等于正态分布,这种函数形式第一次被数学家以概率的二项分布推导出来。
不过在上述的公式中,棣莫弗只解决了在的情况,这个结果显然太片面,这个公式发现40年后,拉普拉斯对进行了研究,将这种二项分布近似于正态分布的情况推广到了取任意值的时候,并得到了后来著名的棣莫弗-拉普拉斯中心极限定理,设随机变量,则对任意的,总有
学习过概率统计的同学看到这里肯定会很奇怪,中心极限定理不是在正态分布讲完以后才学习的吗,都认为没有正态分布就没有这个定理,但实际上,我们在学习正态分布的时候,是直接给出的正态分布的密度函数,有心的读者应该会对这个密度函数的由来比较好奇,而这个中心极限定理中出现的积分被积函数给出了正态分布发展到最终形态的雏形。既然是这样,那正态分布怎么没有以棣莫弗或者拉普拉斯的名字进行命名呢?而是以高斯或者正态分布来称呼,我们继续进行分析和推导。
2 正态分布的发展:误差分布与最小二乘法
在上节中推导出的中心极限定理,已得到了正态分布的雏形,但是这个定理却并没有在统计学的应用中发挥作用,只被认为是一种数学表达式,而不是概率分布,从而没有引起统计学界的重视。在18世纪末之前,天文学是应用数学中最发达的领域,在天文学中,涉及到大量数据的测量和计算,而在计算和测量中产生误差不可避免,天文学家为了解决误差问题,一般是采用多次测量取平均的方式,这种方式因为其直观有效被使用了上百年。但是因为天文学家在不同环境、设备、人员进行数据观测,差异在所难免,算术平均的合理性得到了很多学者的质疑。辛普森(Thomas Simpson,1755)指出,在天文学界,很多学者算术平均并不可靠,而是应该选择那个“谨慎的观测”所得到的值。不过他仍从数学方法上出发,证明取算术平均这种方法具有更大的可信度。
这个公式可以看到正态密度函数的雏形,但在当时,对误差的分析并没有起到什么作用,寻找误差分布的进展甚微。
到1809年,高斯为了解决天体力学中的行星轨道计算问题,发表了数学与天体力学的名著《绕日天体运动的理论》,系统地给出了计算的数学方法,这个方法正是以正态误差分布为基础的最小二乘法。
高斯在这个过程中主要有两个贡献,一是设被测量的变量真值为,变量的次观测值为,概率;,其中为要求的误差分布的密度函数,然后求解使达到最大的作为的估计值,称为样本的似然函数,称为最大似然估计。
第二个贡献是,高斯假设算术平均值作为的估计,然后返回去再求概率分布函数,而此时求得的,,才能使他的假设成立,这就是正态分布。
另外,使用这个正态误差分布,分析误差函数,其中为观测样本数据,根据高斯的最大似然估计,求误差密度的概率为,要使此概率为最大,只需式中的达到最小,这样就得到了的最小二乘法。
高斯的这两项创新对整个统计学的重要性不言而喻,不仅让正态分布正式的以他名字命名,而且最小二乘法的发现也归属了高斯。拉普拉斯得到高斯的结论以后,对中心极限定理 进行优化,得到上面的最优化形式,并对自己发表的论文进行了补充,认为误差是很多原因产生的元误差叠加而成,根据他的中心极限定理,高斯分析(正態分布)也成了所有其它分布在趋向无穷时的落脚点。在整个正态分布被发现的过程中,棣莫弗、拉普拉斯,高斯都做出了他们的贡献,他们的研究相互连接,使统计学成为一门和谐的整体,意义重大。
3 正态分布的不同推导
要了解正态分布的内涵,必需有很深的概率论知识,从棣莫弗和拉普拉斯以中心极限定理为路径,把统计学领到正态分布的门口以后,很多的学者、统计学家、数学家、物理学家都通过不同的方法和路径对正态分布进行了推导,下面我们就从三位具有影响力的学者的推导中体现正态分布的魅力。
3.1 高斯的推导
Maxwell在1860年,通过类似的假设和推导过程推出了气体分子速率分布定律,这个定律中正好是三个正态分布的乘积,,Herschel-Maxwell的推导过程不同之处在于他们没有依赖概率论,只是根据空间几何的旋转对称性,而推导过程中的正是分布密度中的。
4 总结
算术平均公式作为统计计算的起点,被使用了千百年,在这个公式的背后隐藏着一个宏大而美丽的世界,伟大的数学家们一代接一代不停歇的对它和它背后的世界进行研究。在某个时间段,这个世界里的中心极限定理被发现,棣莫弗和拉普拉斯是它的挖掘者,而这个定理最初只是沧海中的一粒沙尘,不过当数学家们通过对它的精雕细琢,它最终显现出它的光芒。算术平均的秘密被高斯在最大似然估计中实现,从而推导出正态分布,这个分布的出现是数理统计史上具有里程碑意义的时刻,高斯的成就让他有了数学之神的美誉,后世的德国钞票和钢镚上通过印有正态密度曲线的图形来纪念他,高尔顿曾说:我不曾见过像误差正态分布这么美丽的曲线,它激发了人们无穷的想象力,它是无理性世界中的最高法律,当我们从混乱的总体中抽取大量样本,从小到大排序后,这个规律总会潜伏其中。这样一个来自经验直方图和赌博游戏的规律,成了我们日常生活中的一部分,无论在哪里,都能感受到他的存在,在大数据时代愈发明显。
资助项目:长江大学教学研究项目(JY2018030)
参考文献
[1] 陈希孺.数理统计学简史[M].2002.
[2] 靳志辉.正态分布的前世今生,https://cosx.org/2013/01/story-of-normal-distribution-1
[3] 吴江霞.正态分布进入统计学的历史演化[D].河北师范大学,2008.
[4] Kiseon Kim, Shevlyakov, G. Why Gaussianity?[J].Signal Processing Magazine IEEE,25(2):102-113.
[5] Bhattacharya R. A history of the central limit theorem: from classical to modern probability theory [book review of MR2743162][J].Magyar Seb閟zet,1956.
[6] Doob J L.[The Central Limit Theorem Around 1935]:Comment[J].1986.1(1):93-94.