浅析概率论与数理统计在生活中的应用
2021-01-29许欣兰宝安中学
许欣兰 宝安中学
一、引言
概率论及数理统计是数学世界中较新的成员。概率是由两位法国人Blaise Pascal和Pierre Fermat于1654年发明的。统计学的诞生则与著名的数学家高斯(Gauss)和拉普拉斯(Laplace)有关。在19世纪初,这两位伟大的数学家在工作中意识到统计的重要性,不过,由于当时他们缺乏有力的数学工具,因此,他们并没有深入研究统计学及相关的数理知识。后来,经过数学家近半个世纪的努力,统计理论才得到了发展[1]。在生产及生活中,统计学有着十分广泛的应用。在研究工程、商业、医学问题时,我们都会用到统计学知识。几乎每一个较为复杂的社会科学和自然科学问题,都离不开统计学。医生可能会依赖利用概率方法的计算机程序,来解释某些医学测试的结果;预拌公司的工人在混合混凝土时,也需要使用基于概率论的图表;税务人员在确定房屋的价值时,需要使用计算机上的统计软件。科学与技术的发展是相辅相成的。随着信息技术的发展,概率论与数理统计的应用将更加广泛。
二、概率论与数理统计
作为数学的一个重要分支,概率论与数理统计在许多领域都有着广泛的应用。概率论主要研究随机事件的发生规律,而数理统计则是根据与概率相关的知识,解释统计结果,或对总体的特征进行预测。在研究与概率论、数理统计相关的问题的过程中,我们需要首先分析数据的特征,选择合适的模型,对数据的特征进行深入的分析,从而研究随机事件的发生规律或某一指标的发展趋势[2]。
三、正态分布及其在生活中的应用
(一)正态分布及其特征
正态分布是最重要的连续概率分布之一,在自然科学、工程学、医学等领域都有着十分广泛的应用。正态分布是描述生活及生产中一系列连续概率分布的最常用描述方式。当我们以相应的统计值为横坐标,以概率为纵坐标时,就可以得到这些变量的概率密度函数图像。统计学研究表明,对于符合正态分布的变量而言,其概率密度函数图像的位置(即平均值)和参数(即标准差)可能是不同的,但是其一般形状是几乎相同的,典型的正态分布曲线是对称的钟形曲线。
正态分布有着近300年的历史,一般认为,正态分布的理论发展始于棣莫弗(de Moivre)。在对二项分布进行研究的过程中,棣莫弗对一些情况进行了近似。然而,正态分布理论的发展较为缓慢,在之后的一个世纪中,许多著名的数学科学家尝试进一步探索正态分布的特征。但是囿于当时的研究条件,他们始终没有取得较大的进展[3]。不过,在不懈的探索中,科学家已经逐渐意识到,生活及生产中的许多变量都服从正态分布,正态分布在生物学、医学、工程学、经济学、金融学等学科的研究中都有着十分广泛的应用。根据正态分布理论得出的模型非常可靠,能够解决许多在实际应用中遇到的不确定性问题。
当连续随机变量X服从一个数学期望(即均值)为μ、方差为σ^2的正态分布时,我们可以将其记作X~N(μ,σ^2)。数学期望μ决定了其概率密度函数图像的位置,其标准差σ决定了分布的幅度,也就是图像的“高矮胖瘦”。一般而言,从总体采样时,概率密度函数图像的位置与图像的“高矮胖瘦”没有必然联系。
实际上,很多研究对象的多项特征都是服从正态分布的,正态分布在解释实验和观察结果中具有不可估量的价值。正态分布模型可以很好地对数据进行拟合,能够满足大多数情况下的统计学需求。
拉普拉斯进一步发展了正态分布理论,他很好地解释了正态分布的形成原因。拉普拉斯认为,大量的独立随机变量相加时,会产生一个量,这个量一般服从正态分布。因此,一群人的身高可能是服从正态分布的。首先,我们可以这样认为,每个人都是他各个部分的总和。他的头颅、躯干、腿脚,共同构成了他的身高。如果我们对头颅、躯干、腿脚本身的长度或高度进行研究,就会发现,这些变量可能服从正态分布,也可能不服从正态分布,但是,当我们将这些随机变量相加时,它们的总和往往会具有正态分布的特征。其次,我们还可以从影响发育的因素,对身高的正态分布特征进行分析。每个人的身高都与遗传因素及环境因素(如生活习惯、经济状况)相关,在发育的每个阶段,与其他阶段的事件基本不相关的事件,会对特定个体的最终身高产生负面或正面的影响。这些相互独立的事件,都有可能影响个体的身高,因为每个事件的影响都不太大,这些事件本身的特征几乎不会体现在身高这一“总和变量”的分布特征中[4]。
由于将总和的各个分量相加后,变量的“正态性”更强,因此确保总和变量服从正态分布的条件,比确保各个变量服从正态分布的条件更宽松。不过,只有总和的分量具备一定的正态分布特征,总和才可能具备正态分布的特征。因此,只能在严格限制的条件下,总和变量才严格服从正态分布。
(二)正态分布在生活中的应用
我们以生活中的常见场景为例,说明正态分布在生活中的应用。王经理承包了一片鱼塘,在这片鱼塘中,他养了约20000条鲤鱼。最近,王经理想要统计鱼塘中鲤鱼的重量分布情况,从而决定是否进行捕捞。他随机捕捞了100条鲤鱼,并一一称出了这些鲤鱼的重量,并对得到的数据进行了简单的分析与处理。经过计算,这100条鲤鱼的平均重量是2.5kg,标准差为0.5kg。如何通过这100条鲤鱼的重量分布情况,初步估计池塘中所有鲤鱼的重量分布情况呢?在这个问题中,我们需要首先对自然条件下鲤鱼的重量分布规律进行基本的估计,由于池塘中几乎所有鲤鱼都处于完全相同的生长条件下,其重量服从正态分布。对被抽到的100条鲤鱼的重量数据进行分析时,我们得到了正态分布的两个十分关键的特征数据——鲤鱼重量的平均值是2.5kg,标准差是0.5kg。如果我们用m表示鲤鱼重量这一变量,则我们可以根据前述分析得到m~N(2.5,0.5^2),因此,我们可以根据正态分布的3σ原则,得到池塘中所有鲤鱼的重量分布情况:重量介于2 ~ 3kg之间的鲤鱼约占总数的68.27%,也就是约13654条,重量介于1.5 ~ 3.5kg之间的鲤鱼约占总数的95.45%,也就是约19090条,重量介于1 ~ 3kg之间的鲤鱼约占总数的99.73%,也就是约19946条。根据正态分布,如果我们随机从鱼塘中捕一条鲤鱼,这条鲤鱼的重量应介于1.5 ~ 3.5kg之间。
测量误差也是服从正态分布的[5]。假设老师有一个长度为10cm的零件,他要求同学们用刻度尺测量零件的长度。多数同学得到的结果都会非常接近10cm,部分同学的结果可能有一定的偏差。如果老师要求100个同学测量零件的长度,这些同学的测量误差应当服从平均值为0cm的正态分布,如果这些同学非常粗心,则测量误差的标准差较大,其概率分布曲线较为“矮胖”;如果这些同学较为细心,则测量误差的标准差较小,其概率分布曲线较为“高瘦”。
此外,一些气象学、工程学、医学中的变量,也服从正态分布。需要注意的是,正态分布模型中的随机变量的取值范围应当为(-∞,+∞),而这些领域中的变量,如年降水量、血红蛋白水平等都是非负值。此外,正态分布要求变量关于均值对称,而与水文相关的统计数据可能会出现一定程度的偏倚,如果应用上述公式直接进行处理,可能得不到可靠的结果。在处理这类数据时,我们可能需要应用改良的正态分布模型进行分析,才能更好地把握数据的规律,提高分析结果的准确性[6]。
四、二项分布及其在生活中的应用
二项分布是n个独立的是非试验中成功的次数的离散型概率分布,也是一种生活中十分常见的概率分布。我们需要特别注意二项分布的应用条件。只有这些实验可以在相同的情况下任意重复多次,且每次试验都可能得到两种结果、每次试验得到这两种结果的概率都完全相同时,才能运用二项分布的知识对问题进行求解。一个十分典型的例子就是掷硬币问题。在抛硬币时,我们只会得到两种结果——正面朝上或反面朝上。计算掷n次硬币时,有m次正面朝上的概率时,我们就需要应用与二项分布相关的知识。首先,在掷硬币时,正面、反面朝上的概率均为0.5,即 p = 1-p = 0.5。因此,我们在计算有m次正面朝上的结果的概率时,可以这样进行计算:P (m) = C_n^m*pm*(1-p)n-m = C_n^m*0.5n。在计算新生儿出生率、彩票中奖率时,我们都需要用到二项分布的知识。需要注意的是,如果各次试验结果之间并不是相互独立的,而是有着一定的联系,那么我们不能应用正态分布来分析出现某一结果的概率。
五、概率论与数理统计的局限性
目前,概率论及数理统计的计算方法已经非常成熟,其在许多领域的应用都十分广泛。不过,目前,我们对概率论的认识实际上是非常有限的。在预测随机过程的结果的过程中,我们实际上很难高效地得出可靠的结论。在实践中,许多依照当前理论得出的计算结果并不可信。即使应用计算机技术辅助计算或模拟随机过程,也可能得不到非常贴合实际的模型。如何提高理论模型的准确性及预测性,是数学家面临的十分关键的问题。例如,混合模型一直是统计学家的挑战,无论是初学者,实践者还是理论家,都无法很好地解释这个模型的原理。此外,我们很难根据实际情况改造混合模型,使之更符合应用的要求。其实,还存在许多类似的“未知模型”,我们虽然了解这些模型的表达式,却几乎无法将其应用于实际生活中,这是一个非常严重的问题。如何提高模型的预测性,是一个十分关键的问题。我们应当注意将理论与实践相结合。在建立模型后,应当根据实际结果,进行回归分析,关注统计数据与模型预测值之间的差异,从而不断调整模型,使模型更加贴合实际。这是非常重要的。只有不断调整所建立的模型,才有可能突破概率论的局限性,使得到的结论更加可靠。
结语:概率论与数理统计是分析随机事件及随机过程的利器。许多研究人员从理论和应用的角度对其进行了研究。他们不断发展概率理论,改进数理统计方法,使模型更加贴合实际。利用这些模型,我们可以高效地对随机事件及随机过程的结果进行预测,从而得到可靠的结论。在应用概率论及数理统计知识的过程中,我们可能需要首先分析实际情况的特征,从而应用适合这一情况的模型进行预测,否则,预测的结果将不够可靠。