概率与统计的知识理解之最大似然估计

2022-04-18刘静宜池文雅胡典顺

中国数学教育（高中版） 2022年4期

刘静宜池文雅胡典顺

摘要：统计问题解法背后的思想往往很重要，但却常常被忽视. 最大似然估计就是统计学中一个很重要的思想与方法. 从教材例题出发，深入剖析最大似然估计的定义与内涵，并结合二项分布和超几何分布的问题实例阐明其应用方法，在此基础上再拓展介绍最小二乘法和贝叶斯估计法，以及它们与最大似然估计法的区别与联系，从而增强学生对最大似然估计的理解，更好地用统计学中的思想去解决问题.

关键词：最大似然估计;二项分布;超几何分布;最小二乘法;贝叶斯估计法

一、提出问题引人思

依据《普通高中数学课程标准（2017年版）》编写的2019年鄂教版《普通高中教科书·数学》（以下简称“教材”）必修第四册中有这样一个问题：渔民有什么方法能方便且快速地知道自己鱼池中鱼的数目呢？有经验的渔民常用一种被称为“标记后再捕”的方法，即先从鱼池中随机捕捉一些鱼，不妨假设捕到1 000条鱼，在每条鱼的身上做记号（不影响其存活）后又放回鱼池中. 经过一段时间，再从鱼池中随机捕捉一些鱼，不妨设第二次捕到200条，其中10条有记号，由此就可以估计出这个鱼池中鱼的总数. 那么，这具体是怎样估计出来的呢？有人会直接列出这样一个比例式：200∶10 = x∶1 000，x的值就是要求的鱼池中鱼的总条数. 通过解该方程，得x = 20 000，即鱼池中鱼的总数为20 000条. 是否可以这样做呢？这个问题背后的统计思想又是什么呢？实际上，用样本中有标记的鱼的比例估计总体中有标记的鱼的比例这种做法，看似与解决纯数学题的过程并无太大区别，但实际上运用了统计学的思想，其本质是利用样本均值估计总体均值，是以大数定律为依据的矩法估计. 需要注意的是，数学与统计是两个独立的一级学科，由于数学研究的是抽象的数量关系和空间形式，而统计则是反映一定时间、地点条件下具体社会现象的数量特征，因此它们之间并不是简单的包含与被包含的关系.

若想在解决此题的过程中较清晰地体现统计学思想，我们可以考虑另一种在统计学中应用十分广泛的方法——最大似然估计法.

二、解读内涵明定义

最大似然估计法（Maximum likelihood estimate）最早由德国数学家高斯（C.F.Gauss）提出，后来在1912年英国统计学家费歇尔（R.A.Fisher）再次提出了这个方法，并在1922年的一篇文章中将此方法命名为“最大似然估计”，同时证明了它的一些性质. 最大似然估计法是建立在最大似然原理基础上的一个统计方法. 最大似然原理的直观想法是：一个随机试验如有若干个可能的结果[A，B，C，…，] 在一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大.

为了更好地理解最大似然估计法，我们先来看一个直观的例子：设甲箱中有99个白球，1个黑球;乙箱中有1个白球，99个黑球. 先随机取出一箱，再从抽取的一箱中随机取出一球，结果发现是黑球，这个黑球是从乙箱中抽取的概率为[99100]，比从甲箱中抽取的概率[1100]大得多，这时我们自然更多地相信这个黑球是取自乙箱的. 这就是最大似然估计的思想，即实际最可能发生的情况对应最可能的参数取值.

最大似然估计法的具体数学定义：设总体X的分布为[fx，θ，θ∈Θ，] [Θ]是[θ]的参数空间，当X是离散型时，[fx，θ]为X的概率分布;当X是连续型时，[fx，θ]为X的密度函数，而[x1，x2，…，xn]为样本[X1，X2，…，Xn]的观测值，称[Lθ=i=1nfxi，θ，θ∈Θ]为似然函数，[Lθ]取最大值所对应的[θ]作为[θ]的估计，并称[θ]为[θ]的最大似然估计.

从字面上解释，“似然”就是“像”的意思，所以最大似然估计法就是根据样本的部分已知情况来推测最像或者最可能产生这种情况的原因，以及样本的整体情况，即“最可能的解释就是最好的解释”. 需要注意的是，由于最大似然估计法是统计学中频率学派的代表，所以我们运用最大似然估计思想的前提，是需要坚持统计学中频率学派的思想，即参数是客观存在的，只是未知而已. 通俗來说，就是所有的解释都只有正确和错误两种情况，而不存在能用概率来衡量的中间状态. 在最大似然估计法中的体现就是忽略低概率事件，直接将高概率事件认为是真实事件的思想.

了解了最大似然估计法的定义和思想内涵，下面我们再来看看最大似然估计法的具体应用方法.

三、应用实例增理解

运用最大似然估计法能够解决统计学中的很多问题，下面将通过两个典型的分布问题——二项分布和超几何分布，来具体阐述其方法的核心.

题目1 （二项分布）假设一个袋子中放有若干个白球和红球，已知这两种颜色球的数量之比为1∶3. 现有放回地抽取3个球，希望通过抽到白球的情况估计白球在袋子里所占比例.

解析：该题满足二项分布条件，设取到白球的个数为X，则X的可能取值为[0，1，2，3.]

假设白球所占比例，即摸到白球的概率为p，则红球所占比例，即摸到红球的概率为[q=1-p.]

根据题目条件，可知参数[p]只能取[14]或[34.]

则[PX=k=Ck3pkq3-k，k=0，1，2，3.] 计算所得[X]取不同值时的概率如表1所示.

由表1可知，当[X=0]或[X=1]时，参数[p]为[14]的概率较大;当[X=2]或[X=3]时，参数[p]为[34]的概率较大，所以一个合理的估计为：[p=14，X=0，1，34，X=2，3.]

根据最大似然估计原理的思维基础，使得取值概率最大的参数就是真的参数，即[p]就是p的最大似然估计.

题目2 （二项分布）如果某批产品中有a件次品、b件合格品，采用有放回抽样的方式从中抽n件产品.

（1）恰好有k件产品是次品的概率是多少？

（2）若从n件产品中抽到k件次品，这批产品的次品率为多少？

解析：（1）由n重伯努利试验模型可知，由于每次试验取到次品的概率为[aa+b，] 取到合格品的概率为[ba+b，]

则在取出的n件产品中恰好有k件是次品的概率[ak=Cknaa+bkba+bn-k.]

（2）此小题的求解要用到最大似然估计法，由于[ak]的系数[Ckn]对求似然函数最大值没有影响，故不做考虑.

[ak]取对数以后的似然函数可以表示为[gp=klnp+][n-kln1-p，] 其中[p=aa+b.] 要注意，k作为已知量，[gp]只是关于p的函数.

对函数[gp]求导，并令导数等于0，得

[dgpdp=kp-n-k1-p=0.]

通常把这个方程叫做似然方程，解得[p=kn.]

所以当[p=aa+b=kn]时，[ak]取到最大值.

故利用最大似然估计法，得到所求次品率为[kn.]

如果将题目2中“有放回”的条件变为“不放回”，则此问题就转变为超几何分布问题.

题目3 （超几何分布）如果某批产品中有a件次品、b件合格品，采用不放回抽样的方式从中抽取n件产品.

（1）恰好有k件产品是次品的概率是多少？

（2）若从n件产品中抽到k件次品，这批产品的次品率为多少？

解析：（1）将从[a+b]件产品中取出n件产品的可能组合全体作为样本点，总数为[Cna+b.]

其中，次品出现k次的可能为[CkaCn-kb.]

令[N=a+b，] 则所求概率为[hkN=CkaCn-kN-aCnN.]

（2）若沿用题目2的方法对[hkN]求导，计算量较大. 于是我们对相邻两项进行比较，

即[hkNhkN-1=CkaCn-kN-aCnNCkaCn-kN-1-aCnN-1=N2-aN-nN+anN2-aN-nN+kN.]

令[hkNhkN-1=λ，]

则当[an>kN]时，[λ>1;] 当[an<kN]时，[λ<1，]

即当[N<ank]时，[hkN]是关于[N]的增函数;当[N>ank]时，[hkN]是关于[N]的减函数.

所以当[N=ank]时，[hkN]达到最大值，故次品率为[aN=kn.]

仔细观察就会发现，当产品总数很大而抽样数不大时，采用有放回抽样与不放回抽样对结果的影响并不大. 教材选择性必修第三册中的一道例题同样说明了这一点：在一批总数为1 000件的产品中，有10件次品，分别采取有放回和不放回两种方式抽取5件，依次计算两种方式抽到[n n=0，1，2，3，4，5]件次品的概率. 计算后发现，两种取样方式得到的概率差的绝对值均小于0.000 1. 从直观角度理解，当产品数量很大时，不放回虽然会影响下次抽取的概率，但这个影响对产品数量结构的影响很小，故可以忽略;从数学角度理解，[hk=CkaCn-kbCna+b=Akak！ ∙ An-kbn-k！Ana+bn！=CknAkaAn-kbAna+b=Cknakbn-ka+bn ∙ Akaak ∙ An-kbbn-kAna+ba+bn，]当[k]比[a]小得多，[n-k]比b小得多时，有[Akaak ∙ An-kbbn-kAna+ba+bn≈1.] 此时我们可以得到[hk≈ak]. 所以即使在实际工作中采用不放回的抽样方式，但只要产品数量很大而抽样数量不大，我们也可以用二项分布作为超几何分布的近似来减少计算量.

我们再来思考本文一开始提到的“估计鱼池中总共有多少条鱼”的问题. 在[N=ank]中，令[a=1 000，n=][200，k=10，] 就可以解得当[N=20 000]时，捕到200条鱼中有10条带标记的可能性最大，那么就可以估计出这个鱼池总共有[20 000]条鱼.

四、开拓视野辨异同

实际上，除了最大似然估计法之外，最小二乘法和贝叶斯估计法也是统计学中很常见的参数估计方法，下面我们就来看看这两种方法与最大似然估计法的联系与区别.

1. 最小二乘法

最小二乘法是高斯在研究误差分析的过程中发明的一种方法，其思想在于从样本数据中拟合出与真实值误差的平方和最小的参数. 既然在这个参数下误差的平方和达到最小，那么也就有理由相信这个参数是真实的. 高斯通过这个方法巧妙追踪到了消失的“谷神星”的位置. 这个方法究竟如何使用？让我们通过教材选择性必修第三册中的简单线性回归的例子来详细说明.

例某小卖部6天卖出某热饮的杯数与当天气温的对照如表2所示.

解析：通过画散点图，发现这些点基本在一条直线附近，则确定回归直线方程为[y=a+bx.]

利用最小二乘法思想，可知[26，20， 18，24，][13，34， 10，38， 4，50， -1，64]為平面上的点，这些点的纵坐标与回归直线上对应点的纵坐标之差就是误差.

将这些误差的平方加起来，得误差函数[Lyi，yxi=]

[i=1nyxi-yi2][=i=1na+bxi-yi2，] 其中[n=6.]

为了得到拟合效果最好的参数a和[b，] 就要使误差函数取值最小，教材选择性必修第三册第85到第86页的阅读材料中给出了利用配方法求出参数[a]和[b]的过程.

[i=1nyi-bxi-a2=i=1nyi-y+y-bx+a-bxi-x2=][i=1nyi-y2+ny-bx+a2+b2i=1nxi-x2+2y-bx+a ·]

[i=1nyi-y-2by-bx+ai=1nxi-x-2bi=1nxi-xyi-y=]

[i=1nyi-y2+ny-bx+a2+b2i=1nxi-x2-2bi=1nxi-xyi-y=][i=1nyi-y2+ny-bx+a2+i=1nxi-x2b2-2bi=1nxi-xyi-yi=1nxi-x2=][i=1nyi-y2+ny-bx+a2+i=1nxi-x2b-i=1nxi-xyi-yi=1nxi-x22-][i=1nxi-xyi-y2i=1nxi-x2=ny-bx+a2+i=1nxi-x2b-i=1nxi-xyi-yi=1nxi-x22+]

[i=1nyi-y2-i=1nxi-xyi-y2i=1nxi-x2，] 其中[y=i=1nyin，x=i=1nxin.]

上式中，后两项与[a]和[b]的值都无关，而前两项为非负数. 因此，当且仅当前两项的值都为0时，[i=1nyi-bxi-a2]取最小值，即有[a]和[b]的最小二乘估计为[b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nxi2-nx2，a=y-bx.] 代入数据，得[a≈57.59，b≈-1.65.] 则回归直线方程为[y=57.59-1.65x].

利用最小二乘法可以在选定模型下取到一个最优的参数. 例如，上面的例题是从一次函数这个模型去拟合，得到一次函数中最优的参数a和b. 若将[yx]换成指数函数[cedx]去拟合，同样可以得到在指数函数中最优的参数c和d. 而在利用最大似然估计法求参数的估计值时，则需要知道变量的概率分布情况. 值得一提的是，在一元回归中，如果假定误差服从正态分布，那么利用最大似然原理与最小二乘法求得的参数估计结果是一致的. 两种方法没有优劣之分，只是从不同的角度确定最接近真实情况的参数的估计取值.

2. 贝叶斯估计法

前文曾提到，最大似然估计法是频率学派的经典方法. 频率学派是现代统计学中主要的两大学派之一，另外一个是贝叶斯学派，而贝叶斯估计法则是贝叶斯学派的经典方法. 自20世纪数理统计大发展以来，频率学派和贝叶斯学派经常发生热烈的争论，而争论的根本原因就是这两大学派对概率本质的认识不同：频率学派认为概率是物质世界的一种客观属性，并不因认知主体的不同而发生变化;贝叶斯学派则把概率看作对物质世界的一种主观认识，是认知主体对物质世界信息量掌握多少的一种度量.

举例说明，在晚上7：00—8：00 时间段，小明在房间内玩游戏的可能性是60%，学习的可能性是40%. 在这个时间段内，小明妈妈推开小明房门，看到小明在玩游戏的概率是多少？对于这个问题，无论是在频率学派思想下还是贝叶斯学派思想下，答案显然都是0.6.

而如果小明妈妈事先在小明房间安装了监控，已经知道推门后会看到小明在玩游戏，那她推门后看到小明在玩游戏的概率是多少呢？在频率学派观点下，因为小明是否在玩游戏的行为是一种客观存在，而概率是描述这种客观存在的属性，所以无论认知主体是否能预知试验结果，事件概率不变，也就是小明玩游戏的概率仍然为0.6;而在贝叶斯学派的观点下，由于认知主体已经得知了试验的结果，所以小明玩游戏的概率就是1.

再换一种情况，如果小明妈妈没有在小明房间安装监控，推门后发现小明在看手机，她立即从小明手里拿走手机，但是并没有看手机界面，所以小明具体是用手机打游戏还是查学习资料并不确定. 在这种情况下，小明妈妈推门后发现小明在玩游戏的概率又是多少呢？依据频率学派的思想，由于在小明妈妈拿到小明手机之后小明是否在玩游戏的行为已经确定了，所以研究对象不再是一个随机事件，也就是说小明在玩游戏的概率为1或0. 如果认为在频率学派的思想下小明此时玩游戏的概率为0.6，则指的是此时小明妈妈手中的手机会自动按照一定的概率在游戏界面和学习资料界面切换. 而依据贝叶斯学派的思想，虽然小明是否在玩游戏的行为已经确定，但是对于小明妈妈这个认知主体来说结果仍然是未知的，所以这个问题的概率就和此例最初情形下的概率是一样的，即0.6.

這种对概率本质认识的不同自然也在两大学派下的经典方法中体现出来. 在贝叶斯估计法中，一个重要的理论核心就是贝叶斯公式. 在教材选择性必修第三册中，贝叶斯公式的具体定义如下.

贝叶斯公式定义：设[Ω]为试验E的样本空间，A为E的事件，[B1，B2，…，Bn]为[Ω]的一个分割，且[PBi>0][i=1，2，…，n，] 则[PBiA=P（Bi）PABii=1nP（Bi）PABi.]

其中，[PBi]称为先验概率，它通常是根据已有的经验提前做出的假定;[P（BiA）]称为后验概率，反映的是在试验结束后，结合之前做出的假定及试验的结果得到的新认知.

贝叶斯公式想要阐述的是对某个想要知道的事件发生的可能性先做出一个假设，然后根据试验后得到的新信息修正之前的假设，从而得到想要知道的事件发生的可能性的新认知. 其中体现出的贝叶斯学派的思想在于：由于想知道的事件发生的可能性在试验结束后相对于认知主体来说仍然是未知的，所以依然可以将该事件当作随机事件去计算概率，这也就是存在先验概率和后验概率的原因. 而频率学派则认为，事件概率的大小在试验结束后已经确定，即研究的对象不再具有随机性，也就不涉及概率问题.

这种区别具体到最大似然估计法和贝叶斯估计法中，就体现在对参数的理解. 参数表示的是事物的某种系统特征，在最大似然估计法中将参数当作一种固定的未知变量，而贝叶斯估计法则认为参数是随机变量. 另外，由于最大似然估计法本质上仅仅利用了样本信息，而贝叶斯估计法将主观先设定的先验信息与样本信息相结合，所以在样本量足够大时，最大似然估计法能够得到较好的统计推断结果;而当样本量较小时，贝叶斯估计法的优越性就体现了出来. 当然，因此贝叶斯估计法需要先假定一个先验信息，所以常被频率学派认为推断过于主观，结果缺少科学性. 或许有人会问，频率学派和贝叶斯学派究竟哪一派的理论是正确的呢？最大似然估计法和贝叶斯估计法又是哪一种方法比较好呢？事实上，我们并不能简单地用正确与否来判断这两大共同撑起现代统计学的学派，具体到其经典方法当中也是如此，需要根据具体问题具体分析. 两种估计方法各有优、缺点，有时也会起着互补的作用，因此相比于判断这两种方法的优劣而言，了解这两种方法的适用条件和具体应用方法是更加有意义的事情.

五、结束语

综上所述，教材中一些看似可以用简单的数学式子计算出来的统计问题背后，其实蕴含着深刻的统计方法与思想，如本文讨论的最大似然估计思想. 数学既是一种文化、思想的体现，更是现代理性文化的核心，是一种无形的客观存在，教育的目的也不仅是学会知识，更是学习一种思维方式. 这就要求数学教师在教学中做到勤于思考、乐于钻研、持续反思，提高自己的专业知识水平与专业素养，尽可能拓宽自己的视野，培养自己的可持续性学习能力，尤其是在专业知识方面. 正所谓：教学相长，只有教师自身的专业水准不断提高，才能做到将深刻的数学思想渗透到日常教学中，从而让学生领略到数学不仅是简单的公式计算，更有其丰富的思想内涵，让其感悟到数学之美，达到数学教学思想性、素养性、文化性的要求.

参考文献：

[1]王云峰，陈卫东. 统计学原理：理论与方法（第三版）[M]. 上海：复旦大学出版社，2017.

[2]魏宗舒. 概率论与数理统计教程[M]. 北京：高等教育出版社，2008.

[3]李贤平. 概率论基础[M]. 北京：高等教育出版社，2010.

[4]范超. 概率是物质属性还是主观认识：频率学派与贝叶斯学派的区别[J]. 中国统计，2016（8）：40-41.

[5]胡典顺，邵贵明，姚曼. 数学文化的探索之旅：写给中学生的数学文化入门书[M]. 武汉：湖北科学技术出版社，2019.

[6]褚蕾蕾，李换琴，张芳.“高等数学”教学与反思取向的教师专业发展[J]. 大学数学，2020，36（4）：20-24.