类比教学法在“概率论与数理统计”课程中的应用
——以连续型随机变量为例
2023-12-22钱欣洁
钱欣洁,刘 欢
(金陵科技学院 理学院,江苏 南京 211169)
引言
概率论与数理统计是研究随机现象的学科,将随机现象“量化”成随机变量,并用随机变量的不同取值表示随机现象的不同的试验结果。设随机试验的样本空间为Ω,对每个ω∈Ω,总有一个实数X(ω)与之对应,则称Ω上的单值实函数X(ω)为一个随机变量[1]。随机变量可分为离散型随机变量、混合型随机变量和连续型随机变量。混合型随机变量较复杂,一般本科教材只介绍离散型随机变量和连续型随机变量。由于离散型随机变量表现形式简单,学生很容易掌握。但学生对于连续型随机变量的相关内容理解不深,掌握不牢。连续型随机变量的概率密度函数、函数的分布和条件概率密度是概率论与数理统计课程中的基础,通过总结往年的教学经验发现,学生学习这些内容时较吃力,很多学生只是死记硬背,无法从本质上理解掌握这部分内容,在做题时也经常出错。
类比教学法[2]是课堂教学活动中应用较广泛的方法之一,将类比的思维用到课堂教学活动中,通过将两件事情做类比,可以自然而然将学习者的原有经验,和需要学习的新知识,通过某种微妙的相似性建立起连接,从而帮助学生有效地理解新知识。本文利用类比教学法,将连续型随机变量的概率密度函数、连续型随机变量函数的分布和条件概率密度分别与离散型随机变量分布律、离散型随机变量函数的分布和条件分布律做类比,化繁为简、深入浅出地使连续型随机变量的相关内容具体化,有趣生动地帮助学生从本质上理解这部分内容,彻底掌握连续型随机变量的相关知识。
一、类比连续型随机变量的概率密度函数与离散型随机变量分布律
本节只讨论一维随机变量,二维随机变量的类比方法与一维相同,这里不再做详细阐述。对于一维离散型随机变量,我们用分布律表示它的所有可能的取值及取每个值的概率。设离散型随机变量X的所有可能的取值为xi,X取xi的概率为pi(i∈N,i≥1;),则随机变量X的分布律为:P{X=xi}=pi,i∈N,i≥1。它满足性质:
这两条性质是分布律的本质,任给一个满足这两条性质的函数可作为某个随机变量的分布律。用分布律来研究离散型随机变量的统计规律,简单易懂,一目了然。
对于一维连续型随机变量,我们也想用如此直接的方法,将随机变量每个取值处的概率列举出来,但这时随机变量的取值点是不可列的。那如何像离散情况那样给出随机变量每个点的概率呢?或者说,如何得到一个定义在随机变量取值点的函数,这个函数与取值点的概率有关呢?我们采取了高等数学中经常用的方法,讨论“一个点”的概率情况,我们可以稍微扩范围,考虑一个无穷小区间上的概率,这个区间概率除以区间长度就得到了“平均概率”,而当这个无穷小区间趋近于零时,“平均概率”的极限就是我们需要的函数,这里Δx表示区间长度,ΔF表示区间上的概率。
若分布函数F(x)处处可导,则处处存在,这样可以定义函数,称之为概率密度函数。但是现实生活中随机现象的分布函数往往不能处处可导,所以以上概率密度函数的定义有缺陷。为了研究更多现实生活中的随机现象,我们需要降低对分布函数F(x)的要求,即虽然分布函数F(x)不是处处可导,但是存在一个函数f(x),使其变上限积分为F(x),具体地定义如下。
定义1[3]42:如果对于随机变量X的分布函数F(x),存在非负函数f(x),使得对于任意实数x有
则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。
连续型随机变量的概率密度函数满足性质:
这两条性质是概率密度函数的本质,任给一个满足这两条性质的函数可作为某个随机变量的概率密度函数。概率密度函数的规范性与分布律的规范性类似,因为可以看作不同测度集上的两种积分定义方式。
由以上分析可知,离散型随机变量用分布律来表示随机变量取值点及其概率,连续型随机变量是用一个定义在随机变量每个取值点处的概率密度函数来揭示其统计规律。分布律与概率密度函数具有的性质十分类似,都满足非负性和规范性。
二、类比连续型随机变量函数的分布与离散型随机变量函数的分布
本节只讨论一维随机变量。对于一维离散型随机变量函数g(x)的分布问题,我们可以直接将函数代入到随机变量的分布律中得到新的随机变量Y=g(X)的分布律[4]。具体地,将随机变量X中任一取值点t代入函数g(x),得到新的取值点y=g(t),而y发生的概率等于t发生的概率,最后将相同取值点的概率相加,就得到了随机变量Y的分布律。
对于一维连续型随机变量函数的分布问题,类比于离散型随机变量,我们也想通过直接将连续函数g(x)代入到连续型随机变量X的概率密度函数fX(x)中得到新的连续型随机变量Y=g(X)的概率密度函数fy(y)。但是概率密度函数“相当于”分布函数F(x)的导函数,而求概率密度函数fy(y)就是求复合函数的导函数,我们无法直接从导函数fx(x)推出复合函数导函数fY(y),所以需要讨论复合原函数的导数来得出fY(y)。也就是说,先由随机变量X的概率密度函数推导出随机变量X的分布函数,再由此推出随机变量Y的分布函数,最后求导得到随机变量Y的概率密度函数。具体流程如图1所示。
图1 连续型随机变量函数概率密度推导过程
由以上分析可知,连续型与离散型随机变量函数分布问题的求解方法具有一定的相似性,讨论离散型随机变量函数分布问题就是求解分布律,可将此函数直接代入原有分布律求得。而讨论连续型随机变量函数分布问题就是求解概率密度函数,可将此函数代入新的分布函数并求导得到。这两种方法之间具有相似性,可以进行对比学习。
三、类比连续型随机变量条件概率密度与离散型随机变量条件分布律
对于条件概率,我们只讨论二维随机变量。二维离散型随机变量(X,Y),如果固定j,并且P,则称[3]68
为在Y=yj条件下X的条件分布律。
对于二维连续型随机变量(X,Y),我们也想讨论条件概率P{X=xi|Y=yj}的值,但连续型随机变量在一点的概率为零,即P{X=xi,Y=yj},所以考虑一点处的条件概率并没有意义,需要讨论一个区间的条件概率,即讨论条件分布函数P{X≤x|Y=y} 。对于此分布函数,类似于公式(2),我们希望用公式
来定义。然而P{Y=y}=0,公式(3)没有定义。那我们将公式(3)如何变形才能得出正确的条件分布函数的定义呢?我们用类似于高等数学中“可去间断点”的想法来将公式(3)变形。因为公式(3)在y点没有定义,那么稍微扩大讨论范围,讨论在区间(y,y+ε]上的条件概率P{X≤x|y<Y≤y+ε},然后再令ε→0+,这样得到。若此极限处处存在,则它可作为条件分布函数的定义。
这里0<δ1,δ2<ε。由此,固定y,当fY(y)>0,我们可以定义Y=y条件下X的条件分布函数为。现在条件分布函数的定义得出了,那条件概率密度如何定义呢?类似于第一节的讨论,我们可以用“导数的观点”推导出条件概率密度的定义Y=y,即条件下X的条件概率密度就是
结语
本文通过将连续型随机变量概率密度函数,条件概率密度分别与离散型随机变量分布律,条件分布律做类比,一步一步引出连续型随机变量、概率密度函数和条件概率密度的概念,这样比直接给学生定义更能让学生接受,也更利于学生理解此概念。