APP下载

基于统计图对概率密度概念的探讨

2021-07-10孙廷哲

上饶师范学院学报 2021年3期
关键词:组数概率密度函数概率密度

孙廷哲

(安庆师范大学 生命科学学院,安徽 安庆 246133)

生物统计学是一门运用概率论和数理统计方法,研究生命现象数据的科学[1]。生命科学领域的数据包括现象和调查资料,通过数据提取特征并得出相应结论,都需要运用到生物统计学的相关知识。在大数据时代,更需要统计学的分析方法提炼有效信息。“生物统计学”是生命科学本科各专业的必修课程,对培养学生的科研素质和解决问题的能力起到了至关重要的作用。但生物统计学的理论性强、公式较多、内容抽象,同时受限于课程安排,生命科学各专业的学生数学基础普遍较为薄弱,所以学生学习“生物统计学”的积极性不高,普遍无法理解和掌握统计学核心内容。因此,探索“生物统计学”核心内容教学的合适方法,挣脱复杂理论的束缚至关重要。

概率质量函数(Probability Mass Function,PMF)是离散随机变量在其定义域内特定取值的概率。由于现行中学教材已对基本概率统计进行介绍,同时概率质量函数多涉及有限情形,所以学生对其理解并不困难。当从离散随机变量演化到连续随机变量,随机变量的描述需要从概率质量函数演变成概率密度函数(Probability Density Function,PDF)[2]。国内较为通用的“生物统计学”教材皆是先引入区间内取值概率的定义,进而通过取区间极限的方式定义概率密度[3]。但从离散随机变量到连续随机变量,本质上是从“有限、可列无限”到“不可列无限”情形的转变,需要学生对“不可列无限”有较为直观的认识,这是统计学的基础。但对于初学者,尤其是生命科学相关专业的学生而言,概率密度并不是一个容易理解的概念。其基本思想,即“观察到连续随机变量任意特定取值的概率为0”和“连续随机变量在特定非零区间取值的概率为概率密度函数在此区间积分”并非十分直观。

直方图(Histogram)是统计学中进行数据分布描述的一种重要图谱,可用于描述数据的分布形式。通过使用MATLAB软件绘制直方图,比较了相对频数(relative frequency,也称为频率)和频率密度(frequency density)的不同,演示了相对频数、频率密度和累积频率密度随直方图中组数(bin)的变化趋势。由于相对频数和频率密度的极限分别对应于概率和概率密度,此演化过程有助于学生正确理解概率密度基本思想,为学习统计分析方法打下坚实基础。

1 相对频数和频率密度直方图

概率是生物统计学中的基本概念,在“生物统计学”教材中,一般以“统计概率”和“古典概率”的形式引入概率的概念。统计概率以事件发生的频率逼近事件的概率,而古典概率则是在特殊的基本事件等可能性前提下给出了概率的定义。但受到生命科学专业课程设置和学生数学基础限制,传统的“生物统计学”教材都无法从勒贝格测度(Lebesgue measure)角度引入概率的概念[4],而多以相对频数的极限方式介绍概率。因此,概率密度在“生物统计学”教材中一般是以频率密度的方式引入。设fi为直方图中第i 组的频数,N 为数据总数,n 为直方图组数,记:。这里表示相对频数[5],也称为频率,其中

设直方图第i组的组距为hi,记:表示频率密度,其中

为了规避测度论的复杂内容而直观地揭示概率密度的含义,首先使用MATLAB 生成一组伪随机数,通过直方图对相对频数和频率密度进行描述。此组随机数服从标准正态分布N(0,1),随机数样本的容量为2×105,这里可以通过MATLAB 命令randn(1,2e5)或randn(2e5,1)实现。此组随机数的分布如图1A 所示,其中黑色的曲线作为参考线(下同),表示标准正态分布的密度函数,灰色直方图则描述了2×105个随机数的分布状态。图1B中绘制了此组随机数相对频数直方图(图中直方图的组数为30,直方图组距hi相等)。而当组距hi不等时,相对频数直方图的形态很可能发生显著的变化(组数=30,见图1C)。注意到相对频数直方图与标准正态分布概率密度函数一般具有比较明显的偏离(见图1B和C)。直方图中组距越大,组中可能包含的数据个数则越多,其相对频数则较大。此时,若用相对频数除以组距,则可得到频率密度直方图(见图1D),这里使用“频率密度”可更好地描述数据分布的集中性特征。另外,注意到即使在直方图中组数不多的情况下,频率密度直方图和标准正态分布曲线趋势较为一致(比较图1C和1D),因此,“频率密度”直方图与标准正态分布概率密度函数在图形上的一致性表明,“频率密度”可以更好地描述数据的分布特征。在“统计概率”定义下,“频率”在极限意义下可以逼近“概率”。因此,“频率密度”可以作为“概率密度”的一个近似。

图1 相对频数和频率密度直方图

2 相对频数直方图随组数变化

进一步,运用MATLAB绘制相对频数直方图随着组数的变化趋势,这里使用MATLAB内置的histogram 函数。随机数仍为以上生成的一组2×105个随机数。注意到,当组数为100时,直方图中相对频数的最高值约为0.04(见图2A)。而当组数增至500时,图中显示相对频数的最高值将降至0.01以下(见图2B)。而当进一步增加组数时,相对频数图的峰值将进一步降低(见图2C,组数=2 000)。当组数设置为10 000时,注意到相对频数峰值几乎接近于0(见图2D)。由于直方图都使用同一组随机数进行绘制,直方图的组数越多,则组间距越小;较小的组间距可覆盖的随机数的数量也相应降低。以下使用一种形象化的描述:直方图中组数的增多会导致落入每一组随机数的数量减小,即每一组取值的相对频数逐渐降低;对于真实服从标准正态分布N(0,1)的随机变量,其取值数目为正无穷大。当增加直方图的组数直至正无穷大时,每一组将最终只包含1个随机数(即组距收敛为0)并且每一组的相对频数将随之降为0。通常情况下,根据概率的统计定义,相对频数是概率的一种估计,概率为相对频数的极限。因此,此图形象地验证了“观察到连续随机变量任意特定取值的概率为0”这一结论。

图2 相对频数随组数变化直方图

3 频率密度和累积频率密度直方图

接下来,基于同一组随机数分别绘制频率密度和累积频率密度直方图,并探讨其随着组数的变化趋势,结果如图3所示。注意,累积频率密度直方图与对应的频率密度直方图在横轴的组划分方式相同。累积频率密度直方图中某一条形高度为其频率密度直方图对应位置(此处指横坐标相同位置)及其左侧所有条形高度之和。图3中,上图为频率密度直方图。当组数=30时,发现频率密度直方图和标准正态分布曲线较为吻合(见图1A,图3A 上)。增加组数至300,频率密度直方图中的组间距减小,而对应的累积频率密度直方图的进一步逼近一条平滑曲线,这条平滑曲线为标准正态分布的(累积)分布函数(见图3B)。组数增至3 000时,注意到此时频率密度直方图的组距将进一步降低,而累积频率密度直方图的边缘几乎与标准正态分布的分布函数重合(见图3C)。同时,也注意到一些特点:(1)与相对频数直方图不同,(累积)频率密度直方图的图形特征相对稳定;(2)频率密度直方图中条形最大值并不随组数的增加发生显著改变,维持相对恒定。原因在于,虽然随着组数的增加,落在每组中的随机数减少,进而导致相对频数降低,但直方图的组间距也相应变小,故频率密度趋于稳定;(3)累积频率密度呈现单调不减趋势,且逐渐趋近于1(由概率的归一化性质决定)。由于累积频率密度直方图中条形高度为其对应频率密度条形高度之和,而积分亦是一种求和运算。所以,当直方图的组数逐渐增大至正无穷大,组距将逐渐降低至“只包含一个点”,此时的求和运算将“收敛”为积分。因此,“连续随机变量在区间取值的概率为概率密度函数在此区间积分”。另外如前所述,概率为相对频数(即频率)的极限,则概率密度为频率密度的极限。那么同样,当组距缩小至“只包含一个点”,频率密度将演化为概率密度,其条(线)形高度为随机变量取值的概率密度。利用直方图可形象化地探讨概率密度及其相关概念。

图3 频率密度和累积频率密度直方图

4 结语

通过MATLAB软件绘制相对频数、频率密度和累积频率密度直方图,直观地解释了生物统计学中较难理解的概率密度及其相关概念。之所以使用MATLAB 进行统计学教学,是因为MATLAB 作为一种高级语言,其数据结构和函数较之其他统计学软件更接近自然语义并兼具强大的科学计算功能[6],此科学计算功能是SPSS所不具备的,而SAS,Python和R 的语法则不如MATLAB接近自然语义。另外,MATLAB具有友好的用户图形界面和强大的绘图功能,这也是SPSS、SAS、Python和R 所欠缺的(如Python为了实现MATLAB的部分绘图功能,特意引入了Matplotlib库[7])。

值得注意的是,通过逐步绘制直方图的方式来理解概率密度及其相关概念,虽然较为直观,但并不能替代概率统计中对概率密度定义的正式介绍(即概率密度函数的积分为分布函数,或分布函数的导数为概率密度函数)[8]。另外,通过增加直方图中组数的方式来逼近真实概率密度函数亦是不完备的,无法确切解释概率作为一种“测度”的本质。只是由于生命科学专业的基础课程不包含实变函数和概率论等经典数学内容,所以采用直方图逼近的方式引出概率密度的概念可能只适用于非数学相关专业的本科生。另外,直方图逼近的方式引出概率密度等概念亦无法完整描述概率论中“零测集”的概念[9],因此在直方图中收缩组距至“只包含一个点”严格来讲亦是一种不精确表述,这也是此方法的一个不足之处。但此方法本质上是建立在伯努利大数定律(Bernoulli's Law of Large Numbers,n 次独立重复试验中事件A 发生的频率依概率收敛于事件A 发生的概率pA,即频率稳定于概率[10])基础之上。用相对频数逼近概率,以频率密度近似概率密度,仍不失为一种辅助生命科学各专业学生正确理解概率密度相关概念的重要手段。

猜你喜欢

组数概率密度函数概率密度
幂分布的有效估计*
连续型随机变量函数的概率密度公式
计算连续型随机变量线性组合分布的Laplace变换法
基于GUI类氢离子中电子概率密度的可视化设计
一类求不定方程正整数解的组数问题的解法及推广
已知f(x)如何求F(x)
基于变构模型的概率密度函数的教学探索
论高三体育考生训练中的力量训练
随机结构-TMD优化设计与概率密度演化研究
非高斯随机分布系统自适应控制算法的研究