APP下载

探寻泊松分布与零堆积泊松分布的优劣

2013-04-29同贞

新校园·中旬刊 2013年6期
关键词:参数估计

同贞

摘 要:本文在给出零堆积泊松分布定义的基础上,讨论了其与泊松分布在拟合零出现较多的计数数据时的优劣,最终得出结论。

关键词:泊松分布;零堆积泊松分布;参数估计

在实际生活中,我们都会遇到种类繁多的计数数据,对于不同的数据根據数学的方法,可以把他们用数学的模型拟合出来,以便于对数据进行猜测与预期。一般情况下,泊松分布以及泊松过程对于描述这些社会管理活动、生产活动等产生的计数数据具有非常好的拟合效果。

为了解各高校学生对期末考试的重视程度,有人对某高校所有本科在读学生2012年下半年期末考试每场缺考人数做了追踪调查与统计。已知此校每个时间段共有考场78个,每个考场每天平均进行4场考试,从刚开始考试到全部学生考完所用时间为15天,即知道此学校本次期末考试总共进行了4680场考试。现取n=4680为样本容量,k表示缺考人数,nk为在k下的考试场数,p为频率,且得到追踪统计的结果如下:

k 0 1 2 3 4

nk(观测频数) 2985 1341 300 47 7

我们首先用泊松分布来模拟此组数据。用泊松分布的极大似然估计法计算λ的值,步骤如下:

此问题的似然函数为:L(λ)=■P(X=i)=■■e■

=■e■

则对数似然函数为:lnL=-nλ+■xilnλ-■ln(xi!)

由■λ=■=-n+■■xi=0,得到■≈0.4509

由此可计算服从此分布的理论数据如下:

k 0 1 2 3 4

■k(理论频数) 2981.6 1344.1 303.3 45.4 5.2

对相同的数据,我们用零堆积泊松分布模型拟合,结果会是怎样呢?

下面我们就用零堆积的泊松分布来拟合此组数据。首先先介绍一下零堆积泊松分布的概念及参数估计。

随机变量X是以概率p服从退化的零点分布,以概率1-p服从参数为λ的泊松分布,其中p∈(0,1),我们称这样的分布为零堆积泊松分布,并记X~ZIP(λ,p),x的概率分布为

P(X=0)=p+(1-p)e-λ,k=0,P(X=k)=(1-p)e-λλk/k!,k=1,2,….

其参数的极大似然估计法如下:

若随机变量X~ZIP(λ,p),并且X1,X2,…,Xn是来自ZIP(λ,p)的一个样本,观测值为x1,x2,…,xn,取值为[0,k]之间的整数。令x=(x1,x2,…,xn),X=■Xi/n,其似然函数为L(λ,p;x)=■(p+(1-p)e-λ)■

((1-p)e-λλ■/xi!)■,其对数似然函数为:lnL(λ,p;x)=Ixi=0(xi)■ln(p+(1-p)e-λ)+Ixi≠0(xi)■ln(1-p)e-λλxi/xi!),其中I[A](x)=1,若x∈A,0,若x?埸A.

令φ=(1-p)(1-e-λ),用ni表示n个样本X1,X2,…,Xn中取值为i的样本数,i是取值为[0,k]之间的整数,于是对数似然函数变换如下:

lnL(λ,φ)=n0ln(1-φ)+■ni[ln(1-e-λ)-1φ]+ilnλ-λ-lni!]

=n0ln(1-φ)+(n-n0)lnφ+■ni[-ln(1-e-λ)]+ilnλ-λ-lni!]

那么只需解似然方程组:

■lnL(λ,φ)=-■+■■=0,

■lnL(λ,φ)=-■■ni+(■ini)■-■ni=0.

因为■ni=n,并且■ini=nX,

整理方程得到■=(n-n0)/n,(n-n0)■+n■(e-■-1)=0,■=1-■/(1-e-■).

现在我们假设X服从零堆积泊松分布,并根据以上结论计算出零堆积泊松分布下的参数估计值■,■,■。其中,n=4680,n0=2985,X=■Xi/n=■≈0.4509,进而得到:■≈0.3622■≈0.4553■≈0.0097

由此,算出各个样本点的理论频数如下:

k 0 1 2 3 4

■k(理论频数) 2984.9 1340.8 301.9 46.3 6

现在我们将观测值与这两种分布的理论值汇总进行比较:

k 0 1 2 3 4

nk(观测频数) 2985 1341 300 47 7

■k(泊松分布理论频数) 2981.6 1344.1 303.3 45.4 5.2

■k(零堆积泊松分布理论频数)2984.9 1340.8 301.9 46.3 6.6

显然可以得到,零堆积泊松分布的理论频数比泊松分布的理论频数更加接近实际观测频数。为了更进一步说明用哪个模型来模拟零出现较多的一组计数数据比较有效,我们用χ2=■(nk-■k)2/■k计算出它们各自的χ2值(χ2值代表通常的χ2统计量),如下:

χ2

■k(泊松分布理论频数) 0.7264

■k(零堆积泊松分布理论频数) 0.0468

由上面的数据可以看出,泊松分布和零堆积泊松分布对于此组计数数据都给出了非常好的拟合效果。事实上,根据进一步计算出的χ2值相比较,我们知道用零堆积泊松分布拟合这样的数据效果明显比泊松分布好。

因此可以得出结论:零堆积泊松分布在拟合包含大量零的计数数据时比泊松分布效果更好。(指导教师:文平教授)

参考文献:

[1]韦博成,谢峰昌.ZI纵向计数数据模型的影响分析[J].应用概率统计,2006,(03).

[2]叶俊,赵衡秀.概率论与数理统计[M].北京:清华大学出版社,2005.

[3]上海财经大学应用数学系.概率论与数理统计(第三版)[M].上海:上海财经大学出版社,2012.

[4]严珉.数学方法在保险学中的应用[J].管理与财富,2009,(04).

[5]叶兴德,程晓良,陈明飞,薛莲.数值分析基础[M].杭州:浙江大学出版社,2008.

[6]张德丰.Matlab概率与数理统计分析[M].北京:机械工业出版社,2010.

猜你喜欢

参数估计
基于新型DFrFT的LFM信号参数估计算法
误差分布未知下时空模型的自适应非参数估计
不完全观测下非线性非齐次随机系统的参数估计
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
一类随机食饵-捕食者模型的参数估计
浅谈死亡力函数的非参数估计方法
Logistic回归模型的几乎无偏两参数估计
基于向前方程的平稳分布参数估计
α稳定分布噪声下基于最优L-柯西加权的LFM信号参数估计
基于竞争失效数据的Lindley分布参数估计