二项分布参数的无先验信息Bayes估计与点估计的思考
2017-09-12侯瑞环徐翔燕
侯瑞环 徐翔燕
二项分布参数的无先验信息Bayes估计与点估计的思考
侯瑞环 徐翔燕
结合《数理统计》教学过程中的对点估计和Bayes估计的讲解,从实际应用的角度出发思考二项总体参数的无先验信息Bayes估计与点估计之间的关系:当样本容量n≥971时,两种估计的误差达到0.001甚至更小;并且,随着样本量不断增加两种估计结果趋于一个稳定的真实值。
点估计作为大学《数理统计》的教学中最简单、最有效的参数估计方法显得非常重要,也是统计推断中不可或缺的内容。通常,点估计的方法主要有矩估计和极大似然估计。然而,无论是矩估计还是极大似然估计都有着非常明显的优点和缺陷。矩估计应用样本信息对总体分布部分特征做统计推断以达到对整个总体特征的推断,这显然很难完成;极大似然估计较多的注重总体信息的应用,与矩估计相比有显著的改善。但是,这些经典参数估计方法都缺少了对参数本身的思考,只是从样本本身出发,将未知参数默认为未知常数来完成统计推断,导致了参数本身信息的流失,这是一种明显的信息浪费。区别于经典统计学派的Bayes学派提出了参数的Bayes估计很大程度上解决了这一问题,有效的利用了参数本身的信息和样本信息,使得估计效果在一般情况下都优于点估计方法。Bayes估计方法主要依赖于参数的后验分布,一般情况下,参数的后验分布借助条件概率得到,这种求解后验分布的方法存在争议。目前,在没有更好解决后验分布的情况下可以认为这种办法比较有效,但是参数的后验分布在很多情况下较难得到。正因为如此,本文做出这样的思考:在对二项分布参数的先验信息一无所知时,对参数的估计有没有必要坚持用Bayes估计?能否得到一个样本容量使得Bayes估计和点估计几乎一致?
点估计与Bayes估计
参数的点估计。设X1,L,Xn是来自于二项分布总体b(n,p)的样本,计算总体参数p矩估计和极大似然估计,以定理2.1形式给出。
定理2.1 在上述假设的基础上p的矩估计和极大似然估计分别为:
定理2.1简要证明:
由样本总体分布可知,二项分布(,)bnp的总体矩为()EXnp=,所以根据矩法估计的思想用样本矩代替总体矩可得到
由此可以计算参数p的矩估计。
总体分布的密度函数为:
因此可以得到对数似然函数为:
对(1)式关于参数p求导可以得到其极大似然估计。
根据上述定理可以得到这样一个推论:在n次试验中某一事件发生xi次,参数所对应极大似然估计为。
参数的Bayes估计。在此假设对参数先验信息一无所知,根据Bayes本人的建议按“同等无知”的原则处理,即可以设定参数p的先验分布π(p)=U (0,1)。在这种假设下可以得到参数的Bayes估计如定理2.2。
定理2.2设在上述先验分布的假设下,二项分布b(n,p)的参数p的Bayes估计为:
其中x=xi,i=1,2,L,n。
定理2.2简要证明:由上述假设可知,π(p)=U(0,1),同时可以写出随机变量X与参数p的联合分布
可以得到X的边缘密度
即可得到参数p的后验分布
上式表明参数p的后验分布为贝塔分布Be(x+1,n-x+1),因此可以得到参数的估计为:
结果得证。
数据模拟与误差分析。对二项分布参数基于点估计结果和Bayes估计样本容量分别为15、30、100和200的数据模拟结果见图1~4,并进行误差的比较与分析。
对二项分布参数估计而言,当样本容量较小时,可以看出极大似然估计结果与Bayes估计结果相差较大(图1、2),然而在中位数处取值相等;同时可以看出Bayes估计在极端情况下,估计结果更符合人们的正常理念。当样本容量不断增大时,极大似然估计与Bayes估计在结果上差异越来越小(图3、4),当971≥n时,这两个估计结果只差达到0.001甚至更小,此时就二项分布参数估计的应用而言,可以考虑用点估计得到参数的结果代替Bayes估计的结果。
图1 样本容量为15的估计拟合
图2 样本容量为30的估计拟合
图3 样本容量为100的估计拟合
图4 样本容量为200的估计拟合
为了更好地说明这一观点,在此通过取不同的样本容量n对同一个二项分布的参数分别用点估计和Bayes 估计方法做数据模拟。得到在不同估计方法下估计值与参数真实值之间的误差,结果见表1。
由表1结果可知,点估计与Bayes估计结果都随着样本容量的增加而减小,其中点估计得到结果与真实值之间是一个固定的单点误差值,而Bayes估计与真实值之间误差是一个区间,这个区间随着样本容量增加精度不断提高,当样本容量为30时,精度为0.192,样本量为500时,精度为0.104。总体而言,它们都随着样本容量的增加趋向真实值。
表1 点估计和Bayes估计与参数真实值误差结果
二项分布的参数估计在对参数信息一无所知的情况下,当样本容量较大时,两种方法对参数的估计结果相差很小,并且随着样本容量的增加参数的估计值最终趋向一个稳定的数值,即分布参数的真实值。所以单从二项分布的应用角度思考,在样本容量较大和对参数信息知之甚少的情况下,可以直接用点估计来完成参数的估计,从而得到估计值。这样既可以减少计算参数后验分布的困难,也可以很快的得到参数估计结果。
(作者单位:塔里木大学信息工程学院)
塔里木大学青年创新校长基金(TDZKQN201615)