APP下载

Bootstrap方法与经典方法在区间估计中的比较

2012-02-21丁先文林金官

统计与决策 2012年23期
关键词:样本容量模拟计算置信区间

丁先文,邹 舒,林金官

(1.江苏技术师范学院 数理学院,常州 213001;2.东南大学 数学系,南京 211189)

参数方法计算置信区间的理论和应用已得到大量的研究成果,非参数方法计算置信区间近来得到许多统计工作者的研究和推广,本文通过随机模拟对这两种方法进行比较研究。

1 经典方法计算参数的置信区间

由引理2即可计算参数λ的置信度为1-α的置信区间。

2 Bootstrap方法

非参数统计又称任意分布检验。它是统计学的一个分支。如果在一个统计问题中,其总体分布不能用有限个实参数来刻画,只能对它作一些诸如分布连续、有密度、具有某阶矩等一般性的假定,则称之为非参数统计问题。这类检验不对总体参数进行比较,而是用于分布之间的比较,检验资料的总体分布型是任意的。非参数统计与参数统计相比,有如下几点优点:(1)使用于任何分布的资料;(2)不受总体方差一致的限制;(3)可用于等级资料的统计分析;(4)有些问题本身没有适当的参数检验方法,而非参数检验则恰能处理。

在构造参数的置信区间时,目前常用的非参数方法有经验似然方法、Bootstrap方法、Jackknife方法等。由于非参数推断不需知道总体的分布,因而在实际问题中得到广泛的应用。统计学中Bootstrap方法是指用原样本自身的数据抽样得出新样本及统计量,它是根据给定的原始样本复制观测信息,不需要进行分布假设或增加新的样本信息,可对总体的分布特征进行统计推断,属于非参数统计方法。Bootstrap方法的核心是利用自助样本来估计未知概率测度的某种统计量的统计性质,基本思想是:在有n个原始样本范围内作有放回抽样,样本容量仍然为n,原始数据中每个观测对象被抽到的概率相等,为1/n,所得到的样本称之为Bootstrap样本,于是每次观测都可得到参数θ的估计值,重复B次,就可得到该参数的B个估计值,然后根据实际问题的需要,再作进一步计算。

Bootstrap方法计算参数的置信区间可以采用标准Bootstrap、百分位数Bootstrap、t百分位数Bootstrap和修正偏差后的百分位数Bootstrap等四种方法来估计,本文以正态分布和Possion分布为例,采用百分位数Bootstrap方法计算参数的置信区间[2]。

3 模拟计算

3.1 模拟计算1

利用随机数发生器随机产生一组均值为10,方差为4的样本容量为30正态分布的随机数,分别用Bootstrap方法和经典方法计算均值的置信区间,比较置信区间的长度差异。进行一次抽样,得到正态随机数组如下:

11.1776 4.6553 12.8573 16.4942 7.2329 13.4320 15.0160 3.6251 4.2361 12.2846 8.4005 12.7600 13.2625 12.8476 15.1610 12.6744 14.7634 5.1902 9.9208 9.3731 3.5837 11.0292 5.7741 15.6606 6.7796 12.1150 10.8773 6.3124 1.3173 9.7632

计算结果如表1所示。

表1 经典方法与Bootstrap方法的比较

由表1可知:

(1)无论是经典方法还是Bootstrap方法,随着置信区间的置信度减小,区间的长度也减小,这与理论结果是一致的;

(2)对Bootstrap方法,计算的精度重复与重复抽样的次数B有一定关系,但差别不大,选取适当的B可以提高置信区间的精度;

(3)对正态分布而言,Bootstrap方法得到的置信区间的长度比经典方法的大一些。

经典方法的置信区间用于估计均值的波动情况,与样本容量有关,样本容量越大,则区间长度越小;Bootstrap方法得到的区间长度稍大,用作对下一个数据的预测比较合理。

3.2 模拟计算2

分别用Bootstrap方法和经典方法计算Poisson分布中参数λ的置信区间,比较置信区间的长度差异[4]。

解:利用随机数发生器随机产生一组Poisson分布P(4)的随机数,如下所示:

4 4 8 1 9 2 2 3 9 4 3 2 4 2 3 4 6 6 4 3 3 2 3 0 23 2 4 3 3

计算结果如表2所示。

表2 经典方法与Bootstrap方法的比较

由表2可知:

(1)无论是经典方法还是Bootstrap方法,随着置信区间的置信度减小,区间的长度也减小,这与理论结果是一致的;

(2)对Bootstrap方法,计算的精度重复与重复抽样的次数B有一定关系,但差别不大,选取适当的B可以提高计算精度;

(3)对Bootstrap而言,Bootstrap方法得到的置信区间的长度与经典方法没有明显的差异,选取合适的抽样次数B,结果甚至优于经典的参数方法。

上例说明在Poisson分布场合,Bootstrap方法得到的置信区间的长度与经典方法没有明显的差异。由于Bootstrap方法在计算置信区间时,不需要假设总体的分布已知,也不需要构造枢轴量,有着广泛的实际应用价值。

4 结论

本文通过对正态分布和Poisson分布分别用经典方法和Bootstrap方法计算参数的置信区间,并对结果进行了比较分析。由于Bootstrap方法在计算置信区间时,不必假定总体分布,不需构造枢轴量及精度较好等优点,在实际中有广泛的应用价值,Bootstrap方法的出现为解决实际问题提供了一种新的途径,这在一定程度上为统计工作者提供了很大的方便。

[1]韦博成.参数统计教程[M].北京:高等教育出版社,2006.

[2]Bradley Efron,Robert J.Tibshirani.An Introduction to the Bootstrap[M].New York:Chapman&Hall,1993.

[3]赵慧琴.Bootstrap方法在区间估计中的应用[J].江西科学,2010,(4).

[4]姚源果,夏开萍,罗朝晖.Bootstrap方法下的Poisson分布置信区间的估计[J].广西民族大学学报,2008,(2).

猜你喜欢

样本容量模拟计算置信区间
R1234ze PVTx热物性模拟计算
Maxwell分布参数的最短置信区间研究
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
采用无核密度仪检测压实度的样本容量确定方法
列车定位中置信区间的确定方法
蒙特卡罗模拟在计量经济学中的应用
分层抽样技术在课堂满意度调查中的应用研究
挤出发泡片材褶皱分析及模拟计算
实际发射工况下底排药柱结构完整性的模拟计算