APP下载

关于区间估计精度的讨论

2015-10-21朱坤平江雷刘剑平

朱坤平 江雷 刘剑平

[摘要]精度和信度是描述一个参数区间估计优劣的两个指标,而区间估计的精度又可以用置信区间的长度或区间包含非真值的概率来表示. 本文讨论了区间估计精度的两种不同表示及与之相关的双边检验问题的关系,证明了当选定的枢轴量是待估计参数的线性函数时求解平均长度最小的置信区间问题可简化为确定最小接受域的优化问题,并通过实例说明了用数值算法求解最短置信区间的基本思想.

[关键词]区间估计的精度 枢轴量 UMAU

[中图分类号]O212.1 [文献标志码]A

引言

基于统计数据对未知的参数进行统计推断在实践中有着广泛的应用,其理论基础就是数理统计的两个重要分支,即参数估计和假设检验。参数估计问题又包括点估计和区间估计,其中区间估计问题相对于点估计而言有着独特的优势,它不仅给出了参数的存在范围,而且还给出了该范围包含参数的可信度。區间估计问题不仅和参数的假设检验密切相关,而且,当参数的置信区间收缩为一个点时区间估计就退化成了点估计,即区间估计问题也可以视为点估计的推广。众所周知,刻画一个参数的区间估计优劣的指标是精度和信度,信度是指置信区间包含参数真值的概率,而区间估计的精度可通过置信区间的长度(长度越小精度越高)或置信区间包含参数非真值的概率(概率越小精度越高)来表示。人们自然希望参数区间估计的精度和信度都越高越好。然而,一定条件下,提高了区间估计的精度就会降低区间估计的信度,反之亦然。所谓最优置信区间,就是在一定的置信水平下,精度最高的置信区间,然而这样的区间一般并不存在。于是,人们转而探求在选定枢轴量或附加无偏性等前提下的最优区间估计问题。文献中对参数区间估计的精度问题已有许多的讨论,提出了不同的算法。比如,对均匀分布中参数最优置信区间的讨论[1],[2],伽马分布中参数的最优区间估计的研究[3],正态总体方差最优置信区间的算法[4],[5],对非对称分布参数置信区间的讨论[6],对参数区间估计问题与假设检验的关系的研究[7],以及关于最优风险无偏区间估计的讨论[8]等。本文基于枢轴量方法讨论了区间估计精度的两种不同表示,及其与对应的双边检验问题的关系问题,证明了当选定的枢轴量为参数的线性函数时求解平均长度最小的置信区间问题可简化为确定最小接受域的优化问题,最后,通过实例说明了用数值算法求解最短置信区间的基本思想。

置信区间精度的讨论

参数的区间估计问题和参数的假设检验问题密切相关。一般说来,参数的假设检验问题也可以通过区间估计的方法来处理。然而,这两个问题又不完全等价。为了说明区间估计的精度以及区间估计与对应假设检验问题的关系,我们首先引入几个相关的基本概念。

求解参数的区间估计问题有枢轴量方法,信仰分布方法,似然比方法,渐进分布方法,Bootstrap自助法等许多的方法。其中,枢轴量方法是求解参数区间估计问题最常用的一个方法。借助枢轴量方法来求解正态总体参数的区间估计问题时,涉及到的枢轴量的分布可能是标准正态分布,卡方分布,F分布,或T分布,这些分布的密度函数有一个共同的特点,就是他们都是单峰函数。事实上,当所选取的枢轴量的分布具有单峰密度函数形态时,可以证明,一定置信水平下置信区间长度最小的置信区间一定是存在的而且是唯一的。

引理[11]设,x1,x2,…,xn是来自总体ξ的样本,总体ξ的分布函数为F(x,θ),θ,为未知参数,枢轴量T=(T1,…,Tn;θ)的分布密度函数为p(x),假定p(x)与θ无关,且是单峰一阶可微函数,则θ的最优置信区间存在而且是唯一的。

参数的区间估计问题与参数双边假设检验问题密切相关,如果区间估计的精度用包含非真值的概率最小为标准,那么与参数θ的置信水平为1-α的一致最优无偏(UMAU)区间估计问题对应的就是关于原假设H0∶θ=θ0的水平为α的双边一致最优势无偏检验(UMPU)问题。即参数θ的置信水平为1-α的所有无偏区间估计中,包含非真值概率最小的置信区间可以由对应的UMPU检验问题导出。尽管这个导出的置信区间的长度不一定是最短的,但在θ所有无偏置信区间中它一定是平均长度(置信区间长度的数学期望)最小的。

若选取的枢轴量不是或不能变换成参数θ的线性函数,此时要寻找一定置信水平下长度最短的置信区间,可借助数值算法来实现。其基本思想是若a≤T(X,θ)≤b等价于

最后,我们用一个正态总体方差区间估计的例子来对比说明,优化算法与教材中传统的等尾截取方法得到的置信区间长度的差异。设已知正态总体容量为n的一个样本,样本方差S2=0.5419。对于不同的样本容量n(5~20),分别用传统等尾截取方法和黄金分割优化算法求得的总体方差置信水平为95%的置信区间,结果如表2所示(Text_Chi2表示运用传统方法的解,New_Chi2表示优化算法的解):

如表所示,样本容量越大,优化算法对σ2置信区间的精度提高的就越小。这是因为随着样本容量的增加根据中心极限定理,枢轴量的分布越来越趋近于正态分布。但当样本容量较小时,相比于优化算法用传统的等尾截取的方法得到的置信区间精度较低,即教材中一般采用的等尾截取的方法只适用于样本容量较大的情形。

结论

围绕提高参数区间估计的精度问题,讨论了区间估计精度的两种不同表示及与之相关的双边检验问题的关系。 证明了基于参数的线性枢轴量求解平均长度最小置信区间的问题可简化为最小接受域的优化问题。 最后,通过一个实例说明了用数值算法求解总体方差最短置信区间的基本思路,揭示了传统等尾截取方法的使用范围。

[参考文献]

[1]曾艳.均匀分布参数的最短置信区间[J].赤峰学院学报(自然科学版),2011,9.

[2]潘高田,胡军峰.小样本的均匀分布参数的区间估计和假设检验[J].数学的实践与认识,2002,32(4).

[3]姜培华.伽玛分布参数的最优区间估计和最佳双边检验[J].安庆师范学院学报,2010,16(2).

[4]王建华,张来成.正太总体方差的最短区间估计和最佳双边检验[J].数学实践与认识,2003,33(2).

[5]姜培华.两正太总体方差比的最优区间估计和最佳双边检验[J].菏泽学院学报,2011,33(2).

[6]张庆平.非对称分布置信区间的分析[J].统计与决策,2007(9).

[7]陈乃辉.关于区间估计与假设检验的最优性[J].工科数学,2002,02.

[8]崔雅莉.最优风险无偏区间估计探究[J].时代教育,2011,8.

[9]刘剑平,朱坤平,陆元鸿.应用数理统计[M].上海.华东理工大学出版社,2012.

[10]茆诗松,王静龙.高等数理统计.第二版[M].北京:高等教育出版社,2006.271-300.

[11]孙慧玲.用非线性规划证明最短置信区间存在性与唯一性[J].北京联合大学学报,2008,22(4).

[12]E. Rozeta, S. Rudazb, R.D. Marini, E. Ziémons, B. Boulanger, Ph. Hubert. Models to estimate overall analytical measurements uncertainty:Assumptions, comparisons and applications[J]. Analytica Chimica Acta,2011,702,160-171

[13]Albert Vexler , Sergey Tarima. An optimal approach for hypothesis testing in the presence of incomplete data[J]. Ann Inst Stat Math,2011,63,1141-1163.

[14]Blaise Hanczar , EdwardR.Dougherty. The reliability of estimated confidence intervals for classification error rates when only a single sample is available[J]. Pattern Recognition, 2013,46,1067-1077.

(作者單位:华东理工大学理学院 上海)