APP下载

Cauchy分布的统计分析方法研究

2017-11-04顾蓓青王蓉华徐晓岭

统计与决策 2017年20期
关键词:样本容量真值位数

顾蓓青,王蓉华,徐晓岭

(1.上海对外经贸大学 统计与信息学院,上海 201620;2.上海师范大学 数理学院,上海 200234)

Cauchy分布的统计分析方法研究

顾蓓青1,王蓉华2,徐晓岭1

(1.上海对外经贸大学 统计与信息学院,上海 201620;2.上海师范大学 数理学院,上海 200234)

文章在刻度参数λ已知的情形下,给出了位置参数μ的分位数估计与逆矩估计,通过模拟比较发现分位数估计更加精确。同时还给出了参数μ的区间估计,考察了区间估计的精度;在位置参数μ已知的情形下,给出了刻度参数λ的极大似然估计,考察了点估计的精度;在参数μ,λ都未知的情形下,给出了参数μ,λ的点估计,通过模拟认为位置参数μ的点估计取样本中位数,而刻度参数λ的点估计取极大似然估计(依赖于μ的估计)较为精确。

Cauchy分布;位置参数;刻度参数;逆矩估计;极大似然估计;分位数估计

0 引言

设随机变量X服从位置参数μ、刻度参数λ的两参数Cauchy分布(记为C(μ,λ)),其密度函数f(x)和分布函数F(x)分别为:

特别地,(1)取μ=0 ,此时,

(2)取λ=1,此时,

(3)若取μ=0,λ=1,此时X~C(0,1),即称X服从标准Cauchy分布或t(1),其密度函数f(x)和分布函数为:

由于Cauchy分布的数学期望不存在,使得它在分布理论中占有特殊的地位,在几乎所有的教科书中,Cauchy分布均作为不存在矩的反例而出现,从而使人们误认为它是人为杜撰出来的,并没有其他的实际意义。实际上,文献[1]中曾指出,Cauchy分布在力学、电学、心理生物学、人类学和计量学中都有许多应用。

关于Cauchy分布的参数估计,有一些学者做了研究,取得了一些成果。郭彦在文献[2]中利用特征函数讨论了Cauchy分布的结构、可加性、无穷可分性等概率性质,针对C(μ,1)的参数估计问题,说明了矩法、均方误差最小、极大似然估计法等常用的估计方法均不合适,并利用Cauchy分布的中位数给出了参数μ的点估计。王志祥在文献[3]中针对C(0,λ)通过引入新的随机变量,利用局部矩估计方法给出了参数λ的点估计与区间估计,但局部矩估计依赖于C的取值,影响了该方法的应用。吴庆波等在文献[4]中针对两参数Cauchy分布C(μ,λ),给出了位置参数μ和刻度参数λ的分位数估计。

本文在刻度参数λ已知的情形下,给出了位置参数μ的分位数估计、逆矩估计及区间估计,通过模拟考察了点估计和区间估计的精度,并发现分位数估计更加精确。其次,在位置参数μ已知的情形下,给出了刻度参数λ的极大似然估计,通过模拟考察了点估计的精度。最后,在参数μ,λ都未知的情形下,给出了参数μ,λ的点估计,通过模拟认为位置参数μ的点估计取样本中位数较为精确,而刻度参数λ的点估计取极大似然估计(依赖于μ的估计)较为精确。

1 刻度参数λ已知时,位置参数μ的估计

设X1,X2,…,Xn为来自总体X~C(μ,λ0)的一个容量为n的简单随机样本,其中刻度参数λ0已知,而位置参数μ未知时,下面求参数μ的点估计与区间估计。

1.1 方法一:参数μ的分位数估计

如果次序统计量记为X(1)≤X(2)≤…≤X(n),给定0<p<1,样本的p分位数X*(p)可定义为:

其中上式中的<pn>为pn的整数部分。

由于F(μ)=0.5,则位置参数μ的分位数估计为:1=X*(0.5)

1.2 方法二:参数μ的逆矩估计

化简得:

引理1:(1)μ的方程有唯一实根。(2)对正常数a,μ的方程有唯一实根。

易见,方程(1)的根即为参数μ的逆矩估计2。

再者易知:

于是,给定置信水平1-α下,参数μ的区间估计为:

其中,21,22分别为如下方程的根:

1.3 点估计的模拟比较及区间估计精度的考察

给定样本容量n,参数真值取μ=1,λ0=1,通过1000次Monte-Carlo模拟得到参数μ的点估计的均值与均方差,结果列于表1,从中可以看到不论是小样本还是大样本,方法一都优于方法二。

表1 参数μ的点估计模拟比较

给定样本容量n,参数真值取μ=1,λ0=1,置信水平1-α=0.95,通过1000次Monte-Carlo模拟得到参数μ的区间估计的平均下限、平均上限、平均区间长度,以及区间估计包含参数真值的次数,结果列于表2,从中可以看到0.95的置信水平基本达到,同时随着样本容量n的增加,区间估计的平均长度呈减小趋势,也就是区间估计越精确。

表2 参数μ的区间估计

2 位置参数μ已知时,刻度参数λ的估计

设X1,X2,…,Xn为来自总体X~C(μ0,λ)的一个容量为n的简单随机样本,其中位置参数μ0已知,而刻度参数λ未知时,下面求参数λ的点估计。

2.1 方法一:参数 λ的0.25分位数估计和0.75分位数估计

表3 参数λ的0.25分位数估计和0.75分位数估计大于0的次数

2.2 方法二:参数λ的极大似然估计

记样本观察值为x1,x2,…,xn,则似然函数为:

注:文献[4]中所给出的关于刻度参数λ的似然方程是错误的。

引理 2:λ的方程有唯一正实根。

易见,方程(4)的根即为参数λ的极大似然估计2。

2.3 点估计的精度模拟

给定样本容量n,参数真值取μ0=1,λ=1,通过1000次Monte-Carlo模拟得到参数λ的点估计的均值与均方差,结果列于表4,从中看到其精度还是令人满意的。

表4 参数λ的点估计

3 两参数Cauchy分布C(μ,λ)的参数估计

设X1,X2,…,Xn为来自总体X~C(μ,λ)的一个容量为n的简单随机样本,次序统计量记为X(1)≤X(2)≤…≤X(n),其次序观察值记为x(1)≤x(2)≤…≤x(n)。

3.1 方法一:参数0.25、0.5的分位数估计

则参数μ,λ的点估计为:=X*(0.5),1=X*(0.5)-X*(0.25)

3.2 方法二:参数0.5、0.75的分位数估计

则参数μ,λ的点估计为:=X*(0.5),2=X*(0.75)-X*(0.5)

3.3 方法三:结合似然方程的点估计

位置参数的点估计取为=X*(0.5),而刻度参数的点估计3可取为如下方程的根:

3.4 刻度参数λ点估计的模拟比较

给定样本容量n,参数真值取μ=1,λ=1,通过1000次模拟得到参数λ的点估计的均值与均方差,结果列于表5,从中可以看到方法三更优。

例1:文献[3]提供了如下算例,取样本容量n=10,刻度参数λ的真值取为5,通过Monte-Carlo模拟产生10个服从C(0,λ)分布的随机数如下:

2.3008,3.9756,-6.4165,11.9341,16.4812,-0.2428,-7.9044,-6.3136,14.5784,-1.9155

文献[3]得到了参数λ的局部矩估计为:=5.0953

(1)当参数λ=5已知时,参数μ的点估计为1=X*(0.5)=1.029,=1.6879,给定置信水平0.95下,参数μ的区间估计为:

(2)当参数μ=0已知时,参数λ的0.25分位数估计为1(0.25)=μ0-X*(0.25)=6.3136 ,0.75 分位数估计为1(0.75)=X*(0.75)-μ0=11.9341,极大似然估计2=5.5386 ;

(3)当参数μ,λ都未知时,μ的点估计为=X*(0.5)=1.029 ,λ的 点 估 计 为1=X*(0.5)-X*(0.25)=7.3426 ,2=X*(0.75)-X*(0.5)=10.9051 ,3=5.6939

例2:取样本容量n=30,通过Monte-Carlo模拟产生一组服从C(2,3)分布的随机数如下:

5.11597, -0.232211, 6.7509, 5.26303, 2.80716,1.96063,-0.943453,-0.754331,3.11886,5.40918,-6.09775,2.3691,0.499949,1.11528,2.4189,0.284043,-2.20647,11.5716,284.604,22.5808,5.52263,7.28462,-4.86067,4.58242,-21.4326,4.87815,3.84585,2.19667,-0.332737,-42.9647

(1)当参数λ=3已知时,参数μ的点估计为1=X*(0.5)=2.394 ,2=2.4367 ,给定置信水平0.95下,参数μ的区间估计为:

(2)当参数μ=2已知时,参数λ的0.25分位数估计为1(0.25)=μ0-X*(0.25)=2.3327 ,0.75 分位数估计为1(0.75)=X*(0.75)-μ0=3.2630,极大似然估计2=2.8423;

(3)当参数μ,λ都未知时,μ的点估计为=X*(0.5)=2.394 ,λ的点估计为1=X*(0.5)-X*(0.25)=2.7267 ,2=X*(0.75)-X*(0.5)=2.8690 ,3=2.8081

4 结论

考虑到Cauchy分布C(μ,λ)其数学期望不存在的特殊性及其在众多领域的重要应用,本文在已有研究成果的基础上,进一步讨论了它的参数估计问题。在参数λ已知的情形下,给出了参数μ的分位数估计、逆矩估计及区间估计;另外,在参数μ已知的情形下,给出了参数λ的分位数估计和极大似然估计;并且分别通过Monte-Carlo模拟考察了点估计和区间估计的精度,发现参数μ的分位数估计较优,参数λ的极大似然估计较优。最后,在两个参数μ,λ都未知的情形下,给出了参数μ,λ的几种点估计方法,通过大量Monte-Carlo模拟发现参数μ的点估计取样本中位数较为精确,而刻度参数λ的点估计取极大似然估计(依赖于μ的估计)较为精确。

[1]方开泰,许建伦.统计分布[M].北京:科学出版社,1987.

[2]郭彦.对柯西分布性质的进一步讨论[J].淮阴工学院学报,2005,(5).

[3]王志祥.Cauchy分布刻度参数的矩估计与区间估计[J].统计与决策,2008,(23).

[4]吴庆波,李再兴,景平.一元Cauchy分布族中两参数的分位数估计及其性质[J].廊坊师范学院,2010,(1).

[5]徐晓岭,王蓉华.概率论与数理统计[M].北京:人民邮电出版社,2014.

Study on Statistical Analysis Method of Cauchy Distribution

Gu Beiqing1,Wang Ronghua2,Xu Xiaoling1

(1.School of Statistics and Information,Shanghai University of International Business and Economics,Shanghai 201620,China;2.College of Mathematics and Science,Shanghai Normal University,Shanghai 200234,China)

This paper gives the quantile estimate and inverse moment estimate of location parameterμin the case of known scale parameterλ,and finds that quantile estimate is more accurate through simulation comparison.At the same time,the interval estimate of parameterμis given and the precision of interval estimate investigated;the maximum likelihood estimate of scale parameterλalso given in the case of known location parameterμ,and the precision of point estimate investigated;the point estimates of parametersμ,λis provided in the case of unknown parametersμ,λ;the paper finds that sample median is more accurate for point estimate of location parameterμ,while maximum likelihood estimate depending on estimate ofμis more accurate for point estimate of scale parameterλ.

Cauchy distribution;location parameter;scale parameter;inverse moment estimate;maximum likelihood estimate;quantile estimate

O212

A

1002-6487(2017)20-0019-04

国家自然科学基金资助项目(11671264)

顾蓓青(1984—),女,上海人,博士,讲师,研究方向:应用统计。

(责任编辑/亦 民)

猜你喜欢

样本容量真值位数
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
采用无核密度仪检测压实度的样本容量确定方法
面向数据集成的多真值发现算法
分层抽样技术在课堂满意度调查中的应用研究
10kV组合互感器误差偏真值原因分析
真值限定的语言真值直觉模糊推理
基于真值发现的冲突数据源质量评价算法
遥感卫星CCD相机量化位数的选择
多种检测目标下样本容量设计的比较