双参数指数分布检验问题中样本容量的确定*
2019-11-25黄圣杰
黄圣杰
(广西师范大学 数学与统计学院,广西 桂林 541004)
0 引言
双参数指数分布广泛应用于农业、医学、保险等领域.例如,在可靠性领域,其可作为寿命函数;在保险领域,其可作为损失函数,用于健康寿命,灾情防范,车辆赔付等险种.在假设检验中,大多学者较为关注的是第一类错误,然而在金融保险等方面,第二类错误所带来的损失往往会明显高于第一类.因此,在样本容量不确定情况下,如何有效地同时控制双参数假设检验中犯两类错误的概率相当重要.虽然,随着样本量的增加,两类错误都将减小.然而,样本容量又直接影响着检验结果的精确度以及实际抽样的成本和效率,因此盲目地通过增加样本量来控制两类错误,将大大提高检验成本.文献[1]探究了正态分布下两类错误和样本容量之间的数量关系;文献[2]基于上述结论探究了正态分布下均值和方差在假设检验中样本量的确定.文献[3]探究了双参数分布中门限参数和尺度参数的分布性质;文章基于上述研究以及国内外相关研究现状,在双参数的假设检验中,构造合理统计量,证明其分布性质,确定了样本容量和两类错误之间的数量关系,并对其进行数值模拟,论证结论.
1 模型估计
1.1 模型介绍
双参数指数分布的分布函数为:
记为Exp(μ,θ),其中μ,θ分别称为门限参数和尺度参数,且有μ≥0,θ>0.
1.2 性质与极大似然估计
定理1 设想X1,X2,…,X n是来自总体Exp(μ,θ)的简单随机样本,X(1),X(2),…,X(n)为该样本的次序统计量,则有
证明:根据次序统计量的性质可知:X(1)的概率密度函数为
又Ga(α,λ)的概率密度函数为
显然
样本似然函数为:
可以得到(μ,θ)的MLE为:
结合定理1,根据Gamma函数和χ2函数之间的关系可以得到以下结论:
2 两类错误
在假设检验中,观察值是否落在拒绝域内将直接影响着原假设H0或备择假设H1的成立.然而,在H0成立的条件下,由于样本的随机性,观测值也可能会落在拒绝域内,从而做出H0不成立的误判,即所谓的犯“第一类错误”,记发生概率为α;同理,在备择假设H1成立的条件下,观测值亦有可能未落在拒绝域内,导致犯“第二类错误”,记发生概率为β.当选择统计量的统计量服从卡方分布时,可以用图1来解释两类错误的原理:
图1 两类错误原理Fig.1 Theory of two types of errors
3 门限参数检验情形样本容量的确定
设X1,X2,…,X n是来自总体Exp(μ,θ)的简单随机样本 ,针对如下检验:
.数真值为μ真,则有(2)成立.
因此
为方便起见,记△=|μ真-μ0|,则样本容量为:
注:事实上,μ真是一个未知数(若已知,那么假设检验也就没有意义了),但我们可以将其看作一个“理想的值”,而△则正反映了“理想值”与“现实值”的偏差.因此在最大偏差的条件下,我们不妨将其作为△的取值.事实上,当△>|μ0-μ真|的时候,第二类错误也就显得没有意义了.
4 尺度参数的检验
设X1,X2,…,X n是来自总体Exp(μ,θ)的简单随机样本 ,针对如下检验:
同样地,H1成立时并不服从卡方分布.不妨设真值为θ真,则有成立.
因此,
当n充分大时,根据中心极限定理可知,故
5 数值模拟
构建密度函数,利用软件R生成10000个服从总体分布为Exp(2,4)的随机数列.计算在最大偏差值为10% 情况下,α为0.08,β为0.05;α为0.05,β为0.05;以及在最大偏差值为6%情况下,α为0.05,β为0.02时检验所需的样本容量.其结果如表1所示:
表1 10%,6%偏差时检验所需样本容量Tab.1 The Determination of Sample Size with deviation in 10%and 6%
6 结论
在总体服从双参数指数分布的假设检验中,本文构造了合适的统计量,并证明其服从卡方分布.利用卡方分布的性质以及两类错误的定义,计算得到了在同时控制两类错误下时所需的样本容量.从某种意义上讲,在寻找到合适的统计量后,该方法同样适用其他分布以及多总体下分布的假设检验的样本容量确定.然而,在实际应用中,除了考虑理论上的精度指标之外,还应结合劳动成本,科学性,实践性等情况,从多方面协调出发,得到最优样本容量.