样本方差定义的深层次分析
2017-08-19赵虎杨小飞李萍杨海龙
赵虎+杨小飞+李萍+杨海龙
摘要:本文为了便于读者对样本方差定义的理解,以正态分布为例,通过深层次分析,总结得出:在实际应用中,为什么样本方差的定义选取式子■■(X■-■)■,而不选取■■(X■-■)■的结论。
关键词:总体方差;样本方差;正态分布;无偏估计;一致估计
中图分类号:O21 文献标志码:A 文章编号:1674-9324(2017)33-0194-02
概率论与数理统计是高等学校理工科大学生的一门必修课。然而对于初学者来说,总觉得样本方差的定义不易掌握,且容易产生畏惧心理。到底是除以n还是n-1,大部分学生会感到很茫然。因此有必要弄清楚二者的区别。本文以正态分布为例,对样本方差的定义进行深层次的分析,以便初学者了解样本方差的定义。
一、预备知识
定义1 设X是一个随机变量,若E(|X|■)<∞,则称A■=E(X■)为X的K阶原点矩。当k=1,A■=E(X),恰好为X的期望。
定义2 设(X■,X■,…,X■)为总体X的一个样本,称统计量B■=■■X■■为样本的K阶原点矩。当k=1,
B■=■■X■=■,恰好为样本的均值。
定理1:设总体X~N(μ,σ2),若(X1,X2,…,Xn)为X的一个简单随机样本,X为样本均值,
S■■=■■(Xi-■)■,则■~x2(n-1).
二、对样本方差定义的分析
设(X■,X■,…,X■)为总体X的一个样本,根据切比雪夫大数定理知,当总体X的K阶矩存在时,樣本的K阶矩依概率收敛于总体的K阶矩时,因此可以用样本的K阶矩近似总体的K阶矩。
当总体X的K阶矩存在时,若定义总体的方差
D(X)=A■-A■■=E(X■)-E(X)■,因此根据切比雪夫大数定理,样本的方差自然地可以定义为:
S■=B■-B■■
=■■X■■-■■X■■
=■■X■■-■■
=■■(X■-■)■.
所以,从理论上讲,样本的方差应该用
S■=■■(X■-■)■来表示。若设(x■,x■,…,x■)是样本
(X■,X■,…,X■)的一组观测值,c是任意常数,可以推出:
s■=■■(x■-■)■=■■((x■-c)+(c-■))■
=■■(x■-c)■-(■-c)■≤■■(x■-c)■
(注意:这里的n去掉或者换成n-1不等式仍然成立)。这说明了只有当c=■时,才能取到最小值,即波动性最小,越有效。但是在实际应用中,为什么样本的方差选取■■(X■-■)■,而不选取S■=■■(X■-■)■? 这是因为估计量的选取不仅要符合有效性,还要符合无偏和一致性,这样选取的估计量是最好的。学生自然而然地要问,■■(X■-■)■这个表达式到底怎么来的?它是否恰好符合无偏和一致性呢?
下面以正态分布为例进行阐述,设(X■,X■,…,X■)为总体X~N(μ,σ■)的一个简单随机样本。
先回忆无偏估计的定义——设θ■(X■,X■…X■)是参数θ的一个估计量,若E(θ■(X■,X■…X■))=θ,则称θ■(X■,X■…X■)是参数θ的一个无偏估计量。由于
E(S■)=E(■■(X■-■)■)
=E(■■X■■-■■)=E(X■■)-E(■■)
=D(X■)+E(X■)?摇■-D(■)+E(■)?摇■
=σ■+μ■-■nD(X■)+■nE(X■)?摇■
=σ■+μ■-■σ■-μ■
=■σ■
因此选取S■=■■(X■-■)■作为总体方差σ■的估计量不是无偏的估计量,但是
E(■S■)=■E(S■)=■·■σ■=σ■.
故将S■修正,令
S■■=■S■=■·■■(X■-■)■
=■■(X■-■)■.
显然有E(S■■)=σ■.
现在的问题是:S■■=■■(X■-■)■是否满足一致性?
再回忆一致性的定义:设θ■(X■,X■…X■)是参数θ的一个估计量,若?坌ε>0,
■p|θ■(X■,X■…X■)-θ|<ε=1,则称θ■(X■,X■…X■)是参数θ的一致估计量。
根据定理1,■~χ■(n-1).
因此:
D(S■■)=■D(■S■■)
=■2(n-1)=■.
即D(S■■)存在。根据切比雪夫不等式,
?坌ε>0,0≤p|S■■-E(S■■)|≥ε
=p|S■■-σ■|≥ε≤■=■.
所以■p|S■■-E(S■■)|≥ε=0.
故■p|S■■-E(S■■)|<ε=
1-■p|S■■-E(S■■)|≥ε=1.
这就证明了S■■=■■(X■-■)■是参数σ■的一致估计量。
三、结论
本文以正态分布为例,从理论上证明了在实际应用中,为什么样本方差的定义选取式子■■(X■-■)■,而不选取■■(X■-■)■的结论,同时还应注意到,当n足够大时,二者(至少在计算上)的区别可以忽略不计。
参考文献:
[1]魏忠舒.概率论与数理统计教程[M].第二版.北京:高等教育出版社,1993.
[2]盛骤,谢式千,潘承毅.概率论与数理统计[M].第四版.北京:高等教育出版,2010.
[3]赵健,郭良栋.样本方差定义分析[J].高师理科学刊,2016,36(7):61-62.
[4]杨海龙.随机事件概率的解题思路与方法[J].教育教学论坛,2016,(19):163-164.
A Deeply Analysis on the Definition of Sample Variance
ZHAO Hu1,YANG Xiao-fei1,LI Ping1,YANG Hai-long2
(1.School of Science,Xi'an Polytechnic University,Xi'an,Shaanxi 710048,China;
2. College of Mathematics and Information Science,Shaanxi Normal University,Xi'an,Shaanxi 710062,China)
Abstract:In this paper,in order to facilitate reader's understanding the definition of sample variance,taking normal distribution as an example,through a deeply analysis,we concluded the following conclusion:in real application,why people choose formula ■■(X■-■)■ as the definition of sample variance rather than choose formula■■(X■-■)■.
Key words:population variance;sample variance;normal distribution;unbiased estimator;consistent estimator