APP下载

样本方差定义的深层次分析

2017-08-19赵虎杨小飞李萍杨海龙

教育教学论坛 2017年33期
关键词:正态分布

赵虎+杨小飞+李萍+杨海龙

摘要:本文为了便于读者对样本方差定义的理解,以正态分布为例,通过深层次分析,总结得出:在实际应用中,为什么样本方差的定义选取式子■■(X■-■)■,而不选取■■(X■-■)■的结论。

关键词:总体方差;样本方差;正态分布;无偏估计;一致估计

中图分类号:O21 文献标志码:A 文章编号:1674-9324(2017)33-0194-02

概率论与数理统计是高等学校理工科大学生的一门必修课。然而对于初学者来说,总觉得样本方差的定义不易掌握,且容易产生畏惧心理。到底是除以n还是n-1,大部分学生会感到很茫然。因此有必要弄清楚二者的区别。本文以正态分布为例,对样本方差的定义进行深层次的分析,以便初学者了解样本方差的定义。

一、预备知识

定义1 设X是一个随机变量,若E(|X|■)<∞,则称A■=E(X■)为X的K阶原点矩。当k=1,A■=E(X),恰好为X的期望。

定义2 设(X■,X■,…,X■)为总体X的一个样本,称统计量B■=■■X■■为样本的K阶原点矩。当k=1,

B■=■■X■=■,恰好为样本的均值。

定理1:设总体X~N(μ,σ2),若(X1,X2,…,Xn)为X的一个简单随机样本,X为样本均值,

S■■=■■(Xi-■)■,则■~x2(n-1).

二、对样本方差定义的分析

设(X■,X■,…,X■)为总体X的一个样本,根据切比雪夫大数定理知,当总体X的K阶矩存在时,樣本的K阶矩依概率收敛于总体的K阶矩时,因此可以用样本的K阶矩近似总体的K阶矩。

当总体X的K阶矩存在时,若定义总体的方差

D(X)=A■-A■■=E(X■)-E(X)■,因此根据切比雪夫大数定理,样本的方差自然地可以定义为:

S■=B■-B■■

=■■X■■-■■X■■

=■■X■■-■■

=■■(X■-■)■.

所以,从理论上讲,样本的方差应该用

S■=■■(X■-■)■来表示。若设(x■,x■,…,x■)是样本

(X■,X■,…,X■)的一组观测值,c是任意常数,可以推出:

s■=■■(x■-■)■=■■((x■-c)+(c-■))■

=■■(x■-c)■-(■-c)■≤■■(x■-c)■

(注意:这里的n去掉或者换成n-1不等式仍然成立)。这说明了只有当c=■时,才能取到最小值,即波动性最小,越有效。但是在实际应用中,为什么样本的方差选取■■(X■-■)■,而不选取S■=■■(X■-■)■? 这是因为估计量的选取不仅要符合有效性,还要符合无偏和一致性,这样选取的估计量是最好的。学生自然而然地要问,■■(X■-■)■这个表达式到底怎么来的?它是否恰好符合无偏和一致性呢?

下面以正态分布为例进行阐述,设(X■,X■,…,X■)为总体X~N(μ,σ■)的一个简单随机样本。

先回忆无偏估计的定义——设θ■(X■,X■…X■)是参数θ的一个估计量,若E(θ■(X■,X■…X■))=θ,则称θ■(X■,X■…X■)是参数θ的一个无偏估计量。由于

E(S■)=E(■■(X■-■)■)

=E(■■X■■-■■)=E(X■■)-E(■■)

=D(X■)+E(X■)?摇■-D(■)+E(■)?摇■

=σ■+μ■-■nD(X■)+■nE(X■)?摇■

=σ■+μ■-■σ■-μ■

=■σ■

因此选取S■=■■(X■-■)■作为总体方差σ■的估计量不是无偏的估计量,但是

E(■S■)=■E(S■)=■·■σ■=σ■.

故将S■修正,令

S■■=■S■=■·■■(X■-■)■

=■■(X■-■)■.

显然有E(S■■)=σ■.

现在的问题是:S■■=■■(X■-■)■是否满足一致性?

再回忆一致性的定义:设θ■(X■,X■…X■)是参数θ的一个估计量,若?坌ε>0,

■p|θ■(X■,X■…X■)-θ|<ε=1,则称θ■(X■,X■…X■)是参数θ的一致估计量。

根据定理1,■~χ■(n-1).

因此:

D(S■■)=■D(■S■■)

=■2(n-1)=■.

即D(S■■)存在。根据切比雪夫不等式,

?坌ε>0,0≤p|S■■-E(S■■)|≥ε

=p|S■■-σ■|≥ε≤■=■.

所以■p|S■■-E(S■■)|≥ε=0.

故■p|S■■-E(S■■)|<ε=

1-■p|S■■-E(S■■)|≥ε=1.

这就证明了S■■=■■(X■-■)■是参数σ■的一致估计量。

三、结论

本文以正态分布为例,从理论上证明了在实际应用中,为什么样本方差的定义选取式子■■(X■-■)■,而不选取■■(X■-■)■的结论,同时还应注意到,当n足够大时,二者(至少在计算上)的区别可以忽略不计。

参考文献:

[1]魏忠舒.概率论与数理统计教程[M].第二版.北京:高等教育出版社,1993.

[2]盛骤,谢式千,潘承毅.概率论与数理统计[M].第四版.北京:高等教育出版,2010.

[3]赵健,郭良栋.样本方差定义分析[J].高师理科学刊,2016,36(7):61-62.

[4]杨海龙.随机事件概率的解题思路与方法[J].教育教学论坛,2016,(19):163-164.

A Deeply Analysis on the Definition of Sample Variance

ZHAO Hu1,YANG Xiao-fei1,LI Ping1,YANG Hai-long2

(1.School of Science,Xi'an Polytechnic University,Xi'an,Shaanxi 710048,China;

2. College of Mathematics and Information Science,Shaanxi Normal University,Xi'an,Shaanxi 710062,China)

Abstract:In this paper,in order to facilitate reader's understanding the definition of sample variance,taking normal distribution as an example,through a deeply analysis,we concluded the following conclusion:in real application,why people choose formula ■■(X■-■)■ as the definition of sample variance rather than choose formula■■(X■-■)■.

Key words:population variance;sample variance;normal distribution;unbiased estimator;consistent estimator

猜你喜欢

正态分布
关于n维正态分布线性函数服从正态分布的证明*
生活常态模式
偏对称正态分布的若干性质
正态分布的随机变量独立与不相关问题研究
基于对数正态分布的出行时长可靠性计算
关于二维正态分布的一个教学注记
正态分布题型剖析
χ2分布、t 分布、F 分布与正态分布间的关系
基于Copula函数对二维正态分布中常见认识误区的分析
多维正态分布函数的表示