样本方差定义的深层次分析

2017-08-19赵虎杨小飞李萍杨海龙

教育教学论坛 2017年33期

赵虎+杨小飞+李萍+杨海龙

摘要：本文为了便于读者对样本方差定义的理解，以正态分布为例，通过深层次分析，总结得出：在实际应用中，为什么样本方差的定义选取式子■■（X■-■）■，而不选取■■（X■-■）■的结论。

关键词：总体方差；样本方差；正态分布；无偏估计；一致估计

中图分类号：O21 文献标志码：A 文章编号：1674-9324（2017）33-0194-02

概率论与数理统计是高等学校理工科大学生的一门必修课。然而对于初学者来说，总觉得样本方差的定义不易掌握，且容易产生畏惧心理。到底是除以n还是n-1，大部分学生会感到很茫然。因此有必要弄清楚二者的区别。本文以正态分布为例，对样本方差的定义进行深层次的分析，以便初学者了解样本方差的定义。

一、预备知识

定义1 设X是一个随机变量，若E（|X|■）<∞，则称A■=E（X■）为X的K阶原点矩。当k=1，A■=E（X），恰好为X的期望。

定义2 设（X■，X■，…，X■）为总体X的一个样本，称统计量B■=■■X■■为样本的K阶原点矩。当k=1，

B■=■■X■=■，恰好为样本的均值。

定理1：设总体X～N（μ，σ2），若（X1，X2，…，Xn）为X的一个简单随机样本，X为样本均值，

S■■=■■（Xi-■）■，则■～x2（n-1）.

二、对样本方差定义的分析

设（X■，X■，…，X■）为总体X的一个样本，根据切比雪夫大数定理知，当总体X的K阶矩存在时，樣本的K阶矩依概率收敛于总体的K阶矩时，因此可以用样本的K阶矩近似总体的K阶矩。

当总体X的K阶矩存在时，若定义总体的方差

D（X）=A■-A■■=E（X■）-E（X）■，因此根据切比雪夫大数定理，样本的方差自然地可以定义为：

S■=B■-B■■

=■■X■■-■■X■■

=■■X■■-■■

=■■（X■-■）■.

所以，从理论上讲，样本的方差应该用

S■=■■（X■-■）■来表示。若设（x■，x■，…，x■）是样本

（X■，X■，…，X■）的一组观测值，c是任意常数，可以推出：

s■=■■（x■-■）■=■■（（x■-c）+（c-■））■

=■■（x■-c）■-（■-c）■≤■■（x■-c）■

（注意：这里的n去掉或者换成n-1不等式仍然成立）。这说明了只有当c=■时，才能取到最小值，即波动性最小，越有效。但是在实际应用中，为什么样本的方差选取■■（X■-■）■，而不选取S■=■■（X■-■）■？这是因为估计量的选取不仅要符合有效性，还要符合无偏和一致性，这样选取的估计量是最好的。学生自然而然地要问，■■（X■-■）■这个表达式到底怎么来的？它是否恰好符合无偏和一致性呢？

下面以正态分布为例进行阐述，设（X■，X■，…，X■）为总体X～N（μ，σ■）的一个简单随机样本。

先回忆无偏估计的定义——设θ■（X■，X■…X■）是参数θ的一个估计量，若E（θ■（X■，X■…X■））=θ，则称θ■（X■，X■…X■）是参数θ的一个无偏估计量。由于

E（S■）=E（■■（X■-■）■）

=E（■■X■■-■■）=E（X■■）-E（■■）

=D（X■）+E（X■）？摇■-D（■）+E（■）？摇■

=σ■+μ■-■nD（X■）+■nE（X■）？摇■

=σ■+μ■-■σ■-μ■

=■σ■

因此选取S■=■■（X■-■）■作为总体方差σ■的估计量不是无偏的估计量，但是

E（■S■）=■E（S■）=■·■σ■=σ■.

故将S■修正，令

S■■=■S■=■·■■（X■-■）■

=■■（X■-■）■.

显然有E（S■■）=σ■.

现在的问题是：S■■=■■（X■-■）■是否满足一致性？

再回忆一致性的定义：设θ■（X■，X■…X■）是参数θ的一个估计量，若？坌ε>0，

■p|θ■（X■，X■…X■）-θ|<ε=1，则称θ■（X■，X■…X■）是参数θ的一致估计量。

根据定理1，■～χ■（n-1）.

因此：

D（S■■）=■D（■S■■）

=■2（n-1）=■.

即D（S■■）存在。根据切比雪夫不等式，

？坌ε>0，0≤p|S■■-E（S■■）|≥ε

=p|S■■-σ■|≥ε≤■=■.

所以■p|S■■-E（S■■）|≥ε=0.

故■p|S■■-E（S■■）|<ε=

1-■p|S■■-E（S■■）|≥ε=1.

这就证明了S■■=■■（X■-■）■是参数σ■的一致估计量。

三、结论

本文以正态分布为例，从理论上证明了在实际应用中，为什么样本方差的定义选取式子■■（X■-■）■，而不选取■■（X■-■）■的结论，同时还应注意到，当n足够大时，二者（至少在计算上）的区别可以忽略不计。

参考文献：

[1]魏忠舒.概率论与数理统计教程[M].第二版.北京：高等教育出版社，1993.

[2]盛骤，谢式千，潘承毅.概率论与数理统计[M].第四版.北京：高等教育出版，2010.

[3]赵健，郭良栋.样本方差定义分析[J].高师理科学刊，2016，36（7）：61-62.

[4]杨海龙.随机事件概率的解题思路与方法[J].教育教学论坛，2016，（19）：163-164.

A Deeply Analysis on the Definition of Sample Variance

ZHAO Hu1，YANG Xiao-fei1，LI Ping1，YANG Hai-long2

（1.School of Science，Xi'an Polytechnic University，Xi'an，Shaanxi 710048，China；

2. College of Mathematics and Information Science，Shaanxi Normal University，Xi'an，Shaanxi 710062，China）

Abstract：In this paper，in order to facilitate reader's understanding the definition of sample variance，taking normal distribution as an example，through a deeply analysis，we concluded the following conclusion：in real application，why people choose formula ■■（X■-■）■ as the definition of sample variance rather than choose formula■■（X■-■）■.

Key words：population variance；sample variance；normal distribution；unbiased estimator；consistent estimator