APP下载

关于非参数拟合优度检验在体育科研中的运用研究

2022-02-19孙永梅

赤峰学院学报·自然科学版 2022年1期

孙永梅

摘 要:运用数理统计法和文献资料法,对非参数检验中的拟合优度检验进行研究分析,关于拟合优度检验的检验统计量有?字2检验、K-S检验和秩和检验等。在选择非参数检验方法时,需要先考虑两个因素:(1)样本情况分析,是独立样本还是相关样本。(2)数据的类型,是顺序数据还是类别数据。本文系统分析了?字2检验和K-S检验,?字2检验和K-S检验各自有自己的适应条件,在实际应用时要择取更合适的统计方法,才能让统计数据更具有说服力。另,把数理统计学理论作为理论依据将其指导运用到体育实际问题中去,理论指导实践应用。希望通过本文对体育科研方面给予一定的理论指导,对体育科研起到一定的促进作用。

关键词:非参数检验;拟合优度检验;体育科研

中图分类号:G80-32  文献标识码:A  文章编号:1673-260X(2022)01-0059-04

前言

假设检验在统计推断具有的重要应用价值,从理论上说,假设检验是数理统计学的一个重要分支。在体育科研、训练和教学中,它也是常用的统计方法。基于假设检验的思想,体育现象复杂多变,假设检验也被合理地应用在体育科研、训练及教学中,其理论及应用是体育统计学中不可或缺的部分。尤其是在有关体育期刊论文中应用假设检验的方法比较常见。

近年来,体育统计相关书籍及资料只是简单地介绍了假设检验的方法,介绍方法演算的过程,并没有涉及它的真正理论。例如:在解决问题之前有必要明确研究目的是什么。这一关键问题就是明确总体的问题,在进行两样本t检验时,实验前与实验后的总体不一致从而导致实验结果的错误,就是因为没有明确总体是什么,对假设检验方法没有理解其本质,生搬硬套而导致严重的后果。另外,查阅了自1997年至今的文献发现,对于非参数检验并没有系统的论述。关于非参数检验方法在体育科研中的应用查阅文献也只有祁国鹰,徐明在《北京体育大学学报》上发表了《体育统计方法系列讲座:非参数检验方法》,文中也只是简单地介绍非参数检验各种方法的步骤及在SPSS中的应用[1]。然而非参数检验方法在体育科研中的重要性不容忽视。

在统计推断中,有时对总体分布假定具有模糊性,所测得数据并非来自本身所假定分布的总体或测得的数据因某些原因被污染。在不能确定假定总体分布的情况下,若选择参数检验方法进行推断可能产生错误的结论。研究者希望从数据的本身获取所需且必要的信息,这便是非参数检验的初步想法。如在未知总体分布的情况下,把一组数据信息称为次序,利用已有信息,按照一定的次序或规律排序,每一个数据在整组数据中有自己的位置称为秩,在假定条件下,便可以进行统计推断,获得所需的信息结论。

魏登云在《主观评分误差的非参数处理方法》中运用非参数检验方法,结合体育竞赛的特点,运用统计方法中秩分判定比赛的名次,并讨论运用秩分法去处理评分误差的优点及可行性[2]。其实非参数检验方法在体育科研中的应用是有必要的。由于体育现象的复杂性,有时参数检验并不能满足需求,这时选用非参数检验是必要的。但在实际应用中对于非参数检验并没有系统的论述及应用。

无论是参数检验还是非参数检验在处理问题时都是先找出一个统计模型去拟合现实的数据,拟合的效果如何,怎样用样本推斷总体,利用拟合优度检验可以解决疑问。拟合优度检验其思想是找出一个统计模型,利用已有的观测数据去预测未来数据。换言之,找出一个模型去拟合已有的观测数据。拟合优度检验在统计理论中有其特殊的地位,不仅是统计基础的组成部分,而且和实际应用有密切关系[1]。由于体育现象具有复杂性与多样性,如遇到某问题需利用假设检验方法解决时,若给定的假定条件很少,那么可以用非参数检验方法去解决问题。非参数检验方法的条件比参数检验方法要宽松,其对总体的分布不做要求,所以非参数检验方法的应用范围比较广泛。

在有关拟合优度检验的相关文献中,对非参数检验的拟合优度检验的研究稀少。但它在体育科研中的应用价值是值得肯定的。因此,本文仅对非参数检验中的拟合优度?字2检验和K-S检验进行研究分析,把数理统计学理论作为理论依据将其指导运用到体育实际问题中去。通过对?字2检验和K-S检验的研究分析,希望对体育科研工作者有所帮助。

1 研究方法

运用数理统计法和文献资料法进行分析研究。研读非参数检验的相关书籍;以“参数检验”“非参数检验”“拟合优度检验”“非参数检验在体育科研中的应用”等为关键词在“CNKI”“中国国家图书馆”等数据库检索。对搜集的资料进行阅读归纳,整理分析。

2 非参数检验中拟合优度检验的几种类别与应用

在统计推断中,有时对总体分布假定具有模糊性,所测得数据并非来自本身所假定分布的总体或测得的数据因某些原因被污染。这时,从数据的本身获取所需要的信息,得出结论。如检验男子跳高、游泳和体操三个项目的运动员纵跳成绩,测得的成绩如下:跳高:80、76、78、82、79;游泳:65、66、62、67、71、70、65;体操:64、67、64、68、62、63、69。试问运动项目的不同其男子运动员的纵跳成绩之间是否存在显著性差异?这就是一个典型的数据信息不足,这时我们使用参数检验的方法解决问题并非良策。

在选择非参数检验方法时,需要先考虑两个因素:(1)关于样本情况分析,是独立样本还是相关样本。(2)关于数据的类型,是顺序数据还是类别数据,简单地说就是若按照一定的顺序或秩序排列那就是顺序数据,如喜欢、不喜欢或男、女就是类别数据。

2.1 单样本拟合优度检验

单样本非参数检验一般属于拟合优度检验。如研究员实际观测到的频数和在某种原则下的理论频数是否存在显著差异;实验观测的比例P值与所期望的比例值是否存在显著差异等。

2.1.1 ?字2检验

检验的基本思想是利用样本数据进行推断总体的分布与某一已知分布是否存在显著差异。?字2检验用于拟合优度的检验,检验某组数据是否服从某种分布。设样本X1,X2,…,Xn观测值x1,x2,…,xn,检验总体分布与某个已知分布是否有显著差异。若讨论的是一个事件的两种结果,可以用参数检验中的方法解决问题。若讨论一个事件可能有K个结果时,使用?字2检验是需要的。如把样本数据分为k类,其中每类的实际观测频数设为f1,f2,…,fk,与对应的期望频数设为e1,e2,…,ek,利用检验统计量?字2去度量观测频数与期望频数之差异。其计算公式:

从式(1)可以看出,观测频数与期望频数之间距离越近,?字2值就越小,当?字2值为0时,说明每一类观测频数与期望频数完全拟合。?字2检验的运用领域很广。如要检验总体是否为某一分布时,假设实际观测值的分布为F(x),去检验总体是否为某一特定分布F0(x)。注意,当样本量充分大时?字2服从自由度为k-1的?字2分布。在体育教学中,为了提高学生的网球正手击球的水平,采用了一种新的教学方法。教师从大二年级随机抽取100名学生,配对分成两个班,对其进行干预采用两种不同的教法。一个学期结束后进行测试,测得成绩如表1所示,两种不同方法测得的成绩。

通过实验组和对照组数据的比较,判断两种不同的网球正手教学方法是否对教学效果产生不同的影响。从表1中可以看出,实验组和对照组的成绩不及格的比例有差距,原因是新的教法所产生的效果还是因为误差所导致的差别,需通过检验才能得出结论。(a=0.05)

首先建立原假设H0:实验组与对照组各级的比例相同。其次构造统计量?字2=,通过把数据输入SPSS软件中,得出结论P>0.05。我们就可以做出判断,原假设成立。虽然新的教法的成绩有所提高,但是通过检验新旧方法并没有显著差异,新方法的成绩有所提高可能是因为误差造成的,所以新的教学方法还需改进。以上的例子就是利用?字2检验的方法解决两种不同结果。

?字2检验在体育领域中应用是比较广泛的,在参数检验中也有提及,在非参数检验中主要用于对分布的检验以及对独立的类别数据的检验。正态性检验可使用?字2的拟合优度检验方法。如测得65名职业游泳运动员训练后的脉搏频率与安静状态时脉搏频率之差频数分布数据,试图检验职业游泳运动员的脉搏差数是否服从正态分布?此类问题,首先建立原假设H0:脉搏差服从正态分布,H1:脉搏差不服从正态分布。再根据样本信息选择合适的?字2检验统计量,取显著性水平?琢值,经过计算取得检验统计量的值,与P值进行比较。是否接受原假设,从而得出结论。

2.1.2 K-S检验

在统计学中,K-S检验可适用于比较某一样本分布与参考概率分布,或比较两个样本分布(两个样本的K-S检验)。它涉及一组样本数据的实际分布与某一指定理论分布之间相符合程度的问题,用来检验所获取的样本数据是否来自具有某一理论分布的总体[2]。K-S检验的思想是分析其理论分布的累计频数与抽样累计频数之差值。若样本观测值服从某一指定的理论分布,那么最大差值应该较小。设F(x)是随机变量X的理论分布函数,S(x)=i/n是样本累计频数(i≤x观测值的数目,i=1,2…,n。n为样本总数)。检验样本S(x)是否来自总体的分布函数F(x),构造其统计量,计算公式如下:

D=max|S(x)-F(x)|   (2)

从公式(2)可以看出,对每个x值来说,若S(x)与F(x)差值较小,说明S(x)与F(x)拟合程度很高,则认为样本数据是来自其理论分布的总体。如,抽取某市初三所有男生的身高数据,利用样本数据信息推断初三男生的总体身高是否服从正态分布。

2.2 两独立的拟合优度检验

2.2.1 ?字2检验

单样本的?字2检验可以推广到两个独立样本的总体差异性的检验[3]。随机变量n1和n2是分别从分布函数F1(x)和F2(x)的总体中抽取的样本数据,利用样本观测值推断两个总体是否有显著性差异。其统计量的选择与计算及最后统计决策都与两个独立样本检验相似。同时,两个独立样本的?字2检验可以推广到对k个样本之间差异的显著性检验。例如,随机从初一和初二年级分别抽取x人和y人(其中男女比例是一样的),调查学生是否喜欢上体育课,发现初中一年级学生喜欢上体育课的人数是n1人,初二喜欢上体育课的人数是n2人,那么初一和初二学生喜欢上体育课的比例是否有差异。首先我们建立原假设:两个年级的学生喜欢上体育课的比例相同。其次构造统计量?字2并计算得出数据,确定显著水平a。若原假设成立,?字2服从自由度为k-1的?字2分布,其否定域为{?字2|?字2>?字a2(k-1)}.如果?字2值落入拒绝域则是拒绝原假设,即两个年级的学生喜欢上体育课的比例是有差异,否则,是接受原假设,即两个年级的学生喜欢上体育课的比例无差异。

同时,?字2检验还用于检验两个属性之间是否独立的?字2独立性检验。?字2检验可用来推断多个构成比之间有无显著差异即检验两个因素是否独立,在应用中,可先列出R×C联系然后采用?字2检验,若结果差异显著,则说明多个率在整体上有差异但并不说明任意两个率之间都有差异。2×2联系检验是R×C联表的特例,可檢验两个总体率之间是否有差异。

在实际应用时,各种检验统计量都有其应用条件,在选择时根据研究目的、设计的类型、分布的特点及统计推断的目的要求选取适当的检验方法。

2.2.2 K-S检验

无论是两个独立样本K-S检验还是单样本K-S检验,其思路基本一致。通过两个独立总体的样本观测值去分析判断是否来自同一个总体。

在对比两个样本进行分析时,K-S检验对经验累积分布函数的位置和形状差异有一定的敏感性。通过分析两独立总体样本的累计频数之差值,确定是否有差异性。如从总体X和Y中,选取两组样本数据(X1,X2,…,Xn)和(Y1,Y2,…,Yn),SX(x)和SY(x)是累计频数。若要检验总体X与Y分布是否相同,则构造统计量,设定显著水平a和确定否定域,最后得出结论,做出决策。如检验东部地区与西部地区的青少年发育状况是否存在差异。

K–S检验通过修改以后可作拟合优度检验,在检验正态性分布的特殊情况下,先将样本进行标准化,再与标准的正态分布进行比较分析。使用这些值和方差去定义特定的参考分布将会更改其检验统计量的零分布。有研究发现,即使采用了这种校正的形式,其测试也不像Shapiro-Wilk检验或Anderson-Darling检验那样有效地检验其正态性。当然,这些其他测试也有其自身的缺点。如Shapiro–Wilk检验中,样本的选取时会有许多相同值其效果并不好。

3 对非参数检验中的拟合优度检验的认知

3.1 分布情况

非参数检验是在总体分布未知的情况下的统计检验方法。在实际问题处理时,有时提取的信息量很少,在总体分布未知时只能应用非参数检验。非参数检验比参数检验的应用范围广泛。?字2检验与K-S检验都可用于检验样本是否来自某一理论分布的总体。

3.2 测量数据类型

?字2检验常用于定类尺度测量的数据,适应于分类资料的统计推断。K-S检验还用于对定序尺度测量数据进行拟合检验。

3.3 特殊情况处理

?字2检验一般要求的是大样本,对于特别小的样本量,?字2检验则不能应用,若应用?字2检验可能会导致错误的结论,而K-S检验则不受限制。因此,K-S检验的功效比?字2检验要强。根据样本量的不同在最后处理时临界值的确定也是有区别的。在实际问题处理时,如需要检验正态性,应该避免使用?字2检验和K-S检验。这一问题在数理统计理论中已被证明的。同时,在运用中注意减少第二类错误的发生。

4 总结

虽然非参数检验方法较粗略,其拟合优度检验的实际运用比较广泛,但其统计思想比较直观。对于非正态的数据或未知分布的数据进行检验,其检验的效率较高。在某特殊分布情况下,非参数检验方法的效率可超过t检验。

但是如果当条件充分时,则选择参数检验的方法,一方面可以充分利用给定的信息,距答案更进一步;另一方面可以减少误差。预期频数较小时,?字2检验需要合并邻近的类别才可以计算,K-S检验则不需要。因此K-S检验比?字2检验保留更多的信息。?字2检验和K-S检验的样本量相等时,K-S检验对于原假设为假时可提供一个更高的拒绝率,因此,与?字2检验相比K-S检验具有更强的检出率。在实际应用时要择取更合适的统计方法,才能让统计数据更具有说服力。

参考文献:

〔1〕祁国鹰,徐明.体育统计方法系列讲座:非参数检验方法[J].北京体育大学学报,2000,42(01):142-143.

〔2〕魏登云.主观评分误差的非参数处理方法[J].中国体育科技,2001,3(37):38-41.

〔3〕王重,劉黎明.拟合优度检验统计量的设定方法[J].统计与决策,2010,5(06):154-156.

〔4〕杨振海.拟合优度检验中的变换方法[J].中央民族大学学报,1999,7(08):126-128.

〔5〕程维虎.拟合优度检验的回归分析方法及其应用[J].北京工业大学学报,2000,6(02):80-84.

〔6〕吴喜之.非参数统计[M].北京:中国统计出版社,2006.

〔7〕易丹辉.非参数统计:方法与运用[M].北京:中国统计出版社,1995.

〔8〕杨振海,程维虎,张军舰.拟合优度检验[M].北京:科学出版社,2011.