T检验失效的原因及处理
2011-07-24穆广杰
穆广杰
(郑州航空工业管理学院,郑州 450015)
T检验,亦称student t检验(Student's t test),主要用于样本容量较小(例如n<30),总体方差δ2未知的正态分布数据。用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。亦称“显著性检验(Test of statistical significance)”,其基本原理是先对总体的特征做出某种假设,然后通过抽样样本的统计推断,做出对此假设应该被拒绝还是接受的推断。其基本思想是小概率反证法。小概率是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法是先提出检验假设H0,再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立,在实际工作中T检验使用范围较广。但也存在着局限性,即T检验的失效。充分研究其产生失效性的理论基础避免使用时错误,并对T检验的失效可能造成的后果有所控制,可以使其发挥更大的作用
1 参数T检验的失效
假设检验根据问题的要求,设是A关于总体分布的一项命题,所有使命题A成立的总体分布构成一个集合HA,称为原假设H0,使命题A不成立的所有总体分布构成另一个集合HB,称为备择假设H1。对一个假设H0进行检验,就是制定一个规则,使得有了样本以后,根据这规则可以决定是接受(即承认命题A正确),还是拒绝它(即否认命题A正确)。这样,所有可能的样本所组成的样本空间被划分为两部分HA和HB(HA的补集),HA⋂HB=φ,当样本x∈HA时,接受假设H0,拒绝H1;当x∈HB时,拒绝H0,接受H1。用检验进行分析判断,以接受一个,拒绝另一个。命题的对立性及“仅选其一”的规定,从逻辑上来说,应当不会出现两者都接受或都拒绝这样的两可结论。但是实际中存在这样的情况:两个对立命题HA和HB,以同一样本数据进行检验,当以HA为H0时,接受H0,即接受HA;当以HB为H0时,结果同样是接受H0,即接受HB。出现了某样本既属于集合HA,同时属于HB的悖论。
例1:某种元件的寿命X(以小时计)服从正态分布N(μ,σ2),μ,σ2未知。现测得16只元件寿命如下:159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170,问是否有理由认为元件的平均寿命大于225(小时)?
HA:原假设H0:μ≤225H1:μ>225,则H0的拒绝域为,现 有 n=16,α =0.05,查 表 得t0.05(15)=1.7531,计 算 得xˉ=241.5 ,s=98.73 ,故 有t=0.6685<1.7531,t值没有落在拒绝域中,即认为元件平均寿命都不大于225小时。
HB:建立假设H0:μ≥225H1:μ<225,则H0的拒绝域为
故有t=0.6685>-1.7531,t值没有落在拒绝域中,即认为元件平均寿命都不小于225小时。综合HA、HB的结论,二者唯一的交集是μ=225。但是这是一个在实际中几乎不可能的结果,可以认为两个结论是相反的。对立命题都能通过检验而被接受时,T检验似乎失去了判断真伪的能力,这时T检验失效了。
2 T假设检验失效的原因分析
假设检验的理论基础,是小概率事件的实际不可能性原理,即概率很小的随机事件在个别的实验中是不可能发生的。在假设检验的操作中,我们选取事件“当H0为真时拒绝H0”,并计算其发生概率(p值)。这是一个小概率事件。通过选择显著性水平α,设定“小概率”的标准。当p<α时,小概率事件在一次抽样中发生,违背了实际不可能性,认为应当拒绝H0从而接受H1。反之,则不违背小概率事件原理,不能拒绝H0。
不难看出,p值度量的是H0为真时,某个极不容易发生的事件的发生概率,换言之,p值度量的是不利于原假设的证据强度。p值越小,越反对H0,p值足够小时(p<α),即可推翻原假设。根据小概率事件的原理,我们根据p值拒绝h0是有相当大把握的。也就是说对于简单原假设,只要参数假设值不完全等于真值,那么通过增大样本容量,总是可以拒绝包含“相等”意义的原假设。
但是如果p值还没有小到可以拒绝H0的水平,则没有理由反对H0。但是否就是有充分理由接受H0呢?答案是否定的。H0是我们正在求证的总体效应,T检验则不能提供这个总体效应到底有多大或多重要的信息。因此我们只能说,不能拒绝H0。如例1,不拒绝H0:μ≤225和不拒绝H1:μ>225,是不矛盾的。不拒绝并不意味着接受。实际上在假设H0实际上为真时,我们可能犯拒绝H0的错误,这被称为“弃真”错误,也叫第一类错误(α值)。又当H0实际上不真时,我们也有可能接受H0,这类错误被称为第二类错误(β值),又叫“取伪”错误。两类错误产生的根本原因是抽样。样本只是总体的一部分,因此可能的样本不止一个,而抽到的样本具有很大的偶然性。用局部数据作为总体数据的估计不可能完全正确,基于此估计而作的检验产生错误的可能也就不可避免。
T检验的一个重大不足就是不能度量第二类错误(β值)的大小,但是希望它越小越好。但是在样本容量固定的情况下,若减少犯第一类错误的概率,则犯第二类错误的概率往往增大。要使两类错误的概率都减小,则必须增大样本容量。那么什么情况下H0能被接受呢?由于接受域的中心是参数真值,故只有当假设值θ0完全等于真值θ,才能使无论样本量多大,H0可以总能被接受。而这是不现实的。
实际中使用T检验去研究一个总体参数θ,都存在一个任意小的正数ε,使得当 ||θ-θ0<ε时,可视为θ=θ0,(θ-ε,θ+ε)称为θ的无差别区域。不断增大的样本会将θ与θ0之间的微小差别显现出来(通过不断减小的p值),并以p值为据,否定θ=θ0的原假设。检验本身并没有错,因为θ的确不是恰好就是θ0,但是如此“敏感”地找出应用中可忽略的差别,就没有使用上的重要性了。无差别区域的存在,要求样本容量必须具有上限。而控制第二类错误(β值)则要求样本容量具有下限。二者对样本容量的反向要求可能导致检验故障,因此必须在二者之间找到平衡,以达到检验的目标。
3 T检验失效的处理
3.1 原假设的选择原则
假设检验的两个结论在逻辑上可以共存,但是在实际中,得到一个如此模糊的判断是没有意义的。我们需要的是“接受H0”或“接受H1”这样明确的论断,来指导行动。也就是说,只能在HA或HB中选择其一执行假设检验。这表明,两个相反的假设检验中,应当有一种形式更符合现实的状况,而能被直接采用。这就涉及到原假设的选择原则。
仍以例1分析,如果做检验的是该电子元件的买方,根据自己的使用经验或厂家信誉,认为元件的平均寿命不超过225小时,只有非常有利于生产方的观察结果,才能改变对元件寿命的消极看法,于是就会提出H0:μ≤225作为原假设。同样,如果买方相信元件平均寿命不小于225小时,没有非常充分的理由,不应改变对厂方的信任,就会以H0:μ≥225为原假设。看上去原假设的选择完全取决于检验者的个人意志,不够严谨,但是,这种意志包含符合检验者地位的背景信息,根据这种个人意志选择原假设而得出的结论,确定是有实用价值的。
据此探讨原假设的选择原则。假设检验的原理决定了H0一旦确定,接下来就是通过抽样显示的信息,来计算其作为原假设的反证据的强度。因此,原假设无疑处于被怀疑的地位。同时,由于小概率事件的实际不可能性,一次抽样拒绝H0的可能性(α)大大小于接受的可能性(1-α),因此,原假设又是处于被保护地位的。通常我们采用的假设检验是显著性检验,它是通过对α的设定控制第一类错误(弃真错误),而不考虑第二类错误的概率,但我们希望“取伪”的概率越低越好,这一点也要加以考虑。因此,根据原假设上述三个性质,可以得出建立原假设的三个基本原则:
①将研究者想收集证据予以反对的命题作为原假设。
②对于某些存在有改进、更新的问题的检验内容,出于谨慎考虑,应将已存在的状态作为原假设H0,而将新改进反映在备选假设H1中。
③所有假设检验都可能犯两类错误,但有些假设检验犯两类错误所导致的后果的严重程度差别很大,则根据原假设的保护原则,将可能造成严重后果的错误设置为第一类错误,使之处于检验者控制下,而将其对应命题作为原假设H0。如:新药的毒副作用检验中有两种可能错误:a新药有毒,而误认为无毒;b新药无毒,而误认为有毒。显然错误a比b后果严重,因其可能危害用药者生命健康。因此将a设为第一类错误。则建立假设:H0:新药有毒,H1:新药无毒,则H0为真时拒绝H0的“弃真”错误,此处为“新药有毒而认为其无毒”错误,通过显著性水平α的选择,使其发生概率小到可接受的范围内。
3.2 样本容量的控制
大样本有可能带来检验的失真(实际意义而非理论意义上的),那么恰当确定样本容量就可以成为避免失效的手段。
(1)抽样过程中样本容量的控制
假设检验的操作过程大致可分为两阶段:第一阶段是分析研究,建立原假设和备择假设。这个阶段可能要使抽样调查,即通过抽取样本处理之后,获取对总体参数的估计等资料。理论上这不属于假设检验,但是假设检验的前提。因为要判断“θ=θ0”的命题,确定θ0不能是无根无据的。如果没有可资利用的材料(例如经验值和对参数的说明),就需要先抽样估计进行确定。为保证估计的精度,抽样估计中样本量的确定有一整套技术手段。虽然仍不免误差,但是可信度较高,可以视为真值。假设检验通常是在调查之后再抽取其他部分,就是验证其是否与调查结论一致。调查是前探型的,检验是回溯型的。一般地,检验的样本量小于调查的样本量,此时不会出现检验失效。故得出T检验样本容量上限确定的一个方法:在抽样调查确定的n1和功效干预确定的n2中,若n1≤n2,则取n1为样本容量,即样本上限不超过抽样调查的样本量。
(2)功效干预
对于不需通过抽样调查的T检验,如果所得的样本容量不超过30,可以直接采用。其微小的干扰效应也不容易表现出来。
如果样本容量超过30,可以采用功效控制法来确定样本量。n>30,T分布趋近于标准正态分布,故可记Ft≈Φ(x)。
对于均值的检验,可建立H0:μ=μ0,H1:μ≠μ0,显著性水平为α,为避免T检验的失效,希望对于μ∈(μ0-ε,μ0+ε),拒绝H0的概率(α′)也较小,显然α′>α,令α′=kα(k≥1),而接受H0的概率为β(μ)≥1-α′。
已知
因Ft≈Φ(x),而相应分位点亦逼近,故记t′≈μ′
故β(μ)=1-α+Φ(-μ′)-Φ(-μ′-Ω)-Φ(μ′)+Φ(μ′-Ω)=1-α+1- Φ(μ′)-1+ Φ(μ′+ Ω)-[Φ(μ′)- Φ(μ′- Ω)]利用拉格郎日中值定理,得β(μ)=1-α+Ω[Φ′(ζ2)-Φ′(ζ1)]=1-α+ Ω(ζ2-ζ1)Φ″(ζ3)]
其中,ζ1∈(μ′,μ′+Ω),ζ2∈(μ′- Ω,μ′),ζ3∈(ζ1,ζ2)
Φ″(x)=,当x=1时,有最大值,又ζ2-ζ1< 2Ω ,
所以:β(μ)≥1-α-又μ∈(μ0-ε,μ0+ε),因此:,对于α′=Kα(k≥1),使β(μ)≥1-α′=1-α-(k-1)α成立则要求1)α,即此时,检验失效的情况应当不会出现。
(3)样本容量的最终确定
①μ=μ0时:1-β(μ)≤α;②μ∈(μ0-ε,μ0+ε)时:1-β(μ)≤α′;③ ||μ-μ0≥δ时β(μ)≤β。可以好地实现控制两类错误及避免检验失效的目标。
4 结论
通过以上分析,可以发现利用控制样本容量可以控制t检验的失效。在进行T检验时:首先,利用公式-1)α确定样本容量的上限,使β(μ)降低;其次,根据研究对象的特点确定正确的样本容量,原则是尽可能的接近其上限值;第三:若要提高H0接受概率,即降低其被拒绝的概率,可以降低K值。第四,在T检验的实验中,结合方差分析、相关分析等方法,作为T检验结论的监控和修正,通过参照对比,发现不同种方法结论的差异,避免由于单独使用T检验而有可能产生的失误。
[1] 盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2001,(3).
[2] 戴维·S·穆尔,统计学的世界[M].北京:中信出版社,2003,(1).
[3] 张时民,配对t检验和相关分析中的误区[J].江西医学检验,2001,19(5).
[4] 韩志霞,张玲,P值检验和假设检验[J].边疆经济与文化,2006,(4).
[5] 冯士雍,倪加勋,邹国华,抽样调查理论与方法[M].北京:中国统计出版社,1998,(1).
[6] 沈恒范,概率论与数理统计教程(第四版),北京:高等教育出版社,2003,(4).