假设检验中P值的深入分析

2021-07-21高娟

统计理论与实践 2021年6期

高娟

（衡水学院经济管理学院，河北衡水 053000）

一、引言

毋庸置疑，P值让很多研究者感到困惑。关于P值的内涵和怎样合理运用它解决实际问题，数据科学家Admond Lee花费了比较长的时间，才对其有了真正深刻的理解，有些学者甚至提出要摈弃P值的极端观点[1]。人们的日常生活已经受到P值潜移默化的影响。在实际生活中做决定或者研究人员做某项检测，按照概率值P，给最终结果提供理论支持；公司管理人员做决策，依据过去相关数据的抽样分布，估计出P值，给出决策结论。值得指出的是，由于它只是整个决策过程中的一小部分，所以研究者不应该过度依赖P值。事实上，P值是否完全可靠有必要进行深入思考。接下来就针对P值的使用误区，谈一些个人观点。

二、基本概念解析

（一）P 值定义

当原假设（零假设）为真时，所得到的样本观察结果或更极端结果出现的概率，称为P值（P-value），也称为观察到的显著性水平（observed significance level）。如果P值很小，说明这种情况发生的概率很小，而如果出现了，根据小概率原理，就有理由拒绝原假设[2]。

以标准正态分布为例给出P值的计算方法如下：

检验统计量的样本观测值记为Z0，则总体均值假设检验P值可按下述方法计算[3]：

双侧检验：H0：μ=μ0，H1：μ≠μ0，则P值=2P（Z≥|Z0|）

右单侧检验：H0：μ≤μ0，H1：μ>μ0，则P值=P（Z≥Z0）

左单侧检验：H0：μ≥μ0，H1：μ<μ0，则P值=P（Z≤Z0）

（二）P值的解读

P值的一个通俗理解是，在原假设为真的条件下，在具体的样本统计量观测值和对应的总体参数假设值之间的差异中，由抽样随机误差引起的可能性大小。

P值越小，拒绝原假设的理由就越充分，然而一个十分小的P值不能推断出原假设和备择假设哪一个是错误的。这是由于P值非常小可能是因为原假设不正确导致的，也可能只是由于违背研究设计形成的，抑或是由于研究人员选取的样本容量比较大引起的。较大的P值意味着在原假设成立前提下，样本数据的出现并非是罕见情况，但是并不意味着原假设是对的。也许是因为出现了违背研究设计的情形，或者是由于研究人员选取的样本容量比较小造成的。

（三）P值和经典临界值差异

P值是取值在（0，1]范围的一个数值，归根结底是一个概率。临界值是由事先给定的显著性水平α查相应分布表得到的数值。研究者对于P值非此即彼的观点削弱了其意义：如果P值<α，则称为“统计上是显著的”，否则就被认为“统计上不显著”。

由于临界值是基于显著性水平查表得到的数值，而显著性水平α通常情况又是事先给定的（若没有规定α数值，通常选取α=0.05），所以临界值是不随抽样数据变化而变化的；P值是基于样本数据，因而是计算之前无法获取的分析结果，故P值被称为实际观测到的显著性水平。

P值检验是计算机时代通行的检验方式，无须按照不同的显著性水平查相关分布表来确定临界值。目前，一般的数据分析软件，在推断参数的同时都会给出相对应的P值。因此，在计算机时代P值检验更加方便可行。

三、常见问题总结剖析

（一）P值很小拒绝原假设时，检验结果一定有实际意义

某个结论在统计上是显著的，但是不一定有实际价值。由于P值和抽样的样本容量n紧密相关，检验统计量的值会随着样本容量的增大而增大，而此时P值却越来越小，就越容易拒绝原假设。事实上，只要主观上想拒绝原假设就一定能拒绝它，只要无限增加样本容量，几乎总是可以拒绝原假设，这就是“欲加之罪，何患无辞”。因此，研究者为了研究结果可以发表或者使结果具有统计显著性可以人为选择一些数据和方法，基于此，不应过于关注P值的统计学意义。如果研究总体规模比较小，噪声也会把一个极其大的效应量淹没，在这种情形下难以利用统计假设检验得到统计显著性。

（二）P≤α表示原假设为假或应拒绝原假设

P值越小，意味着包括原假设在内的所有假设均为真的前提下，现有样本数据出现的可能性是越小的；但P值较小也可能是由于抽样不具有代表性或者统计推断过程中违反了除原假设以外的其他假设。

（三）P值是原假设为真的可能性[4]

也就是说，假如在原假设为真的条件下，根据样本数据计算得到P=0.02，那么原假设为真的概率只有2%；如P=0.30，原假设为真的概率则有30%。P值是在原验假设为真的条件下计算得到的，它只反映现有样本数据与在包括原假设在内的所有假设成立的前提下预测情况的一致程度。所以，P=0.02意味着样本数据和根据模型预测的情况不是很接近，P=0.30相比之下暗示样本数据和模型分析预测情况相对来说更为相近。P值并不能体现某一理论是否存在的概率，只是表示在其不正确的前提下，现有样本数据以及有可能获取但是没得到的更加极端数据出现的可能性。

（四）P值表明的是所观测到的一致程度是只因偶然因素产生的可能性

例如，若在原假设成立条件下，得出P值为0.08，则说明有8%的机率是来自偶然引起的关联。此思想的不尽合理之处在于：以为只由偶然因素造成了现有观测结果，也就意味着在逻辑上承认包含原假设在内的所有用来计算P值的假设均是对的。

（五）统计不显著的检验结果意味着原假设为真或应被接受

P值较大只表明，包括原假设在内的所有假设均成立时，出现现有样本数据的可能性不是小概率。并不表示零假设是对的，零假设错误的可能性仍是非常大的，只能说还没有找到充足的理由去拒绝零假设。因此，对于原假设规范的说法通常是采用“拒绝或不拒绝”，而不是“接受”。

（六）如果P>α，表明没有观测到差异或证明了没有差异

P>α只能说明零假设是使P值大于α的诸多假设之一。切记统计推断（包括参数估计和假设检验）都是在一定的概率把握程度下讨论的，在假设检验中，不管是拒绝还是不拒绝原假设都不能保证100%正确，因此在假设检验中，“证明了原假设正确”或“证明了没有差异”这一表述是错误的。

（七）如果依据 P≤α拒绝原假设，则犯错误的可能性为α

如零假设为真，则当拒绝零假设时，若给定α=0.01，显然犯错误的概率是100%，而非1%。在零假设及所有其他假设均成立时，如果反复抽样，则可以实施多次检验，1%只表示在多次检验结论中，错误否定零假设的频率。

（八）统计假设检验中均利用双侧检验P值

如果是单侧检验时，使用单侧P值更为合适。建议在使用单侧检验P值时，可做必要解释说明和进行特别强调。

（九）若前期研究计算得到了较小的P值，那么针对同一假设后期实施的另一研究观测到的P值绝大可能不会高于该P值

即便在相互独立且各自所有假设均为真这一理想状态下进行分析，此种说法也是不正确的。有这种情形，若一项研究结果为P=0.02，则新研究只有2%的概率结果为P≤0.02。所以，已观测到的P值即为后来研究获得的P值结果不大于原研究P值结果的可能性。基本上，诸如研究规模，包括零假设在内的其他所有假设能否被满足在很大程度上都会对新研究的P值产生影响。

（十）若因为P值>0.05和所得检验功效为99%而不拒绝零假设，那么犯错误的概率为1%

如备择假设和研究中其余一切假设均为真，则在各个研究中实施多次检验时，意味着其中出错的频率是1%，而不是针对单独一次检验进行说明。也就是说，1%没有办法说明用以估算功效的效应量外的其他效应量的出错率。

四、结语

一直以来，学者们对P值的弊端进行着激烈争论。研究者已惯于用P值衡量实验数据的可靠性，实际上，P值不具有测量实验结果的能力，很多论文的研究结果是不可靠的。P值大小仅表示数据差异在统计学上是否显著，不代表实际显著性，因此要客观看待P值，做结论时应将统计学结果和实际问题结合起来。鉴于P值在实际运用中存在的诸多问题，要善于运用和慎用P值，要懂得接受不确定性，也可以合理选取二代P值或采取基于真实数据基础上的其他P值统计原则[5]。◆