P值问题及高校财务数据模拟

2018-05-02刘利红

绍兴文理学院学报(自然科学版) 2018年1期

刘利红

(绍兴文理学院计划财务处,浙江绍兴312000)

0 引言

在进行统计学检验时，经常使用P值对是否拒绝零假设进行判断.最近国际权威学术杂志《Political Analysis》公开表示不再接收在文章中使用P值的论文[1].这个事件看似对传统统计学的公然挑战，但实际上也是对误用统计学敲响了警钟.针对这个问题笔者尝试给予理论上的探讨，并以一个财务数据的检验问题给予展示.

1 理论探讨

1.1 P值的定义

本文首先针对统计学检验给予P值一个明确的定义.P值是某一统计摘要的绝对值在零假设分布下大于其实现值的绝对值的概率.

自从Pearson(1900)[2]作为统计检验的一种辅助指标导入P值以来，无论在自然科学还是社会科学几乎所有领域P值都有着广泛的应用.很多情况下研究者只看P值的大小就做出了实证分析的最终结论.在统计分析中P值的强势几乎可以说是独一无二.

虽然P值在统计学应用中有着上述的重要地位，但历史上一直存在着关于P值误用的议论.这个问题其实在《Political Analysis》的论文之前《American Psychological Association》已经在Wasserstein and Lazar (2016)[3]中对P值的作用和使用上的问题提出了以下几点声明.

(1)P值能够表现数据和模型之间的不一致.

(2)P值并不能表示零假设下模型为真实模型的概率，也不能表示偶然生成现有数据的概率.

(3) 在进行科学研究，商务决策或者政策制定时，不应该仅仅根据P值是否超出一定的显著水平做出决定.

(4) 完善的统计推测应该展示全面和透明的结果.

(5)P值的大小和统计意义上的显著性并不能证明某种效果的强度或者某一结果的重要性.

(6) 判断模型是否恰当或者零假设是否正确，P值自身并不是很好的指标.

P值的问题只是存在于统计检验问题的冰山一角.Rao(2004)[4]提出了统计学特别是统计检验的弱点.Rao指出，在比较两个不同的政策或者措施的处理效应时，分析者往往过度地重视了两个处理效应一致这样的零假设，而这种零假设实际上根本不可能是真实的.与其做这样的零假设检验，不如把重点放在估计处理效应的差异上.

为了能够具体地理解P值误用的危害，下面的章节将继续从理论和实验的角度，对P值使用的问题进行详尽的探讨.

1.2 P值的使用方法

P值最常见的应用是在t检验中的应用.以两个不同母体均值差检验为例，首先计算均值差的t值，然后根据统计学理论推导出t值的分布.两个母体的方差一致的情况下，t值通常服从自由度为样本量减2的t分布.然后推导出t值所对应的P值.双侧检验时，如果P值<显著水平则拒绝母体的均值间没有差别的零假设.单侧检验时如果零假设是均值差≥0，当t值<零，自然是接受零假设，当t值>零则利用P值进行判断.如果P值/2<显著水平则拒绝母体的均值差≥零的零假设.零假设≤零时以此类推.P值在绝大多数的统计检验中都可以应用，使用方法和t检验时类似.

1.3 利用P值进行检验时可能产生的问题

利用P值进行检验从数理统计的理论角度讲不存在任何问题.当样本不断增大最终一定能够得到正确的结论.但是从实践角度考虑这种正确结论是否能被正确领会，是否存在误解是需要探讨的.

假设有两个随机变量X和Y，均值分别为μ1和μ2，方差相同为σ2.假设μ1和μ2之间只有微妙的差别,也就是说与σ相比μ1-μ2很小.这时我们的样本如果不是很大，通常很难拒绝零假设，也就是说这种情况下检验的功效很低.但根据中心极限定理和大数法则，只要我们不断增加样本总归会拒绝零假设.这在数理理论上是无可厚非的，但如果在实践上通过不断增加样本最终达到了拒绝零假设的目的，进而因为根据检验结果X和Y存在统计学意义上显著的差别，而下结论认为在实践的意义上X和Y存在有意义的差别，有时是会导致判断的严重错误.

极端地讲，完全等均值的两个母体在现实中是很难存在的.例如，假设A、B两组各种属性完全匹配的患者，对A组进行某种药物治疗而对B组仅仅使用安慰剂.假设该药物并没有足够的治疗效果，但虽然微乎其微还是有一点点的效果，两个群体的治疗后平均寿命几乎相同但也有微乎其微的差别.这时如果不断增大样本，最终还是可以拒绝零假设也就是拒绝药物无效的假设.这在统计学意义上讲检验方法没有任何错误，可是如果我们错误的以统计学的显著性代替药物的有效性，将造成判断错误.原因在于，微乎其微的差别在统计学上虽然通过增加样本可以检验出来，可是这样的微乎其微的差别实在太小，在实际的医疗实践中没有任何意义.不能仅仅依据统计检验的显著性对实际问题作出结论.只有结合实际才能正确判断.

2 财务数据模拟实验

为了更清楚地展示P值的误用可能性，做一个财务数据的模拟.实验内容是对某大学两个不同学院的财务管理进行比较.比较A、B两个学院的科研人员个人研究经费中差旅费比例.设定A、B两个学院的个人研究经费中差旅费比例分别服从相互独立的truncated standard normal distribution.A的上限和下限是0.1和0.9，B的上限和下限为0.11和0.91，均值分别为0.5和0.51.样本量设置8种：100、200、500、1 000、2 000、5 000、10 000、100 000.生成数据，针对每一种样本量重复模拟1000次.假设已知方差相同的信息，对两个学院的差旅费比例均值是否存在差异利用P值进行t检验.

模拟实验的具体程序代码如下：

模拟用Matlab程序代码rng(0);

p=zeros(8,100);

pd=makedist('Normal','mu',0.1,'sigma',0.9);

pdt=truncate(pd,0,1);

forj=1:1000

num=[100 200 500 1000 2000 5000 10000 100000];

for i= 1:8

n=num(i);

x=random(pdt,n,2);

varx=2*var([x(:,1);x(:,2)]);

t=n^0.5*mean(x(:,1)-x(:,2)+0.01)/(varx^0.5);

p(i,j)=1-tcdf(abs(t),2*n-2);

end

(sum(p'<0.025)/1000)

模拟的结果见表1.从表1的结果可以看到，随着样本量的增大零假设被拒绝的比例越来越高.当样本量在500以下时，只有10%以下零假设被拒绝.当样本量达到5 000时拒绝比例接近一半，当样本量增加到10 000时70%以上被拒绝，最终当样本量为10万时1 000次的模拟100%拒绝零假设.

模拟的结果说明虽然两个学院的个人差旅费比例均值相差只有1%，而这个1%只有总体分布的标准差的1/30左右.这样小的差异在财务管理上没有任何实际意义.但如果我们不断增加样本，就会和模拟的结果一样拒绝两个学院之间没有差异的零假设.这时如果错误地忽略了样本均值差异的大小而仅仅依赖P值，判断两个学院有显著的差异，将会误导财务管理，造成工作失误.

表1 模拟实验结果

样本量10020050010002000500010000100000拒绝零假设比例0.0620.0550.0890.1290.2140.4380.7041.000

3 结论

本文对P值的应用误区进行了理论探讨，并且通过模拟实验展示了在应用统计检验时误用P值的可能性和后果.在实际应用中，不能仅仅依赖P值对实际问题进行判断，必须结合各个领域的实际情况，参考其他指标和该领域的理论知识和实践经验.学习和使用统计学应从数理角度正确理解统计学理论知识.同时掌握如何在实践中正确使用统计学分析实际问题.

参考文献：

[1]GILL J. Comments from the new editor[J]. Political Analysis, 2018, 26(1):1-2.

[2]Karl P X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5, 1900,50(302): 157-175.

[3]Ronald L W, Nicole A L. The asa's statement on p -values: context, process, and purpose[J]. Am Stat, 2016, 70(2): 129-133.

[4]Rao C. Statistics: reflections on the past and visions for the future[J]. Communstat Theory Methods, 2001, 30(11): 2235-2257.