解析美国统计学会关于统计学检验和P值的声明
2017-03-09山西医科大学卫生统计教研室030001余红梅
山西医科大学卫生统计教研室(030001) 余红梅
1.P值的定义
·学术讨论·
解析美国统计学会关于统计学检验和P值的声明
山西医科大学卫生统计教研室(030001) 余红梅△
2014年2月,一位美国数学和统计学教授在世界上最大的统计专业学会——美国统计学会(American Statistical Association,ASA)论坛上抛出关于P值的议题:“为什么大学和研究生院在教P=0.05,答案是因为科学界和杂志社编辑在使用;为什么人们一直在使用P=0.05,答案是因为大学和研究生院在教”。为了澄清对统计学检验和P值的误解和误用,ASA理事会决定组成工作组起草一份声明,声明的对象是研究者、实际工作者和杂志社编辑等非统计专业人员。2015年10月专家工作组讨论两天后初步达成共识,随后的三个月,经过专家、ASA理事会以及目标受众的审议,2016年1月29日ASA执行委员会通过了该声明,随后在The American Statistician在线发布[1],在业界引起很大反响。国内知名统计学家中山大学方积乾教授亲自笔译了该声明及其背景[2-3]。本文通过回顾P值相关理论,进一步解读ASA声明的内容,旨在使非统计专业人员避免对P值的误解和误用。
P值相关理论
1.P值的定义
ASA声明中对P值的解释:“Informally,a p-value is the probability under a specified statistical model that a statistical summary of the data(for example,the sample mean difference between two compared groups) would be equal to or more extreme than its observed value[1].”国内医学统计学教科书中的描述:“P的含义是指从H0规定的总体中随机抽样,抽得等于及大于或(和)等于及小于现有样本获得的检验统计量(如t、u)值的概率”[4]。
2.Fisher的P值理论:significance test
P值理论归功于现代统计学之父、英国统计学家Ronald A.Fisher,Fisher基于1908年Student的t分布理论,于1925年首次给出不同情形下P值的计算方法[5]。P值提供的是度量实际数据与无效假设(null hypothesis)不相容的证据,P值越小,越有理由拒绝无效假设。Fisher认为这是建立科学事实的唯一实验依据[5],并提出使用后来饱受诟病的“significant”一词来标记该结论,P值理论由此得名significance test。实际上Fisher当时使用该词的初衷来自于该词的本意“something worthy of notice”,提示研究者应尽可能重复实验,如果重复实验仍然得到较小的P值,则可以推论观察到的效应不大可能单纯由于偶然造成。所以“significant”本意是值得研究者关注或进行重复实验,一次实验本身并不能证明。另外Fisher当时还建议阈值除了0.05外,也可以使用其他比如0.02或0.01[6],同时也强调下结论时应结合P值和研究的背景信息[7-8]。
3.Neyman-Pearson的假设检验理论:hypothesis test
假设检验(hypothesis test)理论归功于波兰数学家Jerzy Neyman和英国统计学家Egon Pearson(Karl Pearson之子)。1933年,在Fisher提出P值理论8年后,Neyman和Pearson提出假设检验理论,他们认为考虑一个无效假设的前提是先构想至少一个合理的备择假设(alternative hypothesis)[9]。
Neyman-Pearson理论巧妙避开了Bayes定理,文献中提到“基于概率论的检验本身都不能提供关于假设真伪的任何有价值的证据,但是我们可以从另一个角度看检验的目的。不用期望知道每个假设的真伪,我们或许可以寻求并遵循一些规则来规范我们的行为,以确保从经验的结果看,我们不会经常犯错(Without hoping to know whether each separate hypothesis is true or false,we may search for rules to govern our behavior with regard to them,in following which we insure that,in the long run of experience,we shall not be too often wrong.)”[10]。与Fisher理论不同,Neyman-Pearson理论中包含Ⅰ型错误和Ⅱ型错误(或检验效能),两型错误的概念及可能原因见表1。尽管他们当时没有设定5%水平为Ⅰ型错误的标准阈值,科学界普遍认同该阈值。对Ⅱ型错误β,通常取0.1或0.2,对应检验效能(即1-β)分别为90%和80%。
Fisher的P值理论和Neyman-Pearson假设检验理论的区别见表2和图1[10-11]。按照Fisher的P值理论,P值为0.052和0.047在做出推断结论时的权重几乎相等,而按照Neyman-Pearson的假设检验理论,则结论完全相反,这也正成为Fisher反对Neyman-Pearson假设检验理论的主要原因。
表1 Neyman-Pearson理论的两型错误及可能原因
表2 Fisher的P值理论和Neyman-Pearson假设检验理论的区别
图1A:基于Fisher的P值理论,实验1不拒绝H0,实验2和3拒绝H0的证据相当。图1B:基于Neyman-Pearson假设检验理论,按照α=0.05,β=0.10,实验1和2不拒绝H0,实验3拒绝H0。
图1 Fisher的P值理论和Neyman-Pearson 假设检验理论的区别(来自文献[10])
4.现行的假设检验理论
现行的假设检验是Fisher的P值理论和Neyman-Pearson假设检验理论的结合,称为null hypothesis significance testing(NHST)。事先指定Ⅰ型错误率(通常是5%)和检验效能(通常至少80%),然后计算P值,如果P值小于事先指定的Ⅰ型错误率,则拒绝无效假设。统计学教科书从20世纪50年代开始融合两种理论,60年代开始被科学界和研究者广泛接受。其推论依据是:若A成立,则B不大可能出现;若出现B,则不支持A。其特点是既有逻辑推理又有概率解释,而且只能证伪。
根据假设检验理论,推断结论不是二分类式的对错。拒绝无效假设,不意味着实验结果可以证明任何备择假设的真实性;反之,不拒绝无效假设,也不意味着实验结果可以确认观察到的样本差别单纯由于偶然引起。因此,假设检验可能出现有统计学意义但只有微弱甚至没有实际意义,或者有很重要的实际意义但没有统计学意义。特别地,当P>0.05时,结论宜表述为“两治疗组间差别的方向没有定论(P=0.07)”或“两变量间相关的方向没有定论(P=0.06)”,而不是“两治疗组间没有差别(P=0.07)”或“两变量间没有相关关系(P=0.06)”。这种表述避免了接受无效假设的结论,而且提示需要更多的数据以得到确定性的结论[12]。因此诸多统计学家建议假设检验结论中“significant”或“nonsignificant”前务必使用“statistically”。
备择假设成立前提下,P值是总体效应值和样本含量的函数,二者之一越大,则相应的P值越小。以相关系数为例,如果样本含量小(n=10),一个比较大的r值(r=0.60)会导致无统计学意义的结果;反之,一个很小的值(r=0.088),只要样本含量足够大(n=500),也会导致有统计学意义的结果,见表3[13]。模拟研究表明,给定检验效能(或样本含量和效应值)情况下,重复实验双侧检验P值的分布呈极度偏态(除非效应值等于0),且P值的变异度很大;若效应值未知,假定一次实验得到的双侧检验P值为0.05,则重复实验双侧检验P值第10和第90百分位数分别为0.00008和0.44,P区间范围很宽;只有在一次实验得到的P值非常小的情况下,重复实验P区间范围才较窄[14]。应该正是P值的上述自身缺陷导致了近90年的实践中对P值越来越多的争议,如蚊子(比喻烦人又不可能赶走)或皇帝的新衣(比喻存在明显的问题但被所有人忽视)[15-16];甚至有文献明确反对研究者、杂志社和读者使用假设检验[17-18]。目前统计软件的普遍可及性也在某种程度上导致了研究者对P值的误解和误用[19]。期刊《Research in the Schools》曾组稿专门出版一期特刊(Special Issue),讨论关于统计学假设检验的问题[20]。
表3 给定样本含量拒绝无效假设的相关系数r界值(α=0.05)
ASA声明中关于P值的6条原则及解读
1.“P-values can indicate how incompatible the data are with a specified statistical model”.
原则1强调P值表明数据与既定统计模型不相容的程度,P值越小,数据与既定统计模型对应的无效假设不相容的程度越大,前提是满足计算P值的假定条件。原则1实质上强调Fisher的significance test理论中关于P值的意义。
2.“P-values do not measure the probability that the studied hypothesis is true,or the probability that the data were produced by random chance alone”.
原则2强调P值不表示无效假设成立的概率,也不表示样本数据单纯由于偶然产生的概率。注意,我们得到的是无效假设H0成立条件下,获得现有样本或更极端样本的概率,而不是获得现有样本条件下无效假设H0成立的概率。从这个角度看,假设检验是演绎而不是归纳[8,21]。两个概率的关系由Bayes定理解释:Posterior odds(H0,after obtaining the data)=Prior odds(H0,before obtaining the data)*Prob(Data,under H0)/Prob(Data,under H1)。Trafimow和Rice蒙特卡洛模拟研究结果表明,按照传统的0.05检验水准,二者的相关性仅为0.289;如果检验水准更严格如0.01或0.001,则相关性更低,因此由前者的大小直接推断后者绝非安全[22]。
3.“Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold”.
原则3强调科学结论或决策不应仅依靠P值是否超过给定阈值即检验水准,还要结合研究设计、数据质量、研究现象的外部证据以及数据分析的前提条件等。正是广泛使用将P小于0.05即“有统计学意义”作为科学发现的依据,才导致对该科学推论过程的曲解。
4.“Proper inference requires full reporting and transparency”.
原则4强调研究者应当报告研究的所有假设、数据收集、统计学分析及其P值,而不应选择性地报告P值和相应的统计分析,要严格避免所谓“cherry-picking”或者“p-hacking”行为。有研究表明,有统计学意义的结果可能更容易被引用[23],这一不科学行为也可能导致“p-hacking”行为的恶性循环。
5.“A p-value,or statistical significance,does not measure the size of an effect or the importance of a result”.
原则5强调P值不等价于效应的大小或研究结果的重要性,P值越小并不表示效应越大或结果越重要,反之,P值越大也不表示效应越小或结果越不重要。只要样本含量足够大或测量精度足够高,任何小的效应都能产生小的P值,反之,大的效应由于样本含量小或测量精度低会导致大的P值;另外,相同的估计效应由于不同的估计精度会导致不同的P值。
6.“By itself,a p-value does not provide a good measure of evidence regarding a model or hypothesis”.
原则6强调没有研究背景或其他证据的P值只能提供有限的信息。例如,接近0.05的P值只能提供关于无效假设的微弱证据,而一个相对大的P值也不构成支持无效假设的证据,因此,数据分析不应以计算出P值而告终,研究者还可以提供其他证据,包括置信区间、预测区间、Bayes方法、似然比或Bayes因子、决策理论模型等。
结 语
ASA声明指出:作为规范的科学实践的一个必要部分,规范的统计实践强调研究设计的原则和实施、研究假设的理解、研究结果的解释及表达等。声明的执笔人、ASA理事会执行主席Wasserstein教授也强调从未指望单一的一个方法比如P值可以取代科学推断,ASA声明或许会引导科学研究到一个所谓“后P<0.05时代”[1]。
就像大家熟知的平均数的误用一样,假设检验本身没有错,可能犯错误的是使用者,因此一直以来假设检验遭受的是不公正的批评[12]。报告确切的P值可以让读者或研究者判断结果提示的意义,而不是仅仅依据检验水准做出拒绝或不拒绝假设的非此即彼的推断。另外,建议研究者综合使用假设检验、效应值、置信区间、Bayes统计、meta分析等,从不同角度阐释研究现象,而不是将假设检验作为统计推断唯一依据。
[1]Wasserstein RL,Lazar NA.The ASA′s statement on p-values:context,process,and purpose.The American Statistician,2016,DOI:10.1080/00031305.2016.1154108.
[2]方积乾(译).ASA关于p-值的声明:背景、过程和目的.中国卫生统计,2016,33(3):548-549.
[3]方积乾(译).ASA关于统计意义和p-值的声明.中国卫生统计,2016,33(3):549-552.
[4]孙振球主编.医学统计学.第3版.北京:人民卫生出版社,2010.
[5]Fisher RA.Statistical methods for research workers.Edinburgh,UK:Oliver and Boyd,1925.
[6]Fisher RA.The arrangement of field experiments.J Ministry of Agriculture Great Britain,1926,33:503-513.
[7]Fisher RA.Statistical methods and scientific inference.3rd ed.New York:Macmillan,1973.
[8]Goodman SN.Toward evidence-based medical statistics.1:the P value fallacy.Ann Intern Med,1999,130:995-1004.
[9]Neyman J,Pearson E.On the problem of the most efficient tests of statistical hypotheses.Philosophical Transactions of the Royal Society of London.Series A,1933,231:289-337.
[10]Biau DJ,Jolles BM,Porcher R.P value and the theory of hypothesis testing.Clin Orthop Relat Res,2010,468:885-892.
[11]Lew MJ.Bad statistical practice in pharmacology(and other basic biomedical disciplines):you probably don’t know P.British Journal of Pharmacology,2012,166:1559-1567.
[12]Wainer H,Robinson DH.Shaping up the practice of null hypothesis significance testing.Educational Researcher,1990:22-30.
[13]Larry GD.Statistical Significance Testing:A historical overview of misuse and misinterpretation with implications for the editorial policies of educational journals.Research in the Schools,1998,5(2):23-32.
[14]Cumming G.Replication and p intervals:P values predict the future only vaguely,but confidence intervals do much better.Perspectives on Psychological Science,2008,3:286-300.
[15]Nuzzo R.Statistical errors:P values,the ‘gold standard’ of statistical validity,are not as reliable as many scientists assume.Nature,2014,506:150-152.
[16]Lambdin C.Significance tests as sorcery:Science is empirical-significance tests are not.Theory Psychol,2012,22:67-90.
[17]Armstrong JS.Significance tests harm progress in forecasting.International Journal of Forecasting,2007,23(2):321-327.
[18]Azar B.APA task force urges a harder look at data.APA Monitor,1997,28(3):26.
[19]Goodman SN.A dirty dozen:Twelve P-value misconceptions.Semin Hematol,2008,45:135-140.
[20]Special Issue:Statistical significance testing.Research in the Schools,1998,5(2):5-65.
[21]Krueger J.Null hypothesis significance testing:On the survival of a flawed method.American Psychologist,2001,56:16-26.
[22]Trafimow D,Rice S.A test of the null hypothesis significance testing procedure correlation argument.The Journal of General Psychology,2009,136:261-269.
[23]Nieminena P,Ruckera G,Miettunen J.Statistically significant papers in psychiatry were cited more often than others.Journal of Clinical Epidemiology,2007,60:939-946.
(责任编辑:郭海强)
△通信作者:余红梅,E-mail:yu@sxmu.edu.cn