教育研究中的P值使用：问题及对策──兼谈效应量的使用

2019-09-06沈光辉范涌峰

数学教育学报 2019年4期

关键词：假设检验样本量显著性

沈光辉，范涌峰，陈婷

教育研究中的值使用：问题及对策──兼谈效应量的使用

沈光辉1，2，范涌峰2，3，陈婷2，3

（1．西南大学数学与统计学院，重庆 400715；2．中国基础教育质量监测协同创新中心西南大学分中心，重庆 400715；3．西南大学教育学部，重庆 400715）

值；问题；假设检验；效应量

1 问题提出

值在统计推断中起着重要的作用，被广泛地应用于各个学科领域．然而，近年来值似乎卷入了一场危机风波，连续被多个权威期刊禁用，如2015年2月杂志宣布禁止使用值，并且不再使用置信区间，该杂志认为需要充足的描述性统计，其中包括效应量[1]．2018年1月22日美国顶级政治学术期刊宣布从2018年第26期起禁用值．这说明，人们越来越认识到值使用中存在的问题．

值问题争论已久，引起了统计、心理、体育、教育等领域专家的关注．美国统计学会申明了正确使用值的6条原则来规范值的使用[6]．Cohen指出，在经历了四十多年的批评后，研究者普遍还是错误地理解值，对值的使用再次进行了批判[4]．美国心理协会考虑了值的使用问题，并从1994年开始正式鼓励作者报告效应大小[7]．焦璨对《心理学报》《心理科学》两种杂志在1998—2007年使用虚无假设检验的情况进行统计，发现两种杂志10年间发表了论文4 115篇，其中使用虚无假设检验方法佐证研究结论的有2 752篇，占67%，心理学报的使用率高达84.8%．而且“唯有显著性结论的论文才能得到发表”已成为心理学科的行业标准[2]，其中值起到决定性作用．然而，令人讽刺的是Fisher引入值并不是想把它作为一个解释结果的决定性指标，而是当作判断时的一个非正式的参考指标来判断结果是否值得继续研究[8]．朱为模指出，在运动科学领域，很多顶级期刊根据值小于0.05（有时小于0.01）直接下结论，然而大样本会导致几乎所有的比较都是显著的，这使得“显著”这个词本身毫无意义．结合Cohen的观点总结了7点建议，包括不能仅根据值下结论，报告效应值大小，结合临床或者实际意义进一步解释效应大小等．并强烈建议杂志的作者、审稿人和编辑遵循这些建议[9]．Coe建议使用效应量，但是教育研究中很少使用效应量[10]，Coe认为研究者很少使用效应量的原因是计算效应大小的公式并没有出现在大多数统计教科书中（元分析除外），也没有出现在许多统计计算机软件包中，而且在标准的研究方法课程中也很少教授．Coe解释了什么是效应量，如何计算效应量，以及如何解释效应量等[7]．王光明等对国内教育领域4种CSSCI来源期刊进行统计，发现部分研究者对值的理解与认识存在一定偏差，并进一步对值问题进行了思考[11]．

然而，当前中国教育研究中定量研究十分不足，占比仅14.34%[12]，值在国内教育领域更是没有引起足够的重视，通过对国内37种教育类的（CSSCI）来源期刊的241篇文章进行分析，发现值在教育研究中存在诸多滥用、误用的现象，进行差异分析时很少计算效应量．在进行教育研究时常常需要找出差异的大小，而值却并不能阐释差异的大小，效应量正好可以弥补值使用的这一缺陷，通过值用来做定性分析，效应量用来做定量分析，将定性与定量分析结合，才能使研究结果更具说服力．因此，厘清值使用中常见问题，在教育研究的统计推断中引入效应量，对于提高教育研究的科学性具有重要意义．

2 教育研究中P值使用存在的主要问题

在中国知网中以“值”为主题词检索，共检索出值出现3次及以上属于《中国社会科学引文索引（CSSCI）来源和收录集刊（2017—2018）目录》的教育类（37种期刊）的文章246篇．把文章中含有“值”但并非假设检验中的值的文章删去5篇，最终可用文献241篇，文章的时间跨度为1998年11月—2017年3月．

对这241篇文献进行全文阅读分析，可以得出文献中使用假设检验方法的具体情况（见表1）．94篇文章使用了均值检验（包括单样本检验、独立样本检验、配对样本检验），占文章总数的39%；66篇文章使用了回归分析，占比27.39%；53篇文章使用了方差分析（检验），占比21.99%；48篇文章使用了相关系数检验，占比19.92%；30篇文章使用了卡方检验，占比12.45%；68篇文章使用了其它检验方法，占比28.22%．发现国内教育领域在做统计推断时常用的假设检验方法是均值检验、回归分析、方差分析（检验）、相关系数检验、卡方检验等．其中使用均值检验的文章最多，超过了文章总数的三分之一．对这些文献中的值使用情况进行分析，发现其存在的主要问题及不规范现象可以分为以下几类：值的错误表达，根据值选择显著性水平，忽视“大样本”对值的影响，值在给定显著性水平附近没有做解释说明，只报道值或者均值（见表2）．

表1 文献中假设检验方法的使用情况

表2 文献中P值使用存在的问题及不规范现象

2.1 P值错误表达

表3 P值错误表达方式情况

2.2 根据P值选择显著性水平

2.3 忽视样本对P值的影响

2.3.1 忽视“大样本”对值的影响

教育研究中的样本数据通常是大样本数据，即样本量大于等于30或者大于等于50．这里说的“大样本”不是一般的大样本，而是具有相当大体量的样本．例如，有两篇文章的样本量超过11 000，但是仍然用0.05做假设检验的显著性水平，并且通过了检验，这个结果是值得怀疑的．当样本量增大时，值会减小；当样本量减小时，值会增大．这也会导致大样本研究的小效应同小样本研究的大效应产生相同的值[13]．所以样本量很大时，只根据值作推断就容易导致错误的结论．通常样本量在抽样方法合理的情况下，越大越好，因为增大样本量会同时降低犯第一类错误和第二类错误的概率，但是样本量受时间、人力、经费等因素的限制，也不会过于庞大，样本量不受限制也就失去了抽样的意义[5]．

2.3.2 忽视了“小样本”对值的影响

由表2可以看出，有36篇文献的值在给定的显著性水平附近没有做进一步探讨，值在给定显著性水平附近时，决策要慎重，不应该轻易拒绝或者不拒绝原假设．这种情况很有可能是“小样本”造成的，这里提到的“小样本”不是教科书中明确的小于30或者50，而是指选取的样本量在教育研究中并不大，只有几十个或者一百多个．这个时候轻易下判断很有可能得到错误的结论．

2.4 对P值及其相关指标的报告不够全面

3 教育研究中P值使用的对策

3.1 理解P值及相关概念

3.2 在计算P值之前给出a

3.3 进行重复性试验并且引入效用量

当值在给定的显著性水平附近时，进行重复性试验可以让结论更加稳定．由于进行多次实验时，每一次实验数据都不同，可能会因为样本不同而存在检验显著与检验不显著的情况．所以，可以通过进行重复性试验或者进一步扩大样本来确保结论的稳定性．进行多次实验确保结果的稳定性是值得提倡的，但是绝不能为了寻找小值而做多次实验．当然，也可以通过学科背景知识进行一定的取舍．同时，效应量不受样本的影响，可以很好地解决因样本量带来的麻烦，如大样本数据得出小值的情况，效应量就能更好地反应差异或者相关的大小．

3.4 尽可能全面地报道实验结果

值、统计量、置信区间、效应量和描述性统计结果是常用的信息，全面的报道总是更有说服力，也可以给读者传递更多信息，让读者更容易自己去做判断．美国心理学会的出版手册（）第六版在结果部分强调：零假设检验结果只是报告的起始部分，还需要报道效应量、置信区间和更多的描述性统计结果来更全面地阐释结果的含义；发表的最低要求是在测试假设的完整报告里要有适当的效应量和置信区间；要提到所有相关的结果，包括与期望背道而驰的结果；当理论预测效应大（或者具有统计学意义时），实际结果是小的效应量（或统计学上不显著的结果）时，一定要报道该结果，不要隐藏那些看起来让人不满意的结果[19]．当表格中的数据很多时用显著符号替代值可以理解，但是建议将在给定显著性水平附近的值具体化；当表格中数据量较小时建议还是将具体值呈现出来．

4 效应量的引入及其对P值的补充

效应量（effect size），一种度量效应大小的指标．效应量具有与测量单位无关、单调性、不受样本容量的影响等基本性质[20]．效应量可以解决值无法刻画相关程度大小和差异大小的问题[11]，也可以避免“值操控”现象[21]．如温忠麟等人认为零假设显著性检验（NHST）仍然是大多数统计分析不可或缺的重要环节，建议用效应量来弥补值无法刻画差异大小的问题[20]．由此看来，在值使用中引入效应量已逐渐为人们所认同．然而，当前效应量在教育领域并没有引起足够的重视，在教育研究中进行差异分析时很少使用效应量．在上述统计的241篇教育研究文献中，只有3篇文章在做差异分析时使用了效应量．因此极有必要对效应量的概念、教育研究中常用的效应量公式及效应大小的参考标准予以阐释．

如前所述，国内教育领域在做统计推断时常用的假设检验方法是均值检验、回归系数检验、方差分析（检验）、相关系数检验、卡方检验等，为此，在教育研究中至少可以引入以下5类常用的效应量．

4.1 相关类效应量

4.2 均值差异类效应量

4.3 方差分析中效应量的计算

方差分析中常用的效应量有单因素方差分析中的效应量和双因素方差分析中的效应量，其中双因素方差分析的效应量包括主效应和交互效应对应的效应量．这里只分析单因素方差分析，这些方法同样适用于双因素方差分析．

4.4 卡方检验

当变量值超过两个水平时，用Cramér的[27]

4.5 回归的效应量

对上述5类效应量的大小给出参考指标，详见表4．

表4 效应量大小参考指标

上文按照假设检验方法类别，将教育领域中常用的效应量分为5类．效应量按统计意义可以分成如下3类：差异类（difference-type），相关类（correlation-type），组重叠（group-overlap）[28]．那么，教育领域常用的5类效应量按其统计意义可以划分成相关类和差异类效应量．其中，相关类效应量包含5类中的4类：相关类、方差分析、卡方检验、回归方程所对应的效应量；差异类效应量就是均值差异所对应的效应量．将5类效应量分成相关类和差异类是为了便于与值结合做统计推断．

值和效应量综合判断方法有两类：（1）相关类：统计学意义显著，效应量很小时，决策时要慎重，教育研究中很多变量都存在一定的相关性，通常把非常微弱的相关性就当成不相关；统计学意义显著，效应量较大时，认为具有较大的相关性；统计学意义不显著，效应量很小时，可以认为没有相关性；统计学意义不显著，效应量很大时，考虑样本量取得太少，需要增加样本量来进一步检验统计学意义上的显著性，然而在教育研究实验中一般都会取大样本，所以这类情况很少发生．（2）差异类：统计学意义显著，效应量很小时，决策时要慎重，要考虑细小的差异在教育研究中是否具有实际意义，教育中对实际效应的要求往往是较高的，甚至是要能通过学生的表现体现出来，所以这种情况在教育研究中通常是不具备实际意义的；统计学意义显著，效应量较大时，认为具有较大的差异；统计学意义不显著，效应量很小时，可以认为没有差异；统计学意义不显著，效应量很大时，考虑怀疑样本量是否取得全面，需要增加样本量来进一步检验统计学意义上的显著性，这类情况在研究中很少发生．

5 结语

实际上值本身并没有问题，由于值的不规范使用，导致部分研究者对值产生误解，认为根据值做出的决策结果时常出现错误，进而对值产生怀疑．任何一种方法都有它的使用前提和使用范围，使用者必须科学地运用研究方法．不应该把值当做金标准去做决策，应该综合考虑多种决策方法．引入效应量是为了刻画效应大小，量化研究问题，但是在使用效应量时不能走值的老路，不能死死盯住指标．效应量的引入使得决策时多了一种手段，但是并不是所有问题都得给出效应量，效应量在有些领域行不通，如，行为科学，Cohen也申明了使用效应量大小存在一定的风险．Hagen认为Cohen的一些关于值的批评[4]是没有根据的，因为Cohen认为虚无假设检验存在一些逻辑和信息问题，这可能导致粗心的读者认为统计显著性检验比不用更糟糕，应该被抛弃．虽然Cohen没有这么说，但他的读者可能会这么理解[31]．总之，将值和效应量结合使用会让决策结果更加稳定．

同样要考虑实际需求．比如，在研究教育对经济的影响模型时，如果某一变量没有通过检验，但是保留它可以让教育更大地促进经济增长，那么仍然会选择保留这一变量，这时就要以实际需求来衡量该模型是不是最佳．实践中更看重需求，做预测就得看实际预测效果，做控制就得降低风险，不同的需求会有不同的标准，统计指标需要与现实需求相结合．

统计可能是危险的并可能被滥用[32]，统计指标只是一个研究工具，用统计指标分析出来的结果虽然对研究决策起着重要的参考作用，但是绝不能把这个结果当作唯一标准．在医学领域中假阳性结果时常出现，医生在做判断时就不能只看统计指标了，需要用数据说话，但是不唯数据论．教育学中指标体系的建立经常采用专家打分法，也有学者用因子分析法去确定指标[33]，这两种方法都有着各自的优缺点，专家打分能更好地结合专业背景去确定指标，但是主观性太强；因子分析法具有客观性，但是往往会舍弃一些影响很大、非常重要的变量．所以，应该把统计指标当作一种参考．这样看来，值和效应量的结合，再融入学科背景知识等，多角度分析问题的方法就显得非常重要．

[1] TRAFIMOW D, MARKS M. Editorial [J]. Basic Appl, Soc, Psych, 2015 (37): 1–2.

[2] 焦璨．心理学研究中假设检验理论方法探析[M]．北京：中国社会科学出版社，2014：14–15，2．

[3] NICKERSON R S. Null hypothesis significance testing: A review of an old and continuing controversy [J]. Psychological Methods, 2000, 5 (2): 241–301.

[4] COHEN J.The earth is round (<0.05) [J]. American Psychologist, 1994, 49 (12): 997.

[5] 贾俊平，何晓群，金勇进．统计学[M]．4版．北京：中国人民大学出版社，2009：211，214．

[6] WASSERSTEIN R L, LAZAR N A. The ASA’s statement on-values: Context, process, and purpose [J]. The American Statistician, 2016, 70 (2): 129–133.

[7] COE R. It’s the effect size, stupid: What effect size is and why it is important [C]. Paper presented at the Annual Conference of the British Educational Research Association. London: the British Educational Research Association, 2002: 1–18.

[8] NUZZOR. Scientificmethod: Statistical errors [J]. Nature, 2014, 506 (7 487): 150–152.

[9] ZHUW. Sadly, the earth is still round (<0.05) [J]. Journal of Sport and Health Science, 2012, 1 (1): 9–11.

[10] KESELMAN H J, HUBERTY C J, LIX L M, et al. Statistical practices of educational researchers: An analysis of their ANOVA, MANOVA, and ANCOVA analyses [J]. Review of educational research, 1998, 68 (3): 350–386.

[11] 王光明，李健，张京顺．教育实证研究中的值使用：问题、思考与建议[J]．教育科学研究，2018（2）：59–65．

[12] 范涌峰，宋乃庆．教育研究科学化：限度与突破[J]．教育研究，2016（1）：94–101．

[13] SIMON R. Confidenceintervals for reporting results of clinicaltrials [J]. Annals of Internal Medicine, 1986, 105 (3): 429–435.

[14] KIRT R E. Practicalsignificance: Aconcept whose time has come [J]. Education and Psychological Measurement, 1996, 56 (5): 746–759.

[15] 吴喜之．统计学：从数据到结论[M]．北京：中国统计出版社，2006：97．

[16] 陈章颖．生物医学期刊中常见的值使用错误[J]．编辑学报，2014，26（2）：137–139．

[17] GARCIA-BERTHOU E, ALCARAZC. Incongruence between test statistics andValues in medical papers [J]. BMC Med Res Methodol, 2004, 28 (4): 13.

[18] KUFFNER T A, WALKER S G. Why are-values controversial [J/OL]. American Statistician, 2018: 1–3. (2018–01–26) [2019–01–02]. DOI: https://doi.org/10.1080/00031305.2016.1277161.

[19] AMERICAN PSYCHOLOGICAL ASSOCIATION. Publication manual [M]. Washington, DC: American Psychological Association, 2010: 33.

[20] 温忠麟，范息涛，叶宝娟，等．从效应量应有的性质看中介效应量的合理性[J]．心理学报，2016，48（4）：435–443．

[21] 周彦池，裴昌根．数学教育研究与实践的热点及趋势——第二届华人数学教育大会暨数学教育博士生论坛综述[J]．数学教育学报，2016，25（6）：93–95．

[22] LARRY V, HEDGES L V, OLKINI. Statisticalmethods for meta-analysis [M]. Orlando: Academic Press, 1985: 76–81.

[23] BORENSTEIN M, HEDGES L V, HIGGINS J P T, et al. Introduction to meta-analysis [M]. John Wiley & Sons, 2011: 27.

[24] Cohen J. Statisticalpower analysis for the behavioral sciences [M]. New York: Academic Press, 1977: 20，66–67，82，224–225.

[25] MCGRATH R E, MEYER G J. Wheneffect sizes disagree: The case of r and d [J]. Psychological Methods, 2006, 11 (4): 386–401.

[26] HEDGES L V. Distributiontheory for glass’s estimator of effect size and related estimators [J]. Journal of Educational Statistics, 1981, 6 (2): 107–128.

[27] COHENJ.Statistical power analysis for the behavioral sciences [M]. 2nd ed. Hillsdale, NJ: Erlbaum, 1988: 79–80，223–225，283–287，413–414.

[28] 郑昊敏，温忠麟，吴艳．心理学常用效应量的选用与分析[J]．心理科学进展，2011，19 (12)：1 868–1 878．

[29] COHENJ. Statistical power analysis [J]. Current Directions in Psychological Science, 1992, 1 (3): 98–101.

[30] 权朝鲁．效果量的意义及测定方法[J]．心理学探新，2003（2）：39–44．

[31] HAGEN R L. In praise of the null hypothesis statistical test [J]. American Psychologist, 1997, 52 (1): 15–24.

[32] 季理真，章勤琼．统计支配世界——漫谈何为统计与统计何为[J]．数学教育学报，2015，24（2）：10–11．

[33] 张和平，裴昌根，宋乃庆．小学生几何直观能力测评模型的构建探究[J]．数学教育学报，2017，26（5）：49–53．

UsingValue in Educational Research: Problems and Countermeasures——Concurrently Discussing about the Use of Effect Quantity

SHEN Guang-hui1, 2, FAN Yong-feng2, 3, CHEN Ting2, 3

(1. School of Mathematics and Statistics, Southwest University, Chongqing 400715, China;2. Southwest University Branch Center of National Innovation Center for Assessment of Basic Education Quality, Chongqing 400715, China;3. Faculty of Education, Southwest University, Chongqing 400715, China)

-value was an important tool for statistical inference in educational research, but there were many problems in its application. Based on statistical analysis of the use of-value in the 241 articles belonging to the CSSCI journals in the field of education (2017—2018), it was found that these problems in the use of-value, including-value error expression, selecting the significance level by the-value, ignoring the effect of samples to-value, incompletely reporting the information of-value and related indicators, etc. Therefore, it was necessary to understand-values and related concept before using-values, give alpha before calculating-value, repeatability test and introduce the effect size, provide full reports as much as possible. Besides, as an important index to measure the effect size, the effect size was often ignored by educational researchers. Therefore, in order to improve the accuracy of statistical inference and the scientificity of educational research，five types of effect size could be introduced to educational research, both qualitative judgment and quantitative judgment should be considered, by using-value and effect size.

-value; problem; hypothesis testing; effect size

2019–03–22

中国基础教育质量监测协同创新中心重大成果培育性项目——高中监测制度建设及监测方式研究（2019-06-021-BZPK01）；中国博士后基金面上项目——学校特色发展水平常模构建研究（2017M622934）；中国基础教育质量监测协同创新中心重点培育项目——西藏小学生数学学业质量监测（2018-06-020-BZPK01）；中央高校专项资金项目——西藏初中生数学学业质量监测研究（SWU1709664）

沈光辉（1993—），男，湖北襄阳人，硕士，主要从事教育统计研究．

G449.7

1004–9894（2019）04–0092–07

沈光辉，范涌峰，陈婷．教育研究中的值使用：问题及对策——兼谈效应量的使用[J]．数学教育学报，2019，28（4）：92-98．

[责任编校：周学智、陈汉君]