国际应用语言学期刊效应值报告与解释现状研究

2016-06-02蒲显伟陆雷娜

统计与信息论坛 2016年5期

关键词：解释报告

蒲显伟，陆雷娜

(南京理工大学外国语学院，江苏南京210094)

国际应用语言学期刊效应值报告与解释现状研究

蒲显伟，陆雷娜

(南京理工大学外国语学院，江苏南京210094)

摘要：针对显著性检验存在的问题，美国心理学会出版手册第6版和国外社会科学领域的不少期刊都要求将定量研究报告效应值作为补充。分析6种重要的国际应用语言学期刊发表于2012—2014年的定量数据分析文章效应值的报告与解释现状，研究发现：6种期刊共239个统计检验平均有66%报告了效应值，其中53%对效应值进行了解释，仅1.3%报告了效应值的置信区间；相比相关分析和回归分析，t检验和非参数检验效应值报告比例较低；研究者存在过度报告Cohen’s 等效应值的倾向；相比美国心理学会出版手册，期刊编辑对效应值报告的要求更为有效。

关键词：效应值；报告；解释

一、引言

显著性检验被广泛地应用于教育学、心理学、应用语言学等社会科学的定量研究中已有几十年时间了。然而，显著性检验从出现开始就有学者指出其存在的问题，近年来研究者对显著性检验的批评更加猛烈[1-2]。鉴于此，许多研究者建议在定量研究中将报告效应值(effect size)作为对显著性检验结果的补充。美国心理学会出版手册第4、第5、第6版(APA, 1994、2001、 2010)也分别“鼓励”、“建议”和“要求”研究者汇报定量研究结果的效应值[3]18，26，33。目前，国外应用语言学、教育学、心理学等社会科学领域已有不少期刊，如《语言学习》(LanguageLearning)、《现代语言期刊》(TheModernLanguageJournal)、《对外英语教学季刊》(TESOLQuarterly)、《当代教育心理学》(ContemporaryEducationalPsychology)等, 在其投稿须知中明确要求定量研究必须报告效应值。

受这些建议和要求的影响，国外研究者开始对效应值的报告现状与解释标准展开研究，目的是为了考察这些建议和要求是否对定量数据分析结果的报告方法产生实质性的影响。研究结果表明，APA出版手册第4版和第5版对定量数据分析结果效应值的报告并没有产生显著影响[4]，原因之一可能是第4、第5版的措辞较为温和，仅仅是鼓励和建议研究者报告效应值。APA出版手册第6版已于2010年出版，第6版对于效应值报告的“要求”估计会对定量数据分析结果的报告方法产生较大影响。此外，为数不多的关于效应值报告现状的研究主要集中在教育学和心理学领域，因为美国心理学会和美国教育研究学会对这两个学科领域具有较大的影响，应用语言学领域还没有学者对此进行专门研究。应用语言学期刊《语言学习》、《对外英语教学季刊》和《现代语言期刊》分别于2000年、2003年、2013年开始要求投稿人报告定量研究结果的效应值。因此，本研究目的之一是考察APA出版手册第6版对国外应用语言学期刊定量研究结果效应值报告与解释现状的影响；之二是比较国外应用语言学领域两类期刊(对效应值报告有明确要求和无明确要求的期刊)在效应值报告与解释方面是否具有显著性差异。

二、国内外研究现状

国外对效应值的报告现状研究始于20世纪90年代，主要集中在教育学和心理学领域，目前其他社会学科领域还没有人对效应值的报告现状进行专门的研究。在应用语言学领域，Plonsky对《语言学习》和《二语习得研究》(StudiesinSecondLanguageAcquisition)两种期刊于1990—2010年间发表的606篇定量文章的研究质量进行了综述，并对效应值的报告作了简单统计，结果表明在前10年间(1990—1999)仅有3%的文章报告了效应值，后10年间(2000—2010)这一比例上升到了42%，20年的平均比例为26%[5]。

国内对效应值的研究大概始于2000年后，仅有几位研究者在其发表的文章中介绍了效应值[6-8]。在效应值的报告现状方面，国内还没有人进行专门的研究。焦璨对《心理学报》和《心理科学》两种期刊于1998—2008年20年间发表的文章所采用的统计方法进行了元分析，目的是为了了解国内心理学研究领域最常用的统计方法及运用中存在的问题，发现两种期刊报告效果量的文章分别为30篇和21篇，均仅占所分析文章总数的1.6%。因此，呼吁中国心理学会应更加重视效果量的报告[9]。

从2014年开始，国内已有几种期刊如《心理学报》、《心理学探新》、《心理发展与教育》等，在其投稿须知中明确要求定量数据分析文章在报告统计显著性的同时必须报告分析结果的效应值，这表明国内一些期刊已经注意到了国际上定量数据分析结果报告方法的最新动向，并作出了相应的要求，以促使国内研究者改善定量数据分析结果的报告方法。

三、研究设计

(一)期刊选择

本研究选取了6种重要的国际应用语言学期刊发表于2012年第3期至2014年第2期共两年时间的原创性定量数据分析文章作为研究对象，目的是考察APA出版手册第6版和期刊编辑对效应值报告的要求对效应值报告与解释现状的影响，其中3种期刊(《语言学习》、《对外英语教学季刊》、《现代语言期刊》)对效应值的报告有明确要求，另3种期刊《二语习得研究》、《应用语言学》(AppliedLinguistics)、《二语写作期刊》(JournalofSecondLanguageWriting)对效应值的报告没有明确要求。选择后3种期刊进行对比研究的原因是，尽管这些期刊对于效应值的报告没有明确要求，但已有部分作者在其定量研究结果中报告了效应值。

(二)研究问题

第一，国外应用语言学期刊定量研究效应值报告现状如何？两类期刊(对效应值报告有和无明确要求)是否具有显著性差异？

第二，研究者是如何报告效应值的？哪些检验方法效应值报告比例较高？哪些效应值报告比例较高？研究者是否报告了效应值的置信区间？是否报告了所采用效应值的定义、意义、计算方法和参考文献？

第三，效应值解释现状如何？两类期刊是否具有显著性差异？

第四，研究者是如何解释所报告的效应值的？

(三)分析方案

国外社会科学领域现有的效应值报告现状研究基本是以文章作为分析单位，然而大多数的定量分析文章都采用了一个以上的统计检验方法，而有些作者只报告了其中一部分检验方法结果的效应值，因此现有效应值报告现状的研究结果在一定程度上夸大了效应值报告的比例。本研究以统计检验方法为基本分析单位，采用表1中的分析方案对每篇文章的主要定量数据统计检验方法进行分析，以期对应用语言学期刊效应值的报告现状作出更准确的描述[10]。

表1　分析方案表

四、研究结果

(一)效应值报告现状

本研究的6种期刊在2012年第3期至2014年第2期刊登的原创性定量数据分析文章149篇，共239个主要的统计检验。表2是6种期刊统计检验效应值报告频次和比例，6种期刊报告了效应值的检验数平均为66%，其中《语言学习》最高(83%)、《二语习得研究》最低(45%)。就两类期刊而言，在投稿须知中对效应值报告有明确要求的期刊，其效应值报告的比例均高于对效应值报告没有明确要求的期刊，两类期刊平均比例分别为78%和51%，卡方检验结果显示两者具有统计显著性差异(2= 19.06、p=0.000)，检验结果效应值为 OR = 3.39、95%CI = 1.87～6.17。

表2　效应值报告频次与比例表

表3　明确报告效应值检验的频次与比例表

然而，有些统计检验方法的结果如相关分析的r值既是统计量又是效应值，部分研究者并没有给出明确说明，因此表2中效应值报告比例可能偏大[11]。鉴于此，笔者又对明确报告效应值的检验比例进行了统计，即作者在检验方法中明确提到了效应值、或报告的效应值与统计量不同的检验，统计结果见表3。6种期刊明确报告了效应值的检验数平均为40%，最高的仍是《语言学习》(58%)，最低的是《应用语言学》(25%),两类期刊的平均比例分别为50%和31%，比表2中的比例分别降低了28%和20%，但仍具有统计显著性差异，2= 9.59、p=0.002、OR = 2.31、95%CI =1.31～4.08。

由于目前国外应用语言学、教育学、心理学等领域关于效应值报告现状的文章并没有说明所报告的比例是否为明确报告效应值的比例，因此很难将本研究结果同其他研究进行横向对比。例如Plonsky发现《语言学习》和《二语习得研究》两种期刊在2000—2010年间发表的文章效应值的报告比例为42%[5]。从表2表3结果看，APA出版手册第6版出版后，国外应用语言学期刊效应值的报告比例有一定的提升，这在一定程度上表明了第6版对于效应值报告的要求起到了一定的作用。

与APA出版手册第6版的要求相比，期刊编辑的要求似乎更为有效。对效应值有明确要求的期刊，效应值的报告比例要明显高于没有明确要求的期刊。有明确要求的3种期刊之间也存在差异，表3显示了《语言学习》和《对外英语教学季刊》明确报告效应值的检验比例分别为58%和54%，比《现代语言期刊》(42%)高12%以上，这是因为前两个期刊分别在2000年和2003年就对效应值的报告作出了要求，而后者在2013年才作出要求。因此，正如Kirk所言，期刊编辑是改变效应值报告现状的主导力量，编辑对效应值报告的要求能产生连锁反应，文章作者会相应改变对研究结果的推断和报告方法、统计学专著作者会修改其出版物、统计学教师也会相应改变课程内容并加入对效应值的介绍[4]。

(二)效应值报告方式

表4是两类期刊不同检验方法效应值的报告比例。两类期刊在相关分析和回归分析检验方法上效应值的报告比例均达到100%。在其他3类检验方法上，两类期刊有明显差异，对效应值报告有明确要求期刊的报告比例均高于没有要求的期刊。两类期刊方差分析效应值报告比例分别为81%和57%,2= 6.49、p=0.011、OR = 3.19、95%CI = 1.28～7.95；t检验效应值报告比例分别为56%和29%,2=3.49、p=0.062、OR=3.18、95%CI=0.93～10.92；非参数检验效应值报告比例最低，分别为47%和17%,2=3.78、p=0.052、OR = 4.16、95%CI=0.95～18.27。两类期刊的相关分析和回归分析效应值报告比例达到100%，主要是因为这两种方法的检验结果如相关分析的r值，是SPSS统计软件可以直接输出的结果，既是统计量又是效应值，而t检验和非参数检验SPSS输出的结果不包括效应值，需要手动或借助其他软件进行计算。值得注意的是，尽管SPSS输出的方差分析结果中包含效应值，但两类期刊方差分析效应值报告比例分别仅为81%和57%。

表4　不同检验方法效应值报告比例表

注：*包括卡方检验、Mann-Whitney、Wilcoxon Signed-Rank和Kruskal-Wallis检验。

表5　不同检验方法报告的效应值类型及频次表

在效应值置信区间报告方面，6种期刊共有157个统计检验报告了效应值，但只有两个检验(《语言学习》和《二语习得研究》各一个)报告了效应值的置信区间，比例仅为1.3%，该结果与现有的关于效应值报告现状的研究结果一致，即效应值置信区间的报告比例基本为零[12]。早在2001年，APA出版手册第5版就指出置信区间是代表最好的研究结果报告方法，因此极力建议研究者报告效应值的置信区间。APA出版手册第6版也要求研究者尽可能地报告效应值的置信区间，因为置信区间的报告不仅有助于理解效应值点估计的准确性，而且有助于比较不同研究的效应值。

表6　效应值定义、意义、计算方法或参考文献

表6是两类期刊报告效应值时对效应值的定义、意义、计算方法或参考文献进行说明的频次和比例。两类期刊分别有27个(26%)和14个(25%)统计检验方法在报告效应值的同时提供了效应值的意义或计算方法或参考文献，各有75(74%)个和21个(75%)检验方法对所采用的效应值没有进行任何说明。两类期刊之间没有统计显著性，2=0.02、p=0.890、效应值为OR = 1.05、95%CI = 0.50～2.23。在本研究分析的149篇文章中，只有1篇对所采用的效应值给予了充分的说明，既解释了效应值的定义和意义，也提供了效应值的计算方法和参考文献[14]。

Third, the differences among the four groups’ gain scores were investigated by calculating effect sizes using Cohen’sd(Cohen, 1988) ...Because of the lack of previous studies in this area, we used Cohen’s tentative guidelines to estimate the magnitude of the effect sizes. Cohen defined effect sizes as small (d=0.20), medium (d=0.50), and large (d=0.80). (p. 681)

... ohen’sd, a scale-free measure of the separation between two group means, is calculated by dividing the difference between group means by the pooled standard deviation or the standard deviation of the IR Group. The resulting measure is the difference between the group means expressed in standard deviation units. For instance, a d of 0.50 is an indication that one-half of a standard deviation separates the two measures... Finally, effect sizes can be conceptualized in terms of the percent of nonoverlap in the distribution of one group’s scores with that of another group. For instance, an effect size (d) of 0.8 corresponds to a nonoverlap of 47.4% in two distributions. (p. 698)

(三)效应值解释现状

6种期刊共有157个统计检验报告了效应值，其中对效应值进行了解释的统计检验个数为83，占53%。对效应值有明确要求和无明确要求的两类期刊分别有49和34个统计检验对效应值进行了解释，比例分别为48%和34%，卡方检验显示两者之间没有统计显著性差异(2=2.72、p=0.099)，效应值为OR = 0.57、95%CI = 0.29～1.11(表7)。尽管对效应值报告有明确要求和无明确要求的两类期刊在效应值的解释比例上没有统计显著性差异，而且前一类期刊效应值的报告比例要显著高于后一类期刊，但对效应值报告没有明确要求的期刊效应值的解释比例要比有明确要求期刊高14%，该结果与Alhija和Levy的研究结果基本一致，他们的研究结果表明，对效应值报告有明确要求和没有明确要求的期刊效应值的解释比例分别为55%和57%，两者之间也没有统计显著性差异[10]。后一类期刊在投稿要求中对效应值没有明确要求，而部分研究者却主动报告了统计检验结果的效应值，这表明此部分作者可能对效应值比较熟悉或有所了解，因此对效应值的报告也更为完整，并在报告效应值的同时对效应值作出了解释。

表7　效应值解释频次和比例表

(四)效应值解释方式

尽管表7显示两类期刊共有83个统计检验，占53%，对所报告的效应值进行了解释，其中80个(96%)统计检验只是根据Cohen提出的各类效应值大、中、小的经验标准对效应值的大小进行了简单说明[15]40。83个统计检验中仅有3个对效应值大小的实际意义作出了说明，例如Zhang对其研究结果的效应值作了如下解释[16]：

Result showed a significant difference between the pre-test and post-test scores (t=6.663,p=0.000). To detect the effect size of this difference, Cohen’sdwas computed using the mean score and standard deviations, and the result showed a large effect size (d=2.08). This means that at post-test, the students on average improved their writing quality by 1.6 points on a 6-point scoring scale. (p. 59)

目前，社会科学领域研究者在效应值的解释上对Cohen解释标准的过度依赖，主要是由于各个学科领域缺乏适合自身学科特点的解释标准。不同学科领域为数不多的关于效应值解释标准的研究也显示了与Cohen标准不一样的结果。Olejnik等人对教育学领域前人研究的分析表明，较大的效应值在0.246到0.372之间[17]，这比Cohen的标准要小很多。Ferguson在对前人研究进行分析后总结出的社会学领域的解释标准比Cohen的标准要大很多，d=0.41、1.15、2.70分别为小、中、大效应值标准[1]。在二语习得领域，Plonsky等人比较了346个原创性研究和91个元分析研究后，提出的二语习得领域效应值标准分别为d=0.40、0.70、1.00[18]。

许多研究者(包括Cohen自己)也指出，研究者在解释定量数据分析研究结果效应值时不能机械地照搬现有的标准。研究者应结合自己的研究领域和研究设计，将自己研究结果的效应值与同领域前人研究结果的效应值进行对比分析和解释，指出研究结果是否具有实际意义，同时报告效应值的置信区间[19]。这样，经过不断地积累和元分析者的努力，各个研究领域就能制定出适合自身特点的效应值解释标准，而机械地照搬Cohen提出的解释标准，则会又一次陷入显著性检验以点为界二分决策的错误中。因此，社会科学各领域的研究者应加强对效应值解释标准的研究。

五、总结与建议

从研究结果可以看出，应用语言学领域效应值的报告与解释现状有较大的提升空间。因此，本文就改进效应值报告与解释现状提出如下建议：第一，研究者应根据自己的研究设计、所采用的统计检验方法以及对数据的探索分析选用适当效应值，并对所采用的效应值的意义、计算方法和参考文献给予适当的说明；第二，在报告检验结果效应值的同时，要报告效应值的置信区间以提高效应值点估计的准确性；第三，报告所有统计检验方法结果的效应值，包括统计显著性大于临界值的统计结果，因为受研究样本容量的影响，研究结果的统计显著性和实际显著性很多时候并不完全匹配；第四，结合前人研究结果，对自己研究结果的效应值大小给予明确解释；第五，社会科学领域的期刊应对定量数据分析效应值的报告提出明确的要求，期刊编辑是改变效应值报告与解释现状的主导力量。

参考文献：

[1]Ferguson C. An Effect Size Primer: A Guide for Clinicians and Researchers[J]. Professional Psychology: Research and Practice, 2009(5).

[2]Sun S, Pan W, Wang L. A Comprehensive Review of Effect Size Reporting and Interpreting Practices in Academic Journals in Education and Psychology[J]. Journal of Educational Psychology, 2010(4).

[3]American Psychological Association. Publication Manual of the American Psychological Association (4th/5th/6th ed.)[M]. Washington, DC: Author, 1994.

[4]Kirk R E. Practical Significance: A Concept Whose Time Has Come[J]. Educational and Psychological Measurement, 1996(5).

[5]Plonsky L. Study Quality in Quantitative L2 Research (1990-2010): A Methodological Synthesis and Call for Reform[J]. The Modern Language Journal, 2014(1).

[6]胡竹菁, 戴海琦. 方差分析的统计检验力和效果大小的常用方法比较[J]. 心理学探新, 2011(3).

[7]蒲显伟. 定量数据分析效应值研究综述[J]. 统计与信息论坛, 2014(11).

[8]蒲显伟. 定量数据分析效应值：意义、计算与解释[J]. 心理学探新, 2016(1).

[9]焦璨. 心理研究中统计方法应用的无分析——以《心理学报》、《心理科学》(1998-2008)统计方法应用为例[J]. 心理科学, 2010(1).

[10]Alhija F N, Levy A. Effect Size Reporting Practices in Published Articles[J]. Education and Psychological Measurement, 2009(2).

[11]Matthews M S， et al. Evaluating the State of a Field: Effect Size Reporting in Gifted Education[J]. The Journal of Experimental Education, 2008(1).

[12]Fritz C, Morris P, Richler J. Effect Size Estimates: Current Use, Calculations, and Interpretation[J]. Journal of Experiemtnal Psychology: General, 2012(1).

[13]Peng C Y, Chen L T, Chiang H M, et al. The Impact of APA and AERA Guidelines on Effect Size Reporting[J]. Educational Psychology Review, 2013(2).

[14]Beglar D, Hunt A, Kite Y. The Effect of Pleasure Reading on Japanese University EFL Learners’ Reading Rates [J]. Language Learning, 2012(3).

[15]Cohen J. Statistical Power Analysis for the Behavioral Sciences[M]. 2nd ed.Hillsdale, NJ: Erlbaum, 1988.

[16]Zhang C. Effect of Instruction on ESL Students' Synthesis Writing[J]. Journal of Second Language Writing, 2013(1).

[17]Olejnik S, Algina J. Measures of Effect Size for Comparative Studies: Applications, Interpretations, and Limitations[J]. Contemporary Educational Psychology, 2000(3).

[18]Plonsky L, Oswald F. How big is “big”? Interpreting Effect Sizes in L2 Research[J]. Language Learning, 2014(4).

[19]Larson-Hall J, Plonsky L. Reporting and Interpreting Quantitative Research Findings: What Gets Reported and Recommendations for the Field[J]. Language Learning, 2015(S1).

Effect Size Reporting and Interpreting Practices in International Academic Journals in Applied Linguistics

PU Xian-wei, LU Lei-na

(School of Foreing Studies， Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract:Considering the problems related to null hypothesis significance testing, the 6th APA Publication Manual (2010) and the editorial policies of many journals require the reporting of effect sizes