定量数据分析效应值研究综述
2014-02-11蒲显伟
蒲显伟
(南京理工大学 外国语学院,江苏 南京210094)
一、效应值研究缘由
近20年来,国外学者对定量数据分析效应值展开了大量研究,该领域的研究在很大程度上是为了应对零假设显著性检验存在的问题。零假设显著性检验产生于20世纪二三十年代,之后被广泛地应用于社会学、教育学、心理学、语言学等人文社会科学的定量研究中(Kirk,1996)。显著性检验一经提出,就有学者指出其存在的问题。Joseph Berkson于1938年在美国统计学会期刊上发表了《卡方检验中的一些解释困难》一文,对显著性检验的内在逻辑和检验效力提出了挑战(Kirk,1996;Cohen,1994;Sun,2010)。近年来,国外研究者对显著性检验的批评更加猛烈,主要包括以下几点:
第一,显著性检验的结果与所要知道的研究结果背道而驰(Cohen,1994;Lawson Hall,2010)。研究者真正想要知道的是P(H0|D)在给定样本的情况下零假设成立的概率,而显著性检验所揭示的是P(D|H0)在零假设成立的情况下样本发生的概率。
第二,显著性检验受样本容量的影响较大(Ellis,2010)。统计显著性检验是研究多个因素相互作用的结果,如总体的效应值、样本容量和alpha值等,其中样本大小起着极为重要的作用。Pearson和Hartley在1962年出版的Biometrika Tables for Statisticians一书中列出了在相关关系检验中要使检验结果具有统计显著性样本大小与相关系数r临界值的关系。当样本容量为10时,相关系数r必须达到0.632,检验结果才具有显著性;当样本容量为500时,相关系数r只需达到0.088,因此,只要样本足够大,任何研究都能产生显著性结果。
第三,以点为界的二分决策容易使研究者产生误解(Cohen,1994;Rosnow& Rosenthal,2003)。统计结果判断的临界点(p=0.05或0.001)是人为设定的,但许多研究者把这一临界点作为判断是非的客观标准,甚至把临界点神圣化了。研究者普遍认为,当p值从0.05增加到0.06时所发生的变化是巨大的,或者p=0.001比p=0.05的结果更具显著性。然而如前所述,显著性检验的是P(D|H0)在零假设成立的情况下样本发生的概率,而p=0.049的结果并不比p=0.051的结果更加重要。
第四,研究者对显著性检验还有其他方面的错误理解,其中最为普遍的是把统计显著性与实际显著性等同,并认为显著性水平是能够成功复制该研究概率的(Lawson-Hall,2010;Field,2005;Volker,2006)。然而,显著性水平只表示在零假设成立的情况下样本发生的概率,效应值才能表明研究结果的实际重要性,检验功效才表示成功复制的概率。
由于显著性检验存在的问题,国外有学者建议禁止使用显著性检验,认为显著性检验不仅没有促进反而严重阻碍了心理科学的发展。但也有研究者持相反的观点,认为虽然显著性检验有其内在的缺陷,但大多数问题是由于研究者对其错误的理解和运用而产生的。显著性检验并非完全无用,至少它能证明某一个试验结果是否由抽样误差而产生的。更多的研究者持比较中立的观点,建议在定量研究结果中增加效应值的报告作为对显著性检验的补充(Cohen,1994;Volker,2006)。
二、效应值研究意义
效应值是量化样本结果与零假设预期偏离程度的独立于测量尺度的统计量,能直观地表明组间差异的大小或变量之间关系的强弱,代表研究结果的实际显著性(Ellis,2010)。效应值的报告不仅是许多研究者的建议,而且是一些学会和期刊编辑的要求。早在1994年,美国心理学会APA格式手册第4版就“鼓励”研究者提供效应值的信息。随着关于显著性检验的争论日趋激烈,美国心理学会又成立了一个推断统计小组以研究和解决包括显著性检验在内的关于统计应用的一些有争议的问题。专门小组的研究结果于1999年在American Psychologist期刊上发表,同时小组建议对APA格式手册第4版关于统计的章节进行修改。2001年APA格式手册第5版进一步“建议”研究者在报告显著性检验结果的同时报告效应值。到了2010年,APA格式手册第6版则“要求”研究者报告效应值。2006年美国教育研究学会也发表文章,要求其旗下期刊刊登的文章必须报告效应值。目前,国外不同研究领域近30种期刊,如Contemporary Educational Psychology、Journal of Experimental Education、Language Learning 等,也在其编辑方针中对定量研究效应值报告作出了明确要求。
国外研究者对效应值在实际运用方面的重要性也作了大量介绍。第一,效应值能直观地表明组间差异的大小或变量之间关系的强弱,代表研究结果的实际显著性(Sun,2010;Volker,2006)。在显著性检验中,当p值小于0.05时零假设被拒绝,备择假设被接受,即样本与样本或样本与总体之间存在差异。然而,差异到底有多大和是否具有实际意义则无从知晓,而效应值就是表示这一差异大小的指标。第二,效应值可以帮助研究者在实验前估计出要使研究具有统计显著性所需要的样本容量(Ellis,2010;Lawson-Hall,2010)。在实验前确定了效应值、alpha值和实验的功效,就能大致估计出要使研究结果具有统计显著性所需要样本的大小。第三,效应值是功效分析中不可或缺的参数(Ellis,2010;Lawson-Hall,2010)。在试验的样本大小、alpha值和效应值已知的情况下,研究者就可以计算出试验的检验功效。
效应值也是元分析中不可或缺的参数。元分析是对众多现有的关于同一主题的实证文献的再次分析,从而根据获得的统计显著性等来分析变量之间真实的相关关系。元分析需要的参数包括效应值和样本容量,而目前很多研究并未直接给出研究结果的效应值,所以元分析者只能根据其他的统计量,如t值、F值、χ2值等计算每个检验的效应值,这种计算方法比通过原始数据(如均值、方差)计算效应值的误差更大。因此,效应值的报告不仅能节省元分析者处理数据的时间,而且能提高元分析的准确性。
三、效应值的分类、计算和解释
目前,定量研究中所使用的效应值超过70多个。Lawson-Hall把这些数目众多的效应值分为两类:组间差异类(d类)和相关关系类(r类)。d类效应值以Cohen’s d为代表,以标准分的形式量化组间均值差异,如d=0.5时表示组间均值差为0.5个标准分,而其他常用的组间差异类效应值还包括 Hedge’s g和 Glass’sΔ;r类效应值以皮尔森相关系数r为代表,两个变量之间的关系越紧密相关系数就越大。除r之外,这类效应值还包括各类平方形式的统计量,如R2,ω2,ε2,η2,η2p等。d 和r这两类效应值是可以互相转换的,有些研究者更倾向于使用r类效应值,认为r类效应值比d类效应值更为直观,更容易被理解。
部分学者在统计学专著和发表的文章中比较系统详细地介绍了定量数据分析中常用的参数和非参数检验效应值的计算方法(Lawson-Hall,2010;Field,2005;Volker,2006;Cohen,1988;Ferguson,2009)。需注意的是,每种常用的检验方法通常会有计算方法不同的多个效应值,因此研究者应根据自己的研究设计和数据特征选用合适的效应值。以t检验为例,常用的效应值包括Cohen’s d、Glass’sΔ和 Hedge’s g。Cohen’s d计算公式为(μ1+μ2)/σ,即用两组均值差除以总体的方差,而总体的方差难以知晓,故在实际研究中一般用样本方差来代替总体方差。当两个组样本容量和方差相似时,可用两组的平均方差来代替总体方差,计算出的效应值为Cohen’s d;当两组样本容量相似但方差有较大差异时,可用控制组方差代替总体方差,因为控制组没有接受实验处理,其方差相比实验组更接近总体方差,此时计算出的效应值为Glass’sΔ。当两组样本容量差异较大时,可用按样本容量加权处理后的平均方差来代替总体方差,计算出的效应值为Hedge’s g。不同方法计算出的效应值大小或多或少会有所不同。另一需要注意的问题是,单因素方差分析的效应值可以用η2或η2p表示,但SPSS软件包并不直接输出η2值,而是η2p值,因此对统计检验不太熟悉的研究者可能会混淆两者的差异。有研究表明,方差分析中的η2p值通常比η2值偏大,自变量越多,两者之间差异越大,因此解释η2p值需要谨慎。常用的参数和非参数检验效应值中有一些是SPSS可以直接输出的,而其他的效应值则需要通过SPSS输出结果中包含的描述性数据(如均值、方差等)和检验统计量(如t值、F值、χ2值等)来进行计算。
在效应值的解释方面,目前大多数研究者采用的是Cohen提出的经验法则(Cohen,1988)。以两类效应值最基本的代表d和r为例,当d小于0.2或r小于0.1时,效应值可忽略不计;当d大于0.2小于0.5或r大于0.1小于0.3时为较小的效应值;当d在0.5到0.8之间或r在0.3到0.5之间时是中等效应值;当d大于0.8或r大于0.5时为较大效应值。这些标准是Cohen根据多年的研究经验总结出的,一些研究者认为还是比较准确的,但也有研究者对这些标准提出了质疑(Sun,2010)。Ferguson在对前人研究进行分析后总结出的社会学领域的解释标准比Cohen的标准要大很多,d=0.41、1.15和2.70分别为小、中、大效应值标准(Ferguson,2009);Oswald在比较了第二语言习得领域的27个元分析研究后提出的效应值标准分别为d =0.40、0.70和1.00(Oswald& Plonsky,2010);而Olejnik对教育学领域前人研究的分析表明较大的效应值在0.246到0.372之间,这比Cohen的标准要小很多(Olejnik&Algina,2000)。用统一的标准去解释不同学科领域不同设计所研究的实际显著性理论,则很难不令人产生质疑。Rosnow在其文章中列举了一个关于服用阿司匹林对于心脏病预防效果的研究,该研究的效应值仅为r=0.034,这表明相对于对照组,实验组服用阿司匹林能降低3.4%的心脏病发作几率(Rosnow &Rosenthal,2003)。考虑到阿司匹林服用的方便、安全和价格的低廉与心脏病发作对人体健康和生命的威胁及治疗费用的昂贵,无法否认0.034的效应值具有非常重要的实际意义。
因此,研究者在解释定量数据分析研究结果效应值时不能机械地照搬Cohen提出的标准,而应结合自己的研究领域、研究设计和研究结果,将自己研究结果的效应值与同领域前人研究结果的效应值进行对比分析和解释,同时报告效应值的置信区间。这样,经过不断积累和元分析者的努力,各个研究领域就能制定出适合自身特点的效应值解释标准,而机械地照搬Cohen提出的效应值解释标准,则会又一次陷入显著性检验以点为界二分决策的错误中。
四、效应值报告与解释研究现状
APA格式手册第4版和第5版出版后,国外研究者对效应值的报告与解释现状展开了大量研究,目的之一是为了考察APA格式手册效应值报告的“建议”和美国教育研究学会(AERA)的实证研究报告指导方针对定量研究效应值报告现状的影响。国外关于效应值报告现状的研究主要集中在教育学和心理学领域,因为上述两个学会对这两个学科领域的研究者具有较大的影响。
国外对效应值报告现状的研究最早开始于1996年。Kirk对美国心理学会的4种心理学期刊1995年发表的定量文章进行了分析,发现4种期刊中报告效应值的文章比例由低到高分别为12%、47%、55%、77%(kirk,1996)。Vacha-Haase研究了两种心理学期刊于1990—1997年间发表文章的效应值报告情况(Vacha-Haase,2000)。在这一时期,两种期刊报告效应值的文章比例并没有明显的上升趋势,因此认为APA格式手册第4版的建议对于效应值的报告现状并没有产生较大的影响。Alhijia对10种教育学领域的期刊(其中5种明确要求汇报效应值)于2003—2004年间发表的共99篇定量文章进行了对比分析,发现两类期刊在效应值报告比例上没有统计显著性差异,分别为69%和57%(Alhijia&Levy,2009)。具体到不同的统计检验方法,两类期刊文章对相关分析效应值的报告比例均为100%,比例最低的是卡方分析,分别为38%和17%。在报告了效应值的文章中,两类期刊分别有56%和69%的文章对所使用的效应值进行了解释。Sun研究了14种教育学和心理学期刊于2005—2007年间发表的1 243篇文章的效应值报告与解释现状,发现仅有49%的文章报告了效应值,其中又仅有57%的文章解释了效应值(Sun,2010)。这些期刊效应值的报告与解释在出版年份上(2005—2007年)均没有统计显著性。Peng综述了1996—2010年间发表的32篇效应值报告的相关文章,共包括116种教育学和心理学期刊,分析显示自1999年后,效应值的报告比例、报告的效应值类型、效应值的解释、置信区间和效应值报告的完整性方面都有所提升,同时也指出了效应值报告方面存在的问题,如过度使用Cohen’s d,使效应值和统计方法之间缺乏联系(Peng,2013)。
目前,其他学科领域还没有对效应值的报告现状进行专门研究。在应用语言学领域,Plonsky对Language Learning 和 Studies in Second Language Acquisition两种期刊发表的606篇定量文章的研究质量进行了综述(1990—2010年),并对效应值的报告作了简单统计,结果表明在前10年中(1990—1999年)仅有4%的文章报告了效应值,后10年中(2000—2010年)这一比例上升到49%,20年的平均比例为26%(Plonsky,2014)。
上述研究在方法上存在两个问题:第一,某些统计检验方法所输出的结果,如相关分析的r值本身既是统计量又是效应值,而有些文章的作者是否明确知道该统计量同时也是效应值则不得而知,因此上述研究所报告的比例可能偏大;第二,上述研究大多是以文章作为分析单位。Peng综述的32个研究中27个是以文章为分析单位,只有5个是以统计检验方法或统计量为分析单位(Peng,2013)。大多数的定量分析文章都采用了一个以上的统计检验方法,而有些作者只报告了其中一部分检验方法结果的效应值,故上述研究所报告的比例可能不准确。因此,笔者以统计检验方法为单位,初步分析了国外应用语言学领域的6种期刊(其中3种明确要求定量分析文章报告效应值)发表于2012—2014年间约150多篇文章(共约240个检验方法)效应值的报告情况。结果发现,两种期刊在效应值的报告比例上分别为78%和51%,有统计显著性差异(χ2=19.06,p=0.000,OR=3.39,CI 95% =1.87-6.17),而明确报告(即文章中明确提到效应值或效应值与统计量不同)效应值比例的分别为50%和31%,分别降低了28%和20%。
上述关于效应值报告的研究发现,尽管效应值的报告比例在慢慢增加,但APA格式手册第4、第5版对效应值报告的“建议”并没有产生非常显著的影响。这种结果可能有如下几方面原因:第一,APA格式手册第4、第5版关于效应值报告的措辞比较温和,仅仅是建议而不具有强制性;第二,显著性检验已经在社会科学领域广泛运用了几十年,单纯以p值大小来判断研究结果的方法已经根深蒂固,传统很难改变;第三,很少有统计学教材对效应值进行介绍,因此很多研究者对效应值并不熟悉;第四,也有研究者认为效应值的报告并不是解决显著性检验问题的万灵药,也并不能直观地表明组间差异的大小,比如d=0.5表示两个组的均值差为0.5个标准分,或实验组的平均数位于对照组平均数的第79个百分位,或者两个组分布 不重叠部分 为 47.4%(Sun,2010;Olejnik,2000)。这些数据对于不熟悉统计学的研究者来说很难理解,而且0.5个标准分的差异到底是多大也取决于研究所采用的测量方法。
APA格式手册第6版已于2010年出版。不同于第4、第5版对效应值报告的“建议”,第6版明确“要求”定量数据分析文章报告效应值。目前,还没有研究者研究第6版对效应值的报告与解释现状的影响,可能是因为这种“要求”的影响要相对较长时间才能体现。另外,很多期刊从投稿到文章发表周期较长,最近两年刊登的文章很多是在2010—2011年撰写的。
五、中国效应值研究现状
中国对效应值的研究开始于2000年后,也仅有少数研究者在其发表的文章中介绍或提到了效应值(权朝鲁,2003;张少林,2009;焦璨,2010;杨贵军,2012)。权朝鲁介绍了效果量在心理学研究中的意义以及评价效果量大小的标准,特别介绍了d、和几个效果量的测定方法,并提出了提高效果量的措施。最近5年国内关于效应值研究的文章有增多的趋势,发表在国内核心期刊上的相关文章有近10篇。张少林讨论了中国外语定量研究长期忽略效应幅度的现象及原因,阐述了效应幅度的概念、意义及其与显著性水平、概率和样本容量的关系,并介绍了几种用于推断统计方法效应幅度的计算程序与判断标准。在效应值的报告现状方面,国内还没有人进行专门的研究。焦璨对《心理学报》和《心理科学》两种期刊于1998—2008年间发表的文章所采用的统计方法进行了元分析,目的是为了了解国内心理学研究领域最常用的统计方法及运用中存在的问题,发现两种期刊报告效果量的文章分别为30篇和21篇,均仅占所分析文章总数的1.6%。因此,呼吁中国心理学会应更加重视效果量的报告,这种现状的改变也需要中国心理学会、心理统计学者、教材编写者和期刊编辑的共同努力,以使广大的心理学研究者和心理学系的学生普遍接受效果量的报告。
六、研究趋势与建议
近20年来,国内外对定量数据分析效应值的研究日趋丰富,研究重点涵盖了效应值的重要性、效应值的计算方法、效应值的解释标准和效应值的报告现状。效应值的研究有如下方面值得进一步探讨:第一,教育学和心理学之外其他学科领域对效应值的研究。国内外效应值的研究主要集中在上述两个学科领域,这是因为美国心理学会APA格式手册和美国教育研究学会指导方针对这两个领域的研究者影响较大,近年来其他学科如应用语言学已有学者开始对效应值展开研究;第二,不同科学领域效应值解释标准研究。目前,绝大多数研究者都是采用Cohen提出的经验法则来解释自己研究结果,因为很难找到其他可供借鉴的标准,但是相同的效应值对于不同研究领域可能具有不同的实际意义,因此各学科的研究者应对自己领域的研究进行更多的元分析,以总结出适合自己学科甚至学科之内不同研究方向的效应值大小标准;第三,APA格式手册第6版出版后效应值报告现状研究。2010年APA格式手册第6版出版到现在仅过了3年时间,因此目前还没有相关文章的出现,预计教育学、心理学甚至其他学科领域会有考察APA格式手册第6版效应值报告“要求”的对效应值报告现状影响的研究。
改善效应值报告现状需要期刊编辑、研究者、统计学者和统计学教师的共同努力。建议更多的期刊编辑在投稿要求中增加对定量研究效应值的报告要求,期刊编辑是改变效应值报告现状的主导力量,他们对效应值报告的要求能产生连锁反应;文章作者会相应改变对研究结果的推断和报告方法;统计学专著作者会修改其出版物;统计学教师也会相应改变课程内容加入对效应值的介绍。
从事定量分析的研究者也需要在研究方法和研究结果报告等多方面作出改变,如在试验前确定一个大致的效应值推断出研究所需要的样本大小;数据处理前对数据进行探索分析从而选择合适的统计检验方法,计算相应结果的效应值;详细报告研究设计和各种描述性统计量可使效应值的选择和计算更加准确;报告所有统计检验方法结果的效应值,包括统计显著性大于临界值的统计结果,因为受研究样本容量的影响,研究结果的统计显著性和实际显著性很多时候并不完全匹配;报告效应值的置信区间以提高效应值估计的准确性;对选用的效应值的含义、计算方法等给予适当的说明;对效应值结果大小给予明确的解释,提供解释标准的参考文献,并同相似研究报告的效应值进行对比分析等。
统计学专著作者和统计学教师对于改变效应值的报告现状也起着非常重要的作用。目前,国外已有一些统计学出版物和统计学课程加入了对效应值的介绍,而国内这方面基本还是空白,需要极大的改善。广大的在校硕士博士研究生和青年学者是未来学术领域的主力军,传授给他们更为科学的数据分析方法,当他们成为各自领域学术骨干时,效应值的报告状况就会产生量到质的变化。
只有通过期刊编辑、定量数据研究者、统计学者和统计学教师的共同努力,我们才能走出对显著性检验的迷恋,从而对数据作出更为科学的解释。