效应量应用于特殊儿童实验的系统评价
2020-12-14龙艳林吴宏宇李昭君
李 欢,龙艳林,吴宏宇,李昭君
(1. 西南大学教育学部特殊教育学院,重庆 400715; 2. 教育部人文社科重点研究基地西南大学西南民族教育与心理研究中心,重庆 400715; 3. 深圳市南山区龙苑学校,广东 深圳 518055)
零假设检验(null hypothesis significance testing,NHST)是20世纪二三十年代开始在实验研究中普遍使用的统计推断方法[1].但此后NHST一直备受显著性的逻辑、难以说明差异大小等方面的争论和质疑[2].20世纪60年代,Cohen首次提出运用效应量(effect size,ES)等方法来补充或替代NHST[3].ES是一种通过样本特征值间的差距或者比例来衡量实验干预效果大小的指标[4],具有NHST所缺乏的诸如与测量单位无关、单调性(monotonicity)、不受样本容量影响等基本性质,当研究结果较小且不明显时,运用ES可以提高测量的精度[5],让实验的效果更具有可比性[6].1994年,Cohen对NHST所存在的争议进行了全面总结[7].同年,美国心理学会成立统计推断小组(The APA Task Force on Statistical Inference),提出实验结果应超越零假设检验的p值陈述,运用一些可替代的统计方法以弥补其检验力的不足[8],要求公开发表的研究均应报告ES,以帮助解释研究结果[9],甚至在APA出版手册(APA Publication Manual)中提出“未报告ES”是一种常见的研究缺陷[5].目前,国际上大量实验研究以及定量的系统评价均会运用ES指标对实验结果进行描述与解释[10-11].
我国特殊教育实验研究中对ES的关注较少,相应的研究较为缺乏[12].在特殊教育领域常用的单一被试实验设计中,大多数采用目视分析的方式评估干预效果,而此类方法仅采用重叠比率(percent of overlapping data,POD)对研究结果进行解释.如祝泽红等就合作游戏对自闭症谱系障碍(autism spectrum disorder,ASD)儿童同伴交往行为影响的探究[13]、韩娇娇运用图片交换沟通系统促进重度智力障碍儿童沟通行为的单一被试研究[14]中均仅使用了POD这一种ES.部分研究未重视ES对研究结果的解释作用,如张朝等在采用听觉统合治疗ASD的单一被试研究中并未使用ES来进一步解释研究结果[15].少量研究采用多种ES综合解释实验效果,如彭燕采用POD、非重叠Tau系数(Tau for nonoverlap with baseline trend control,Tau或Tau-U)和平均基线改变率(mean baseline reduction,MBLR)3种ES指标评估录像示范法对ASD社交沟通的干预效果[16].此外,仅有的几项特殊教育元分析使用Tau系数、标准化均差(standardized mean difference,SMD)为主的ES评估特殊教育领域实验干预方法的有效性,较少运用其他ES.如连福鑫等使用Tau系数系统评价融合教育环境下同伴介入法对ASD儿童社会交往的干预效果[17],郭晓倩等也采用Tau系数和点估计的方式系统评价我国ASD社交沟通障碍干预方法的效果[18],陈秋珠等的元分析中采用SMD综合评价了我国幼儿攻击性行为的干预效果[19].可见,近年来国内特殊教育领域开始关注ES的使用,但对ES相关领域的专业知识欠缺,导致其运用程度仍然不够.
因此,本研究通过系统梳理国际特殊教育领域近十年运用ES的研究,深入分析各类ES的使用情况、判断标准以及特点,以期为我国特殊教育领域ES的规范使用提供借鉴,并倡导国内研究者在分析研究数据时使用ES指标对实验结果进行解释和描述,从而提升研究结果的解释力度.
1 研究设计
1.1 检索及纳入策略
本研究的数据来源于Web of Science(WOS)数据库,根据Thomson Reuters公司2019年公布的SSCI来源的40份特殊教育期刊,运用布尔逻辑检索式,拟定“Exceptional Children、Journal of Intellectual Disability Research、Journal of Emotional and Behavioral Disorders”等期刊名称检索词和“effect size、ES、PND、Cohen’s d、R2”等ES相关检索词进行文献检索.由于本研究旨在分析国际特殊教育领域ES的使用情况,且近十年的研究更能聚焦国际学术界当前对ES的使用,在参照前人系统评价研究[18,20]的基础上,本研究的文献纳入标准为:1)研究发布的时间为2010—2020年(本研究文献检索截止时间为2020年3月);2)研究主题与ES相关;3)至少采用了一种ES解释实验结果,或者该文献是有关ES的研究综述、理论阐述.本研究的检索过程如下:1)根据检索要求初步获得1 568篇相关文献;2)通过文章标题、摘要及关键词的初步浏览,删除明显无关的文献;3)阅读剩余文献的研究设计和研究结果,获取满足条件的文献;4)从获得文献的参考文献中进行二次搜索,最终纳入有效文献189篇.
1.2 数据编码
本研究的编码包括“1=发表年限”“2=ES指标”“3=研究设计”.编码时,应将所用的ES全部列出,即采用了两种及以上ES指标的文献,必须明确编码每种ES指标.研究设计主要分为系统评价(systematic review,SR)、单一被试研究设计(single case design,SCD)、组间(内)实验设计(group design,GD)以及理论(综述)研究.
1.3 研究信度
2 纳入样本的基本情况
2.1 纳入文献数量分析
如图1,在SSCI期刊中检索的2010—2020年间特殊教育领域使用ES的研究文献数量总体呈现上升趋势.此外,相关文献被引次数超过1 000次,在国际特殊教育领域产生了较大影响力[23-24].这些均表明国外近十年在特殊教育领域对实验ES的关注度逐渐升高,运用广泛.
图1 纳入文献数量分布Fig.1 Distribution of included literature图2 研究设计类型的分布Fig.2 Distribution of research design types
2.2 研究设计的描述性分析
如图2所示,在189篇ES相关的文献中,采用GD设计的数量最多(65.61%),其次为SR(22.75%),而SCD频次较少(10.58%),有关ES的综述类研究仅有两篇(1.06%).在不同的研究设计中,各类ES指标的使用频率存在差异,其中GD中运用最多的是Cohen’s d(34.20%),其次为η2(19.35%);在SCD中,控制基线趋势的Tau系数使用频次最高(29.17%),非重叠率(percentage of non-overlapping data,PND)次之(25.00%);SR研究中,PND使用最多(19.30%),Cohen’s d次之(14.46%).由此可见,研究者们尝试运用各种ES对不同设计类型的研究结果进行补充和解释.
3 ES指标的应用分析
3.1 各类ES指标的使用频率
国际上ES指标的种类较多,其分类不尽一致[25].依据钮文英等的分类方法[26],本研究将特殊教育领域的ES分为基于目视分析的ES和基于统计分析的ES两大类.前者包括非重叠指标和改变率指标,其原理是运用不同方式计算目视分析图上基线阶段与干预阶段数据的非重叠比例或者改变率大小[26].后者包括关联强度型(strength of association type)ES和标准差异型(standardized differences type)ES.关联强度型ES主要考察两个或多个变量之间的共变(covariance)关系,通过变量间的关联强度获得自变量解释因变量的程度;标准差异型ES主要通过标准化的差异单元来获得总体均值间的差异,从而衡量ES大小[27].从特殊教育领域近十年文献分析可得,基于统计分析的ES使用频率高达71.54%,基于目视分析的ES只占28.46%.具体言之,标准差异型ES使用频率最高(36.49%),关联强度型ES次之(33.57%),非重叠指标使用频率较低(26.27%),改变率指标最少(2.19%),各类ES指标的使用比例如表1和表2所示.
表1 基于目视分析ES的计算及其使用情况[28]Tab.1 Calculation and use of ES based on visual analysis
续表1
表2 基于统计分析ES的计算及其使用情况[29]Tab.2 Calculation and use of ES based on statistical analysis
续表2
3.2 各类ES指标的应用
就数据处理方式而言,基于目视分析的ES均为非参数检验的方法,基于统计分析的ES在t检验、ANOVA、非参数检验、相关分析和回归分析等统计方法中都有相应的估计方法和报告形式[12],本研究结合纳入文献所使用的ES指标进行分析.
3.2.1 基于目视分析ES的计算及特点
3.2.1.1 基于目视分析ES的计算
本研究纳入的非重叠指标主要包括3种计算方式,各ES的具体计算及使用情况如表1所示.1)直接进行非重叠比率的计算,包括PND、超越中数的比率(percentage of data exceeding the median,PEM)、所有零点数据的百分比(percentage of all zero data,PZD)和POD 4种指标.如Morash-Macneil等运用PND、SMD和Tau-U 3种ES对智力障碍儿童就业技能的SCD进行系统评价,3种ES的结果显示辅助技术对就业技能有很好的提升效果,且PND和Tau-U两类ES的计算结果均以1为参照,有助于快速判断干预效果[30].2)先确定重叠数据点的数量,再计算非重叠比率,包括Pearson的phi相关系数(phi correlation,phi)、所有不重叠率(percentage of all non-overlapping data,PAND)和改善率差异量(improvement rate difference,IRD).如Ganz等运用IRD直观表明辅助沟通系统对仅患有自闭症的ASD的干预效果(IRD=0.83)高于伴随发育迟缓的ASD(IRD=0.70)[31].3)画出基线阶段与干预阶段的重叠区域,将重叠区域资料点进行两两配对比较,再进行非重叠率的计算,包括所有配对的非重叠率(non-overlap of all pairs,NAP)和Tau-U.如Schlesinger等在采用Tau-U比较多感官教学和结构化语言教学两种方法对阅读障碍儿童干预效果的SCD研究中发现,多感官教学对字母发音的干预效果(Tau-U=0.58)优于结构化语言教学(Tau-U=0.55),可见,当研究结果较小且不明显时,运用Tau-U更有利于提高测量的精度[32].本研究仅纳入一种改变率指标,即MBLR,主要包括减少比率(针对负向行为)和增加比率(针对正向行为)两类,MBLR大小取差的绝对值[26].
3.2.1.2 基于目视分析ES的特点
基于目视分析的ES适用于方差异质、总体非正态以及组之间的样本容量不一样时的实验设计[26],在SCD(74.97%)和SR(61.50%)中运用较多.基于目视分析的ES具有以下优点:第一,计算简单、方便,可以与图形数据的可视化分析很好地结合,易于理解与解释.如Tincani等在评估图片交换沟通系统对ASD沟通技能干预效果的SR中,纳入的多数SCD提供了阶段间平均水平的变化和非重叠指标,即使部分研究未提供原始资料,通过折线图亦可分析,且几乎所有ES可手动计算完成,不涉及复杂的统计分析[33].第二,部分非重叠指标可以根据其抽样分布计算置信区间,或进行统计显著性检验.如Losinski等运用Tau-U、PND等评估SCD中视频示范对情绪和行为障碍儿童挑战行为的干预效果,该SR的PND值为75%,Tau-U效应大小为0.83,其95%置信区间的值为0.60~1.05,说明视频示范对于挑战行为有较强的干预效果[34].第三,属于非参数检验的方法,对样本量较少、总体数据不要求正态分布的实验研究适用,只要评分者受过专业训练,其评分者一致性颇高,信度较好[26].但是,目视分析的ES也具有一些劣势:第一,改变率和部分非重叠率指标对异常值和趋势过于敏感,容易受到极端值的影响,在基线中出现天花板或地板数据(ceiling or floor data points)的情况下,其ES的计算会出现误判[35].第二,存在无法有效区分不同曲线形态、低估直交斜率(orthogonal slope)形态的介入效果、不能考虑干预的变异和稳定性等缺点[36].如Wolery等通过PND、PEM等非重叠方法与视觉分析的比较对160个SCD数据进行分析,发现PEM易受极端值影响,而PND无法有效区分不同曲线形态[37].
3.2.2 基于统计分析ES的计算及特点
3.2.2.1 基于统计分析ES的计算
基于统计分析的ES主要用于均值差异比较和变量间的相关分析两种情况[38].当ES用于均值差异比较时,针对单因素实验设计的独立样本或配对样本t检验,主要运用标准差异型ES指标[27].本研究纳入的标准差异型ES包括Cohen’s d、SMD和Hedges’g 3类最常见的ES指标.如Little等在一项组间实验中,通过独立样本t检验分析实验组和对照组的均差从而判断干预效果,而Cohen’s d结果进一步表明,在接受了有挑战性课程的培训后,接受培训学习者的数学成绩比未接受者有了非常大的提升(d=0.92)[39].在针对多组均值比较的单因素或多因素被试间、被试内或混合设计方差分析时,则主要运用ω2、η2和ε2等关联强度型ES[40].如Lopata等在一项随机对照实验研究中运用单因素方差分析进行组间均差比较,ω2表明辅以计算机教学的心理阅读(efficacy of mind reading)训练对提升高功能ASD面部表情识别能力具有中等强度的干预效果(ω2=0.298),而仅用心理阅读的效果较小(ω2=0.185)[41].
3.2.2.2 基于统计分析ES的特点
基于统计分析的ES能够精确地测量和客观地分析研究结果,适用于难以直观比较的数据,在GD(99.34%)、SR(38.50%)和SCD(25.03%)中均有使用.相较于基于目视分析的ES,其优势是:第一,精确的统计分析方法能排除资料点对统计检定的影响,对检测干预效果有更高的敏感性和效度,具有较强的实用性和临床应用价值[48].第二,基于回归分析的ES不只检视资料路径的水平变化,还能通过对基线阶段建模去除趋势和极端值的影响,正确地监测直交斜率形态的介入效果.如Parker等的一项SR研究中,运用IRD、PND和R2等对166项SCD的干预进行效果评估,发现R2能够有效地评估实验的干预效果,而基于目视分析的IRD和PND却表现出了天花板效应,且PND还存在地板效应[49].可见,在基线阶段存在极端值或者基线期不稳定导致无法预测新干预的效果时,统计分析更为适用甚至是必要的[50].然而,基于统计分析的ES同样存在以下缺点:第一,目前的统计技术不能同时考虑数据变异性、趋势的大小、方向以及平均水平的变化,不能有效地检测干预的及时效应,且不能与目视分析有效地结合.如Vugs等采用Wilcoxon符号秩检验进行统计分析,发现r在训练过程中不能随时测量儿童语言能力的改变,也不能检测由于生活中的特殊事件所导致的儿童语言能力的变化[51].第二,目前的统计分析技术大多来自GD,由于较少的数据点会严重影响干预效果的判断,因此对只有10~15个或更少数据点的研究适用性较差,因而对单一被试的适用性也有待检验[52].第三,某些统计分析ES计算比较复杂,需具备一定统计学基础才能进行统计建模分析[53].
3.3 各类ES指标的判断标准
3.3.1 基于目视分析ES的判断标准
目前,ES大小的界定仍存在一定争议.在基于目视分析的非重叠ES中,使用较多的是Campbell提出的非重叠比率大小[52]和Parker等提出的非重叠比率所在百分等级[28]两种判定标准,具体如表3和表4所示.
表3 非重叠比率大小判定标准Tab.3 Judgment standard for non-overlap ratio size
表4 非重叠比率的百分等级大小判定标准Tab.4 Judgment criteria for percentage size of non-overlapping ratio
3.3.2 基于统计分析ES的判断标准
基于统计分析的ES主要可以分为标准差异型、关联强度型两大类.标准差异型以Cohen’s d为例,Cohen最初提出其判定标准包括实验组均值位于控制组的相对位置(百分等级)和两组分布不重叠的程度两种.当d为0.2、0.5和0.8时,分别对应小、中、大的ES,而相应的实验组均值在控制组的百分等级分别为58%、69%和79%,两组分布不重叠的比例分别为14.7%、33.0%和47.4%.关联强度型ES又可以分为非平方尺度和平方尺度两大类[54],而由Ferguson总结的基于统计分析的ES判定标准临界值更为常用[55],具体判定标准如表5所示.
表5 基于统计分析的ES大小判定标准Tab.5 Judgment standard of ES based on statistical analysis
4 反思及建议
4.1 鼓励积极使用ES指标,完善ES判定标准
美国著名统计学家 Cohen指出:在实验研究文献中,很多研究仅讲结果是否显著,似乎只要在0.05水平上显著就是对心理学理论的发展做出了贡献.实际上,统计的显著性与ES不是一回事,在0.05 水平上显著, 自变量对因变量的效果不一定有“大”的作用;同样, 在0.01 水平上显著, 自变量的作用也不一定“很大”.因此,研究者不仅应该注意统计上有无显著性, 而且应该注意ES的大小[56].本研究发现,国外特殊教育实验研究中的ES运用广泛且多元,在不同实验设计中可以使用多种类型的ES指标.如Saddler等综合运用PEM、PND、Tau-U、Cohen’s d和Hedges’g 5种ES评估SCD中总结策略(summarizing strategy)对情绪与行为障碍儿童写作的影响:首先运用PEM、PND和Tau-U检查每个阶段内数据的水平、趋势和稳定性,结果显示干预方案和写作能力提升之间存在确定的功能关系;再运用Cohen’s d和Hedges’g两种ES对研究结果进行敏感性分析(sensitivity analysis),以提高研究结果的科学效度[11].反观国内,目前特殊教育领域运用ES报告结果的研究缺乏,对实验中应该积极使用ES解释研究结果的意识不够.国内现有使用ES的研究主要集中于SR研究领域,在SCD中则倾向于仅使用基于目视分析的POD指标.相反,国外的研究却常将ES运用于GD中,在SCD中则对Tau系数使用最多.可见,应该鼓励国内研究者将ES运用于特殊教育领域的不同实验类型中,从而增加实验研究结果的解释力[57].其次,目前关于ES的分类标准还不一致,有的按照研究学科差异进行分类,如心理学领域常把ES分为标准差异型和关联强度型[38];有的按照统计方法分为差异类(difference-type)、相关类(correlation-type)以及方差比ES(variance-accounted-for indices)[27].Parker等指出,教育证据来源于实验研究,而实验研究的解释力度决定了研究结果的可靠程度[28],ES运用的不规范甚至缺乏,是导致实验研究结果解释力不足的重要原因[58].因此,在今后的研究中应根据ES的理论基础,进一步完善ES分类指标,规范ES在特殊教育实验领域的应用.最后,有学者提出ES的判定标准并非固定不变,需要兼顾研究主题的特殊性、已有理论背景、研究设计类型、实证研究过程的有效性、估计指标的使用前提等综合权衡研究结果的实际意义,并结合实践进一步完善ES指标类型的体系和判断标准[57].
4.2 合理选择ES计算方法,严谨报告ES结果
ES的种类很多,根据不同的研究目的、实验设计以及数据类型,可以选择合适的ES来衡量研究效果[38].第一,在ES的选择上,有学者提出在达到研究目的要求的情况下,遵循简单的原则,即能使用简单统计分析方法说明问题的,不运用复杂的统计方法[59].Campbell在一项针对ASD问题行为干预的SR研究中,运用Cohen’s d、PND、MBLR和PZD对117篇SCD的干预效果进行分析,结果发现不同ES对干预结果的评估产生了相似的效果,这与某些学者认为基于统计的ES在检验微妙的干预效果时可能更敏感的结论相悖[52].可见,各类ES方法没有优劣之分,在选用ES时应根据研究目标,并结合各类ES的特点选择适当、便捷的ES计算方法.第二,在不同类型的实验设计中,效应量的使用情况存在一定差异,在SCD实验设计中,使用较多的为基于目视分析的ES,而在GD实验设计中,基于统计的ES使用较多.由此可见,在SCD研究设计中,基于目视分析的ES能够结合目视分析图,更加快速、直观地呈现研究效果.而在SCD中运用的基于统计分析的ES主要包括BC-SMD和d两种.自从Pustejovsky等在2014年提出扩大BC-SMD的应用范围,将其尝试运用在SR和SCD中[60],Valentine等于2016年对BC-SMD的详细使用作了进一步的明确说明[61]后,基于统计分析的BC-SMD才逐渐被运用于SCD和关于SCD的系统评价中.可见,国外特殊教育领域关于统计分析ES在SCD中的应用也还不成熟.而GD实验设计一般被试数量较多,且通常运用前、后测评估的方式,数据点较少,不适合运用基于目视分析的ES,基于统计分析的ES更能够清楚、高效地解释研究效果.第三,根据研究数据的类型以及ES类型的多样性,可能存在不止一种可供选择的ES指标,且有时对同一ES存在不同的计算方法,如Tau-U和Taunovlap或MBLR和MBLR’.Heyvaert等运用PND、PEM、PAND、MBLR和PZD 5种ES对研究ASD问题行为的231项SCD进行系统评价,发现PND、PEM、PAND和MBLR均能够评估所有研究的干预效果,而PZD只适用于问题行为比率减少的干预研究[62].可见,在报告实验结果时,研究者须明确指出所采用的ES指标,在必要的情况下,还需出示详细的计算公式[54].此外,由于在实验研究结果的分析中,效应大小常常存在统计分析效能(analysis power)不足的情况,而对ES的区间估计将使研究获得更加可信的估计精度,由此建议在报告ES时也尽可能地呈现ES的置信区间,从而使研究结果的报告更具严谨性和规范性[63].