体育科学研究中中介效应检定存在的问题与应对
2015-11-01刘映海丹豫晋
刘映海,丹豫晋,姚 蕾
中介变量解释外生物理事件如何对外产生内部心理意义,而调节变量指定“什么时候”一定的效果会产生作用,中介效应说明了这个作用是“怎么样”和“为什么”产生的[1]。1980—2010年,以“mediation”或“mediator”出现在心理学论文摘要中的频次从36剧增到1198[2]。通常,中介变量在国际学术交流中被译为mediato、intervening variable、intermediate variable、process variable和surrogate variable。中介变量在社会学、心理学、运动心理学、体育社会学等领域的应用十分广泛。
在体育科学研究中,越来越关注变量之间的关系研究。在实际研究过程中,中介变量通常是在无法确定自变量与因变量之间的关系,或自变量本身不好操控,而用以解释从自变量到因变量的过程时引入的可操控变量。AJZENH和FISHBEIN(1980)创建了以行为意图为中介变量的计划行为理论(TPB),JUDD和KENNY(1981)创建了以规范为中介变量的促进健康行为理论,DAVID等(1989)创建了以有用性为中介变量的科技应用模型(TAM)等,这些模型都在体育科学研究中得到广泛应用。
在体育科学研究中,目前主要运用的中介效应检定方法是因果步骤法和Sobel方法,这2种方法存在较多的不足与缺陷。如中介效果在不符合正态分布及大样本量不足的情况下的解决,不利于寻找多个或其他中介变量,难以准确评估中介效果的有效性和影响力,中介效应的统计功效不令人满意等问题都难以得到合理解释,从而影响对中介效应的检定。因此,研究以AMOS为分析工具,完整阐述中介变量的检定程序和方法,以期为相关研究提供方法学参考。
1 体育科学研究中,运用因果步骤、Sobel中介效应检定法存在的问题
1.1 中介变量的进一步寻找受到方法学限制
单层中介变量研究的模型常见包括简单、远程、二因子及多因子模型4种(见图1)。其中,远程中介、二因子及多因子中介模型又称为多重中介模型。二因子中介、多因子中介效应表达2个或多个中介变量同时在自变量和因变量之间起作用;远程中介效应表达多个中介变量出现顺序性特征,在自变量和因变量之间形成中介链[3-7]。可见,中介变量存在的形式和作用是复杂的,且是联动的。
图1 简单、远程、二因子、多因子中介模型
研究以中介效应、中介变量为主题词,查阅CNKI体育类核心期刊,所获近60篇文献中,仅有不足10%的文献涉及到二因子、远程和多因子中介模型。如马勇占等跨理论模型中,自我效能、变化阶段对变化过程和身体活动关系的中介效应的研究,所涉及的是远程中介模型;卢敏等关于情绪在运动对大学生心理健康影响中的中介效应的研究涉及到多因子中介模型。也就是说,在体育科学研究中,多数学者在研究自变量和因变量之间的因果关系时,只发现了唯一的中介变量。而在多数情况下,用莫兰所倡导的复杂性思维来思考各种复杂的变量关系时,简单用一个中介变量解释因变量的发生机制似乎显得牵强。那么,是什么原因造成学者们难以继续寻找到其他有效的中介变量呢?研究发现,多数研究者仍采用因果步骤法来检定中介效应,而这一方法自产生之日起就倍受争议[8]。
中介效应的检定中,自变量显著影响因变量是因果步骤法的先决条件,这个前提条件的限制,使得本来可能具有意义的中介研究戛然而止。然而很多情况下,即使系数c不显著也完全可能存在中介效应[9-12]。若ab与c'方向相反,或在2个中介效应方向相反时,即可导致系数c的不显著。更进一步,D.D.RUCKER等[12]提出,当样本量为50和100时,系数c不显著(0.2)时,存在显著中介效应(0.16)的概率分别高达48.2%和44.5%。另外,如果判定完全中介效应,也可能阻碍其他中介变量的探寻。
1.2 难以应对中、小样本与非正态分布的中介效应检定
还有研究者采用Sobel检定中介效应,即用中介效应估计值除以其标准误得到一个z值,再将这个z值和基于标准正态分布的临界z值进行比较,如果z值>大于临界z值,说明中介效应显著,反之则说明中介效应不显著;或者构造一个对称的置信区间,如果置信区间不包括0,说明中介效应显著,反之则说明中介效应不显著[14-15]。尽管这一方法弥补了因果步骤法不能直接检定中介效应,而是逐步假设检验中介效应有无的缺陷,但其统计功效和准确性仍然受到质疑。
正态分布且为大样本是Sobel检定法的前提假设条件,这是因为标准正态分布的临界z值只有在正态分布下才能使用,但即便和均 为正态分布,也不一定是正态分布,只要不为零,的分布就是偏态分布,并且分布的峰值还会随着中介效应值的变化而变化[6]。由此可见,仅基于正态分布是不可靠的,况且在体育科学研究的一些领域,很可能无法满足大样本且是正态分布的要求。因此,国内体育学术期刊一直以来非常关注各项研究的样本抽取和数量,这是保证科学研究结果客观性和真实性的重要条件。那么,是不是只要是大样本就可能提高中介效应的统计功效呢?
如卢敏等[16]对情绪在运动影响大学生心理健康中的中介效应的研究中,采用Sobel检定法对情绪的7个维度进行了中介效应检定。文中,研究者以大样本的量表施测得分为连续数据资料进行分析,基本满足大样本正态分布的要求。而且,研究者细致严谨地汇报了各个中介变量的点估计值、标准误及z值以供读者参考,但这仍然是基于和都是正态分布的前提。据此所得出的情绪各维度中介效应结果的客观性就会受到影响,更不必说依此结果给出的各中介效应之比较结果了。
1.3 中介效应的检定功效低
D.P.MACKINNON[14]通过模拟研究发现,因果步骤法的统计功效(power)最低,并且还容易低估第Ⅰ类错误率。由于迄今为止,体育科学研究中仍大量沿用因果步骤检定法,这无疑造成目前中介研究统计功效不高的状况。实际上,因果步骤检定法之所以受到众多批评的原因就是,其检定功效最低。
如许欣[17]在文中采用线性回归分析法,对儿童感知父母运动投入的中介作用进行检验,研究结果是以线性回归标准化系数、t值、R2为支持依据,验证其研究假设。从中介效应检定方法来看,该研究采用的只是因果步骤法,显然存在商榷之处。查看其检定方法来源,作者提到检验方法引自温忠麟等(2004)发表在《心理学报》的《中介效应检验程序及其应用》一文。详细查阅原文后发现,原文作者认为,做Baron和Kenny部分中介检验,即依次检验系数a和b,如果都显著,意味着X对Y的影响至少有一部分是通过了中介变量M实现的,第Ⅰ类错误率小于或等于0.05,继续检验系数c';如果不显著,说明是完全中介过程;如果以上至少有一个不显著,由于该检验的功效较低(即第Ⅱ类错误率较大),所以还不能下结论,此时,需进一步做Sobel检验,如果显著,意味着M的中介效应显著,否则中介效应不显著[15]。根据Sobel检定法,在中介效应检定报表中应提供标准误及z值以供参考。显然,作者在未做Sobel检定之前就过早地下了结论。而且,即便是采用Sobel检定法,也存在难以克服对称置信区间的缺陷,因为这是温忠麟等研究者在十几年前刊出的中介效应检定研究成果。因此,研究结论可能存在一定风险。
1.4 难以准确提供中介效应点估计与置信区间
总体来看,目前社会科学研究(包括体育社会科学)中,中介效应检定的问题广泛存在。一个重要的原因是,2008—2011年间,大量的新兴统计技术和数据模拟方法陆续涌现出来。统计学家们不仅关注如何弥补传统统计技术方法的不足,更关心采用数据模拟手段来验证各种方法的点估计偏差、点估计相对均方误、统计功效、区间宽度和区间估计准确性等表现优劣问题。之所以如此是因为,只有运用得当的中介效应统计技术和方法,才能够正确理解自变量和因变量之间的关系,以及这种关系的构成机制。新的更有效的中介效应检定方法已然问世,并受到国内外学者的广泛关注,这无疑会有力推动体育科学研究的发展。
但目前,体育科学研究中的多数中介效应检定都存在无法准确提供中介效应点估计和置信区间的问题,这和所采用的因果步骤法自身存在缺陷是分不开的。因果步骤检定法不能直接检定中介效应是否显著不为0,而是通过一系列假设检验来推测中介效应的有无,因此无法直接提供中介效应的点估计,也就无法提供中介效应的置信区间[18]。Sobel检定法虽然可构建置信区间,但存在大样本且正态分布的缺陷。因此,为满足实践中绝大多数情况下无法正态的需要,只能使用基于和 乘积分布的临界值。
1.5 多重中介效应无法比较
研究发现,一些研究中出现2个及以上的中介变量,或呈现远程中介模型,在经过一系列中介效应的有无检定程序,即回归分析之后,关注的重点仅仅是判定系数R2,对于自变量影响因变量所经过的各条中介路径之间的差异却关注甚少。但是在实务中,可能更关注究竟哪些中介变量会起到具有可靠统计意义,且更加重要的中介作用,这可能也与所采用的中介效应检定方法的局限性有很大关系。
在这其中,极其少数研究者对其所研究的多个中介效应进行了比较研究,但同样存在方法上的偏误。如卢敏等[16]对各条中介路径进行效果量比较时采用的方法是中介效应与总效应之比,即ab/ab+c'。但是,这种方法受到大量证据的反驳,主要问题是:(1)由于效果量和样本量综合作用于中介效应的统计显著性,当c很大或很小时,效果量都很难反映中介效应的实际[19];(2)不少研究发现,ab/ab+c'中,可能存在ab与ab+c'方向相反,且ab/c的值>1或<-1的情况[19],可见,ab/c并非比值,难以表达中介效应与总效应的比例关系;(3)在多个中介变量的模型中,总效应忽略了模型中其他中介变量的影响,如果以ab/c'代替ab/c,则又极大增加了效果量的不稳定性,通常样本在5 000以上才能达到稳定[20]。由此来看,情绪7个维度的中介效应比较结果如果是建立在5 000个样本以下的ab/c比值基础上,就值得推敲。
2 中介研究动态与存在问题应对
2.1 3类中介效应检定方法
针对中介效应ab的抽样分布难以满足大样本且正态分布的问题,研究者近来提出采用乘积分布法、非参数Bootstrap法和马尔科夫链蒙特卡罗(MCMC)法3类方法解决,这3类方法各有优劣。
乘积分布法的优点是在无先验信息的前提下,与非参数Bootstrap法和MCMC法在点估计、区间估计、统计功效和中介效应分析的区间宽度上差别不大。但其劣势是显而易见的,即计算过程较为繁琐复杂,过度依赖乘积分布表。
2.1.2 非参数Bootstrap法 非参数Bootstrap法包括非参数百分位和偏差校正的非参数百分位方法2种,其计算过程为:(1)以原样本为基础进行有放回的重复抽样,从而得到有效单个Bootstrap样本,并计算中介效应估计值;(2)取B次重复放回抽样中介效应的估计值,计算均值为中介效应的点估计值,再把B个中介效应的点估计值按照从大到小的顺序进行排列,以第2.5和97.5的百分位数估计出95%的置信区间[22]。
Bootstrap法的优点是:(1)相比较来看,Bootstrap法的中介效应检定准确性远好于乘积分步法;(2)易于操作计算,容易理解,且在多数统计软件中可以实现(AMOS、SPSS等);(3)在无先验信息时,学者们较为一致地推荐Bootstrap法[23],且同时采用偏差校正的非参数Bootstrap法可弥补非参数百分位Bootstrap法带来的偏差问题。
2.1.3 马尔科夫链蒙特卡罗(MCMC)法 马尔科夫链蒙特卡罗法在贝叶斯理论背景下进行计算:(1)构造并收敛马尔科夫链,获取待测后验分布;(2)进行吉布斯抽样,以后验样本为基础计算10 000个以上的中介效应估计值,并取均值为点估计值;(3)把10 000个中介效应估计值按降序排列,并以第2.5和97.5百分位数计算95%的中介效应区间估计。
这种方法的优点是当可获得先验信息时,其在点估计、区间估计、统计功效和中介效应分析的区间宽度上表现最佳。缺点是:(1)计算常在 WinBUGS、Mplus6、SAS和 R软件中完成,这对于一般研究者而言存在不小的难度;(2)先验信息不易获得,原因是对先验信息的选择要十分谨慎,且即使获得先验信息也会低估第I类错误率。
2.2 体育科学研究中中介效应检定的方法选择
从目前中介研究方法学发展趋势来看,以上3种方法是学者们推崇且在实务上具有较强操作性的,这些方法既在继承传统中介效应检定理论和方法基础上进一步发展,又不断弥补和完善了传统检定方法的不足与缺陷。因此,在体育科学研究中,适时接受和改进中介效应检定的新技术和新方法是促进中介研究发展所必需的。
如前文所提,体育科学研究中中介效果在不符合正态分布及大样本量不足的情况下如何解决?如何更有利于寻找多个中介效果的存在?如何评估这些中介效果的有效性?哪些中介效果更具有影响力?如何提高中介效应统计功效?这一系列问题在以上3种方法中均可解决。但这3种方法各自存在自身的优缺点,综合考虑各种方法的检定能力及对研究人员的要求,认为在AMOS操作环境下使用Bootstrap方法更为适宜。一些研究也明确指出,若先验信息不易获得,由于Bootstrap法的统计功效最高,且可控制可能高估的第Ⅰ类错误率,宜推荐进行中介效应的分析[24]。
那么,如何在AMOS环境下完成中介效应的检定和比较呢?下文将以前期研究成果为例,详实解析中介效应的检定过程及完成相关报表。
3 体育科学研究中的实例
3.1 大、小样本下预测模型的比较
研究前期采用量表编制与测量的方法[25],对1 690名中学生进行调研,探讨中学生课外体育锻炼的影响因素。结果发现,家庭体育支持与偶像崇拜、积极体验与效益、价值取向与意向进入了对课外体育锻炼的预测变量。依据相关文献,积极体验与效益、价值取向与意向分别成为家庭体育支持和偶像崇拜对课外体育锻炼预测的中介变量。因此,在AMOS20.0采用Bootstrap法进行中介效应检定(见图2)。
图2 积极体验与效益、价值取向与意向两因素中介模型
1690位被试问卷施测所得数据,一般可看作大样本数据。如果在小样本状态下能否获得同样预测模型?根据BENTLER和CHOU(1987)提出的,只有在符合正态、无遗漏值及例外值条件下,结构方程模型样本数至少应为所估计参数的5倍以上,否则要15倍的样本数。本研究模型中,需要估计的参数为24,且数据并非正态,因此,360个以下样本应视为样本不足。但由于模型中因素数目少于4个,故若达到200以上样本,即可视为样本数量适当。研究从1 690个样本中分层随机抽取145个样本组成小样本数据,重做偏差较正的非参数百分位Bootstrap方法和非参数百分位Bootstrap方法中介效应分析,结果得预测模型(见图 3)。
图3 积极体验与效益、价值取向与意向两因素中介模型
比较图2与图3后发现,家庭支持与偶像崇拜通过积极体验与效益、意向2个中介变量影响中学生体育参与的各条路径,略有不同,但均达到显著水平。值得注意的是,大样本状态下家庭支持与偶像崇拜对中学生体育参与的预测判定系数与小样本状态下是一致的,均为0.37,且达到中等程度的预测。
由AMOS统计报表结果可知,各条预测路径均显著。这时一个重要问题是,研究者关心在这2条中介路径中,哪一个中介变量的效果更明显?2条中介路径是否存在显著性的差异?在大、小样本状态下能否得到相同的结论?在AMOS操作中,可以实现对此问题的解答。
3.2 大、小样本下特定间接效果的评估
在模型拟合理想的前提下,可将每条中介路径分别进行编号,即 a1、b1、a2和 b2,在 Not estimating any user中建立语法,点选OUTPUT,选择Bootstrap 1 000、CI95%置信区间,进行计算后可在Estimates下Scales的Specific IE浏览特定间接效果。本研究中,大样本状态下的第1条中介路径效果值为0.087,第2条中介路径效果值为0.166;小样本状态下的第1条中介路径效果值为0.153,第2条中介路径效果值为0.169。那么,大、小样本状态下这2个中介变量的效果是否存在可靠的差异呢?
3.3 大、小样本下间接效果差异的比较
研究可在先前语法基础上继续编辑间接效果差异语法,并重新选择Bootstrap 1 000、CI95%置信区间,在大样本、小样本状态下分别计算,并在Estimates浏览结果。根据结果,采用国际通行表格要求,输出结果见表1、表2。在变量一列中,因表达路径所需变量名称过长,可采用以各变量拼音首字母代替的方法,即家庭支持与偶像崇拜变量以JO表示,锻炼体验与效益变量以TX表示,意向以YX表示,经常参与以CY表示。JOto TX to CY则表示以锻炼体验与效益为中介变量的路径,JOto YX to CY表示以意向为中介变量的路径,检定中介效应差异亦可采用TX-YX表示。
可见,积极体验与效益和价值取向与意向是家庭支持与偶像崇拜预测课外体育参与的有效中介变量,且2个中介变量的效果并没有显著差异,只是在值上略有大小不同。如果按照传统中介效果的统计检定方法,2个中介效果的准确差异检定难以实现,而且在大样本状态下的中介效应差异检定结果和小样本状态下是相同的。大样本状态下,TX-YX(表示2个中介效应之比较)检定结果未达到显著性水平(P=0.421,n=1690)(见表 1),TX-YX检定结果亦未达到显著性水平(P=0.851,n=145)(见表2)。
采用偏差较正的非参数百分位Bootstrap法和非参数百分位Bootstrap法,对大、小样本下2因子中介效应比较后得到相同的检定结果。由此可以看出,既减少受小样本的影响,避免乘积分步法和马尔科夫链蒙特卡罗法(MCMC)对研究人员统计技术的严苛要求;又克服了传统因果步骤检定法和Sobel检定法的不足,提高了中介效应的检定功效。在检定报表中提供了点估计和区间估计,同时采用偏差较正的非参数百分位Bootstrap和非参数百分位Bootstrap2种方法尽可能减少第Ⅰ类错误的发生,从而促进体育科学中的中介研究发展。
表1 积极体验与效益、价值取向与意向2因子中介效果检定及比较(n=1 690)
表2 积极体验与效益、价值取向与意向两因子中介效果检定及比较(n=145)
4 小 结
通过对目前体育科学研究中关于中介效应检定方法的考察,发现多数仍停留在因果步骤法和Sobel法的使用上。根据学者们在理论上和实务上的突破与检验,这些研究方法存在许多缺陷和不足,给相关学科的中介研究带来不小的影响。体育科学研究中也存在同样的问题,诸如中介变量的进一步寻找受到影响、难以应付中小样本及非正态样本、检定功效低、无法准确提供中介效应的点估计和区间估计、多条中介效应无法比较等。随着统计理念和技术突飞猛进的发展,克服这些问题的乘积分步法、非参数Bootstrap法和马尔科夫蒙特卡罗MCMC法等被提出使用。结合体育科学研究的实际需要和各种方法的检定优势与条件,认为采用非参数Percentile Bootstrap和Bias-Bootstrap检定法,并运用语法功能在AMOS软件中操作,从而实现对中介效应的有效检定。
[1]BARON R M,KENNY D A.The moderator-mediator variable distinction in social psychological research:Conceptual,strategic,and statistical considerations[J].Journal of Personality and Social Psychology,1986,51:1173-1182.
[2]KENNY D A.Learn how you can doa mediation analysis and output a text description of your results:Go to mediational analysis using Data To Text using SPSSor R[EB/OL].http://davidakenny.net/cm/MediationN.ppt.
[3]MACKINNON D P,FAIRCHILD A J,FRITZ M S.Mediation analysis[J].Annual Review of Psychology,2007,58:593-614.
[4]PREACHER K J,HAYES A F.Asymptotic and resampling strategies for assessing and comparing indirect effects in multiple mediator models[J].Behavior Research Methods,2008,40(3):879-891.
[5]MACKINNON D P.Introduction to statistical mediation analysis[M].NJ:Earlbaum,2008.
[6]HAYESA F.Baron and Kenny:statistical mediation analysis in the new millennium[J].Communication Monographs,2009,76(4):408-420.
[7]柳士顺,凌文辁.多重中介模型及其应用[J].心理科学,2009,32(2):433-435.
[8]曹佃省.锻炼技能作为青少年行为意向与锻炼行为间的调节变量中介-调节效应分析[J].西安体育学院学报,2013(2):217-221.
[9]SGROUTPE,BOLGERN.Mediation in experimental and nonexperimental studies:New procedures and recommendations[J].Psychological Methods,2002,7:422-445.
[10]MACKINNON D P,FAIRCHILD A J.Current directions in mediation analysis[J].Current Directions in Psychological Science,2009,18(1):16-19.
[11]FAIRCHILDA J,MCQUILLINSD.Evaluatingmediation and moderation effects in school psychology:A presentation of methods and review of current practice[J].Journal of School Psychology,2010,48(1):53-84.
[12]SOEST T V,HAGTVET K A.Mediation analysis in a latent growth curve modeling framework[J].Structural Equation Modeling,2011,18(2):289-314.
[13]RUCKER D D,PREACHER K J,TORMALA Z L,etal.Mediation analysis in social psychology:current practices and new recommen-dations[J].Social&Personality Psychology Compass,2011,5:359-371.
[14]MACKINNON D P,LOCKWOOD C M,HOFFMAN J M,etal.A comparison of methods to test mediation and other intervening variable effects[J].Psychological Methods,2002,7(1):83-104.
[15]温忠麟,张雷,侯杰泰,等.中介效应检验程序及其应用[J].心理学报,2004,36(5):614-620.
[16]卢敏,殷恒婵,薛红.情绪在运动影响大学生心理健康中的中介效应[J].上海体育学院学报,2009,33(1):51-55.
[17]许欣,姚家新,杨剑等,儿童运动期望:价值信念对运动行为的影响[J].武汉体育学院学报,2013,47(3):53-58.
[18]CHEONG J W.Accuracy of estimates and statistical power for testing mediation in latent growth curve modeling[J].Structural Equation Modeling,2011,18(2):195-211.
[19]FAIRCHILDAJ,MCQUILLINSD.Evaluatingmediation and moderation effects in school psychology:A presentation of methods and review of current practice[J].Journal of School Psychology,2010,48(1):53-84.
[20]PREACHERK J,KELLEY K.Effect sizemeasuresfor mediation models:Quantitativestrategiesfor communicatingindirect effects[J].Psychological Methods,2011,16(2):93-115.
[21]MACKINNONDP,LOCKWOODCM,WILLIAMSJ.Confidencelimits for the indirect effect:Distribution of the product and resampling methods[J].Multivariate Behavioral Research,2004,39(1):99-128.
[22]温忠麟,刘红云,侯杰泰.调节效应和中介效应分析[M].北京:教育科学出版社,2012:138.
[23]方杰.中介效应的点估计和区间估计:乘积分布法、非参数Bootstrap法和 MCMC法[J].心理学报,2012,44(10):1408-1420.
[24]CHEYNG G W,LAU R S.Testing mediation and suppression effects of latent variables:Bootstrapping with structural equation models[J].Organizational Research Methods,2008,11(2):296-325.
[25]丹豫晋,姚蕾.中学生课外体育锻炼(家庭-个体)影响因素及路径研究[J].成都体育学院学报,2015,41(2):115-120.