性别刻板印象威胁效应:可重复性问题与展望*
2023-10-24王祯管健
王 祯 管 健
(南开大学周恩来政府管理学院社会心理学系,天津 300071)
1 引 言
刻板印象威胁效应(stereotype threat),即在对个体所属群体持消极刻板印象的情境中,个体担心自己会因该刻板印象而被消极评价或对待,进而在心理和行为上受损的一种现象(Spencer et al.,2016)。自Steele 和Aronson(1995)提出该效应至今,刻板印象威胁已得到大量探讨:在研究主题上,从最初的种族刻板印象威胁,拓展到了性别刻板印象威胁(王祯,2021)和年龄刻板印象威胁(潘文静等,2018)等方面;在研究领域上,从最初的学业测试,拓展到了空间能力(Lin et al.,2021)、体育运动(Mousavi et al.,2021)和群际关系(Febriani& Sanitioso,2021)等方面;在研究方法上,从最初的行为实验,上升到了神经生理学实验(Derks et al.,2008)等方面。虽然刻板印象威胁效应在不同学科、不同领域和不同方向上都得到了大量研究的支持,尤其是性别刻板印象威胁效应(Spencer et al.,1999),但近年来也有越来越多的研究者对该效应的可重复性提出了质疑(Chaffee etal.,2020;Flore et al.,2018)。比如Ganley 等人(2013)通过931 个样本考察了性别刻板印象威胁对女孩数学成绩的影响,结果发现性别刻板印象威胁的主效应及其与性别的交互效应均不显著,也就是说无证据表明存在性别刻板印象威胁效应。一系列元分析研究也发现相比于种族刻板印象威胁和年龄刻板印象威胁等其他领域,性别刻板印象威胁效应存在较大的异质性(表1)。这就意味着性别刻板印象威胁效应在以往研究中可能被夸大,甚至存在可重复性问题。
表1 性别刻板印象威胁的元分析
然而,当前仍有众多研究“毫无保留”地将性别刻板印象威胁作为男女在多个领域上存在性别差异的重要因素(宋淑娟等,2022;王祯,2021;张慧等,2020;Picho-Kiroga et al.,2021;Spencer et al.,2016),这可能会阻碍性别刻板印象威胁等相关领域的探索和进步。基于此,本研究拟对性别刻板印象威胁效应的可重复性问题的具体表现、可能原因和未来方向进行综述。一方面希望通过本次论述能引起相关领域研究者对性别刻板印象威胁效应的可重复性问题的关注,启发未来研究;另一方面也希望能让研究者、教育者和大众勿过度放大性别刻板印象威胁的作用,避免陷入“该效应能充分解释男女在多个领域上存在性别差异”的思维桎梏。
2 性别刻板印象威胁效应的可重复性问题的表现
2.1 无性别刻板印象威胁效应
性别刻板印象威胁效应的可重复性问题的常见表现是研究者在实验中对性别刻板印象威胁进行操作后,发现无证据表明存在性别刻板印象威胁效应,甚至是有证据表明无性别刻板印象威胁效应[有关无证据表明有效应(absence of evidence)与有证据表明无效应(evidence of absence)这两者的区别,具体可参考胡传鹏等人(2018)和许岳培等人(2022)的研究]。这种可重复性问题现象目前已在美国(Ganley et al.,2013)、英国(Pennington et al.,2019)、德国(Wille et al.,2018)、意大利(Agnoli et al.,2021)、荷兰(Flore et al.,2018)、乌干达(Picho & Schmader,2018)和中国(Wang et al.,2022)等国家的研究中得以显见。根据研究对象的不同,无性别刻板印象威胁效应可分为无理科性别刻板印象威胁效应和无语言性别刻板印象威胁效应。
无理科性别刻板印象威胁效应指激活了女性的理科性别刻板印象后,并未使其在理科测试任务上的表现受损(Agnoli et al.,2021;Flore et al.,2018;Ganley et al.,2013)。比如Flore 等人(2018)将2064 名高中生随机分到刻板印象威胁组或消除刻板印象威胁组后,要求其完成数学测试。结果显示,无证据表明刻板印象威胁操作会导致女孩的数学表现下降;进一步贝叶斯因子分析显示,有极强证据支持无性别刻板印象威胁效应的零假设。此外,还有一些研究者通过化学和生物等其他理科测试为实验任务,结果也发现无证据表明存在性别刻板印象威胁效应(Sunny et al.,2017;Taasoobshirazi et al.,2019)。而无语言性别刻板印象威胁效应指激活了男性的语言性别刻板印象后,并未使其在语言和阅读测试任务上的表现受损(Hausmann et al.,2009)。比如Wulandari 和Hendrawan(2021)在研究中将被试随机分到不同性别刻板印象启动组后,要求其完成不同难度的字母流畅测试。结果显示,无论任务难度和性别刻板印象威胁的启动方式如何,男性的表现都不受性别刻板印象威胁的影响。也就是说,无证据表明存在性别刻板印象威胁效应。贝叶斯因子分析支持了零假设,即有证据表明无性别刻板印象威胁效应(Chaffee et al.,2020)。
2.2 反性别刻板印象威胁效应
性别刻板印象威胁的可重复性问题的另一种不常见表现是研究者在实验中对性别刻板印象威胁进行操作后,出现了与该效应相反的一种性别刻板印象威胁效应,也即刻板印象阻抗效应(stereotype reactance)。根据Brehm(1966)提出的心理阻抗理论(psychological reactance theory),当个体感到其自由受到威胁时会比未受威胁时更主张自己的自由。在此基础上,Kray 等人(2001)提出了刻板印象阻抗的概念,即当个体受到刻板印象威胁后会认为自己的表现受限,进而表现出与刻板印象威胁效应相反的行为倾向,即表现上升(为了与无刻板印象威胁效应相对应,后文将刻板印象阻抗效应称为反刻板印象威胁效应)。根据研究对象的不同,反性别刻板印象威胁效应可分为女性反性别刻板印象威胁效应和男性反性别刻板印象威胁效应。
当前研究者已在诸多有利于男性的性别刻板印象领域中发现了女性反性别刻板印象威胁效应。比如(1) 学业测试上,Pavawalla 等人(2013)发现性别刻板印象威胁组中女性的数学表现反而比控制组中女性的数学表现更好。(2)谈判能力上,Kray等人(2001)发现性别刻板印象威胁组中女性的谈判表现显著提高,甚至高于男性。(3)领导能力上,Hoyt 和Blascovich(2007)发现,性别刻板印象威胁组中具有高自我效能的女性报告其在领导任务上具有更高水平的表现。(4)运动能力上,Deshayes 等人(2019)发现女性在面对消极性别刻板印象时的运动成绩竟有显著提高,该现象在后续其他疲劳运动任务中也得到了证明(Deshayes et al.,2020)。相比于女性反性别刻板印象威胁效应,男性反性别刻板印象威胁效应的研究鲜少,且主要集中在言语流畅性任务上。比如Hirnstein 等人(2012)将被试分为性别刻板印象威胁组或控制组,然后让其完成语言流畅测试。结果发现,性别刻板印象威胁组中男性和女性的任务表现显著高于控制组,这表明男性出现了反性别刻板印象威胁效应,该现象在后续Hausmann(2014)的研究中得以证明。
3 性别刻板印象威胁效应的可重复性问题的原因
3.1 调节变量存在争议
不同研究中性别刻板印象威胁操作后的结果不一,表明可能存在调节效应(Nguyen&Ryan,2008)。因此,调节变量可能是影响性别刻板印象是否存在威胁效应的关键,尤其体现在刻板印象意识、领域认同和任务难度这三个变量上(Steele,1997)。一些研究者认为当个体存在刻板印象意识、具有高领域认同且实验任务具有挑战性时才能引发刻板印象威胁效应(Flore & Wicherts,2015;Keller,2007;Picho&Schmader,2018;Steele,1997),但另一些研究者对此却存有争议。比如Schmader 等人(2004)认为即使个体存在性别刻板印象意识,但其本身若不相信该刻板印象,则不会出现性别刻板印象威胁操作后应有的消极效应;Chaffee 等人(2020)在研究中即使只选取了中到高领域认同的被试,也未能发现性别刻板印象威胁效应;Wulandari 和Hendrawan(2021)虽然设置了简单、中等和困难这三种不同难度的实验任务,却均未发现性别刻板印象威胁对个体的消极影响。此外,诸如性别刻板印象威胁的启动类型和性别认同等其他调节变量,研究者也存在较大的争议(Kiefer & Sekaquaptewa,2007;Kray et al.,2001;Schmader,2002;Shewach et al.,2019;Sunny et al.,2017;Wulandari& Hendrawan,2021)。总的来说,可能由于当前研究者尚未完全理清对性别刻板印象威胁效应起关键作用的调节变量,才导致其存在可重复性问题。
3.2 被试年龄选取不一
相比于早期以大学生为被试发现性别刻板印象威胁效应的研究(Spencer et al.,1999),近年来该效应的可重复性问题主要集中在以儿童为被试的研究中(Agnoli et al.,2021;Flore et al.,2018;Ganley et al.,2013;Picho& Schmader,2018;Wille et al.,2018)。比如在Agnoli 等人(2021)以意大利初中生和高中生为被试的研究中,未发现性别刻板印象威胁对女孩数学成绩的影响。这就意味着可能是因为被试的年龄选取不一,相比于大学生等成人被试,某些年龄段的儿童本就不受性别刻板印象威胁的影响(王祯,2021),因此未能表现出该效应。对于性别刻板印象威胁的产生条件,不同年龄段儿童的发展情况存在差异。比如有研究认为性别刻板印象意识作为性别刻板印象威胁产生的先决条件(Galdi et al.,2014),在儿童9 到10 岁时才可能发展到与成人相似,但这时仍具有明显的性别内群体偏好(Passolunghi et al.,2014)。因此,这时的儿童可能仍不会表现出性别刻板印象威胁效应。未来可以就不同年龄段的被试进行大样本重复研究,以验证性别刻板印象威胁效应的可重复性问题是否真与被试的年龄选取有关。
3.3 相关知识得以传播
一项正在进行的横断历史元分析认为近年来性别刻板印象威胁效应难以重复可能存在两种原因:一种是支持性别刻板印象威胁效应的证据在最开始就较为微弱;另一种则是一些因素随着时间的推移而发生了变化,使得对其重复变得尤为困难(Lewis&Michalak,2019)。比如随着心理学在各高校的普及,刻板印象等相关知识可能得以传播,而干预性别刻板印象威胁对女性产生消极影响的最简单方式则是向女性传播有关刻板印象的相关知识(Johns et al.,2005)。因此,这可能导致近年来研究者越来越难以重复出性别刻板印象威胁效应。此外,随着刻板印象知识的传播和社会规范的不断进步,当前人们所持性别刻板印象的程度与早些年相比有明显下降(Charlesworth et al.,2022;Charlesworth et al.,2021;Eagly et al.,2020),这也可能导致当前研究难以发现性别刻板印象威胁效应。未来研究可以招募较少与较多知晓刻板印象相关知识的个体为被试,通过对比研究,进一步验证刻板印象相关知识的传播是否是引发性别刻板印象威胁效应存在可重复性问题的原因之一。
3.4 其他原因
此外,还可能存在以下三个因素导致性别刻板印象威胁效应难以重复。(1)发表偏倚(publication bias),指零结果的研究通常不会被写出来发表或被接收发表(Begg,1994)。近年来,多处证据表明性别刻板印象威胁领域可能存在发表偏倚的现象(Ganley et al.,2013;Warne,2022)。比如Flore 和Wicherts(2015)在元分析中考虑到纳入的大部分研究都是已发表出来的,这可能受发表偏倚的影响,因此使用漏斗图不对称性(funnel plot asymmetry)予以纠正。结果显示,修正后的预估性别刻板印象威胁效应量从原来的0.22 锐减到0.07。此外,还有研究对Nguyen 和Ryan(2008)的元分析进行重复元分析时发现,运用四种统计方法对可能存在的发表偏倚进行调整后得到了不同的刻板印象威胁估计效应量(Ryan&Nguyen,2017;Zigerell,2017)。这些研究一方面揭示了有关性别刻板印象威胁效应的大量证据可能建立在某些不稳定的基础上,因此当研究者对该因素进行“统计调整(statistically adjust)”后威胁效应才出现;另一方面也表明以往有关性别刻板印象威胁的研究可能存在发表偏倚。(2)有研究指出当前部分性别刻板印象威胁的研究以数学测试为协变量,但这种协变量分析方法与其假设(协变量需独立于实验效应)相反(Agnoli et al.,2021;Picho-Kiroga et al.,2021;Wicherts,2005)。Flore 等人(2018)为避免协变量的使用,通过多水平统计分析(a multilevel statistical analysis)处理数据,结果发现无性别刻板印象威胁效应。这是否意味着统计方法的选择也可能是导致该效应有无的原因?未来心理统计领域的研究者可以就这一点进行深入探讨。(3)最后,还有一个值得思考的影响因素——理论误定(theory misspecification),即理论被错误地设定。研究指出可重复性问题可能是因为理论与其实证检验之间的逻辑关系较弱(Oberauer & Lewandowsky,2019)。比如众多性别刻板印象威胁的研究并未始终如一地将其研究设计(如样本选择、分析方法)与刻板印象威胁理论的关键原则保持一致,这可能导致刻板印象威胁理论在实证研究中被误定,进而使后续重复研究出现较大的异质性(Picho-Kiroga et al.,2021)。这提醒研究者在进行性别刻板印象威胁的实证研究时应注意其理论的适用性,避免理论误定。
4 未来展望
刻板印象威胁理论提出至今,赞同者对其青睐有加,将其广泛应用于多个领域(Lewis&Sekaquaptewa,2016);而质疑者却通过各种实证研究和元分析,“揭露”其局限性(Shewach et al.,2019),甚至是误定性(Picho-Kiroga et al.,2021;Warne,2022)。基于此,本研究从性别刻板印象威胁的视角出发,对该领域近年来存在的可重复性问题进行了详实的综述。面对理论与实证之间的鸿沟,一方面未来研究可重点关注以下几个方面,或有助于打开性别刻板印象威胁效应研究的新局面;另一方面也希望借助性别刻板印象威胁领域的可重复性问题,引发未来研究者对民族和年龄等其他刻板印象威胁领域的可重复问题的关注,共同助力刻板印象威胁理论的“更新迭代”。
4.1 细化调节变量
对调节变量的争议可能是导致性别刻板印象威胁效应产生可重复性问题的重要因素,因此未来研究者可细化调节变量。以往众多研究对调节变量的划分过于粗糙,这可能导致研究者在实验中不经意丢失一些重要信息(Nguyen & Ryan,2008)。以性别刻板印象威胁的启动方式为例,多数研究普遍只将其分为了明显启动和微妙启动两种(Flore & Wicherts,2015;Sunny et al.,2017)。因此,研究者可进一步细化性别刻板印象威胁的启动方式,比如参照Likert 6点计分方式(1=非常微妙启动,6=非常明显启动)。据此逻辑,未来研究还可以对刻板印象意识、领域认同和任务难度等其他调节变量进一步细化,以“谱系”的方式考察其对性别刻板印象威胁的调节作用,助力研究者更为精准地掌握该效应的边界条件。此外,未来研究也需要积极探究其他可能影响性别刻板印象威胁效应的调节变量。比如Agnoli 等人(2021)未能发现性别刻板印象威胁效应,可能是因为其实验是在教室中完成。相比陌生的实验室环境,被试对教室环境更为熟悉;教室与学科之间的联结也可能更易让被试在进行测试任务时成功提取出相关的学科知识,进而导致性别刻板印象威胁失效。因此,实验环境可能是影响性别刻板印象威胁效应的重要调节变量。
4.2 开展重复研究
随着性别刻板印象威胁的实验研究频频出现零结果,研究者认为重复研究可作为考察性别刻板印象威胁效应是否具有可信度的最佳手段(Flore et al.,2018;Pennington et al.,2019)。鉴于当前与之相关的重复研究甚少,且主要集中在西方国家,因此需要有更多来自其他国家和地区的研究者对此进行重复研究。具体需要注意以下几点:(1)考虑到可重复性问题可能是受重复研究时所使用的研究方法或重复目标的不同所致(Anderson & Maxwell,2016;Gilbert et al.,2016),因此未来研究者在进行性别刻板印象威胁的重复研究时,首先要保证自己的研究同被重复对象具有同样的目标方法。(2)在以往有关性别刻板印象威胁的研究中,小样本研究往往呈现更大的性别刻板印象威胁效应,而大样本研究却多表现出较小的效应(Flore & Wicherts,2015),这提醒未来研究者应尽可能将重复研究建立在大样本的基础上以保证研究的准确性。(3)尽可能克服上述令性别刻板印象威胁效应难以重复的因素,如样本的选择上应具有刻板印象意识、认同刻板印象领域和其所属的社会群体;任务的选择上应为中到高的难度;以及统计功效设置为0.8 及以上等(Picho-Kiroga et al.,2021;Warne,2022)。但如前所述,随着时间的推移,性别刻板印象威胁效应产生的某些必要条件可能已发生变化,多数高校对刻板印象相关知识的普及可能令该效应难以重复。因此,一种可能的处理方式是研究者通过排除大量不符合条件的被试以达到研究的筛选标准;另一种较为可行的处理方式是通过诸如潜在剖面分析(latent profile analysis)等统计技术将被试分为不同程度的性别刻板印象威胁易感性组(Picho-Kiroga et al.,2021),然后进行比较研究。此外,研究者还可以尝试通过长时间的纵向追踪研究来考察在时间的推移下,性别刻板印象威胁效应是否存在动态变化的情况。(4)规范重复研究的相关程序,比如采用预注册以避免一些方法学的问题;采用先验功效分析以避免低功效研究增加结果的假阳性比例(Button & Munafò,2017);重视发表偏倚,防止为追求显著性而催生p 值操作等学术不端行为(胡传鹏等,2016)。(5)还有一点值得注意的是,虽然一系列元分析揭示了性别刻板印象威胁效应存在较大的异质性,但相关结论却大相径庭。这可能与元分析研究的文献纳入标准、检索过程和研究筛选等方法的不同所致,这提醒未来研究者在从事元分析时应尽可能根据国际标准进行规范报告(刘宇等,2021)。总而言之,未来在进行重复研究时要尽可能通过种种措施保证实验的科学性和严谨性。
4.3 选择统计方法
同其他领域的心理学研究类似,性别刻板印象威胁的研究主要采用传统的零假设显著性检验(null hypothesis significance test,NHST),即一种在通过p 值是否小于0.05 来判断是否拒绝零假设(H0)和接受备择假设(H1)的统计方法(胡传鹏等,2018)。这种方法的统计原理虽然相对简单,但以p 值是否小于0.05 作为统计显著性的二分思维方式可能会导致发表偏倚,同时随着抽样的不断变化,p 值也会出现不稳定的情况(胡传鹏等,2016)。更为重要的是,NHST 难以评估零效应(许岳培等,2022)。比如对于以往未能发现性别刻板印象威胁效应的研究(Agnoli et al.,2021;Ganley et al.,2013;Picho & Schmader,2018),究竟是由于统计效力较低等原因导致未能检测到该效应,还是根据现有数据结果已然能表明该效应本就不存在?这些问题难以通过NHST 得到解决。因此,未来研究者可以尝试其他统计方法来考察性别刻板印象威胁效应。比如贝叶斯因子,该方法在假设检验中表示当前数据对零假设与备择假设支持的强度之间的比率。相比于NHST,贝叶斯因子虽然统计原理较为复杂,但能量化地反映当前数据对各个假设支持的程度(胡传鹏等,2018)。因此,能较好地弥补NHST不能评估零效应的不足。比如,近年来越来越多的研究者通过贝叶斯因子分析为无性别刻板印象威胁效应的零假设提供了强有力的证据(Chaffee et al.,2020;Flore et al.,2018;Pennington et al.,2019)。此外,对性别刻板印象威胁的零效应评估,还可以考虑等价检验和贝叶斯估计等统计方法(许岳培等,2022)。未来研究甚至还可以尝试将不同统计方法结合起来考察性别刻板印象威胁效应,为该效应的有无、强弱提供更有力的证据(Inglis&O’Hagan,2022)。
4.4 聚焦文化差异
当前有关性别刻板印象威胁的研究主要集中在诸如美国、意大利、法国和德国等西方国家(Flore & Wicherts,2015),其他国家的相关研究鲜少。这可能导致该领域的研究出现WEIRD 现象,即大部分研究源自西方的(western)、受教育的(educated)、工业化的(industrialized)、富有的(rich)和民主的(democratic) 社会(Henrich et al.,2010)。而性别刻板印象威胁深受社会文化的影响,虽然具有一定的跨文化一致性,但也存在一些文化差异(王祯,2021)。因此,未来需要有更多来自不同文化、不同国家和不同地域的研究者对性别刻板印象威胁进行探讨,将文化差异作为一个影响该效应的重要因素纳入研究中。以中国文化为例,从古至今,儒家、道家和佛家的思想对于中国人的认知、情感、意识和行为的塑造具有重要影响。因此,当中国人身处性别刻板印象威胁这样的“情境困境”时,中国的文化信念可能在其中起着极为重要的作用。以道家思想为例,《老子》曰:“祸兮福之所倚,福兮祸之所伏。”强调了每件事物都存在相互排斥、相互矛盾和相互斗争的两面,并且这两面能在生生不息的循环中相互转化。受该思想的影响,中国人倾向于比西方人更相信软弱能转化为强大,坏事能转化为好事(Ji et al.,2001)。比如新近研究发现中国人比西方人在面对诸如COVID-19等苦难时,能建构更多的积极成分(Ji et al.,2021)。据此,中国人在面对性别刻板印象威胁这样的“情境困境”时,可能倾向于看到该“威胁”的另一积极面(如中国人常说“压力就是动力”),将“威胁”转化为“非威胁”,进而在测试任务上表现出无性别刻板印象威胁效应,甚至是反性别刻板印象威胁效应。鉴于当前鲜有研究从实证的角度去考察文化在性别刻板印象威胁中的作用,未来研究可将其作为重点纳入探讨范围。
4.5 探索其他变量
性别刻板印象威胁效应的提出,最初是为了解释男女在数学领域上存在差异的原因(Spencer et al.,1999),后来被用于众多领域上存在男女差异的主要影响因素。但众多领域上的性别差异不能仅由单一的性别刻板印象威胁来解释(Hirnstein et al.,2012;Nguyen&Ryan,2008),也需要关注到其他变量的影响。比如男女在动机上的差异、策略使用上的差异、家长和教师在注意及鼓励上的差异,以及自我效能上的差异等(Sunny et al.,2017;Taasoobshirazi et al.,2019)。以数学上的性别差异为例,已有部分研究表明数学焦虑、数学兴趣和空间能力等因素都与数学表现及其相关的职业选择有关(Ceci&Williams,2010)。因此,未来研究应努力探索其他可能影响男女在众多领域上出现性别差异的因素,避免夸大性别刻板印象威胁在其中的作用,甚至将其干预措施作为减少或消除这些性别差异的唯一“灵丹妙药”。值得注意的是,本文虽然呼吁积极探索其他变量,但并不是让研究者停止对性别刻板印象威胁效应的探讨;相反,仍要继续对其进行深入考察,尤其是心理机制方面的研究。因为性别刻板印象威胁效应本是一个尤为复杂的心理现象,由于当前研究者、教育者和大众对其理解都过于简化,才导致对性别刻板印象威胁效应的理解出现偏差。