工作记忆训练效果是安慰剂作用的结果吗？ *

2019-04-28宋锦涛应荣华周仁来

心理与行为研究 2019年2期

张心宋锦涛应荣华周仁来

(1 南京大学社会学院心理学系，南京 210023) (2 南京师范大学心理学院，南京 210097)

1 引言

工作记忆训练是近年来受到众多学者关注的一个新兴研究领域。该领域兴起的一个主要原因首先是作为一种改善注意力的行为学矫治方法，而后又因工作记忆与多个高级认知能力的行为及神经机制上的紧密联系而衍生出工作记忆训练对于推理能力、流体智力以及情绪调控能力等认知能力影响的实证研究。工作记忆训练的基本原理源于学界认为工作记忆能力的限制可能对于人的认知的其他方面有普遍的影响。如部分学者研究发现了工作记忆能力与流体智力之间的密切关系（Engle, 2002），工作记忆能力的限制对于阅读能力（Alloway & Gathercole, 2006）、语言（Archibald& Gathercole, 2006）和数学技能（Passolunghi,2006）发展的影响等。

将工作记忆的限制与多种高级认知功能相联系便产生了一种假设：如果工作记忆能力能够通过训练提升，那么它的改变理论上应该在与工作记忆能力相关但未经训练的其他认知任务中有所体现（Shipstead, Redick, & Engle, 2010）。提升被试在与训练任务距离较远的任务上的表现，这一现象被称作“远迁移效应”（Barnett & Ceci, 2002;Taatgen, 2013）。远迁移效应是工作记忆训练研究中关注的重点。其中，工作记忆训练对个体流体智力的影响尤其受到研究者的关注。流体智力通常被视作预测个体未来学业成就与社会成就的重要指标，过去普遍认为流体智力是稳定发展的，到了一定年龄便不再发生变化。然而，有研究发现，在经过短期工作记忆训练后，成人在流体智力测验上的成绩得到了显著性提升（Buschkuehl &Jaeggi, 2010; Jaeggi, Buschkuehl, Jonides, & Perrig,2008）。这些研究似乎动摇了以往对于流体智力在到达一定年龄后便不再发生改变的观点。此后的若干研究报告了工作记忆训练能够提升流体智力的积极结果（Chein & Morrison, 2010; Jaeggi et al.,2010; Jaeggi, Buschkuehl, Jonides, & Shah, 2011;Buschkuehl, Hernandez-Garcia, Jaeggi, Bernard, &Jonides, 2014; Hardy et al., 2015）。甚至有研究发现经过短期的工作记忆训练，老人的智力测验成绩也出现了显著提升（Zinke et al., 2014）。来自元分析的研究也发现工作记忆训练不仅可以有效提升成人的认知能力（Au et al., 2015），而且可以显著延缓老年人的认知衰退（Karbach & Verhaeghen,2014）。这些研究发现似乎表明工作记忆训练具有提升个体流体智力水平的潜在效力。

但也有学者通过元分析发现，工作记忆训练只对特定的年龄层及对象有效果（Melby-Lervåg &Hulme，2013; Karr, Areshenkoff, Rast, & Garcia-Barrera, 2014; Kelly et al., 2014; Spencer-Smith &Klingberg, 2015; Weicker, Villringer, & Thöne-Otto,2016）。其中，Melby-Lervåg 和 Hulme（2013）对包括成年人和儿童的23篇已经发表的工作记忆训练研究进行了元分析。他们发现训练程序对个体工作记忆能力的提升有短期效果，但这种提升迹象在训练结束后的数周之后便消失，训练效果并不能够长久保持。此外，他们未能发现工作记忆训练效果可以显著地迁移至其他相关认知任务之上的证据。这些任务包括考察言语和非言语能力，注意的抑制加工能力和词汇阅读和数学能力在内的多种认知测验。有学者甚至直接得出工作记忆训练并不存在显著性效果的结论（Melby-Lervåg & Hulme, 2013; Schwaighofer, Fischer, &Bühner, 2015; Melby-Lervåg, Redick, & Hulme,2016）。他们认为工作记忆训练只能够带来短期效应，而且这种影响无法直接迁移到未经训练的任务中。而证明工作记忆训练是否有效，关键在于训练是否能稳定地产生远迁移效应（Melby-Lervåg& Hulme, 2013），可见流体智力水平是否可以通过工作记忆训练提高依然是该领域悬而未决的基础性问题。

如果智力分数的变化不是由工作记忆训练带来的，那是什么变量导致了这种变化呢？Boot,Simons, Stothart和Stutts（2013）认为在采用了未加控制组作为参照或采用了积极控制组但两组被试对实验的期待水平不同的干预研究中，由期待因素导致的安慰剂效应或许可以部分地解释这种差异。为了对个体期待水平对认知训练研究的重要影响进行强调，他们基于若干实证研究撰写了一篇综述来提醒研究者们对该变量加以重视（Boot et al., 2013）。

个体差异因素对工作记忆训练效果造成的影响已受到国内外学者的关注（Jaeggi, Buschkuehl,Shah, & Jonides, 2014; 朱祖德, 段懿行, 王穗苹 ,2017）。其中，期待和动机因素被多次提及（Shipstead, Redick, & Engle, 2012; Boot et al.,2013）。期待和动机因素是导致安慰剂效应产生的原因（Geers, Weiland, Kosbab, Landry, & Helfer,2005）。Boot等人（2013）认为，在实验中采用积极控制组是为了消除安慰剂效应对实验结果的影响，但只有当积极控制组对于实验的期待水平与实验组相匹配时才能将不同的提升结果归因于实验处理的效力。期待水平的差异是否的确是导致工作记忆训练产生近迁移效应与远迁移效应的关键变量尚不清楚。另外，在与训练任务相近的任务中所观察到的前测-后测增幅（即近迁移效应）也可能是由于被试对任务或刺激形成了特定的应对策略所导致（Dunning & Holmes, 2014; Gibson,Gondoli, Johnson, & Robison, 2014）。

Foroughi, Monfort, Paczynski, McKnight和Greenwood（2016）设计了一个对被试的期待水平进行操纵的工作记忆训练实验。他们发现通过公开实验预期的招募形式，结合仅仅1小时的工作记忆训练便能够显著提升被试在流体智力测验中的表现（Foroughi et al., 2016）。这一结果表明由个体的高期待水平诱发的安慰剂效应可能是影响工作记忆训练远迁移效果的一个重要因素。然而，Foroughi等人（2016）未对研究发现背后的深层次原因进行探究。我们则认为应从安慰剂效应产生的理论角度来对他们的研究结果进行分析。

反应期待理论（response expectancy theory）是与Foroughi等人（2016）研究的实验设计较为相符的一个解释模型（Kirsch, 1999）。根据此解释框架，反应期待是对于环境和行为线索（situational and behavioral cues）所做出的预先自动反应，是个体直接的自我确认。安慰剂效应是期待所带来的直接、非中介的结果。在Foroughi等人（2016）的研究中采用公开实验预期的招募方式使安慰剂组被试产生对实验结果（智力能够提升）更高水平的期待，而工作记忆训练程序是诱发安慰剂效应产生的线索（cues）。若此理论解释成立，即工作记忆训练程序只是诱发安慰剂反应的提示线索，那么采用相仿的实验设计，但是采用其他类型的工作记忆训练任务作为线索应该同样能够诱发安慰剂效应的产生。我们通过实验一对这一假设进行了验证。

此外，在常规训练过程的初期，被试可以直观地感觉到自己任务表现的变化。当训练难度不断达到其所能承受的极限，即被试的任务表现进入瓶颈期时，被试因体会到一定的挫败感，对训练的期待水平与初期相比可能会发生变化。有研究发现在脑力游戏训练中，消极的语音反馈减少了被试的竞争感，促使被试去尝试更多的次数来改善自己的短期表现，但其缺乏参与游戏的长期动机。而积极语音反馈则增加了被试的竞争感，从而激发了内在动机，产生参与游戏的持续动力（Burgers, Eden, van Engelenburg, & Buningh,2015）。亦即，被试内部动机会根据任务反馈的效价发生变化。另有研究发现大学生在进行数字测验时，收到消极表现的反馈时内部动机会衰退（Weidinger, Spinath, & Steinmayr, 2016）。自适应工作记忆训练一般会根据被试训练的结果改变难度，使被试获得积极或者消极的反馈。本研究中所使用的训练程序也是随被试表现而调整难度，并能及时进行积极或消极反馈的自适应任务（Zhao, Zhou, & Fu, 2013; Xin, Lai, Li, & Maes,2014）。我们认为随着训练次数的增加，两组被试都会比训练初期更为频繁地收到消极反馈，两组被试的期待水平与内部动机也可能因此发生变化，进而影响他们在迁移任务中的表现。这种由训练逐渐深入带来的影响将会缩小甚至抵消由被试对结果的期待水平所带来的影响。因此，实验二的目的便是探究随着训练次数的增加，训练任务难度的加大，两组被试在远迁移任务中的表现是否会受到招募方式与训练次数的影响。

2 研究1

2.1 研究目的

采用两种不同的招募方式检验是否存在安慰剂效应。

2.2 研究方法

2.2.1 被试

本研究共招募被试50名，其中实验组25人（女性16人），平均年龄为21.80岁。控制组25人（女性19人），年龄为21.20岁。两组被试不存在显著的性别差异，χ2（1）=0.86；p=0.355，也不存在显著的年龄差异，t（48）=1.06；p=0.294。

2.2.2 实验材料

2.2.2.1 招募海报

通过公开实验预期的海报招募安慰剂组被试25人。招募海报上写有“多项研究表明，工作记忆训练可以提高人的流体智力”。控制组同样招募了25人，但招募海报以“招募软件调试志愿者”为主要内容（见图1）。

2.2.2.2 量表

智力理论量表（Theory of Intelligence Scale, TIS）测查的是个体认为自身智力是否可以改变的程度，由斯坦福大学教授Dweck等人编制（Dweck,2000）。在该量表中得分较高的个体更相信自身的智力是可以通过后天努力改变的。Foroughi等人（2016）认为个体对于自身智力可塑性的看法会影响其对工作记忆训练效果的期待。本研究中采用的是Dweck（2000）编制的包含8道题目的版本。首先由三位心理学研究生分别将量表译成中文, 再请专业的英语任课教师对翻译进行评定，最终确定中文版的智力理论量表，采用六点量表记分。

认知需求量表（Need for Cognition Scale, NCS）是定量测量“个人参与和享受思考的倾向”的评估工具。Cacioppo和Petty于1982年编制了认知需求量表。原量表包括34道题。两年后，Cacioppo和Petty与Kao合作缩短了此量表，改为18个项目，并用于美国Wabash学院针对博雅教育的研究中（Cacioppo, Petty, & Kao, 1984），该量表的Cronbach α系数为0.90。此量表的中文版由邝怡、施俊琦、蔡雅琦和王垒（2005）进行修订，其Cronbach α系数为0.8916，分半信度系数为0.8987，重测信度系数为0.856，区分效度较好（邝怡等，2005）。

前后测中使用的流体智力测验为在成人智力研究中较为常用的瑞文高级推理测验（APM）（Raven, Raven, & Court, 1998）。参考先前研究（Jaeggi et al., 2008）的分半处理方法，我们在前测中采用APM的奇数题目作为测查流体智力的认知任务，而后测中采用的是偶数题目。在进行流体智力测验时并未给被试限时。

2.2.3 工作记忆刷新训练任务

在前测之后，被试需要使用工作记忆刷新训练任务（Working Memory Updating Tasks）完成一个小时的认知训练。选择该训练任务的原因有两个：1.它是工作记忆训练领域常用的训练范式之一（Shipstead et al., 2012）。2为了保证训练方案的可靠性，需要采用一个拥有较高表面效度的任务。本研究使用的工作记忆刷新训练任务已在多个研究中被采用（Chen, Ye, Chang, Chen, & Zhou, 2017;Xiu, Zhou, & Jiang, 2016; Xin et al., 2014; Zhao, Wang,Liu, & Zhou, 2011; Zhao et al., 2013）。

2.3 结果分析与讨论

2.3.1 量表

两组被试在两个量表上的得分见表1。独立样本t检验表明，两组被试在认知需求量表得分不存在显著差异，t（48）=-0.62，p=0.536。在智力理论量表得分也不存在显著差异，t（4 8）=-0.27，p=0.788。

表 1 安慰剂祖与控制组被试量表得分

2.3.2 流体智力测验

两组被试流体智力测验成绩（见表2）不存在显著差异，t（48）=-1.56，p=0.125。经过单次工作记忆训练之后，两组被试的流体智力测验成绩不存在显著差异，t（48）=-0.44，p=0.664。在前测-后测测的变化量上，两组之间的差异也未达到显著性水平，t（48）=1.37，p=0.177。

表 2 安慰剂祖与控制组被试流体智力测验得分

3 研究2

3.1 研究目的

进一步探讨随着训练次数的增加，训练任务难度的加大，两组被试在远迁移任务中的表现是否会受到招募方式与训练次数的影响。

3.2 研究方法

3.2.1 被试

与实验一的被试相同。

(1) 盾构隧道常见病害之间是相互联系的，往往表现为多种病害同时存在，且随着地铁运营时间的增加病害亦会随之加剧。其中，隧道不均匀沉降是导致产生其他常见病害的重要原因之一，也是判断隧道是否稳定的重要依据之一。

3.2.2 材料

采用与研究一相同的训练程序与流体智力测验。

3.2.3 流程

本实验在实验一的基础之上继续增加工作记忆刷新训练次数，将训练总时长延长3小时左右。当被试总训练次数达到第3次时，两组被试在训练结束后再次进行APM奇数版的测验，以倒序的方式。当总训练次数达到第5次时，再以倒序的方式进行一次APM偶数版的测验。

3.3 结果分析与讨论

3.3.1 训练曲线

如图2所示，随着工作记忆刷新训练次数的增加，两组被试能够适应的任务难度在不断提升，具体表现在两组被试能够接受的刺激呈现时间在不断降低。

3.3.2 流体智力测验结果

对被试流体智力测验成绩（见表3）进行2（组别: 有实验预期组, 无实验预期组）×4（时间:训练前, 训练1次, 训练3次, 训练5次）的重复测量方差分析，Mauchly球形检验结果显示p＞0.05，满足球形假设，因此无需进行自由度矫正。结果显示，时间主效应显著，F（3, 48）=9.17，p＜0.001，η2=0.16。组别的主效应不显著，F（1,48）=0.65，p=0.424，η2=0.01。时间和组别之间不存在显著交互作用，F（3, 48）=1.95，p=0.129，η2=0.04。

表 3 安慰剂组和控制组被试在不同训练阶段的流体智力测验成绩

4 总讨论

本研究通过两个实验考察了公开或不公开实验预期的招募方式对于工作记忆训练效果的影响。实验一的结果显示招募方式的差异并未对个体在远迁移任务中的表现产生显著性影响。实验二的结果表明随着训练次数的增加，被试在远迁移任务中的表现会发生动态变化，但这种变化仅与训练次数有显著性关系，与招募方式无关。

实验一中两组被试在认知需求量表上的结果与先前的研究一致。而在智力理论量表的结果上与先前研究发现不同。与Foroughi等人的研究数据进行对比（安慰剂组平均35分, 控制组平均20分），我们发现在智力理论量表得分的均值上，本研究两组被试的得分非常接近。我们猜测这个结果反映了一定的文化差异，即中国大学生对于自身智力是否可塑的信念在群体水平上较为一致。而在Foroughi等人（2016）的研究中，智力理论量表上的得分差异是作为一个指标来印证公开实验目的的招募方式的确诱发被试产生了更为强烈的期待水平。这一结果或许也说明通过招募广告暗示来诱发被试期待或动机水平的方式并未能达到预期效果。

在实验一中，两组被试在瑞文高级推理测验前测、后测得分上均不存在显著性差异。在两组被试前后测成绩的变化量上也不存在显著性差异。但我们注意到安慰剂组从前测至后测的得分处于上升趋势，而控制组的得分处于下降的趋势。以往研究通过被试的主观报告发现，后测中采用的瑞文高级推理测验偶数版题目在难度上比奇数版更大（王神洋, 王丽萍, 陈宏, 2014; Jaeggi et al., 2014）。在后测任务难度更大的情况下，安慰剂组的被试在平均分上出现了总体上升的趋势，这在一定程度上说明公开实验预期的招募内容可能导致被试对流体智力测验更为重视，并因此投入了更多的认知努力。此外，安慰剂组流体智力测验得分上升而控制组得分下降的现象在之前若干报告了积极结果的工作记忆训练研究中也出现过（Redick, 2015），这种现象可能是由期待及动机因素所造成。

实验二的结果表明，两组被试在4次流体智力测验任务中的表现均未有显著性差异，这说明由公开/不公开实验预期的招募方式带来的期待水平的潜在差异在训练初期，及在更长的训练周期上并未对远迁移任务的表现造成显著性的影响，也就是说我们并未观察到安慰剂效应。该结果表明被试在远迁移效应任务中的表现会随着训练的深入发生变化，但这种变化与训练总时长有关，与可能由招募方式诱发的期待水平不存在显著性的关系。以往研究已经表明，工作记忆训练远迁移效果的产生与训练总时长有直接联系（Jaeggi et al., 2008; Wang, Zhou, & Shah, 2014）。该结果说明训练总时长是工作记忆训练研究设计中的重要一环，它对远迁移任务的影响不容忽视。Foroughi等人（2016）采用Dual n-back程序对两组被试进行训练后发现安慰剂组被试在流体智力测验中的显著提升，而本研究采用工作记忆刷新训练程序对两组被试训练进行训练后仅发现安慰剂组比控制组总体表现更好的趋势，但并未达到显著性水平。这种不一致的结果是否是由采用不同的训练程序所导致的呢？有研究表明，单一的n-back范式（如工作记忆刷新训练）对于流体智力的影响与Dual n-back有着同样的效力（Jaeggi et al., 2010;Studer et al., 2009）。因此，两个研究不一致的结果应该不是由实验设计中选用不同的训练范式所导致的。

在安慰剂效应研究中通常采用指导语或环境设置来诱发被试的期待或动机水平，这就使得实验内容的保密性变得尤为关键。然而在Foroughi等人（2016）的研究中，安慰剂组及控制组被试均招募自同一所学校，这可能会导致实验内容的公开化，并导致被试在后测时采用一些迎合主试的应对策略。而本研究的两组被试招募自两所不同的学校便是为了保证实验内容的严格保密性。相较于Foroughi等人（2016），本研究采用了更为严格的变量控制，因此实验结果更具有说服力。我们认为Foroughi等人（2016）的研究通过诱发被试期待水平所观察到的智力测验得分上的差异仅仅是由两组个体差异导致的偶然现象。然而，如果想更清晰地验证被试期待水平所诱发的安慰剂效应对于实验结果带来的影响，需要扩大样本量进行进一步的研究。

无论是本研究，还是前人的研究都不应忽视将安慰剂效应领域的实验设计思路引入工作记忆训练领域中会带来的一个问题，即训练次数过少导致研究的实质变成考察期待或动机水平对智力测验的影响。工作记忆训练程序在类似的实验设计中只是被视作一个诱发期待或动机水平的线索，它实际的效力可能并未得到有效发挥。已有若干研究强调了工作记忆训练效果对于训练时长的剂量依赖性（dose-dependent）（Jaeggi et al.,2008; Wang et al., 2014）。因此，此类验证是否存在其它影响工作记忆训练效果的混淆变量的研究应该对训练的时长进行更合理的安排。随着如正念训练、视频游戏训练等干预研究领域的兴起，在心理学研究面临可重复性危机的背景之下（Open Science Collaboration, 2015），个体的期待及动机水平对于实验结果的影响值得其他领域的研究者予以关注。