反馈促进学习的神经机制
2019-12-15冯成志
冯 霞 冯成志
(苏州大学心理系,苏州 215123)
1 引言
早在心理学认知概念盛行时,就有研究者提出,人类大脑是个反馈控制系统 (Pezzulo& Cisek,2016)。现实生活中反馈无处不在,有时甚至关乎生命安全。如开车下坡时,我们根据坡度、限速和仪表盘上的速度指示制动,根据制动效果做出反应调整。这里潜在的期望是:恰当的反馈会促进学习,让接收者受益。恰当的反馈促进学习得到了很多证据的支持,元分析的结果发现得到反馈的实验组相对于控制组成绩高出0.41个标准差,相当于能够在标准化测验中从第50百分位提高到第66百分位(Wiliam,2011)。反馈不总发挥正面推动作用,Kluger与DeNisi(1996)对600多项研究的元分析发现,总体上反馈效应显著,但有三分之一的研究显示反馈反而降低了学习成绩。直接将反馈与行为结果联系起来是非常混乱的,结果可能相互矛盾。反馈相关神经机制的研究能为理解反馈的作用提供新的视角。
有关反馈研究的脑电指标中,研究者最常选用的是错误相关负波(error-related negativity)(Krigolson, 2018)和反馈相关负波(feedback-related negativity, FRN)(Holroyd & Krigolson, 2007; Peterbugs, Kobza, & Bellebaum, 2016)。 FRN 最初由Miltner在时间估计任务中发现,他当时认为该成分与ERN一样,反映的是错误觉察过程。ERN与FRN有很大相似性:(1)两者都是诱发源引发的负波,只是时间进程上有差异。在实际研究中,诱发相应波形的时间是个范围,且会因实验任务不同而存在差异。ERN的峰值约在错误反应后80ms,FRN是反馈呈现后约 145~300ms之间的负波 (Luft, 2014)。 (2)ERN和FRN都被溯源至前扣带回 (anterior cingulate cortex, ACC)(Walsh & Anderson, 2012)。 (3)对波形的理论解释也存在一定重叠。如,强化学习理论和情绪动机假说,既可见于对ERN的解释(Holroyd& Coles,2002;),也可见于对 FRN的解释(Hajcak, Moser, Holroyd, & Simons, 2007;李鹏,李红,2008)。基于两者的关系,研究者将ERN分为反应 ERN(response-locked ERN)和反馈 ERN(feedback-locked ERN)(李鹏, 李红, 2008), 前者在反应后约0~150ms出现,后者在反馈后约200~300ms出现,反馈ERN即为FRN。尽管命名上进一步细分,但ERN和FRN都定位于中央前回,且都是在错误试次后波幅更大,研究者普遍认为,它们至少是相关的。笔者认为,就“反馈”的含义,FRN是一个更广泛的概念,由于研究者多关注错误反馈,使得FRN在很多研究中与ERN、fERN(the feedback error related negativity)、FN(feedback negativity)实际指的是同一含义(Krigolson,2018),本文关注反馈作用机制,使用FRN描述。
如前所述,反馈加工与学习效果之间的关系是个很大的命题,且行为结果常互相矛盾。事件相关电位的研究表明,加工反馈的方式与学习质量有很大关系(Luft,2014)。本文将从FRN和θ、β振荡的角度回顾以往相关研究中学习者的反馈加工特点,为进一步理解学习任务中反馈加工机制提供帮助。
2 学习任务中的FRN研究
纵观FRN研究,常用的有博弈任务(Gheza,Paul, & Pourtois, 2018;Hajcak et al., 2007)、时间估计任务 (Holroyd& Krigolson,2007;Luft,Nolte, & Bhattacharya, 2013; Luft, Takase, &Bhattacharya, 2014; Pornpattananangkul & Nusslock,2016)、规则学习任务 (Bellebaum & Daum,2008; Bellebaum, Kobza, Thiele, & Daum,2010; Santesso et al.,2008)等。 在各种任务中,作者一方面关注实验所引发的FRN特征;另一方面,关注FRN与行为表现的关系;更进一步地,探讨FRN能否作为高效学习者的标志。
博弈任务要求被试在选项中迫选,每个选择都意味着得失相应价值,被试最终获得的价值可在实验后按比例兑换成奖金,以此激励被试在实验中获得最大化结果的动机。如要求被试按键猜测四个门中隐藏的奖励:线索1、2、3代表获奖的概率分别是25%、50%、75%(未告知被试),反应后给予反馈。与一般博弈任务不同的是,该研究在线索后或被试选择后,询问“你认为自己能赢得这个试次吗”以做出奖励预测。结果表明,选择后做出预测,预料之外的FRN更大,证实FRN的大小与奖励预测偏差程度有关,同时该效应的大小与预期和结果之间的接近性有关(Hajcak et al., 2007)。 在 Sailer(2010)的研究中,成功选择带来更大收益或更小损失的选项为正确反应,结果发现,与未习得者相比,习得者的FRN更小;同时,无论结果类型如何,在整个实验过程中,习得者和未习得者的FRN均有相似程度的降低。但引起FRN降低的原因是不同的:实验后期,习得者FRN降低是由于结果的可预测性,而未习得者FRN的降低不能归因于可预测性,可能是由于动机显著降低引起的。
时间估计任务也常被使用。Holroyd等(2007)通过调控被试做出反应的时间窗长度来控制任务难度,分析预期内外的行为和脑电数据。结果发现,预期中与预期外的反应时和ERP波形差异均显著;预期中反应时/fERN变化小,预期外的变化大,证实fERN振幅反映的是反馈预测误差信号,且该信号大小与被试在任务中的行为变化相关,即非预期试次后行为调整更大,fERN能反映基于反馈信息的行为适应性调整。Pornpattananangkul等(2016)的时间估计实验也证实了EEG指数与行为数据相关,实验中要求被试分别完成“延迟折扣”行为任务和时间估计奖赏脑电任务。结果显示:相对于无奖励试次,奖励试次在奖励预期和奖励结果阶段的EEG活动都增强。而且,EEG指数显著预测了行为表现,表现为:反馈前α抑制,反馈锁定θ、β都与延迟折扣任务中“延迟—大奖励”的偏向相关,表明在奖励学习中,这些EEG指数对学习和调整行为以获得最大化奖励是非常重要的。但就时间评定任务自身而言,Luft的研究结果发现,高低学习者的FRN没有差异(Luft et al.,2013;Luft et al., 2014)。
规则学习任务中,习得任务的规则将利于奖励获得。即一旦习得规则,就能基于规则对结果产生期待。研究结果发现,洞察任务规则后,意料外的负反馈引发更大波幅FRN:习得规则的被试,消极反馈后FRN增加;未习得规则的被试,没有表现出FRN的调节特点(Bellebaum & Daum,2008),说明规则学习中,FRN能反映学习效果。在Santesso的研究中,不是所有的正确反应都会获得奖励反馈,学习被定义为对高概率奖励刺激的反应偏向。结果显示,与未习得者相比,习得者在奖励反馈后表现出更正的(即更小的)FRN(Santesso et al., 2008)。 相对于直接映射到某结果的确定性反馈,概率线索任务更复杂,因为它要求学习者更关注当前与以往反馈结果的关系,并在此基础上调整后续的反应判断。
上述研究利用多种实验任务,从不同角度论证了FRN与行为表现之间的关系,证实了两者之间的相关性。不难看出,虽然以上研究中都涉及对FRN的探讨,但任务类型多样,学习的性质存在差异,对学习的操作性定义也因任务而异。Arbel等提出FRN是学习者使用反馈程度的标志 (Arbel,Murphy, & Donchin, 2014)。 若确实如此,那么,“能从反馈中有效提取信息,促进学习”的高效学习者和“不能从反馈中有效学习”的低效学习者在FRN指标上应表现出差异。但目前这方面的证据有限且不一致。如前所述,发现FRN与高效学习者间存在关系的学习任务多涉及概率因素 (Bellebaum&Daum, 2008; Sailer et al., 2010; Santesso et al.,2008),而不是基于错误的学习,如时间估计任务(Luft et al., 2013; Luft et al., 2014)。 概率学习任务与其它任务相比,不同学习阶段所代表的含义可能不同。概率任务晚期体现的是对学习作用已削弱的预期反馈,而同样的加工阶段在陈述性学习中仍是信息丰富的反馈(Yael& Hao,2016)。已有研究通过改变指导语来控制反馈的信息量,结果表明FRN能反映非预期反馈的信息性(Schiffer,Siletti,Waszak,& Yeung,2017)。这种可能的信息差异与FRN有什么关系是值得进一步考虑的问题。
3 学习任务中的时频特征
由于ERP是对特定“事件”下多个试次平均后的波形特征,并不能囊括锁时/锁位外的信息,并且试次间得出平均和差异波的不同处理方式也可能造成不一致的结果,使得反馈相关电活动的加工特征变得不透明 (Cavanagh,Frank,Klein,& Allen,2010)。分析反馈加工中的振荡特征一方面能挖掘锁时/锁位外的波形信息,提高对数据的利用率;另一方面能避免ERP分析中不同成分相互干扰的问题(Glazer, Kelley, Pornpattananangkul, Mittal, &Nusslock,2018),为认识反馈学习机制提供新的视角(Cohen, Wilmes, & Vijver, 2011)。 在实现强化学习的过程中,前额 θ(4-8Hz)和 β(19-23Hz)波段振荡及它们之间的交互作用非常重要(Vijver,Ridderinkhof, & Cohen, 2011)。
对反馈加工相关θ波的考察主要集中在额中线区域,如前额FCz和Fz点。许多研究发现,错误反馈后200~500ms,前额中区θ波能量升高,它与消极反馈、失去金钱后的学习过程紧密联系在一起(Cavanagh, Zambrano-Vazquez, & Allen, 2012; Cohen, Elger, & Ranganath, 2007; Cohen et al.,2011; Hamel et al., 2018; Luft et al., 2013)。 与ERP成分不同的是,θ波段的活动反映在多种额中央成分中 (如ERN、FRN、N2等),且不受任务类型(如oddball、概率强化学习、反应冲突任务)和刺激性质(新颖、冲突、惩罚、错误)的影响(Cavanagh,Zambrano-Vazquez, et al., 2012)。 也有证据表明 θ与FRN成分的产生有很大关系,主要表现在:FRN和θ波的主要活跃皮层均是包括ACC在内的前额区 域 (Cavanagh & Frank, 2014; Glazer et al.,2018),且FRN和θ均对获奖概率敏感 (Cohen et al.,2007)。研究者认为,反馈后前额中部的θ波活动反映的是同一网络下物理距离较大的不同脑区之间的沟通机制(Glazer et al., 2018)。考察学习过程中的θ波变化时发现,当行为反应是探索性的,即结果有很大不确定性时,θ能量较高;在善于利用不确定性引导探索行为的被试群体中,前额θ能量更大(Cavanagh, Figueroa, Cohen, & Frank, 2012);一旦被试习得联系或者不需要改变或寻找新的策略时,θ 效应减少(Cunillera et al., 2012)。 而且,θ 波与更佳的学习表现有关。在时间估计任务中,高效学习者的额中部在错误反馈后有更大θ波能量;前额中区θ波能预测学习过程中的纠正行为,在善于学习的人中 θ 波能量更高(Luft et al., 2013),结合时间估计的任务特征,习得好反映的是错误反馈后有更高的认知控制。
β波的研究主要集中在左中央和中前额电极位置 (Cohen et al.,2007; HajiHosseini,Rodríguez-Fornells, & Marco-Pallarés, 2012; Vijver et al.,2011)。β的活动反映了奖励相关区域的激活,且在非预期性奖励反应后才增加 (HajiHosseini et al.,2012),这说明β与奖赏促进的学习有一定的关系,是正确反应试次后维持运动系统的信号。以往研究表明,β能量活动似乎与任务性质和反馈特征有比较大的关系。在时间评定任务中,地形图中体现的能量区域与左侧感觉运动区域关联,而在概率学习任务中的能量区域偏前额中部。这可能与时间估计任务后给予的是正确和错误反馈 (Luft et al.,2013;Vijver et al.,2011),而概率学习任务中给予的是奖励反馈(HajiHosseini et al., 2012)有关。 在时间估计任务中,β去同步化与被试在任务中的绩效好坏高度相关。针对反馈信息加工,可能存在两种不同的β能量活动模式:一种是前额与中前额区域与奖励信息加工相关的同步化 (event-related synchronization,ERS:α和β波段在大脑静息状态下表现出波幅增高的电活动)——奖励反馈后β升高;另一种是前额偏左区域与错误信息加工有关的β频率去同步化(Luft, 2014)(event-related desynchronization,ERD——同时进行的信息加工导致α和β波段振荡幅度减低)——错误反馈后β降低。研究者认为,失去/错误反馈相关的β去同步化能驱动学习和随后的调整,以改善绩效。后续研究需要进一步研究积极反馈后β能量增加和消极反馈后β降低的相互独立的机制(Glazer et al., 2018)。
4 反馈促进学习的解释机制
FRN的功能与意义,即FRN反映了何种加工过程和机制的问题,国内已有研究者(李丹阳,李鹏,李红,2018)对近10年FRN的理论解释进行了回顾,在众多假说中,影响较大的主要有强化学习理论(reinforcement learning theory)和预期违反假说(expectancy-deviation hypothesis)。
Holroyd(2002)提出的基于基底神经节—多巴胺生物系统的强化学习假设是解释反馈机制最具影响力的理论。该理论认为,神经系统由多个运动控制器组成,不同运动控制器与不同皮层相联系。当系统确定进行中的事件比预期差时,会引发中脑多巴胺相位降低,减少的多巴胺活动使对前扣带回皮层抑制解除,引发错误试次中产生FRN。前扣带回皮层利用这些预测误差信号去选择、增强对当前任务最合适的运动控制器。
尽管该理论有较大影响力,但关于多巴胺作用的推论,受到不少质疑,主要原因是:目前的研究手段很难在人体上直接作用于多巴胺并观察其变化,更多是对“黑匣子”过程的推论。极少数研究从基因和药理水平上证明了多巴胺系统活动性与FRN大小之间的关系。但多巴胺的药理性操作比较复杂,涉及剂量、被试的新陈代谢水平、荷尔蒙激素水平等,基因操作手段在一般实验环境下较难实现,故在多数研究中验证多巴胺机制存在困难。这也使得Holroyd和Coles模型中有些关键假设目前无法得到检验。
众多用FRN为指标的研究中,都涉及预期偏离、预测误差等类似表述,主要是因为:(1)从对实验结果的直观解释看,很多研究发现“预期外比预期内引发更大FRN波幅”(Bellebaum & Daum,2008;Cohen etal., 2007; Oliveira, McDonald, &Goodman,2007),似乎 FRN就是“预期偏差”的反映。(2)从发生发展过程看,“预期误差”能解释学习的变化过程——学习的核心是学会预测线索,而对预测线索的感知受预期误差调节 (Nasser,Calu,Schoenbaum,& Sharpe,2017)。根据线索,从习得到未习得的变化过程就是预期误差由大变小的过程。(3)“强化学习理论”和“预期违反假说”对FRN的解释只是基于不同角度和形式,两者并不是非此即彼的关系。Heydari等认为,多巴胺相位信号携带了奖励预测误差信息(Heydari& Holroyd,2016)。Oliveira等认为,预期违反假说只是改进了表达方式,与强化学习等其它关于FRN和ACC功能的观点并不冲突(Oliveira et al., 2007)。 近年来,有研究者提出,反馈效价和反馈预期的加工依赖不同的大脑系统(Gheza et al., 2018),FRN 是反馈预期和反馈效价相互作用的产物,存在正负之分的奖赏预测误差(李丹阳,李鹏,李红,2018),该解释与传统的强化学习理论一致。因此,虽然从对实验结果和学习过程的直观解释看,“预期违反假说”有很大的适应性,但需从深层加工机制上给予补充。
此外,FRN不仅反映了强化学习,还涉及情绪加工过程,尽管关于FRN的情绪动机假说现已很少被单独论述,但学习过程中的情绪加工过程不容忽视,对学习过程中反馈机制的解释需完善。有研究者提出,反馈加工应从双加工角度认识 (Sanfey&Chang,2008):一方面是自动加工过程,像强化学习理论和基底神经节—多巴胺模型 (Holroyd&Coles,2002);另一方面,将P300作为学习中控制加工过程的一个指标(Ullsperger,Fischer,Nigbur,& Endrass,2014)。P300在行为调整、处理任务说明、加工工作记忆等方面都发挥一定作用,它似乎比FRN更适合预测适应性行为 (Martín,Appelbaum,Pearson, Huettel, & Woldorff, 2013; Ullsperger et al.,2014)。目前研究中,这两个系统似乎可以独立地加工反馈信息,且对不同的反馈变量敏感,但它们之间也存在相互作用的证据,后续研究可从双加工的视角进一步厘清它们在基于反馈的适应性行为中发挥的作用,建立更具广泛性和解释力的反馈加工模型。
5 研究展望
从内部神经机制研究FRN,对揭示反馈的学习和决策机制很有帮助,并已取得了一些成果,但这对于解释 “人类如何利用反馈信息促进学习和行为改善”这一问题还远远不够。并且还有一些问题待澄清。如,FRN与反馈效价之间的关系如何,即FRN到底对正性还是负性结果更敏感?FRN究竟是积极反馈诱发的正偏向波还是消极反馈诱发的负偏向波,抑或是两者共同作用的结果?已有一些研究者提供证据证明反馈评价并不是调节负性而是调节正性条件下的波形。具体而言,他们发现正确反馈的内在评价过程在N200时间窗内诱发正性波,积极和消极反馈后的ERP差异更多来自于奖赏而不是错误加工过程(Cockburn& Holroyd,2018),建议将原来的反馈错误相关负波更名为奖励正波 (the reward positivity) (Krigolson, Hassall, & Handy, 2014;Proudfit,2015)。如何正确理解奖励正波和反馈负波之间的关系,它们所反映的内在反馈评价过程到底有何异同?这是未来研究反馈评价过程的研究者都必须面对的一个基础问题。关于学习任务中FRN研究的一个重要方面是,FRN对学习的什么特征敏感。比如学习通常被置于两种框架下讨论:一是试误学习,二是强化学习(奖惩)。基于错误的学习常和内隐学习或程序化学习过程相联系,而强化学习更多地包含假设检验的过程(Luft,2014)。如,博弈任务和规则学习任务的加工过程中更多涉及假设检验,而时间估计任务则是基于错误对行为进行调整。学习任务特征与FRN之间的关系究竟如何?再如,随着学习的推进,FRN会相应地如何变化?这种变化是否因学习任务类型不同而存在差异?在数据处理方面,越来越多的研究者意识到,简单分析某个或某些电极点的FRN波形、振幅特征是非常不够的,利用事件相关电位的动态分析法,能从频率、能量、相位等多方面全面分析数据,未来反馈机制的研究中必将广泛使用该方法。尽管不可能所有关注FRN的研究都使用完全相同的方法,但需要清楚所用方法的局限性,并尝试从多种方法去全面理解。