奖励与惩罚的理论与实验研究述评
2015-02-13谷莉,王芹
谷 莉,王 芹
(1.天津师范大学心理与行为研究院,天津 300074;2.国民心理健康评估与促进协同创新中心,天津 300074)
奖励与惩罚的理论与实验研究述评
谷 莉1,2,王 芹1,2
(1.天津师范大学心理与行为研究院,天津 300074;2.国民心理健康评估与促进协同创新中心,天津 300074)
对奖励与惩罚的研究理论、研究范式及其动力性研究结果作以述评,提示在奖惩研究的实验设计中应对奖惩条件的动力性特征予以重视。
奖励;惩罚;动力性
奖励与惩罚相关研究一直是心理学和教育学的热门研究领域。教育实践中如何遵循心理学原理及策略对个体实施合理且有效的奖励与惩罚,对教育者树立正确教育观、提高教育水平和实施心理健康教育等都具有重要的意义。尽管很多研究针对奖惩效价进行了深入的实验研究,但已有研究结果提示人们奖励与惩罚对个体的影响并不是在所有条件下具有相同效果,如奖惩刺激的不同频率、持续时间、对奖惩的敏感性及预期性等都会影响奖惩的实施效果。本文对奖惩的研究理论、研究范式及其动力性研究结果作以述评,以期为相关奖惩研究提供参考,提示奖惩研究的实验设计应对奖惩条件的动力性特征予以重视。
1 奖励与惩罚的研究理论
1.1 外部行为理论
联结派学习理论强调,学习是通过条件作用直接建立于刺激和反应之间的联结过程。其代表性人物桑代克、华生、斯金纳、加涅等人均提出奖惩在学习过程中的作用。如斯金纳认为,所有可以增加反应频率的刺激都能对个体起到强化作用。强化可以分为正强化和负强化。联结派学者强调行为是在强化作用下发生与变化的,强化是反应概率的增加,而惩罚则是反应概率的抑制。尽管斯金纳在其教育观中反对惩罚,但又不否认在行为矫正方面惩罚所起到的有效作用。
1.2 内部动机理论
内部动机奖赏理论派反对行为派的效果说,他们认为复杂的学习过程不能以个体简单外部行为变化来说明,其弱点在于未考虑在学习过程中个体所发生的处理内在信息的必然性。内部动机理论的代表人物蒂西的研究结果表明,当被试进行了一项本来感兴趣的活动并因此而获奖,一旦被试失去得奖机会后,其从事该活动的动机水平显著下降,说明外部奖赏使个体产生了被他人决定感,从而减少了与内部动机相关的自我决定感,导致动机水平下降[1]。此后,一些研究结果显示,外部奖赏影响内在动机的过程及机制并不简单,它还与环境、个体性别及人格特征等诸多因素相关。
1.3 认知派理论
现代认知派学习理论并不认为奖惩对于个体学习具有直接的影响作用,但不否认会对个体行为产生促进或抑制的间接效果。他们强调学习是一个认知加工过程,作为影响学习的重要因素,奖惩作用于个体学习前必然要经过其认知加工过程;他们不认为奖惩会自动地、无意识地加强或减弱反应,反而提出这是一个有意的认知过程,由于奖惩使个体警觉从而影响到学习效果,故奖惩应具有信息反馈作用[1]。但其代表人物诺尔曼指出尽管奖惩具有反馈作用,但却不等同于反馈,这是因为反馈相对于奖惩则更具有比较、检验结果的信息价值。社会学习理论家班杜拉认为虽然外部强化作用于个体行为,但个体对自身的内部强化才是对个体起到的主要作用。内部强化的实质是个体评价自身行为时依照自己规定的行为标准去评价,而这个行为标准不是凭空而定,而是在学习过程中积累内化而得的。可见,班杜拉既认可行为的外部强化,同时又更为强调动机的内部强化,并重视强化外部行为对个体内在动机提高的理论和实践意义。
1.4 生理奖赏理论
1987年,Gray提出的强化敏感理论可解释奖惩作用下行为变化的机制。强化敏感性是指强化刺激物呈现给个体时,能引发个体行为、情绪及个体动机的改变程度和改变趋势。关于强化敏感理念最早可见于巴甫洛夫的研究中,他将兴奋-抑制与唤起/激活(艾森克人格理论中的核心概念)概念联系起来,而后Gray将这种学习和强化的概念与奖惩机制的神经系统加以联系,勾画出个性的心理生理学理论[2]。Gray的强化敏感理论包括三个情绪系统:行为趋近系统对条件性的愉悦刺激较为敏感,由奖励性刺激或停止/消除惩罚性刺激激活,激活后引发趋近行为,与冲动特质相关,并引发正性情绪体验;行为抑制系统对条件性厌恶刺激较为敏感,也对高强度刺激、极端新奇刺激敏感,由惩罚性刺激或停止/消除奖励性刺激激活,激活后引发抑制行为,与焦虑特质相关,并引发负性情绪体验;对抗/逃离系统:对无条件厌恶性刺激敏感,主要对愤怒、恐惧进行调节,与艾森克的神经质特质相关。由于这些概念性神经系统是Gray以动物实验研究的数据结果概括出来的,在解释特定现象时存在局限性,Gray和McNaughton于2000年曾对强化敏感理论进行过修订。而后Fowles则在实证研究基础上提出有关奖惩引发情绪与自主神经关系的生理心理学假设,即奖励条件激活行为趋势系统,表现为心率活动的增加;惩罚条件激活行为抑制系统,则表现为皮肤电活动的增加[3]。
2 奖励与惩罚的研究范式
目前奖励与惩罚的研究范式中的奖惩刺激多是以金钱刺激为主。Anderson等的研究结果表明,即便与任务不相关的金钱奖励刺激也会被个体优先加工处理[4-5]。
2.1 货币激励延迟任务
Knutson提出了货币激励延迟任务。任务要求被试对某特定目标刺激(靶刺激)进行按键反应,而在靶刺激呈现之前,先在屏幕上呈现奖惩线索,来对被试不同效价的偶联性动机进行操控。线索表示为无奖惩、奖励(获得分数)或者是惩罚(失去分数)。如果被试在规定时间内对靶刺激进行正确的按键反应,就会获得奖励或者是避免惩罚。一些研究从不同角度证明货币激励延迟任务对偶联性动机的操控较为敏感,奖惩条件下被试表现出来的反应时降低模式也反映出高水平动机促进个体警觉性的增高[6]。
2.2 赌博任务
赌博任务被认为是与现实生活较为贴近的任务,其中较为经典的研究范式有班格赌博任务、剑桥赌博任务和爱荷华赌博任务等等。如爱荷华赌博任务中,被试需要在获得100美元的大奖励和获得50美元的小奖励中进行选择,其中获得大奖励的同时要长远看到A和B两副不利纸牌(每10张纸牌将失去250美元),获得小奖励的同时要长远看到C和D两副有利纸牌(每10张纸牌将获得250美元)。对被试而言,获得大奖励但长远看到的净损失、获得小奖励但长远看到的净收益之间就构成了价值冲突,在这种价值冲突引发的情感下,被试必需做出理性决策,对即时获得大奖励的欲望进行控制。由于奖励在每次选择后都会出现,是被试可以提前预期的,因而又被称为即时奖励;而选择有利纸牌和不利纸牌后获得的惩罚并不是每次都出现,是被试不能确定的,因此又被称为延迟惩罚。这种任务范式的研究目的在于奖励和惩罚诱发的情绪体验对被试决策的影响。
3 奖励与惩罚的动力性研究
3.1 奖惩的频率
有关奖惩频率是否对儿童青少年的博弈任务产生影响的研究结果显示,提高惩罚频率对儿童区分有利和不利选择具有促进作用[7]。李小晶等[8]的研究也显示,惩罚频率的增加可以使3~5岁幼儿完成博弈任务的成绩有显著提高,而奖励频率的增加似乎对3岁幼儿成绩的提高意义不大,但对4~5岁幼儿的成绩则有显著提高[8]。一项探讨重复性奖惩刺激影响行为抑制和自主生理反应的研究结果显示,与反应时逐阶段增加、抑制失败率逐阶段降低的惩罚组和控制组相比,奖励组在阶段二呈现了反应时增加和抑制失败率减少的显著差异,而在阶段三则又呈现出回落现象,结果不仅表明奖励组被试可在阶段时间内提高行为抑制能力,同时也表明奖励条件下的情绪重复启动效应更大[9]。情绪研究者提出重复性情绪刺激会呈现相关脑区激活程度减弱的现象,即重复启动效应[10]。正性情绪刺激下重复启动效应更容易产生,而负性情绪刺激下重复启动效应则不易产生[11-12]。情绪负性偏向理论可以解释这种现象,即负性信息能使个体获取更多更快的注意资源,因此表现出对惩罚刺激的敏感性[13-14]。如果习惯了重复接收惩罚刺激,将导致个体警戒下降、减少分配到威胁信号上的注意资源,惩罚刺激一旦发生变化时,个体存在无法及时防御而受到伤害的可能性[3]。
3.2 奖惩敏感性及预期性
许多实证性研究运用Carver和White于1988年编制的行为抑制与行为激活量表(BIS/BAS Scale)进行被试筛选,该问卷能有效评测个体奖惩敏感度差异,至今仍是强化敏感理论主要的研究方法之一。有关个体对奖惩敏感性的研究结果显示,奖励敏感性高的个体完成任务的准确率越高是因为个体在任务中参与意愿程度更高,惩罚敏感性高的个体完成任务准确性越高是因为个体在压力状态下其唤醒程度更高[15]。一项脑电研究结果发现,个体奖励敏感性越高所呈现的N2pc脑中反馈脑电负波越大,说明奖励刺激更容易获得奖励敏感性高的个体的注意资源[16]。有研究结果显示,个体对惩罚的敏感性越高,则越容易产生FRN脑中反馈脑电负波[17]。此外,奖惩预期性的脑电研究结果表明,个体把没有到来的预期奖励视为负性刺激,FRN对这种刺激更为敏感,因此显示出更高的反应正确率[18]。
3.3 奖惩持续时间
研究已发现不同情绪性质体验随时间而发生其效能的变化,但目前大部分情绪反应的时间动力性研究对情绪持续时间的个体差异性更为关注。如已有研究发现,外倾及情绪稳定个体表现出消极情绪持续时间较短,积极情绪持续时间较长,而内倾及神经质个体则表现出积极情绪持续时间较短,消极情绪持续时间较长[19-20]。唐淦琦和黄敏儿[21]的研究证明,高幸福感的人群比低幸福感人群负性情绪的持续时间更短。而关注于情绪性质本身的时间动力性研究则多聚焦于情绪反应的恢复时间。Garrett等[22]的研究显示,一组情绪图片呈现16 s后所引发的情绪恢复时间(恢复到基线水平的时间)还需要额外的16 s,因此提出fMRI情绪研究中应对情绪恢复时间充分考虑。电影片段诱发的情绪时间进程研究结果显示,高兴情绪唤醒后,3 min内处于一般偏上的状态且显著高于基线水平,悲伤情绪唤醒后,5 min内处于一般偏上的状态且显著高于基线水平[23]。而从实践意义上看,奖惩的时效性研究与情绪图片、电影所诱发的情绪反应恢复时间相比,更能为教育实践提供实证依据,使教育者认识并遵循奖惩的强化规律,以保证教育教学的科学性和有效性。研究采用停止信号任务探讨奖惩刺激对行为抑制能力和自主生理活动影响的时效性,研究将实验进程按时间发展过程分为5阶段,研究结果显示,奖惩刺激对行为反应时和抑制失败率影响仅在第二、三阶段差异显著,对心率影响的显著差异在第三阶段结束,而对皮电和指温影响的显著差异仍持续到第五阶段。其结果表明奖惩刺激对行为的抑制作用具有时效性,有效时间内表现为仅奖励能提高行为抑制能力;奖惩刺激对心率的影响具有时效性,但对其他生理指标的影响则未显示出时效性[3]。
4 结束语
综上所述,有关奖惩的外部行为理论强调行为是在强化作用下发生与变化,如一个行为发生后,紧跟着实施奖励,这个行为的发生频率就会增加;内部动机理论则强调奖惩改变行为更多是因为个体对外部奖惩内在需求的体现;认知派理论则强调外部奖惩作为反馈信号作用于个体认知,从而进一步对自己产生强化影响,即自我强化;生理奖赏理论则假设脑内存在两类对奖惩刺激敏感的情绪系统,即行为趋近系统和行为抑制系统。尽管有关奖励与惩罚的各理论学派各抒己见,却并不影响实践中人们为控制行为而实施奖惩手段,特别是在学校和家庭教育中,以奖励手段增加或保持好的行为,以惩罚手段减少或消除不好的行为。但值得深思的是当结果无法达到预期时,是否应该重新回到理论层面上进一步探讨,认识到奖惩所引发的行为变化与外部刺激及其刺激各维度、个体内在动机需求、个体对奖惩刺激的认知过程以及奖惩实施者的态度和实施环境等都密切相关。而目前验证奖惩相关理论的实验研究大多以奖惩效价为主要因素探讨个体在奖励和惩罚条件下行为的发生过程及其结果。然而奖惩所引发的情绪体验具有动力性特征,即是一个随时间、强度等变化而发生变化的动态过程。因此,奖惩效价的持续时间、频率、个体对奖惩刺激的敏感性及预期等问题很显然与奖惩效价同等重要,应该在奖惩实验研究中予以充分的重视和考量。
[1] 何先友.现代西方学习心理学赏罚观探析[J].湘潭师范学院学报,1997(2):87-93.
[2] 叶海英.比较情境中的预期背离及与强化敏感的相关:一个ERPs研究[D].广州:暨南大学,2011.
[3] 谷莉,白学军,王芹.奖惩对行为抑制能力和自主生理活动影响的时效性[J].心理学报,2014,46(10):1476-1485.
[4] ANDERSON B A,LAURENT P A,YANTIS S.Learned value magnifies salience-based attentional capture[J].PLoS One,2011,6(11):26-27.
[5] ANDERSON B A,YANTIS S.Persistence of value-driven attentional capture[J].Journal of Experimental Psychology,2013,39(1):6-9.
[6] 朱昭红.情绪影响反应抑制的发展研究[D].天津:天津师范大学,2009.
[7] CRONE E A,BUNGE S A,LATENSTEIN H,et al.Characterization of children's decision making:Sensitivity to punishment frequency,not task complexity[J].Child Neuropsychology,2005,11(3):245-263.
[8] 李小晶,李红,张婷,等.奖惩频率对3-5岁幼儿完成博弈任务的影响[J].心理学报,2010,42(3),395-405.
[9] 谷莉,白学军,王芹.奖惩对行为抑制及程序阶段中自主生理反应的影响[J].心理学报,2015,47(1):39-49.
[10]ISHAI A,PESSOA L,BIKLE P C,et al.Repetition suppression of faces is modulated by emotion[J].Proceedins of National Academy of Sciences of United States of America,2004,101(26):27-32.
[11]HU Z,LIU H,ZHANG J X.Effects of material emotional valence on the time course of massive repetition priming[J]. Journal of Psycholinguistic Research,2010,39(3):199-211.
[12]MARCHEWKA A,NOWICKA A.Emotionally negative stimuli are resistant to repetition priming[J].Acta Neurobiologae Exper-Imentalis,2007,67(1):83-92.
[13]OHMAN A,LUNDQVIST D,ESTEVES F.The face in the crowd revisited:A threat advantage with schematic stimuli[J].Journal of Personality and Social Psychology,2001,80(3):381-396.
[14]VAISH A,GROSSMANN T,WOODWARD A.Not all emotions are created equal:The negativity bias in social-emotional development[J].PsychologicalBulletin,2008,134(3):383-403.
[15]VAN D L,TARIS D,BECKER T W,et al.Reinforcement sensitivity theory and occupational health:BAS and BIS on the job[J].Personality and Individual Differences,2007,42(6):27-38.
[16]QI S,ZENG Q,DING C,et al.Neural correlates of rewarddrivenattentionalcaptureinvisualsearch[J].Brain Research,2013(2):32-43.
[17]KAMBOUROPOULOS N,STAIGER P K.Personality and responses to appetitive and aversive stimuli:The joint influence of behavioural approach and behavioural inhibition systems[J].Personality and Individual Differences,2004,37(6):53-65.
[18]刘耀中,唐志文,叶海英.预期背离下奖励与惩罚的ERPs研究[J].心理科学,2012,35(4):806-810.
[19]HEMENOVER S H.Individual differences in rate of affect change:Studies in affective chronometry[J].Journal of Personality and Social Psychology,2003,85(1):121-131.
[20]SHULMAN T E,AUGUSTINE A A,HEMENOVER S H. Studies in Affect Regulation:Linking Affective Chronometry and Repair Ability[M].Psychology of Moods:New Research,2006.
[21]唐淦琦,黄敏儿.高低幸福感人群的负情绪特点:生理和表情的依据[J].心理学报,2012,44(8):86-99.
[22]GARRETT A S,MADDOCK R J.Time course of the subjective emotional response to aversive pictures:Relevance to fMRI studies[J].Psychiatry Research,2001,108(1):39-48.
[23]李芳,朱昭红,白学军.高兴和悲伤电影片段诱发情绪的有效性和时间进程[J].心理与行为研究,2008,7(1):32-38.
Review of theoretical and experimental researches on reward and punishment
GU Li1,2,WANG Qin1,2
(1.Academy of Psychology and Behavior,Tianjin Normal University,Tianjin 300074,China;2.Center of Collaborative Innovation for Assessment and Promotion of Mental Health,Tianjin 300074,China)
The theoretical research of reward and punishment is elaborated in this paper and research paradigm and its dynamic research results are also analyzed.It is pointed out that future studies should pay attention to the dynamic characteristic of the reward and punishment conditions in experimental design.
reward;punishment;dynamics
B841
A
2095-0926(2015)01-0068-04
2015-01-28
谷 莉(1978—),女,讲师,博士,研究方向为发展与教育心理学、临床心理学.