目标导向−习惯学习系统的神经机制*
2018-02-21董晨杰梁晶晶董玉媛郑钟艳彭子文
董晨杰 梁晶晶 董玉媛 郑钟艳 彭子文
目标导向−习惯学习系统的神经机制*
董晨杰1梁晶晶1董玉媛2郑钟艳1彭子文1
(1华南师范大学心理学院, 广州 510631) (2重庆师范大学教育科学学院, 重庆 401331)
行为学习双系统模型认为行为习得涉及两个系统:目标导向学习系统与习惯学习系统, 前者是对行为反应与结果之间的联结进行动态加工的学习系统, 与尾状核、腹内侧前额叶皮质、眶额叶皮质相关; 后者是对刺激−反应关系自动化加工的学习系统, 与壳核、辅助运动区相关。这两种行为学习系统的研究范式主要有结果贬值范式和偶然性降低范式。大量研究发现强迫症、自闭症、成瘾等心理、精神疾病均表现出目标导向学习系统与习惯学习系统缺损, 且这种缺损在患病不同阶段呈现动态变化过程。
目标导向学习系统; 习惯学习系统; 尾状核; 壳核; 刻板行为
在日常生活中, 为适应纷繁复杂的环境, 个体会采用习惯、自动化的动作来提高生活、工作效率, 比如进门顺手脱衣服并挂在固定位置; 警察办案时对罪犯采取的一系列手到擒来的动作。同时, 个体需要抑制某些习惯行为, 有意识地调整自己的行为以应对各种突发状况, 或灵活适应环境的变化, 比如去朋友家拜访时进门顺手脱衣服就不太妥当; 警察办案时的系列反应不宜带入家庭生活。根据行为学习的双系统模型, 这两种不同的行为模式涉及到两个关键的行为学习系统——目标导向学习系统(Goal-direct learning system)和习惯学习系统(Habitual learning system) (Cushman & Morris, 2015; Dolan & Dayan, 2013; Hadj- Bouziane et al., 2013)。
目标导向学习系统也被称为基于模型的学习系统(Model-based learning), 是一种对行为反应与潜在结果间的联结进行深入、动态加工的学习机制, 根据结果的价值变化调整行为反应; 它具有较高的灵活性, 能够迅速适应不断变化的外界环境, 同时也消耗较多的认知资源, 增加工作记忆的负荷(Cushman & Morris, 2015; Dolan & Dayan, 2013; Gęsiarz & Crockett, 2015)。习惯学习系统也被称为无模型学习系统(Model-free learning), 是对先前形成的刺激−反应联结进行强化的结果, 行为反应仅基于刺激信号, 而不考虑结果的改变; 它是一种自动化、高效但不灵活的行为习得机制, 通常占用较少的认知资源(Cushman & Morris, 2015; Dolan & Dayan, 2013; Gęsiarz & Crockett, 2015)。正常情况下, 个体在做出行为反应时其目标导向学习系统与习惯学习系统能够根据外界环境的变化密切配合、灵活切换(Cushman & Morris, 2015; Dolan & Dayan, 2013; Gęsiarz & Crockett, 2015)。例如, 随着过度训练, 个体对任务熟悉度的增加, 目标导向行为会逐渐向习惯行为过渡; 当外界环境发生变化时, 个体又会重新采用目标导向学习系统对行为反应进行调整与转换(Dolan & Dayan, 2013)。对这两种行为学习系统的研究范式主要有两类, 一类是结果贬值范式(Outcome Devaluation, OD), 另一类是偶然性降低范式(Contingency Degradation, CD), 这两种范式都能很好地区分个体的目标导向行为和习惯行为(Balleine & O'Doherty, 2010; Dolan & Dayan, 2013)。
前人关于动物研究、脑损伤研究、脑影像学研究均表明目标导向学习系统和习惯学习系统的神经机制存在一定差异, 前者主要与背内侧纹状体(dorsal medial striatum, DMS)尾状核(caudate)、腹内侧前额叶皮质(ventromedial prefrontal cortex, vmPFC)、眶额叶皮质(orbitofrontal cortex, OFC)、前扣带回皮质(anterior cingulate cortex, ACC)密切相关(Gremel & Rui, 2013; Jahanshahi, Obeso, Rothwell, & Obeso, 2015; Wunderlich, Dayan, & Dolan, 2012); 而后者主要与背外侧纹状体(dorsal lateral striatum, DLS)壳核(putamen)、辅助运动区(supplementary motor area SMA)、脑岛有关(Jahanshahi et al., 2015; Morris et al., 2016; Wunderlich et al., 2012)。神经递质研究显示两种行为学习系统与谷氨酸、γ-氨基丁酸(γ-aminobutyric acid, GABA)等神经递质有关(Fettes, Schulze, & Downar, 2017)。此外, 这两种行为学习系统的紊乱与许多心理问题、精神疾病及神经疾病的临床症状密切相关, 如强迫症(Gillan & Robbins, 2014)、自闭症(Alvares, Balleine, Whittle, & Guastella, 2016)、成瘾(Sebold et al., 2014)、应激(Schwabe & Wolf, 2011)、精神分裂症(Culbreth, Westbrook, Daw, Botvinick, & Barch, 2016)、帕金森症(De Wit, Barker, Dickinson, & Cools, 2011)等。
本文综述了国内外目标导向学习系统与习惯学习系统的研究现状, 主要涉及两种行为学习系统的神经机制及其在心理精神疾病中的应用两方面。首先, 回顾了目标导向学习与习惯学习的研究历史进程及其研究范式; 其次, 分别介绍目标导向学习系统、习惯学习系统的神经机制研究现状; 再次, 从多角度综述了目标导向学习系统和习惯学习系统在心理、精神疾病研究中的具体应用; 最后, 对当前研究进行了总结, 并提出了目前该领域待解决的一些关键问题。
1 目标导向−习惯学习系统研究历程及其常用范式
1.1 目标导向−习惯学习系统研究历程回顾
目标导向学习系统与习惯学习系统最早发端于心理学中行为主义刺激−反应观点与托尔曼认知地图的争论(Dolan & Dayan, 2013; Gęsiarz & Crockett, 2015; Gillan & Robbins, 2014)。早期研究发现随着训练次数和经验的增多, 动物到达目标的时间越来越短, 错误率也越来越低; 刺激−反应理论将此归因于随着练习次数的增多, 刺激与反应之间的联结增强, 行为得到易化; 然而托尔曼则认为动物习得了对环境的“认知地图”, 以此为导向进行反应, 并提出了潜伏学习的观点(Dolan & Dayan, 2013; Isoda & Hikosaka, 2011)。在这一争论的基础上产生了对目标导向学习与习惯学习的初始研究。此时研究者倾向于采用非此即彼的二分观点, 提出目标导向行为需满足(Dolan & Dayan, 2013; Gęsiarz & Crockett, 2015):(1)该行为反映了行为−结果之间的知识, (2)行为结果在决策中起着动机作用。习惯行为需满足(Dolan & Dayan, 2013; Gęsiarz & Crockett, 2015):自动化、计算高效、不灵活等特征。研究者们通过大量精巧的动物行为实验范式, 如CD、OD范式发现动物DMS与DLS分别在两种学习系统中起不同作用(Balleine & O'Doherty, 2010; Gremel & Rui, 2013)。随着技术的进步, 这些行为范式逐渐应用于人类两种行为学习系统的神经机制研究。进一步研究发现人类DMS、vmPFC、OFC、ACC等脑区与目标导向学习相关(Balleine & O'Doherty, 2010); 而壳核、SMA等区域则与习惯学习密切联系(Balleine & O'Doherty, 2010)。前一阶段的丰富研究成果, 促成了对于两种行为学习系统更准确地理论解释。随着计算机建模技术、机器学习等方法的进步, 研究者基于强化学习理论提出基于模型的学习系统和无模型学习系统两种模式, 并对两种模式的竞争与合作提出多种计算模型(Cushman & Morris, 2015; Daw, Niv, & Dayan, 2006), 进行了更深入地研究与探索(详细研究历程见Dolan & Dayan, 2013)。
1.2 目标导向−习惯学习系统常用范式
研究目标导向学习系统与习惯学习系统的常用范式主要有两种:OD和CD范式(Balleine & O'Doherty, 2010)。OD范式分两步(具体见Gillan & Robbins, 2014), 首先, 让被试习得刺激与结果之间的固定联系, 即建立操作性条件学习的过程。其次, 在进行消退测试之前, 撤销掉其中一个刺激对应的结果, 考察被试对于已撤销结果的刺激(贬值结果)与未撤销结果的刺激的反应差异。若被试减少了对贬值结果相应行为的反应, 则其行为是以目标为导向的; 若被试仍继续执行与贬值结果相对应的行为, 也就是说对结果的价值变化不敏感, 即表现出习惯行为。
CD范式中(具体见 Balleine & O'Doherty, 2010; Balleine, Killcross & Dickinson, 2003)引入了独立于行为反应的随机结果。被试首先接受两种操作性行为的训练, 每种行为对应不同的结果。在随后的CD任务中, 撤销其中一种反应−结果之间确定的对应关系, 即无论被试反应与否, 结果总会根据一定的概率出现。接下来为测验阶段, 若被试减少了结果按概率出现的反应, 则认为其行为是目标导向的; 若被试依旧按照训练阶段做出反应, 就认为是习惯行为。
2 目标导向学习系统及其神经机制研究
早期关于动物目标导向学习系统神经机制的研究显示, 额叶缘前皮层(prelimbic cortex)和DMS在动物进行目标导向学习中起重要作用(Balleine & O'Doherty, 2010)。缘前皮层受损的动物无法习得新的目标导向行为, 但不影响已经习得的目标导向行为的表现(Ostlund & Balleine, 2005)。而DMS则在目标导向行为的习得与表现过程中均起到重要作用, 即该区域受损的动物不仅无法习得目标导向行为, 其原有的目标导向行为也会受到影响(Yin, Knowlton, & Balleine, 2004)。此外, Michael等人还发现腹侧纹状体(伏隔核)、OFC与动物的目标导向行为习得密切相关, 其中腹侧纹状体主要与反应−奖赏的习得有关, 而OFC在根据奖赏的变化对行为的调节中起着重要作用(McDannald, Lucantonio, Burke, Niv, & Schoenbaum, 2011)。Gremel和Rui (2013)发现, 在不同的行为学习过程中, DMS、DLS、OFC的神经元活动不同, 在目标导向行为学习中DMS和OFC神经元活动增强, DLS神经元活动减少; 而在习惯行为学习过程中, DLS和OFC神经元活动增强, DMS神经元活动减少。基于此, 研究者认为OFC主要涉及对行为奖赏的评估, 而DMS与DLS与行为策略的调整有关(Gremel & Rui, 2013)。神经递质研究显示, 目标导向学习系统与额叶−纹状体−下丘脑(subthalamic nucleus, STN)−额叶间接通路中GABA、谷氨酸密切相关, 纹状体释放GABA至外侧苍白球(globus pallidus externa, GPe), 减轻其对STN的抑制, 导致STN释放更多兴奋性神经递质到内侧苍白球(globus pallidus interna, Gpi)与黑质密部, 增加苍白球内侧和黑质密部对丘脑的抑制作用, 导致丘脑谷氨酸释放减少, 进而降低额叶的兴奋, 该环路主要参与有意地运动控制、反应抑制(Haber, 2016; Jahanshahi et al., 2015)。
人类的目标导向学习系统主要与DMS、vmPFC、OFC、ACC等脑区密切相关(Balleine & O'Doherty, 2010; Wunderlich et al., 2012)。这些区域均有着大量神经投射连接, 共同组成了与额叶−内侧纹状体认知控制环路(Associative circuit) (Jahanshahi et al., 2015; Postuma & Dagher, 2006)。其中OFC、vmPFC主要负责价值表征和结果评估, 并将价值判断信息传递到基底神经节区域; 而尾状核、苍白球(globus pallidus)、黑质(substantia nigra, SN)等区域则整合来自额叶皮层的信息参与反应选择和行为习得, 并再次将信息反馈至前额叶区域, 共同实现基于目标导向的行为反应过程(Fettes et al., 2017; Haber, 2016)。其具体机制如下:
OFC在表征目标的价值中起重要作用。一方面OFC对目标的价值进行编码, 同时按照任务要求对目标价值的变化进行优次排序(Fettes et al., 2017; Valentin, Dickinson, & O'Doherty, 2007); 另一方面OFC对行为反应的价值进行评估, 并在行为反应中起仲裁作用(Lee, Shimojo, & O’Doherty, 2014)。 Valentin等(2007)采用以食物为奖赏的OD范式, 比较被试在对撤销的奖赏(让被试对这种食物产生饱腹感)与未撤销的奖赏进行反应时其脑区激活的差异, 发现内侧OFC激活降低, 说明OFC对行为结果的价值变化敏感, O'Doherty (2011)也有类似的发现。此外, 也有研究者发现, OFC决定个体在奖励预测误差和虚构错误等社会认知任务中的行为表现(Boorman, O'Doherty, Adolphs, & Rangel, 2013; Jonker, Jonker, Scheltens, & Scherder, 2015)。
vmPFC在目标导向行为习得过程中起着重要作用, 特别是对动态变化的行为结果的价值评估(O'Doherty, 2011; Tanaka, Balleine, & O'Doherty, 2008; Wunderlich et al., 2012), 同时还参与情感整合评估和行为调节(Apergis-Schoute et al., 2017)。De Wit, Corlett, Aitken, Dickinson和Fletcher (2009)等人使用fMRI考察健康成年人在进行OD任务时大脑的活动状况, 结果发现当行为的潜在奖赏发生变化后, 被试在进行决策时vmPFC激活显著增强。Plassmann等人采用支付意愿范式(willingness to pay)通过拍卖的方式, 被试可以购买避免吃厌恶食物的权利, 在自由支付任务中, 出价高低表明对食物的欲望和厌恶程度; 通过考察自由任务的支付情况, 衡量大脑在每次支付决策过程估计的厌恶目标值, 结果发现vmPFC的激活会随着结果潜在价值的改变而改变(Plassmann, O'Doherty, & Rangel, 2010)。
尾状核是额叶−内侧纹状体环路中认知控制子环路的核心成分, 在行为抑制、调节中起作用(Jahanshahi et al., 2015)。以往研究显示DMS参与奖赏加工与操作性行为习得; 也有研究者认为纹状体参与目标导向行为策略选择 (Tricomi, Delgado, & Fiez, 2004)。Wunderlich et al. (2012) 采用基于价值的决策任务(Value-based choice)发现内侧尾状核、丘脑、双侧前脑岛、背内侧前额叶皮质在目标导向学习中激活显著增强, 并进一步指出内侧纹状体更多参与计划加工, 其从属于一个综合的个体行为反应价值的计算系统。Brovelli, Nazarian, Meunier和Boussaoud (2011)采用强化学习任务, 发现尾状核头部与目标导向行为密切相关, 并认为尾状核主要是对行为表现进行监测, 并将这种监测信息与实时的认知控制要求相结合, 进而促进个体表现出灵活性的反应模式; 尾状核受损的病人则无法对行为表现与任务要求的变化进行整合, 故而难以习得目标导向行为。然而, Rostami等人采用制糖厂任务(sugar production factory task, SPF)要求被试在已知工人数、当前生产水平和目标生产水平的情况下, 通过调整参与生产的工人数量来达到并保持指定目标水平的糖产量。结果显示相对于目标值为零的控制组, SPF组被试内侧额叶激活降低, 但并未发现纹状体参与到目标导向的学习任务中, 研究者认为可能是SPF任务及其行为−结果联结的特殊性所致(Rostami, Hosseini, Takahashi, Sugiura, & Kawashima, 2009)。
还有研究发现其他一些脑区也参与目标导向学习的过程中。如与工作记忆相关的右侧下顶叶(right inferior parietal lobule, IPL), 可能与目标导向信息加工过程中工作记忆的负载有关(Rostami et al., 2009); 与执行控制有关的背外侧前额叶皮质, 研究发现用经颅磁刺激(Transcranial Magnetic Stimulation, TMS)干扰背外侧前额叶皮质时, 被试的目标导向学习则会受损, 更倾向于习惯化反应(Smittenaar, FitzGerald, Romei, Wright, & Dolan, 2013)。任务相关功能连接分析(Spreng, Stevens, Chamberlain, Gilmore, & Schacter, 2010)结果也发现, 额顶控制网络可根据任务要求灵活地调节默认网络与背侧注意网络以共同完成目标导向任务,其中默认网络主要涉及自传体计划, 而背侧注意网络主要涉及视觉空间计划。
3 习惯学习系统及其神经机制研究
习惯学习系统主要涉及由壳核与SMA构成的前额叶−背外侧纹状体感觉运动环路(sensorimotor fronto-striatal loop) (Brovelli et al., 2011; Jahanshahi et al., 2015; Wunderlich et al., 2012) 为核心的广泛脑区, 如脑岛、颞中回、体感联合区和中央后回等区域(Ashby, Turner, & Horvitz, 2010; Balleine & O'Doherty, 2010; Isoda & Hikosaka, 2011; Tricomi, Balleine, & O'Doherty, 2009)。神经解剖研究显示, 辅助运动区到壳核的神经投射与习惯行为产生有紧密关系(Ito & Doya, 2015; Postuma & Dagher, 2006; Schiltz, 2006)。来自运动区域的信号投射至壳核经由Gpi、黑质、STN等区域反馈至额叶激发个体的行为反应。脑损伤研究显示, DLS受损的动物在过度训练后仍然对行为结果十分敏感, 无法形成习惯性行为模式, 这说明背外侧纹状体在习惯行为产生中起重要作用(Yin et al., 2004)。神经递质研究显示, 在额叶−纹状体−下丘脑−额叶直接通路中, 额叶和ACC释放兴奋性谷氨酸到纹状体, 促进纹状体分泌大量GABA到GPi与SN, 进而减少两者对丘脑的抑制, 导致丘脑释放大量的兴奋性谷氨酸至额叶皮层, 激发运动和促进行为, 这与习惯学习的产生密切相关(Haber, 2016; Jahanshahi et al., 2015)。
大量关于习惯行为习得机制的研究都是基于动物实验, 为数不多的以人为被试的研究也得出相似的结果。一项基于食物的OD范式研究显示, 在随后的习惯行为倾向测试中, 经过三天过度训练的健康成年被试比简短训练(一天)对照组被试在壳核表现出更强的激活(Tricomi et al., 2009)。此外, 过度训练组被试的壳核与前运动区的功能连接增强(De Wit et al., 2012), 这进一步验证了壳核在人类习惯行为习得中的作用。Morris 等(2016)研究也发现, 壳核、辅助运动区组成的运动环路与习惯行为习得机制密切相关。Wunderlich等(2012)发现外侧后部壳核、脑岛后部延伸至颞中回及体感联合区、中央后回在过度训练的情景中激活更强; 壳核后部的血氧水平依赖信号(blood oxygen level dependent, BOLD)在过度训练情景下做出行为反应时增强, BOLD信号反映了大脑含氧血红蛋白与脱氧血红蛋白比例的变化, 即任务相关脑区神经活动的改变, 研究结果进一步提示了该脑区与习惯学习系统的密切关系。Brovelli等人采用Arbitrary visuomotor learning任务, 被试需要在重复测验中完成视觉线索与手指运动之间的正确关联学习, 每次测验结束均给予结果反馈。结果发现壳核主要负责加工条件刺激在多大程度上导致正确的反应, 是习惯学习系统的核心区域(Brovelli et al., 2011)。
4 目标导向学习系统与习惯学习系统在具体研究中的应用
近年来, 国内外研究者从个体行为学习双系统——目标导向学习系统与习惯学习系统的影响因素角度进行了大量相关研究。通过采用一系列经典的实验任务, 如一部分研究针对特殊群体普遍存在的重复刻板行为(Gillan, Michal, Robert, Phelps, & Daw, 2016), 如强迫症(Gillan & Robbins, 2014)、自闭症(Alvares et al., 2016; Geurts & de Wit, 2014; Salowitz et al., 2013)、焦虑症(Alvares, Balleine, & Guastella, 2014; Alvares et al., 2016)、精神分裂症(Culbreth et al., 2016; Morris, Quail, Griffiths, Green, & Balleine, 2015)、帕金森症(De Wit et al., 2011; Hadj-Bouziane et al., 2013)、肥胖症(Voon et al., 2015)等, 研究显示这些疾病均表现出目标导向系统与习惯系统的失衡。另一些研究针对其他因素, 如老化(De Wit, van de Vijver, & Ridderinkhof, 2014)、应激(Maier, Makwana, & Hare, 2015; Plessow, Kiesel, & Kirschbaum, 2012; Schwabe & Wolf, 2011)等也发现两种学习系统的失调。
4.1 强迫症
强迫症(obsessive-compulsive disorder, OCD)是一种以强迫行为、观念为主要特征的慢性、易迁延性精神疾病, 强迫行为是强迫症最为核心的外显临床表现(Gillan & Robbins, 2014; Pauls, Abramovitch, Rauch, & Geller, 2014)。近年来, 有研究者指出OCD患者强迫行为与目标导向行为系统和习惯学习系统缺损有关(Gillan et al., 2014a, 2014b, 2015, Gillan & Robbins, 2014; Vaghi et al., 2017)。
Gillan等人(2011)采用OD范式发现OCD病人对于行为−结果联结的学习明显弱于正常对照组, 病人组在任务中普遍表现出一种习惯性偏向反应。随后一项基于反事实思维决策任务研究(Gillan et al., 2014a), 通过对行为结果奖赏比例的操纵, 考察病人根据反事实思维有目的地对行为进行调整的能力, 结果也显示与正常对照组相比, OCD患者在进行反事实思维决策时明显存在缺陷。
此外, 鉴于OCD患者大多数行为都属于逃避性反应, Gillan等人(2014b)采用逃避电击OD范式研究发现OCD患者对于已经撤消电击的刺激材料依然表现出过渡的逃避反应, 且这种习惯性逃避反应的习得与尾状核的过度激活密切相关, 尾状核激活强度与习惯反应倾向呈正相关, 即病人习惯性反应倾向越强烈, 则尾状核的激活水平高(Gillan et al., 2015)。Banca等人(2015)采用症状诱发任务范式, 通过呈现并操纵与疾病相关刺激线索, 考察在症状诱发情境下, 两种学习系统的关系, 结果显示, 诱发状态下OCD病人尾状核−前额叶环路激活增强, 同时STN、壳核激活降低, 即症状诱发状态下病人目标导向学习系统与习惯学习系统均存在紊乱。最新研究也发现(Vaghi et al., 2017), 静息状态下额叶−纹状体环路异常与认知灵活性、目标导向学习缺损密切相关。
综上所述, 基于操作性学习的任务显示, 强迫行为的产生是由于目标导向系统的缺损, (具体综述见Gillan & Robbins, 2014)导致病人只能依赖于习惯学习系统进行反应; 而在症状诱发状态下病人目标向系统与习惯系统均表现出异常(Banca et al., 2015)。这说明在不同状态下, 操作性学习任务(Gillan & Robbins, 2014)、症状诱发状态(Banca et al., 2015)、静息状态(Vaghi et al., 2017) OCD患者表现出的行为学习系统失衡可能存在一定变化差异, 即病人的行为学习系统会随着病情及任务状态呈现动态变化。
4.2 自闭症
重复、刻板行为是自闭症(autism spectrum disorders, ASD)患者的核心临床表现之一, 也是自闭症行为干预的关键环节(Ruble, 2001)。有研究者指出ASD患者的重复、刻板行为与目标导向学习系统和习惯学习系统失调有关(Alvares et al., 2016; Geurts & de Wit, 2014; Salowitz et al., 2013)。
Zalla, Labruyere和Georgieff (2006)发现ASD儿童在表征系列目标导向行为时存在缺陷, 这可能导致自闭症患者执行功能缺陷、难以理解他人行为意图。Alvares等(2016)采用以食物为奖励的OD范式发现虽然ASD患者对贬值的食物结果表现出较低愉悦度评分, 但其对结果价值的变化依旧不敏感, 且难以表现出目标导向学习, 说明其刻板行为可能是对行为控制的缺乏所致。Salowitz等(2013)采用目标导向视频游戏范式, 要求ASD儿童在MRI扫描过程中完成视频游戏, 进行目标导向的手腕弯曲或伸展运动, 并根据运动时间和移动范围获得相应得分, 结果显示ASD儿童与正常儿童在行为运动学反应上并未存在差异, 但正常儿童组的反应启动与额叶活动呈正相关, ASD儿童组则表现出负相关, 文中提出要同时采用自动任务操纵与脑影像扫描来研究自闭症儿童目标导向行为的可行性。影像学研究也指出ASD患者的dlPFC (Just, Keller, Malave, Kana, & Varma, 2012; Yasumura et al., 2012)、ACC (Delmonte, Gallagher, O'Hanlon, Mcgrath, & Balsters, 2013)、纹状体(Just et al., 2012; Langen et al., 2012)等区域存在激活异常, 而这些脑区都与目标导向学习系统密切相关。
尽管有研究者发现ASD患者存在目标导向学习系统与习惯学习系统的失调, 但Geurts和de Wit (2014)采用图片材料OD范式发现ASD儿童与正常儿童表现没有差异, 即ASD儿童两种行为学习系统并没表现出失调。鉴于ASD研究的特殊性, 当前研究数量较少, 且结果存在异质性在一定程度上是可以理解的。一方面ASD患者本身伴随着各种异质性的认知、心理问题, 可能导致研究结果的差异(Geurts & de Wit, 2014); 另一方面鉴于大多数研究以儿童、青少年为被试, 无论是行为研究还是脑影像学研究, 无关变量的控制始终存在一定难度(Geurts & de Wit, 2014; Salowitz et al., 2013)。因此, ASD患者刻板行为与两种行为学习系统之间的关系, 以及如何从行为学习角度系统地开发出切实有效的行为干预方法有待进一步研究。
4.3 成瘾
冲动、刻板行为也是物质依赖患者的特征之一, 近年来一些研究者指出物质依赖患者, 如酒精成瘾(Hogarth, Attwood, Bate, & Munafò, 2012; Rose, Brown, Field, & Hogarth, 2013; Sebold et al., 2014)、药物成瘾(Mole et al., 2015; Sjoerds, Luigjes, Brink, Denys, & Yücel, 2014)、烟草成瘾(Hogarth et al., 2015)等行为与目标导向学习系统和习惯学习系统的失衡有关。
Mole等(2015)采用基于CD范式的二阶段序列学习任务, 对第一阶段习得的行为与奖赏结果的概率进行操作, 发现酒精成瘾患者难以根据概率变化对行为进行调整, 即表现出目标导向学习系统缺损, 但其习惯行为反应与正常对照组不存在差异, 酒精成瘾患者从目标导向行为到习惯行为的转变可能与其成瘾行为的逐渐加重有关。Dickinson等人发现相比较于中性刺激, 酒精更易导致习惯反应倾向(Dickinson, Wood, & Smith, 2002)。然而Corbit等人发现酒精暴露能够增加对中性刺激的习惯反应倾向, DMS对于反应的控制逐渐让位于DLS (Corbit, Nie, & Janak, 2012)。Ostlundet等人发现与酒精相关的线索也会对目标导向行为产生不良影响(Ostlund, Maidment, & Balleine, 2010)。酒精成瘾对两种行为系统的影响可能与其对额叶−纹状体环路的作用有关, 特别是前额叶与纹状体脑区(Barker & Taylor, 2014; Everitt & Robbins, 2013)。此外, 有研究者发现药物成瘾患者同样表现出明显的习惯性反应偏向, 这种反应偏向可能源于目标导向系统的缺损, 也可能与习惯性行为系统的活动增强有关(Everitt & Robbins, 2005)。然而, 近期有研究者(Nebe et al., 2017)采用操作性学习范式和任务态磁共振扫描, 发现其与酒精成瘾之间并没有直接关系。
还有研究者指出, 负性情绪不仅会影响被试在OD范式中的目标导向行为, 还会增强其对于烟草的需求(Hogarth et al., 2015)。除此之外, 成瘾与目标导向学习缺损之间的关系还与其他风险因素相关, 如家族史、认知负荷、冲动性特质等(Reiter, Deserno, Wilbertz, Heinze, & Schlagenhauf, 2016)。因此, 从目前已有研究来看, 一方面物质成瘾患者本身存在两种行为学习系统的缺损(Sebold et al., 2014); 另一方面暴露于烟草(Hogarth et al., 2015)、酒精(Corbit et al., 2012)等情景也会导致个体两种学习系统的失平衡。但病人表现出来的冲动、重复行为究竟是由暴露于特殊环境而引起的失平衡, 还是其内在固有的缺失?这有待以后进一步研究。
4.4 压力与应激
压力与应激是当前社会面临的严重问题之一, 大量研究显示处于应激状态下的个体, 认知与决策行为会受到一定损害, 特别是目标导向学习系统与习惯学习系统的转换, 研究结果一致指出压力会损害个体的目标导向学习系统(Maier et al., 2015; Schwabe & Wolf, 2011)。
Schwab和Wolf (2010)等人采用社会评价冷压力测试(socially evaluated cold pressor test)范式, 让被试将手置于低温冰水中, 同时结合社会性评价, 创设应激情景和以食物为奖赏的OD范式发现, 相比较于正常对照组, 压力组被试表现出过度的习惯倾向, 这种习惯倾向与皮质醇的反应密切相关。Plessow等(2012)采用实验者社会压力范式(Trier Social Stress Test), 任务内容包括公开演讲与心算, 并对被试的表现给予社会性评价, 进而创设应激情景, 考察急性心理应激对目标灵活性任务认知控制过程的影响, 并重点关注了下丘脑−垂体−肾上腺轴(hypothalamic-pituitary-adrenal axis, HPA)的压力反应。结果发现, 应激组被试在应激源暴露后立即表现出唾液α-淀粉酶活性升高, 应激停止后10分钟表现出唾液皮质醇升高, 这反映了其交感神经系统和HPA轴中典型的与应激相关活动的增加。处于应激中的个体在任务转换和任务重复之间表现出比控制组更大的差异, 进一步说明急性心理社会压力会影响认知灵活性, 进而损害目标导向行为。此外, Maier等人(2015)对应激对于目标导向学习的神经机制的影响进行了探索, 发现压力会导致个体对于即时奖赏的冲动性反应的增加和认知控制能力的降低, 这种行为模式伴随着vmPFC和杏仁核、纹状体之间功能连接的增强; 同时压力与vmPFC和dlPFC的功能连接减弱有关, 即压力一方面增强即时奖赏的作用, 另一方面降低与长期目标有关的行为控制的效率, 进而导致个体目标导向行为受损。据此, 有研究者指出应激可以调节基于前额叶皮质的目标导向过程和基于背外侧纹状体的习惯过程, 使得操作性行为更偏向于习惯(Schwabe & Wolf, 2011)。
关于应激如何影响目标导向学习系统与习惯学习系统, Schwabe和Wolf (2011)认为应激通过影响个体的学习记忆过程, 如工作记忆、执行控制能力、认知灵活性等进而影响目标导向学习, 其具体机制涉及以前额叶为核心的广泛脑区, 如杏仁体、海马等。应激对目标导向行为的影响是在习得阶段还是反应表现阶段, 有待进一步研究, 具体可参照Schwabe & Wolf, 2011。此外, 慢性应激与急性应激对于两种行为学习系统的影响机制是否相同也尚不清楚。
综上所述, 无论是精神疾病还是伴随特定情景的特殊心理状态, 亦或是两者的交互作用, 均有可能导致目标导向学习系统与习惯学习系统的失衡或缺损, 进而引起重复、刻板等行为。自闭症、强迫症、成瘾等精神疾病所表现出的行为问题是当前干预治疗研究中需要突破的关键环节。通过对这些特殊群体行为学习系统的考察, 将有助于开发各种针对性的干预方案与措施, 也有助于促进对这两种行为学习系统在个体认知心理功能中具体作用的认识。
5 总结
目标导向学习系统与习惯学习系统在个体日常生活中发挥着至关重要的作用。经过半个世纪的研究, 从行为研究到神经探索再到计算机模拟, 人们对于两种行为学习系统的关系与机制有了充分的了解, 区分了前额叶−尾状核环路、辅助运动区−壳核环路在两种行为学习系统中的具体作用。研究者们进一步对特殊群体, 如强迫症、自闭症、成瘾患者等在两种行为学习系统的差异(或表现)进行了探索, 以寻找临床症状与两种行为学习系统之间的关系, 为早期预防和行为干预提供新途径。然而, 当前研究依旧存在一些急待解决的问题:
1) 目标导向学习系统与习惯系统是一分为二的关系吗?有些研究者提出两种学习系统并不是绝对对立的关系, 而是既存在竞争也存在合作(Cushman & Morris, 2015)。那么这种动态的竞争−合作关系是如何演变的?
2) 目标导向学习系统与习惯学习系统相关神经网络是否存在功能与结构上的重叠?有研究者发现腹侧纹状体活动同时反应了两种学习系统活动(Daw, Gershman, Seymour, Dayan, & Dolan, 2011), 两种学习系统存在一定整合的神经机制。从大脑功能整合的角度来看, 大脑活动往往是以网络的方式整体活动。两种行为学习系统的竞争−合作关系在神经机制上是如何体现的?
3) 众所周知, 临床心理与行为表现会随着疾病的进程而变化, 若病人的行为问题由目标导向系统与习惯系统失调引起, 那么这种失调在患病前、发病中、干预前后是否存在动态的变化, 如何变化?这些问题, 均有待后续研究深入探索。
Alvares, G. A., Balleine, B. W., & Guastella, A. J. (2014). Impairments in goal-directed actions predict treatment response to cognitive-behavioral therapy in social anxiety disorder.(4), e94778.
Alvares, G. A., Balleine, B. W., Whittle, L., & Guastella, A. J. (2016). Reduced goal-directed action control in autism spectrum disorder.(12), 1285–1293.
Apergis-Schoute, A. M., Gillan, C. M., Fineberg, N. A., Fernandez-Egea, E., Sahakian, B. J., & Robbins, T. W. (2017). Neural basis of impaired safety signaling in obsessive compulsive disorder.(12), 3216–3221.
Ashby, F. G., Turner, B. O., & Horvitz, J. C. (2010). Cortical and basal ganglia contributions to habit learning and automaticity.(5), 208– 215.
Balleine, B. W., Killcross, A. S., & Dickinson, A. (2003). The effect of lesions of the basolateral amygdala on instrumental conditioning.(2), 666–675.
Balleine, B. W., & O'Doherty, J. P. (2010). Human and rodent homologies in action control: corticostriatal determinants of goal-directed and habitual action.(1), 48–69
Banca, P., Voon, V., Vestergaard, M. D., Philipiak, G., Almeida, I., Pocinho, F., ... Castelo-Branco, M. (2015). Imbalance in habitual versus goal directed neural systems during symptom provocation in obsessive-compulsive disorder.(3), 798–811.
Barker, J. M., & Taylor, J. R. (2014). Habitual alcohol seeking: modeling the transition from casual drinking to addiction., 281–294.
Boorman, E. D., O'Doherty, J. P., Adolphs, R., & Rangel, A. (2013). The behavioral and neural mechanisms underlying the tracking of expertise.(6), 1558–1571.
Brovelli, A., Nazarian, B., Meunier, M., & Boussaoud, D. (2011). Differential roles of caudate nucleus and putamen during instrumental learning.(4), 1580– 1590.
Corbit, L. H., Nie, H., & Janak, P. H. (2012). Habitual alcohol seeking: Time course and the contribution of subregions of the dorsal striatum.(5), 389–395.
Culbreth, A. J., Westbrook, A., Daw, N. D., Botvinick, M., & Barch, D. M. (2016). Reduced model-based decision- making in schizophrenia.(6), 777–787.
Cushman, F., & Morris, A. (2015). Habitual control of goal selection in humans.(45), 13817–13822.
Daw, N. D., Gershman, S. J., Seymour, B., Dayan, P., & Dolan, R. J. (2011). Model-based influences on humans’ choices and striatal prediction errors.(6), 1204–1215
Daw, N. D., Niv, Y., & Dayan, P. (2006). Uncertainty-based competition between prefrontal and dorsolateral striatal systems for behavioral control.(12), 1704–1711.
De Wit, S., Barker, R. A., Dickinson, A. D., & Cools, R. (2011). Habitual versus goal-directed action control in Parkinson disease.(5), 1218–1229.
De Wit, S., Corlett, P. R., Aitken, M. R., Dickinson, A., & Fletcher, P. C. (2009). Differential engagement of the ventromedial prefrontal cortex by goal-directed and habitual behavior toward food pictures in humans.(36), 11330–113308.
De Wit, S., van de Vijver, I., & Ridderinkhof, K. R. (2014). Impaired acquisition of goal-directed action in healthy aging.(2), 647–658.
De Wit, S., Watson, P., Harsay, H. A., Cohen, M. X., van de Vijver, I., & Ridderinkhof, K. R. (2012). Corticostriatal connectivity underlies individual differences in the balance between habitual and goal-directed action control.(35), 12066–12075.
Delmonte, S., Gallagher, L., O'Hanlon, E., Mcgrath, J., & Balsters, J. H. (2013). Functional and structural connectivity of frontostriatal circuitry in autism spectrum disorder., 430.
Dickinson, A., Wood, N., & Smith, J. W. (2002). Alcohol seeking by rats: Action or habit?(4), 331–348.
Dolan, R. J., & Dayan, P. (2013). Goals and habits in the brain.(2), 312–325.
Everitt, B. J., & Robbins, T. W. (2005). Neural systems of reinforcement for drug addiction: From actions to habits to compulsion.(11), 1481–1489.
Everitt, B. J., & Robbins, T. W. (2013). From the ventral to the dorsal striatum: Devolving views of their roles in drug addiction.(9), 1946–1954.
Fettes, P., Schulze, L., & Downar, J. (2017). Cortico- striatal-thalamic loop circuits of the orbitofrontal cortex: Promising therapeutic targets in psychiatric illness., 25.
Gęsiarz, F., & Crockett, M. J. (2015). Goal-directed, habitual and pavlovian prosocial behavior., 135.
Geurts, H. M., & de Wit, S. (2014). Goal-directed action control in children with autism spectrum disorders.(4), 409–418.
Gillan, C. M., Apergis-Schoute, A. M., Morein-Zamir, S., Urcelay, G. P., Sule, A., Fineberg, N. A., ... Robbins, T. W. (2015). Functional neuroimaging of avoidance habits in obsessive-compulsive disorder.(3), 284–293.
Gillan, C. M., Michal, K., Robert, W., Phelps, E. A., & Daw, N. D. (2016). Characterizing a psychiatric symptom dimension related to deficits in goal-directed control., e11305.
Gillan, C. M., Morein-Zamir, S., Kaser, M., Fineberg, N. A., Sule, A., Sahakian, B. J., ... Robbins, T. W. (2014a). Counterfactual processing of economic action-outcome alternatives in obsessive-compulsive disorder: further evidence of impaired goal-directed behavior.(8), 639–646.
Gillan, C. M., Morein-Zamir, S., Urcelay, G. P., Sule, A., Voon, V., Apergis-Schoute, A. M., ... Robbins, T. W. (2014b). Enhanced avoidance habits in obsessive- compulsive disorder.(8), 631– 638.
Gillan, C. M., Papmeyer, M., Moreinzamir, S., Sahakian, B. J., Fineberg, N. A., Robbins, T. W., & De Wit, S. (2011). Disruption in the balance between goal-directed behavior and habit learning in obsessive-compulsive disorder.(7), 718–726.
Gillan, C. M., & Robbins, T. W. (2014). Goal-directed learning and obsessive-compulsive disorder.(1655), 20130475.
Gremel, C. M., & Rui, M. C. (2013). Orbitofrontal and striatal circuits dynamically encode the shift between goal-directed and habitual actions., 2264.
Haber, S. N. (2016). Corticostriatal circuitry.(1), 7–21.
Hadj-Bouziane, F., Benatru, I., Brovelli, A., Klinger, H., Thobois, S., Broussolle, E., ... Meunier, M. (2013). Advanced Parkinson's disease effect on goal-directed and habitual processes involved in visuomotor associative learning., 351.
Hogarth, L., Attwood, A. S., Bate, H. A., & Munafò, M. R. (2012). Acute alcohol impairs human goal-directed action.(2), 154–160.
Hogarth, L., He, Z., Chase, H. W., Wills, A. J., Troisi, J., Leventhal, A. M., ... Hitsman, B. (2015). Negative mood reverses devaluation of goal-directed drug-seeking favouring an incentive learning account of drug dependence.(17), 3235–3247.
Isoda, M., & Hikosaka, O. (2011). Cortico-basal ganglia mechanisms for overcoming innate, habitual and motivational behaviors.(11), 2058–2069.
Ito, M., & Doya, K. (2015). Parallel representation of value-based and finite state-based strategies in the ventral and dorsal striatum.(11), e1004540.
Jahanshahi, M., Obeso, I., Rothwell, J. C., & Obeso, J. A. (2015). A fronto-striato-subthalamic-pallidal network for goal-directed and habitual inhibition.(12), 719–732.
Jonker, F. A., Jonker, C., Scheltens, P., & Scherder, E. J. (2015). The role of the orbitofrontal cortex in cognition and behavior.(1), 1–11.
Just, M. A., Keller, T. A., Malave, V. L., Kana, R. K., & Varma, S. (2012). Autism as a neural systems disorder: A theory of frontal-posterior underconnectivity.(4), 1292–1313.
Langen, M., Leemans, A., Johnston, P., Ecker, C., Daly, E., Murphy, C. M., ... Murphy, D. G. (2012). Fronto-striatal circuitry and inhibitory control in autism: findings from diffusion tensor imaging tractography.(2), 183–193.
Lee, S. W., Shimojo, S., & O’Doherty, J. P. (2014). Neural computations underlying arbitration between model-based and model-free learning.(3), 687–699.
Maier, S. U., Makwana, A. B., & Hare, T. A. (2015). Acute stress impairs self-control in goal-directed choice by altering multiple functional connections within the brain's decision circuits.(3), 621–631.
McDannald, M. A., Lucantonio, F., Burke, K. A., Niv, Y., & Schoenbaum, G. (2011). Ventral striatum and orbitofrontal cortex are both required for model-based, but not model-free, reinforcement learning.(7), 2700–2705.
Mole, T. B., Irvine, M. A., Worbe, Y., Collins, P., Mitchell, S. P., Bolton, S., ... Voon, V. (2015). Impulsivity in disorders of food and drug misuse.(4), 771–782.
Morris, L. S., Kundu, P., Dowell, N., Mechelmans, D. J., Favre, P., Irvine, M. A., ... Harrison, N. A. (2016). Fronto-striatal organization: Defining functional and microstructural substrates of behavioural flexibility., 118–133.
Morris, R. W., Quail, S., Griffiths, K. R., Green, M. J., & Balleine, B. W. (2015). Corticostriatal control of goal- directed action is impaired in schizophrenia.(2), 187–195.
Nebe, S., Kroemer, N. B., Schad, D. J., Bernhardt, N., Sebold, M., Müller, D. K., ... Smolka, M. N. (2017). No association of goal-directed and habitual control with alcohol consumption in young adults., doi: 10.1111/adb.12490.
O'Doherty, J. P. (2011). Contributions of the ventromedial prefrontal cortex to goal-directed action selection.(1), 118–129.
Ostlund, S. B., & Balleine, B. W. (2005). Lesions of medial prefrontal cortex disrupt the acquisition but not the expression of goal-directed learning.(34), 7763–7770.
Ostlund, S. B., Maidment, N. T., & Balleine, B. W. (2010). Alcohol-paired contextual cues produce an immediate and selective loss of goal-directed action in rats., 19.
Pauls, D. L., Abramovitch, A., Rauch, S. L., & Geller, D. A. (2014). Obsessive–compulsive disorder: An integrative genetic and neurobiological perspective.(6), 410–424.
Plassmann, H., O'Doherty, J. P., & Rangel, A. (2010). Appetitive and aversive goal values are encoded in the medial orbitofrontal cortex at the time of decision making.(32), 10799–10808.
Plessow, F., Kiesel, A., & Kirschbaum, C. (2012). The stressed prefrontal cortex and goal-directed behaviour: Acute psychosocial stress impairs the flexible implementation of task goals.(3), 397– 408.
Postuma, R. B., & Dagher, A. (2006). Basal ganglia functional connectivity based on a meta-analysis of 126 positron emission tomography and functional magnetic resonance imaging publications.(10), 1508–1521.
Reiter, A. M. F., Deserno, L., Wilbertz, T., Heinze, H. J., & Schlagenhauf, F. (2016). Risk factors for addiction and their association with model-based behavioral control., 26.
Rose, A. K., Brown, K., Field, M., & Hogarth, L. (2013). The contributions of value-based decision-making and attentional bias to alcohol-seeking following devaluation.(7), 1241–1249.
Rostami, M., Hosseini, S. M., Takahashi, M., Sugiura, M., & Kawashima, R. (2009). Neural bases of goal-directed implicit learning.(1), 303–310.
Ruble, L. A. (2001). Analysis of social interactions as goal-directed behaviors in children with autism.(5), 471–482.
Salowitz, N. M. G., Dolan, B., Remmel, R., van Hecke, A. V., Mosier, K., Simo, L., & Scheidt, R. A. (2013).. 17th World Multi-Conference on Systemics, Cybernetics and Informatics, Orlando, FL.
Schiltz, C. A. (2006). Habitual responding and the dorsal Striatum.(7), 1891–1892.
Schwabe, L., & Wolf, O. T. (2010). Socially evaluated cold pressor stress after instrumental learning favors habits over goal-directed action.(7), 977–986.
Schwabe, L., & Wolf, O. T. (2011). Stress-induced modulation of instrumental behavior: From goal-directed to habitual control of action.(2), 321–328.
Sebold, M., Deserno, L., Nebe, S., Schad, D. J., Garbusow, M., Hägele, C., ... Huys, Q. J. M. (2014). Model-based and model-free decisions in alcohol dependence.(2), 122–131.
Sjoerds, Z., Luigjes, J., van den Brink, W., Denys, D., & Yücel, M. (2014). The role of habits and motivation in human drug addiction: A reflection., 8
Smittenaar, P., FitzGerald, T. H. B., Romei, V., Wright, N. D., & Dolan, R. J. (2013). Disruption of dorsolateral prefrontal cortex decreases model-based in favor of model-free control in humans.(4), 914–919.
Spreng, R. N., Stevens, W. D., Chamberlain, J. P., Gilmore, A. W., & Schacter, D. L. (2010). Default network activity, coupled with the frontoparietal control network, supports goal-directed cognition.(1), 303–317.
Tanaka, S. C., Balleine, B. W., & O'Doherty, J. P. (2008). Calculating consequences: Brain systems that encode the causal effects of actions.(26), 6750–6755.
Tricomi, E.M., Delgado, M.R., and Fiez, J.A. (2004). Modulation of caudate activity by action contingency. Neuron,, 281–292.
Tricomi, E., Balleine, B. W., & O'Doherty, J. P. (2009). A specific role for posterior dorsolateral striatum in human habit learning.(11), 2225–2232.
Vaghi, M. M., Vértes, P. E., Kitzbichler, M. G., Apergis- Schoute, A. M., van der Flier, F. E., Fineberg, N. A., ... Robbins, T. W. (2017). Specific frontostriatal circuits for impaired cognitive flexibility and goal-directed planning in Obsessive-Compulsive Disorder: Evidence from resting-state functional connectivity.(8), 708–717.
Valentin, V. V., Dickinson, A., & O'Doherty, J. P. (2007). Determining the neural substrates of goal-directed learning in the human brain.(15), 4019–4026.
Voon, V., Derbyshire, K., Rück, C., Irvine, M. A., Worbe, Y., Enander, J., ... Bullmore, E. T. (2015). Disorders of compulsivity: A common bias towards learning habits.(3), 345–352.
Wunderlich, K., Dayan, P., & Dolan, R. J. (2012). Mapping value based planning and extensively trained choice in the human brain.(5), 786–791.
Yasumura, A., Kokubo, N., Yamamoto, H., Yasumura, Y., Moriguchi, Y., Nakagawa, E., ... Hiraki, K. (2012).. Neurobehavioral and hemodynamic evaluation of cognitive shifting in children with Autism Spectrum Disorder.(4), 463–470.
Yin, H. H., Knowlton, B. J., & Balleine, B. W. (2004). Lesions of dorsolateral striatum preserve outcome expectancy but disrupt habit formation in instrumental learning.(1), 181– 189.
Zalla, T., Labruyere, N., & Georgieff, N. (2006). Goal- directed action representation in autism.(4), 527–540.
The neural mechanisms of goal-direct and habitual learning system
DONG Chenjie1; LIANG Jingjing1; DONG Yuyuan2; ZHENG Zhongyan1; PENG Ziwen1
(1School of Psychology, South China Normal University, Guangzhou 510631, China)(2School of Education, Chongqing Normal University, Chongqing 401331, China)
The dual system model of behavior learning recognizes two distinct systems: goal-directed system and habitual system. The goal-directed system, encoding the action-outcome behavior, is associated with caudate, ventromedial prefrontal cortex (vmPFC) and orbitofrontal cortex (OFC). The habitual system, concerning stimulus-response behaviors, is associated with the putamen and supplementary motor area (SMA). Research paradigms for these two behavioral learning systems mainly include outcome devaluation and contingency degradation paradigms. A large number of studies have found a dynamic defect of goal-direct learning system and habitual learning system in obsessive-compulsive disorder, autism, addiction and other mental disorders.
goal-direct learning system; habitual learning system; caudate; putamen; stereotyped behavior
2017-05-01
彭子文, E-mail: pengzw@m.scnu.edu.cn
B845
* 国家自然科学青年基金(81201049)、华南师范大学研究生创新计划项目(2016wkxm84)资助。
董晨杰和梁晶晶为本文共同第一作者。