伏隔核内多巴胺在奖赏和强化学习中的作用❋
2018-10-11许本柯孙安邦陈运才
许本柯 何 云# 孙安邦 陈运才,2△
(1 长江大学基础医学院人体解剖学教研室, 荆州 434000; 2 University of California, Irvine, CA 92697)
多巴胺(dopamine, DA)属儿茶酚胺类神经递质,在许多神经精神疾病的发生、发展中扮演重要角色。多巴胺还参与调控奖赏环路中的诸多重要环节,中脑边缘多巴胺系统更被认为是大脑奖赏系统的神经解剖学基础。多巴胺的功能特征主要取决于多巴胺能神经元胞体的所在脑区以及该神经元轴突终末的投射靶区[1-3]。现重点综述中脑腹侧被盖区多巴胺能神经元的投射靶区—伏隔核的相关研究进展以及伏隔核内多巴胺的动态变化在奖赏相关的目标导向行为和学习过程中的作用。
1 多巴胺奖赏环路
中脑多巴胺能神经元胞体主要集中在黑质和腹侧被盖区(ventral tegmental area, VTA)两个脑区,通过黑质纹状体通路和中脑皮质边缘通路影响神经系统功能。与奖赏相关的中脑皮质边缘通路又可分为中脑皮质通路和中脑边缘通路,由腹侧被盖区及其投射靶区伏隔核(nucleus accumbens, NAc)、前额叶皮质、杏仁核、海马等组成,是多巴胺奖赏环路的主要结构(图1)。该通路是奖赏和强化学习的神经结构基础,参与神经精神疾病及药物成瘾相关的奖赏效应[4-5]。研究显示,给予可卡因、脑刺激或者奖赐性伴侣均可以诱导多巴胺以位相性方式释放到伏隔核,多巴胺的作用及其作用机制存在明显的区域差异[6-7]。
图1奖赏环路与多巴胺在奖赏和强化学习中的作用
在功能方面,伏隔核是边缘系统和锥体外系的整合中枢。伏隔核的多棘神经元不仅与腹侧被盖区的传入纤维形成突触联系,也接收来源于海马和前额叶皮层的轴突终末。因此核和壳内的神经元可以整合来源于多巴胺能以及因此核和壳内的神经元可以整合来源于多巴胺能以及皮质、边缘区域谷氨酸能神经纤维的投射信息,从而协调上传的感知信息(如动机与目标导向)和下行的动作反应,在行为、动机、应激、奖赏以及毒品成瘾等多种功能活动中发挥重要作用[1,2,8,9]。近年来,对伏隔核的研究侧重于其在与奖赏相关的学习编码方面的作用,特别是该核团与其他边缘结构之间的环路链接及其分子调控机制。
2 多巴胺与动机行为、奖赏学习
多巴胺能神经元与伏隔核内的多棘神经元共同参与处理动机与目标导向,建立奖赏机制。在奖赏的处理过程中,核和壳内多巴胺的释放具有明显差异[10]。在动机行为的学习过程中,有研究认为,伏隔核中多巴胺的释放对于阶段性神经编码而言是必需的,也是足够的,但是也有研究结果显示,核和壳内多巴胺释放与学习编码之间没有明确的联系。在动机行为的测试过程中,同步检测多巴胺释放和记录多棘神经元的电生理特征。结果显示,伏隔核中多巴胺的快速释放与核团内某些特定的多棘神经元的活动相关;而且多巴胺释放与多棘神经元活动的强度偶合,即神经元活动强度越大,多巴胺释放越多。当腹侧被盖区多巴胺神经元释放多巴胺到伏隔核时,这些多巴胺如何选择性调节一些多棘神经元,而其他细胞却不受影响。表达不同受体亚型的多棘神经元对多巴胺的反应可能不同。因为D2受体的高亲和力,即使是在多巴胺水平较低时,这些表达D2受体的多棘神经元也可以处于活动状态,而那些表达低亲和力D1受体的多棘神经元则不会被激活;相反,当多巴胺水平较高时,表达D1受体的多棘神经元更易受影响[11]。
3 多巴胺与巴甫洛夫条件反射中的强化刺激
奖赏环路中的许多神经元具有信息编码的功能,参与巴甫洛夫条件反射的建立。当条件反射尚未建立时,给予猴子1个即将获得果汁奖励的信号,当猴子获得该果汁奖励时,多巴胺能神经元的活动最大;然而,当条件反射已经建立,猴子知道该提示信号预示果汁,当接收果汁奖励时,多巴胺能神经元的放电显著减小。这些数据表明多巴胺能神经元编码的不是奖励价值本身,而是预期结果与实际结果之间的误差。为了更好地研究多巴胺能神经元活动在“误差评估”中的作用,研究人员分析了多巴胺释放与评估行为之间的相关关系。当动物“预期”不会获得食物(0),而实际却获得1份(1)时,实际结果与预期之间的差异是+1;如果预期会获得1份食物(1),结果也是1份(1),则误差为0[12]。因此当预期值和实际价值相差甚远时,需要学习或训练的时间就越久。
微透析结果证实,当信号与预测的奖励关联时,多巴胺能神经元投射靶区—伏隔核核内的多巴胺分泌增高,而壳内多巴胺分泌不受影响。在训练大鼠建立条件反射的过程中,伏隔核核内释放的多巴胺逐渐增加,当大鼠学会判断奖赏结果时,核内多巴胺释放量达到最大值;与此同时,大鼠意外获得奖励食物时,多巴胺释放量最大,而当食物是在意料之中时,多巴胺释放较低。这些结果表明,中脑多巴胺环路在价值预测、评估中具有重要作用。急性电解损毁伏隔核的核和壳损害巴甫洛夫条件反射的建立,但不能完全阻断条件反射。神经毒性损毁伏隔核也不损害简单的巴甫洛夫条件反射的建立。但是也有实验结果显示,即使小范围损毁伏隔核的核,也会损害动物的评判能力。上述差异可能是因为当伏隔核受损时,条件反射的建立发生了改变,即病理状态下,条件反射的建立与正常状态下条件反射的建立不一样。有研究结果表明,伏隔核受损后,动物不能正确评判强化信号(如食物)的价值。类似的,选择性损伤伏隔核的核后,大鼠对于强化信号的改变(包括食物数量的改变以及食物种类的改变)不能做出正确回应[13]。因此,在建立巴甫洛夫条件反射时,伏隔核核(壳)的可能作用是整合中性的刺激信号与强化刺激的价值及特性。采用电生理记录,Saddoris等[14]记录了条件反射建立后伏隔核神经元的电生理特征和反应。他们发现,核和壳内的多数神经元参与编码强化刺激信号,核内神经元更倾向于编码中性的刺激信号,参与强化刺激(价值)的评估。
4 伏隔核在决策功能中的作用
一般认为,与决策功能密切相关的大脑结构是背侧纹状体(dorsal striatum)。最近的研究结果表明,伏隔核在价值决策中具有重要作用[15]。在决策动物模型研究中,研究人员将不同的线索信号与不同的价值回馈联系在一起(1个选项对应1个结果),受试动物可以选择不同的线索信号以获取相应的的价值回馈。回馈结果可能是食物数量上的不同,也可能是食物品质上的不同(如香蕉丸或者橙子丸),这些回馈结果对应于不同的按压方式,如按压力度和数量。实验结果表明,损害伏隔核可以破坏动物的正常决策能力。当奖赏结果只是量多、量少的差异时,伏隔核的核可能并不重要,但是损害伏隔核核或者暂时灭活核内神经元时,动物不再对风险高的选择(如需要等候的高回报或者几率很小的高回报)做出回应[16]。损害伏隔核壳似乎不会导致上述影响,损害伏隔核壳后,动物的行为与对照组比较没有明显差异。然而,近期的研究也显示,灭活壳内神经元或者灭活核和壳内神经元后,动物对奖励的敏感度减低。当这些动物在同样回报率下被迫选择少量(2粒)或者大量(4粒或更多)食物时,他们对大量的食物回馈似乎兴趣不大[16,17]。在这些研究中,多巴胺的确切作用目前尚不清楚。
多巴胺释放可能与回馈价值相关联。有假说认为,多巴胺释放增加时动物更易对一些高风险的回馈做出反应。当多巴胺释放时,动物个体更能在客观上做出更好的选择,例如,以较小的努力获得更高的奖赏。在复杂的决策实验中,伏隔核核和壳中的多巴胺释放都参与“信号-结果”的编码处理[18,19];然而,伏隔核核与壳之间的作用似乎有差异。在伏隔核核与壳内的FCSV记录结果显示,核偏向于价值的编码,特别是在参与处理低付出和高回报事件时。此外,在“提示线索-回馈食物”的训练过程中,受试动物伏隔核壳中可以观测到多巴胺释放。与核内多巴胺的作用不同,壳内多巴胺释放在强化学习中的作用尚需进一步研究证实[19]。
5 特定神经元环路联系在动机、奖赏学习中的作用
伏隔核接受来自于前额叶皮层、杏仁复合体的基底外侧核和海马等区域的纤维传入。事实上,来源于每个不同结构的传入信号都参与调节学习过程的不同环节。其中,基底外侧核到伏隔核的纤维通路已经得到较好的研究。基底外侧核神经元可投射到伏隔核的核和壳,不对称损伤该通路明显影响学习的动机。研究人员采用“Discriminative Operant Task” 训练大鼠获得基本的操作技能,其中奖赏信号提示按压食物杆可以获得食物,而对照信号刺激则预示按压食物杆不会获得食物。电生理记录结果显示,与对照信号相比,奖赏信号导致伏隔核核内神经元超强活动。可是,当这些动物的基底外侧核被巴氯芬和麝香草醇短暂灭活后,与奖赏信号刺激相关的神经元活动受损;而且,这种损害发生在同侧基底外侧核被灭活时。当灭活对侧基底外侧核时,伏隔核内的神经元编码不受影响[20]。与此类似,在提示演示期间刺激基底外侧核时,伏隔核中的神经元编码活动增强。尽管基底外侧核神经元同时投射到核和壳,灭活基底外侧核仅仅影响核内神经元的编码活动,而壳内神经元的编码不受影响[21]。
上述损伤实验结果表明,在目标导向行为的学习过程中,基底外侧核和伏隔核之间的联系非常重要,但是,这些研究尚不能清楚显示,基底外侧核对伏隔核的影响是直接的,还是间接的,例如是否通过前额叶皮质神经元的中转。为了区分这些可能性,采用光遗传学技术,结合病毒束路追踪技术,现在可以研究基底外侧核到伏隔核的谷氨酸能投射的特异性作用。将载有光敏受体(ChR2-EYFP)的腺病毒载体注射到基底外侧核转染谷氨酸能兴奋性神经元,因为这些病毒载体表达荧光蛋白EYFP,而且可以顺轴突转运,因此基底外侧核兴奋性神经元的胞体及其投射靶区的轴突终末可以在荧光显微镜下直接观察;同时,因为他们表达光敏受体通道视紫红质(ChR2),ChR2受光照刺激(如1-20Hz, 5-ms light pulses)时,细胞去极化,稳定放电。由于这些特点,研究人员可以在离体脑片和在体动物直接观察基底外侧核神经元兴奋对伏隔核细胞的影响。光遗传学研究结果表明,基底外侧核到伏隔核的兴奋性传入通路对目标导向行为非常重要[21],这也与早期的损毁实验结果一致。灭活基底外侧核神经元影响伏隔核内多巴胺的释放。当基底外侧核到伏隔核的传入纤维被完全损毁时,按理说,基底外侧核功能的变化将不再直接影响多巴胺功能。然而,损毁基底外侧核神经元的功能只是降低伏隔核核内多巴胺的快速释放[20]。因此,有必要进一步明确其他脑区,如前额叶皮层各亚区内的神经元对伏隔核的影响。
6 伏隔核的核和壳的差异
伏隔核在动机-行动中的作用已被确认。但是深层次的细节问题,如强化刺激的价值取向、采取何种行动,以及如何获取最大价值等问题尚需进一步探讨。从解剖学和神经化学的角度来看,核与壳的细胞构筑明显不同,多棘神经元和中间神经元之间的突触联系方式差异显著。迄今为止,尚无令人满意的研究结果或者理论来展示或者解释核与壳之间结构、功能上的特异性及其协同性。
伏隔核的核不仅参与编码巴甫洛夫条件反射,而且涉及目标导向动作的完成以及如何在不同的价值物之间做出取舍。核好象是1个计算中心,接受前额叶皮层、杏仁复合体、海马等的纤维传入,在此处理后,发出指令而表现出不同的行动。因此,当伏隔核的核发生病变时,影响的是动物在预期结果发生改变时做决定的能力。同样的,伏隔核核内多巴胺释放主要与决定和决策相关,而与行动选择本身关系不大。
伏隔核壳在奖赏编码中的作用已经得到肯定。灭活壳内神经元导致动物在评判奖赏结果的大小时出现损害[17]。动物在压杆之前,多巴胺的释放量随着刺激强度的增加而增加[6],表明壳在价值的寻求方面发挥关键作用,即壳的作用体现在追逐回馈的价值,至于成本,似乎不在其考虑范围之内。在正常状态下,核与壳之间的协调活动促成动物在考量成本和报酬后做出判断和选择。神经解剖学上,核内神经元投射到壳,但只有稀疏的纤维从壳投射到核。因此,源于核的信息可能仅仅是“借道”壳而已。随着光遗传学等新技术的应用,人们将会更明白这一复杂的奖赏系统。