灵长类视觉目标识别的神经机制研究进展

2017-01-15李冰

中国药理学与毒理学杂志 2017年11期

李冰

（军事医学研究院军事认知与脑科学研究所，北京 100850）

视觉是灵长类（包括人类）最重要的信息来源之一，对个体生存至关重要。在自然场景中寻找食物、搜寻同伴和躲避天敌等，均需要对周围环境中的视觉信息作出及时的处理和准确的判断，其中物体识别尤为重要。灵长类能够在复杂场景中辨别出若隐目标，对运动目标有出色的识别能力，且能通过小量样本学习识别新的目标。这些卓越的目标识别能力背后的神经机制是视觉感知与认知研究的核心问题。本文对灵长类视觉目标识别的神经机制研究进展进行简要介绍，并对尚未解决的科学问题和未来的发展方向做出展望。

1 灵长类视觉系统

1.1 灵长类视觉系统的结构

灵长类的视觉系统由视网膜起始，位于眼球底部的视网膜上密布着光感受器，负责将光信号转换为电信号。视网膜神经节细胞将这些电信号，即视觉信息，通过视神经纤维束传入大脑［1］。视觉信息在外侧膝状体分类中转，通过向初级视皮质的投射，传入大脑皮质［2］556-576。大脑皮质中存在2条侧重处理视觉信息不同内容的并行通路：①背侧通路，主要负责处理运动信息；②腹侧通路，主要负责处理特征信息［3-4］。这2条信息通路也被认为是服务于不同的脑功能，即背侧通路处理的视觉信息主要用于指导运动，腹侧通路处理的视觉信息主要用于形成感知。但两者之间并不是完全孤立，而是有着丰富的信息交换。

腹侧通路具有层级结构，自下而上包含初级视皮质（V1）、第二视皮质（V2）、第四视皮质（V4）以及颞下回等脑区［2］。视觉皮质处理信息的复杂程度沿视觉通路逐级增加，V1和V2负责初级视觉信息处理，主要提取图像中的线条朝向、亮度和对比度等简单特征［5］；V2和V4等负责中级视觉信息处理，在初级视觉信息处理的基础上进行整合，提取出轮廓和色块等［6-7］；颞下回负责高级视觉信息处理，形成对物体的整体感知［8-10］。视觉信息在腹侧通路的层级间不仅可通过前馈的方式逐级上传，还可通过反馈的方式实现整体感知对局部特征提取的指导和调控［11］。

背侧通路包含V1、V2、颞中区、内侧颞叶上部区域及后顶叶皮质等脑区［3-4］。其中颞中区和内侧颞叶上部区域主要负责处理物体的运动方向等信息［3，12］，后顶叶皮质则负责对空间的整体认知［13］。

前额叶皮质被认为与视觉目标分类、场景理解、特征注意（feature-based attention）和空间注意等密切相关［14-15］，且与腹侧通路的高级皮质如颞下回和背侧通路的高级皮质如后顶叶皮质之间有着丰富的连接。

此外，灵长类大脑中还存在第二视觉通路，即皮质下视觉通路。视觉信息可由视网膜直接投射到上丘浅层，再通过丘脑枕投射到背侧视觉皮质［2］。

1.2 灵长类视觉系统的特征

灵长类视觉系统的一个基本特征是视觉信息的并行处理。各级视觉相关神经元都具有响应出现在视网膜上特定空间位置的视觉信息的特性，这个空间位置被定义为该神经元的感受野［2］。不同视觉神经元的感受野空间位置不同，大量的视觉神经元可构成对全视野视觉信息的响应和编码。这种空间上的视觉信息并行处理，是灵长类视觉系统实时处理大量视觉信息的基础。此外，灵长类视觉系统中存在侧重于处理视觉信息不同内容的2条并行通路，这使得视觉信息可同时服务于不同的认知功能。

灵长类视觉系统的另一个基本特征是与眼动系统紧密结合。视网膜上光感受器的分布不均匀—视网膜中央凹部分具有高密度的视锥细胞，能进行高分辨率的成像；而外周部分具有较低密度的视锥细胞，只能进行较低分辨率的成像。视网膜中央凹在视网膜上所占的空间比例非常小，只能覆盖大约5°的成像范围［16］。而灵长类的视野可达到上下130°，左右200°［17］。因此，视野中大部分区域在视网膜上的成像是低空间分辨率的。如要以高空间分辨率的清晰成像，就需要将视网膜中央凹移动到相应位置。灵长类通过快速眼动（saccade）来实现视网膜中央凹的快速位移，以大约每秒3～5次的频率对空间中感兴趣的位置（物体）进行精细成像［2］894-916。

灵长类视觉系统的层级结构、信息并行处理方式、前馈和反馈的信息交互方式，以及与眼动系统的密切结合，使其对视觉信息的处理具有准确、高效、鲁棒（robustness）和节能等特征，为灵长类动物适应环境、繁衍生息提供了坚实的保障。

2 目标识别的神经机制

目标识别包括对环境中的物体进行检测、锁定潜在目标，以及对目标物体进行确认等过程。其中，首要环节是将物体与背景进行分割，检测到图像中物体所在的位置。图像分割是视觉认知机制研究的难题之一，其背后的神经机制目前尚不明确。但从大范围优先（global precedence）的实验现象及对其背后的神经机制探讨中，可得到一些关于灵长类视觉系统的图像分割原理的宝贵提示。

2.1 大范围优先与图像分割

大范围优先由Navon［18-19］于1977年首次提出，他在一系列实验中采用了由多个小字母（局部字母）构成一个大字母（整体字母）的图形，被称为Navon图形。他发现人对于整体字母的感知总是优先于对局部字母的感知，这种现象被称为大范围优先。大范围优先现象也在其他灵长类上得到了验证［20］。

关于大范围优先的产生机制，一种解释是视觉系统对不同空间频率的信息加工顺序不同所导致的［21］。大脑优先处理低空间频率的信息，后处理高空间频率的信息。灵长类视觉系统中的大细胞（magnocellular）通路和小细胞（parvocellular）通路分别偏好处理低空间频率和高空间频率的视觉信息。并且，在灵长类大脑中，大细胞通路的对比度敏感性高于小细胞通路，这使得低空间频率的视觉信息可被优先处理［2］。

从解剖学上看，大细胞通路除与小细胞通路一样经由视网膜-外侧膝状体-V1向大脑传递信息之外，还可经由较为快捷的第二视觉通路向皮质传递信息［21］，这可能是大范围优先的另一种机制。无论是通过第一视觉通路还是第二视觉通路，大细胞通路中的信息主要传递到背侧通路的脑区中。因此，如果大范围优先背后的机制是对低空间频率信息的优先处理，那么背侧通路应在其中起重要作用。

关于大范围优先的另一种观点认为，视觉信息的连续性是区分物体与背景的关键，即通过视觉信息的拓扑性质来区分物体与背景［22-23］。功能核磁共振成像发现，左侧颞下回可能在拓扑信息编码中起重要作用［24］。此外，对拓扑信息处理的全脑网络结构与默认网络结构十分相似。

从图像分割的角度理解，灵长类视觉系统可能通过大范围优先的方式，将物体与背景快速分割，找到物体所在的空间位置。而大范围优先现象背后的神经机制，包括相关脑区、神经环路以及神经编码方式等，还有待进一步研究阐明。

当灵长类视觉系统将物体与背景进行分割，提取出物体所在的空间位置后，还需要对空间中的物体是否为感兴趣的目标进行进一步判断。这种判断是大脑内在模板与外界视觉信息进行比对的主动过程，依赖于知觉经验，且与大脑对物体信息的存储方式相关。实验研究发现，灵长类大脑对物体的编码与存储可能是通过相似性聚类实现的。

2.2 相似性聚类是物体编码和储存的重要方式

脑成像研究发现，在颞下回的物体识别、人脸识别区域，偏好相似物体或特征的神经元往往聚集在一起，形成功能柱［25-27］。因此，不同的功能柱可能表征不同类别的物体，使对物体的分类变得容易。同时，电生理研究发现，功能柱内神经元偏好特征存在微小差异，使得对同类物体在不同空间位置、不同大小、不同角度的识别具有鲁棒性。另一方面，功能柱内的神经元偏好差异使得在局部环路内，类别内物体间的差异可被放大，从而也使类别内物体的区分变得容易，这对物体的确认有着重要意义。功能柱结构还可能为学习新物体提供可塑性［28］，使灵长类具有小样本学习的能力。

最近一项神经编码研究发现，面孔识别区域的神经元可对处在高维特征空间中同一轴上的面孔进行编码，而对分布在垂直于该轴的平面上的面孔反应相似（不编码）。借助这种理论，通过对约200个面孔识别神经元的信息进行线性解码，可很好地重构出面孔图像［29］。提示神经元编码特征以及计算相似性的方式可能不是局限于二维平面，而是将特征信息投射到高维空间，并按照优化的规律进行分类编码与储存。

心理物理实验发现，人类在检测图像中是否存在物体、对图像中物体进行分类，这2项行为任务中的正确率和反应时间无显著差异，而对物体进行类别内的确认则需要较长的时间。这提示对物体进行检测和分类在灵长类大脑中可能是同一知觉过程［30］。这进一步提示了聚类可能是物体编码和储存的主要方式。

2.3 锁定目标是一个主动过程

并不是外界所有物体都是灵长类感兴趣的目标。如何从众多物体中进行筛选并迅速找到感兴趣的目标，涉及到大脑的视觉搜索功能，这一过程与视觉注意相关，是灵长类大脑主动收集视觉信息的过程。

灵长类视觉系统可同时对多个空间位置的物体进行并行处理，物体本身的特征显著性［31］与目标物体的特征模板［32-33］共同决定空间中物体的优先级地图（priority map）［34］。视觉系统根据优先级地图对空间进行搜索，这一过程是将特征注意转化为空间注意［13，33，35-37］，从而指导快速眼动，将处于周围视野的潜在目标移动到中央视野，对其进行高分辨率采样，以便进行目标确认。

2.4 目标确认是一个互馈过程

灵长类大脑的视觉加工除信息沿视觉通路逐级上传的前馈机制外，还具有大量由高级皮质向低级皮质的反馈机制参与其中。视觉通路中各层级脑区间的投射多数也是双向的［11，38］。这些反馈连接承载了高级皮质向低级皮质传递的信号。在目标确认过程中，高级皮质产生的视觉模板与低级皮质提取的局部特征信息可通过前馈与反馈连接进行交流和比对［39-40］，以助低级皮质更有的放矢地收集视觉信息，加速目标确认。并且，这种互馈过程还可能是灵长类视觉系统可在复杂视觉环境中找到若隐目标的神经机制。

3 运动目标识别

在自然场景下，物体多数处于运动状态。相对于静止目标识别，运动目标识别有着截然不同的机制，例如通过运动向量差分来分割物体与背景，通过运动轨迹、速度等信息来识别物体等。之前的目标识别研究主要采用静止图片作为研究对象，对运动目标的神经机制研究尚处于起步状态。

灵长类的视网膜对运动信息具有高度的敏感性，因为在运动边界处空间对比度高，且亮度变化较为持续［2］。因此，运动物体的边界信息在视觉信息处理早期便得到编码，这使得运动物体与背景之间的分割较为容易。运动信息主要由大细胞通路传递到背侧视觉皮质进行处理［3-4］；但运动目标的识别也需要对物体的特征信息进行分析。因此，运动目标识别很可能需要2条视觉通路间的信息交互来完成。事实上，除在背侧通路的颞中区和内侧颞叶上部区域脑区发现了编码运动方向信息的神经元和功能区以外［12，26，39］，在猕猴的腹侧通路的V4区域也发现了对运动方向具有选择性的神经元聚集［41］，还在V2区域发现了对运动产生的边界信息具有选择性的功能柱［42］。因此，2条通路都有可能参与运动目标识别，但具体的神经机制需要进一步的研究阐明。以下是结合眼动系统的视觉信息采样方式，对灵长类大脑运动目标识别机制作出的一些推测。

灵长类视觉系统对运动物体的采样可分为2种情况，对于速度较慢的物体，可采取平滑追踪（smooth pursuit）的方式［43-44］，使物体一直处于视网膜中央凹处，连续获得高分辨率的清晰图像，获取其精细特征信息是有可能的［45-46］；而对于速度较快的物体，很难获得高分辨率的清晰图像，可能主要依赖模糊的轮廓特征或运动轨迹对其进行识别。

结合大细胞通路只对瞬变的视觉信息敏感，更可能对快速运动的物体进行低空间分辨率的检测与识别。因此，背侧通路可能主要通过物体的运动信息进行物体识别。而小细胞通路可对持续的视觉信息进行处理，因此可能借助平滑追踪，结合物体的精细特征，对低速运动的物体进行高空间分辨率的识别。

根据以上推测，灵长类的腹侧通路和背侧通路，可能侧重对视觉信息的不同内容进行编码，分别对不同运动速度的物体进行识别。这些推测需要进一步的实验研究来验证。

4 总结与展望

目前的研究已搭建起了灵长类目标识别机制的框架，本文以有限的视角，对其进行了粗略的介绍，希望能为对此感兴趣的同仁提供一些有用的信息。同时，基于对目前研究结果的粗浅理解，引申出以下对灵长类目标识别神经机制的几个问题：①大范围优先的机制是对低频信息的优先处理，还是对视觉信息拓扑结构的表征？②大范围优先的神经环路和编码方式是怎样的？③大范围优先检测出的物体是否可直接被分类？其背后的神经编码机制是什么？④神经元对物体相似性的定义是在何种特征空间？面孔识别神经元的编码方式是否具有普适性？⑤以相似性聚类方式储存的物体信息如何被回溯和使用？⑥灵长类大脑对物体识别的恒定性（invariance）是如何实现的？⑦特征注意与空间注意之间如何相互转化？⑧背侧通路中是否存在对运动物体进行分类或识别的神经元或功能柱？⑨背侧通路和腹侧通路在运动物体识别是否存在功能上的不同？例如对不同运动速度的物体进行识别？⑩2条通路在运动物体识别中提取的特征信息是否不同？希望随着未来技术水平的进步和神经机制实验研究的深入，这些问题可被逐一解答，为理解灵长类大脑的目标识别及其他视觉认知机制提供新的知识和视角。此外，如可将灵长类视觉认知机制进行数学化抽象，并在此基础上开发类脑智能算法，将会为机器视觉带来革命性的飞跃。

［1 ］Field GD，Chichilnisky EJ.Information processing in the primate retina：circurity and coding［J］.Annu Rev Neurosci，2007，30：1-30.

［2］Gilbert CD.The constructive nature of visual processing［M］//Kandel ER.Principles of Neural Science.New York：McGraw-Hill，2013：556-576，894-916.

［3］Nassi JJ，Callaway EM.Parallel processing strategies of the primate visual system［J］.Nat Rev Neurosci，2009，10（5）：360-372.

［4］Rizzolatti G，Matelli M.Two different streams form the dorsal visual system：anatomy and functions［J］.Exp Brain Res，2003，153（2）：146-157.

［5 ］Priebe NJ.Mechanisms of orientation selectivity in the primary visual cortex［J］.Annu Rev Vis Sci，2016，2：85-107.

［6］Sincich LC，Horton JC.The circuitry of V1 and V2：integration of color，form，and motion［J］.Annu Rev Neurosci，2005，28：303-326.

［7］Roe AW，Chelazzi L，Connor CE，Conway BR，Fujita I，Gallant JL，et al.Toward a unified theory of visual area V4［J］.Neuron，2012，74（1）：12-29.

［8 ］Tompa T，Sáry G.A review on the inferior temporal cortex of the macaque［J］.Brain Res Rev，2010，62（2）：165-182.

［9］Desimone R，Albright TD，Gross CG，Bruce C.Stimulus-selective properties of inferior temporal neurons in the macaque［J］.J Neurosci，1984，4（8）：2051-2062.

［10 ］Schwartz EL，Desimone R，Albright TD，Gross CG.Shape recognition and inferior temporal neurons［J］.Proc Natl Acad Sci USA，1983，80（18）：5776-5778.

［11］Rees G，Kreiman G，Koch C.Neural correlates of consciousness in humans［J］.Nat Rev Neurosci，2002，3（4）：261-270.

［12 ］Born RT，Bradley DC.Structure and function of visual area MT［J］.Annu Rev Neurosci，2005，28：157-189.

［13 ］Colby CL，Goldberg ME.Space and attention in parietal cortex［J］.Annu Rev Neurosci，1999，22：319-349.

［14 ］Freedman DJ，Riesenhuber M，Poggio T，Miller EK.Visual categorization and the primate prefrontal cortex：neurophysiology and behavior［J］.J Neurophysiol，2002，88（2）：929-941.

［15］Miller EK，Cohen JD.An integrative theory of prefrontal cortex function［J］.Annu Rev Neurosci，2001，24：167-202.

［16 ］Dowling JE，Boycott BB.Organization of the primate retina：electron microscopy［J］.Proc R Soc Lond B Biol Sci，1966，166（1002）：80-111.

［17 ］Spector RH.Visual fields［M］//Walker HK.Clinical Methods：The History，Physical，and Laboratory Examinations.Boston：Butterworths，1990：565-572.

［18 ］Navon D.Forest before trees：The precedence of global features in visual perception［J］.Cogn Psychol，1977；9（3）：353-383.

［19 ］Navon D.What does a compound letter tell the psychologist′s mind？［J］.Acta Psychol（Amst），2003，114（3）：273-309.

［20 ］Tanaka H，Fujita I.Global and local processing of visual patterns in macaque monkeys［J］.Neuroreport，2000，11（13）：2881-2884.

［21 ］Hughes HC，Nozawa G，Kitterle F.Global precedence，spatial frequency channels，and the statistics of natural images［J］.J Cogn Neurosci，1996，8（3）：197-230.

［22 ］Chen L.Topological structure in visual perception［J］.Science，1982，218（4573）：699-700.

［23 ］Zhou K，Luo H，Zhou T，Zhuo Y，Chen L.Topological change disturbs object continuity in attentive tracking［J］.Proc Natl Acad Sci USA，2010，107（50）：21920-21924.

［24 ］Wang B，Zhou TG，Zhuo Y，Chen L.Global topological dominance in the left hemisphere［J］.Proc Natl Acad Sci USA，2007，104（52）：21014-21019.

［25 ］Tanaka K.Columns for complex visual object features in the inferotemporal cortex：clustering of cells with similar but slightly different stimulus selectivities［J］.Cereb Cortex，2003，13（1）：90-99.

［26 ］Lafer-Sousa R，Conway BR.Parallel，multi-stage processing of colors，faces and shapes in macaque inferior temporal cortex［J］.Nat Neurosci， 2013，16（12）：1870-1878.

［27］Tsao DY，Freiwald WA，Tootell RB，Livingstone MS.A cortical region consisting entirely of face-selective cells［J］.Science，2006，311（5761）：670-674.

［28 ］Woloszyn L，Sheinberg DL.Effects of long-term visual experience on responses of distinct classes of single units in inferior temporal cortex［J］.Neuron，2012，74（1）：193-205.

［29 ］Chang L，Tsao DY.The code for facial identity in the primate brain［J］.Cell，2017，169（6）：1013-1028.e14.

［30 ］Grill-Spector K，Kanwisher N.Visual recognition：as soon as you know it is there，you know what it is［J］.Psychol Sci，2005，16（2）：152-160.

［31］Zhang X，Zhaoping L，Zhou T，Fang F.Neural activities in V1 create a bottom-up saliency map［J］.Neuron，2012，73（1）：183-192.

［32 ］Taubert J，Wardle SG，Flessert M，Leopold DA，Ungerleider LG.Face pareidolia in the rhesus monkey［J］.Curr Biol，2017，27（16）：2505-2509.e2.

［33 ］Mruczek RE，Sheinberg DL.Activity of inferior temporalcorticalneurons predicts recognition choice behavior and recognition time during visual search［J］.J Neurosci，2007，27（11）：2825-2836.

［34］Bisley JW，Goldberg ME.Attention，intention，and priority in the parietal lobe［J］.Annu Rev Neurosci，2010，33：1-21.

［35 ］Bichot NP，Heard MT，DeGennaro EM，Desimone R.A source for feature-based attention in the prefrontal cortex［J］.Neuron，2015，88（4）：832-844.

［36 ］Usher M，Niebur E.Modeling the temporal dynamics of it meurons in visual search：a mechanism for top-down selective attention［J］.J Cogn Neurosci，1996，8（4）：311-327.

［37 ］Mazer JA，Gallant JL.Goal-related activity in V4 during free viewing visual search.Evidence for a ventral stream visual salience map［J］.Neuron，2003，40（6）：1241-1250.

［38］PantazatosSP， YanagiharaTK， ZhangX，Meitzler T，Hirsch J.Frontal-occipital connectivity during visual search［J］.Brain Connect，2012，2（3）：164-175.

［39］Chen M，Yan Y，Gong X，Gilbert CD，Liang H，Li W.Incremental integration of global contours through interplay between visual cortical areas［J］.Neuron，2014，82（3）：682-694.

［40］Yan Y，Rasch MJ，Chen M，Xiang X，Huang M，Wu S，et al.Perceptual training continuously refines neuronal population codes in primary visual cortex［J］.Nat Neurosci，2014，17（10）：1380-1387.

［41］Li P，Zhu S，Chen M，Han C，Xu H，Hu J，et al.A motion direction preference map in monkey V4［J］.Neuron，2013，78（2）：376-388.

［42］Chen M，Li P，Zhu S，Han C，Xu H，Fang Y，et al.An orientation map for motion boundaries in macaque V2［J］.Cereb Cortex，2016，26（1）：279-287.

［43 ］Nagel M，Sprenger A，Hohagen F，Binkofski F，Lencer R.Cortical mechanisms of retinal and extraretinal smooth pursuit eye movements to different target velocities［J］.Neuroimage，2008，41（2）：483-492.

［44］Thier P，Ilg UJ.The neural basis of smooth-pursuit eye movements［J］.Curr Opin Neurobiol，2005，15（6）：645-652.

［45 ］Schütz AC，Braun DI，Gegenfurtner KR.Improved visual sensitivity during smooth pursuit eye movements：temporal and spatial characteristics［J］.Vis Neurosci，2009，26（3）：329-340.

［46 ］Trenner MU，Fahle M，Fasold O，Heekeren HR，Villringer A，Wenzel R.Human cortical areas involved in sustaining perceptual stability during smooth pursuit eye movements［J］.Hum Brain Mapp，2008，29（3）：300-311.