模拟神秘大脑需从哪里“入手”

2016-04-21王长明

机器人产业 2016年1期

关键词：层次化人脑加工

□文/王长明

模拟神秘大脑需从哪里“入手”

□文/王长明

让计算机达到人脑智能程度是人们追求的目标，而人脑又是现实的系统，复制一个复杂系统比创造一个同样复杂的另类系统要容易得多。要实现人类智能，人脑进行信息加工的功能和结构特点值得我们深入思考。

机器人及其智能算法的发展目前已取得很大进步，但与人脑智能还有很大距离。在某些领域，人脑的智能由于更加完美的结构和功能，可以轻松击败最高级的计算机算法。人脑依靠亿万年“学习”出来的能力对人工智能的开发、机器人的研究制造都有重要借鉴意义。

以不变应万变

人和计算机信息处理流程的第一个环节都是信息的获取。面对千变万化的世界，人脑对于出现在其中的物体都能识别，并可以轻松辨认出是否为同一物体。例如对于一个酒瓶，只要人不是从不常见的底部观察它，其无论如何旋转、倾斜，人类都能够识别自如。这种感知觉体验上的“不变性”是人脑视觉信息加工的普遍规律，通过初级视觉皮层（V1）的神经元群体，而不是单个神经元的电活动来完成对物体的表达（即表征），神经元分别对不同位置和朝向敏感，其群体活动可以保证在一定位置和朝向范围内，放电的规律只在群体内部有变化，而对更高级皮层的输出保持不变。这种知觉不变性特点可以有效提取出物体的最核心特征，保证后续加工机制（类比计算机算法）的相对稳定，以应对千变万化的复杂世界。

图1　表征过程实际上完成了前景分割和初步的特征提取功能

表征即加工

对于表征，通俗的理解就是视听觉信息进入人脑的过程。人的视听觉信息的表征不仅仅实现摄像头、话筒的功能。（摄像头、话筒都是按人的规则人工制造，而不是按自然界的规则进行设计）人脑视听觉信息的表征十分讲究，表征的时候就考虑到了加工的方便，表征的时候也不仅仅是有什么就完全表征什么，而是有一定的取舍，根据先验知识对信息做出筛选。仍以酒瓶为例，大脑的神经元群体完成了对酒瓶的形状、位置等特点的电活动表达，从而也自然而然实现了对其背景的分割，对其位置也产生了敏感性，而其他背景等无关信息则被忽略了（除非背景有特殊意义，人脑再对其做深入加工，需要时眼球也会随着转动，注意到背景的某个部分）。表征过程实际上完成了前景分割和初步的特征提取功能。相比之下，机器的视听觉预处理算法目前还不能实现如此细致的信息提取功能。

层次化

视听觉信息的加工往往要经过多个层次，在这一点上人和机器有类似的规律，但人脑的层级比计算机更加复杂，每个层级的功能更特异，层次之间的衔接更紧密。以复杂的视觉场景识别出人脸为例，人的腹侧视觉通路包含V1、V2、V4到颞叶IT区等多个层级，最后视觉信息（经过多次细化）传输到面孔特异性脑区，视觉面孔信息经过逐级的特征提取，从形象到抽象，最后完成了面孔的加工。在这一过程中，面孔的感知（感觉到有无面孔明显特征的存在）、归类（粗略划分是人脸还是其他类别物体而不管细节）、识别（明确确认面孔的存在，区分具体的面孔特异性特征）、辨认（辨别面孔的身份属性）等都有明确且不同的含义，相应的也在不同层级的脑区实现各自功能。而计算机通常要经过预处理、特征提取和模式识别等处理过程，对上述机制的细节差异通常不做过多强调，以最终正确区分为终极目的（无论使用哪一层次的特征）。计算机的算法层次相对简单，每个环节的算法通常只能对特定物体的识别奏效；相比之下，人的识别过程则略复杂，每个层级的功能可以兼顾普遍性和特异性。

值得一提的是，人类在发展进化历程中，为了应对复杂的危险环境，还需要迅速对威胁性刺激做出反应，因而人脑还具备了从较低层级特征直接加工的特殊机制。例如，人脑对威胁性动物的视觉信息格外敏感，在人脑杏仁核的作用下，可直接做出躲避等反应，而无需再按层次完成类别划分和辨别。这种越级的加工效率固然高，但加工精度无法与完整的层次化相比，这就可以部分解释“一朝被蛇咬十年怕井绳”的经验体会。

图2　视觉物体识别层次化加工结构：从V1、V2、V4到颞叶下部通路（即What通路），伴随特征逐级提取

王长明浙江大学工学学士、北京师范大学认知神经科学博士、首都医科大学附属北京安定医院和北京脑重大疾病研究院助理研究员

自下而上 vs 自上而下

人脑的信息加工除了上述层次化流程外，还有特殊的调度机制。在一般情况下，遵循自下而上的加工，即由简单到复杂、由形象到抽象，逐级完成特征提取，语义等高度抽象的信息通常由通路中高层级的脑区完成。除此以外，人的视觉系统还受到“注意”的调节，在主观注意的指引下，按照经验、目标、意图等，特异性地加工某些信息，而忽略其他信息。这种“自上而下”的加工为人类的学习和进化带来巨大优势。例如，在随意观察一群人的过程中，我们通常会逐个扫视，逐级进行分类、识别和辨认，特征明显信息（如光头、高个）通常也是吸引我们首先关注并按层级加工的特征；但当我们被要求有目的地寻找某个人时（即便特征不够明显），我们会采取完全不同的策略，按照“上级”的指示特异性地加工某一类信息，而忽略无关信息。人的视觉和听觉信息加工都体现出自下而上和自上而下兼顾的特征，而计算机的自上而下加工算法（如构建显著性图）相对效率低下、不够智能。

结构决定功能

人脑智能具备的上述优势离不开特异性的结构，即结构决定功能，这是生物学中普遍的结论。在人脑智能和机器智能的对比中，推敲这一普适的结论更有启发性。例如，在人的逐级视觉信息加工中，信息量逐级递减，伴随着高效特征的提取和噪音去除，没有这一层次化结构，自然无法逐级地把信息提纯。而在人脑语义等高级加工中，视觉和听觉信息的内在联系也极为密切。当我们看见苹果的图片时，会自然而然地想起“pingguo”这个声音，听到“Apple”这一声音信息时也会自然复现红色的圆圆的水果的印象。视觉和听觉信息的有机组合，自然离不开特异性的结构，顶叶皮层参与了视觉和听觉信息的整合，这种结构绝非偶然，与其位于颞叶（听觉加工皮层）和枕叶（视觉加工皮层）之间的结构信息关系密切。类似地，我们还可以推敲听觉语言区（威尔尼克区）和运动语言区（布罗卡区）之间的精巧结构布局，前者位于颞上回，近听觉皮层，负责言语理解，而后者位于额下回，近运动区，恰好负责言语表达（自然需要嘴部运动参与），此外，两个脑区间还存在弓状束，承担起信息传输的光缆的职责。这样的结构安排完美地将听和说的功能截然分开，并行工作，又保证密切联系。

让我们再回忆一下自上而下加工的例子，人和计算机视觉进行复杂场景的物体加工都可以使用显著性图（大尺度的整体特征），指导进一步的精细信息识别，但人在结构上还有眼球，这是计算机所没有的。人类有两个眼球，还可以快速转动，这种眼球运动常常不需要人脑有意识地参与。目前，计算机的摄像头是否可如此灵活地转动？与控制系统的信息交流是否可如此顺畅？“上级”的调度是否可如此灵活？人的优势恐怕与结构上的特点不无关系。

学习，不断学习

对人脑认知功能及其对应的结构特点有了大概的了解后，一个更大胆的假设是，人脑这样的结构和功能是学习出来的。是经过亿万年的进化，暴露于复杂视听觉环境中，经过不断学习（经验）、淘汰（自然选择）、积累（遗传）实现的。就学习的本质而言，人的学习和机器的学习并无质的差别，都依赖于从样本中总结经验并保持（不考虑迁移、类比、联想）。与热门的深度学习算法不太一致的地方在于，人脑学习的内容不仅仅是参数，更为了降低能量消耗，大幅度优化层次化结构，即结构和参数一起学；并且将学习的结果（优化的结构和分化的功能）以遗传的形式保持下来，这样可以使后代不断受惠于亿万年的学习和训练。比照这样高强度的、长时间的、超大样本的学习，现有的机器学习算法恐怕还没有机会如此实践，不过我们有理由相信，随着各行业大数据技术的发展，模拟人的进化过程，让机器不断学习，优化出人类层次化的加工结构并负责类似的功能，进一步整合视听觉的特征，产生跨模态的抽象概念是有可能实现的。

机器人？机器？人？

使机器人具有类似人的智能，是机器人领域的研究者长久以来的梦想。学习、借鉴人脑智能的优势，无疑会促进这一目标的实现，而大样本量的不断学习以及层次结构和参数一起学习的策略，更对机器人的研究开发具有现实的指导意义。朝着这一目标不断努力，有朝一日机器人也许会产生抽象的概念。自动化的加工和连接式存储的实现则是联想、推理和迁移的基础，加之自上而下调节的实现，使得机器人可能具有人类意义下的注意功能，这一切的有机运行，伴随着机器对自身加工好坏的实时反馈和元认知（类似人认知过程的认知），对自身存在和运行状态的觉知则可能是自我意识的基础。那么也许有一天，我们会进一步检测出机器特有的“意识”。机器人的功能不会完全等同于人，机器人发展的趋势也难以预测。但现阶段机器人服务的对象还是人，这意味着机器人的结构和算法开发的最终检验标准是人，即无论是自然语言处理还是机械手臂，人们不可避免地按照人的尺度、规则和效率来要求机器。既然如此，那么具有类似人的结构和功能特点的机器人，可能是让机器人的服务更符合人类需求的必由之路。