视觉认知计算模型综述

2018-02-08黄凯奇谭铁牛

中国学术期刊文摘 2018年18期

黄凯奇谭铁牛

1 引言

计算机视觉的中心任务是采用计算机对图像进行理解和分析来获取有效信息。图像包括单幅图像、多幅图像和图像序列（即视频图像）。但是，目前的计算机视觉与人类视觉仍存在较大差异。科学家常以“过马路”这个简单的视觉任务为例来说明这一点。现代高速计算机的计算能力已达到相当惊人的程度，但计算机视觉系统却无法指导过马路。很多研究者都将注意力集中在传统的基于统计学习等方法上，却忽略一个事实：人类视觉系统大大超过了当前最优秀的基于统计学习等传统方法的视觉系统。特别在处理一些恶劣环境下的视觉信息时，传统方法遇到较大困难。鉴于此，如何从视觉认知的角度去研究和设计计算机视觉算法成为一项迫切而又富有挑战性的任务。

认知科学及其信息处理方面的研究被列入国际人类前沿科学计划（Human Frontier Science Program，HFSP）中，被国际上看成是和美国的战略防御计划、欧洲的尤里卡计划（Eureka Plan）鼎足而立的3个重要规划。国外几乎所有的一流大学和研究所都建立相关研究机构进行视觉认知方法的研究，如美国麻省理工学院（MIT）的脑认知科学系人工智能实验室，美国加州理工学院（Caltech）的计算与神经系统组、德国马普协会等。将认知应用于视觉分析使他们取得优于传统方法的成绩。

国内的主要研究机构也分别从神经生物学、认知心理学、机器学习、模式识别等方面对此开展研究，这些研究机构包括中国科学院生物物理研究所、北京师范大学、北京大学、清华大学、中国科学院自动化研究所、复旦大学、西安交通大学等。2008年起，在国家自然科学基金委员会的支持下，国内研究机构开展认知重大计划“视听觉信息的认知计算”，并将其结合智能车的应用，于2009年—2011年组织3次“中国智能车未来挑战赛”，从而取得长足进展。国家 973计划从20世纪 90年代就开始支持相关研究，其研究重点也从认知、知觉成像机理逐步发展到海量非结构化数据、可视媒体的计算模型、视频编码等，也取得一些在国际上有一定影响力的成绩。

长期以来，人们对于认知过程的理解基本上还停留在直觉上，没有形成准确的科学定义。而与此同时，信息科学尤其是计算机科学正面临着高速发展中信息高速获取和海量异构数据等的挑战。借鉴人类处理复杂信息的认知机理去面对挑战是一种必然趋势，同时借助于计算机科学强大的计算能力，也能为认知科学的发展提供系统科学的计算依据。视觉认知的计算模型作为这一有效手段应运而生，并随着认知科学和计算机科学的发展受到越来越多的重视。

视觉认知的生物模型，近年来在相关国际期刊都有大量最新研究成果。而对于视觉计算模型，从2005年开始在 CVPR、ICCV、ECCV等计算机视觉会议上也都有相关最新研究成果，包括纯计算模型、决策计算模型等。本文并不试图全面介绍所有的视觉计算模型，主要回顾一些具有一定历史的模型，根据研究的感受对视觉认知计算模型发展的一些理解（目前视觉认知的研究不再仅围绕初级视皮层的生物模型和计算模型研究，涉及到短时记忆、学习、整合加工等更深层次的研究，本文仅针对个人理解提出生物模型和计算模型相互影响和结合的一些看法），归纳其发展的两条主线：生物视觉机制（以生物学视觉分析为基础的视觉研究往往侧重视觉皮层细胞和神经元的感知过程，目前对生物学认知过程的理解还没有达到人类所期望的高度，本文也仅是对部分有代表性的工作进行归纳）和视觉计算理论，从这两方面对较典型的计算模型的发展进行相关介绍，最后给出对视觉认知计算模型的一些思考。

2 视觉认知计算模型

视觉认知计算模型可称为可计算的视觉认知模型，其目的是在人和计算机之间构建桥梁，让计算机能完成人类大脑所完成的一些工作。人类具有最为鲁棒的视觉系统，能在各种复杂环境下完成视觉识别任务，而计算机具备较强的计算能力，其计算能力已达到千万亿次。视觉认知计算模型就是通过对人类视觉认知机理的了解，完成视觉机理的数学建模并通过计算机得到实现，从而实现高效、鲁棒的智能大脑系统。视觉认知计算模型的研究作为典型的交叉性领域，和计算机视觉、认知科学及模式识别等领域的进展息息相关，也是目前这些领域的研究热点。由于迄今为止，人类视觉系统的工作机理还没有完全弄清楚，这一研究还是任重道远。

3 视觉认知计算模型的发展

3.1 视觉认知计算模型和计算机视觉

虽然认知的计算方法可追溯到20世纪40年代维纳的控制论、50年代图灵的人工智能和香农的信息论，但谈到视觉认知计算模型得到重视和发展就不得不提到计算机视觉的研究。早期的计算机视觉研究主要集中于积木世界的理解及与此有关的底层视觉信息处理。但由于缺乏底层视觉信息处理提取的理论指导，这一研究遇到瓶颈。到20世纪70年代末，美国麻省理工学院（MIT）人工智能实验室的Marr立足于计算机科学，总结心理物理学、神经生理学、临床神经病学等在视觉研究上已取得成果，在此基础上，提出视觉计算理论，为机理的研究提出理论指导。他从计算理论、计算算法、计算机制3个层次对视觉信息处理任务进行研究和区分，并对视觉任务中的表象描述定义为一个三维重建的过程。这一描述受到以美国马里兰大学计算机视觉研究实验室的 Aloimonos为首的目的主义学派的置疑，并引发20世纪90年代计算机视觉领域多位学者的大讨论。虽然最后对于计算机视觉的目的是否是三维重建没有明确的结论，但进一步明确神经生理学等认知科学对计算机视觉发展的重要性，从视觉认知出发去研究计算机视觉这一观点逐步被普遍接受。此后，出现越来越多关于视觉认知的计算模型作为联系视觉认知和计算机视觉的桥梁的研究。

总体来说，视觉认知的计算模型应满足模拟人类认知特性的要求同时还强调可计算性。因此，其来源主要可归纳为两大类：基于生物视觉机制和基于视觉计算理论。从归纳出的计算模型和生物视觉机制与视觉计算理论的关系，可看出生物视觉机制的发展既能直接用于建立视觉计算模型，同时也推动视觉计算理论的发展，具有重要地位。本文将分别从生物视觉机制和视觉计算理论方面介绍视觉计算模型的发展。

在表达机制—理论—模型三者之间的关系中，机制是最为重要的创新源泉，生物视觉机制对于视觉计算理论有重要的促进作用。生物视觉机制的发现是计算理论产生的源泉，只有生物视觉机制新的发现，才能促进视觉计算理论的发展，有新的生物视觉机制的发现，一般会产生新的视觉计算模型。但并不是有了生物视觉机制的新发现就一定会产生新的视觉计算理论，视觉计算理论的产生是在多个生物视觉机制的基础之上总结得出的。因此，计算视觉理论和生物视觉机制之间并不是都有一一对应的关系。以Marr视觉计算理论为例，作为视觉计算理论的奠基性工作，其形成也是在许多生物视觉机制的基础上才提出并得以完善的。而一些重要的生物视觉机理的工作如颜色视觉理论就仅提出很多有益的模型，而没有上升到计算理论的高度。视觉计算理论对生物视觉机理的研究具有一定的机理验证作用，但本文主要是从思想创新的角度出发，因此在图中并没有给出计算视觉理论对于生物视觉机理的作用关系。

3.2 基于生物视觉机制的视觉认知计算模型

生物视觉机制主要通过神经生理学和解剖学等学科的发展，对生物视觉系统的机理进行研究。生物视觉机制的研究成果是视觉研究的重要来源。早期的学者根据生物视觉系统的形成过程，将视觉信息处理的一般模型，分别可看成视网膜阶段、早期视觉处理和高层视觉处理，这一框架在许多机器模型中得到应用。

本文中进一步根据视觉信息处理从人眼到人脑这一处理过程把目前的模型大致分为外周脑模型、脑皮层模型及知觉层模型。外周脑模型主要是模拟视觉信息在视网膜（retina）上的运行机理及视网膜和皮层之间的信息处理进行建模。视网膜是位于视觉系统最前端的具备感光功能并能对接收到的刺激信号进行初步处理的组织。视网膜包含大量的光感受器细胞，是外界视觉信息在人眼成像的主要部位，并对亮度、颜色、形状、运动等信息进行初步感知和处理。对人眼的研究主要集中在对retina皮层的研究。根据对视网膜机理的研究结果，一些视觉理论和模型被提出来，如基于视网膜中的视杆和视锥细胞的特性，两种最为常见颜色视觉模型（三刺激模型和对立色模型）被提出并被广泛使用。Weber等发现，眼睛对光强的响应是非线性的，并且在一定范围内，物体的亮度和背景的差别的比值是相对不变的，这使得视网膜细胞对外界光强具有较好的自适应特性。根据这一特性，图像的单色对数模型和彩色对数模型被提出来，人眼对于对比度敏感而不是对于绝对亮度敏感的特性也被用于建立对比度模型实现对目标的检测。19世纪马赫发现视觉侧抑制效应（Lateral Inhibition），并提出有关视网膜神经元相互作用原理。在视觉信号的预处理和传输阶段，侧抑制原理被认为起着关键性的作用，基于这一原理的模型常被用于图像增强。

进一步结合视网膜和皮层的研究，Land在颜色恒常性基础上提出模拟人类亮度和颜色感知的视觉模型——Retinex模型。这一模型可在动态范围压缩、边缘增强和颜色恒常3方面达到平衡，可对各类图像进行自适应增强，在很多方面得到广泛应用。

Zaghloul等提出一种模拟视网膜细胞机理的数学模型。该模型具有带通和时空滤波的功能，可实现亮度调节及对比度调节，他们在CMOS电路上实现这一模型，并系统地进行分析。

脑皮层是视觉信息处理的中心区域，其主要工作由视觉皮层（visual cortex）来完成。人类的视觉皮层包括初级视皮层（V1）及纹外皮层（V2～V5等）。初级视皮层也是目前大脑皮层中被研究得最透彻的区域。Hubel等在20世纪50年代末首次开展对视皮层细胞的研究，为生物视觉系统方面做出开拓性工作。他们在20世纪六七十年代提出视觉感受野（Receptive Field）理论。基于这一理论，Barlowd等提出“利用感知数据的冗余”进行编码的理论，之后Michison等明确提出稀疏编码理论（Sparse Coding），数据经稀疏编码后仅有少数分量同时处于明显激活状态，具有存储能力大和联想记忆能力等特点，近年来受到较大关注。Rodieck等在 1965年进一步指出这不同感受野的直径方向上的截面对光信号的响应曲线都具有高斯分布的性质，彼此方向相反。他们采用两个高斯函数的差来表示这种特性，称为高斯差模型（Difference of Gaussians，DOG），这一模型作为滤波器模型已成功应用在图像预处理中。1980年Daugman使用二维 Gabor函数模拟视皮层中细胞感受野的空间性质，汪云九等也提出用一族广义 Gabor函数描述视觉系统各层次上感受野时空性质的模型。Gabor滤波器已在模式识别尤其是生物特征识别方面得到广泛应用。1968年 Campell等进一步研究发现视觉系统具有空间频率通道，这一成果被 Pattanaik等在1998年用于真实感图形显示（image display），取得较佳效果，Huang等结合彩色图像的感知特性扩展这一模型用于彩色图像的增强和评估。Lowe根据大脑皮层中下颞叶皮质（inferior temporal，IT）对于视觉刺激响应的特性，提出一种面向物体识别的旋转和尺度不变的计算模型（Scale Invariant Feature Transform，SIFT）。这一模型之后经过改进，成为模式识别中用于局部特征提取算法的经典模型。

Poggio等在1999年首次建立完整的视觉处理模型 HMAX（Hierarchical Model and X），这是一个从生物学的角度上模拟的多层次模型。2007年，Serre等通过引入特征字典的学习过程，构造高层次的仿真生物视觉模型（Biological Inspired Model，BIM），并在当时取得优于统计模式识别模型的结果，引起计算机视觉和生物视觉界的关注。这一模型通过改进在目标识别、场景分类等得到广泛应用。更多的关于外周脑模型、脑皮层模型可参见Bednar等的工作。

视知觉是更为高层的视觉机理的描述，涉及到的现象更为复杂，如错觉现象，图像的二义性等，难以解释。目前大部分的解释还是存在于哲学家和心理学家所做的一些假想，至今还没有非常系统的认知模型。如格式塔学派，强调人的视觉系统具有在对景物中的物体一无所知的情况下从景物的图像中得到相对的聚集（grouping）和结构的能力，这种能力被称为感知组织。以此为基础，一些学者在图像的组织方面尤其是图像分割方面提出相应的数学模型，取得一定效果。另一种值得一提的知觉层研究方面的工作是Gibson提出的生态知觉理论，他试图解决总体的视知觉问题，在这一理论中，Gibson认为知觉不是对视网膜上降采样图像的解释，而是通过光学排列和流动直接和真实的体验。基于这一理论，光流模型（Optical Flow）被用于提出描述图像灰度模式的表面运动，即获取运动场。这一模型因为不需要预先知道场景的信息同时能获取丰富的运动和结构等信息，使得光流在计算机视觉、图像处理等得到较多应用。

3.3 基于视觉计算理论的视觉认知计算模型

视觉认知计算模型的另外一个重要的起源是视觉计算理论，即从计算机信息处理去描述视觉形成过程。相比于具有悠久历史、纷繁复杂的生物视觉机理的研究，视觉计算理论的研究主要从 20世纪 60年代开始，而且相对集中。主要的视觉计算理论可分为以Marr理论为主的局部优先和拓扑理论为主的全局优先的理论。目前大部分的计算模型仍基于主流的 Marr视觉计算理论，包括三维物体重建模型，双目立体视觉模型等。1987年Biederman在Marr理论的基础上提出成分识别理论（Recognition by Component Theory）。该理论认为通过把复杂对象的结构拆分为简单的部件形状，就可进行视觉识别。在这一理论的指导下，Li等发展词袋模型（Bag of Word）用于物体识别，成为目前物体识别中具有代表性的工作之一。1980年Treisman和Gelade等提出特征整合理论（Feature Integration），认为视觉处理是一个以自下而上的加工为主要特征的、具有局部交互作用的过程。在这一理论的基础上，Koch等于1985年提出第1个视觉注意机制模型，1998年Itti等提出适用于自然图像的高斯金字塔模型，郑南宁等提出分层的注意视觉模型。

在19世纪80年代，McClelland等提出相互作用激活理论，他们认为知觉系统是由许多加工单元组成的。这些节点（node）是最小的加工单元。每个节点通过兴奋和抑制两种连接方式与大量其他节点联结在一起。每个节点在某一时间都有一个激活值（activation value），它既受到直接输入的影响，也受到相邻各节点的兴奋或抑制的影响。这些同层次和不同层次的节点之间兴奋和抑制的各种关系，构成异常复杂的网络。

相互激活理论也成为在语言学中风靡的连接主义理论的代表性理论。在这一理论的指导下，BP神经网络（Back Propagation Neural Networks）模型被提出并得到学术界的高度重视，成为应用最为广泛的神经网络模型之一，在文字识别等领域得到成功应用。在假设神经网络是多层的基础上，Hinton等提出深度学习算法（Deep Learning），目前已在图像、语音、文本等多个领域取得令人瞩目的成绩，成为大数据时代最为成功的学习模型之一。与传统的信息表达方式不同，基于深度学习模型构建的表达强调的是一种深层次、端到端、数据驱动的特征学习方式。整个模型的参数不是通过人工设定，而是通过输入大量的训练样本，采用无监督或有监督的方式，自动学习得到最佳参数。从函数论角度来说，深度学习模型可更有效地表达更复杂的函数，而这个也是深度学习模型强大表达能力的原因。

值得一提的是，Chen等提出另一种和Marr视觉计算理论不同的拓扑理论，他们发现对大范围拓扑特征感知早于局部几何特性的感知，《Visual Cognition》在2005年专刊组织著名学者进行评论，目前这一视觉理论得到越来越多的重视。基于此理论，Huang等提出一个从全局到局部的形状目标分类模型，得到吻合视觉心理学的结果。

4 对视觉认知计算模型的思考

视觉认知计算模型是联系视觉认知科学和计算机科学的桥梁和纽带。一方面，视觉认知机理的研究为计算机科学的计算仿真、模型建立等提供良好的生理学和心理学参照，对视觉机理规律的认识为计算模型的建立提供努力的方向。另一方面，计算模型也为视觉机理的正确性和有效性提供验证的平台，能有力推动视觉认知机理的发展。总之，视觉认知计算模型的目的是借鉴人类视觉机理和相关学科的成果，建立新的数学模型，从而有效提高计算机对信息社会的理解能力和计算效率，因此这一研究具有以下特点。

1）视觉认知计算模型的研究是交叉性的。这一点很好理解，视觉是认知科学的一部分，其研究涉及到生理物理学、神经认知科学，又涉及到计算机科学，还包括数学及模式识别等相关建模的科学，因此对这一领域的研究需要宽广的知识面，同时需要多个学科的学者能共同参与对这一问题进行探讨。

2）视觉认知计算模型的研究是开放性的。这一研究既然是交叉性学科，那么必然不同领域的学者从不同学科的角度对这一领域进行研究，同时研究的特点和结论也会有差异。这一点在历史上的视觉研究中得到体现，如颜色视觉模型既有三色模型又有对立色模型。但总的来看，两者都是对机理在不同角度和程度上的阐释，具有互补性。

3）视觉认知计算模型的研究是发展性的。任何定理或理论都是基于一定的假设情况的，这一限制对于视觉认知计算模型的研究尤为突出。人类认知的过程就是在不断纠正的过程。同样，对视觉认知计算模型的研究也是一个不断完善和发展的过程。

视觉认知计算模型的研究在国外开展较早，许多学者从不同领域对此开展研究，也取得较大进展，近年来这一研究也趋向于多种学科的交叉融合。相比国外，我国在这方面的研究起步较晚，大部分的研究还是集中在心理学等认知科学。目前我国学者在神经心理学等认知科学方面已取得一些有国际影响力的工作，在视觉计算理论方面也有独到的见解，但是在视觉计算模型的代表性的研究工作还是较少。这方面的研究涉及到多个交叉学科的发展，因此在人类视觉的生理机制还尚未得到解决情况下，这一领域的研究需要注意两点问题。

1）避免大而全的模型。让计算机来模拟人类的视觉机理是计算机视觉追求的目标，把人类视觉信息处理方式翻译成程序语言对其建模来实现机器模仿人也是早期机器视觉研究的重点，取得一些成果，如Stanford的Shakeyh和MIT的Cog机器人等。但是否能按照这条路继续前进，去构建一个大而全的视觉模型，目前还无法做到。一方面，人类视觉的获取量是巨大的，而很大一部分的信息处理与建立视觉信息处理模型是无关的；另一方面，在人类视觉机理尚未完全清楚的情况下，试图去构建一个包罗万象的计算模型在现阶段是不现实的。

2）注意发挥学科优势，以应用驱动来发挥特点（认知模型是多个学科关注的重点，但各个学科侧重点不同，以生理物理学为代表的认知学科更关注的是模型如何能更好地模拟视觉机制，其设计出的模型目的是更好地反映出以计算机视觉为主的信息科学，更关注的是视觉模型的应用效果，本文主要关注后者）。目前国内外在视觉认知计算模型已开展较多的研究工作，有一些成果在相关的研究领域得到较好应用，如计算机视觉领域的物体识别、多媒体领域的视频编解码、图像处理领域的图像增强等，正因为这些模型的出发点和应用需求的不同，在模型的构造方式、应用目的等各方面都有其特点。而归根到底是对人类视觉的各方面任务、特性有不同的侧重点。许多心理物理学实验也证明在人的视觉系统中似乎存在独立的特定模块，如Land关于照明的计算理论，这也指导我们在进一步的研究过程中可以以应用为驱动来获得一些独立的视觉认知计算模型。

那么，一个较好的视觉认知计算模型应具备什么样的能力，本文认为应该具备如下能力。

1）学习能力。（1）自主学习能力。在已来临的大数据时代，海量的图像、视频数据绝大多数是没有标签的，大量进行标注也是不太现实的。从大量的没有标签的图像数据中自动挖掘知识，无疑有着重要意义。Ng和Dean领导的Google Brain计划，通过将 YouTube上的视频直接送入多层的sparse autoencoder系统，在没有任何标签和人为监督的情况下，学习到猫脸和人脸等视觉概念，也验证数据驱动的自主学习的可行性与有效性。（2）长期的增量学习能力（Life-Long Incremental Learning）。在系统已学习到大量知识的情况下，对新数据能以一种经济的方式对整个现有模型进行相应的更新，以适应不断变化的外部环境，这是生物界“物竞天择，适者生存”的准则，所有生物都具有的基本能力。我们希望基于计算机的视觉认知模型具有同样的基本特性，也是实现人工智能的必然要求。

2）高容量的表达能力。人脑的记忆容量估计在 1 TB～2.5 PB左右，这保证人脑在整个人的一生中能记忆大量的信息。在现今大数据时代，要有效地建模海量的视觉数据，模型具有高容量是必不可少的，当前较活跃的层次表达模型如贝叶斯网、无向图网等模型理论上都没有容量的上限，保证其具有强大的建模、表达能力。当然，信息的组织、共享、稀疏表达等会大大压缩信息存储大小。

3）快速推断能力。人眼能在非常短的时间内完成人脸的定位、识别。几乎所有依赖视觉的生物都具有类似的能力。视觉认知计算模型在学习到大量视觉概念、知识之后，也应能对复杂视觉场景进行快速地目标检测、识别等。

4）多任务信息共享能力。人类视觉系统在处理视觉任务时，不仅快速而且同时完成多个任务，这表明视觉系统在完成不同任务时具有共享信息的能力，也就是在获取一些共性信息之后，能同时完成多个任务，这一能力已得到视觉研究和机器学习领域的关注。从系统一体化来讲，希望最终能实现一套类似人类视觉系统的视觉认知计算模型，同时完成检测、分类、识别、分割等多种任务。在这种情况下，用于分类的关于猫的信息与用于检测的猫的信息共享，无疑是既自然而又经济的。

5 结束语

认知科学和计算机视觉经过多年的研究和发展，已取得令人瞩目的进展，在人工智能领域的研究方面，超级电脑沃森利用机器学习和自然语言处理模型，借助于强大的计算能力，在智力竞答节目上战胜人类冠军，标志着人类对智能的计算模型发展到新的阶段。这种通过样本采集学习的方式来实现人类认知是视觉认知计算模型的一个思路。但生物视觉系统的功能和机构极其复杂，就目前而言要完全了解还存在巨大的挑战。然而要真正实现有效的计算模型，对视觉认知机理的研究是成功的保障，正如霍金斯所言“真正认识人类大脑是开发智能机器的必由之路”。♦

（摘自《模式识别与人工智能》2013年第10期）