计算机视觉系统框架的新构思

2015-08-15李骁麒

科技视界 2015年15期

李骁麒

（渤海大学，辽宁锦州121000）

在现代计算机技术的支持下，对人类视觉功能进行模拟的计算机系统被称为计算机视觉系统，因为视觉系统本身兼具科学性和应用性，所以计算机视觉系统本身既具有科学学科的特性又具有工程学科的特性。对其的研究不仅能够进一步了解人类本身，而且能够在工业生产领域发挥更大的作用。

1 计算机视觉系统现有理论框架

1.1 计算机世界理论框架

20世纪80年代，麻省理工学院教授Marr在视觉理论研究领域获得突破，提出了利用计算机实现视觉能力的理论框架——计算机视觉理论，这一理论主要特点是以现代信息处理的方式对人类视觉能力作用机制进行了分析，并以人类的视觉能力为基础在计算机技术的支持下形成了三个不同的计算机层次。分别是计算机理论层次、表示层次和算法层次。这三个层次分别对应着人类对视觉信息进行处理的三个环节，通过各个环节的仿生设置，计算机视觉系统就能够将初步的视觉处理能力赋予计算机。这一理论中的核心是计算机理论层次，Marr认为人类的视觉能力主要是从图像中建立物体形状和位置的描述，所以在这一层次中设计者设计的主要环节是从初步获取的二维图像中提取和细化物体的三维结构和位置，并将这些信息在一个二维平面上反映出来，即三维重建。

1.2 基于知识的视觉理论框架

基于知识的视觉理论框架最早产生于20世纪90年代，最早的提出者是Lowe。认为在人类的视觉能力发挥过程中，对三维物体的实际测算是不必要的，人类的视觉能力与三维测算能力没有直接的关系，虽然使用三维测算技术也能够实现计算机视觉系统的功能，但并不是对人类视觉功能的模仿。Lowe认为在人类的视觉活动中，会将三维物体看成二维物体，也会将二维物体看成三维物体。这种现象本身并不是偶然性的，而是一种视觉作用机制的必然。既然人类肉眼能够借助一定的作用机制和处理能力实现二维的三维化，在计算机视觉系统中就完全有可能设计出这种对人类肉眼直接模拟的机制。以感知系统感知物体的二维特性，并在其基础上直接生成三维图像，而不需要借助复杂的测量过程。

1.3 主动视觉理论框架

主动视觉理论是在现有计算机理论的基础上形成的新型理论框架，是根据人类视觉功能实现的主动性提出的。在人类实现视觉功能的过程中，人类的视觉系统并不是被动的，而是会根据视觉系统的要求调动身体的其他部位进行配合的、具有主动性的，所以在人类视觉功能的发挥过程中，视觉系统是具有主动性的，人类视觉系统的视角、关注点都会是动态变化的。

基于这一理论，主动视觉理论框架认为人类的视觉活动是一种“感知——动作”过程。根据这一原则，主动视觉理论框架认为计算机视觉系统并不需要精准的三维测算系统。而应该以计算机视觉获取系统为核心，设置主动的视觉系统。这一理念在实际的应用中主要通过对图像获取系统技术参数的调整和控制来实现，例如摄像机的位置、取向、焦距、光圈等，通过对这些参数的调整图像信息获取系统就能够从不同的视角对物体进行观察，进而获取物体的三维图像信息。

2 计算机视觉理论框架中存在的问题

计算机视觉理论框架的产生极大的支持了计算机视觉系统的研发工作，但是在计算机视觉系统的实际研发工作中，也逐渐暴露出了计算机理论框架的缺陷。当前主流的计算机视觉系统框架中，计算机视觉理论是最早产生的也是唯一一种被动的计算机视觉技术。在其理论系统中更多的强调人类视觉系统的测算能力，而没有意识到人类的视觉系统是一种主观性很强的、目的性很强的信息获取系统，完全建立在测算基础上的计算机视觉理论框架是不必要的。

基于知识的理论框架，认为人类视觉系统的功能实现主要环节是反馈，强调了人类视觉活动中主观意识的指导作用。但是它过于强调系统的目的性和主观性，完全否定了计算机视觉理论，认为人类视觉系统是个完全脱离计算机的认识过程，这种认识显然是错误的，在判断物体尺寸大小、距离远近时，测算无疑是极为必然的。

主动视觉理论并不完全排除三维重建，认为计算机视觉系统的三维重建应该建立在图像获取系统的主动性上。通过改变图像获取摄像机的角度、参数对时间、空间和分辨率等进行有选择的感知，解决了计算机视觉系统认知过程中的不稳定问题，降低了计算机视觉系统实现的难度。但是在其理论框架内部缺乏主观、高层的指导，从整体上看并不完善。

3 计算机视觉系统框架的新构思

在计算机视觉系统的研究领域，三种理论构建各有优劣。但是无疑反应了当前计算机视觉系统研发的主流思想，因此计算机视觉系统框架的新构思应该在其基础上进行，致力于克服各个理论的缺点。综合比较三种理论框架，笔者认为计算机视觉理论虽然存在某些问题，但是从整体上看这一理论框架是最具实践性和操作性的，其存在的问题完全可以借助其他理论框架加以解决，因此笔者以计算机视觉理论为主体，结合基于知识的视觉理论和主动视觉理论，提出一个更加完善和通用的计算机视觉系统构架。

计算机视觉系统视觉功能实现的主体结构还是建立在计算理论结构的基础上的，将计算理论框架中的早期视觉处理环节分为图像预处理、图像分割和二维模式识别两个部分，因为图像的预处理是在平面图像基础上的简单处理，不需要主观主导意识和目的性的参与，同时图像分割和二维模式识别能够最大限度的提升后继图像处理的效果。

在早期处理完成以后，后继的中后期处理还是分别情调了二维模式识别和三维模式识别，虽然这两种模式本身的识别原理是一样的，但是其面对的对象不同，物体的模型也不同。一般来讲，在我们的世界中二维信息具有很强的重要性，图形、文字、指纹等关键二维信息在通常情况下作用更大、应用范围更广，所以计算机视觉系统矿建的新思路中，要对二维信息进行进一步的处理。

模型库提供具体物体模型的表示。知识库不但要对物体进行抽象表示而且还要对抽象知识进行推理。人类经验的积累和知识的获取是通过学习而得到的,所以加人模型库、知识库管理,并让其从输出结果中进行学习。这将使模型库和知识库更加丰富和完善。

视觉活动本身是带有目的性的，所以在有些时候视觉系统的应用确实需要视物体的实际情况来决定，有时只需识别场景中存在的是什么物体或某物是否存在,而不要求定量恢复场景中的物体。因此,在计算机视觉系统中引人视觉目的来判断输出是否满足要求。同时,用视觉目的对图象分割和二维模式识别、中期视觉处理、后期视觉处理和三维模式识别加以控制。如果需要三维重建则由主动视觉控制成象来获得景物更完整的信息。

计算机视觉系统框架是支持计算机视觉系统实现的重要基础，所以在计算机视觉系统的研发、设计工作中，对理论框架的研究具有鲜明的现实意义，本文简单介绍了现有框架思想，并分析了其各自的优缺点，最后再这些理论框架的基础上形成了计算机视觉系统框架的新构思。认为计算机视觉系统构架应该以计算机理论为基础，以视觉活动的主观性和目的性为指导，以具体的视觉实现形式为方法。

［1］岳卫宏.计算机视觉技术在齿轮测量中的应用研究[D].武汉理工大学,2012.

［2］张艳珍.微机视觉系统相关理论及技术研究[D].大连理工大学,2011.