光场成像中的景深扩展方法与信息处理

2016-03-15赵于平金熙赵松年

现代电子技术 2016年4期

赵于平　金熙　赵松年

摘要：光场成像方法是智能图像处理中迅速发展的前沿领域，涉及的主要内容是：光学景深的扩展和不聚焦摄影的自适应多重焦平面成像问题的研究。其中包括对光场成像基本原理和硬件结构的介绍，也包括全光函数参数化方法的应用问题的讨论；这是因为，新兴起的计算摄影学、3D可视化、虚拟环境等领域的目的是：全面实现全光函数对外部客观世界的描述；而光场成像及光场相机则是这个目标的一个局部的实现，其中涉及的问题有光信息的采集，光学傅里叶变换，不聚焦摄像的处理和光学景深的扩展方法等。这些研究内容是光场成像和计算摄影学领域中的基础性的重要课题，也是与图像渲染以及3D显示密切相关图像信息中一种全新的处理方法，具有重要的应用价值。在此针对上述各难点问题和关键结构，给出了全面、深入、透彻的分析论述，提出进一步研究的主要内容。该文对当前迅速发展的全光信息处理中关键技术与方法的综述与展望，对相关领域的读者具有一定的参考价值。

关键词：图像处理；光场成像；全光函数；扩展景深；双平面参数化

中图分类号： TN911?34 文献标识码： A 文章编号： 1004?373X（2016）04?0102?06

Abstract： The light field imaging method is the advanced field in intelligent image processing. It involves the following research contents： scene depth extension and adaptive multi?focal planes imaging of unfocused photography. In this paper， the basic principles and structure of light?field imaging are introduced， and the application of plenoptic functions′ parameterization method is discussed. The difficult issues and critical structures are comprehensively and deeply analyzed and discussed in this paper. The further research contents are proposed. The key technologies and methods in all?optical information processing in rapid development are summarized and expected， which has important reference value for readers in relevant fields.

Keywords： image processing； light field imaging； plenoptic function； scene depth extension； biplane parameterization

0 引言

近两年，一种称为光场照相（Light Field Photography）的相机正处于研制与开发之中，很快将投入市场，它被誉为照相机的一次革命[1]。通俗地说，传统相机是先对焦后拍照，光场相机则是先拍照后对焦处理。其实，早在1992年， Adelson等就在IEEE模式分析与机器智能期刊上发表了他们研究“全光相机单镜头立体照相”原理与方法的成果[2]，第一次采用Plenoptic Camera表示全光照相机。在这之前， Adelson等在研究人类初级视觉信息处理时[3]，就提出了“全光函数（Plenoptic function）”，用于描述空间每条光线的强度作为视角、波长、时间、观察位置处的光强这7个变量的函数，它描述了一个光学装置可能“看”到的一切，特别是称之为环境光线的结构。因而，全光函数与可见世界完整的全息表示是等价的[3?4]。二维数字图像的每个像素都记录了到达该点的所有光线的强度，但并不区分这些光线的方向，它只是三维结构光场的一个投影，或者说，是一个样本，丢失了场景中的相位与方向信息。与此不同，光场是指空间中任意点发出的任意方向的光的集合。光场的记录应能分辨对每个像素有贡献的来自不同角度的光线。如果在记录光线角度的同时记录时域变化，就是动态光场。

光场相机通过光场感应器记录成像光线的矢量，即与影像相关的来自多个角度的光场，而不只是二维的图像，这为光场相机通过光场信息重建出多景深的场景提供了条件，可以根据需要来定位焦点，在视角范围内的各个焦平面中选择想看到的照片。这样，就有可能突破传统相机的视觉信息采集和基于这些信息的理解与分析存在的局限性。如今，微型高密度传感器的集成方法[5?8]可以满足光场像机的需求。现在，3G像素的数码相机也已投放市场，利用这些现有器件集成满足光场相机结构需要的高密度微阵列传感器，已经不是一件难事。如何根据全光函数的概念处理光场相机采集到的光场信息，以实现按照用户需求来定位焦点，在视角范围内从彼此叠加的各个焦平面中选择出想要看到的高清照片，这就对具体重建算法提出了挑战。因为，从理论上的全光函数到具体的重建算法，中间存在诸多困难，传统的胶片或数字图像只是全光函数的一个子集或者切片，如何采用7维函数[P=P（θ，?，λ，t，Vx，Vy，Vz）]中的若干维组合来描述和重建客观世界的全光图像或视觉信息，是众多科研人员致力于探讨的一个核心问题。显而易见，将7个变量减少到能够处理的程度，既想尽量减少信息损失，又不使算法实现过于复杂，是很难达到的。

1 光场相机的原理与构造

无论是普通的数码相机还是将要介绍的光场相机，最简单的、最好理解的模型就是针孔相机模型。这时，在几何光学中可以将针孔看作一个理想的孔点，空间各个不同位置的物点，都向针孔投射光线，因此，通过这个针孔的光线不难想象成光锥，换句话说，周围环境中的物体，在它的表面上的每一个点都会以光锥的形式向周围反射（也包括光源的辐射）光线。因此，周围空间中充满了来自不同物体和不同方向的光锥，在垂直于相机或人眼的光轴的截面上的各个物点通过针孔就能在焦点后面的成像平面上形成一幅图像，对于普通的数码相机而言，不考虑光线的入射角，物距[l]，焦距[f]和像距[d]之间的关系由高斯公式确定：

[1l+1f=1d] （1）

那么，来自在光轴不同位置的、不同垂直截面上各个物点的光线会在成像平面上形成重叠的图像。在光轴前后不同位置的截面会在焦点后面的同一个成像平面上形成不同位置的局部重叠和遮挡。人眼看图片时，并不会强烈地感觉到这个问题，主要是图片上存在景深，这是理解普通相机与光场相机，以及普通拍摄方法与光场拍摄方法区别的关键。

实际上，当视觉感知外部景物时，光轴（或者大致上也可以是视轴）与空间直角坐标系中的[z]轴是一致的，成像平面垂直于光轴也就是[z]轴，这是视觉的光学成像系统固有的特性，在视像的焦平面（视网膜）的前后一定距离处，形成的光斑（弥散圆）直径[δ]很小时（小于等于0.005 mm，由视网膜中央凹的视锥细胞的分辨率决定），仍能形成清晰的视像，也就是焦深（如图1所示）[9]。

根据图1就很容易理解普通相机的传统的先聚焦后拍摄的方法。先聚焦，就是调整相机的焦距，试图在注视点这个距离上能够有一个清晰的图像，附带地，在它的前后一定距离范围内也能有清楚的图像，物体前后距离的不同形成的遮挡效果，遮挡物在前，被遮挡物在后，正好形成和增强了景深，即图1中的ΔL1和ΔL2。需要指出的是所谓“景深无穷远”，其实是指注视点的距离L而不是景深ΔL。要注意，景深ΔL是一个很有限的小的距离范围。对于人类视觉而言，基本的光学成像过程是类似的，在此不再重复。既然景深非常重要，一幅大景深的图片显然比小景深的图片的视觉效果要好得多，二者不在一个档次上。如何增大景深是一个关键问题，当焦距与拍摄距离相比很小时，式（2）和式（3）可以近似表示如下：

[ΔL=ΔL1+ΔL2?2f2Fδ] （4）

景深与焦距的平方[f2]成正比，而与光圈[F]和模糊圈直径[δ]成反比。上面已经说明，模糊圈直径[δ]是由人类眼球中央凹的光敏细胞即视锥细胞的分辨率决定的，约为6 μm，是一个定值[10]。

实际拍摄时，光圈大小的设定和拍摄者的技巧与经验有关，剩下的惟一有效方法就是更换镜头（如长焦距镜头，可变焦镜头；增大拍摄范围的短焦距广角镜头等），以期改变焦距[f]。当然，这是一个十分昂贵的，效果有限的，也是不得已而为之的方法。

普通相机不能采取先拍摄后聚焦的方式原因很简单。因为在相机的数字图像平面上，是由CCD记录的像素成像的，它只是该平面上二维坐标[（x，y）]点上的光强信息，无法确定实际的物理空间的坐标位置，在后聚焦拍摄模式中，定焦处理的算法由于缺少基本参数而无法实现。

由傅里叶光学基本概念可知，在光轴上不同距离（间隔为焦距[f]）处放置透镜，等效于一次新的成像。输入的原始图像为[U0（x0，y0）]，经过多级二维傅里叶变换[Fαn]后，得出最后的像为[Ui（xi，yi）]。当然，这是以波动概念为基础的物理光学信息处理的原理，多级透镜的方案存在很多问题，一般在实际应用中也是限于二级成像方案，成功的实例有滤波，阿贝成像等。但重要的是，这也启发了从事相机结构设计与产品研发的科技人员从几何光学的观点出发，在焦平面位置放置一个微透镜阵列，如图2所示[11]。

那么，这个阵列的微透镜将会对主透镜投射而来的光锥形成二次成像，并被光传感器（CCD器件或其他光学微元）记录，在球面坐标系中，每一束光线的空间方位，即[θ]和[φ]都会被记录下来，为以后的定焦处理提供数据。

这里采用两种模型来进一步说明光场相机成像的基本原理，第一种模型就是针孔相机模型，可以将微透镜阵列看作是针孔阵列；第二种模型是将微透镜阵列看作是微型相机。

2 针孔相机阵列模型

图3为针孔模型的原理图[3]，入射光强度阵列以光锥的方式射入细小的针孔之中，光强度阵列图像中每一个点都可以看作是一个大像素，分为三个子像素，由不同入射角的光线传输，每一个子像素都对应于一个特定的入射角。此处的子像素有三种类型，按照光通过透镜的右边、中心或左边，分别用红、绿、蓝标记为r，s，t像素。实际上，每一个微小的针孔相机都形成主镜头光圈范围内的一幅图像基元，这个图像基元捕捉的信息只是通过主镜头一个给定的子区的光，为了正常工作，针孔相机的镜头必须指向主镜头的中心。如果物点在焦平面上，如图3（a）所示，则中心位置的所有三种像素r，s和t均被照亮。如果物点离焦平面或近或远，如图3（b）或图3（c）所示，那么，光线通过像素点是分布开来的，这一方式能够判断景深。刻画这种分布的一个有效办法是从r，s和t的像素组创建单独的子图像。r子图像对应的光线通过主镜头的右侧；s子图像对应的光线通过中心；t子图像对应的光线穿过主镜头的左边。

当物体位于焦平面上，这三个子图像排列对齐；当物体近于焦平面时，图像相继向左移位；当物体远于焦平面，图像相继向右移位。通过测量位移，可以估算物体的深度。

3 微型相机阵列模型

针孔阵列可以用微透镜阵列代替，可以把微透镜阵列设想成微型相机阵列。其中，每一个微型相机都形成主镜头孔径的一幅图像，如同从传感器平面的不同位置所看到的那样。焦点上的图像是一个明亮的小点，而焦点外的图像变成模糊的一片暗影，如图3中的红色与绿色小方块标记。如果镜头的光圈是一个圆盘，那么，点扩散函数（PSF）将是一个球体，其直径是光圈大小和散焦程度的函数。一维时，如此处所示，PSF是轮廓鲜明的长方形（忽略了小的衍射效应）。

如果把一个偏心光圈（图中的红色标记）放在透镜上[3]。当物体在焦平面上，它的图像依然清楚。在相同的位置，如果物体更近，那么，它的（模糊）图像移到中心偏右（红色小方块标记），因为光圈选择性地使落入右侧的光线通过。相反，如果物体更远，那么，它的成像则移向左边（绿色小方块标记）。位移的程度与散焦造成的模糊程度成正比。由于光圈向左或向右移动，一个近处的物体同样向左或右移动，而远处物体的成像则向右或向左移动。位移的大小和方向能确定物体的距离。因此，人们可以获取一个图像序列，其中光圈可以移动，也能对图像序列实现位移分析，以确定物体的景深。这里需要对偏心光圈做一说明，放置在主镜头后面焦平面位置的微透镜阵列，它们的镜头中心朝向主镜头，但是并不能实现每一个微镜头的中心都对准主镜头的中心，从主透镜不同位点来的不同方向的光线更是不可能通过每一个微镜头的中心，这实际上是不可能做的。由于微镜头的尺寸很小，阵列中不同位置的微透镜相当于一个个小光圈，采集来自主镜头的一小部分光线，其作用如同一个偏心的光圈。位置不同，光圈的偏心率和光圈大小也不同，正好与主镜头不同方向的光线相对应，为后续的定焦处理提供了方位信息。显然，滤光方法是以波动光学为基础，目标是改变光的频谱成分；微透镜阵列方法是以几何光学为基础，以改变聚焦方式和焦距为目标。微透镜阵列对焦平面上的清晰的光点的二次成像，微透镜在紧随其后的光传感器阵列上分别进行二次聚焦，总的效果便是增大了实际的焦距，也就增大了拍摄时图片的景深。

在此值得强调的是，先拍摄后聚焦的拍摄方式，本质上也可以称为“扩展不聚焦景深的方法”，如何通过硬件实现和扩展景深，这是一个非常重要的理论与基础应用问题。它涉及二维图像平面与三维实际场景之间的转换，计算机视觉难于理解二维图像对应的三维场景，就是计算机视觉中的经典难题，不可能在本文中过多地涉及这个课题，而是指出，光场相机能够实际使用，要求它的光学系统的景深，最低限度也要大于传统相机的2倍，这也是保证在不聚焦拍摄时，能通过算法获得景深范围内任意焦平面上的高清图片。能够扩展景深的关键是主透镜、微透镜阵列与光学传感器阵列之间的合理布局，几何参数的确定等，一方面要有相应的理论分析，另一方面需要实际实验的检验。

4 全光函数的双平面参数化方法和算法实现

在本文的引言中曾经提到，周围环境的光场结构由7个变量的函数来描述，所谓光场结构就是指，环境中存在的一切不同类型的物体，在光照条件下，各自都向四周反射或辐射光锥，这些光锥互不干扰，携带了周围环境的信息。

全光函数[P=P（θ，φ，λ，t，Vx，Vy，Vz）]就是周围环境中各种图像结构的全面描述。可是，要想根据这个全光函数来采集周围环境的结构光场信息，实在是过于复杂而困难，只要设想一下，拍摄者不可能同时在每一个空间位置对每一个朝向都进行拍摄，就可知道这是难于实现的。为此，人们经过艰难的尝试和实验，想出了许多办法，验证之后，一一放弃，而最后又回到全光函数本身，开始研究简化它的办法。其实，反映光场结构的图像并不是非得需要全光函数[P=P（θ，φ，λ，t，Vx，Vy，Vz）]中的7个变量，按照参数化的方法可以简化全光函数，具体来说，对于时间[t]，现在连续拍摄已经不是问题，放置在被拍摄物体或场景四周的多台相机的环形分布，可以组成多视角来同步扑捉空间的光锥；色彩[λ]可以独立处理。因而，最关键的变量是[θ]，[φ]，[Vx]，[Vy]和[Vz]，而[Vz]则可以根据物距和景深间接度量，剩下的4个变量就是必须通过参数化处理的，方法是：可以用一个截面记录投射而来的光线的方向[θ]和[φ]；用另一个截面记录光强信息[Vx]和[Vy]，当光线穿过这两个截面时，交点的坐标值就是[θ]和[φ]以及[Vx]和[Vy]。为了方便起见，光线的方位也可以采用直角坐标系[（x，y）]代替球面坐标系[（θ，φ）]，如图4所示[12]。

5 频域中的变换与处理

视觉系统在将有7个变量的全光函数简化成只有4个变量的光场函数后，是按照神经元的刺激?发放模式进行计算的，这就是Kronecker 积[?]的神经计算。M.Levoy等在1996年提出光场成像的方法时指出：其关键技术在于解释输入图像作为一个四维光场函数的二维切片如图5所示。

这个函数完全刻画了在静态场景和固定照明中通过无障碍空间的光流[10]。它的实质就是四维的傅里叶频谱可以通过二维的频谱切片进行处理，如图6所示。

投影的方向和切片的方向相互垂直（正交投影），显然，一条直线在切片上的投影是一个点，维度由2降低到1，一般而言，一个N维的函数的像经过M次正交投影，它的切片的维度降低到（N-M），也就是一个N变量的函数投影后对（N-M）个变量积分，就得到M个变量的函数，这个积分过程就是投影过程，它的傅里叶变换就是这里所说的切片。利用图6的再聚焦的几何关系，很容易得出成像平面的坐标[（x′，y′）]与[（u，v）]坐标之间的关系，光场函数[LF′（x′，y′；u，v）]代替了[LF（x，y；u，v）]，如式（6）所示，也就是图中成像平面上的图像，它与透镜平面的距离为[F′][=αF]，其中：[α]是相景深；而[F′]则是再聚焦图像的实际景深。

6 结语

当前，以全光函数为基础，以光场相机为研发目标的智能摄影方法的研究，其重要性和包含的应用价值在于以下几方面[13?16]：

（1）在计算机视觉中，通过两个摄像机拍摄的两幅图像确定对应点以便建立准确的三维场景，特别是存在遮挡情况时，约束条件和算法往往都遇到很大困难。上面提出的全光相机，用一个单镜头集光，使用微透镜阵列在图像平面上记录射入镜头光圈不同子区的光结构信息，测量对应的视差，从而获得场景中客体的景深估计。它只需要一个单相机，利用水平视差和垂直视差，就可使对应点问题最小化，没有必要在多个相机之间建立和维护校准。图像处理算法可以是简单的、快速的和鲁棒性的。

（2）在计算摄影学中，广大研究者围绕全光函数各维度信息的获取，进行了多方面的探索，研究内容包括光场信息的采集、高速运动对象的捕获、多光谱图像的拍摄与融合、场景深度信息的获取等。而特别重要的则是从成像机理上来改进传统相机，并将硬件设计与软件计算能力有机结合，突破经典成像模型和数字相机的局限性，增强或者扩展传统数字相机的数据采集力，全方位地捕捉真实世界的场景信息。

（3）在发展智能照相技术的过程中，全光相机应运而生，即使它不久后投放市场，也是一种初级的试制产品，还需要投入巨大的人力物力对原型机进行改进。例如，在R. Ng（吴仁）设计的全光照相原型机中，使用的图像传感器的分辨率是4 000×4 000，角度分辨率是14×14，所以最后得到的图像的空间像素分辨率只有292×292。因此，提高空间像素分辨率就是一个关键问题。其中，专用算法则是核心的竞争技术，从事算法研究的科技人员，就应当在即将到来的激烈竞争中，为我国自己的产品提供具有知识产权的专用算法。因为，全光相机不仅仅用于大众照相，它也有十分重要的科学与军事方面潜在的应用价值，对全光函数中的波长[λ]进行超光谱采集，已经广泛用于军事安全、环境监测、生物科学、医疗诊断、科学观测等诸多领域。在计算机视觉、图形学领域中，如物体跟踪、图像分割、识别、场景渲染等，也受益于超光谱采集技术的发展，获得了突破。

笔者希望，在全光函数与光场相机这一新兴领域，国内相关研究团队，值得进行一些基础性的研究工作，包括视觉信息处理问题；而在相应的智能信息处理的理论与应用方面，发挥己之所长，可望取得一定的成绩。

致谢：作者向支持本研究的单位和同事以及此处引用文献的所有作者，表示衷心的感谢。

参考文献

[1] NG R， LEVOY M， BREDIF M， et al. Light field photography with a handheld plenoptic camera [R]. Palo Alto： Stanford University， 2005.

[2] LANDY M， MOVSHON J. The plenoptic function and the elements of early vision [C]// Proceedings of Computational Models of Visual Processing. Cambridge： MIT Press， 1991： 3?20.

[3] ADELSON E H， WANG J Y A. Single lens stereo with a plenoptic camera [J]. IEEE transactions on pattern analysis and machine intelligence， 1992， 14（2）： 99?106.

[4] 戴琼海，马晨光，曹汛.透过全光函数看计算摄影发展[J].中国计算机协会通讯，2012，8（8）：8?12.

[5] MCMILLAN L， BISHOP G. Plenoptic modeling： an image?based rendering system [C]// Proceedings of the 22nd Conference on Computer Graphics and Interactive Techniques. [S.l.]： ACM， 1995： 39?46.

[6] WILBURN B， JOSHI N， VAISH V， et al. High speed video using a dense camera array [J]. Ultrahigh speed and high speed photography photonics and videography， 2004， 5（8）： 1583?1595.

[7] LEVOY M， NG R， ADAMS Andrew， et al. Light field microscopy [J]. ACM transactions on graphics， 2006， 25（3）： 924?934.

[8] CAO X， TONG X， DAI Q H， et al. High resolution multispectral video capture with a hybrid camera system [C]// Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence： IEEE， 2011： 297?304.

[9] Anon. Diagram of depth of field [EB/OL]. [2001?05?06]. http：//www.xitek.com/xuetang/optics/depthoffield.htm.

[10] LEVOYM B H. Light field rendering [J]. ACM transaction on graphics， 1996， 25（5）： 31?42.

[11] 张军，李雯.计算摄影学：时间维度的拓展[J].中国计算机协会通讯，2012，8（8）：19?24.

[12] FORSYTH D A， PONCE J. Computer vision： a modern approach [M]. 2nd ed. New Jersey： Prentice Hall， 2012.

[13] 章国锋，姜翰青，鲍虎军.基于图像的深度计算[J].中国计算机协会通讯，2012，8（8）：29?37.

[14] AGARWAL S， SNAVEL N， SIMON I， et al. Building Rome in a day [C]//Proceedings of Twelfth IEEE International Conference on Computer Vision. Kyoto， Japan： IEEE， 2009， 120?128.

[15] 杨峰，索津莉.光场理论、采集及应用[J].中国计算机协会通讯，2012，8（8）：13?18.

[16] 聂云峰，相里斌，周志良.光场成像技术进展[J].中国科学院研究生院学报，2011，28（5）：563?572.