基于共焦图像序列的自适应聚焦度量场景深度估计方法
2014-09-26马翰飞
马翰飞
(西北工业大学 计算机学院,陕西 西安 710072)
场景深度估计一直是计算机视觉领域中的重点问题和难点问题。目前,场景深度估计的主要方法有时差测距法、三角测距法、结构光法、调变光法、主动视觉法、被动视觉法等。时差测距法、三角测距法、结构光和调变光测距法为扫描式深度获取法,其研究比较成熟,能获得较精确的场景深度信息。主动视觉法为通过人为精确控制相机方向和位置参数的改变获取场景图像信息来估计出场景深度信息,其装置比较复杂昂贵。被动视觉法为利用相机获取场景反射周围环境光能量的图像信息来估计场景深度信息,包括立体视觉法、运动法、聚焦测距法等。
聚焦测距法[1]为通过单相机焦距等参数设置的改变对场景多深度聚焦以获取场景图像序列,以图像中像素点的聚焦程度为线索而判别出图像序列中的清晰聚焦点,而后,利用透镜成像公式计算得到像素对应的场景区域的深度信息。传统的聚焦测距法要考虑相机焦距变化引起的图像放缩问起且其标定复杂,而且获得高精度的深度图需要多次改变相机焦距等参数设置以采集高密度的场景图像数据。而通过相机阵列获取的共焦图像序列能很好的解决以上两个问题,也即无
基于共焦图像的场景深度估计方法属于聚焦测距法的一种,如图1所示。聚焦测距法主要包括3个主要步骤:获取不同聚焦深度的场景图像序列,度量每个像素的聚焦值,找出每一点在图像序列的最大聚焦值并根据相机几何参数配置计算出相应点的场景深度值。
聚焦测距法中的聚焦度量计算对深度的估计起决定性作用。研究人员从空域和频域方面研究了清晰聚焦时图像的特需考虑焦距改变引起的图像放缩问题,并且一次性场景数据采集可以获得任意序列密度的场景图像集。
传统聚焦度量算子在场景深度不连续处有较大计算误差,本文采用了基于共焦图像序列的自适应聚焦度量算子计算像素聚焦度。自适应聚焦度量算子以参考图像为全焦图像,根据颜色特征计算得到每个像素邻域内深度相似度权重信息,得到邻域内的自适应权重信息,并与传统聚焦度量算子计算得到的邻域聚焦值卷积得到自适应聚焦度量值。相对于传统聚焦测距法,此方法提高了场景深度不连续处深度值估计的准确度,得出较优的场景深度估计结果。
1 基于共焦图像的场景深度估计方法
征。理想情况下,聚焦度越高的图像包含越多的高频信息。在空域方面,Tenenbaum算子[2]、灰度方差算子[2]、改进的Laplace算子[3]是最常用的聚焦度量算子。在频域方面,图像中的高频信息的大小和高频信息与低频信息的比率常被用来做为聚焦度量算子。基于频域的聚焦度量研究显示,不同频谱的能量大小对聚焦度量有影响。例如,基于离散小波变换的聚焦度量显示二阶能量对图像的清晰度有较大影响。在基于离散余弦的聚焦度量研究中,图像频谱中间部分的能量可能对图像清晰度有较大的影响。本文中,我们采用空域自适应聚焦度量算子[4]对图像聚焦度进行度量以提高场景深度不连续处的深度估计的准确性。
图1 基于共焦图像的场景深度计算流程图Fig. 1 The schedule of confocal image based depth estimation
2 聚焦测距法
由光的直线传播原理,我们得知理想针孔相机获取的场景图像为全清晰的。由于理想针孔相机通光量太小而不适于实际应用。我们所使用的相机多为透镜相机,而其所采集的场景图像并非是完全清晰的。根据透镜成像公式(1)我们得知,只有在透镜准确聚焦的平面区域所映射的像为清晰的,而其他区域的点由于失焦而弥散为一个光斑并与其他物点的光斑混合在一起,从而呈现出不同程度的模糊,如图2所示。
图2 非聚焦平面上的物体的像模糊Fig. 2 The object out of the focus plane blurred
依据透镜相机只对单一平面清晰成像的这个线索,我们可以用这个特性来估计场景的深度信息。通过改变相机的焦距等参数,我们可以对场景的不同深度聚焦从而采集焦距渐变的图像序列。在采集的图像序列集中,每幅图像上只有准确聚焦的场景区域的像是清晰的,其他区域的像点都是模糊的。利用聚焦判别算子,我们可以计算出图像序列中每个像素的聚焦度量值来衡量像素的清晰程度。由于场景中的物点在图像序列中的像只有一个是最清晰的,其聚焦度量值为聚焦度量值序列中的最大值,如图3所示。通过搜索聚焦度量值序列中的最大值(2),我们可以找到清晰点。利用透镜成像原理(1),我们可以计算出对应场景区域的深度值。
图3 聚焦度量值最大值为清晰点Fig. 3 The largest focus measurement of pixels is the best focused
3 共焦图像与自适应聚焦度量算子
在聚焦测距法中,为了采集不同焦深的场景图像数据,我们移动相机或者改变相机焦距来实现对不同场景深度的聚焦。相机位置的移动或焦距的改变将引起场景物体在图像中影像尺寸放缩。因为对采集的图像进行标定是一件复杂的问题,所以聚焦测距法主要应用于显微镜对微小场景的深度估计或者对深度变化不大的场景的深度的估计。Levoy等人[5-6]提出了用相机阵列模拟一个大孔径相机,对场景不同深度的聚焦。相机阵列获取场景的多视角图像集,并根据透镜相机成像原理合成相应的虚拟相机图像,即共焦图像。生成对场景不同深度聚焦的共焦图像只需要采集一次原始数据,而不需改变相机阵列中每个相机单元的参数设置。合成的共焦图像不存在放缩问题,因此使用共焦图像测量场景深度无需对共焦图像序列进行标定校正。
根据透镜相机成像的光路原理,我们利用相机阵列采集的图像数据合成共焦图像(3),如图4所示。
图4 根据相机成像原理利用多视角图像合成共焦图像Fig.4 Synthesize confocal image with multiview images according to the imaging theory
聚焦测距法的关键在于设计一个鲁棒的聚焦度量算子以准确判别图像序列中的清晰聚焦点。由于无法根据单个像素断定其聚焦度,大多数聚焦判别算子依据像素的邻域中的图像纹理信息计算其聚焦度量值。目前已经存在的聚焦测距法包括梯度算子[1]、直方图熵算子[1]、频率算子[1]、SML算子[3]等。
在计算聚焦度量值时,这些方法假设所选取的图像窗口所对应的场景区域的深度是连续变化的。实际情况中,场景的结构是复杂多变的,场景中某些区域的深度变化是非连续的。所以,传统聚焦度量算子在场景深度不连续处所计算得到的聚焦度量值有较大偏差,进而估计出的场景深度与实际场景深度相差也较大。根据观察,场景区域的深度突变往往伴随着对应区域的颜色突变。因此,我们可以利用这个信息计算自适应窗口[7]改进传统聚焦度量算子,提高场景深度不连续区域的聚焦值计算的准确性。在选取的图像窗口内,我们可以计算中心像素与其邻域中像素的深度相似度从而得到自适应窗口每个像素的权重。
图5 深度不连续处自适应窗口权重窗口Fig. 5 The adaptive weight window at depth discontinuity
在自适应窗口中,与中心像素几何距离和颜色值越相近的像素,其所对应的的权重也越大,自适应窗口中每个元素的权重值(4)其几何距离权重值(5)和颜色权重值(6)的乘积。在本文中,我们以参考相机图像为全焦图像计算每个像素的自适应窗口的权重信息,如图5所示。
图像中每个像素自适应聚焦度量值为自适应窗口和对应的聚焦度量值窗口的卷积(7)。首先,我们使用传统聚焦度量算子计算得到共焦图像序列的每个像素的聚焦度量值(8)。然后,以参考图像为全焦图像,计算全焦图像中每个像素的邻域的权重窗口作为自适应窗口,其中权重窗口的值归一化,也即窗口中权重的和为一。最后,计算自适应窗口和相应的共焦图像序列聚焦值窗口卷积值得到像素新的聚焦度量值。
在本文中我们使用颜色互相关系数(NCC)计算得到传统聚焦度量值。
4 实验与分析
为了评估本方法的有效性,我们用两组不同的相机阵列配置采集的实际场景数据进行了验证。第一组实验中,相机阵列由9台单相机组成,以3×3正方形方式均匀分布在阵列平面上,场景由深度连续变化的毛绒玩具熊和一张印有文字的纸构成。第二组实验中,相机阵列由64台单相机组成,以8×8正方形方式均匀分布在阵列平面上,场景以书籍和文具用品构成,其中有较多深度突变区域。
在第一组实验中,如图6所示,从估计结果中,我们可以看到,在深度不连续处,本方法基本准确判别了场景的深度变化。在背景中,由于文字相似度很高,聚焦判别算子有一些错误地估计进而导致深度估计错误。这是由于在重复纹理很高的区域,NCC聚焦判别算子会出现误判,得到的深度估计结果也会出现较大的偏差。在第二组实验中,如图7所示,本方法较准确地估计了前景物体的深度变化。在由于NCC聚焦判别算子对弱纹理区域的失效,所以导致背景深度的估计出现了较多的噪声错误。
图6 9相机阵列自适应聚焦度量深度图Fig. 6 Depth map of using 9 cameras composed array
图7 64相机阵列自适应聚焦度量深度图Fig. 7 Depth map of using 64 cameras composed array
5 结束语
本文提出一种基于共焦图像序列自适应聚焦度量算子的场景深度估计方法。首先,我们用相机阵列模拟了一个虚拟孔径相机对场景不同深度进行聚焦,得到共焦图像序列。根据图像清晰度线索,本文采用了自适应聚焦度量算子判别出共焦图像序列中的清晰聚焦点。自适应聚焦度量算子能准确判别场景深度不连续区域的清晰度,提高了聚焦测距法在深度突变处的估计结果。由于我们采用的传统的颜色互相关聚焦度量算子在对重复纹理和弱纹理的判别存在较大的偏差,因这些区域的深度估计有较大误差。在后续的聚焦测距法研究中,重复纹理和弱纹理区域的聚焦度的准确判别将是一个重要的研究内容。
[1]Pentland A. A New Sense for Depth of Field[J]. In Proc. IJCAI,Los Angeles, 1987, 9(4):523-531.
[2]Krotkov E P. Focusing[J]. International Journal of Computer Vision,1987, 1(3):223-237.
[3]Nayar S K, Nakagawa Y. Shape from focus[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994,16(8):824-831.
[4]Aydin T, Akgul Y. A New Adaptive Focus Measure for Shape From Focus[C]//BMVC. British Machine Vision Association,2008:1-10.
[5]Levoy M, Chen B,Vaish V,et al. Synthetic aperture confocal imaging[J]. ACM Transactions on Graphics,2004,23(3):822-831.
[6]Levoy M.Light fields and computational imaging[J].IEEE 2006,39(8): 46-55.
[7]Yoon K J,Kweon I S. Adaptive support-weight approach for correspondence search[J]. Pattern Analysis and Machine Intelligence, 2006, 28(4):650 - 656 .