APP下载

自动2D-to-3D视频转换技术研究

2012-06-22杨宇李鉴增

关键词:深度图双目灰度

杨宇,李鉴增

(中国传媒大学信息工程学院,北京 100024)

自动2D-to-3D视频转换技术研究

杨宇,李鉴增

(中国传媒大学信息工程学院,北京 100024)

目前3D视频内容不足是制约3D技术发展的重要因素之一,自动2D-to-3D视频系统可以快速且低成本地将二维图像转换成双目立体图像,具有很好的发展前景。自动2D-to-3D视频系统分为图像分割、深度信息提取、深度的融合与分配、立体图像生成等多个部分,本文对自动2D-to-3D系统的各个组成部分的原理与主要算法进行了介绍与分析,最后,还介绍了自动2D-to-3D系统生成的图像客观评价的发展情况。

2D-to-3D;双目立体;图像分割;深度信息;3DTV

1 引言

双目立体图像(Stereoscopic video,SSV)能给人带来非同寻常的主观感受,3D电视产业则利用双目立体技术,吸引了大批观众。双目立体节目制作方法主要有以下几种[1]:第一,使用专业、昂贵、复杂的双目立体摄像机系统拍摄,并使用专业实时硬件或后期软件处理图像。第二,利用CG制作三维动画,通过软件的虚拟摄像机生成多路不同角度的图像,进而产生双目立体图像。第三,利用图像处理方式将2D图像通过人工的后期软件制作成左右两路图像。第四,通过自动2D-to-3D系统将2D图像自动处理合成为双目立体图像。前三种方法过程非常繁琐,成本也很高,为了降低3D内容的成本和制作难度,人们努力开发自动2D-to-3D系统,该系统能自动将二维图像转换成三维图像,不需要复杂的立体摄像系统、实时处理系统和后期处理设备。

自动2D-to-3D系统主要分为两大类[2]:第一类是离线转换,第二类是在线转换。离线转换对时间要求不高,可以对图像进行逐像素的分析,并使用复杂算法从而更加精确的进行图像分割,深度信息提取等图像处理步骤。在线转换则要求实时处理,一般还会结合人眼视觉中的错觉特性,减小数据处理的复杂程度。

自动2D-to-3D系统的处理过程如图1所示。首先利用空间域和时间域的特征,从单目图像中提取深度信息;同时对单目图像进行图像分割,即把2D图像分割出多个区域。然后,将深度信息与图像分割轮廓信息相结合,进行深度分配和融合,之后,通过滤波可产生的深度图。由于深度信息与双目立体图像的视差有直接关系,将原始2D图像根据深度图提供的数据进行平移和填补,最终可形成左右两幅双目立体视频图像,即3D图像。

2 深度信息提取

人眼具有三维立体视觉的能力,其原因有很多[3],但最重要的因素是人类两眼视轴存在间距。在观察一定距离的物体时,左眼和右眼所接收到的视觉图像是不同的。大脑通过眼球运动和调整,综合了左右两幅图像的信息,产生立体感觉。

除了双目视觉外,人类也能凭经验通过单目图像来判断出画面内容的深度信息。对于静态图像,人们通过透视关系与相对大小、纹理变化、遮挡、清晰度、饱和度和色调的变化、高光及投影、形状、水平高度等信息来判断景物的深度。对于动态图像,图像中的运动速度也可以是判断深度的依据。自动2D-to-3D系统中的深度提取主要是通过对以上单目信息进行分析和处理而实现的。

在文献[4]中,Battiato将图像进行中值滤波后,利用特征统计,将不同颜色的像素分类为天空、极远山、远山、近山、陆地、其他类;分类不同,则相应区域就填充不同的灰度,从而表示不同的深度。接着将图像进行垂直分条,通过统计分析,将图像分为室外类(无几何物体)、室内类、室外(有几何物体)三类,各类图像要使用不同的深度融合和深度分配方法。

在边缘检测方面,文献[4]利用Sobel算子,通过水平滤波和垂直滤波再经归一化边缘检测获得图像的消失线。文献[5]则利用Robinson算子进行梯度检测,然后引入尺寸可调的能量滤波块,滤掉干扰型分割线,将能量较小的线型分割线挑选出来。最后对所有消失线的坐标进行统计,计算出这些消失线的交点——消失点(VP)。消失点的位置则决定了深度分配时,深度渐变填充的位置。

在利用纹理提取深度信息方面,David Harwood利用Laws纹理能量检测技术[6],采用图2所示8个算子提取纹理特征。Young[7]则综合使用纹理和运动信息提取深度。

图2 八种3×3 Laws算子

对于小景深(Low DOF)的视频来说,感兴趣对象(Object of interest,OOI)一般都清晰成像,而景深以外的场景非常模糊。文献[8]使用了基于色彩的高次统计(Higher Order Statistics,HOS)算法,对图像的R、G、B分量分别计算一个区域范围内的均值四次方差,提取R、G、B最高值后归一化,得出高频信息。接着使用形态学做先闭后开运算,将本不连续的图像边缘高频信息连接到一起。经过量化和区域渲染(Region Merging)[9],即可得到 OOI区域。再结合运动矢量,继而快速的计算出视频序列的深度信息。

对于运动视频序列来说,一般按照物体运动越快距离摄像机越近的原则提取深度信息。运动矢量的运算需要依靠前后两帧进行运动搜索[10],使用基于块的运动搜索[11-12]可减少运算量。相似块的判断可通过SAD(Sum of absolute difference)算法计算。

选到相似块后,通过计算前后帧相对应块的运动矢量,即可得到深度信息。

由于深度信息的提取方法有很多种类,使用单一类型的信息进行深度提取效果并不好,因此文献[13]采用了随机森林(RF)计算机学习方法,这种方法结合了多种深度提取的算法,用多种深度因子构成RF模型。首先对RF模型进行训练,训练用的图像来自于Color+Depth型摄像机。模型的参数包括运动视差、纹理渐变、光线散射、透视关系(边缘信息)、垂直空间坐标、图像清晰度、遮挡等,训练好的RF模型便可以作为自动2D-to-3D系统的深度提取工具了。

3 图像分割

图像分割就是把图像分成各具特性的区域,并利用图像信息中部分特征,提取图像中若干感兴趣目标的技术和过程。

为了减少计算量,自动2D-to-3D系统常用基于块的分割方法[14],将图像分割成N×N的块,图像的每个块之间是默认链接的,利用边缘信息进行判断,如果边缘梯度较强,则块与块之间的链接断裂,这样就可以将图像分割成若干个连通的区域,如图3所示。图3(a)中每一个方格便是N×N的块。对每一个块进行与周围相邻八个块的平均值差运算,利用最小生成树的算法,即平均值差较小(相似度大)的相邻块被链接到一起,见图3(b)中的实线部分;反之,则将块与块之间链接去除,见图3(b)中的虚线。最终,链接到一起的便是分割好的整块区域,如图3(c)所示。

图3 基于块的边缘检测图像分割

对于彩色图像,可直接对图像进行色彩量化,或对图像中的每个像素的色彩进行阈值分割[4],但是这种方式精度不高。色彩凝聚[14]的方法可以增加分割精度,但是这种方法要循环分析并统一图像中最为相近的颜色,因此需要较长的运算时间。

另外,在图像分割之前进行预处理滤波是十分必要的,一般的均值滤波、中值滤波、高斯滤波等低通滤波器不但平滑了区域内部,也使区域边缘的高频信息被滤掉了。双边滤波器[15]可以将图像区域边缘的高频信息保留,又能很好的将区域内部的复杂度降低,从而使提高后续的分割质量。

4 深度分配

深度信息提取得来的数据并不是最终的深度图,需要根据深度信息的值,赋予相应位置像素一定的灰度值。灰度值越高,表明对象距离摄像机越近;灰度值越低,表明对象距离摄像机约远。深度分配主要分为两类,一类是针对深度变化不大的对象进行深度分配,每一个区域赋予单一灰度值即可;另一类是针对空间上有远近渐变的物体进行深度分配,这类区域需要填充渐变的灰度值。

第一种深度分配相对简单,可根据统计,将不同颜色的区域划分为不同的灰度[4],蓝色代表天空,所以深度最远,用较低值填充;青绿色代表草地,所以深度居中,所以用中间值填充。

根据近大远小的原则,也可以跟据区域在图像中的水平或垂直位置,或宽高来赋予灰度值。如图4所示,物体的宽度(高度)Di与应赋予的灰度值Li关系如公式(1)

图4 深度与画面宽度的关系

其中Zmax为最高灰度电平,一般为 255;Zmin为最低灰度电平,一般为 0;m为深度图的量化比特数,一般取 8;a为调整系数。

同理,对于检测运动矢量判断深度的算法,实际上就是探讨不同对象区域在相同时间内的位移量,赋予灰度电平的算法与上式一致。

对于第二类深度分配的方法,可根据图像特征选取图5所示的渐变灰度图之一[14]。灰度电平与水平垂直坐标的关系亦同公式(2)。

图5 五种渐变灰度

如果考虑到消失点和消失线的因素,深度渐变填充则更加复杂。结合消失点的位置不同,深度变化可分类为以下五种[4],如图6所示。图中的虚线为画面对角线,通过消失点坐标即可判断图像属于哪一种分类。

图6 消失点在图像中的位置

消失点是观看者看到的最远点。结合消失线的位置和斜率,即可完成灰度渐变图,如图7所示。

5 深度融合

深度融合是将分割后的图像与带有深度信息的几何深度图合成最终的深度图。独立的图像分割图像和深度信息图都不是深度图,因为图像分割是不考虑深度的,而深度信息图通常有很多噪点,也不能将图像划分为大块区域,深度融合则要结合图像分割提供的区域和深度信息对应的灰度,生成最终的深度图。

图7 消失点与消失线对于灰度渐变的影响

对于深度信息灰度值极其离散的情况[12],可对分割区域对应的深度信息灰度做均值融合,中值融合或高频值融合,使用具有代表性的灰度值填充分割区域。

文献[4]则讨论了更加复杂的情况,通过对分割后图像进行复杂的语义统计并分类(图像分成室内类、室外类、室外含几何物体类)后,对于室内类图像,直接使用渐变灰度值(如图7所示)填充,如果图像属于室外类,则对陆地等部分用渐变灰度填充,但天空和山脉用单一灰度值填充,如果图像属于室外含几何物体类,则天空部分用单一灰度值填充,剩下的部分用渐变灰度填充。

6 双目立体图像生成

深度融合后产生的深度图经适当的滤波,即可与原始2D图像进行运算,主要使用的方法是DIBR(Depth-Image-Based Rendering)[16]。根据深度图提供的深度值Z和假设已知的摄像机或人眼的间距e和焦距f,继而计算出原始2D图像上每一点像素在另一个视角下图像中的平移量D,如式(2)。

由于不同像素的平移量不同,平移后的图像会出现空洞,因此还要进行填洞(Hole-Filling),填洞的方法一般是内插或复制边缘值,并使用背景图作为运算参考,文献[13]在填洞时,把深度图进行低通滤波,减少深度骤变的情况。文献[17]则使用不同精度的深度值进行图像平移,避免了填洞的运算。

7 质量评价

自动2D-to-3D系统中,深度信息提取,图像分割,深度分配和融合等每一步骤都不可能完全精准,而且2D图像在记录中已经丢失了第三维信息,很难找到一种算法能完全正确的分析出深度信息,因此自动2D-to-3D系统输出的立体图像质量并不能像双目立体摄像机拍摄到的立体图像那样令人满意。另外,由于3D图像是由2D图像和深度图通过计算生成的,因此对自动2D-to-3D系统生成的双目立体图像质量进行评价时,不但要考虑到彩色图的质量,也要考虑深度图的质量。

针对2D色彩图像加深度图的质量评价已经得到了广泛关注[19],现存的2D图像客观评价的方法是可以独立评价2D彩色图像和深度图像的,但是无法评判人脑感受到的三维效果,人们正在努力研究如何将深度重建加入到客观评价运算模型中。

另外,即使能对2D色彩图像加深度图进行良好的客观评价,在DIBR和填洞处理中,还是会进一步引入2D图像和深度感的失真。针对这一失真,还需进一步完善客观评价方法。

8 结论

3D图像能够给人带来2D图像无法提供的透视感,而高质量的3D图像的生成是需要花费大量的人力物力的,自动2D-to-3D系统能够帮助人们以极的低成本获得3D图像,能够使3D内容市场更加丰富多彩。

但是目前的自动2D-to-3D系统多为实时系统,在算法应用上存在诸多限制,另外,虽然当前人们对深度提取、图像分割、深度分配与融合、图像生成技术以及主观、客观评价方法的研究十分关注,而现有的技术和方法并不成熟,自动2D-to-3D系统生成的立体图像质量也不尽如人意,不能完全满足人们的需求。人们对自动2D-to-3D系统的开发与研究,未来还有很长的路要走,不过,人们在这方面的努力还是促进了相关学科(如图像处理、图像识别等领域)和相关产业的进一步发展,因此具有长远意义。

[1]Tam W J,Zhang L.3D-TV content generation:2D-to-3D conversion[C].Proc.ICME,2006,1869-1872.

[2]Li Sisi,Wang Fei,Liu Wei.The Overview of 2D to 3D Conversion System[C].CAIDCD,2010 IEEE 11th International Conference,17-19 Nov.2010:1388–1392.

[3]Bernard Mendiburu.3D Movie Making[M].Burlington:Focal Press,2009:21-28.

[4]Battiato S,Curti S,Scordato E,et al.Depth map generation by image classification[J].Three-Dimensional Image Capture and Applications VI,vol.5302,2004:95-104.

[5]Yi Min Tsai,Yu Lin Chang,Liang Gee Chen.Block-based Vanishing Line and Vanishing Point Detection for 3D Scene Reconstruction[C].ISPAC2006:586-589.

[6]Harwood D,Ojala T,et al.Texture Classification by Center-symmetric Auto-correlation,using Kullback Discrimination of Distributions[J].Pattern Recognition Letters,1995,16(1):1-10.

[7]Young M J,Landy M S,Maloney L T.A Perturbation Analysis of Depth Perception from Combinations of Texture and Motion[J].Vision Res,1993,33(18):2685-2696.

[8]Park J,Kim C.Extracting Focused Object from Low Depth-of-Field Image Sequences[C].Visual Communications and Image Processing,2006.

[9]Kim C.Segmenting a Low Depth-of-Field Image Using Morphological Filters and Region Merging[J].IEEE Tr on Image Processing,2005,14(10):1503-1511.

[10]Turaga D,Alkanhal M.Search Algorithms for Block-Matching in Motion Estimation[EB/OL].http://www.ece.cmu.edu/~ ee899/project/deepak_mid.htm.1998.

[11]Zhu S,Ma K.A New Diamond Search Algo-rithmfor Fast Block-Matching Motion Estimation[J].IEEE transactions on image processing,2000,9(2):287-290.

[12]Po L M,Xu X Y,YS Zhu,et al.Automatic 2D-to-3D Video Conversion Technique Based on Depth-from Motion and Color Segmentation[C].ICSP2010 Proceeding:1000-1003.

[13]Pourazad M T,Nasiopoulos P,Bashashati A.Random Forests-Based 2D-to-3D Video Conversion[C].ICECS,2010:150-153.

[14]Cheng C C,Li C T,Chen L G.A 2D-to-3D conversion system using edge information[C].IEEE International Conference on Consumer Electronics,2010:1739-1745.

[15]Tomasi C,Manduchi R.Bilateral Filtering for Gray and Color Images[C].IEEE International Conference on Computer Vision,1998.

[16]Fehn C.A 3D-TV Approach Using Depth-Image-Based-Rendering(DIBR)[C].in Proceedings of Visualization,Imaging,and Image Processing ’03 ,Benalmadena,Spain,Sep.2003:482-487.

[17]Fan Y C,Chi T C.The Novel Non-Hole-Filling Approach of Depth Image Based Rendering[C].3DTV Conference:The True Vision – Capture,Transmission and Display of 3D Video,28-30 May 2008:325 – 328.

[18]Oh K J,Yea S,Ho Y S.Hole-Filling Method Using Depth Based In-Painting for View Synthesis in Free Viewpoint Television(FTV)and 3D Video[R].Picture Coding Symposium(PCS),May 2009(PCS 2009).

[19]Hewage C,Worrall S,Dogan S,Kondoz A M.Quality Evaluation of Colour plus Depth Map Based Stereoscopic Video[J].IEEE Journal of Selected Topics in Signal Processing,2009,3(2):304-318.

The Research of Automatic 2D-to-3D Video Conversion Technology

YANG Yu,LI Jian-zeng
(Information Engineering School,Communication University of China,Beijing 100024,China)

Lack of 3D content embarrassed 3D development.2D images can be converted to 3D by automatic 2D-to-3D system,which can make 3D content generating more conveniently and cheaply.Automatic 2D-to-3D processing includes image segmentation,depth extraction,depth fusion and assignment,depth image based rendering.This paper presents the methods and algorithm,and then introduces the situation of assessment methods researching for color and depth image based stereo video.

2D-to-3D;stereoscopic;image segmentation;depth cue;3DTV

TP391.41

A

1673-4793(2012)02-0016-06

2011-12-20

杨宇(1978-),女(汉族),北京人,中国传媒大学讲师,在读博士.E-mail:young_rain@cuc.edu.cn

(责任编辑

:王 谦)

猜你喜欢

深度图双目灰度
采用改进导重法的拓扑结构灰度单元过滤技术
霜 降 苏美玲
一种基于WMF-ACA的深度图像修复算法
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
Arduino小车巡线程序的灰度阈值优化方案
基于双目测距的卡尔曼滤波船舶轨迹跟踪
基于深度图的3D-HEVC鲁棒视频水印算法
一种基于局部直方图匹配的深度编码滤波算法
叠加速度谱在钻孔稀少地区资料解释中的应用
基于双目视觉图像的长度测量方法