基于深度图的多视点裸眼3D立体视频技术研究

2012-10-21李蓓

卷宗 2012年11期

李蓓

摘要：3D立体视频技术正引起越来越多的关注，但是目前绝大多数3D视频系统需要佩戴特殊眼镜才能够观看立体效果，或者要求观看者必须从某个固定角度进行观看。而多视点裸眼3D立体视频系统则可以避免以上两点限制，得到最好的3D观看体验。目前国际上最前沿的3D立体视频研究集中在基于深度图的多视点3D立体视频技术上面，本文对基于深度图的多视点裸眼3D立体视频系统的几个关键技术环节，包括深度图提取、虚拟视点合成、多视点视频合成等进行了研究并进行了相应的仿真实验，从实验效果来看，基于深度图的多视点裸眼3D立体视频系统具有数据量小、传输效率高、显示内容可自适应调节，用户交互性好等优点。

关键词：裸眼3D立体视频；深度图；3DTV

目前3D立体视频技术正引起越来越多人的关注，其中主流的3D技术主要包括双目立体视频（包含2个视点的视频数据）和多视点立体视频（包含8个以上视点的视频数据）。双目立体视频又可分为配戴眼镜观看和双目裸眼立体显示两种，其中前者必须佩带偏振眼镜，为观看带来了不便，后者则要求观看者必须从固定的角度进行观看，当有多人同时观看同一块显示器时，因为多数观看者无法获得最佳观看位置从而大大影响观看体验。而对于多视点立体视频技术而言，由于同一块裸眼3D立体显示器上可同时提供多个视点的内容，所以观看者可以从任意自由的角度来观看，极大地提升了观看的便利性。所以多视点立体视频已经成为当前技术研究的主流。但是，多视点立体视频相对于双目立体视频而言数据量成倍增长，为存储和传输带来了不便，而基于深度图的多视点立体视频技术具有数据量小的优点，因而成为最有潜力的多视点立体视频方案。本文深入研究了基于深度图的多视点3D立体视频技术中的若干关键技术环节，并进行了相应的仿真实验。本文的章节内容安排如下：第2节介绍基于深度图的多视点3D立体系统整体架构，第3节介绍深度图提取，第4节介绍虚拟视点生成，第5节介绍多视点视频合成，第6节总结全文。

一、基于深度图的多视点3D立体视频系统框架

基于深度图的多视点3D立体视频系统的技术框架如图1所示。首先需要进行原始视频序列的拍摄，虽然最终多视点裸眼立体显示系统需要9个甚至更多的视点的视频内容，但是实际的原始视频序列拍摄阶段只需要拍摄2-3个视点的视频即可，这是因为基于深度图的虚拟视点生成技术可以在解码端通过2-3个视点的视频生成多个视点（在本文中为9个视点）的虚拟视点视频，所以基于深度图的多视点立体视频技术具有数据量小，易传输的优点，克服了多视点视频数据量大的缺陷。

在原始视频序列拍摄完成后需要进行深度图的提取和相机参数的计算，该步骤中提取的深度图的质量直接决定了后期生成虚拟视点视频的质量。完成以上步骤后则需进行压缩编码并通过网络传输到解码端，解码端对数据进行解码后会进行基于深度图的虚拟视点生成，将原始的2-3个视点的视频数据变成9个视点的视频数据，获得的9个视点的视频数据还不能直接在多视点裸眼3D立体显示器上面播放，必须针对该显示器所使用的3D光栅结构进行多视点视频合成。

本文的后续章节将会对深度图提取、虚拟视点生成、多视点视频合成三个环节進行详细介绍并进行相应的仿真实验。

二、深度图提取

2.1深度图介绍

深度图是一副灰度图像（如图2-b），灰度值的范围为0-255。灰度值可结合场景的景深信息进行换算得到深度值，立体视频系统的实际应用中使用的是深度值。

深度图上的像素是0-255的灰度值，前文提到过深度图主要用于虚拟视点生成，在该过程中，我们用到的是实际的深度值，所以需要建立一个转换关系，将深度图中的像素灰度值换算为实际的深度值：

公式（1）中ｚ就是我们在虚拟视点生成过程所需要的深度值，ｖ表示图2-b中的深度图像中像素的灰度值，Ｚｎｅａｒ和Ｚｆａｒ分别表示该视频所拍摄的场景中的最近深度和最远深度，这两个值需要在原始视频序列的拍摄过程中进行测定。

2.2基于块匹配的深度图提取

用并排平行排列的两台相机拍摄同一场景，获得两幅图像，要获得其中一幅图像的深度图，需要用另一幅图像来与之进行像素配对，经过像素点的配对匹配之后就会获得该幅图像每个像素点在两幅图像中间的视差，而深度值与视差值之间的关系如下：

其中ｚ为我们要求的深度值，d为经过像素匹配后得到的视差值，f为相机的焦距，b为两台相机之间的基线距离。所以有了视差值d之后就可以很容易的获得深度值ｚ。但是最关键的环节是获得准确的视差值，所以需要进行精确的像素点匹配，但是实际上由于不同相机之间曝光参数的差异，即使拍摄的是同一场景，像素点之间依然存在亮度差异，所以我们采用了图像块匹配的办法，在一定程度上提高了像素点匹配的鲁棒性，在本文的试验中所使用的是3×3大小的图像块，必须指出的是，本文默认拍摄原始视频序列的是严格水平平行的两台相机，所以在进行图像块的匹配时只进行水平搜索而不进行垂直搜索。整个深度图提取过程如图3所示。

对国际视频标准制定组织MPEG提供的多视点视频序列进行实验提取的深度图如图4所示。

三、虚拟视点生成

虚拟视点生成技术[2]可以将左右视点中的像素投影到两视点中间的任意位置，从而生成原本没有被相机拍摄到的虚拟视点的视频图像（如图5所示），该生成过程需要用到左右两个视点的深度图以及相机参数。该技术主要用到了3D投影的算法，3D投影算法用于发现两个图像平面之间的对应点，具体过程为将一个图像平面上的点投影到3D世界坐标系，然后再将该点从3D世界坐标系投影到另一个图像坐标平面。

对于任一给定的点p0，坐标为（u0，v0），位于图像平面V0。如果要找到改点在图像平面V1的对应点P1的坐标（u1，v1），那么整个3D投影过程应按如下式所示进行计算：

在这里，z是3D世界坐标中的点沿着相机坐标系的到相机的Z轴到相机的距离，P是对应的投影矩阵。该投影矩阵P由相机的内部矩阵K，旋转矩阵R和平移矩阵T组成，具体P的描述如下所示：

其中，K是3×3的上三角矩陣，由焦距f，倾斜参数？酌和虚拟相机位置上的理论点（u'，v'）组成。R和T描述了世界坐标空间下的相机位置。

经过以上步骤即可初步实现基于深度图的视点合成。

四、多视点视频合成

4.1裸眼3D立体显示原理

要使观看者体验到3D立体效果，其核心的原理是使双眼分别同时看到不同的画面，从而获得立体感，最简单的方法就是目前最为常见的佩带特殊眼镜，这样可以强制控制两眼所看到的内容，但是该方案为观看者带来了极大的不便（特别是本身就戴眼镜的观众）。本文使用的方案为裸眼3D立体显示，主要实现途径为在显示器屏幕前增加视差栅栏，通过栅栏控制各像素光线的射出方向，使某些图像仅射入左眼，某些图像仅射入右眼，从而形成双目视差，产生立体视觉（如图6所示）。

4.2多视点视频合成

本文中所使用的裸眼3D视差栅栏结构上更为复杂，可以通过其栅栏遮挡控制9个视点的图像内容，从而实现了在同一块显示器上同时显示9个视点的图像，虽然观看者在同一时刻双眼只能分别看到其中两个视点的图像从而获得立体感，但9个视点的图像使得显示器的可观看角度大大增加。为了配合9视点光栅栅栏的显示，我们需要对9个视点图像的RGB像素进行重排列，重排列的顺序如图7所示。图中的数字代表视点的编号，按图中的顺序将9个视点图像的RGB值重新组合排列，会得到一幅分辨率为原先每个视点图像9倍大小的立体图像，立体图像可用于在多视点裸眼3D显示器上播放。由9个视点图像合成的立体图像如图8所示（该图像只有在9视点裸眼栅栏式立体显示器上才可以看到立体效果）。

结论

基于深度图的多视点立体视频技术是当前3D立体视频的研究热点，该技术不需要佩带特殊的3D立体视频眼镜，并且具有总数据量小、观看可视角度大的优点。本文深入研究了基于深度图的多视点裸眼3D立体视频系统的几个关键技术环节，包括深度图提取、虚拟视点合成、多视点视频合成等进行了研究并进行了相应的仿真实验。

参考文献

[1]Müller，K.；Merkle，P.；Wiegand，T.；，"3-DVideoRepresentationUsingDepthMaps，"ProceedingsoftheIEEE，vol.99，no.4，pp.643-656，April2011

[2]Ndjiki-Nya，P.；Koppel，M.；Doshkov，D.；Lakshman，H.；Merkle，P.；Muller，K.；Wiegand，T.；，"DepthImage-BasedRenderingWithAdvancedTextureSynthesisfor3-DVideo，"Multimedia，IEEETransactionson，vol.13，no.3，pp.453-465，June2011

[3]Muller，K.；Merkle，P.；，"Challengesin3Dvideostandardization，"VisualCommunicationsandImageProcessing（VCIP），2011IEEE，vol.，no.，pp.1-4，6-9Nov.2011

[4]Sourimant，G.；，"Asimpleandefficientwaytocomputedepthmapsformulti-viewvideos，"3DTV-Conference：TheTrueVision-Capture，TransmissionandDisplayof3DVideo（3DTV-CON），2010，vol.，no.，pp.1-4，7-9June2010

[5]Hopf，K.；，"Anautostereoscopicdisplayprovidingcomfortableviewingconditionsandahighdegreeoftelepresence，"CircuitsandSystemsforVideoTechnology，IEEETransactionson，vol.10，no.3，pp.359-365，Apr2000