基于非线性扭曲的多视点立体显示内容生成
2013-09-04陶秋琰王梁昊
陶秋琰,王梁昊
(浙江省综合信息网技术重点实验室,浙江杭州310027)
0 引言
近年来,3D行业得到迅猛发展,业界推出了多款兼容2D/3D的数字显示设备,且正从眼镜式立体显示逐渐过度到裸眼自由立体显示。目前,制约裸眼多视点自由立体显示行业发展的瓶颈问题是播放内容的缺乏。直接拍摄得到多视点自由立体播放内容存在编码传输数据量过大的问题,更重要的是由于实际相机的物理尺寸和拍摄定标的问题,直接拍摄多视图在某些场景甚至是完全不可行的。更为合理的解决方案是拍摄得到部分的视图,在终端用较少视图和额外信息合成多视图再进行显示,算法已成为业界的研究热点。多视点自由立体显示需要在不同的观看角度得到不同视图的内容。传统的基于深度图像绘制(Depth Image Based Rendering,DIBR)的方法在精确的深度获取和空洞填补上存在问题[1-4],因此本文研究一种基于非线性Warping的多视点内容生成算法。算法无需深度图,且不产生空洞,得到的结果从某种程度上说是对于DIBR方案的拟合,图像质量好。
1 基于非线性Warping的多视点内容生成
本文所研究的基于非线性Warping的新视图生成算法框架分为输入图像分析、能量方程构建、求解最小解和视图综合4个步骤,如图1所示。从本质上来说,这4个步骤实现的是对输入的立体视频在一系列约束条件下的扭曲,得到视觉可信的其他位置的视图,组成主流的多视点自由立体显示的多个视图。
1.1 输入视频分析
对输入的立体视频进行分析包括提取视图间的特征对、检测图像中的直线和关注度图3个部分。特征对的获取分为检测、描述和匹配,采用经典的SURF算法控制特征点个数和运算时间[5],得到特征对间的视差关系以保证立体效果。直线的扭曲是人眼敏感的瑕疵,因此对于图像中近似垂直方向的长直线需要进行特别的保护。相比传统的直线检测方法(Canny边界加Hough直线检测),本文选用稳定度更好的LSD算法[6]。同样的,对于人眼较为敏感的高关注度部分也需要在扭曲时减小变形程度,选择亮度对比度和色彩对比度构建关注度图。
图1 基于非线性Warping的多视点内容生成示意框
1.2 能量方程构建
前述视频分析得到的各项因素,将其作为约束条件表达为能量方程。本文采用了3个能量项,分别为特征点视差项、网格保形项和时域平滑项。
特征点视差项(Ef)使新视图中的稀疏特征点和直线检测的采样点根据视点位置尽量接近正确的视差,用于保证新视图的视差即立体效果。
式中,W(XL)为左图中特征点在新视图中的位置;Xi为特征点在该视图中的理想位置;x为图像变形后的特征点列坐标,通过网格变形顶点计算得到;xi为根据特征对的时视差和视图位置得到的理想特征点新列坐标;Sn为第n个网格的平均关注度。网格保形项(Ec)是为了控制局部变形程度,防止出现过大的扭曲结果。
式中,Vi为第i个网格顶点位置;W(Vi)为经过扭曲函数计算得到的顶点位置。最后的时域平滑项(ET)是为了减小帧间的视频抖动情况,检测前后帧之间的相似度,相似度越高则该项的系数越高。
式中,xj,i-prev为前一个时刻的坐标位置。
1.3 能量方程求解和视图综合
得到能量方程后,令其偏导式为零可以构造出一组线性方程。求解线性方程组得到的能量最小解即是新视图中网格顶点的位置。这样就将连续图像内容扭曲的问题转化为能量最小化方程的求解问题。合理的系数可以使得最后得到的新视图在视觉上立体效果可信且无明显瑕疵。利用求解得到的顶点位置可以综合出新位置的不同视图,完成由立体输入到多视点输出的转换。
2 实验结果分析
本文实验平台CPU∶Intel酷睿2四核Q9,主频:3GHz,内存:4GB DDRII。算法实现从立体输入到8视点输出的时间如表1所示。视频分析中各步骤的具体实现时间如表2所示。
表1 计算时间
表2 视频分析分步时间
最后得到的结果中,视频同一帧立体视图扭曲得到的第1和第8视图如图2所示。由于视差较小,为了看清结果在图上增加了网格线。从图2中可以看到,并不存在明显的视觉瑕疵。另外,由于输入的左右视图是以前景为零视差的,得到的结果前景仍然基本保持零视差,而第1视图的背景整体向左平移,第8视图的背景整体向右移动,其背景处视差明显,因此可以得到较好的立体效果。处于画面中心的人物为零视差处,当背景移动时,前景人物应保持不动,可以观察到中间区域的网格反向扭曲,但仍出现了细微的视差。这是因为基于非线性Warping的多视点生成算法本身就是由能量方程平衡各个约束因素,而每个条件都不可能达到理想状态。为了使背景视差明显而又尽可能的在视觉上得到不扭曲的结果,前景也会随之发生一定的移动。
图2 输出的第1和第8视图对比
3 结束语
本文研究了基于非线性Warping的立体转多视点自由立体显示内容生成算法。系统仅需要立体视频的输入,将其划分网格后,经过视频分析、构造并求解能量方程得到新的网格顶点位置,生成自由立体显示所需的新视图。本方案的优点是不存在明显的视觉瑕疵。未来还可以尝试其他的特征点检测方案和更优化的网格分法以求得到更好的效果和更快的速度。
[1]Leonard McMillan Jr.An image-based approach to three-dimensional computer graphics[D].Chapel Hill:University of North Carolina,1997.
[2]Farre Miquel,Oliver Wang,Manuel Lang,etal.Automatic content creation for multiview autostereoscopic displays using image domain warping[C].Barcelona:Multimedia and Expo,2011:1 -6.
[3]Huang Yu-hsiang,Huang Tzu-kuei,Huang Yan-hsiang,etal.Warping-Based Novel View Synthesis from a Binocular Image for Autostereoscopic Displays[C].Melbourne:Multimedia and Expo,2012:302 -307.
[4]Du Songpei,Hu Shimin,Ralph Martin.Changing Perspective in Stereoscopic Images[J].Visualization and Computer Graphics,2013,19(8):1 288 -1 297.
[5]Herbert Baya,Andreas Essa,Tinne Tuytelaars,etal.Speeded-up robust features(SURF)[J].Computer vision and image understanding,2008,110(3):346 -359.
[6]Rafael Grompone von Gioi,Jérémie Jakubowicz,Jean-Michel Morel,etal.Lsd:A line segment detector[EB/OL].http://www.ipol.im/pub/artgjmr- lsd/,2012 -03 -24.