基于宏块多相关性的多视点视频编码方法

2015-01-06王凤随王冠凌瞿成明

计算机工程 2015年2期

关键词：宏块视点时域

王凤随,王冠凌,瞿成明,赵发

(安徽工程大学电气工程学院,安徽芜湖241000)

基于宏块多相关性的多视点视频编码方法

王凤随,王冠凌,瞿成明,赵发

(安徽工程大学电气工程学院,安徽芜湖241000)

为降低多视点视频编码(MVC)中过高的计算量,提出基于宏块多相关性的多视点视频编码视间预测与Direct模式提前终止算法。分析MVC参考模型(JMVC)中时域预测和视间预测的特点及Direct模式的分布情况。基于当前宏块的时间和视点之间率失真代价的大小关系判断是否进行视间预测。利用先前已编码宏块的编码模式信息确定是否跳过Direct模式。实验结果表明,同JMVC的全搜索算法相比,该算法能降低编码的计算复杂度,平均可达75.62%,同时保持几乎相同的编码率失真性能。

多视点视频编码;多相关性;运动补偿;视间预测;提前终止;率失真代价

1 概述

多视点视频编码(Multi-view Video Coding, MVC)利用不同视点的视频数据为用户呈现丰富的立体视觉信息,是实现3D视频的一种实用编码技术,被广泛应用于三维电视(Three Dimensional TV, 3DTV)、自由视点电视(Free viewpoint TV,FTV)等诸多领域[1-2]。近年来,已提出了基于H.264/AVC的MVC编码方案[3],并提供了公共的MVC研究平台——多视点视频编码(Joint Multi-view Video Coding,JMVC)[4]测试软件。由于MVC增加了视点间预测及采用了众多的新技术,使得编码效率提高的同时,也需要消耗相当大的编码时间,已经成为阻碍MVC实际应用的瓶颈。

为减少MVC的计算量,国内外研究学者做了大量的工作,现有算法可分为4种类型:(1)通过确定一个阈值进行模式选择的提前终止,以达到节省编码时间的目的[5-8]。(2)通过确定运动估计的参考方向[9]或者加速运动估计和视差估计的搜索实现计算量的降低[10]。(3)通过对当前宏块(Marcoblock, MB)和相邻视角处于同一位置宏块进行相似性分析来实现复杂度的减少[11-13]。(4)类型是通过联合运用参考方向、搜索范围和宏块复杂度达到编码时间的减少[14-16]。

上文提及的各种算法能够不同程度地使MVC的计算复杂度得到有效的降低,然而算法在时间节省和编码图像质量方面仍然需要进一步改善。上述算法中,在时间节省方面越高的算法,编码视频图像质量就越差;而具有较好的峰值信噪比(Peak Signalto-Noise Ratio,PSNR)和较高的压缩率的算法,通常都需要消耗更多的编码时间。此外,上述方法主要考虑了视点之间的相关性信息,当视差矢量定位不准或不同视点之间存在遮挡时,算法的整体性能就会受到严重的影响。

本文基于先前的研究工作[17-18],通过分析JMVC中的时间相关性和视间相关性以及Direct模式的分布情况,提出视间预测选择准则和Direct模式提前终止策略。

2 研究动机

2.1 时域预测与视间预测

MVC采用图像组(Group of Pictures,GOP)的帧编码结构——分层B帧(Hierarchical B Picture, HBP)预测结构。视点编码结构可划分成2个部分:仅进行时域方向预测的主视点和同时进行时域和视点间预测的辅视点。因此,处于辅视点中的宏块有2种类型的预测:(1)与H.264/AVC类似,称为运动补偿预测(Motion Compensation Prediction,MCP); (2)视差补偿预测(Disparity Compensation Prediction,DCP)。DCP是多视点视频不同于单视点视频的最显著特征之一,也是引起计算复杂度增大的重要因素之一。MVC在进行块匹配搜索时,首先需要判别预测方向,通过比较时间方向和视点方向所有预测模式的率失真代价(Rate Distortion cost,RD cost)的大小来确定最佳预测方向。由于MVC的模式数目众多,且计算RD cost的过程又十分耗时,因此预测方向的判断过程是十分耗时的。而实际的情况是,在进行复杂的方向判断之后,大部分情况下MCP经常被选作最佳预测,在拍摄视频数据没有进行校准时尤为突出。在JMVC中,DCP和MCP实际上是公用同一模块,因此两者的计算量也大致相同。然而,视点方向却很少被选用,这样每次预测都进行检查势必耗费大量不必要的编码时间。如果能够通过某种方法,可以提前确定当前块的预测方向,那么大量不必要的DCP过程就可以直接跳过,从而大大降低MVC的编码时间。

基于上述分析和多视点视频自身的特点,通过对JMVC8.0的实验统计分析发现,MVC在进行方向预测时,若当前宏块的帧间16×16分块选用视点方向预测,那么该宏块的其他模式分块(如16× 8块、8×16块、8×8块等)最终选用视点方向预测的可能性极大。这说明帧间各模式的预测方向具有很强的相关性。为了验证这一观点,图1给出了各图像顺序计数(Picture Order Count,POC)上的统计结果。图中纵坐标表示仅帧间16×16块选择视点方向预测占所有模式遍历后选择视点方向预测的百分比。

图1 帧间分块在所有选用视间预测中的比例

从图1不难看出,帧间16×16块选择视点方向预测在所有模式遍历后选择视点方向预测中所占的比例非常高,平均可达88%。因此,在进行预测方向判断时,可以用帧间16×16块视间预测结果作为其他分割模式是否进行视间预测的判别依据。

2.2 Direct模式分布情况

一般而言,较大的宏块分割模式(如16×16块)通常适合编码运动缓慢的同质区域;而小的宏块分割模式(如8×8块)通常用于编码具有快速运动的复杂区域。Direct模式是一种特殊的16×16块分割模式,直觉上,Direct模式在运动缓慢的均匀区域应该占有很高的比例[17],而这样的区域在自然视频中也是出现最多的情况。换言之,Direct模式成为最佳模式的可能性非常高。为了证实此观察,通过实验得到了MVC的最优模式的统计分布情况,如表1所示。实验参数设置如下:(1)GOP=12;(2)量化参数(QP)=32;(3)启用率失真优化(Rate Distortion Optimization,RDO)技术;(4)搜索范围:±64。

表1 MVC最优模式分布情况%

从表1容易看出,Direct模式在所有模式中被选为最优模式的比例最高,平均可达81.46%,对于那些运动缓慢的均匀区域所占比例更高,如序列“Exit”。需要说明的是,Direct模式不需要进行复杂的MCP和DCP过程,具有很小的计算量,而其他模式需要进行MCP/DCP检查过程,计算复杂度极高。因此,设计一种能够提前确定Direct模式是否为最优模式的算法是十分有必要的。

3 本文算法描述

3.1 视点方向预测

根据2.1节的分析,视点方向的提前判别可通过inter16×16模式是否选择视间预测而确定。为此,首先要得到当前宏块的inter16×16模式的预测方向,由于预测方向的确定是通过比较时间方向和视点方向上的RD cost实现的,因此必须得到inter 16×16模式在这2个方向上的RD cost值。如图2所示,考虑到当前宏块与相邻宏块的时间相关性和视点间相关性,inter16×16模式的时域RD cost值JT和视间RD cost值JV可分别利用已编码块的模式信息确定。鉴于当前宏块和前向及后向参考帧都有很强的相关性,JT可通过计算前向参考帧RD cost值JT-1和后向参考帧RD cost值JT+1两者的平均值而得到,如下式所示:

类似地,JV也可通过计算前向视点RD cost值JV-1和后向视点RD cost值JV+1的平均值而获得,如下式所示:

在式(1)和式(2)中,JT-1,JT+1,JV-1和JV+1可通过下式计算而得:

表2 宏块MBi的加权因子

图2 当前宏块的时间和视点间相邻宏块

3.2 Direct模式提前终止

通过2.2节的分析可知,Direct模式在现实的视频序列中最有可能被选作最佳模式。为此,本文利用当前宏块的时间和视点间的相关性计算对应的时域阈值ThT和视间阈值ThV。与JT类似,时域阈值ThT为前向时域阈值ThT-1和后向时域阈值ThT+1的均值;视间阈值ThV与JV类似,通过前向视间阈值ThV-1和后向视间阈值ThV+1的平均值计算得到。ThT-1,ThT+1,ThV-1和ThV+1通过式(4)计算:

通过式(4)可分别计算出时域阈值ThT和视间阈值ThV。若当前宏块仅进行时域预测,则只需要计算时域阈值ThT,此时的自适应阈值Th就等于ThT;若当前宏块同时进行时间和视点间预测,此时的自适应阈值Th为时域阈值ThT和视间阈值ThV的平均。在算法实现中,首先计算当前宏块Direct模式的RD cost值RDcost(Direct),如果RDcost(Direct)＜Th,那么Direct模式将直接被选为最优模式,模式选择过程提前终止。

3.3 算法步骤

综上所述,本文算法步骤可描述如下:

(1)检查当前宏块是否处于关键帧上,若是,进入步骤(6),否则,进入步骤(2)。

(2)计算当前宏块的帧间16×16模式的时域RD cost值JT,视间RD cost值JV和Direct模式的RD cost值RDcost(Direct)。

(3)如果JT＜JV,那么当前宏块的其他模式分块的视间预测过程跳过,仅进行时域预测,同时计算时域阈值ThT,Th=ThT,进入步骤(5)。否则,进入步骤(4)。

(4)计算时域阈值ThT和视间阈值ThV,Th= (ThT+ThV)/2。

(5)如果RDcost(Direct)＜Th,那么Direct模式将直接被选为最优模式,模式选择过程提前终止。否则,进入步骤(6)。

(6)进行全搜索模式,检查所有预测模式以确定其最佳模式。

4 实验结果与分析

为验证本文算法的有效性,采用JMVC8.0作为实验平台,分别测试了不同分辨率、不同纹理背景的7个MVC标准测试序列。实验中参数设置如下: (1)HBP结构;(2)GOP=12;(3)QP=24,28,32, 36;(4)启用RDO和基于上下文的自适应算术编码(Context-Adaptive Binary Arithmetic Coding,CABAC)技术;(5)搜索范围:±64。

为了与现有算法相比较,表3给出了本文算法、文献[7]算法和文献[17]算法的结果对比。其中,参数△T表示编码时间的节省率;△B代表码率的变化;△PSNR表示峰值信噪比的变化。“+”表示增加,“-”表示减少。

表3 算法性能比较

表3表明本文算法能够有效地降低MVC的编码计算复杂度,平均可节省75.62%的编码时间,编码率失真性能几乎保持不变,PSNR值仅降低了0.04 dB,而编码比特率却下降了0.97%。同文献[7]算法相比,本文算法减少了13.46%的计算量,PSNR值提高了0.04 dB,比特率减少了0.09%。同文献[17]算法相比,本文算法得到了更加显著的计算复杂度的降低,同时保持基本不变的编码效率。

为更好地说明算法的率失真性能和时间节省率,图3给出了Uli测试序列的RD曲线图。从图中不难看出,本文算法的率失真性能与JMVC几乎相同。图4为本文算法与现有2种算法在时间节省率上的对比。容易看出,本文算法对于不同类型的测试序列都能够更加有效地降低编码时间。

图3 测试序列Uli的RD曲线

图4 3种方法的时间节省率比较

同文献[7]算法和文献[17]算法相比,文献[7]算法仅利用当前宏块的空间、时间及视点之间相关性的简单混合来计算自适应阈值,而文献[17]算法通过分别计算3种类型相关性对应的各自阈值,自适应阈值为三者的中值。这2种算法都未考虑到视点方向预测的复杂度,本文算法综合考虑了视间预测提前判别与Direct模式的提前终止,同时充分利用了当前宏块的多种相关性信息,取得了优于文献[7]算法和文献[17]算法的编码性能。

5 结束语

本文提出一种有效的多视点视频编码方案,通过视间预测方向的预先判别和Direct模式的提前终止,使得编码计算量大大降低。算法首先利用帧间各模式预测方向的相关性,通过帧间16×16模式的预测结果作为其他模式是否选择视点方向预测的依据,然后分别利用当前宏块的时间和视点之间的相关性计算得到视间预测提前判别和Direct模式提前终止的条件,这样使得不必要的视间预测和模式选择过程提前结束,从而有效地减少了编码时间。实验结果表明,本文算法比JMVC中全搜索算法和现有算法显著降低了编码计算复杂度,同时保持了较好的编码图像质量。

[1] Muller K,Merkle P,Wiegend T.3-D Video Representation Using Depth Maps[J].Proceedings of the IEEE, 2011,99(4):643-656.

[2] Tanimoto M,Tehrani M P,Fujii T,et al.FTV for 3-D Spatial Communication[J].Proceedings of the IEEE, 2012,100(4):905-917.

[3] Vetro A,Wiegand T,Sullivan G J.Overview of the Stereo and Multiview Video Coding Extensions of the H.264/MPEG-4 AVC Standard[J].Proceedings of the IEEE,2011,99(4):626-642.

[4] Pandit P,Vetro A,Chen Y.Joint Multiview Video Model(JMVM)8.0[R].Joint Video Team,Technique Report:JVT-AA207,2008.

[5] Shen Liquan,Liu Zhi,Yan Tao,et al.Early SKIP Mode Decision for MVC Using Inter-view Correlation[J]. Signal Processing:Image Communication,2010,25(2): 88-93.

[6] Kuo Tien-Ying,Lai Yun-Yang,Lo Yi-Chung.Fast Mode Decision for Non-anchor Picture in Multi-view Video Coding[C]//Proceedings of IEEE International SymposiumonBroadbandMultimediaSystemsand Broadcasting.Piscataway,USA:IEEE Press,2010:1-5.

[7] Zeng Huangqian,MaKaikuang,CaiCanhui.Modecorrelation-based Early Termination Mode Decision for Multi-view Video Coding[C]//Proceedings of International Conference on Image Processing.Piscataway, USA:IEEE Press,2010:3406-3408.

[8] Lee Pei-Jun,Lin Ho-Ju,Kuo Kuei-Ting.Faster Mode Determination Algorithm Using Mode Correlation for Multi-view Video Coding[J].IET Signal Processing, 2014,8(5):565-578.

[9] Zhang Yun,Kwong S,Jiang Gangyi,et al.Efficient Multi-reference Frame Selection Algorithm for Hierarchical B Pictures in Multiview Video Coding[J].IEEE Transactions on Broadcasting,2011,57(1):15-23.

[10] Khattak S,Hamzaoui R,Ahmad S,et al.Fast Encoding Techniques for Multiview Video Coding[J].Signal Processing:ImageCommunication,2013,28(6): 569-580.

[11] Zhang Qiuwen,AnPing,ZhangYan,etal.Low Complexity Multiview Video Plus Depth Coding[J]. IEEE TransactionsonConsumerElectronics,2011, 57(4):1857-1865.

[12] Zhu Wei,Tian Xiang,Zhou Fan,et al.Fast Inter Mode DecisionBasedonTexturalSegmentationand Correlations for Multiview Video Coding[J].IEEE Transactions on Consumer Electronics,2010,56(3): 1696-1704.

[13] Shen Liquan,Liu Zhi,Liu Suxing,etal.Selective DisparityEstimationandVariableSizeMotion Estimation Based on Motion Homogeneity for Multiview Coding[J].IEEE Transactions on Broadcasting, 2009,55(4):761-766.

[14] Ding Lifu,TsungPei-Kuei,ChienShao-Yi,etal. Content-aware PredictionAlgorithmwithInter-view Mode Decision for Multiview Video Coding[J].IEEE Transactions on Multimedia,2008,10(8):1553-1564.

[15] Shen Liquan,Liu Zhi,An Ping,et al.Low-complexity Mode Decision for MVC[J].IEEE Transactions on Circuits and Systems for Video Technology,2011, 21(6):837-843.

[16] Lai Yi,Lan Xuguang,Li Xiangwei,et al.An Efficient Region of Interest Support in Scalable Multi-view Video Coding[J].IEEE Transactions on Consumer Electronics,2011,57(3):1271-1279.

[17] Wang Fengsui,Zeng Huanqiang,Shen Qinghong,et al. Efficient Early Direct Mode Decision for Multi-view Video Coding[J].Signal Processing:Image Communication,2013,28(7):736-744.

[18] 王凤随,沈庆宏,都思丹.多视点视频编码快速帧间模式选择算法[J].计算机应用,2014,34(1):167-170.

编辑顾逸斐

Multi-view Video Coding Method Based on Macroblock Multi-correlation

WANG Fengsui,WANG Guanling,QU Chengming,ZHAO Fa
(College of Electrical Engineering,Anhui Polytechnic University,Wuhu 241000,China)

In order to reduce greatly computational complexity in Multi-view Video Coding(MVC),an inter-view prediction and Direct mode early termination algorithm based on macroblock multi-correlation for multi-view video coding is proposed.The characteristics for time domain and inter-view domain prediction and the distribution for Direct mode in the Joint Multi-view Video Coding(JMVC)are analyzed in the proposed algorithm.Comparing the ratedistortion cost between the time and inter-view domain determines whether the current macroblock predicted between inter views.Using the coding mode information of the previously encoded macroblock determines whether it skips Direct mode.Experimental results demonstrate that the proposed method is able to significantly reduce the computational load by 75.62%on average,while keeping almost the same rate-distortion performance,compared with the full mode decision in JMVC.

Multi-view Video Coding(MVC);multi-correlation;motion compensation;inter-view prediction;early termination;rate-distortion cost

王凤随,王冠凌,瞿成明,等.基于宏块多相关性的多视点视频编码方法[J].计算机工程,2015, 41(2):258-262,267.

英文引用格式:Wang Fengsui,Wang Guanling,Qu Chengming,et al.Multi-view Video Coding Method Based on Macroblock Multi-correlation[J].Computer Engineering,2015,41(2):258-262,267.

1000-3428(2015)02-0258-05

:TN919.8

10.3969/j.issn.1000-3428.2015.02.049

安徽工程大学引进人才科研启动基金资助项目(2014YQQ006);安徽高校省级自然科学研究基金资助重点项目(KJ20 13A042)。

王凤随(1981-),男,讲师、博士,主研方向:图像与视频信号处理,计算机视觉;王冠凌、瞿成明,副教授、硕士;赵发,讲师、硕士。

2014-08-28

:2014-09-24E-mail:fswang@ahpu.edu.cn