立体视频图像编码的研究进展

2015-03-27覃远年徐晓宁

电视技术 2015年7期

关键词：码率视差残差

覃远年，徐晓宁

(桂林电子科技大学信息与通信学院，广西桂林 541004)

立体视频图像编码的研究进展

覃远年，徐晓宁

(桂林电子科技大学信息与通信学院，广西桂林 541004)

从编码方案、关键技术和评价准则3个方面综述了立体视频图像编码研究的发展。阐明了各种编码方案的特点及适用范围。详细分析了立体视频图像编码中视差估计、运动估计、遮挡检测、残差图像编码和码率控制5大关键技术，总结了各项技术的发展现状。最后指出了立体视频图像编码研究中存在的问题，并对未来的研究方向进行了展望。

立体视频编码；视差估计；遮挡检测；可伸缩编码；压缩感知

1 立体视频图像编码

随着信号处理、通信网络和计算机技术的发展，传统视频(2D Video)编码技术趋于成熟，基于MPEG-X、H.26X等视频编码标准的视频产品得到了广泛的应用。然而，由于立体视频(3D Video)能够带给人们更多的视觉信息和视觉体验，能产生更强烈的视觉冲击，因此正越来越受到人们的追捧[1]，例如3D电影电视等。立体视频是利用人眼睛的双目视差原理，使欣赏到的图像有强烈的立体感、临场感和真实感。立体视频处理是图像视频处理技术的重要组成部分和研究热点[2]，在医学诊断、影视娱乐、战场实时仿真、远程教育及视频会议、文物保存研究等领域有着广阔的应用前景。

目前立体视频技术中双目立体视频是应用最广泛的视频格式，观看者通过显示设备获得其左、右眼两路视频并基于视差原理获得立体视觉效果。与单目视频相比，双目立体视频的数据量和计算复杂度成倍增加，这使得立体视频在信息处理和存储、远程通信等应用领域面临巨大考验。因此，如何高效地对立体视频图像进行编码，最大限度压缩数据量是立体视频得到更广泛的应用(例如移动3D视频、互联网3D视频等)的关键。

国际上，立体视频图像编码的研究始于20世纪80年代末[3]。初期，主要是将立体图像对中的左右图像分别使用经典的2D图像编码方法进行压缩。该方法比较简单直观，但没有很好地利用立体视频图像中的相关性，获得的压缩率也比较小，难以满足实际应用的需求。进入90年代中后期，随着研究的深入[4]，许多学者注意到有大量的冗余信息存在于立体图像的左右视图之间，通过采用计算机视觉的方法，对左右视图进行视差估计，可显著提高编码效率。国内学者从20世纪90年代中后期开始对立体视频图像编码进行研究，截至目前已在立体视频的编码方面取得了一定的研究成果[5-6]。虽然不断涌现了众多的立体视频编码算法，但目前很多技术仍不成熟，将其广泛应用还有很长的路要走。为此，本文从编码方案、关键技术和评价准则3个方面综述了立体视频编码研究的发展，指出了立体视频图像编码研究中存在的问题，对未来的研究方向进行了展望。

2 编码方案

2.1 基于普通视频编码标准的扩展方案

2.1.1 基于块的立体视频图像编码方案

基于块的立体视频图像编码方案[7]主要使用视差估计算法通过已编码的左图像序列对右图像序列进行预测编码。该方案首先把左图像序列分割成大小相等的块，然后根据单视点视频编码的方法对其进行编码；对于右图像也先分成大小相等的块，按照某种判决准则在左图像序列中寻找相应块的最佳匹配块，视差矢量即为左右图像匹配块之间的位置差异，为了提高视差预测的精度，块的大小也可以是可变尺寸的。在基于块的立体视频图像编码方案中，视差匹配估计[8]是至关重要的一步，它的准确程度直接影响整个编码系统的精度和效率。基于块的编码方案与其他编码方案相比算法简单、稳健且易于硬件移植。但会出现块效应，且在低比特率下重建图像的主观质量不是很好。

2.1.2 基于对象的立体视频图像编码方案

20世纪90年代后期，图像编码领域开始研究基于对象的编码算法[9]，其核心思想是：首先使用视差估计算法得到视差场，然后根据视差场和图像特征将用户感兴趣的对象分割、提取出来，并在编码时分配较多码流，对视频场景中的其余部分编码时则分配较少码流，从而显著提高编码效率。这种方法的性能和效率均优于基于块的编码方法，在低比特率下没有方块效应，能够以一种更自然的方式对场景进行描述。但是基于对象的编码方法的图像分析过程比较复杂，且其中的对象建模、分割和提取等很多环节还不是很成熟，同时对于一些运动形式和图像背景复杂的视频图像不是很适用[10]，视频对象的有效分割和提取是基于对象法尚待解决的问题，对于立体视频编码来说更是需要深入的研究。

2.1.3 基于网格的立体视频图像编码方案

目前网格已被广泛应用于众多领域，如计算机图形学[11]、力学的有限元分析以及地貌模型的构造等。在视频编码中，网格根据图像内容自适应地产生一些符合一定特征的多边形区域来对整个图像和运动模型进行描述。在立体图像编码中有三角形网格[12]和四边形网格[13]等。文献[14]基于DT网格提出了一种立体视频编码算法，该算法首先将特征点DT网格化，得到网格化的立体视频图像；然后对网格节点进行运动估计和跟踪；最后对视差信息和运动信息进行编码。基于网格的方法在较高压缩比时恢复图像的均匀度、自然度，优于基于块的方法，主观上更易接受。

2.2 立体视频编码新探索

2.2.1 基于可伸缩的立体视频图像编码方案

为了更好地适应各种复杂的网络环境和不同的终端设备，人们提出了可伸缩立体视频编码[15]方案。可伸缩编码[16]实质是首先按照视频信息的重要性对其进行分解，然后按照其自身的统计特性对分解的各层进行编码。通常，将视频编码分成一个基本层和一组增强层。对基本层进行单独的传输解码即可满足最小需求，但解码的视频质量较差；增强层依赖于基本层，增强层是对基本层视频信息的增强。增强层越多，视频信息的质量恢复得越好。与其他编码方案相比，可伸缩编码通过对视频信息进行分解处理简化了解码器端的设计，同时也使得码流对网络带宽变化、误码和丢包都有了很强的适应性，成为目前视频编码技术研究的热点。

2.2.2 基于多视点的立体视频图像编码方案

多视点视频编码是把视点内部的时间相关性和多个视点之间的空间相关性作为着手点，直接对所有视点进行编码的方法(Multi-View Video Coding，MVC)[17]。目前，MVC的编码传输格式分为两类：一类是视频流中只包括多视点视频数据的纯视频格式[18]；另一类是多视点视频加深度信息的深度增强格式[19]。纯视频型MVC的研究主要从预测结构、提高MVC编码效率的技术、高层语法3个方面展开。MVC标准[20]定义的纯视频型编码方案支持随机访问功能且兼顾了H.264/AVC的后向兼容性。深度增强型MVC将深度信息和多视点视频信息一起传输到解码端，通过深度图绘制技术(DIBR)恢复更多的视频流，实现立体“环视”效果。深度增强型MVC的关键环节是深度图像的获取、深度图像的编码、视点合成技术[21]。与纯视频型MVC相比，深度增强型MVC大大减少了传输数据量，解码端深度信息具有尺度伸展性，成为了目前的研究热点。

2.2.3 基于分布式压缩感知的立体视频图像编码方案

分布式视频编码(Distributed Video Coding，DVC)是分布式信源编码技术[22-23]在视频编码领域的应用，它将耗时耗功率的运动估计/补偿从编码端移到解码端，具有编码简单、解码相对复杂以及容错性能较好的特点。压缩感知理论(Compress Sensing，CS)最早由Candes、Donoho等人[24-25]提出，其核心思想是利用较少的测量值对稀疏或可压缩信号的信息进行完全表征。通过采用压缩感知技术，可以低于奈奎斯特速率的采样率对视频数据进行压缩采样，从而显著地降低数据处理所需时间，增强实时性。分布式压缩感知采用一种联合稀疏模型(Joint Sparity Model，JSM) 对相关信源进行压缩。由于相邻帧之间的相关性，视频序列可以看作是一种特殊的相关信源，Kang 等人[26]将联合稀疏模型应用在视频信号的压缩编码中，提出了一种分布式视频压缩感知(DCVS)算法。武晓嘉等人[27]提出了一种用于多视点立体视频编解码的分布式压缩感知模型，该模型可以在实现高效编码的同时将复杂度从编码端转移到解码端，从而满足低复杂度编码的应用场合。

2.2.4 基于模式识别的立体视频图像编码方案

模式识别[28]是通过计算机对信息进行处理、判别的一种分类过程。基于模式识别的图像编码算法[29-30]是一种新的图像编码思路，能够较好地克服变换编码适应性不足的缺点。文献[31]提出了一种基于自组织神经网络的立体图像编码算法(SOM+VQ+DE)，该算法为了提高左图像的编码效率，采用矢量量化编码代替传统算法中的DCT变换对左图像进行压缩，使用视差估计补偿算法对右图像进行预测编码，最后对矢量量化与视差估计的残差均使用DCT和Huffman进行编码。实验结果表明，该算法能有效地提高左图像的编码效率。但在基于模式识别的立体图像编码方面目前仍有很多工作需要做，例如如何获得性能更优的模式库以及为视差估计残差、矢量量化残差建立相应的Huffman码表等。

3 关键技术

3.1 视差估计

视差估计是立体视频图像编码的第一步，其估计的准确程度直接影响算法的整体性能，视差估计实质上就是按照某种数学准则在左右图像上寻找匹配点或块的过程，视差估计是一个图像匹配的过程。视差矢量就是两个对应点或块之间的位置差异，它代表了左右图像在空间上的冗余信息。对此，很多学者对通用算法和在特定应用中的视差估计进行了研究，并取得了一定的成果。Koschan[32]总结了1989年到1993年视差估计算法。Myron Z.Brown 等人[33]对1993年至2003年期间视差估计技术的发展进行了总结。Zhu Shiping[34]等人对自适应视差估计的发展现状进行了分析，同时基于自适应视差估计算法提出了一些新的中间视合成技术。

根据匹配基元的不同，可以把视差估计简单分为基于区域的和基于特征的两大类[35-36]，根据匹配策略的不同，基于区域的视差估计又可以分为局部法和全局法两种。代表性的局部算法有相关法[37]、松弛迭代法[38]和生长法[39]等；而全局法计算复杂度较高，速度相对较慢，但是全局法能够得到比局部法更好的结果，代表性的全局算法有动态规划法[40]、图割法[41]和置信度传播法[42]等。基于特征的匹配算法通常包括两个步骤：特征点提取和特征匹配，文献[43]提出了一种基于关键点的目标识别方法，这种识别方法能实时地对存在混乱和堵塞的对象进行有效识别。

3.2 运动估计

运动估计就是寻找视频序列中运动物体在前后帧之间移动的方向和大小，即运动矢量。运动估计是视频编码中消除时间冗余，提高压缩比的一项重要的技术。目前，常用的运动估计方法有频域运动估计和空间运动估计两大类。

频域运动估计算法主要是在变换域内进行匹配搜索运算。Moshe等人[44]提出一种基于沃尔什-哈达玛(WHT)变换的快速运动估计自适应算法，该算法能根据图像内容自适应的提高估计精度，在计算复杂度和估计精度之间进行很好的权衡。空间运动估计算法主要在空间域进行匹配搜索，实现待匹配图像与参考图像之间的最优匹配。这一方法主要分为光流场法[45]、像素递归法[46]和图像块匹配法[47]等。

3.3 遮挡检测

遮挡问题主要是由物体之间的遮挡以及摄像机的位置差异而产生的，在立体视频图像编码中，遮挡区域由于得不到很好的视差补偿而成为残差图像的重要来源。依据遮挡产生原因的不同，视觉目标之间的遮挡可分为两大类：一类是不同物体间存在的互相遮挡现象；另一类是同一物体的不同组成部分之间存在的自遮挡现象。

遮挡现象的研究已取得了一定的成果，M.Hu等人[48]引入了贝叶斯网络处理遮挡问题，该贝叶斯网络通过一个二维椭球模型和对遮挡的深度处理过程进行建模。二维椭球模型通过创建子区域的颜色直方图来联合颜色和空间信息；深度处理过程能表示出遮挡区域的深度信息。Ahra Jo等人[49]采用基于水平分割矩形窗的直方图匹配法对车辆跟踪中存在的遮挡区域进行检测。王展青等人[50]在Mean Shift算法的基础上，利用Kalman滤波器引入遮挡检测算法，根据滤波残差的大小判定是否发生遮挡，然后将目标分块进行遮挡程度检测。

相对于视觉目标的之间存在的互遮挡的研究，有关自遮挡现象的研究仍需进一步的深入。Zhang Shihui等人[51]利用支持向量机技术提出了一种对深度图像进行自遮挡检测的方法。J.L.Youn等人[52]提出了一种简单的三维形变模型，通过一个圆柱头模型对输入人脸的遮挡部分进行自动检测，选择面部可见的特征点对三维模型拟合方法进行设计，从而有效避免了自遮挡的影响，改善了三维人脸重建性能。

3.4 残差图像编码

立体残差图像(Disparity Compensated Difference，DCD)是由原始右图像和利用视差估计补偿算法得到的预测图像做差得到的。为了提高解码重建图像的质量，将得到的残差图像与视差矢量一同被传送到解码端。常用的残差图像编码方法有基于DCT的方法和基于小波变换的方法。文献[53]分别使用DCT和小波变换对立体残差数据进行处理，结果表明DCT变换比小波更适合立体残差数据的处理。文献[54]从DCT域中运动残差的分布特性出发，通过分析残差与编码图像两者之间量化DCT系数的关系，提出一种基于I/P系数法则的运动补偿算法。文献[55] 从能量非平稳特性、时空相关特性和频率特性3个方面对可伸缩视频编码中的时域滤波残差图像特性进行了分析研究，研究结果对立体残差图像的编码有重要意义。

3.5 码率控制

码率控制的目标是通过预设的控制算法，使视频编码的码率适应传输带宽，同时使编码重建质量达到最优。根据外部带宽变化特性的不同，码率控制主要分为恒定码率[56]和可变码率[57]两大类。目前针对立体视频码率控制算法主要从三方面进行研究：1)在基于率失真模型的码率控制方面，文献[58]根据立体视频的不同图片类型，改造了3D视频序列的二次失真模型，实现了在帧层和宏块层码率的精确控制。2)在基于人眼视觉特性的码率控制方面，Natio等人[59]提出了能保持左右图像质量平衡的统一缓冲区模型，优化了GoP结构的设置，根据人眼视觉特性对左右视点进行了合理的比特分配。卢山等人[60]通过对立体视觉特性的分析，提出了一种基于帧级目标码率分配的码率控制算法。3)在多视点视频码率控制方面，文献[61]提出了一种基于多视点视频加深度的码率控制技术，首先采用图像拼接技术对视频和深度同时进行编码，然后在视图层、视频深度层、帧层3个层次进行联合码率控制。文献[62]通过利用人类感知的视觉冗余，针对MVC提出了一种基于区域比特分配优化的立体视觉关注算法。

4 评价准则

立体视频图像编码就是要在编码复杂度、压缩率和图像质量之间寻求平衡。同时图像质量和压缩比之间又相互制约，它们是最基本的衡量编码效果好坏的标准。

4.1 编码复杂度

编码复杂度直接影响整个系统的实时性，复杂度越高，计算量越大，实时性越差。目前，对于立体视频编码复杂度的研究主要集中在低复杂度的编码算法上，而低复杂度编码算法的研究主要集中在三方面：运动估计、视差估计、码率控制。

4.2 图像质量

图像质量指人们对一幅图像的视觉主观评价，包括图像逼真度和图像可懂度两个含义，通常立体视频图像压缩只关注图像的逼真度。客观评价和主观评价是常用的两种图像质量评价方法，其中客观评价有均方误差(MSE)、峰值信噪比(PSNR)等，主观评价有平均评价分数法(MOS)等。目前部分学者致力于研究更合理有效的立体图像评价方法，文献[63]提出了一种新型遥感立体图像编码质量综合评价模型，该模型从辐射特性畸变、纹理损失、相关性损失和几何特性畸变四个方面评价重建图像的质量，实验表明该方法的评价结果与人眼的感知评价保持很好的一致性。

4.3 压缩比

压缩比(Compression Ratio，CR)是衡量压缩程度的指标之一。压缩比的计算方法有很多，一种是采用信息论中的概念，即在得知要压缩数据的统计分析结果的前提下，压缩比就是压缩前后数据的熵之比。这种定义方法存在局限性，而现在所使用的许多压缩技术并不依赖于数据的统计结果。

5 存在问题及未来发展方向

近年来，尽管立体视频编码的研究已取得了较大进展，但就整体而言，它仍处于一个较基础的研究阶段，面临着许多问题和难点，有待进一步的研究和探索。

5.1 视差估计

近年来，人们对基于区域的视差估计进行了大量的研究并提出了很多有效的改进措施，但是目前仍存在许多不足之处，主要表现在以下几个方面：1)视差的精度易受图像灰度统计的影响。当景物表面缺乏足够的纹理信息时，由于信息量小，容易出现误匹配现象。2)由于存在遮挡效应、噪声、光线、约束原则等因素的影响，常常会引起匹配的混淆，因此改进视差图校正算法的研究至关重要。3)由于基于区域的匹配法是一个穷举匹配运算的过程，因此该方法的运算量大、复杂度高。需进一步对算法进行优化改进，减少运算量，降低编码复杂度。

与基于特征的视差估计算法相比，基于区域的算法具有匹配准确度高、计算量小、速度快等优点。但由于特征点的提取本身存在不足，导致了基于特征点的视差估计算法也存在一些缺点：1)特征在图像中的稀疏性决定基于特征的匹配算法只能得到稀疏的视差场，虽可通过插值的方法来提高特征匹配得到的视差场，但这也会带来更复杂的计算。2)特征的提取和定位对匹配的精度影响很大，若特征提取效果不佳会很大程度上制约匹配精度的提高，如何高效准确地进行特征提取定位将是今后算法的发展方向。

5.2 运动估计

随着视频编码技术应用范围的不断扩展，传统的运动估计算法面临很多问题：1)从低码率到高码率视频编码，对不同分辨率的视频序列进行编码时，同一个算法会导致编码性能的不稳定。因此需根据不同视频序列编码参数的不同，自适应地对运动估计算法的搜索策略进行调整。2)模式选择，合理地对块的模式进行选择，可以进一步优化运动估计中存在的冗余度，同时有效地降低编码器的复杂度。3)预测准确性，基于块的运动估计算法假设图像块均进行简单的平移运动，对旋转、缩放或其他任何形式的非平移运动不能进行表示，运动估计的准确性低，视频压缩的效率也有待进一步提高。

总的来说，视频序列运动估计算法仍有待继续优化完善，一些创新性的理论和技术正在不断的被应用到其中。神经网络在图像编码中得到了广泛的应用，研究人员正尝试着将其运用到运动估计中[64]，与此同时，更高像素精度的运动估计如半像素、1/4像素、1/8像素等[65]也成为了一个主要的发展趋势。

5.3 遮挡检测

遮挡检测是立体视频图像编码中的难题，现有的算法虽然检测率高，但是计算复杂。非常不合适对实时性要求较高的编码系统。另外，立体图像编码中的遮挡区域检测对精确性的要求会因为有残差图像的存在而有所降低。因此，在保持一定的准确度和精确性的前提下，如何适当地对这些遮挡检测算法进行简化将成为这一领域的研究重点。

5.4 码率控制

由于立体视频编码系统自身的复杂度，同时影响视频主观质量的因素很多，立体视频码率控制在许多方面仍不完善，很多问题有待进一步研究。

1)目前大部分的立体视频编码方法都是将左右两个通道等同对待，分配相同的比特。如何合理地给左右两个通道分配比特数，使其满足信道的要求，同时又能保证良好的图像质量，有待进一步的研究。

2)目前算法所采用的率失真模型准确度均不是很高，而立体视频的比特分配与码率控制精度与率失真模型的准确度密切相关，因此如何有效提高率失真模型的准确度，将是未来重要的研究热点。

3)目前的码率控制算法大部分是针对恒定码率研究的，而实际通信中的带宽是经常变化的，尤其是在移动环境小的情况下，使有效带宽变化更大。因此需要将码率控制算法扩展到可变码率(VBR)的立体视频通信中。

4)人眼是视频的最终接收者，视频质量的好坏必须满足人眼的主观感受，因此基于人眼视觉特性的多视点视频码率控制是未来研究的方向之一。

5.5 可伸缩立体视频编码

可伸缩编码方法(Fine Granualarity Scalability，FGS)[66]是近年来研究的热点，这种方法可以根据网络带宽的变化自适应调整输出码流的大小。立体视频不可避免地要面向网络环境传输，因此研究面向网络环境传输的FGS立体视频编码方案具有重要的意义。但是现有的FGS方案在立体视频编码方面还处于研究初期，需要进一步地优化码流选取方案、提高压缩效率以及分级方案的灵活性，同时也需要研究更加高效的可用带宽测量机制和终端设备描述机制，通过对网络可用带宽的准确测量和终端设备的高效描述，为视频传输过程提供依据。

6 结束语

随着人们对视频应用需求的不断增长和品质要求的日益提高，2D视频在立体感、临场感和真实感方面已无法满足人们的视觉要求，因此研究立体视频处理及其编码技术有着重大的现实意义。本文综述了立体视频编码方案、关键技术和评价准则，指出了存在的问题，并对未来的研究方向进行了展望，希望能对相关领域的研究人员有所裨益。

[1]KONRAO J，HALLE M.3-D displays and signal processing[J].Signal Processing Magazine，2007，24(6)：97-111.

[2]张兆杨，安平，张之江.二维和三维视频处理及立体显示技术[M].北京：科学出版社，2010.

[3]LUKACS M.Predictive coding of multi-viewpoint image sets[C]//Proc.IEEE International Conference on Acoustics，Speech，and Signal Processing(ICASSP′86).[S.l.]：IEEE Press，1986：521-524.

[4]STRINTZIS M G，MALASSIOTIS S.Object-based coding of stereoscopic and 3D image sequences[J].IEEE Signal Processing Magazine，1999，16 (3)：14-28.

[5]韩军功.立体图像和视频编码的理论及算法研究[D].西安：西安电子科技大学，2004.

[6]张克新.可伸缩视频编码及传输理论与应用研究[D].广州：华南理工大学，2012.

[7]YANG W，NGAN K.MPEG-4 based stereoscopic video sequences encoder[C]//Proc.IEEE International Conference on Acoustics，Speech，and Signal Processing(ICASSP 2004).[S.l.]：IEEE Press，2004：741-744.

[8]GOUTCHER R，HIBBARD P B.Mechanisms for similarity matching in disparity measurement[J].Front Psychol，2014(4)：10-14.

[9]AIZAWA K，HUANG T S.Model-based image coding advanced video coding techniques for very low bitrate applications[J].Proceedings of the IEEE，1995，83(2)：259-271.

[10]吴勇军，殷勤业，方强，等.立体图像压缩研究进展[J]．电视技术，2002，26(7)：19-23.

[11]WANG Changbo，ZHANG Qiang，KONG Fanlong，et al.Hybrid particle Grid fluid animation with enhanced details[J].The Visual Computer，2013，29(9)：937-947.

[12]焦卫东，卢朝阳，郭大波.Delaunay三角形模型基立体图像编码[J].计算机辅助设计与图形学学报，2008，12(20)：12.

[13]ANISSA M，VIANNEY M J，ASTRUC J P.Motion estimation algorithms using the deformation of planar hierarchical mesh grid for video conferencing applications at low bit-rate transmission[J].Journal of Signal Processing Systems，2012，67(2)：167-185.

[14]刘爽.视差立体视频对象提取与DT网格压缩编码[D].长春：吉林大学，2012.

[15]JIN Zhigang，ZHAO Ximan，WANG Jia.Scalable video coding transmission system with error correction of high-resolution multi-view stereo video with LDPC[C]//Proc.6th International Conference on Wireless Communications， Networking and Mobile Computing(WiCOM 2010).[S.l.]：IEEE Press，2010：1-4.

[16]SCHWARZ H，MARPE D， WIEGAND T.Overview of the scalable video coding extension of the H.264/AVC standard[J].IEEE Trans.Circuits and Systems for Video Technology，2007，17(9)：1103-1120.

[17]HE Y，OSTERMANN J，TANIMOTO M，et al.Introduction to the special section on multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology，2007，17(11)：1433-1435.

[18]FEZZA S A，LARABI M C，FARAOUN K M.Feature-based color correction of multi-view video for coding and rendering enhancement[J].IEEE Trans.Circuits and Systems for Video Technology，2014，24(9)：1486-1498.

[19]MARIO C，CARL J D.An adaptive lagrange multiplier technique for multi-view video plus depth coding[C]//Proc.Picture Coding Symposium(PCS 2013).San Jose，CA：IEEE Press，2013：249-252.

[20]SULGLIVAN G J，WIEGAND T，SCHWARZ H.JVT-AD007：Editorsdraft revision to ITU-T H.264，ISO/IEC14496-10 advanced video coding in preparation for ITU-TSG 16 AAP consent(in integrated form)[S].2009.

[21]CHUNG T Y，SIM J Y，KIM C S.Bit allocation algorithm with novel view synthesis distortion model for multi-view video plus depth coding[J].IEEE Trans.Image Processing，2014，23(8)：3254-3267.

[22]SLEPIAN J D，WOLF J K.Noiseless coding of correlated information sources[J].IEEE Trans.Information Theory，1973，19(4)：471-480.

[23]WYNER A D，ZIV J.The rate-distortion function for source coding with side information at the decoder[J].IEEE Trans.Information Theory，1975，22(1)：1-10.

[24]CANDES E J， ROMBERG J.Quantitative robust uncertainty principles and optimally sparse decompositions[J].Foundations of Compute Math.，2006，6(2)：227-254.

[25]DONOHO D L.Compressed sensing[J].IEEE Trans.Information Theory，2006，52(4)：1289-1306.

[26]KANG L W，LU C S．Distributed compressive video sensing[C]//Proc.IEEE International Conference on Acoustics，Speech，and Signal Processing．Piscataway：IEEE Press，2009：1169-1172．

[27]武晓嘉，郭继昌，姜丹，等.一种多视点立体视频分布式压缩感知编解码模型[J].天津大学学报，2012，45(10)：895-902.

[28]XI Zhanghao，LIU Heping，REN Zhenqin，et al.The summary of the application of pattern recognition in image progressing[J].Advanced Materials Research，2012(532)：1329-1333.

[29]黎洪松，李达.一种新的基于自学习神经网络的静止图像编码方案[J].北京师范大学学报：自然科学版，2006，42(5)：498.

[30]CHIRCO P，ZANARINI M.Image analysis and pattern recognition for the localization of medical devices in the operational field[C]//Proc.SPIE Optical Engineering Applications,International Society for Optics and Photonics.[S.l.]：SPIE Press，2011：125-128.

[31]李达，黎洪松.一种改进的立体图像编码算法[J].北京师范大学学报：自然科学版，2007，43(1)：50.

[32]KOSCHAN A.A survey of current stereo papers[D].Berlin：Univ.of Berlin，1993.

[33]BROWN M Z，BURSCHKA D，HAGER G D.Advances in computational stereo [J].IEEE Trans.Pattern Analysis and Machine Intelligence，2005，25(8)：993-1008.

[34]ZHU S，YANG L.A survey of adaptive disparity estimation[C]//Proc.International Conference on Industrial Control and Electronics Engineering (ICICEE 2012).[S.l.]：IEEE Press，2012：958-961.

[35]POLLEFEYS M.Vision modeling with a hand-held camera[J].International Journal of Computer Vision，2004，59(3)：207-232.

[36]KALOMIROS J A.Dense disparity features for fast stereo vision[J].J.Electron.Imaging，2012，21(4)：23-43.

[37]STEFANO L D， MARCHIONNI M， MATTOCCIA S.A fast area-based stereo matching Algorithm[J].Image and Vision Computing，2006，22(12)：983-1005.

[38]ZITINICK C L，KANADE T.A cooperative algorithm for stereo matching and occlusion detection[J].IEEE Trans.Pattern Analysis and Machine Intelligence，2000，22(7)：675-684.

[39]CECH J， SARA R.Efficient sampling of disparity space for fast and accurate matching[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis，Minnesota，USA：IEEE Press，2008：1-8.

[40]HU Tingbo，QI Baojun，WU Tao，et al.Stereo matching using weighted dynamic programming on a single-direction four connected tree[J].Computer Vision and Image Understanding， 2012，116(8)：908-921.

[41]WANG D L，LIM K B.Obtaining depth map from segment-based stereo matching using graph cuts[J].Journal of Visual Communication and Image Representation，2011，22(4)：325-331.

[42]PEREZ J M，SANCHEZ P.Real-time stereo matching using memory efficient belief propagation for high-definition 3D telepresence systems[J].Pattern Recognition Letters，2011，32(16)：2250-2253.

[43]DAVID G L.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision，2004，60(2)：91-110.

[44]MOSHE Y，HELOR H．Video block motion estimation based on gray-code kernels[J].IEEE Trans.Image Process，2009，18(10)：2243-2254.

[45]BROX T，MALIK J．Large displacement optical flow：descriptor matching in variational motion estimation[J].IEEE Trans.Pattern Analysis and Machine Intelligence，2011，33(3)：500-513．

[46]HUANG Y R，CHAU Y.A fast recursive algorithm for gradient-based global motion estimation in sparsely sampled field[C]//Proc.8th International Conference on Intelligent Systems Design and Applications.Washington，DC，USA：IEEE Press，2008：84-88．

[47]AKIN A，SAYILAR G，HAMZAOG L I． High performance hardware architectures for one bit transform based single and multiple reference frame motion estimation[J].IEEE Trans． Consumer Electron，2010，56(2)：1144-1152．

[48]HU M，HU W，TAN T.Tracking people through occlusions[C]//Proc.17th Int.Conf.on Pattern Recognition.Cambridge，UK：IEEE Press，2004：724-727.

[49]AHRA J，JANG G J，HAN B.Occlusion detection using horizontally segmented windows for vehicle tracking[J].Multimedia Tools and Applications，2014(9)：784-790.

[50]王展青，凡友福，张桂林.跟踪遮挡目标的一种鲁棒算法[J].计算机工程与应用，2007，43(27)：50-53.

[51]ZHANG Shihui，LIU Jianxin.A self-occlusion detection approach based on depth image using SVM[J].International Journal of Advanced Robotic Systems，2012(9)：230-243.

[52]YOUN J L，SUNG J L，KANG R P，et al.Single view based 3D face reconstruction robust to self occlusion[J].EURASIP Journal on Advances in Signal Processing，2012，2012(1)：176.

[53]ZEGER K.Residual image coding for stereo image compression[J].Optical Engineering，2003，42(1)：182-189.

[54]景麟，王宏远，马泳，等.基于残差分布特性的运动补偿算法[J].计算机工程，2008，34(12)：194.

[55]向友军，吴宗泽，张克新.运动补偿时域滤波残差图像的特性研究[J].电视技术，2009，33(11)：11-21.

[56]胡晓飞，詹学峰，朱秀昌.基于自适应变论域模糊理论的CBR视频码率控制策略[J].信号处理，2009(7)：1141-1145.

[57]SABRY A，EL-BADAWY H，SHEHATA K，et al.A novel resource allocation technique for vbr video traffic in the uplink over WiMAX networks [C]//Proc.International Conference on Information and Multimedia Technology(ICIMT′09).[S.l.]：IEEE Press，2009：442-448.

[58]LIM J E，KIM J.Advanced rate control technologies for 3D-HDTV[J].IEEE Trans.Consumer Electronics，2003，4(49)：1498-1507.

[59]NAITO S，MATSUMOTO S.Advanced rate control technologies for 3D-HDTV digital coding based on MPEG-2 multi-view profile[C]//Proc.International Conference on Image Processing(ICIP 99).[S.l.]：IEEE Press，1999：281-285.

[60]卢山，孙军，王嘉.基于人眼立体视觉特性的多视视频码率控制算法[J].中国图象图形学报，2009，14(11)：2396-2400.

[61]LIU Y W，HUANG Q M，MA S W.A novel rate control technique for multiview video plus depth based 3D video coding[J].IEEE Trans.Broadcasting，2011，57(2)：562-571.

[62]ZHANG Y， JIANG G，YU M.Stereoscopic visual attention-based regional bit allocation optimization for multiview video coding[J].EURASIP Journal on Advances in Signal Processing，2010(7)：24-26.

[63]李世忠，胡萃，顾学迈，等.新型遥感立体图像编码质量评价方法[J].西安电子科技大学学报，2009，36(5)：927-932.

[64]陈云华，余永权，曾碧.一种基于新型遗传算法的块运动估计算法[J].计算机工程与应用，2005(34)：86-88.

[65]LIN W Y，PANUSOPONE K，BAYLON D M． A fast sub-pixel motion estimation algorithm for H.264/AVC video coding[J].IEEE Trans.Circuits and Systems for Video Technology，2011，21(2)：237-242.

[66]OZBEK N.Trellis-based optimization of layer extraction for rate adaptation in real-time scalable stereo video coding[J].Turkish Journal of Electrical and Computer Sciences，2012，20(4)：557-567.

Research Development of Stereo Video and Image Coding

QIN Yuannian，XU Xiaoning

(GuilinUniversityofElectronicTechnology，CollegeofInformationandCommunication，GuangxiGuilin541004，China)

The development of stereo video and image coding research is overviewed from three aspects， which include coding schemes， key technologies and evaluation criteria.The characteristics and applicable scope of each kind of coding scheme are represented in this paper.In addition， five key technologies are described in the stereo video and image coding， which include disparity estimation， motion estimation， occlusion detection， residual image coding and rate control.In the end， the existing problems are pointed out in the research of stereo video and image coding， at the same time， the direction of research in the future is prospected.

stereo video coding；disparity estimation；occlusion detection；scalable coding；compressed sensing

国家自然科学基金项目(61261035)

TN91

10.16280/j.videoe.2015.07.003

2014-06-09

【本文献信息】覃远年，徐晓宁.立体视频图像编码的研究进展[J].电视技术,2015，39(7).

覃远年(1971— )，硕士生导师，主要研究方向为无线通信系统和信号处理；

徐晓宁(1987— )，硕士生，主要研究方向为图像处理、立体图像压缩研究。

责任编辑:时雯