3D立体视频编码技术研究

2022-09-07涂丽萍

声屏世界 2022年12期

□ 涂丽萍

为了达到最佳3D立体视频观看效果，会产生巨量的视音频数据，这使得3D立体视频的制作、存储、传输和播出等各类硬件系统都必须提高硬件配置来应对海量的数据处理，同时对传输网络的带宽也有极高的要求。因此，高效率、高质量、低成本的视音频压缩策略将是3D立体视频在未来被广泛应用的关键环节。

MPEG-2分级编码是目前图像压缩编码的一种主流方式。分级编码的主要原理是先提取一个分辨率较低的基础图层，传输时采用低码率。在此基础上每增加一层图像细节信息，就能提高一级图像的分辨率。在提高分辨率的同时提高传输码率，进而实现视频图像的分级传输。借助这种分级传输技术，我们可对3D立体视频进行有效地压缩处理，从而减少数据量。利用MPEG-2编码的分级特性，还可以有效去除3D立体视频中左右眼对应视频通道之间的相关性，进一步提高压缩效率。本文提出的基于MPEG-2时域分级的3D立体视频压缩编码方法，主要原理是首先对左眼序列进行独立编码，右眼序列利用自身冗余进行压缩编码，同时利用左右序列的相关性，进一步去除通道冗余提高压缩比。

3D立体视频理论基础

现实中的场景都是三维立体的，人类可以通过两只眼睛观看事物的细微差别来分辨出物体的空间位置，感知周围的三维世界。3D立体视频就是利用人眼睛的双目视差原理，双目各自独立地接收来自同一场景的特定摄像点的左右图像，左眼看偏左的图像，右眼看偏右的图像，形成双目视差，大脑能得到图像的深度信息，使人们能欣赏到有强烈深度感、逼真感的图像。在3D立体视频的显示过程中，将一幅图像的左右两个视域同时显示出来，使景象的左眼视域仅为左眼可见，右眼视域仅为右眼可见，使观察者在观看一幅图像时左右眼接收到不同的图像信息，从而产生三维视觉。

MPEG-2可分级压缩编码原理

在MPEG-2压缩编码中，主要通过离散余弦变换和运动预测技术来对图像的空间冗余和时间冗余进行压缩。先通过运动估计和运动补偿去除图像序列间的时间冗余，然后通过离散余弦变换将差值信号的空间冗余去除，使系数能量集中于低频部分，再通过量化和变长编码最终达到压缩编码的目的。分级（Scalability）编码的码流采用分级结构，不同部分不同层级的码流可通过调节解码器单独解码，从而获得所需的不同分辨率和码率的视音频流。

可分级的码流结构如图1所示。其中基本层码流可单独解码获得到一个低分辨率的解码图像0。若增加增强层1和基本层一起解码，即可获得一个较高分辨率的解码图像1；若增加增强层2、增强层1和基本层一起解码，便可获得一个更高分辨率的解码图像2。依此类推，即每叠加一个增强层，解码后所得到图像的分辨率会显著提高，但所需的码率也会相应增加。

图1 可分级码流结构示意图

可分级编解码的意义在于使码流可独立分层传输并可分层叠加解码，大大提升了码流的灵活性和适应性。

基于MPEG-2时域分级的3D立体视频编码方案

3D立体视频拍摄常用的方法是采用两个摄像头模拟人类的左右眼从两个不同视角对同一景物进行拍摄，拍摄得到的视频包括左右两个通道图像序列，并且两个通道的图像序列之间存在很强的关联性。对于3D立体视频编码来说，左右通道分别进行视频编码，并不能达到很好的压缩效果。于是我们可以利用MPEG-2的时域分级特性对3D立体视频图像进行压缩编码，设定左通道的视频信号对应MPEG-2的基本层，右通道的视频信号对应为增强层，同时利用空间冗余信息（视差矢量）及时间冗余信息（运动矢量）进行压缩编码，大大提高压缩效率。

一、独立运动补偿预测（MCP）编码。独立运动补偿预测编码是把3D立体视频图像当作两组不相关的运动序列，分别进行独立编码。此方案系统实施最为简单经济，但由于没有利用两个通道间的相关性，导致编码效率低、压缩比低。

图2 独立运动补偿预测编码

图3 层间视差补偿预测编码

图4 层内MCP和层间DCP相结合的编码

二、层间视差补偿预测（DCP）编码。在层间视差补偿预测编码方案中，左通道采用MPEG-2进行独立编码，右通道采用基于左通道的视差补偿预测进行编码。此方案充分利用了两通道图像间的空间相关性，但右通道图序列之间的时域相关性并没有得到充分利用，导致编码效率依然不高。

三、层内运动补偿预测和层间视差补偿预测相结合的编码。该方案中左通道图像采用MPEG-2编码，右通道图像将通过来自左通道(基本层)的层内运动补偿预测和来自右通道(增强层)的层间视差补偿预测相结合的预测方式，尽量减小预测误差，有效地去除左右通道内部前后帧图像之间的时域信息冗余以及通道间图像的空域相关性。

通过对三种方案的比较，层内运动补偿预测和层间视差补偿预测相结合的编码方案是最优选择，既可以处理左右序列间视差补偿预测关系，又可以处理独立通道中的前后帧间运动补偿预测关系。

基于MPEG-2时域分级的3D立体视频编码流程

3D立体视频编码流程图如图5所示。在本文中，由于B帧具有高压缩率并且可以分别对基本层和增强层做预测，因此在增强层中所有帧均被设为B帧。编码序列结构如图6所示，左序列按照MPEG-2标准进行编码，而对于右序列第一帧，分别以左序列第一帧、第二帧作为前向预测帧和后向预测帧。其他帧则加载基本层的同步帧作为后向预测帧，使用先前已编码的帧作为前向预测帧进行预测。