网络视听音视频高效编解码技术研究与展望

2023-04-29郭晓强

网络视听 2023年5期

郭晓强

进入数字时代后，音视频编码的重要性更加凸显，针对不同应用场景的编解码技术也在持续演进和发展。以下从音视频技术发展趋势、2D视频编码技术、三维沉浸式视频编码技术和三维声编码技术四个方面来探讨音视频编解码技术发展和应用。

首先，回顾近年来音视频技术的发展趋势。从数据表示上，传统的2D视频主要是纹理信息，3D视频增加了深度信息，而现在的沉浸式视频则采用点云、特征等更加复杂的表现形式，能更加准确地描述视频场景；空间分辨率上，视频从高清到4K超高清再到现在的8K超高清，空间分辨率不断提升，对应的清晰度也越来越高；时间分辨率上，也就是帧率，从高清的25帧每秒，到超高清的50帧每秒，未来也将朝着100帧每秒和120帧每秒演进，对于快速运动场景来说，帧率的提升会让我们看到的画面更加连续和流畅；视场角也在不断扩大，比如全景视频的视场角是180°或者360°，能够覆盖人眼的观看范围；自由度体现了视频体验的维度，早期的VR视频以三自由度为主，现在也在不断向六自由度发展，用户可以随意走动来观看不同角度的内容。视频技术发展的同时，与之相伴的音频技术也在不断迭代升级，从早期的单声道、立体声发展到环绕声再到现在的三维声，能让观众获得声临其境的体验。总体来看，音视频技术的发展可以带来更高分辨率、更大视场角、更高自由度和更沉浸声音，通过这些技术的融合演进，为用户带来更美好的视听感受。

其次，从视频的形态上，可以分为2D视频和3D视频。2D视频在技术路线上比较明晰，从标清到高清再发展到4K/8K超高清。不同的视频在分辨率、帧率、色域、量化精度、动态范围等方面都有可能存在差异，因此对应的2D视频格式有很多种。特别在网络视听领域，视频可以通过手机、平板电脑多种终端进行观看，对应的视频格式和视频编码标准也多种多样。国家广播电视总局在2021年发布的行业标准《网络视听节目视频格式命名及参数规范》中将网络视听节目视频格式分为9种，并给出了每种视频格式对应的视频参数，保证在相同的视频格式下视频技术参数的一致性。

再次，来看3D视频技术的发展，十多年前的3D电视频道，当时主要采用了帧兼容的3D视频，将左右眼两路视频下采样后合成一路视频，按照传统的2D视频方式编码传输后在终端恢复出两路视频，通过佩戴3D眼镜获得立体效果。后续业界开始研究裸眼3D视频，编码传输2D视频和深度图等信息，终端在传统显示器基础上增加透镜薄膜，用户无需佩戴眼镜即可获得立体效果。目前，随着VR/AR等显示技术的进一步发展，三维沉浸式视频技术成为当前关注的热点。为了推动三维沉浸式视频技术的规范化发展，国际ITU、MPEG等标准组织都开展了相关标准的制定工作。ITU一开始采用“先进沉浸式音视频”的说法，后来又改为“先进沉浸式感知媒体”，除了传统的音视频外，还包含图片、触觉等，相关的概念也在不断的探讨中。我们将这种能够提供三维沉浸式效果的视频统一称为“三维沉浸式视频”。

以下分享几种三维沉浸式视频技术的应用场景。谷歌的Starline远程通话系统可以和远方的家人朋友实现“面对面”的交流；NHK研发的AR系统能够支持大屏和小屏同步互动；芒果的虚拟主持人“小漾”采用数字人的方式实现和现场观众的逼真互动；华为研发的自由视角系统则可以让用户观看到同一物体的不同角度。上面几种应用场景，呈现的就是三维沉浸式视频，可以是360°全景视频、多视角视频或者容积视频，这是目前视频演进的方向。为了适配视频系统的发展，声音也在朝着三维声、沉浸声的方向发展。通过音视频技术的同步演进，未来视听体验将更加沉浸化。

无论是2D视频还是3D视频，为了便于存储、交换和传输，都需要编码。关于2D视频编码标准发展路线图，国际上主要是ITU和MPEG联合制定的H.262、H.264、H.265、H.266系列标准，还有谷歌推出的AV1标准。国内主要是AVS系列标准，主要包括AVS+、AVS2和AVS3标准。整体来看，视频编码标准基本十年更新一代，每一代复杂度比上一代增加近10倍，编码效率提高约1倍。这些视频编码标准都采用了基于混合块划分的混合编码框架，随着一代代标准的演进，图像划分从单一、固定划分朝着多样、灵活的划分结构发展，帧内预测模式更多、预测方向更精细，帧间预测运动模型更准确、预测模式更丰富，再加上更加复杂的变换、滤波等技术，使得编码效率越来越高。未来2D视频编码技术主要有两大方向，一是对传统编码技术的进一步探索，通过复杂度的提升来换取编码性能的提升；二是基于AI的神经网络编码，又可以细分为两个方向，一个方向是研究基于神经网络的编码工具，获得比传统编码工具更优的编码性能，另外一个方向则是探索基于AI的编码框架，这个方向对于编码领域是一个颠覆性的改变，难度也更大，相关的技术也在逐步探索中。

三维沉浸式视频包含全景视频、自由视点视频、容积视频等，对应的编码方式也有很多种，比如全景视频编码、多视点编码、纹理+深度编码、点云编码、网格编码等。在终端，可以渲染为2D视频在大屏上观看，也可以根据头部运动，渲染出不同的画面通过佩戴头显设备观看，还能利用手机、平板电脑通过手指滑动观看不同视角的视频。目前我们也正在探索适合“未来电视”发展的三维沉浸式视频技术路线。在VR视频编码方面，我们研制了基于FOV的全景视频编码，这是全景视频的低分辨率图像和观看视角对应的高分辨部分图像。这样做的好处是，能够在低时延情况下，随着头部的转动，从低分辨率图像过渡到高分辨率图像，显著节省带宽。此外，多视点编码、点云编码等在业内三维沉浸编码领域也有应用。

最后，再看看音频编码的最新发展情况。国家广播电视总局发布了《三维声编解码及渲染》行业标准，可以支持多音箱场景或者耳机场景。对于网络视听应用，可以在手机或平板电脑上的软件进行更新后，利用耳机即可体验到三维声的效果。而对于家庭多音箱场景，需要更换机顶盒，相对来说比较复杂。三维声编解码和渲染的框架，支持声道编码、对象编码、HOA编码和元数据编码。标准最大的创新在于首次采用了基于AI的音频编码技术，在MDCT之后引入基于神经网络的变换和熵编码模块，显著提升了编码性能。

综上所述，随着音视频应用场景的创新发展，对应的音视频编码技术也在不断演进，目标是在保证编码质量的前提下，不断提升编码效率，节省传输带宽和存储空间。我们很期待，随着和人工智能技术的不断结合，在不久的未来，音视频编码能有更大的突破。W