浅析超高清数字电视视频压缩编码技术
2013-08-13王子微杨盈昀
王子微,杨盈昀
(中国传媒大学通信与信息系统专业,北京 100024)
责任编辑:时 雯
从标清电视到高清电视再到超高清,愈加清晰的电视画面不断挑战人类“临场感与真实感”的极限。电影银幕大小的显示器加上22.2声道的立体声场给予观众的视听感受将是不言而喻的。早在20世纪末,日本、美国和欧洲已经开始研究超高清数字电视(UHDTV)。目前,索尼、松下、夏普、三星、LG等公司都有超高清产品问世[1]。
众所周知,1 920×1 080已成为高清通用图像格式(HDCIF),而超高清的图像格式分为3种:4K(3 840×2 160)、8K(7 680×4 320)和16K(15 360×8 640),分别是HDCIF的4倍、16倍和64倍,针对不同国家地区支持50 Hz、60 Hz及59.9 Hz等帧率,采用逐行扫描。超高清系统的基色坐标、标准白、光电转换函数、亮度/色差分量方程等色度学指标都与现有的ITU-R BT.709和SMPTE RP177等标准兼容,加上延续16∶9显示比例,在兼容性上做到了极致。此外,超高清系统的水平视角可达100°,比起高清电视30°的水平视角,可以让观众获得更佳的身临其境的效果[2]。在常规尺寸的电视上,超高清电视技术带来的画面质量的改善不能体现出来,所以超高清电视主要还是为公共场所的大屏幕电视设计。
1 超高清数字电视压缩编码技术概述
以色度分辨率最低的4∶2∶0色度采样为例,当超高清数字电视信号图像为4K模式时,其原始数据率为(3 840×2 160 pixel/frame)×(12 bit/pixel)×(30 frame/s),即约为2.78 Gbit/s(30 frame/s),8K模式的原始数据率约为11 Gbit/s,如此庞大的数据量,如采用H.264视频压缩方法可将4K模式原始数据率压缩至20 Mbit/s以内,但这对目前的带宽要求仍然很高。因此必须研究新的视频压缩标准对原始数据进行高效的压缩,以完成带宽传输要求。为此,ITU-T视频编码专家组(Video Coding Experts Group,VCEG)和ISO/IEC移动视频专家组(Moving Picture Experts Group,MPEG)联合成立了视频编码联合小组(Joint Collaborative Team on Video Coding,JCT - VC),致力于研制下一代视频编码标准HEVC(High Efficiency Video Coding)[3]。
HEVC的目标是在H.264/AVC high profile的基础上,使高分辨力/高保真的视频图像压缩效率提高一倍。HEVC仍然采用类似于H.264的预测加变换的混合编码框架,但其编码结构更加灵活,包括编码单元(Coding Unit,CU)、预测单元(Predict Unit,PU)以及变换单元(Transform Unit,TU),这3个单元彼此分离,能够有效完成各自的功能。此外,HEVC拥有多达35种帧内预测模式,包括33个方向性预测和2个非方向性预测模式。并增加了两个高效的滤波器:样本自适应偏移滤波器(SAO)和自适应环路滤波器(ALF)。下面将介绍HEVC编码工具或技术的主要改进。
2 HEVC关键创新技术
2.1 编码结构
HEVC提出了超大尺寸四叉树编码结构,利用CU、PU以及TU来完成视频图像的分割和预测编码。且HEVC采用更大的块结构,最大的编码单元为64×64像素。
编码单元CU采用四叉树递归的方式进行CU的划分,如图1所示。CU最大块(LCU)可达64×64,最小块(SCU)为8×8,且其形状必须为正方形。为了得到最优的CU,每个64×64的CU最多要进行85次的CU计算以得到最小率失真值。
图1 LCU结构示意图
TU用来实现CU的预测过程,其大小不能大于其所属的CU,形状可以是正方形,也可以是矩形。目前存在着两种分割类型:对称分割[4]和不对称分割(AMP)[5],分别如图2和图3所示。
图3 矩形变换交叉树
采用以上分割方式可以提高大尺寸区域的预测效率。帧内预测采用2N×2N和N×N两种PU分割方式,而对于帧间预测,所有分割方式都适用。
图4显示的是3级矩形四叉树变换水平TU结构,同理可有垂直分割结构。TU是进行变换和量化的基本单元,且其大小可以从32×32到4×4。对帧间编码,TU的大小可以大于PU的大小,但不能超过CU的大小;对帧内编码,TU的大小不能超过PU的大小。在一个CU中可以有一个或者多个TU,为了提高CU的编码效率,TU同样采用类似于CU的四叉树结构。此外,为了与PU对称分割和不对称分割模式相对应,矩形四叉树TU结构的提案[6]也被联合小组采纳。
图4 35种帧内预测方式
2.2 HEVC帧内预测编码技术
与H.264一样,HEVC的帧内预测仍然是在空域中进行的。为了提高帧内压缩效率,相对于H.264的8种方向性帧内预测模式,HEVC提供了高达35种预测模式,如图5所示。其中的33个方向性预测,大大增加了帧内预测的精细程度。而Planar和DC这两种非方向性预测模式都是为了能更好地预测纹理比较平滑的区域而提出的,其中Planar模式更侧重于有一定渐变趋势的区域。
图5 35种帧内预测方式示意图
在HEVC中,预测单元PU的大小从64×64到4×4。对于不同大小的PU,HEVC除了提供非方向性预测模式外,还提供不同个数的方向性帧内预测模式。当使用重构像素对当前块进行预测时,HEVC对所有的PU都采用1/32的插值精度。
HEVC共有5种色度帧内预测模式,分别为垂直、水平、DC、DM以及基于亮度的色度帧内预测模式。其中DM指的是使用其对应亮度像素采用的预测模式。
虽然现有的35种帧内预测模式能在很大程度上提高帧内预测的精度,但其复杂度却也相应地增加了很多。尽管现有的HEVC模型对不同大小的PU限制了一定个数的预测方向,但其复杂度仍然比较高,这也是目前很多快速帧内预测算法研究人员面临的难题。
2.3 HEVC环路滤波技术
为了使滤波效果更佳,HEVC中会使用去块效应滤波器、自适应样点补偿滤波器(Sample Adaptive Offset,SAO)和自适应环路滤波器(Adaptive Loop Filter,ALF)对反量化后的图像进行处理。其中去块效应滤波器与H.264中采用的技术类似,SAO和ALF都是HEVC新采用的关键技术,这两者不同于去块效应滤波器,它们除了对块边缘进行滤波外,还对块中的任意像素进行过滤。
2.3.1 自适应样点补偿滤波器
在完成去块效应滤波处理后,对每个像素应用SAO根据其特征进行分类,然后对不同类型的像素应用不同强度的补偿。SAO包括两种类型,即带状补偿(Band Offset,BO)和边缘补偿(Edge Offset,EO)[7]。
带状补偿将某个区域内的所有像素分为多个条带,每个条带含有相同强度间隔的像素。带状补偿将从0到最大强度之间的强度范围平分为32个强度间隔,每个间隔有一个补偿值。且这32个强度间隔被分为了两组,只有其中一组的补偿值被用来编码传输,这样有利于节省比特数。
边缘补偿通过将当前像素与相邻像素进行对比,比较模板如图6所示,将当前区域内的像素进行分类标识,然后在解码时根据相应的分类标识进行相应的补偿。由于每个模板每次只对相邻的两个像素进行比较,所以操作并不复杂。为了使LCU能进行独立的解码,每个LCU的顶行和底行像素都不对模板b,c和d进行处理;同理每个LCU的最左列和最右列的像素不对模板a,c和d进行处理。
图6 EO像素分类模板
2.3.2 自适应环路滤波器
为进一步降低重建图像的失真,HEVC引入了一项新技术——自适应环路滤波器(ALF)。提案[8]采用了一种基于四叉树的自适应环路滤波器QALF(Quadtree-based A-daptive Loop Filter),这种滤波器是为了减少编码图像的解码噪声,它决定是否逐片地将(slice by slice)环路滤波器应用到一个块的亮度和色度分量上。对于亮度分量来说,滤波器是一个点对称的二维FIR滤波器;而对于色度分量来说,滤波器是一个5×5抽头点对称矩形二维FIR滤波器。
目前,HEVC有两种ALF分类方法,即基于像素的ALF 分类方法[9]和基于区域的 ALF 分类方法[10]。对于基于像素的ALF分类方法,一幅图像的所有像素被分为16组,之后每个组会使用一种滤波器来进行处理,滤波系数通过自适应维纳滤波器进行计算;而基于区域的ALF分类方法,会将一幅图像分为大致相等的16个区域,且每个区域都与LCU(64×64)编码单元边界对齐,与基于像素的分类方法类似,每个区域在整合后都会使用一种滤波器来进行滤波处理。
3 结论
本文论述了超高清晰度电视技术的发展,重点对新一代视频编码标准HEVC的主要技术进行了简要说明。虽然HEVC标准正在制定中,但主要框架已基本确定,预计在2013年1月份完成国际标准最终版本。
[1]孙乐民,薛永林.超高清数字电视关键技术研究[J].电视技术,2012,36(6):17-20.
[2]杨寿堂,汪兰.超高清电视的价值取向[J].新闻界,2008(5):127-128.
[3]ITU-T SG16.Joint collaborative team on video coding[EB/OL].[2012-08-25].http://www.docin.com/p-404517907.html.
[4]SUZUKI Y,TAN T,CHIEN W,et al.JCTVC-D421,Extension of uniprediction sim-plification in B slice[R].[S.l.]:JCT-VC,2011.
[5]BOSSEN F.JCTVC-E700,Common test conditions and software reference configura tions[R].[S.l.]:JCT-VC,2011.
[6]YUAN Y,ZHENG X,PENG X,et al.JCTVC-F412,CE2:Non-square quadtree transform for symmetric and asymmetric motion partition[R].[S.l.]:JCT-VC,2011.
[7]CHEN C Y,FU C M,TSAI C Y,et al.JCTVC-E049,Sample adaptive offset with LCU-independent decoding[R].[S.l.]:JCT-VC,2011.
[8]TAKESHI C.JCTVC-A119,Description of video coding technology proposal by TOSHIBA[R].[S.l.]:JCT-VC,2010.
[9]CHEN C Y,FU C M,TSAI C Y,et al.JCTVC-D119,CE8 Subtest2:A joint proposal on improving the adaptive loop filter in TMuC0.9 by mediatek,qualcomm and toshiba[R].[S.l.]:JCT-VC,2011.
[10]CHEN C Y,FU C M,TSAI C Y,et al.JCTVC-E046,CE8 Subtest 2:Adaptation between pixel-based and region-based filter selection[R].[S.l.]:JCT-VC,2011.