一种基于人眼视觉特性的高效视频编码优化方法
2014-04-29王苫社赵德斌高文
王苫社 赵德斌 高文
摘 要:基于HEVC (High Efficiency Video Coding) 新的编码结构,本文提出了一种基于视觉特性的率失真优化方法。首先基于分歧归一化与量化之间的关系,提出了一种适合HEVC编码结构的视觉因子的计算方法,并提出使用非线性模型对视觉因子进行缩放,进而用于对量化参数的调整。其次,基于视觉因子和HEVC的四叉树结构,提出一种基于视觉特性的率失真代价模型用于模式决策,以提升视频编码的主观性能。实验结果表明,本文算法可以有效提升重构视频的主观质量,在RA和LDP配置下,平均主观性能提升为7.21%和11.46%。
关键词:HEVC;率失真;视觉优化
中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2014)05-
A Perceptual Characteristic Based Optimization Scheme for High Efficiency Video Coding
WANG Shanshe1 ,ZHAO Debin1 ,GAO Wen2
(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001, China;
2 Institute of Digital Media, Peking University, Beijing 100871, China)
Abstract:Based on the new coding structure of (High Efficiency Video Coding) HEVC, this paper proposed a perceptual rate distortion optimization scheme. Firstly, based on the correlation between the divisive normalization and quantization, a non-linear zooming scheme for the perceptual factor is proposed for the adjustment of the quantization parameter. Secondly, based on the perceptual factor and quad tree coding structure, a perceptual calculation scheme of rate distortion cost is proposed for the mode decision in order to improve the subjective performance. The experimental results show that the proposed scheme can improve the subjective performance efficiently. The performance gain can be up to 7.21% and 11.46% on average for RA and LDP respectively.
Key Words: High Efficiency Video Coding(HEVC);Rate Distortion;Perceptual Optimization
0 引言
2013年,新一代视频编码标准High efficiency video coding (HEVC)[1] 正式发布。和前一代视频编码标准H.264/AVC[2]相比,新标准的视频编码性能在主观和客观两个方面都取得了较大幅度的提升[3]。由于视频的最终接受者为人眼,因此对于视频编码进行主观优化,进一步提升视频编码的主观性能,以更加符合人眼的视觉特性,即具有重要的研究价值和现实意义。
目前,尽管人们对人眼视觉特性的认知还无法使用具体的数学模型进行精确的描述,但在图像处理、质量评价等领域中,研究者通过对人眼视觉系统的一些简单特性实现了模型化并进一步应用于视频编码优化,则有效提升了视频编码的主观性能。早期的视频编码标准中,已然可见视觉模型[4]在编码的率失真优化中的多次应用,而且也取得了不错的视觉效果。
近年来,基于视觉特性的率失真优化更加倾向于使用能够体现视觉特性的失真模型来进行视觉率失真优化。基于HVS系统的时空特征,Wang[5]等人提出了一个用于衡量压缩视频序列的主观失真度量模型——结构相似性(Structure Similarity, SSIM),已由研究界认定是一种较为准确的主观失真的衡量方法,并广泛用于对视频编码质量的主观评价[6-7]。而基于SSIM,Li等[8]在假定残差系数服从拉普拉斯分布的情况下,更进一步地提出了基于SSIM的视觉率失真优化模型;随之Wang[9]更对文献[8]中的方法实行了优化改进。尤其是,文献[10]基于分歧归一化理论,研究了基于视觉的量化矩阵的设计方法。方法中,通过基于预测信息的方法对DC系数和AC系数分别计算了归一化因子,又根据变换域各频带的系数服从拉普拉斯分布的假设,利用拉普拉斯分布的参数调整了AC系数的量化权值以体现不同系数对于主观质量的贡献,由此在H.264/AVC中,视频编码的主观质量即得到了较大提升。
1 分歧归一化的基本理论与视觉优化
分歧归一化(Divisive Normalization)的理论本质是对矩阵的某种变换,主要目的是使得矩阵中的数据可以反映某种特性并适合于特定的应用,其基本思想可以用来解释神经系统的某些行为,因而能够在一定程度上反映人眼视觉系统的某些特性[11]。在时下的图像处理领域中,分歧归一化方法的应用已经相当广泛[12]。但在不同的应用中,分歧归一化因子(Divisive Normalization Factor, DNF)的计算方法却有所不同,例如基于数据局部特征的计算方法[13],基于数据分布模型的计算方法[11]等。
基于视觉特性的分歧归一化可以理解为定义一个DNF对变换的残差系数通过归一化处理,并实现相应的量化,从而可以反映出图像的主观特性,即视觉优化因子(Perceptual Optimization Factor, POF)。编码实现中,该过程可以等价地注释为根据POF对量化参数进行调整,即:
(1)
其中, 表示调整后的量化步长。因此,基于视觉的率失真优化的核心关键即在于给出能够反映主观视觉POF的合理定力,并使用该因子对视频编码进行率失真优化。
依据DCT域的SSIM定义,在文献[14]中,基于分歧归一化的基本理论,则给出了POF的一种计算方法,具体计算如公式(2)和(3)所示,可分别用于实现DC系数和AC系数的归一化。
(2)
(3)
其中,E表示数学期望,fac和fdc分别表示AC系数和DC系数的POF。
实际计算过程中,文献[14]通过预测值和补偿因子解决了编码中的“蛋鸡”问题,同时也完成了POF的精确计算。
2 改进的视觉因子计算与非线性缩放
文献[14]中,POF计算方法的不足之处在于,首先会带来解码端复杂度的增加,其次计算得到的POF波动较大,综合作用下就可能造成相邻编码单元的主观质量差异较大。为此,针对解决解码端的复杂度提升问题,本文则基于对不同频带变换系数有关分布的深入分析,提出使用一个POF表示AC和DC系数的视觉特性,从而避免对解码端带来额外解码开销。图1即给出了对8x8的编码单元进行DCT变换后所得变换系数在每个频带的分布情况。从中可以看出,不同频带的系数分布均服从一种均值近似为零的拉普拉斯分布。具体地,对于DC系数,分布较为平滑;而对于AC系数,分布就较为集中,并且大部分AC系数均位于“死区”内。
图1 8x8 DCT变换系数分布
Fig. 1 Distribution of 8x8 transformed coefficients
在此,设某个频带的概率密度函数为:
(4)
其中,λ为模型参数,取值和函数的形状相关,取值越小,其分布越平滑。对于给定的量化参数,“死区”的量化失真可以表示为:
(5)
结合(4)式,能够得到:
(6)
从公式(6)中可以看出,对于相同的量化参数,失真的大小和λ的取值正相关,因此对于AC系数使用DC系数的视觉因子,AC系数的失真增大,而AC系数又包含了较多的细节信息,对主观质量影响也相应较大。基于以上分析,本文的POF拟定使用AC系数进行计算。即:
对于文献[14]中POF的取值范围波动较大,本文将从两个方面解决。首先使用高斯低通滤波方法对编码单元进行滤波,如(7)式,而后再计算相应的视觉因子POF。
(7)
高斯滤波之后,视觉因子的具体计算就可以表示为:
(8)
其中, 表示高斯滤波之后的系数。
为了进一步平滑视觉因子,同时基于视觉特性的考虑,本文提出使用非线性的Sigmoid函数对高斯滤波后计算得到的POF进行非线性收缩,具体则如(9)式。
(9)
经过缩放之后的POF取值范围在[0.5, 1.5]。此后,POF将用于对量化步长的调整,其实现可如式(10):
(10)
3 基于视觉特性的率失真代价模型
率失真优化的基本原理是通过计算每种模式的率失真代价,从而对编码模式进行决策,传统的率失真代价的计算方法为:
(11)
其中,J表示率失真代价,λ表示拉格朗日乘数,D表示编码的客观失真,通常的表现形式为SSE或MSE,R则表示编码所需的码率。该方法的不足之处即在于不能表示视觉失真特性。考虑视觉特性的率失真代价的计算则需要考虑基于视觉的失真,因此可将其表示为:
(12)
其中,Dp表示视觉失真。
利用POF进行归一化后,产生的视觉失真即可表述为:
(13)
因此,基于视觉的率失真代价的计算则可如式(14)所示:
(14)
HEVC中,对于Rate-GOP中不同深度的各帧,拉格朗日乘子亦有不同,因此单纯对失真进行调整将会造成模式决策的失误。对公式(14)进行等价变形,可得:
(15)
研究可知,由于对于同一个编码单元,f不会发生改变,因此模式决策只需要比较右侧的取值大小即可。而在右侧的表达式中,则可等价理解为对拉格朗日常数的调整,使得R-D曲线能够趋向于表达主观特性。最终本文提出,对于一个编码单元,率失真代价的计算模型为:
(16)
上述率失真代价计算可以理解为对于POF较小的区域,分配更多的比特,以实现主观质量的提升。由于本文提出的视觉率失真代价以CU为单位,考虑到HEVC采用了基于四叉树划分的结构,这就使得对于每个CU相应的四个Sub-CU,计算得到的拉格朗日常数可能并不相同,因此本文算法在比较相邻深度的率失真代价时,就需采用上层的拉格朗日乘数重新计算当前深度下的率失真代价,从而对是否进行四叉树划分做出最终有效决策。
4 实验结果与分析
为了验证本文算法的有效性,将本文算法在HEVC的参考软件HM10.0上进行相关实验,测试条件为通用的两种测试条件RA和LDP,主观性能使用SSIM值进行衡量。表1和表2分别给出了在两种不同配置下的实验结果,并和相关文献的结果进行了对比。在RA和LDP下本文算法的平均主观性能提升分别为7.21%和11.46%。同时,本文也将实验结果和文献[15][16]中的算法相比,如表1和表2所示,从中可以看出本文算法能够有效地提高视频编码的主观性能,而且又保持了较小的客观性能损失。
5 结束语
基于HEVC新的编码特性,本文提出了一种基于视觉特性的优化算法。该算法引入了一种非线性收缩方式用于计算视觉因子,进而基于视觉因子提出了一种基于视觉特性的率失真代价计算方法用于模式决策,从而实现基于视觉特性的率失真优化。实验结果表明,本文算法的主观性能得到了较大幅度的提升。
参考文献:
[1] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the High Efficiency Video Coding (HEVC) Standard[J].IEEE Trans. on Circuits and Systems for Video Technology, 2012, 22(12):1649-1668.
[2] WIEGAND T, SULLIVAN G J, BJONTEGAARD G, et al. Overview of the H.264/AVC video coding standard[J].IEEE Trans. on Circuits Syst. Video Technol., 2003, 13(7):560-576.
[3] OHM J R, SULLIVAN G J, SCHWARZ H, et al. Comparison of the coding efficiency of video coding standards–including high efficiency Video Coding (HEVC) [J].IEEE Transactions on Circuits and Systems for Video Technology , 2012,22(12):1669-1684.
[4] WEBSTER A A, JONES C T, PINSON M H, et al. An objective video quality assessment system based on human perception[C]//Proc. SPIE VInt. Soc. Opt. Eng., 1993,1913:15–26.
[5] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J].IEEE Trans.on Image Processing, 2004,13(4):600–612.
[6] YANG C, WANG H, PO L. Improved inter prediction based on structural similarity in H.264[C]//IEEE International Conference on Signal Processing and Communications, 2007,2:340–343.
[7] HUANG Y H, OU T S, SU P Y, et al. Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE Trans. on Circuits and Systems for Video Technology, 2010,20: 1614–1624.
[8] LI X, OERTEL N, HUTTER A, et al. Laplace distribution based Lagrangian rate distortion optimization for hybrid video coding[J]. IEEE Trans. Circuits Syst. Video Technol., 2009,19(2):193-205.
[9] WANG S, REHMAN A, WANG Z, et al. SSIM-motivated rate-distortion optimization for video coding[J]. IEEE Trans. on Circuits and Systems for Video Technology, 2012, 22(4):516-529.
[10] WANG S, MA S, GAO W. SSIM based perceptual distortion rate optimization coding[C]//Proc. SPIE: Vis. Commun. Image Process.,2010,77(44):1–10.
[11] HEEGER D J. Normalization of cell responses in cat striate cortex[J]. Visual Neuroscience, 1992,9(2):181-197.
[12] LYU S, SIMONCELLI E P. Statistically and perceptually motivated nonlinear image representation[C]//Proc. SPIE Conf. Human Vision Electron. Imaging XII, 2007,6492:1-15.
[13] WAINWRIGHT M J, SIMONCELLI E P. Scale mixtures of gaussians and the statistics of natural images[J]. Adv. Neural Inf. Process. Syst., 2000,12:855–861.
[14] WANG S, REHMAN A, WANG Z, et al. Perceptual video coding based on SSIM-inspired divisive normalization[J].IEEE Transactions on Image Processing, 2013,22(4):1418-1429.
[15] YEO C, TAN H, TAN Y. SSIM-based adaptive quantization in HEVC[C]//IEEE International Conference on Speech and Signal Processing (ICASSP), 2013:1690-1694.
[16] 王诗淇.基于视觉特性的视频编码技术研究[D].北京:北京大学,2014.