基于视觉感知的高效视频编码标准帧内量化矩阵优化方法
2014-06-02郑明魁苏凯雄王卫星杨秀芝兰诚栋
郑明魁 苏凯雄 王卫星 杨秀芝 兰诚栋
基于视觉感知的高效视频编码标准帧内量化矩阵优化方法
郑明魁 苏凯雄*王卫星 杨秀芝 兰诚栋
(福州大学物理与信息工程学院福州350108)
该文使用一种基于离散余弦变换(DCT)的调制传递函数(MTF)改进高效视频编码标准(HEVC)帧内量化矩阵,并在计算过程中采用一种新的空间频率计算方法。HEVC整数DCT变换是在DCT变换的基础上经过伸缩扩展以及微调后得到的,与DCT变换有所区别,因此针对这种差别进一步优化校正量化矩阵。仿真过程中设计一种基于结构相似性(SSIM)的Bjontegaard比特率差值(BDBR)方法来测试量化矩阵的编码性能,结果表明在相同的视频质量下,该文设计的量化矩阵能进一步降低码率。该方法在编码过程中只需要简单地改变量化矩阵,没有影响编码模型的算法结构,也不会增加编码的复杂度。
高效视频编码标准;视觉感知;调制传递函数;量化矩阵
1 引言
与H.264/AVC相比,新一代高效视频编码标准(High Efficiency Video Coding, HEVC)在相同的视觉质量下能使比特率降低一半[1,2]。HEVC仍然采用混合编码框架,在正交变换环节,它对预测残差采用四叉树状的多尺寸整数离散余弦变换(Discrete Cosine Transform, DCT),变换尺寸可以为32×32, 16×16, 8×8等[3];此外,对有些4×4的帧内预测亮度分量则可以采用离散正弦变换(Discrete Sine Transform, DST)[4,5]。正交变换后的残差系数主要采用均匀量化的方法[3],同一变换块中的不同频率系数使用相同的量化步长。实际上,人眼对不同频率分量的敏感度是不同的,因此HEVC同时支持并提供了一种基于视觉感知特性的量化矩阵[6],通过这个缺省的量化矩阵使得不同系数可以用不同的量化步长进行量化。
视觉感知特性的量化矩阵设计主要基于调制传递函数(Modulation Transfer Function, MTF)进行,MTF体现了人眼对不同空间频率的敏感程度。目前有多个文献提出了不同的MTF模型,Mannos等人[7]最早将MTF特性用于图像编码,但所提出的MTF函数主要面向离散傅里叶变换(Discrete Fourier Transform, DFT); Daly[8]则在此基础上对MTF函数进行微调,该模型被延续到HEVC量化矩阵的设计[6]。因此HEVC缺省量化矩阵所采用的感知模型实际上最初是针对DFT变换的。人眼对DFT系数与DCT系数的频率感知不完全相同,因此使用基于DFT变换的MTF函数设计DCT系数的量化矩阵,具有一定的局限性。此外,HEVC视频编码采用的是整数DCT变换,需要将生成的DCT量化矩阵经过校正后才能用于整数DCT系数的量化,而HEVC则没有经过调整就直接将其用于量化,这也是该缺省量化矩阵的另一个局限性。
本文使用一种基于DCT变换的MTF函数设计HEVC帧内量化矩阵;在MTF函数中提出一种新的空间频率计算方法;此外,HEVC视频编码采用的是整数DCT变换,这种变换是在DCT变换的基础上对各个基矢量进行伸缩扩展以及微调后形成的,与DCT变换还有所区别,因此本文还对所设计的量化矩阵进行校正处理,以适应HEVC整数DCT变换的特点。由于峰值信噪比(Peak Signal to Noise Ratio, PSNR)在评价视频质量时没有体现人眼的感知特性,本文在仿真时设计了一种基于结构相似性(Structural SIMilarity, SSIM)的Bjontegaard比特率差值(Bjontegaard Delta Bit Rate, BDBR)方法来测试量化矩阵的编码性能。最后的仿真和分析结果表明,本文所提出的基于视觉感知特性优化的帧内量化矩阵与HEVC缺省矩阵相比,在相同的视频质量下进一步降低了码率。
2 基于DCT变换的调制传递函数MTF模型与空间频率计算
2.1 基于DFT变换的MTF模型与HEVC缺省量化矩阵
调制传递函数MTF体现了人眼对不同空间频率的敏感度。Mannos和Sakrison最早将MTF特性用于图像编码,其模型如式(1)所示[7]。
文献[9]将文献[8]的Daly模型用于设计静止图像编码标准JPEG的量化矩阵,获得了较好的视觉质量与压缩效果。JCTVC-G880提案则进一步将这个量化矩阵作为HEVC的缺省帧内量化矩阵[6]。实际上由以上的分析可知式(2)模型最初的设计是针对基于DFT变换的图像编码,并被延续到HEVC的缺省量化矩阵的设计。对于同一图像信号,DFT系数与DCT系数是不同的,但人眼接收到的图像信息却完全相同,因此人眼对DFT系数与DCT系数的频率感知不应该完全相同,也不能简单的使用基于DFT变换的MTF函数设计DCT的量化矩阵。
2.2 基于DCT变换的MTF模型与空间频率计算
许多视频图像编码标准都采用DCT变换,Nill将人眼视觉感知特性与DCT变换相结合,通过利用加权函数,提出了一种基于DCT变换的MTF函数(Nill模型)[10]。Nill模型函数在缓解图像的方块效应方面有一定的改善[11],对于2维的图像,其调制传递函数表达式如式(5)所示[10]。
由于HEVC采用了整数DCT变换去除像素空间域的相关性,而Nill模型更能体现人眼在DCT变换域的视觉特性,基于这种分析,本文结合该模型用式(6)来表示人眼对不同频率DCT系数的响应并将其用于设计量化矩阵。
将文献[9]基于Daly模型的人眼频率响应曲线与本文采用Nill模型得到的人眼频率响应曲线进行对比,如图2所示。横坐标为空间频率,纵坐标体现了人眼对不同空间频率的敏感度。从曲线上可以看出,实际上人眼对DCT系数与DFT系数在低频位置的视觉感知响应非常相似,但是在中频位置,人眼对DCT系数相对更敏感一些,而高频则衰减的更多。
3 基于视觉感知特性的DCT变换编码量化矩阵设计
图1 1 mm图像在距离dis处观察到的周期数和夹角示意图
图2 文献[9]与本文的人眼频率响应曲线对比
4 HEVC整数DCT变换帧内量化矩阵优化校正
图3 HEVC及本文提出的DCT帧内量化矩阵
0000-1-1-2-2 0000-1-2-2-1 00-1-2-2-2-2-1 00-2-2-2-1-10 -1-1-2-2-2024 -1-2-2-104710 -2-2-2-1271320 -2-1-104102034
图5 归一化后的HEVC整数DCT与DCT 8×8变换矩阵对比
对于4×4 HEVC整数DCT帧内量化矩阵,也是采用类似的计算方法,获得的4×4帧内量化矩阵如图6(b)所示。由图6可知,实际上4×4的HEVC量化矩阵内嵌于8×8矩阵内,16×16以及32×32的整数DCT量化矩阵之间也存在这种内嵌关系。HEVC为了节省数据量,16×16以及32×32的帧内量化矩阵由8×8帧内量化矩阵插值得到,每2×2或者4×4的子块都共用8×8量化矩阵对应位置上的量化步长。
5 性能仿真与分析
5.1 压缩码率与重构视频质量仿真
为了仿真本文设计的帧内量化矩阵的性能,将HEVC设置成帧内编码模式。本文使用HEVC参考软件HM 10.0作为测试平台,并分别设置QP值为22, 27, 32, 37[13],对几种常见的不同分辨率的测试序列进行仿真验证,如表1所示。
不同测试序列进行编码后的压缩码率与视频质量对比如表1前两列所示。为了进一步分析对比,本文对不同QP下生成的码率和视频质量进行曲线拟合,绘制码率-结构相似性(Rate-Structural Similarity, R-SSIM)曲线。如图8所示,分别为RaceHorses序列与BQSquare测试序列使用HEVC缺省量化矩阵以及本文方法编码后对应的R-SSIM曲线。由图8可知,在相同的码率下,本文所提出的量化矩阵能获得更高的质量;而在相同的视频质量下,本文的方法能更有效的压缩视频,获得更低的码率。
分析其性能改善的原因,主要是由于本文的量化矩阵更符合HEVC整数DCT系数的频率感知特性。本文方法对低频分量的量化与缺省矩阵一样,但中频系数的步长要低于缺省矩阵,由于人眼对中频也有一定的敏感度,同时视频图像在中频位置的能量分布也相对较多,因此中频系数量化步长的减少有利于避免能量的损失,减少量化误差的引入,对提高视频图像的质量具有积极影响。此外,高频系数量化步长的增加则提高了图像的压缩率,通常情况下DCT的高频系数都较小,图像能量较少分布在该区域,人眼对其敏感度也低,因此在高频位置增加量化步长对图像的质量影响不大,同时进一步提高了压缩率。正是由于中频与高频量化步长的同步调整,使得本文提出的量化矩阵具有更好的视频质量与压缩性能。
5.2 基于SSIM的BDBR编码性能计算与分析
对于Flower测试序列,基于SSIM的BDBR值为-3.55%,即本文提出的量化矩阵与HEVC缺省量化矩阵相比,在相同图像质量下能平均减少3.55%的码率。其他测试视频平均码率减少的情况如表1最后一列所示,由表中可知不同测试序列的码率都得到改善。对于某些序列,如BQTerrace与Foreman序列,在QP为37时,使用本文量化矩阵得到的比特率会稍大一些,其主要原因是由于当量化步长较大时大多数高频系数被量化为零,而本文量化矩阵对应的中频系数量化步长相对较小,因此获得的比特率稍大一些,但这也同时增强了图像质量。综合比特率与图像质量这两个因素,这两个序列在相同质量下比特率还是分别减少了2.07% 与1.19%。不同分辨率的测试序列在相同视频质量下平均的码率减少值为2.03%。
图7 RaceHorses测试序列不同量化矩阵帧内编码重构视频对比
图8 帧内编码RaceHorses序列与BQSquare序列的R-SSIM曲线
表1不同序列在不同量化矩阵进行帧内编码时的对比
测试序列QP比特率(kbps)SSIM基于SSIM的BDBR (%) 缺省矩阵本文方法缺省矩阵本文方法 BQTerrace1920×1080600帧221740781618460.963070.95852-2.07 2776269735920.910590.91002 3239833394600.881410.88146 3721518215490.845050.84529 RaceHorses832×480300帧2215217145660.974350.97306-1.22 27912587480.955840.95411 32512049630.921970.92050 37255025280.857260.85750 BQSquare416×240600帧2213134123690.974340.97012-2.13 27822178100.936670.93422 32505948240.889300.88731 37300528800.836470.83374 Foreman352×288300帧22374335780.975560.97416-1.19 27217020900.951150.94989 32118311550.913410.91271 376086100.861090.86162 Flower352×288250帧22816077630.992450.99105-3.55 27588654610.983400.98071 32394736270.961930.95814 37241022670.915400.91219
6 结束语
本文使用一种基于DCT变换的MTF函数来改进HEVC的帧内量化矩阵,在计算过程中使用一种新的空间频率计算方法。并在此基础上,进一步对其进行校正调整,以符合整数DCT变换的特点。在分析编码性能时,使用SSIM进行视频质量评价,并设计一种基于SSIM的BDBR方法测试量化矩阵的性能改善情况。仿真结果表明,本文方法更适用于HEVC的变换系数,在相同的视频质量下,本文提出的量化矩阵能平均降低比特率2.03%左右。由于在编码过程中只需要简单地改变量化矩阵,并不要改变编码模型的结构,也没有增加编码复杂度,却可以因此降低码率,这对于每个比特都弥足珍贵的视频编码方法研究具有一定的参考价值。本文所设计的量化矩阵不仅可以用于HEVC编码标准,经过适当调整也可以作为H.264/AVC, AVS2或者其他基于DCT变换的视频编码标准的参考量化矩阵。此外,本文设计的是帧内量化矩阵,在后续的工作中可以将其推广到帧间量化矩阵,以进一步提高HEVC的编码效率。
[1] Sullivan G J, Ohm J, Han Woo-jin,. Overview of the High Efficiency Video Coding (HEVC) standard[J]., 2012, 22(12): 1649-1668.
[2] Ohm J and Sullivan G J. High efficiency video coding: the next frontier invideo compression[J]., 2013, 30(1): 152-158
et al.IEEE Journal of Selected Topics in Signal Processing
[3] Saxena A and Fernandes F C. Mode dependent DCT/DST for intra prediction in block-based image/video coding[C]. Proceedings of the 2011 18th IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, 2011: 1685-1688.
[4] Yeo Chuo-hao, Tan Yih-han, Li Zheng-guo,. Mode dependent transforms for coding directional intra prediction residuals[J].2012, 22(4): 545-554.
[5] Haoqe M, Tabatabai A, and Morigami Y. HVS model based default quantization matrices[C].JCTVC-G880, 7th The Joint Collaborative Team on Video Coding Meeting, Geneva, Switzerland, 2011: 1-14.
[6] Mannos J L and Sakrison D J. The effect of a visual fidelity criterion on the encoding of images[J]., 1974, 20(4): 525-536.
[7] Daly S. Subroutine for the generation of a two dimensional human visual contrast sensitivity function[R]. Eastman Kodak, 1987.
[8] Wang Ching-yang, Lee Shiuh-ming, and Chang Long-wen. Designing JPEG quantization tables based on human visual system[J]., 2001, 16(5): 501-506.
[9] Nill N B. A visual model weighted cosine transform for image compression and quality assessment[J].1985, 33(6): 551-557.
[10] Chitprasert B and Rao K R.Human visual weighted progressive image transmission[J].1990, 38(7): 1040-1044.
[11] Sullivan J, Ray L, and Miller R. Design of minimum visual modulation halftone patterns[J].1991, 21(1): 33-38.
[12] Bossen F. Common test conditions and software reference configurations[C]. JCTVC-J1100, 10th The Joint Collaborative Team on Video Coding Meeting, Stockholm, Sweden, 2012: 1-3.
[13] Wang Zhou, Bovik A C, Sheikh H R,. Image quality assessment: from error measurement to structural similarity[J].,2004, 13(4): 600-612.
[14] Bjontegaard G. Calculation of average PSNR differences between RD-curves[C]. VCEG-M33, 13th Video Coding Experts Group Meeting, Austin, USA, 2001: 1-4.
郑明魁: 男,1976 年生,讲师,博士生,研究方向为多媒体通信与视频编码.
苏凯雄: 男,1959 年生,教授,博士生导师,研究方向为多媒体通信、数字电视广播.
王卫星: 男,1959 年生,教授,博士生导师,研究方向为图像处理与融合.
An Improved Intra Quantization Matrix for High EfficiencyVideo Coding Based on Visual Perception
Zheng Ming-kui Su Kai-xiong Wang Wei-xing Yang Xiu-zhi Lan Cheng-dong
(,,350108,)
A Discrete Cosine Transform (DCT) based Modulation Transfer Function (MTF) is used to improve the intra quantization matrix for the High Efficiency Video Coding (HEVC) standard. A new method is used to calculate the spatial frequency in the calculation process. The integer DCT for the HEVC is achieved by scaling and hand-tuning the DCT matrix. Due to difference between these two transforms, the quantization matrices are optimized. The experimental results show that the proposed HEVC intra quantization matrix based on the visual perception can reduce more bit rate at the similar video quality by using a Structural SIMilarity (SSIM) based Bjontegaard Delta Bit Rate (BDBR) performance evaluation. Since only the quantization matrices are changed in the encoding process, the proposed algorithm does not affect the structure of the encoding algorithm and does not add the coding complexity.
High Efficiency Video Coding(HEVC); Visual perception; Modulation Transfer Function (MTF); Quantization matrix
TN919.8
A
1009-5896(2014)12-2861-08
10.3724/SP.J.1146.2014.00318
苏凯雄 skx@fzu.edu.cn
2014-03-10收到,2014-06-09改回
国家自然科学基金(61170147),福建省高校产学合作重大项目(2012H6012)和福建省自然科学基金(2013J01234)资助课题