基于视频编码增益的视频质量评价算法性能研究
2014-09-18杨小康
张 玮,宋 利,杨小康
(上海交通大学图像通信与网络工程研究所,上海200240)
随着电子产品的多样化,各类终端上呈现的多媒体内容也在日常生活中激增。以数字图像和视频为代表的多媒体内容,经过拍摄、压缩和传输等处理后呈现在人眼面前,满足人们对视听享受的要求。近年来生活水平的提高,人们对用户体验质量(QoE)提出了更高的要求。为此,服务提供商需要对系统进行全面的评测和研究,视频质量对QoE的重要影响使得视频质量评价成为系统性能评估的重要手段,在多媒体的发展中具有重要意义。
视频质量评价方法分为主观和客观质量评价方法。客观质量评价方法是模拟或是预测人眼对视频质量的评价。然而,这些客观质量评价方法与人眼主观质量评价之间的准确性和一致性却不尽相同。这样的局面是多方面的原因造成的。首先,到目前为止,人们对人眼视觉系统(HVS)[1]的认识有限;其次,造成视频质量下降的表现很多,诸如模糊、噪声和块效应等;再者,视频质量与本身的内容有很大关系,任何一个客观质量方法都不可能在所有的视频内容上得到验证;最后,缺少对客观评价方法进行大规模的、可靠的比较。结果,主观质量评价方法仍然是最可靠的质量评价方法。
压缩编码对视频传输来说是必不可少的,此过程由视频编码器实现,目的是把数据量很大的视频流压缩成为适应不同带宽信道的文件。在这个过程中要实现在码流速率以及视觉感知失真之间的折中,即率失真优化过程。具体可以描述为在比特率R满足小于定制的码率R[2]0这样一个限制下,使得压缩后的视频感知失真D最小。
这是一个典型的最优化问题,其中视觉感知失真D用客观质量评价来衡量。因此,客观评价算法的选取对率失真优化过程乃至最终编码器的性能都有很大的影响。
国际标准化组织——运动图像专家组(ISO MPEG)和国际电信联盟电信标准化部门——视频编码专家组(ITU-T VCEG)联合开发的新一代的视频编码标准——HEVC[3]在2013年1月25日国际电信联盟电信标准化会议上通过后,许多专家学者对HEVC编码性能进行了研究。J.R.Ohm等[4]通过用峰值信噪比(PSNR)和主观评价结果计算出的 Bjontegaard 比特率差量(BD-Rate)[5],来比较HEVC测试模型HM8.0与之前存在的编码标准之间的编码效率。Y.Zhao 等[6]用 PSNR,SSIM[7]和图像质量指数(PQI)[8]评价HM5.0的性能,但只给出了不同指标的平均BD-Rate,没有针对不同客观评价方法进行进一步的分析。
本文针对1 080p的视频序列,首先,把BD-Rate的概念推广到12个常用的全参考客观质量评价方法,来对HEVC的测试模型HM9.0和H.264/AVC的开源编码软件x264的编码效率进行对比。然后,对视频材料进行主观质量评价,进而得出主观评价的BD-Rate。反过来通过比较主客观评价所得到的BD-Rate在不同视频序列之上的接近程度、皮尔逊相关系数(PLCC)和斯皮尔曼等级相关系数(SROCC)来评估客观质量评价方法的性能。
1 Bjontegaard测度介绍
VCEG建议用Bjontegaard测度来计算两种编码方式的编码增益。由于PSNR指标具有计算简单等特点,被广泛用来评价编码器的性能。最初的Bjontegaard也测度模型中选择PSNR去评价两种编码方式对视频的编码损伤。Bjontegaard测度包括BD-Rate和Bjontegaard PSNR差量(BDPSNR)两个指标。BD-Rate表示在同样的客观质量下,较优的编码方法可以节省的码率百分比;而BD-PSNR表示了同等码率下,两种编码条件下压缩后视频PSNR值的差异。
考虑到在率失真曲线上,高比特率区域在相同的百分比下的范围比低比特率区域大,如33%的码率节省在1 500~2 000 kbit/s范围是375~500 kbit/s范围的4倍[5]。所以,率失真曲线图的比特率坐标轴取了对数。
不失一般性,以某一测度为例,通过率失真曲线图,阐明Bjontegaard测度值的计算方法,如图1所示。
图1 两种编码方式在同一质量评价方法下的率失真曲线图
具体步骤如下[9-11]:
第一步,压缩好视频后,用客观评价方法评价视频,然后给每个视频序列描绘出不同的率失真点系列。
第二步,观察画出的率失真点系列,确定积分区间,如水平方向[a,b],垂直方向[c,d]。
第三步,对点序列进行多项式拟合,用确定的多项式表示,如s1和s2。
第四步,对拟合后的多项式在积分区间上积分。根据积分的结果,计算Bjontegaard测度值
在式(2)和式(3)中,s1和s2有区别,式(2)中是比特率的函数,而式(3)中是质量指标的函数。BD-Rate一般为负值,代表在两种编码方式中较优的一种比较差的一种节省的码率百分比。
在本文中,把Bjontegaard测度中的PSNR推广到常用的图像质量评价方法,以用HEVC测试软件HM9.0和H.264/AVC开源软件x264压缩的1 080p的视频材料为载体,来估计这些图像质量评价方法在评价由压缩带来的损伤时的性能。
2 客观质量评价算法和视频序列的选取
2.1 客观质量评价模型
视频质量评价算法往往由图像质量评价方法推广而来,通过对视频中的每一帧进行评价后整合得出对视频质量的评价结果,如SSIM,视觉信息保真度(VIF)[12]和视觉信号噪声比(VSNR)[13]等经常用于视频质量评价。本文选取了一组常用的全参考图像质量评价算法,具体介绍如下:
PSNR由于计算简单等特点被广泛用来评价图像和视频质量,是参考图像和损伤图像二者均方差的函数。
图像质量等级(PQR)由泰克公司的PQA序列计算出。其融合了HVS特点,对比参考图像,计算出被测图像的质量等级。关于PQR的更多信息可参考[14]。
SSIM根据图像的结构相似度来对图像质量进行评价,是目前使用最多的算法之一。
多尺度SSIM(MSSIM)[15]是在SSIM上改进而来的一种算法。
信息保真度准则(IFC)[16]表示图像信息保真度,理论上其值范围为0(表示图像无保真)到无穷大。
信噪比(SNR)类似于PSNR,用信号的实际大小代替PSNR中的峰值即可得到。
视觉信噪比(VSNR)是基于小波变换来计算视觉信息信噪比。
加权信噪比(WSNR)模拟人类视觉注意模型,用加权的方法计算SNR,加大了对图像中的某些区域的权重。
通用质量指数(UQI)[17]把图像损伤度归结为3个因素:相关度降低、亮度和对比度失真。
噪声质量指标(NQM)[18]揭示了加性噪声对信噪比的非线性权重影响。
那可不行,小白说:“你才脱离危险期,还得好好观察观察。要知道,这两天光抢救费就花了三万,现在出院,那不前功尽弃了。”
VIF是通过在小波变换域中计算视觉信息保真度来对图像进行评价。
像素域的VIF(VIFP)[19]类似于 VIF,但是在像素域中计算得出。
以上质量评价算法除了PQR指标由泰克公司的PQA600测试得到外,其余算法均可以从图像质量评价工具箱中[20]获得。
2.2 视频序列的选取
在实验中,选取了12个全高清的视频序列,这些视频序列均从慕尼黑工业大学的网站[21]上下载得到。表1列出了所有视频序列的基本信息。
表1 编码参数设置
所选取的视频序列在时间和空间复杂度均不相同。根据文献[22]中计算视频序列时间(TI)和空间信息(SI)的方法进行了分类。选取的视频序列的时间和空间信息分布如图2所示。
3 实验设置和结果分析
3.1 视频编码参数设置
图2 视频序列的空间信息和时间信息
表2 编码参数设置
对视频序列的压缩完成后,用第3部分中介绍的客观质量评价算法对编码后的视频进行评价,所有的视频质量评价值都是通过逐帧计算视频的亮度分量,然后再取平均得出。然后对每一个客观质量评价算法、每一个视频序列画出两条率失真曲线的图。基于视频序列的率失真曲线图,进一步计算出Bjontegaard测度指标值。
3.2 主观质量评价方法
在主观质量评价中,选用 ITU-R BT.500-13[24]推荐的双激励失真方法(DSIS II))。在这种评测方法中,首先播放参考序列,接着播放测试序列。这样的过程重复一次后,提示评估者对测试视频序列进行评分。评分采用5分制,用1,2,3,4,5 分代替非常差(Bad)、差(Poor)、一般(Fair)、好(Good)和非常好(excellent)5个质量等级。共有16个评估人员参加了此次视频质量评价。
另外,在主观质量评价中,在正式评测之前有一个训练过程,使评估人员熟悉具体的评价步骤。用来训练的视频序列损伤程度与5级评分制对应,组织人员向评测人员解释了二者的对应关系。整个主观评价环境按照ITU-R BT.500-11[24]来布置,评测人员的观看距离为电视屏幕的3倍。
3.3 实验结果分析
对每一个客观质量评价算法,每一个视频序列均可计算出一个对应的BD-Rate。对同一客观质量评价算法在不同的视频序列上计算出的BD-Rate取平均后,将最终结果作为此客观质量评价算法对两种编码条件下产生的BD-Rate。同样,主观质量评价结果也可以计算出一个BD-Rate,见表3。
表3 客观质量评价方法与主观质量评价对应的平均BD-Rate以及主客观评价之间的相关系数
首先,从表3主观质量评价结果可以看出,对于选取的视频序列,HEVC的编码效率要比H.264的高档次高出43%。HEVC标准在提出之时的目标是与H.264/AVC高档次相比,在视觉感知质量一致的情况下,比特率节省50%。在文献[4]的主观评价结果中,HEVC比H.264/AVC的高档次相比,在不同视频序列上比特率可以节省30%到67%,平均节省49.3%。文中未能达到50%,可能与选取的视频序列有关。另一方面,HEVC编码标准刚刚通过,很多编码算法还有待于进一步的优化和改进。就编码效率来说,HM9.0还有很大的空间来提升。
其次,由主观质量评价得到的平均BD-Rate是最可靠的。而由不同的客观评价算法计算得到的平均BDRate各不相同,通过计算这些值与主观结果的接近程度、一致性、精确性,就可以体现不同客观评价方法的性能,这一点也恰恰是本文的目的所在。图3给出了不同的客观评价算法计算出的平均BD-Rate与主观评价的平均BD-Rate的差的绝对值,可以更清楚地看出客观评价算法与主观评价结果之间的差异。可以看到,SSIM与主观评价结果的差只有0.126 072,是所选的客观评价算法中是最小的。也就是说,SSIM是在文中选择的客观评价算法中对压缩编码造成的损伤的评价最准确的一个,MSSIM紧跟其后。由 UQI、UQI、VIFP、PSNR、SNR、IFC 和 WSNR计算得到的平均BD-Rate与主观评价的结果差值在2~4以内,因此,从视频编码器的编码效率角度来说,可以认为它们的性能比较接近。而用来做很多编码器性能测试指标的PQR得到的结果与主观得到的结果差距最大。
图3 客观评价方法与主观评价方法的平均BD-Rate差的绝对值,反映与主观评价结果的接近程度
从与每个序列主观评价得到的BD-Rate的准确性和一致性角度来分析不同的客观质量评价算法性能,每个客观算法在每个序列上计算出的BD-Rate与主观评价结果在每个序列上计算出的BD-Rate之间的PLCC,SPOCC值在表3中给出。从表中可以看出,SSIM仍然是本文所选的客观算法中性能最好的一个。
本文以12个全高清视频序列为载体,经过HEVC和H.264/AVC编码标准的编码器压缩后,用客观质量评价算法对压缩后的视频进行质量评价,计算出每一个客观评价算法对每一个视频序列的BD-Rate。分别从与主观评价得出的平均BD-Rate的接近程度、精确性和一致性程度角度,对选取的客观质量评价算法进行了分析与比较。这样从一个新的角度对不同的客观质量评价方法的性能有新的认识。主要反映的是不同的客观质量评价算法对有压缩编码带来的损伤的敏感程度以及对特定的编码损伤的评价是否符合人眼感知。SSIM对编码带来的图像降质的评价从编码效率角度与人眼感知比较接近,与很多对客观质量评价算法性能评价的结果一致,这也从某种程度上论证了本文方法的合理性。
4 小结
本文通过计算视频编码增益反过来评价一些常用的视频质量评估方法。文中呈现的结论对评估HEVC视频编码提供了很多有用的信息。在对视频的视觉优化编码中,目前很多客观质量评价方法与对一些视频失真的性能不太如人意,在未来HEVC的算法设计过程中,SSIM可能取代传统的PSNR来进行优化编码。
:
[1] KOTEVSKI Z.Analysis of quality and performance of MPEG-2 video compression techniques[D].Bitola,Macedonia:[s.n.],2007.
[2] SULLIVAN G,WIEGAND T.Rate-distortion optimization for video compression[J].IEEE Signal Process.Magazine,1998,15(6):74-90.
[3] SULLIVAN G,OHM J,HAN W,et al.Overview of the high efficiency video coding(HEVC)standard[J].IEEE Trans.Circuits and Systems for Video Technology,2012,22(12):1649-1668.
[4] OHM J,SULLIVAN G,SCHWARZ H,et al.Comparison of the coding effciency of video coding standards—including high efciency video coding(HEVC)[J].IEEE Trans.Circuits and Systems for Video Technology,2010,22(12):1669-1683.
[5] BJONTEGAARD G.Calculation of average PSNR differences between RD-curves,VCEG-M33[S].2001.
[6] ZHAO Y,YU L.Coding efficiency comparison between HM5.0 and JM16.2 based on PQI,PSNR and SSIM,JCTVC-H0063[S].2012.
[7] WANG Z,BOVIK A,SHEIKH H,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans.Image Process.,2004,13(4):600-612.
[8] ZHAO Y,YU L,CHEN Z,et al.Video quality assessment based on measuring perceptual noise from spatial and temporal perspectives[J].IEEE Trans.Circuits and Systems for Video Technology,2011,21(12):1890-1902.
[9] BJONTEGAARD G.Improvements of the BD-PSNR model,VCEG-AI11[S].2008.
[10] SENZAKI K.BD-PSNR/rate computation tool for five data points,JCTVC-B055[S].2012.
[11] PATEUX S.Tools for proposal evaluations,JCTVC-A031[S].2010.
[12] SHEIKH H,BOVIK A.Image information and visual quality[J].IEEE Trans.Image Process.,2006,15(2):430-444.
[13] CHANDLER D,HEMAMI S.VSNR:a wavelet-based visual signal-tonoise ratio for natural images[J].IEEE Trans.Image Processing,2007,16(9):2284-2298.
[14] Tektronix[EB/OL].[2013-08-25].http://www.tek.com/picturequality-analyzer/.
[15] WANG Z,SIMONCELLI E,BOVIK A,et al.Multiscale structural similarity for image quality assessment[C]//Proc.Conference Record of the Thirty-Seventh Asilomar Conference on Signals,Systems and Computers,2004.[S.l.]:IEEE Press,2004:1398-1402.
[16] SHEIKH H,BOVIK A,DE VECIANA G.An information fidelity criterion for image quality assessment using natural scene statistics[J].IEEE Trans.Image Processing,2005,14(12):2117-2128.
[17] WANG Z,BOVIK A.A universal image quality index[J].IEEE Signal Processing Letters,2002,9(3):81-84.
[18] DAMERA-VENKATA N,KITE T,GEISLER W.et al.Image quality assessment based on a degradation model[J].IEEE Trans.Image Processing,2002,9(4):636-650.
[19] SHEIKH H,BOVIK A.Image information and visual quality[J].IEEE Trans.Image Processing,2006,15(2):430-444.
[20] GAUBATZ M.Metrix mux visual quality assessment package[EB/OL].[2013-08-25].http://foulard.ece.cornell.Edu/gaubatz/metrix_mux.
[21] Tech.Univ.Munich[EB/OL].[2013-08-25].ftp://ftp.ldv.ete.chnik.tumuenchen.de/pub test_sequences/.
[22] ITU-T.Recommendation ITU-R P.910,Subjective video quality assessment methods for multimedia applications[S].2008.
[23] JCT-VC.High efficiency video coding(HEVC)test model 9(HM 9)encoder description,JCTVC-K1002-v1[S].2012.
[24] ITU-T.Recommendation ITU-R BT.500,Methodolgy for the subjective assessment of the quality of television pictures[S].2012.