符合人眼视觉感知特性的改进PSNR 评价方法
2015-06-14孟丽茹王世刚陈贺新
赵 岩,孟丽茹,王世刚,陈贺新
(吉林大学 通信工程学院,长春130012)
0 引 言
21 世纪随着互联网以及多媒体技术的快速发展,人类对3D 视频的关注度已高达72.5%[1],3D 视频已成为人类视觉需求和高科技迅速发展的产物。3D 立体视频在采集、处理以及传输过程中都可能会引起失真,为此视频压缩程度所允许的失真程度需要人眼来感知,也就是需要对其进行质量评价,以及作为对信道、编解码器性能评估和优化的判断依据等。视频质量评价对3D 产业的推广起着推动作用。
传统的视频图像质量评价方法一般可以分为两大类:主观评价和客观评价。目前国际上广泛使用的主观质量评价标准有双重刺激损伤标度(Double stimulus impairment scale,DSIS)和双重刺激连续质量标度(Double stimulus continuous quality scale,DSCQS)。主观评价方法需要大量的人力、物力、财力,且评价结果容易受到测试者的主观因素和外界环境的影响,评价过程的复杂性严重影响方法的准确性和通用性,将其嵌入到实际视频处理系统中有一定的困难。因此研究人员提出了许多客观质量评价方法。均方根误差和峰值信噪比是目前发展比较成熟的全参考视频客观质量评价方法;Wang 等[2]提出基于结构相似度(Structural similarity,SSIM)方 法,性 能 优 于PSNR,但在评价严重模糊和压缩图像时主客观评价并不完全一致[3];基于梯度的结构相似度(Gradient based structural similarity,GSSIM)方法[4],适合图像质量评价,结合运动信息才可评价视频质量;基于运动信息和结构信息视频质量客观评价(Motion information and structural similarity,MESSIM)方法[5],未考虑局部失真时边缘结构信息,对压缩视频主客观评价相差较大;基于失真度估计的无参考视频质量评价方法[6]可以达到很好的精确度,但计算复杂度较高;基于结构相似的DCT 域图像质量评价方法[7]较SSIM 和PSNR 更符合人眼的视觉特性,但DCT 变换系数量化粗糙会造成视频图像在块边界出现视觉上的不连续;基于编码前后视差图的峰值信噪比(Disparity peak signal to noise ratio,DPSNR)方法以及基于深度的视频质量评价方法考虑了第三维深度信息,同时也存在应用范围上的局限性。
PSNR 评价方法是应用最广的传统图像质量评价方法,但在立体重构图像评价时,其与人眼视觉感知还存在差距。因此,本文提出了一种符合人眼视觉感知特性的改进PSNR 立体图像质量评价方法,并进行了实验验证,进一步拓宽了PSNR方法的应用范围。
1 PSNR 及本文提出的问题
1.1 峰值信噪比
一幅大小为M×N 的数字原始图像f(x,y)及其失真图像f0(x,y)的峰值信噪比如下:
式中:(2n-1)2为图像中最大可能的信号值平方,其中n 为每个像素的比特数。
一般情况下,PSNR 值越大,代表失真越小,图像质量相对越高,人眼观看效果越好。分别在一幅图像的高频、中频、低频部分加入白噪声干扰,对三种干扰图像进行主客观质量评价,结果高频部分加入干扰的图像主观质量优于其他两种情况的主观质量;但三者的客观评价PSNR 值却相同。这表明PSNR 值有时无法与人眼感知的视觉品质相符,即PSNR 并不能很好地表达人眼的视觉感知特性[8]。有可能PSNR 较高者看起来反而比PSNR 较低者差。这是因为人眼视觉对于误差的敏感度不是绝对的,其感知结果会受到许多因素的影响而产生变化。通常人眼对较低的空间频率和亮度对比度差异的敏感度较高,而且对一个区域的感知结果会受到其周围邻近区域的影响。综上,PSNR 主要存在以下两点问题:①人眼主观对不同图像的不同失真类型会有不同反映,而这些不同反映在PSNR 计算中无法被准确地区分出来;②PSNR 中对误差进行简单累加的方式与主观判断图像损伤的方式有显著不同,这也是通常造成主客观评价不相符的原因[9]。
1.2 本文提出的问题
3D 立体视频是基于双目视差原理而产生的。当观看者利用双眼观看时,由于双眼之间存在一定的水平距离,使得双眼从不同角度观看并各自独立成像(即左眼看到物体的左边多一些,右眼看到物体的右边多一些)。当这两个具有微小角度差异的图像对传入大脑皮层后,经大脑皮层视觉中枢的融合处理就会产生具有深度感的“单一”图像,从而使观看者感受到立体特性。
PSNR 可以很好地评价平面图像质量的好坏,一般情况下视觉效果较好的图像的PSNR 值可以达到35 dB。但评价立体图像时,会出现对具有良好的主观观看效果的图像计算出的峰值信噪比却很低的情况,造成主客观的不一致性。对具有标准视差的立体图像对来说,PSNR 必须充分考虑立体特性,才可以应用到立体图像评价当中。
由于立体视频解码端得到的重构图像与原始图像之间通常存在微小的水平视差失真,而这种微小的水平视差失真并不影响人眼的立体感知,但影响客观质量评价的PSNR 值,使PSNR 值不足以反映人眼的感知效果,造成PSNR 值与人眼感知的不一致。因此,针对峰值信噪比较低,但具有良好的主观观看效果的立体视频解码图像,为使客观PSNR 值能正确地反映人眼视觉感知,本文基于解压缩立体图像存在微小视差失真的特性,提出改进PSNR 方法,对立体视频解码端得到的重构图像采取加权均值滤波、隶属度函数、滑动窗函数三者融合的方法进行处理,通过像素之间的相关性来改变像素值的大小,使其能更好地反映人眼感知特性,即通过改进客观PSNR 值,使其尽可能与人眼视觉感知相符。
本文将重构图像的像素失真分为两大类,其一,像素由左向右平移或由右向左平移,即进驻性的扩展平移;其二,由于像素丢失导致该点像素值的严重失真,与原始图像像素点不匹配。针对第一种情况,在一定范围内进行像素值搜索,发现有当前像素恢复值时,进行反方向像素平移。针对第二种情况,当像素值丢失时,利用该点像素与其周围像素的相关性进行加权均值滤波、隶属度函数处理。当图像向左平移时,该点右侧像素点的权值大于左侧像素点的权值,反之亦然。当无法判定平移方向时,距该像素点物理位置较近像素点的权值大于物理位置较远像素点的权值,权值大的点对滤波器输出的影响要大于权值小的点。
2 算法实现
2.1 加权均值滤波
加权均值滤波方法的实现如下:
式中:wi为简单的最优权重,且满足为窗内像素点的灰度值;1×(2k+1)为一维窗函数大小。
加权均值滤波能在图像空域下实现一种平滑作用,能够完成图像局部区域加权平均运算功能,将丢失像素和平移位置进行平滑处理。其中局部区域作为当前处理窗口,当窗口滑动完整幅图像时,就完成了整幅图像的一种局部区域平滑处理。窗函数模板应该是中心对称的,使平滑作用没有方向性。同时,窗函数越大,处理后的图像也越模糊,画面质量下降,所以窗函数不宜过大。
2.2 隶属度函数
基于隶属度函数方法的实现如下:
式中:r 为当前处理窗口中心像素点的灰度值;β为尺度函数,一般在一千到几千范围内。
选取1×(2k+1)的窗函数,以窗口中心像素灰度值为中心,按式(5)计算窗口内各个像素点隶属于中心像素点的隶属度,作为各个像素点的对应隶属度权值[10];根据式(4)进行加权计算,得到基于隶属度函数方法的改进值。可进一步对式(5)计算出的模糊隶属度权值进行裁剪,即分别去除最大权值和最小权值来消除图像受到冲激噪声影响时改进PSNR 值的误差。
2.3 滑动窗函数
对图像中的任意一点(x,y)进行PSNR 值改进时,将重构图像与原始图像进行绝对差值处理,得到绝对差值图像。当差值图像(x,y)点为零时,表明该像素点完全恢复,没有损伤;当差值图像该点不为零时,将利用一个1×(2k+1)的滑动窗,对该像素进行左右k 个像素水平范围内的区域搜索,当搜索到匹配像素值时,则进行平移,恢复当前像素值。未搜索到匹配像素值时,则保持原像素[11]。
2.4 本文算法
本文算法流程如图1 所示。
针对重构图像边缘像素,本方法采用将边缘列像素值进行复制的原则进行扩展,然后对边缘点也进行上述分析和处理。
图1 本文算法流程图Fig.1 Flow chart of proposed algorithm
3 实验及其结果分析
图2 Tsukuba 主观效果图Fig.2 Subjective effects of Tsukuba
图3 Corridor 主观效果图Fig.3 Subjective effects of Corridor
图4 Venus 主观效果图Fig.4 Subjective effects of Venus
图5 Parkmeter 主观效果图Fig.5 Subjective effects of Parkmeter
为了验证本文方法的有效性,采用文献[12]提供的立体视频图像Tsukuba、Corridor、Venus、Parkmeter 的右视图(见图2 ~图5)作为测试图像进行实验。基于时域相关性的BP 恢复算法得到的重构图像,在对象边界部分出现的少量误差,引起了对象边界发生整体偏移,而对象内部的误差很小。由于边界上的偏差只有一到两个像素的平移,不会影响到整幅图像立体感知质量,图像的观看质量整体比较高,属于可以被接受的范围。即从主观效果图可以看出四幅重构图像都具有良好的主观观看效果,但计算出来的PSNR 值却较低,不能很好地反映人眼视觉感知,对此采取本文方法进行改进。
基于加权均值滤波得到的窗函数最优权值如下:w[1]=0.15,w[2]=0.20,w[3]=0.30,w[4]=0.20,w[5]=0.15,由于水平视差只有一至两个像素的平移,因此采取1×5 的一维窗进行实验。针对有位置偏移的像素,当1×5 窗函数中已无法搜索到匹配的像素值时,进行1×5 窗口大小的简单加权均值处理,w[1]、w[2]、w[3]、w[4]、w[5]分别为1×5 窗口内的相应权值。
根据大量的实验统计数据,得到加权均值滤波器的最优权值组合,针对不同图像,权值设定会略有差别,但本实验采取相同的窗函数权值组合进行实验。实验结果使PSNR 值最大的可能性得到了改进,可以更好地反映主观视觉感知效果。
基于隶属度函数方法,对不同图像进行隶属度函数β 值确定的实验。表1 为Corridor 原始图像与重构图像采用1×5 窗函数时,不同β 值及其改进PSNR 值。
由表1 可知,β 值选取3000 时效果最佳,改变β 值 从1000 到9000,PSNR 值 只 改 变 了0.2877 dB,比较小,故β 值对实验影响并不是很大。针对个别像素点有噪声和冲击响应影响时,隶属度函数会有较好的恢复效果。根据大量实验数据统计,不同图像尺度函数β 值基本相同,均在3000 左右,故取3000 作为隶属度函数中的β 值。
利用本文方法对Tsukuba、Venus、Corridor、Parkmeter 原始图像与重构图像进行实验,实验选择最佳均值滤波器权值组合,最佳一维窗函数1×5,最优β 值3000。得到改进PSNR 值,结果如表2 所示。
表1 改变隶属度函数中的β 值结果Table 1 Results when changing β value of membership function
表2 PSNR 值对比结果Table 2 Comparison results of PSNR
由表2 可知,四组立体图像改进的客观PSNR值都可以很好地反映人眼主观视觉感知图像质量较好的事实,使得改进PSNR 值与人眼视觉感知相符,解决了用PSNR 方法评价立体重构图像时PSNR 值与人眼视觉感知不一致的问题。
4 结束语
随着图像质量评价技术在图像通信、多媒体技术、信息安全技术等领域越来越多的应用,图像质量评价的研究越来越受到人们的重视。针对常用评价指标PSNR 有时并不能很好地反映立体重构图像的人眼视觉感知特性问题,本文采用加权均值滤波、隶属度函数和滑动窗三者融合的方法较好地解决了这一问题。改进的PSNR 方法较原始方法更加符合人眼视觉特征,从而能更精准、更方便地进行立体重构图像质量评价,使其具有更广泛的应用价值。针对本文估计公式中一些参数的确定,权值优化以及提高方法通用性等方面的问题,将在进一步的实验研究中加以探索和改进。
[1]健康问题难挡3D 电视市场普及[N].消费电子,2011-07-27.
[2]Wang Z,Bovik A C.Modern Image Quality Assessment[M].New York:Morgan and Clay Pool,2006.
[3]Winklera S.Digital Video Quality:Vision Models and Metrics[M].Switzeriand:John Wiley and Sons,2005:71-156.
[4]Chen Guan-hao,Yang Chun-ling,Xie Sheng-li.Gradient-based structural similarity for image quality assessment[C]∥IEEE International Conference on Image Processing,2006:2929-2932.
[5]卢国庆,李均利,陈刚,等.基于运动信息和结构信息的视频质量评价方法[J].计算机仿真,2010,27(6):262-266.Lu Guo-qing,Li Jun-li,Chen Gang,et al.Video quality assessment measurement based on motion information and structural distortion[J].Computer Simulation,2010,27(6):262-266.
[6]林翔宇,田翔,陈耀武.基于失真度估计的无参考视频质量评价[J].吉林大学学报:工学版,2013,43(1):212-217.Lin Xiang-yu,Tian Xiang,Chen Yao-wu.No-reference video quality assessment based on distortion estimation[J].Journal of Jilin University(Engineering and Technology Edition),2013,43(1):212-217.
[7]吕丹,毕笃彦.基于结构相似的DCT 域图像质量评价[J].吉林大学学报:工学版,2011,41(6):1771-1776.Lyu Dan,Bi Du-yan.Image quality assessment in DCT domain based on structural similarity[J].Journal of Jilin University(Engineering and Technology Edition),2011,41(6):1771-1776.
[8]李红蕾,凌捷,徐少强.关于图象质量评价指标PSNR 的注记[J].广东工业大学学报,2004,21(3):74-78.Li Hong-lei,Ling Jie,Xu Shao-qiang.Note about image quality evaluation index PSNR[J].Journal of Guangdong University of Technology,2004,21(3):74-78.
[9]李永强,沈庆国,朱江,等.数字视频质量评价方法综述[J].电视技术,2006,6:74-77.Li Yong-qiang,Shen Guo-qing,Zhu Jiang,et al.Overview of video quality evaluation methods[J].Video Engineering,2006,6:74-77.
[10]蔡靖,杨晋生,丁润涛.模糊加权均值滤波器[J].中国图象图形学报,2000,5(1):52-56.Cai Jing,Yang Jin-sheng,Ding Run-tao.Fuzzy weighted average filter[J].Journal of Image and Graphics,2000,5(1):52-56.
[11]Yuan Hai-dong,Ma Hua-dong,Huang Xiao-dong.Automatic pixel-shift detection and restoration in videos[C]∥IEEE International Conference on Multimedia and Expo,2008:1541-1544.
[12]马行.基于四维矩阵的立体视频压缩算法研究[D].长春:吉林大学,2009.Ma Xing.Research on stereo video compression algorithm based on four dimensional matrix[D].Changchun:Jilin University,2009.