基于非线性高斯平均差分的图像质量评价
2019-10-18校嘉蔚张选德
校嘉蔚,张选德
(陕西科技大学 电子信息与人工智能学院,陕西 西安 710021)
0 引言
在信息时代,图像作为一种应用极为广泛的信息源,在帮助人类更好地认知世界的同时,也给人类带来了巨大挑战.由于图像信息在采集、编码、存储、传输等阶段需要大量设备资源及成本的投入,并且图像信息易遭受噪声污染使得处理过程难度增加,因此如何准确地评价图像质量已经成为亟待解决的问题[1-3].在图像质量评价中,人类作为图像信息的最终感知者,其主观评价最为直接可靠,但主观评价耗时费力成本高且不具有实时性,所以有必要研究客观评价方法.客观评价方法旨在构建数学模型来预测图像质量,以达到与主观评价一致性较高的评分.
根据能够得到的参考信息的多少,图像质量评价可分为全参考图像质量评价、无参考图像质量评价和部分参考图像质量评价,本文的研究对象为全参考图像质量评价[4].图像质量客观评价中,最简单的全参考图像质量评价方法为均方误差(Mean Squared Error,MSE)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR),它们直接通过计算参考图像和失真图像像素灰度值上的差异来评估失真图像的质量,其方法简单,但由于未考虑人类视觉系统的特性,其评价效果与主观评价相差甚远[5-7].
随着对人类视觉系统认知的深入,人们开始将人类视觉系统的某些特性引入到客观质量评价中,提出了大量的图像质量评价算法.2004年,Wang Zhou等[8]提出结构相似性理论(Structural Similarity Index,SSIM),该算法假设人类视觉系统能够高度自适应地提取场景中的结构信息,对参考图像的亮度、对比度和结构信息进行比较,得到了较好的效果,被认为是图像质量评价领域具有里程碑意义的算法.该算法受到了研究者的广泛关注,同时也激发研究者不断探索HVS对图像质量的感知机制,并将其应用于IQA算法设计,以求获得与主观评价更好的一致性.
随后,许多学者在SSIM的基础上进行了改进,提出多尺度的结构相似性[9](Multi-Scale Structural Similarity Index,MS-SSIM)和信息量加权的结构相似性[10](Information Content Weighted Structural Similarity Index,IW-SSIM)评价算法.MS-SSIM算法将不同分辨率和观察条件下的图像细节结合到质量评价算法中;IW-SSIM算法则基于互信息理论提出信息量加权的池化策略,由信息量的大小度量视觉显著的不同程度,局部质量图的计算依旧采用SSIM中的定义,这两种算法的精确度相较于SSIM都有了一定的提高.
2011年,Zhang Lin等[11]提出的特征相似性算法FSIM(Feature Similarity)强调人类视觉系统理解图像主要根据图像低级特征,选择相位一致性(Phase Congruency,PC)和图像梯度幅值(Gradient Magnitude,GM)作为特征来计算图像质量.此后又加入颜色特征并用相位一致性信息做加权平均,发展出FSIMc算法.
2013年,Zhang Xuande等[12]提出的ESSIM假定图像中能够被感知到的边界是形成语义认知的基础,并结合图像边界的各向异性、正则性和奇异性等因素来定义边界强度,然后基于边界强度的相似性来度量图像质量.
Xue Wufeng等[13]于2014年发表的GMSD(Gradient Magnitude Similarity Deviation)只用梯度作为特征,采用标准差池化策略代替以前的均值池化策略,达到了较好的效果.
2017年发表的基于哈尔小波的相似性算法HaarPSI[14]首先将图像进行Haar小波变换,细尺度用来计算相似度谱,较粗尺度用来对相似度谱进行加权从而度量图像质量,是目前在公认数据库上效果最好的算法.
以上大多数算法都基于某种假设,其用到的特征主要包括结构相似度、信息保真度、梯度、边缘强度等,一些算法还将多种特征融合以求更为全面地表达图像信息,但由于多重特征提取的算法复杂度较高,常常会导致评价效率的降低,也难以判断哪种特征在评价算法中能够更好的刻画变化.图像质量评价的本质是构造一个合适的模型模拟人类视觉系统来度量参考图像与失真图像之间的变化,其关键在于模拟人类视觉系统对于图像质量的感知过程[15].
本文遵循人类视觉系统具有非线性的特点,提出了一种非线性高斯平均差分图像质量评价算法.该算法利用高斯滤波器和均值滤波器分别对图像进行卷积,通过高斯平均差分得到差分图像,并对差分图像采取非线性处理后计算相似度谱,在求得相似度谱后再一次采取非线性处理得到最终的相似性度量,最后对相似度谱进行均值池化得到质量评分.此算法更符合人类视觉系统的非线性特点,在测试数据库上的实验表明,此算法能够获得与主观评价较好的一致性.
1 神经网络中的激活函数与HVS的非线性特点
1.1 神经网络中的激活函数
神经网络是一个相当大的、多学科交叉的学科领域.目前对于神经网络使用最广泛的定义是“由具有适应性的简单单元组成的广泛的并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”[16].神经网络中最基本的成分是神经元模型,在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个“阈值”,那么它就会被激活,即“兴奋”起来,向其他神经元发送化学物质.后来上述情形被抽象为“M-P神经元模型”[17].在这个模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出.设第j个神经元在多个输入xi(i=1,2,3,…,n)的作用下,产生了输出yj,则神经元输入、输出之间的关系可以记为
yj=f(xi)
(1)
式(1)中:f为激活函数.f(xi)的表达形式不同,可以构成不同的神经元模型,其中比较典型的有线性函数、阶跃函数和Sigmoid函数等.理想中的激活函数是阶跃函数,它将输入值映射为输出值“0”或“1”,显然“1”对应于神经元兴奋,“0”对应于神经元抑制.然而,阶跃函数具有不连续、不光滑等性质,因此实际常用Sigmoid函数作为激活函数.它可将神经元的输出限制在两个有限值之间,具有图1所示类似指数函数的形状,且在物理意义上最为接近生物神经元[18].其一般表达式为
(2)
式(2)中:参数α>0.
图1 激活函数l(x)
在神经网络中,如果没有使用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机.相反,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中.
1.2 HVS的非线性特点
人对于图像质量的评价不仅与图像信号差异有关,而且取决于人的主观判断.也就是说,在评价图像时,不仅要考虑信号值的差异,也要考虑人的视觉和心理机制,即HVS在感知和理解阶段具有非线性的特点[19].如图2所示,当向原图像加上成倍增加的高斯噪声后,人眼对于这四幅图的质量评分并不成倍下降,可以清楚观察到,图2(b)、(c)、(d)之间的变化很难被人眼察觉,因此人类视觉系统在进行主观评价时会给出较相似的质量评分,而在一般算法中,只考虑客观变化时,图2(b)较图2(c)和(d)具有较高的图像质量评分.大多数算法通过处理得到的图像之间的变化属于客观变化,而人眼所观察到的变化经处理后属于主观变化,这两种变化之间存在一种非线性映射关系.我们借由神经网络中激活函数的启发,利用式(3)将客观计算量经由激活函数转换为主观量,构建了一种非线性图像质量评价算法,使得评分更符合HVS的非线性特点.
(a)Wall原图 (b)Wall 高斯噪声sigma=0.000 25
(c)Wall (d)Wall高斯噪声sigma=0.002 5 高斯噪声sigma=0.025图2 不同失真程度的Wall图像
1.3 非线性图像质量评价模型
一个神经元的功能是求得输入向量与权向量的内积后,经一个非线性传递函数得到一个标量结果.类似地,在图像质量评价中,将应用图像与滤波器作内积得到特征谱,再经非线性传递函数得到结果.其模型可表示为
I(r,d)=l[S(l(Diff))]
(3)
式(3)中:l表示计算激活函数;S表示计算相似度谱;Diff表示计算参考图像和失真图像之间的差异;r和d分别表示参考图像和失真图像.
本算法在求得参考图像和失真图像之间的高斯平均差分后,通过一个非线性传递函数得到非线性高斯平均差分结果,再由此结果求得相似度谱,最终对相似度谱进行一个非线性传递函数处理并经均值池化得到质量评分.在本文算法中,所用到的激活函数为Sigmoid函数.经实验证明,此函数很好地拟合了人体神经元的工作原理,更符合人类视觉系统特性,在测试数据库上的实验表明,此算法能够获得与主观评价较好的一致性.
2 基于非线性高斯平均差分的图像质量评价算法
视觉系统在处理图像信息时采用的基本方式之一,就是通过不同形式的感受逐级进行抽取,也就是在每一水平上抛弃某些不太重要的信息,抽取更有用的信息[19].Hubel &Wiesel认为大脑皮层包含了大量的特征探测器,这些探测器可以调节不同宽度和方向的边缘.相应的,D.Marr &E.Hildreth提出自然图像在大尺度范围内会发生亮度变化,这些变化需要在不同尺度探测器下检测.在给定尺度下,高斯函数的二阶导数是较为合适的滤波器,因此对于图像I来说,找到2G(x,y)*I(x,y)的零点是检测给定尺度下图像亮度变化的最佳方法.其中,G(x,y)为二维高斯分布,2为拉普拉斯,2G可看作是Wilson′s 所提出的高斯差(Difference of Gaussians,“DOG”)的极限,因此使用DOG来近似2G[20,21].DOG算法被认为是在模拟视网膜上的神经从图像中提取信息从而提供给大脑.
本算法对DOG滤波器进行变形,由高斯滤波器和均值滤波器组成高斯平均差(Difference of Gaussians and Mean,“DOGM”)来度量边缘亮度变化.本文NLDOGM算法的总体框架如图3所示,首先分别对参考图像和失真图像进行卷积并求得高斯平均差分图像,对所求得差分图像采取非线性处理,使所度量的变化由客观量转换为主观量,在求得相似度谱后再一次采取非线性处理得到最终的相似性度量,最后经均值池化得到质量评分.
记参考图像为r=[r1,…,ri,…,rN]T∈RN,失真图像为d=[d1,…,di,…,dN]T∈RN,其中i表示像素索引,N表示像素总数.图像之间的变化由高斯平均差度量,即采用高斯滤波器h1和均值滤波器h2分别对参考图像和失真图像进行卷积,在i处卷积后的图像记为
g1(r,i)=h1*r
(4)
g2(r,i)=h2*r
(5)
g1(d,i)=h1*d
(6)
g2(d,i)=h2*d
(7)
于是,同一模板的高斯平均差分图像定义为
DOGM(r,i)=g1(r,i)-g2(r,i)
(8)
DOGM(d,i)=g1(d,i)-g2(d,i)
(9)
(10)
(11)
两者的相似度谱计算定义为
S(r,d)=
(12)
式(12)中:C为调节参数.
最后以逐点像素的非线性高斯平均差分预测图像质量,本文采用均值池化策略计算图像的客观评分,考虑到HVS对于感知到的变化在处理时也具有非线性的特点,因此在均值池化之前再一次对由非线性高斯平均差分得到的相似度谱进行非线性操作,最终本算法可概括为
NLDOGM(r,d)=
(13)
图3 NLDOGM的实现框架.其中r为参考图像,d为失真图像
3 实验结果分析
3.1 数据库及评估方法
对新提出的IQA评价指标与已存在IQA评价指标进行比较时,需在公开数据库上进行实验.通常,在一个数据库中有一组参考图像,每一幅参考图像有许多不同类型的失真图像,每一种类型又有不同失真等级的失真图像.目前,图像质量评价的公开数据库有7个,分别为CSIQ、LIVE、IVC、MICT、A57、WIQ、TID 2008和TID2013,这些数据库具有不同数目的参考图像、失真图像、失真类型和失真等级,并且在图像个数和观察者人数等方面都有很大不同.比如,A57数据库中为灰度图像,有3幅参考图像、54幅失真图像、6种失真类型和7个观察者.LIVE和CSIQ数据库中的图像都是以常见失真类型为主,即加性高斯白噪声、高斯模糊、JPEG压缩和JPEG2000压缩等;而TID2013数据库为彩色图像,有25幅参考图像、3 000幅失真图像、24种失真类型和971个观察者.在以上7个数据库中TID2008[22]、TID2013[23]、CSIQ[24]、LIVE[25]是最具综合性的.因此选用以上四大公开图像测试数据库作为本文实验数据对象.
客观质量评价指标在数据库上对每幅失真图像完成客观评分后,通过以下四个评价方法度量IQA指标的效果,分别为斯皮尔曼相关系数(Spearman Rank Order Correlation Coefficient,SROCC),肯德尔相关系数(Kendall Rank Order Correlation Coefficient,KROCC),皮尔森线性相关系数(Pearson Linear Correlation Coefficient,PLCC)和均方根误差(Root Mean Square Error,RMSE).
令某一图像质量指标对数据库中第i幅图像给出的客观质量评分为xi,i=1,2,…,n,这幅图像的主观质量评分(Mean Opinion Score,MOS)值为yi,则SROCC相关系数为
(14)
式(14)中:Di为xi和yi按顺序排列后的序号差,若(xi,yi)与(xj,yj)满足xi>xj且yi>yj(xi (15) 这两种度量只考虑主客观评分单调性而不考虑分值之间的相对距离[26].另外为了计算PLCC和RMSE这两个评价指标,需要提供一个回归分析,预测客观分数和主观平均意见分数之间的非线性映射. (16) 式(16)中:x和ρ(x)分别为IQA算法客观评分及非线性映射后的分值,β1,β2,β3,β4和β5为函数参数.然后利用xi,i=1,2,…,n经ρ(x)映射后的值记为zi=ρ(xi)和yi,i=1,2,…,n之间的PLCC相关系数和RMSE来度量主客观评分的一致性.其中PLCC定义为两者协方差与标准差的商 (17) (18) SROCC、KROCC和PLCC的值都在[-1,1]之间,负值表示负相关.这三种相关系数的绝对值越高,说明客观评价方法与主观评价结果的一致性越高.与前三种相关系数不同,RMSE值较小,说明主客观相关性越高,算法越准确. 本文算法中需设定参数有C,α和β.在计算相似性度量时,为避免分母为零以及保持计算的稳定性,常引入调节参数C;α和β分别为两次非线性处理中激活函数的参数,α用于以高斯平均差分计算相似度谱时将其由客观量转换为主观量的非线性处理中;β则用于以相似度谱计算最终质量时将客观量转换为主观量的非线性处理中.这两次非线性处理的依据为HVS的非线性特点,即人眼在观察图像时,并不以图像质量的线性改变而给出相应的线性质量评分,因此对于差分图像采取非线性处理使其由客观量转换为主观量;主观评分阶段中,对于所观察到的变化在处理时也具有非线性特点,因此对于相似度谱也采取了同样的非线性处理.实验参数通过在TID2008数据库的子集上实验来确定,子集包含数据库中前6个参考图像及相应的408幅失真图像,以在该子集上获得最高的SROCC值确定最佳参数值,根据实验数据,最终分别取C,α和β的值为0.25,20和0.13. 实验中采用的比较算法包括PSNR、VSNR、SSIM、MS-SSIM、IW-SSIM、和FSIM、ESSIM、GMSD、GSIM.所有这些算法均用 MATLAB-R2016a来实现且在dell-PC Intel(R)Core(TM)i7-7700 CPU @ 3.60GHz 3.60 GHz,8G内存的计算机上运行.实验中对比算法直接采用作者公布的代码. 另外,对于彩色图像,实验中只对亮度成分进行评价,亮度成分用下式来提取 l=0.299R+0.587G+0.114B (19) 式(19)中:彩色图像红、绿、蓝三通道分别用R,G,B表示. 首先验证算法在整体数据库上的评价效果,表1列出了九种不同图像质量评价算法在TID2008,TID2013,CSIQ和LIVE数据库上关于四个性能评价指标的评价结果.从表1可以看出,排名首位算法中算法NLDOGM出现6次,ESSIM同样出现6次,GMSD出现4次,FSIM出现1次.表中排名第二位算法中NLDOGM出现3次,ESSIM同样出现3次,GMSD出现3次,FSIM出现5次.在TID2008与TID2013这两个数据库上,SROCC、KROCC指标结果显示,NLDOGM算法在图像主客观评价分值单调性能比较上略高于GMSD,均好于其他算法;在预测准确性方面,ESSIM和NLDOGM效果相当,优于其他算法.在LIVE数据库上,NLDOGM的KROCC指标和均方根误差RMSE指标分别与ESSIM并列第一,均优于FSIM和GMSD. 表1 九种不同IQA算法在TID2008、TID2013、LIVE、CSIQ数据库的实验结果比较 续表1 数据库性能指标PSNRVSNRSSIMMS-SSIMIW-SSIMFSIMESSIMGMSDNLDOGMLIVESROCCKROCCPLCCRMSE0.8750.6860.87213.360.9270.7620.92310.500.9470.7960.9448.9440.9440.7920.9439.0950.9560.8170.9528.3470.9630.8330.9597.6780.9620.8390.9537.0030.9600.8230.9607.620.9620.8390.9537.003CSIQSROCCKROCCPLCCRMSE0.8050.6080.8000.1570.8110.6250.8000.1580.8750.6900.8610.1330.9130.7390.8990.1140.9210.7520.9140.1060.9240.7560.9120.1000.9320.7680.9220.1010.9570.8130.9540.0790.9540.8070.8250.174 为了进一步验证本文算法的图像质量评价效果,针对图像单一失真类型进行实验,选取SROCC相关系数作为评价指标.表2中列出了九种评价算法在TID2008上对每一种失真类型SROCC指标的评价效果,并加粗显示了排名前两位的实验结果.从表2可以看出,PSNR对噪声类型(以彩色分量为主的加性噪声ANMC、掩膜噪声MN、高频噪声HFN和脉冲噪声IMN)的失真有较好的评价效果.但对其它失真类型的评价效果与主观评价一致性较差,NLDOGM算法能够在噪声类失真上取得与 PSNR 相当的效果.另外,表中显示 NLDOGM 算法对TID2008上大部分失真类型的评价效果较好.综上,本文算法针对不同类型失真能取得与主观评价较好的一致性. 表2 九种不同IQA算法在TID2008数据库单一失真性能(SROCC)的比较 本文工作的贡献主要有两点:其一,在以往经典的以构造某种度量来刻画变化的框架上,将神经网络中的非线性处理与其相结合,提出一种基于非线性高斯平均差分图像质量评价算法.文中将神经网络的基础框架映射在图像质量评价这个问题中,使得本算法能够获得较好的评价效果. 其二,文中讨论的现有大多数IQA算法基于度量图像之间的客观变化而设计,并未结合HVS的非线性特点,本算法考虑了HVS的非线性特点并构建了一种基于非线性高斯平均差分的图像质量评价算法,该算法通过度量参考图像与失真图像的非线性高斯平均差分之间的相似性来预测图像质量,在公开测试数据库中与目前主流算法进行实验比较,本文算法取得较好的结果. 近年来,基于机器学习的方法普遍应用于无参考图像质量评价中,并能够取得较好的效果.如何将机器学习方法与特征提取方法相结合应用于特定图像质量评价中,是我们下一步研究的方向.3.2 实验参数
3.3 性能比较
4 结论