结合空间域与变换域特征提取的盲立体图像质量评价
2021-10-31金曼莉朱凯欣刘焕淋
陈 勇 金曼莉 朱凯欣 刘焕淋 陈 东
①(重庆邮电大学工业物联网与网络化控制教育部重点实验室 重庆 400065)
②(重庆邮电大学通信与信息工程学院 重庆 400065)
1 引言
图像在获取、传输和存储的过程中不可避免地引入失真,影响观看者的视觉体验质量。因此,设计与人眼主观评分一致的立体图像质量评估(Stereoscopic Image Quality Assessment,SIQA)模型对于3D图像质量优化和处理至关重要[1]。
人类视觉系统(Human Visual System,HVS)可以将左眼和右眼获得的不同视图转换为单幅视图,在转换过程中,并不是简单将左右眼刺激相加就可以获得单一视图[2,3]。与2D图像质量评价相比,3D除了需要考虑深度信息和双目视觉特性对立体图像质量评价的影响[4]。Ding等人[5]通过加权组合的方式来模拟复杂的双目视觉机制;Ding等人[6]将log-Gabor滤波器和局部二值算子(Local Binary Pattern,LBP)应用到立体图像的左右视图上来获取其频率幅度图和纹理图;Hachicha等人[7]利用伯努利广义高斯(Bernoulli Generalized Gaussian,BGG)分布对其最终的小波子带进行建模;文献[8]采用不同的双目组合策略构建两幅独眼图,并分别提取其双目特征,从而使该模型的预测分数与人眼主观评分更加接近。由于自然图像(Natural Scene Statistics,NSS)在空间域和频域上都表现出特定的统计规律[9],并且随自然图像NSS中不同类型和程度的失真的引入,其统计规律会发生变化。
对此,本文提出了一种结合空间域和变换域提取质量感知特征的无参考立体图像质量评价模型。先将输入的左、右视图进行分块并进行分块判别,然后构建模拟左右视图在大脑融合过程中的双目组合模型,并分别在空间域和变换域提取自然统计特征。利用支持向量回归(Support Vector Regression,SVR)训练从特征域到质量分数域的立体图像质量评价模型。
2 SIQA模型整体框架的构建
图1给出了本文SIQA模型建立的整体框架。其主要原理为:将左、右视图分割成大小为N×N图像块,通过比较左、右图像块的结构相似度及所含信息量大小,构建双目组合模型。由于失真并不会均匀地分布在整幅图像上,且不同类型和程度的失真会引起图像的信息量和结构产生不同的变化,导致左、右视图不同区域的结构相似度发生变化。对此,在空间域和变换域分别提取输入的左、右视图的自然场景统计特征,并在变换域提取合成独眼图的自然场景统计特征。将提取的特征输入到SVR中,训练从特征域到质量分数域的预测模型,从而建立SIQA客观质量评价模型。
图1 SIQA模型的整体框架
3 特征的提取
3.1 空间域特征的提取
(1)自然场景统计特征的提取
自然图像遵循特定的统计特性,其统计特性会随失真的存在而发生改变[10]。现以LIVE 3D Phase I数据库[11]中一幅立体图像的左视图和右视图,以及相应的合成独眼图为例如图2(a)—图2(c),分别提取左视图、右视图和独眼图上亮度统计分布特征,并分别进行均值对比度归一化操作(Mean Subtracted Contrast Normalized,MSCN)计算亮度分布统计特征,即计算图像的MSCN系数,以此得到其对应MSCN系数的统计分布直方图,如图2(d)—图2(f)。从图中可以看出自然图像的MSCN系数分布与广义高斯分布(Generalized Gaussian Distribution,GGD)具有一定的一致性。因此,可采用GGD模型来拟合左视图、右视图和独眼图的MSCN系数的统计分布,并将拟合形状的参数α和方差v2作为第1组质量感知特征。
图2 左视图、右视图、合成独眼图及其相应的MSCN系数的统计分布直方图
(2)深度特征的提取
由于包含更多信息量的视图将会更加吸引HVS的注意[12]。对此,利用式(1)计算左视图的信息量,并用其对视差图进行加权以获得加权视差图De。由于失真会使视差图的统计特征发生变化,因此,从加权视差图上提取峰度K和偏斜度S,并将其作为深度特征f3。其加权视差图De、偏斜度S和峰度K的计算分别如式(2)、式(3)和式(4)所示:
其中,EL是左视图中包含的信息量;N和L分别表示RGB颜色空间的通道数和最大像素值;下标k和i表 示RGB颜色空间的第k个颜色通道和第i灰度级;p(xki,l)表 示左视图中的像素值x等于i时的概率。用同样的方法可以计算得到右视图中所包含的信息量ER。
其中,we(i,j)是(i,j)处视差值的权重,将式(1)应用到以(i,j)为中心的N×N大小的图像块上,计算图像块的信息量作为像素点 (i,j)处的权重we(i,j);d(i,j)是(i,j)处的视差值。
其中,S,K,m和v分别表示加权视差图的偏斜度、峰度、均值和方差;M×N是加权视差图的尺寸。并将加权视差图的偏斜度、峰度和均值作为水平特征。
由于非对称失真导致的左右视图纵向信息不匹配现象也会影响HVS的深度感知,并导致双眼视觉不适,从而影响人眼对立体图像深度质量的判断[13]。对此,本文计算左右视图之间纵向变化的线性相关程度,以此作为对水平深度信息的补充。根据式(5)和式(6)分别计算左右视图的视差补偿图。
其中,dr(x,y)表示以左视图为主视图,从右视图上找到与左视图目标像素点相似度最大的对应点,计算两个目标点之间的水平距离;dl(x,y)表示以右视图为主视图,从左视图上找到与右视图目标像素点相似度最大的对应点,即两个目标点之间的水平距离。
在上述基础上,对左、右视图及其对应的视差补偿图进行去均值归一化操作,并计算其差补偿图之间的纵向相关系数:
其中,c orr(X,Y)是MATLAB中的一个相关函数,用于计算两个矩阵X和Y列与列之间的成对相关系数;N(·)是去均值对比度归一化操作。
现以图3(a)—图3(b)为LIVE 3D Phase II图像库[14]中的一幅左、右视图为例,通过上述方法计算的左视图与右视差补偿图之间的纵向相关系数的统计分布图和右视图与左视差补偿图之间的纵向相关系数的统计分布图(如图3(c)、图3(d))。从图中看出,纵向相关系数的统计分布与非零均值非对称广义高斯分布(Asymmetric Generalized Gaussian Distribution,AGGD)具有一致性。
图3 左右视图及纵向相关系数图的统计分布直方图
其非零均值非对称广义高斯分布AGGD模型计算:
其中,α是形状参数,控制AGGD的形状;βl,βr控制两边的扩散程度;m是均值,当m=0时,该分布就是零均值AGGD。
3.2 变换域特征的提取
失真类型分为信息加性失真和丢失性失真。信息加性失真和丢失性失真在整幅图像上的不均匀分布会导致失真图像不同区域的信息量和结构产生不同的变化[12]。因此,本文将分块判别左右视图在HVS融合过程中可能发生的双目行为,并构建独眼图,然后在变换域提取反映图像失真程度的双目特征,从而使客观评分更加接近人眼主观评分。对此,提取离散余弦变换(Discrete Cosine Transform,DCT)域特征,即形状参数α、频率变化系数z、不同频率子带的平均能量差异比。
首先,将左、右视图分割为N×N大小的图像块,分块比较左、右图像块的结构相似度及所含信息量大小,构建相应的双目组合模型,即独眼图。当立体图像的失真类型为非对称信息丢失失真(Information-Loss Distortion,ILD)时,立体图像的感知质量受左、右视图中图像质量较高的那幅视图支配;对于非对称高斯噪声之类的信息加性失真(Information-Additive Distortion,IAD),立体图像的感知质量受左、右视图中质量较低的视图支配[12]。正如文献[15,16]所述立体图像的感知质量由包含更多信息的视图主导,因此选较多信息的视图作为双目组合过程中的主导视图。所提方法与文献[17]相比,不需要对失真类型进行分类,从而降低了算法的复杂度,同时避免了可能由分类引起的误差。
为了判别和模拟HVS中不同的双目行为,需要构建不同的独眼视图来模拟双目视觉机制。对此采用结构相似度模型SSIM[18]计算左右两幅视图图像块之间每对像素点的相似度值,然后通过将所有像素点的相似度值求平均的方式来计算图像块之间的结构相似度SL,R,并通过比较左视图和右视图包含的信息量来选择双目组合过程中的主导视图。通过式(1)计算熵来衡量左右视图图像块的信息量,同时根据文献[19]的双目刺激之间的相似/不相似程度来区分不同的双目行为。同时,参考文献[4]设置了结构相似度阈值T1和 信息量阈值T2来构建不同的双目组合模型。
(1)双目融合
当SL,R≥T1,选择左视图作为主导视图:
(2)双目抑制
(3)双目竞争
其中,IL(x,y)和IR(x,y)分别表示左、右视图;d(x,y)是根据文献[14]计算的水平视差值;EL(x,y)和ER(x,y)分别表示左右视图的2D-Gabor能量响应;ESL(x,y)和ESR(x,y)分别表示以左、右视图为主视图的两幅抑制图的2D-Gabor能量响应。2D-Gabor滤波器定义:
其中,x=x0cosq+y0sinq和y=-x0sinq+y0cosq;(x0,y0)是滤波器的中心点;λ是波长,控制滤波器的尺度;q是方向角度;s是椭圆高斯包络沿x轴和y轴的标准偏差。由于初级视觉皮层中的简单细胞和复杂细胞具有不同尺度的感受野,因此,使用具有5个频域尺度和4个方向的多尺度Gabor滤波器,
2D-Gabor能量响应定义:
其中,⊗表示卷积操作;I(x,y)是输入图像。
然后,对合成独眼图图像块进行DCT,并利用GGD模型拟合独眼图图像块的DCT系数,提取拟合的形状参数α作为图像块特征。并通过平均组合的方式,将所有图像块形状参数的平均值作为整幅独眼图的质量感知特征。令X表示输入图像的DCT系数,则下一个DCT域特征频率变化系数z可以通过DCT系数幅度的标准差s|X|和 均值m|X|之比计算得到:
提取独眼图图像块的频率变化系数ζ特征,同样采用平均池化的方式将所有图像块频率变化系数的平均值作为整幅独眼图的第2个变换域特征。图4(a)~图4(d)分别给出了LIVE 3D Phase Ⅰ图像库[11]中一幅未失真、模糊失真的右视图以及经过DCT后的能量分布图。从图4中可以看出,图像经过DCT后能量集中分布在左上角。经失真和未失真图像的能量分布图对比,失真会使图像的能量分布发生变化,为了度量这一变化,对此定义了局部DCT能量子带比。
图4 参考图像及失真图像经DCT后的能量分布图
为了便于说明计算和量化不同频率子带的DCT系数,以视图分割为5×5大小的图像块为例构成图5所示中5×5的矩阵,并按颜色划分为3个不同频率的子带,DCT系数矩阵从左上角向右下角移动,表示空间频率越来越高。令n表示不同的频带,其中n=1,2,3(低,中,高)。然后将GGD拟合频带n的模型方差定 义为对应于频带n的平均能量,计算式为
图5 不同频率子带的DCT系数
则不同频率子带的平均能量差异比Rn(n=2,3)的计算式:
比率越大则表明频带n的频率能量与较低频率的频带中的平均能量之间的差异越大。特征Rn可用于测量受失真影响时较低和较高频段中能量的相对分布。计算R2和R3的平均值作为第3个DCT域特征。同样地,计算所有图像块的该特征,并将其均值作为整幅独眼图的第3个DCT域特征。
对于左、右视图,直接输入整幅图像,使用GGD拟合其DCT系数,并分别提取左、右视图相应的形状参数α、频率变化系数z和不同频率子带的平均能量差异比作为其DCT域特征。
3.3 多尺度特征的提取
自然图像具有多尺度特性[20,21],提取多尺度特征有利于处理图像分辨率的变化以及从图像显示器到观察者的距离或观察者视觉系统的敏锐度变化,从而提高模型性能。对此,对输入图像进行两次下采样,所建立的SIQA模型在3个尺度上基于NSS场景进行空间域和变换域特征提取,并在单尺度上提取立体图像的深度特征,从而为捕捉不同分辨率下图像失真度的变化提供依据。
4 SIQA模型的验证
4.1 立体图像质量评价模型的构建
首先,对输入图像经过两次下采样,从3个尺度上分别提取左、右视图的 2×3=6维空间域NSS特征,3×3=9维DCT域特征,即从左、右视图上分别获得15维单目特征;在3个尺度上提取独眼图3×3=9维DCT域特征。另外,从加权视差图上提取3维水平深度特征,相关系数图上提取4维纵向深度特征,即共提取46维质量感知特征。
在训练阶段,首先提取训练集的质量感知特征,然后利用支持向量回归SVR训练从特征向量到主观评分的预测模型。在测试阶段,只需将提取到待测图像的特征向量输入到训练好的预测模型中即可得到待测图像的质量分数。图像库中的主观评分是以DMOS(Differential Mean Opinion Score)或MOS(Mean Opinion Score)的形式呈现,其中,DMOS值越大,表示图像质量越差,而MOS值越大,表示图像质量越好。
4.2 实验与分析
本文所建立模型分别在LIVE 3D Phase I数据库[11]、LIVE 3D Phase II数据库[14]、Waterloo-IVC 3D Phase I数据库[3]以及Waterloo-IVC 3D Phase II数据库[22]中进行测试。
4.2.1 算法性能评估
本文采用Spearman秩相关系数(Spearman’s RankOrdered Correlation Coefficient,SROCC)、皮尔逊线性相关系数(Pearson Linear Correlation Coefficient,PLCC)以及均方根误差(Root Mean Squared Error,RMSE)来验证所提方法的性能。SROCC和PLCC分别评估了模型预测分数的单调性以及预测分数和客观评分的一致性;RMSE反映了预测分数和客观评分的误差。PLCC和SROCC值越接近1,且RMSE值越小,则表示主观一致性越高,模型的预测性能越好,即模型预测分数和人眼主观评分更加接近。实验中,训练集选80%图像库的图像和测试集选另外20%的图像。为避免偏差,将随机训练-测试重复1000次,取中值作为结果。
4.2.2 一致性实验
所提模型在4个立体数据库中预测图像的质量分数和主观评分的散点图如图6所示。从图6中可以看出,所提模型预测分数与人眼主观评分的散点图比较聚集且非常接近中心线,特别是图6(a)、图6(b)和图6(d)中的所有散点非常接近中心线,表明所提算法具有良好的预测性能,与人眼主观评分具有较高的一致性。
图6 所提模型在4个数据库中图像预测值和主观评分的散点图
4.2.3 模型性能评估
(1)不同图像库中的测试
选用LIVE 3D Phase I和LIVE 3D Phase II两个立体图像库对所提算法针对每种失真类型立体图像质量预测的准确性进行测试,其中图像库包含JPEG2000(JP2K),JPEG压缩失真,高斯白噪声(Gaussian White Noise,WN),高斯模糊(Gaussian blur,Gblur)和快速衰落(Fast Fading,FF)等5种失真类型。测试结果列于表1中(括号中为LIVE 3D Phase II数据),分析可知所提算法与人眼主观观测结果具有较好的一致性。
表1 LIVE 3D Phase I和II图像库中的性能测试
(2)对比算法的测试
对本文算法的整体性能评估。将本文所提出的方法与一些主流的SIQA方法进行比较,如全参考Lin[29],Khan[23],Chen FR[14],Jiang[24]和SSIM[18];半参考Ma[25];无参考SINQ[8],Zhou[8],Karimi[26],Yang-SAE[27],Fezza[17],BRISQUE[28]和全参考Lin[29]等。表2给出了所提算法与一些主流的SIQA算法在公开立体图像库中整体性能比较的结果。与对比算法相比,所提模型的整体性能在4个SIQA数据库中表现优异。由于所提SIQA模型考虑到非均匀分布失真对图像质量评价的影响,同时结合空间域和变换域提取质量感知特征,从而提高了模型性能。
表2 LIVE 3D Phase I和II图像库中整体性能比较
4.2.4 泛化性能测试
本文分别将LIVE 3D Phase I和Phase II数据库用作训练集和测试集,LIVE 3D Phase I/Phase II表示所提模型在LIVE 3D Phase I图像库中训练,然后在LIVE 3D Phase II图像库中进行测试;LIVE 3D Phase Ii/Phase I表示所提模型在LIVE 3D Phase II图像库中训练,然后在LIVE 3D Phase I图像库中进行测试。
实验中,对比算法为:Yang-SAE[27]、BRISQUE[28]、CNN-based[30],并利用PLCC和SROCC指标评估所提模型与对比算法的泛化性能。表3给出了本文算法与一些SIQA算法跨库实验的对比结果,与其他SIQA算法相比,所提模型在LIVE 3D Phase I和Phase II图像库上测试的PLCC值和SROCC值基本达到最大值,表明本文算法训练的预测模型针对不同的测试数据库具有良好的通用性。
表3 跨库性能对比实验
5 总结
针对失真并不会均匀地分布在整幅视图上的问题,将输入的左、右视图分块,然后分块判别并构建模拟左右视图在大脑中融合过程的双目组合模型,并在变换域提取双目特征。最后将空间域和变换域特征同时输入到SVR,训练从特征域到质量分数域的立体图像质量评价模型。并在4个公开的立体图像数据库上与一些主流的全参考、半参考和无参考立体图像质量评价算法进行对比,验证了所提算法具有良好的性能。
通过实验验证了所提建立SIQA图像质量评价模型与人眼主观视觉具有高度一致性,表明所提方法具有一定的参考价值。