基于单目和双目视觉信息的全参考立体图像质量评价模型

2022-02-24潘振宽司建伟

计算机工程 2022年2期

王宽，杨环，潘振宽，司建伟

（青岛大学计算机科学技术学院，山东青岛 266071）

0 概述

随着社会的发展，不同的3D 应用场景已经深入人们的日常生活，如电影业、制造业、游戏业等领域。立体图像在传输、存储和处理时会因失真导致视觉感知质量下降。近年来，随着高质量立体图像需求的增加，立体图像质量评价（Stereoscopic Images Quality Assessment，SIQA）成为现代图像处理技术的研究热点。

在客观图像质量评价方面，研究人员提出一系列高性能的2D图像质量评估（2D Image Quality Assessment，2D-IQA）算法［1-3］。SIQA 不仅考虑2D 单目图像的失真程度，还考虑双目视觉感知体验带来的影响。

立体图像是由一对2D 单目图像组成，又称左右视图图像，分别代表投影到观看者每只眼睛上的景象。当人们在观看立体图像时，人类视觉系统（Human Visual System，HVS）经过复杂的双目融合和双目竞争的过程，将立体图像中的左右视图融合为人脑中的3D 视图，这种融合的视图不仅依赖于双眼受到刺激的差异，还依赖于呈现给每只眼睛不同图案部分的几何关系［4］。因此，立体图像质量不仅与每张单独的左视图或右视图失真程度有关，还与双目立体感知体验有关。

双目视觉具有更复杂的感知过程，难以准确量化。针对SIQA 的量化问题，解决策略主要是分别计算左视图和右视图的质量分数，再利用不同方法给左右视图分配权重，用加权和的形式得到立体图像的质量分数。基于此策略的研究方法通常是在左右视图上分别使用2D-IQA 方法，然后将获得的两个质量得分进行融合，融合方式主要是基于眼睛加权［5］、增益控制［6］、神经网络［7］、矢量求和［8］等模型来实现。虽然左右视图均能够反映立体图像质量的特征信息，但具有较高对比度的一侧图像在SIQA 中会产生更重要的影响［9］。这种方法在模拟HVS 感知信息的过程中未充分考虑到双目视觉感知特性的影响，有可能导致评价结果与真实结果的偏差。SIQA 量化问题的解决策略还可以利用图像融合方法将左视图和右视图融合为一幅图像，再基于此幅图像进行SIQA。左右视图融合后的图像被称为中间视图，用于模拟人类大脑中感知到的真实图像。人们在观察过程中，左右眼睛分别从外界获取两张视觉场景，同时HVS 自发地将两者进行融合，使观察者只感受到一个场景。当HVS 融合左右眼睛获取的视觉场景时，中间视图会受深度感知［10］、双目视差［11］、双目竞争［12］等因素的影响。文献［12］从失真立体图像和参考立体图像中分别融合中间视图，然后针对这两张中间视图利用2D-IQA 方法来评价立体图像的质量。图像融合方法提取的特征信息是基于生成的中间视图，虽然这种方法考虑到了双目视觉的感知特性，在一定程度上提高了立体图像质量的预测性能，但并没有直接针对2D 单目图像提取特征，忽略了单目视觉信息产生的影响。

研究人员提出一些基于深度学习的SIQA 模型：文献［13］构建一种将局部特征融合为全局特征的无参考SIQA 模型，将左右视图切割后分别输入卷积神经网络（Convolutional Neural Network，CNN）得到局部特征，最后将这些局部特征融合为全局特征以预测立体图像的质量得分；文献［14］提出一种三列CNN 模型，以学习左右视图和视差图中图像块的局部结构信息，利用多层感知器将学习到的特征融合为SIQA 得分。这些基于深度学习的模型虽然可以自动提取图像的特征，但是由于特征提取的封闭性，使得这些模型可解释性较低，可能导致网络难以优化，并且CNN 的训练具有很高的时间复杂度。相反，传统模型具有可解释性较高且时间复杂度较低等优点。

本文提出一种基于单目视觉信息和双目视觉信息的SIQA 模型。通过结合显著图、Gabor 能量响应图和视差矩阵生成中间视图，分别利用左右视图和中间视图提取单目视觉信息和双目视觉信息，根据上述特征信息计算单目质量分数和双目质量分数并融合为整体质量分数。同时在全局特征提取过程的基础上增加局部相位特征和局部幅度特征，提高提取特征的完整性。在结合单目图像的特征相似性上平衡亮度、对比度和相位一致性特征之间的相似度关系，从而提高单目图像质量评价的准确性。

1 MB-FR-SIQA 模型

MB-FR-SIQA 模型结构如图1 所示。虚线部分分别代表生成中间视图的过程、提取单目视觉信息和双目视觉信息的过程，最后基于提取的特征信息分别计算单目质量分数和双目质量分数，并将其融合为整体质量得分。

图1 MB-FR-SIQA 模型结构Fig.1 Structure of MB-FR-SIQA model

MB-FR-SIQA 模型是基于单目视觉信息和双目视觉信息评估立体图像的质量，其包括生成中间视图、基于中间视图提取双目视觉信息、基于单目图像提取单目视觉信息、基于单目和双目视觉信息的质量评估4 个主要阶段。

1.1 中间视图生成

在SIQA 模型中，中间视图用于模拟观察者大脑中形成的图像，根据人类双目视觉感知特性而形成。当观察者观察图像时，两只眼睛接收到图像的刺激强度并不是完全相同的，由于双目信息不匹配而发生双目竞争现象，因此在中间视图的生成过程中需要考虑到双目竞争现象。Gabor 滤波器能够较准确地模拟人眼的感受野，并且在提取目标的局部空间和频率域信息方面具有较好的效果［12］。因此，MBFR-SIQA 模型在左右视图上使用Gabor 滤波器能量响应以模拟刺激强度。基于文献［15］所做的工作，本文对2D Gabor 滤波器定义为：

其中：R1=xcosθ+ysinθ，R2=ycosθ-xsinθ；σx和σy分别为椭圆高斯包络沿x和y轴的标准偏差；ζx和ζy为空间频率；θ为确定滤波器的方向。

在Gabor 滤波器空间频率为3.67（°）的条件下，该模型在4 个方向（水平、对角线和垂直）上通过Gabor 滤波器幅度响应求和来估算局部能量［12］。

在立体图像中，显著性反映了人眼对不同区域的关注程度，在显著区域上的失真对图像质量评价结果具有较大的影响。因此，本文通过改进左右眼加权系数的计算方法，将显著性图加入计算过程中，对Gabor 能量响应进行调整，从而提高加权系数的准确性，其中基于SDSP 方法［16］获取显著性图。在中间视图的生成过程中，双目视差信息也需要被考虑在内，本文利用基于SSIM 的立体视差算法［12］得到参考和失真立体图像的视差矩阵，结合Gabor 能量响应图、显著性图和视差矩阵，通过线性组合方式生成中间视图，如式（2）所示：

其中：C为中间视图；IL和IR分别为左视图和右视图图像；WL和WR分别为左眼和右眼的加权系数，在生成中间视图的过程中视差补偿表示为（x+d）。加权系数的计算如式（3）、式（4）所示：

图2 中间视图生成Fig.2 Generation of cyclopean images

1.2 双目视觉信息的提取

中间视图代表左右视图在人的大脑中产生的立体图像，通过从中间视图提取相应的特征信息反映其双目质量，除考虑到传统的全局特征以外，本文还结合局部特征信息。全局特征包括基于中间视图提取的亮度、对比度和结构特征，局部特征包括基于中间视图提取的局部相位和局部幅度特征。

文献［2］给出图像的亮度相似度、对比度相似度和结构相似度特征，如式（5）～式（7）所示：

根据相位一致性理论，局部特征可以通过最大化傅里叶分量提取局部相位和局部幅度特征［17］。文献［18］研究表明，使用log-Gabor 能够很好地模拟初级视觉皮层中的简单细胞［18］。因此，文献［19］是通过log-Gabor 滤波器进行相位一致性计算，并在傅里叶频域中通过应用log-Gabor 滤波器Gs，o来获得在尺度s和方向o上的一组响应，用［ηs，o，ξs，o］表示。Gs，o(r，θ)如式（8）所示：

其中：s和o分别为空间尺度指数和方向指数；参数ω和θ为滤波器的归一化径向频率和方向角；ωs和θo分别为滤波器的相应中心频率和方向；参数σs和σo决定了滤波器的强度。在位置x处的局部幅度如式（9）所示：

沿方向o的局部能量如式（10）所示：

其中：ε为一个极小的正数。与文献［20-21］的方法不同，MB-FR-SIQA 模型没有直接使用相位一致性来表示特征，而是采用局部相位和局部幅度表示图像的特征。局部相位被定义为Fo(x)和Ho(x)的反正切函数值，如式（12）所示：

其中：om为对应于最大相位一致性值的方向。局部幅度定义为沿om方向上所有尺度的局部幅度之和，如式（13）所示：

在实验中，关于log-Gabor 滤波器的参数选择，本文设置：ωs=1/6，θo=0，σs=0.3，σo=0.4，并且滤波器的比例和方向数均设置为4。基于中间视图提取的局部相位特征图和局部幅度特征图如图3 所示。

图3 基于中间视图提取的局部相位特征图和局部幅度特征图Fig.3 Local phase feature images and local amplitude feature images extracted based on cyclopean image

1.3 单目视觉信息的提取

立体图像中左视图和右视图具有反映3D 图像质量的特征信息，在此阶段，从左右视图中分别提取单目视觉信息，其中包含相位一致性、亮度和对比度特征，然后分别计算这3 种特征对应的相似性，同时将其进行有效地融合。

相位一致性可以通过式（11）获取，参考图像和失真图像的相位一致性分别表示为则相位一致性相似度如式（14）所示：

其中：C4为一个极小的正数。

亮度相似性、对比度相似性通过式（5）、式（6）获取，基于文献［2］的工作，用Sl(x)、Sc(x)分别代表实验中图像的亮度相似性和对比度相似性。同时，本文提出一种特征相似性的融合方式，有效结合以上3 种特征信息，计算出参考图像与失真图像之间的相似性S(x)，如式（15）所示：

其中：α、β和γ为用于调整相位一致性、亮度和对比度相对重要性的平衡参数。本文设置α=β=γ=1。

1.4 基于单目和双目视觉信息的质量评估

基于1.2 节提取的双目视觉信息计算2 个双目质量分数Q1、Q2，并且基于1.3 节提取的单目视觉信息计算出单目质量分数Q3。本文提出一种适合MB-FR-SIQA 模型的合并方法，将双目质量分数与单目质量分数融合为立体图像的整体质量得分。

式（5）～式（7）能够从中间视图中得到亮度、对比度和结构特征信息，然后采用MS-SSIM［2］方法计算双目质量分数Q1，如式（16）所示：

其中：Cref为参考中间视图；Cdis为失真中间视图。

基于式（12）、式（13）可以从中间视图中获得局部相位和局部幅度特征信息，然后计算双目质量分数Q2。令分别表示从参考和失真中间视图中提取的局部相位特征，为从参考和失真中间视图中提取的局部幅度特征。则中间视图中每个像素位置对应的质量分数如式（17）所示：

其中：WP和WA分别为局部相位和局部幅度对应的权重，本实验中设置WP=0.6，WA=0.4。

双目质量分数Q2如式（18）所示：

其中：C为中间视图；Nc为中间视图的像素数。

基于式（15）可以得到参考图像与失真图像之间的相似度信息，每个像素位置x对应的相似度为S(x)。依据相似度信息可以计算单目质量分数，在计算过程中要注意到不同的像素位置产生的视觉信号对HVS 刺激程度不同。由于人类的视觉皮层对相位一致性的结构比较敏感［22］，因此本文使用来加权S(x)可以更精确地得到单目质量分数。以左视图为例，其质量分数如式（19）所示：

其中：Ω 为图像的空间域；SL为参考左视图与失真左视图的相似度指数；是基于这两张左视图获取的质量分数。本文利用同样的方法得到右视图的质量分数QR，然后将左右视图的质量分数融合为单目质量分数Q3，如式（20）所示：

其中：WL为左视图质量分数对应的权重；WR为右视图质量分数对应的权重。本文设置WL=WR=0.5。

当人们观看立体图像时，单目视觉与双目视觉会同时发生，通过结合单双目视觉特征可以全面地反映图像特征信息，从而提高SIQA 的精确度。基于从中间视图提取的全局特征信息和局部特征信息分别获得双目质量分数Q1、Q2，基于从单目图像提取的特征信息获得单目质量分数Q3，将3 个质量分数进行融合，本文提出一种适合此模型的合并方法来获取整体质量分数，如式（21）所示：

其中：a、b、c为分配给Q1、Q2和Q3的不同权重，并且约束a+b+c=1，在实验过程中，a、b、c取值范围均为［0.1，0.2，…，0.8］，通过使用不同的参数组合进行实验结果分析，当a=0.4、b=0.3、c=0.3 时，实验结果最佳，因此将其设为本文模型的最终权重。

2 实验与结果分析

本节将分析MB-FR-SIQA 模型预测立体图像质量的能力。首先描述用于实验的数据库和性能指标；其次给出该模型在数据库上的性能表现，同时也列出了每种失真类型的评价结果。此外，为验证将单目视觉信息与双目视觉信息结合的有效性，本文把基于单目图像的评价结果和基于中间视图的评价结果分别与MB-FR-SIQA 模型进行比较，进一步证明该模型的合理性。

2.1 数据库

本文在美国德克萨斯州大学奥斯汀分校的LIVE 3D 图像质量数据库上进行实验［23］，该数据库分为LIVE 3D 数据库Phase I（LIVE-I）和LIVE 3D 数据库Phase II（LIVE-II）。LIVE-I 包含20 幅参考立体图像和365 幅失真立体图像，对应于JPEG2 000 压缩失真（JP2K）、JPEG 压缩失真（JPEG）、加性高斯白噪声（WN）、快速衰落（Fast Fading，FF）和高斯模糊（BLUR）5 种失真类型。在LIVE-I 中，所有立体图像的左右失真都是对称的，即左视图和右视图具有相同的失真程度。LIVE-II 包含8 幅参考立体图像，以及120 幅对称失真的立体图像和240 幅非对称失真的立体图像，其失真类型与LIVE-I 相同，而且每幅参考立体图像都经过处理，由于各失真类型分别创建3幅对称失真图像和6 幅非对称失真图像，因此每种失真类型都具有9 个不同的失真级别。同时，LIVE-I和LIVE-II 为每张失真图像提供了对应的差分平均意见得分（Differential Mean Opinion Score，DMOS），DMOS 值表示主观评估结果，其中较高的DMOS 值表示较低的视觉质量。

2.2 性能指标

本文实验依据文献［24］方法，采用3 种通用的性能指标评价此模型的性能，包括皮尔森线性相关系数（Pearson Linear Correlation Coefficient，PLCC）、斯皮尔曼等级相关系数（Spearman Rank Correlation Coefficient，SROCC）、均方根误差（Root Mean Square Error，RMSE）。在这3 个性能指标中，SROCC 和PLCC 分别表示预测的质量分数与主观分数之间的单调相似性和线性相关性，RMSE 可以衡量预测的准确性，该准确性代表主观分数与预测分数之间的差值。较高的PLCC 和SROCC 值表示预测值与HVS 感知的图像质量具有良好的相关性，而较低的RMSE 表示该模型具有良好的性能。在评价MB-FR-SIQA 模型的性能之前，本文首先应用逻辑函数将预测值调整为与DMOS 值相同的范围［25］，当PLCC=SROCC=1，RMSE=0 时，表明预测的图像质量分数与真实的图像质量分数完美匹配。

2.3 模型性能

为全面评价MB-FR-SIQA 模型，本文将其与5 个现有的无参考（No-Reference，NR）SIQA 模型和5个现有的全参考（Full-Reference，FR）SIQA 模型进行比较。在数据库LIVE 3D 上不同模型的性能指标对比如表1 所示，其中“—”表示不可用的结果。从表1 可以看出，MB-FR-SIQA 模型优于当前多数FR SIQA和NR SIQA 模型，在LIVE-I 和LIVE-II 数据库上性能较优。文献［12］的模型只结合左视图和右视图的单目视觉信息，没有考虑HVS 的双目视觉效应，在数据库上没有表现出良好的性能。文献［26］通过生成中间视图来评估3D 图像的质量分数，虽然考虑到HVS 的双目视觉效应，但未针对左右视图提取单目视觉信息，忽略了单目信息对预测结果的影响。与MB-FR-SIQA 模型相比，文献［26］模型的性能较差。因此，本文结合基于中间视图的评价模型与基于单目图像的评价模型是合理的，从不同方面评价3D 图像的质量是必要的。同时，与具有深度学习功能的NR 模型相比，在LIVE 3D 数据库上MB-FR-SIQA 模型表现出较优的预测性能。

表1 在LIVE 3D 数据库上不同模型的性能指标对比Table 1 Performance indexs comparison among different models on LIVE 3D database

不同失真类型的PLCC 和SROCC 对比如表2 和表3 所示。从表2 和表3 可以看出，MB-FR-SIQA 模型在预测JP2K、BLUR、FF 这3 种失真类型的立体图像质量分数方面，相较于其他模型的性能较优，在失真类型WN 上的预测已接近对比模型中的最佳结果。因此，MB-FR-SIQA 模型能够有效预测不同失真类型的3D 图像质量分数。

表2 不同失真类型的PLCC 对比Table 2 PLCC comparison among different distortion types

表3 不同失真类型的SROCC 对比Table 3 SROCC comparison among different distortion types

2.4 实验对比

本文利用单目视觉信息和双目视觉信息分别获得单目质量分数和双目质量分数。本文的立体图像质量分数是由单目质量分数Q1、Q2和双目质量分数Q3合并而成。图4 列举了单目质量分数与双目质量分数差异较大的立体图像分数，其中左右视图的单目质量分数QL、QR依据式（19）所得，双目质量分数Q2依据式（18）所得。在单双目质量分数存在一定差异的条件下，本文结合单目和双目质量分数以综合评估立体图像的质量分数。同时，本文在LIVE-I 和LIVE-II上分别测试Scheme-I、Scheme-II、Scheme-III 这3 种评价方案的性能。不同实验方案的评价指标对比如表4所示，其中Q1、Q2、Q3分别对应于Scheme-I、Scheme-II、Scheme-III 方案。3 种实验方案的评价指标与MB-FRSIQA 模型都存在一定的差距，因此，该模型结合单目与双目视觉信息进行质量评价。

表4 不同实验方案的评价指标对比Table 4 Evaluation indexs comparison among different experimental schemes

图4 不同质量分数的立体图像Fig.4 Stereoscopic images with different quality scores

3 结束语

本文提出一种基于单目与双目视觉信息的立体图像质量评价模型MB-FR-SIQA，通过结合Gabor 能量响应图、显著性图和视差矩阵生成中间视图，基于2D 单目图像和中间视图分别计算单目质量分数及双目质量分数，并融合为立体图像整体质量分数，以模拟人类视觉系统对立体图像质量的感知。实验结果表明，MB-FR-SIQA 模型能够有效提高预测精度，预测结果符合人类的主观评估。后续将在立体图像质量评价模型中加入人类视觉系统的注意力机制，进一步提高图像质量评价模型的预测性能。