基于双重注意力和分层感知表征的IQA 方法

2024-01-20史再峰佟博文孔凡宁

天津大学学报(自然科学与工程技术版) 2024年3期

史再峰，佟博文，孔凡宁，康泰，罗韬

(1.天津大学微电子学院，天津 300072；2.天津市成像与感知微电子技术重点实验室，天津 300072；3.天津大学智能与计算学部，天津 300072)

随着多媒体技术和网络技术的发展，图像信息逐渐成为人们日常获取外界信息的最主要媒介.客观图像质量评价方法(image quality assessment，IQA)旨在利用机器代替人类自动评价图像质量，是计算机视觉领域的一项基础性研究.高精度的全参考图像质量评价方法对图像压缩[1]、图像增强[2]、图像拼接[3]以及图像生成等[4]任务具有指导作用，具备很高的实用价值.传统方法通过设计特征描述符获取信号保真度、结构相似度[5-7]、梯度[8-9]、色度[10]等自然场景统计量(natural scene statistics)而后通过池化、支持向量机(support vector machines)等方式对空频域特征进行融合，对于一些特定失真类型效果较好.然而，在应对复杂的图像失真类型和信息丰富的图像内容时，特征提取的角度相对片面，难以充分表征图像失真信息，同时特征融合的效果有待提升，与人类主观评价的一致性较差[11].

基于深度学习的方法通过数据驱动的方式自动获取图像特征，Zhang 等[12]已经用实验证明在大型数据集上训练的人工神经网络提取的多通道特征比传统的图像质量评价特征描述符更加有效，并且可以作为图像质量感知量化的基础.Gao 等[13]提出了DeepSim，首先利用深度卷积神经网络提取两幅图像的分层特征，然后评估多层特征的局部相似性，并将局部相似性汇总到最终质量分数.Ding 等[14]利用改进的卷积神经网络提取分层特征，将图像转换为多尺度的超完备表示，从纹理相似性和结构相似性等角度评估所提取得到的多通道特征图，将其映射为图像质量分数，实现了比DeepSim 更好的性能.

图像质量评价任务具有需要符合人类主观感知的特殊性，将深度学习与人类的视觉感知机制相结合是进一步提升全参考图像质量评价效果的关键[15].注意力机制表明人类在观察图像时，对不同空间的关注度不同.Zhang 等[16]利用该特性在计算局部质量图和汇集质量得分时用加权函数反映局部区域重要性.Shi 等[17]提出了一种基于边缘特征分割的全参考图像质量评估方法，用不同特征描述不同区域的像素，有效地提升了算法性能，这些研究表明合理利用视觉注意力是提升特征提取效果的关键.

视觉感知是一个分层的过程，人类在理解图像信息时存在自下而上的分层感知过程，即先理解图像底层纹理，然后获得局部区域信息，最后形成复杂的图像高级语义信息[18]，不同特征的重要性差异应该在特征融合过程中得以体现.

基于上述分析，本文提出了基于双重注意力机制和分层感知表征的全参考图像质量评价方法.该方法基于人类视觉系统(human visual system，HVS)分层感知以及非线性的特点，利用卷积神经网络提取的分层多通道特征对图像信息进行分层感知表征，符合HVS 在感知图像信息时由浅入深的过程.将空间注意力机制[19]引入分层特征提取网络中，其内部含有可学习参数，能够通过训练迭代对特征图在同一通道中不同位置像素进行加权处理，提升多通道特征的表征能力.基于通道注意力机制[20]设计了分组通道注意力模块(group channel attention block，GCAB)优化特征融合过程，加强了卷积神经网络在通道维度的建模能力，可以自适应地校准不同通道的感知差异特征在评价图像质量时的重要性差异，提升特征融合的效果.

1 本文方法

1.1 方法整体结构

HVS 是一个高度复杂的非线性系统，感知距离在像素空间中并非是均匀的，人类在感知图像信息时对于二维空间的关注度也存在差异[21].图像失真会导致不同空间的像素和不同级别的特征产生差异性退化，在图像质量评价问题中表现为不同区域的像素数据和不同级别的特征对于图像质量的影响程度是不同的.在深度学习领域，注意力机制可以嵌入到卷积神经网络中，反映HVS 对于区域或特征的敏感性.本文引入注意力机制，所提出的方法命名为DAHF-IQA，其整体结构如图1 所示.主要包括特征提取和特征融合两个阶段.

图1 DAHF-IQA的整体结构Fig.1 Overview of the proposed image quality assessment method based on dual attention and hierarchical features

在特征提取阶段，首先利用空间注意力分层特征提取网络分别对参考和失真图像进行特征提取，通过非线性映射将图像转换为多通道的分层特征，作为图像信息的分层感知表征.特征提取网络采用了Siamese 结构，即共享权重的一对结构相同的网络，将参考图像和失真图像映射到同一感知空间，建模感知映射的非线性关系.为了在特征提取阶段尽量多地保留图像信息，特征提取网络会从参考图像和失真图像中提取内容丰富的3 个级别的多通道特征图作为图像信息的分层感知表征.之后将分层的多级别特征进行池化变为相同尺寸，并进行拼接.在映射到同一感知空间后，感知特征经过相减得到分层感知差异特征，作为图像失真信息的表征.

在特征融合阶段，由于失真对于不同级别的特征的影响程度有所差异，不同级别的特征图以及同一级别内部不同通道的特征图对图像质量评估具有不同的重要性.笔者设计了通道注意力特征融合网络将分层的差异特征进行融合，突出对于图像质量影响较大的通道特征，忽略冗余特征.首先通过设计分组通道注意力模块整合通道维度信息，对分层感知差异特征进行加权处理，之后利用卷积和池化层对加权后的特征进行逐步降维，将失真图像最终映射为客观质量评价分数.

1.2 空间注意力分层特征提取网络

人类的视觉注意力在二维空间上的侧重区域存在差异，在进行图像质量评价的过程中表现为对于失真所在的空间区域的关注度更高，因此空间注意力被集成到特征提取网络中以改进特征提取效果.所提出的空间注意力分层特征提取网络主要由残差模块(residual block，ResB)和空间注意力模块(spatial attention block，SAB)构成.

1.2.1 残差模块和空间注意力模块

为了有效解决深层神经网络训练时的梯度消失问题，残差模块[22]被集成到特征提取网络中，其残差性体现在主分支网络建模的是输出特征与输入特征的差值关系.如图2 所示，残差模块的跳跃分支由1×1 卷积构成，主分支由两层3×3 卷积层和批量归一化层以及激活函数ReLU 函数所实现，批量归一化层的作用是防止梯度爆炸，与此同时加速网络收敛速度.特征经过残差模块的计算过程可以表示为

图2 残差模块和空间注意力模块的结构Fig.2 Structure of residual block and spatial attention block

式中：Xin为输入特征；F 表示主分支的两层卷积网络；Xout为输出残差模块特征；θ为主分支卷积层权重.

空间注意力模块旨在对视觉注意力在二维空间的非均匀特性进行建模表征.在该模块内，输入特征图首先通过全局池化和平均池化降维，聚合通道维度的信息，并将结果基于通道进行拼接为一个两通道的特征图，然后经过一层卷积降维成单个通道，作为空间特征权重，经过sigmoid 激活后生成空间注意力特征图，然后将输入特征图与空间注意力特征图相乘，得到最终生成的空间加权后的特征.该过程可以表示为

式中：Fin为输入到SAB 模块的特征；AP 表示平均池化；Sig 表示sigmoid；MP 表示最大池化；Cov 表示卷积操作；Ms为空间注意力权重；Fout为从空间注意力模块输出的特征.

1.2.2 分层感知表征

卷积神经网络对于图像的处理过程与人类视觉系统对视觉信号的层次化感知过程具有相似之处，同样存在一个从理解图像低级简单特征到形成高级复杂特征的一个逐渐加深的过程.网络的不同层级特征具有不同的感受野和视觉复杂度，随着网络层数的增加，感受野逐渐扩大，特征图的抽象程度逐渐增高，但在逐步形成高级的特征过程中会丢失图像的底层纹理细节.对于图像分类等高级计算机视觉任务，往往仅需要利用深层的语义特征.但在表征图像失真信息时，由于失真类型复杂，仅利用单一级别的特征难以充分表征复杂的图像的失真信息.深度神经网络的不同层级特征对图像质量评价的作用分别在于：较低层级特征可以更好地表征图像底层特征(如局部纹理、边缘、形状等)在图像失真过程所产生的退化，较高层级的特征可以更好地表征图像高级信息(如空间位置信息、语义信息等)由于图像失真导致的退化.因此笔者将不同级别的特征在通道维度进行拼合，将多尺度和视觉复杂度的特征图共同作为图像信息的表征，该过程可以表示为

式中：E 表示特征提取网络；θe为特征提取网络的参数；I 为输入到特征提取网络的图像；Fli为第i 级的特征.图像经过空间注意力分层特征提取网络的处理后变为多级感知特征，实现了非线性映射.在同一感知空间内，将失真图像和参考图像的感知特征进行对应元素相减，获得分层的感知差异特征，该过程可表示为

式中：Fdiff为感知差异特征；Iref为参考图像；Idist为失真图像.

1.3 通道注意力特征融合网络

在图像质量评价过程中，图像失真会导致不同层级的特征产生差异性的退化，不同层级特征对最终图像质量好坏的影响标准十分复杂，受失真类型和失真程度的影响较大，但无论在哪一层级上，参考图像和失真图像特征间的更大差异都意味着图像的失真更加严重.在进行特征融合时，为了使得有效的特征图得到更大的通道权重，无效或效果小的特征图获得较小的通道权重，笔者设计了分组通道注意力模块GCAB，其结构如图3 所示.由于感知差异特征内部不同级别的特征具有不同的尺度和视觉复杂度，直接计算全部通道特征图的通道注意力权重的方式具有局限性，受金字塔分割注意力机制[23]的启发，本文所设计的模块将输入多通道特征按特征等级进行分组，然后利用通道注意力权重模块提取不同等级特征图的注意力.输入特征被分为F1、F2、F33 组.每组内部的通道注意力特征权重符Cawgi计算过程可以表示为

图3 分组通道注意力模块的结构Fig.3 Structure of group channel attention block

在通道注意力权重模块CAWeight 中，特征图先由平均池化和最大池化在空间维度上压缩，从而将特征映射的空间信息聚合，得到两个低维向量，再将向量送入到多层感知机(multi-layer perceptron，MLP)中，对低维向量权重通过迭代进行调整，并将低维向量对应元素相加，得到注意力向量.利用sigmoid 重新校准通道方向的注意力向量，合并生成通道注意力权重，其计算过程可表示为

为了实现不同组别间通道注意信息的交互，在不破坏原有通道注意向量的情况下融合交叉维度向量，即

式中Z 为拼合后的特征向量.在紧凑的分组通道注意力特征权重符Zi的指导下，跨通道使用软注意，从而自适应地选择不同的特征级别.软赋值权重计算式为

式中：n 为通道数；Softmax 用于获取全部通道的重新校准权重Catti，通过重新校准权重实现了组别内部通道和其他组别通道之间的交互.重新校准后的分组通道注意力权重体现了网络对于多通道的分层感知差异特征的关注程度.然后，将重新校准权重与相应级别的特征图相乘，输出通道加权后的特征，计算过程可以表示为

经过GCAB 之后通过堆叠卷积层和池化层，对加权后的特征进行不断的降维，最终经过全连接层输出图像所对应的客观质量评估分数Q.笔者选用MAE 损失函数对网络参数进行迭代，该过程可以表示为

式中MOS 代表图像的主观评分标签值.

2 实验设置与结果分析

2.1 实验环境、数据集与训练设置

2.1.1 数据集的准备

实验中模型训练和测试环境为：Windows10 系统，CPU 型号为Intel Core i5-9400F，GPU 型号为NVIDIA GeForce RTX 2080 8 GB，使用的PyTorch版本为1.6.0，CUDA 版本为11.0.

在图像质量评价领域的诸多数据集中，本文采用3 个标准数据集LIVE[24]、CSIQ[25]、TID2013[26]对所提出的网络进行训练和验证.这些数据集的标签是平均主观得分(MOS)或平均主观得分差(DMOS).较高的MOS 或较低的DMOS 表示相应的图像具有较高的感知质量.其中LIVE 数据集有5 种失真类型，每种失真类型有4～5 个失真级别，共包含由29幅原始图像生成的779 幅失真图像.CSIQ 数据集有6 种失真类型，每种失真类型有4～5 个失真级别，共包含由 30 幅原始图像生成的 866 幅失真图像.TID2013 数据集具有24 种不同的失真，每种失真有5 种不同的级别，共含有由25 张参考图像生成的3 000 张扭曲的图像，比LIVE 数据集和CSIQ 数据集大得多，也是所选用的全参考图像质量评价的数据集中难度最大的一个.

2.1.2 网络训练及参数设置

所提出的网络在PyTorch 中进行加速训练，为了优化训练过程，使用ADAM[27]算法对网络参数向量进行更新，ADAM 算法中的超参数设置如下：β1＝0.9，β2＝0.999，ε＝1×10-4.学习率初始化为1×10-5.在每个数据集中随机选择80%的失真图像用于训练，20%用于测试.在训练和测试过程中，数据集基于参考图像进行了数据集分割，避免产生内容重叠.

2.2 对比实验结果分析

2.2.1 评价指标

本文采用了2 个通用性能评估指标：斯皮尔曼相关系数(Spearman rank-order correlation coefficient，SROCC)和皮尔森线性相关系数(Pearson linear correlation coefficient，PLCC)对DAHF-IQA 的性能进行客观的量化分析.其中SROCC 仅与图像质量分数的排序有关，可以有效衡量IQA 模型的预测单调性，其计算公式为

式中：L 为数据集中失真图像的数量；mi为第i 幅失真图像在数据集上的客观质量评分序列中的分数排名；ni为失真图像在该数据集上的主观质量评分序列中的分数排名.

与SROCC 所不同，PLCC 并非关注客观IQA 方法的预测单调性，而是用于描述主观预测分数与客观预测分数序列的线性相关性.PLCC 的计算过程可以表述为

式中：pi和i分别为数据集中第i 幅失真图像的主观和客观图像质量评分值；pm和m分别为数据集中失真图像的主观质量评分的平均值以及客观质量评分的平均值.

对于以上两种图像质量评价指标，其取值范围均在0～1 之间.指标的值更大可以说明IQA 方法性能更优秀，与人类主观评价在单调性和线性度等方面的一致性更好.

2.2.2 整体性能对比与分析

在前文所述的数据集上将DAHF-IQA 与一些经典的全参考IQA 方法进行了对比实验，实验结果如表1 所示.从表中可以看出所提出的方法在3 个数据集上的SROCC 和PLCC 均高于0.930.相较于考虑信号保真度的PSNR，DAHF-IQA 在各个数据集上都取得了较大的领先，在TID2013 数据集上的SROCC值提升了0.302，从信号保真度的角度评价图像质量的方法未考虑HVS 感知图像信息的机制，与人的主观判断差距较大，而DAHF-IQA 采用分层感知差异特征表征失真信息，从多个视觉复杂度评估了参考图像和失真图像的差异，符合HVS 分层感知的特点，产生了与人类主观更一致的结果.相较于考虑图像结构相似性的SSIM[5]、DOG-SSIM[6]、DSSIM[7]等方法，所提出的方法在3 个数据集上同样取得了较大的性能提升，这是由于DAHF-IQA 通过连续卷积和池化提取图像局部特征，极大地丰富了感受野，比通过手工划分图像区域并运用统计方差计算图像结构相似性的方式更加有效.相较于在图像质量评价过程中考虑了梯度信息的FSIM[8]、GMSD[9]，以及利用了色度信息的MDSI[10]，DAHF-IQA 在3 个数据集上同样具有性能优势，原因在于所设计的卷积神经网络通过数据驱动的方式从多个通道对图像进行特征提取，在输入阶段将图像视为3 个颜色通道的输入，已经考虑了图像色度等信息，同时在特征下采样的过程中，特征通道数不断增加，评判图像质量的角度更加全面.与同样使用卷积神经网络提取图像分层多级特征的方法DeepSim[13]和DISTS[14]等方法相比，本文方法通过引入双重注意力建模人在评价图像质量时的注意力模型，对图像特征提取和融合过程进行了改进，同样取得了一定的性能提升，在TID2013 数据集上的SROCC 值分别提升了0.092 和0.108.DAHFIQA 在6 项指标排名中的5 项位于所有对比方法的前3 位，充分体现了DAHF-IQA 的性能优势.

表1 不同模型在3个数据集上评估结果对比Tab.1 Comparison of evaluation results of different models on three datasets

为了直观描述主观图像质量评分与客观图像质量评分的关系，笔者绘制了DAHF-IQA 在3 个数据集上的预测散点图，实验结果如图4 所示，图中蓝色圆点代表数据集中的图像，斜线为数据点的线性拟合结果，横轴代表客观图像质量评价方法对失真图像的客观预测得分，纵轴代表数据集中的主观标签值.从图中可以看出，相较于SSIM，DAHF-IQA 的散点更好地集中于拟合曲线周围，离散点数量大大减少，实验结果直观证明DAHF-IQA 的客观预测质量分数与人类主观评分的一致性良好.

图4 SSIM与DAHF-IQA的散点图Fig.4 Scatter plots of SSIM and DAHF-IQA

2.2.3 不同失真类型的性能对比

一个优秀的图像质量评价方法应该对不同的失真类型均具有良好的鲁棒性，TID2013 数据集有24种失真类型.为了展示所提出的方法应对不同失真类型图像的效果，笔者在TID2013 数据集上进行了针对不同失真类型的实验，结果如表2 所示.可以看出DAHF-IQA 在其中的16 种失真类型上位于所有对比方法的前2 位.在一些对比方法表现较差的#7(量化噪声)、#15(局部块状失真)、#16(平均漂移)等失真类型上提升十分明显.经典方法针对一些特定的失真类型达到了极高的水平，但往往对某种特定失真类型表现出较弱的性能，如VSI 在#11(高斯噪声)和#12(JP2K 失真)等类型上达到最优水平，但它对#17(对比度变化)等失真表现很差.SPSIM 由于利用超像素评价图像质量，在#24(稀疏采样与重建)表现较好，但它对#15(局部块状失真)表现较差.DAHF-IQA 采用分层感知的策略表征图像信息，对众多的失真类型无一表现出过于明显的性能劣势，证明了本文提出的方法特征表征能力强，特征融合过程合理，对于复杂失真的鲁棒性更好.

表2 针对单一失真类型的SROCC比较Tab.2 Comparison of SROCC for a single distortion type

2.3 空间注意力权重可视化分析

本文使用的空间注意力模块可以通过聚合通道维度的信息生成空间注意力权重，对特征图进行空间上的自适应加权处理.空间注意力权重Ms可以反映经过在数据集上训练后，分层特征提取网络对于图像不同区域的关注程度.为了更加直观地展示空间注意力模块经过训练迭代所学到的信息，笔者选取了TID2013 数据集中的5 类失真图像，并对空间注意力权重进行了可视化，结果如图5 和图6 所示.

图5 空间注意力权重可视化1Fig.5 Visualization 1 of spatial attention weight

图6 空间注意力权重可视化2Fig.6 Visualization 2 of spatial attention weight

图5(a)～(e)以及图6(a)～(e)分别为参考图像、局部块状扭曲失真图像、高斯模糊失真图像、JPEG2000 压缩失真图像、空间相关噪声失真图像.图5(f)～(j)以及图6(f)～(j)分别为特征提取网络生成的空间注意力权重图.通过图5(f)与图5(g)的对比结果以及图6(f)与图6(g)的对比结果，可以发现空间权重图准确地定位了红色方框所标注的局部块状扭曲失真的位置.同样，通过图 5(f)与图5(h)的对比结果以及图6(f)与图6(h)的对比结果，可以看出空间注意力权重图很好地反映了由于模糊失真而被破坏的图像纹理所在的区域.另外，通过图5(f)与图5(i)的对比结果以及图6(f)与图6(i)的对比结果，可以发现空间注意力权重图有效地定位了JPEG2000 压缩导致的方块效应所在的位置.最后，通过图5(f)与图5(j)的对比结果以及图6(f)与图6(j)的对比结果，可以发现空间注意力权重图中增加的像素点定位了失真图像中所添加的空间相关噪声的位置.这些可视化结果直观展现了空间注意力机制在处理不同失真类型的图像时均有显著效果，可以在特征提取阶段建模人类对于图像不同空间区域的关注度差异，使特征提取网络所提取的分层感知特征可以更充分表征图像的失真信息.

2.4 消融实验及结果分析

为了证明所提出的各项改进策略的有效性，并评估各项改进措施对图像质量评价方法的提升效果，笔者在CSIQ 数据集上进行了消融实验.将去除了双重注意力机制模块且仅保留分层特征的网络结构作为基线网络，在此基础上逐步增加改进策略.

实验结果如图7 所示，可见在基线网络情况下，SROCC 值为0.926，已经优于SSIM、PSNR 等传统方法，证明了所采用的分层感知表征的有效性.在基线网络的基础上引入空间注意力机制后，SROCC 达到0.943，相比基线网络提升了0.017，在特征提取阶段引入空间注意力机制有效加强特征提取效果，增强了分层特征对于失真信息的表征能力.在基线网络的基础上加入分组通道注意力模块后，SROCC 达到0.954，相较基线网络提升了0.028，印证了所设计的分组通道注意力模块可以有效对多通道特征融合过程进行优化.在使用全部改进策略后，SROCC 达到了最高的0.963.总之，所有改进策略均使得IQA 方法表现出高于基线网络的性能，证明了每一项改进策略的有效性.此外，引入双重注意力机制的改进策略的组合可以产生优于引入单个注意力的性能，证明了两种改进机制可以相互促进，使图像质量评价效果有更大的提升.

图7 消融实验结果Fig.7 Results of ablation study

3 结语

本文提出了一种基于双重注意力机制和分层感知表征的全参考图像质量评价方法.该方法采用分层表征的策略从不同的尺度和视觉复杂度对参考图像和失真图像的信息进行表征，以模拟人类视觉系统在感知图像信息时由浅入深的过程.利用空间注意力机制对特征图的重点区域进行校正，强化了多通道特征对图像失真信息的表达能力；同时采用分组通道注意力模块对分层感知特征的权重进行自适应校准，优化了特征融合过程.可视化实验及消融实验的结果证明，引入双重注意力机制可有效提升图像质量评价方法的性能.在3 个标准评测数据集中的实验结果证明，本文所提出的DAHF-IQA 与人类主观评价具有更好的一致性.不同类型失真实验结果证明，本文提出的方法可以有效应对多种复杂的图像失真类型.