APP下载

一种改进的DIQaM_FR/NR图像质量评价模型

2020-08-19MITHUNMdMsudPrvej

计算机工程 2020年8期
关键词:特征提取图像算法

谢 瑞,邵 堃,霍 星,MITHUN Md Msud Prvej

(合肥工业大学 a.计算机与信息学院; b.软件学院; c.数学学院,合肥 230000)

0 概述

图像质量评价可分为主观质量评价与客观质量评价两类。主观质量评价依据人的主观意向对图像质量进行评价,虽然其准确度较高,但是耗时耗力。客观质量评价通过机器建立能够有效模拟人类视觉系统(HVS)的感知模型,以对图像质量进行评价。客观质量评价算法根据对参考图像信息需求程度的不同可分为全参考(FR)、半参考(RR)与无参考(NR)评价算法。FR图像质量评价算法通过计算完整的参考图像与失真图像的相似性,从而达到评价的目的。经典的FR评价算法有SSIM(Structual Similarity)[1]、FSIM(Feature Similarity)[2]等。SSIM算法通过比较失真图像与参考图像的亮度、对比度与结构信息来评价图像质量,而FSIM算法则通过比较2种图像的梯度信息来评价图像质量。文献[3]认为SSIM算法对严重模糊图像的评价结果准确度不高,因此,其基于离散余弦变换提出纹理结构相似度质量评价方法。文献[4]对峰值信噪比(PSNR)和奇异值分解(M_SVD)算法进行改进,在这2种算法基础上分别增加优化后的高斯权重对图像的局部进行评价,最后将局部评价值融合成整个图像的质量评价值。RR评价算法依据参考图像中的部分信息对图像进行评价,如文献[5]通过离散余弦变换系数分布的统计建模提出一种RR图像质量评价算法。NR评价算法解决了图像质量评价中参考图像缺失的问题,经典的NR算法通过对称广义高斯分布模型或者非对称广义高斯分布模型提取经过预处理的失真图像的自然场景统计(NSS)特征,最后使用支持向量回归(SVR)[6]进行回归学习,预测图像质量。NR算法的关键在于预处理方法的选择,如BRISQUE算法[7]采用去均值与标准化(MSCN)对图像进行预处理,DESIQUE算法[8]除了采用MSCN算法同时还采用log-Gabor变换对图像进行分解,BIQI算法[9]则利用小波变换对图像进行预处理。

上述算法均设计了独立的方法用于提取图像特征,但提取特征的方式具有一定局限性,大都只注重于图像的局部特征,难以充分地描述图像质量。深度学习模型能够很好地提取图像的全局特征与上下文信息,并学习特征与输出结果之间的映射,提高特征的表达能力。具有监督学习能力的卷积神经网络(Convolutional Neural Network,CNN)在图像处理中表现出了优异的性能,其可以通过多层网络计算提取图像特征,学习输入和输出之间的复杂映射,并具有很强的鲁棒性。近年来,部分学者将CNN用于图像质量评价任务。文献[10]将简单的浅层CNN网络应用于图像质量评价,但是由于网络层数较浅,其评价效果并不理想。文献[11]将SVR与CNN相结合,提出一种基于SVM的质量评价算法,其将CNN提取的特征作为SVR的输入并计算图像质量分数。文献[12]使用CNN和Gabor提取的特征作为SVR的输入以评价图像质量。

文献[13]提出DIQaM_FR/NR(Deep Image Quality Measure for FR/NR)模型,其采用修改后的Vgg网络提取图像块的特征,然后使用2层全连接层对提取的特征进行映射学习并预测图像块质量,在此基础上,采用一层池化层将属于同一幅图像的32个图像块质量聚合成图像整体质量。但是,特征提取层的参数数目规模庞大导致该模型的复杂度较高。

文献[14]研究表明,当网络的复杂度较大时,小样本数据集会使模型训练过度,即在深度学习领域中,泛化能力较差的模型在数据集相对较小时容易出现过拟合的问题,训练误差小而测试误差大。图像质量评价数据集所包含的几千张图像属于典型的小样本数据集,目前大都采用数据增强和迁移学习2种方法应对小样本数据集问题。其中,数据增强容易导致输入图像的质量发生改变,由此出现标签噪声的问题,影响评价结果。例如,为了扩展现有数据集,文献[10,12-13]采用图像分块的方法增大数据量。文献[15]采用迁移学习的方式训练图像质量模型,但是其将输入图像的尺寸都统一为224×224,改变了图像的质量。迁移学习通过迁移现有学习模型的参数,针对新的数据集实现模型参数微调,能够较好地解决数据集较小的问题。

本文提出一种新的通用图像质量评价模型,以在小样本图像数据库下评价图像的质量。更深的网络结构能够提取出更符合人眼视觉特性的图像特征,而ResNet50[16]网络的深度比Vgg更深。本文对DIQaM_FR/NR模型进行改进,在特征提取层使用ResNet50网络,然后采用一层全局平均池化(Global Average Pooling,GAP)层与一层全连接层对提取的特征进行回归学习。将全图像作为模型的输入,无需图像预处理和标签噪声引入操作。在训练阶段,将已训练好的ResNet50网络参数迁移至本文模型,该参数是通过ImageNet数据集训练而得到,然后在测试数据集上对参数进行微调。

1 相关工作

1.1 DIQaM_FR/NR图像质量评价模型

DIQaM_FR/NR模型首先将图像分成多个图像块组成图像块集,随后将图像块集作为特征提取层的输入。DIQaM_FR评价模型借鉴了孪生网络的双分支(分支间共享参数)思想,使用2支并行的Vgg网络提取失真与原始图像块的特征。DIQaM_NR评价模型不需要参考原始图像的信息,因此,其只有1支特征提取层。最后,DIQaM_FR/NR模型将多个图像块的质量聚合成图像的整体质量。DIQaM_FR/NR模型的框架结构如图1所示,首先使用改进的Vgg网络结构(10层卷积层与5层池化层)提取图像块特征,然后采用2层全连接层(FC-512、FC-1)学习提取的特征并预测图像块的质量,最后使用1层均值池化层将图像块的质量聚合为图像的整体质量,池化公式如式(1)所示。虽然单个Vgg网络的参数量不大,但是DIQaM_FR/NR模型采用了多个Vgg网络对图像块集进行特征提取,而多个Vgg网络叠加后的参数量达到了703 M左右。

图1 DIQaM_FR与DIQaM_NR评价模型结构Fig.1 Structure of DIQaM_FR and DIQaM_NR evaluation model

(1)

其中,N表示从图像中采样的图像块数量,yi为图像块的预测质量评价值,q为预测得到的图像质量评价值。

1.2 ResNet50模型与迁移学习

ResNet50网络的深度达到了168层,参数数量约为99 M,其由5层残差层按顺序组成,每个残差层由恒等残差块与卷积残差块2种残差块按不同的个数和组合方式构成,而每种残差块由多个卷积层组合而成。2种残差块的结构示意图如图2所示,当残差块的输入与输出的通道数不同时采用图2(a)结构,当输入与输出的通道数相同时则采用图2(b)结构。ResNet50网络结构及各层卷积核的详细设置如表1所示,其中,Res1只含有1层卷积层与1层最大池化层,两者步长均为2。除第1个卷积层的步长为2外,其余卷积层的步长均为1。Res2与Res5按照图2(a)、图2(b)、图2(b)的方式组合而成;Res3按照图2(a)、图2(b)、图2(b)、图2(b)的方式组合而成;Res4采用图2(a)、图2(b)、图2(b)、图2(b)、图2(b)的方式组合而成。

图2 2种残差块结构示意图Fig.2 Structural diagram of two kinds of residual blocks

表1 各层卷积核的参数设置Table 1 Parameter setting of convolution kernel in each layer

ResNet50网络在正向传播时,其短路连接通过将残差块的输入与输出相加的方式,将底层特征传入到更深层网络,从而提高特征的表达能力;在反向传播时,ResNet50网络通过短路连接将来自深层的梯度信息传递给浅层的网络层,使浅层的参数得到有效训练。

迁移学习是运用已有知识或者经验对其他领域问题进行求解的一种学习方法[17],即迁移学习是将现有表现优异的模型通过微调等方法来解决新领域中的某些问题,其可以将在较大数据集上预训练得到的模型或者网络迁移至小样本数据集中,从而避免使用小样本数据集训练模型而出现的过拟合问题。

2 Res-DIQaM_FR/NR图像质量评价模型

2.1 模型结构

DIQaM_FR/NR模型虽然具有较好的评价效果,但是由于网络结构的参数量较大,导致模型的复杂度较高。ResNet50网络含有50个卷积层,比DIQaM_FR/NR模型特征提取所采用的Vgg网络更深,但是ResNet50网络参数数目远少于DIQaM_FR/NR模型特征提取层的参数量,基于这一特点,可以通过迁移已有的ResNet50网络训练参数达到减少参数的目的,从而避免小样本环境下过拟合情况的出现。基于ResNet50网络模型的特点,本文改进原有DIQaM_FR/NR模型,构建一种Res-DIQaM_FR/NR图像质量评价模型,其结构如图3所示。

图3 Res-DIQaM_FR与Res-DIQaM_NR模型结构Fig.3 Structure of Res-DIQaM_FR and Res-DIQaM_NR models

Res-DIQaM_FR模型将失真图像和参考图像作为输入,对2幅图像同时使用ResNet50网络进行特征提取,之后通过特征融合层对所获得的特征图进行融合。模型采用通道拼接的方式将提取的失真图像特征向量与原始图像特征向量进行融合,如式(2)所示:

f=concat(fr,fd)

(2)

其中,fr为原始图像特征向量,fd为失真图像特征向量,f为融合后的特征向量。融合前特征向量通道数为2 048,融合后特征向量f的通道数为4 096。

在特征融合之后采用GAP层求取每个通道中特征向量的平均值,均值计算过程减少了参数的计算量,同时在一定程度上抑制了过拟合现象。模型最后通过一层输出大小为1的全连接层学习提取的特征与图像质量之间的映射关系。在本文模型中,由于ImageNet数据集与图像质量评价数据集的差异较大,因此采用全连接层来保证网络表示能力的迁移。

Res-DIQaM_NR模型将参考图像作为输入,比其对应的FR模型少了特征融合层。Res-DIQaM_FR/NR图像质量评价模型中的损失函数采用均方误差(MSE)函数,计算公式如下:

(3)

其中,yi为图像的真实标签,qi为图像的主观质量值。模型采用Adam优化器来提高收敛效率,提升参数寻优的精度,加快模型的学习速度,从而使模型得到更好的结果。Adam优化器参数设置如下:beta1=0.9,beta2=0.999,epsilon=10e-8。

2.2 模型训练过程

本文模型首先迁移ResNet50网络在ImageNet数据集上的训练参数,然后使用图像质量评价数据集训练评价模型。Res-DIQaM_FR/NR模型中全连接层的参数随机生成,没有可迁移的参数,且该参数不一定是最优参数。由于数据集较小而网络较深,若直接对整个模型进行训练,因为全连接层的参数与最优参数之间有一定差距,在训练过程中该差距不断向后传导,从而影响整个模型的参数更新,破坏模型已有的表征能力。

为有效解决上述问题,本文将模型的训练过程分为2个阶段:

1)第1阶段冻结特征提取层的参数,只更新全连接层的参数,初步提升全连接层的评价能力。

2)第2阶段解冻特征提取层,以更小的学习率在已有参数的基础上对整个模型进行再次训练,更小的学习率使权值始终处于一个小范围内更新。第2阶段的训练使模型的整体结构更加符合图像质量评价任务。

上述训练方法避免了特征提取层与全连接层同时训练时出现的过拟合问题。

3 实验结果与分析

3.1 实验数据集

本文实验采用TID2013图像库[18]和CLIVE图像库[19]作为数据集。TID2013图像库包含25个参考图像和3 000个失真图像(25个参考图像×24种类型的失真×5级失真),图像的尺寸均为512×512×3。MOS值(最小为0,最大为9)由971个实验观察者获得,971个观察者总共进行了524 340次失真图像的对比实验,即1 048 680次图像对的相对质量评价。MOS的值越大则图像质量越好。CLIVE图像库包含各类随机发生的失真图像和移动相机拍摄的图像,一共1 162张,尺寸均为500×500×3,其收集图像时不会人为地引入除捕获、处理和存储期间发生的任何变形之外的其他变形。实验根据现有文献中常用的皮尔逊相关系数(Pearson Correlation Coefficient,PLCC)和Spearman秩相关系数(Spearman Rank Correlation,SROCC)2个评价指标,对评价模型的性能进行分析。SROCC主要用于测量2组序列样本的顺序相关系数,即质量分数的单调性指数;PLCC主要用于表明客观评价得分与主观评价得分之间的线性相关程度。SROCC和PLCC的取值范围均为[-1,1],绝对值越接近1,说明主观评价与客观评价的相关性越好。

3.2 基于TID2013图像库的实验结果

基于TID2013图像库,将Res-DIQaM_FR/NR图像质量评价模型与常用的FR/NR质量评价模型进行比较,对比对象为PSNR、SSIM、FSIM、IW-SSIM[20]、GSM[21]、DIQaM_FR、WaDIQaM_FR 7种FR模型,以及NIQE[22]、BRISQUE、CurveletQA[23]、DIQaM_NR、WaDIQaM_NR、BIQI 6种NR评价模型,PLCC与SROCC值的比较结果如表2所示。从表2可以看出,本文FR/NR模型的图像质量评价效果始终保持最优。为解决数据集小导致模型出现过拟合的问题,DIQaM_FR/NR模型采用图像分块增加数据集的方式,而本文采用已训练好的ResNet50网络解决该问题。本文FR/NR模型的PLCC值分别达到0.910 4与0.869 2,该结果证明本文采用的方法能更好地解决过拟合问题。

表2 Res-DIQaM_FR/NR评价模型与对比模型在TID2013图像库上的性能比较Table 2 Comparison of performance between Res-DIQaM_FR/NR evaluation model and the model in comparison on TID2013 image library

本文模型与DIQaM_NR模型在TID2013数据集上训练时loss下降的曲线对比如图4所示。

图4 2种模型训练时的loss下降曲线对比Fig.4 Comparison of loss decline curve of two models during training

从图4可以看出,在相同的epoch下,Res-DIQaM_NR模型的最终loss值为0.08,而DIQaM_NR模型的最终loss值为1.08,DIQaM_FR/NR模型的PLCC值分别为0.481 3与0.419 4。当训练次数较小时,本文模型能更准确地预测图像的质量,改进的Res-DIQaM_NR模型loss下降曲线更为光滑,其收敛一致性较好。

本文实验选取TID2013数据集中Noise、Simple和Color 3种不同失真类型的图像进行分析,分别将PSNR、FSIM、SSIM、WaDIQaM_NR、DIQaM_NR与Res-DIQaM_NR模型进行对比,采用SROCC值作为评价标准,实验结果如表3所示。从表3可以看出,Res-DIQaM_NR模型的效果比PSNR、FSIM模型略差,但是优于其他模型。

表3 6种评价模型针对特定失真类型图像的SROCC值结果Table 3 SROCC value results of six evaluation models for images of a specific distortion type

3.3 基于CLIVE图像库的实验结果

在部分图像处理应用中,存在图像的失真类型未知或同一幅图像存在多种失真类型的问题,因此,本文将CLIVE图像库作为NR模型下的实验数据集。对比Res-DIQaM_NR、BRISQUE、NIQE、WaDIQaM_NR和DIQaM_NR 5种评价模型的性能,结果如表4所示。从表4可以看出,Res-DIQaM_NR模型的图像质量评价效果最优。

表4 5种模型在CLIVE图像库上的PLCC与SROCC值结果Table 4 PLCC and SROCC value results of five models on the CLIVE image library

3.4 特征提取对比实验结果

本文实验使用DensNet121(121-layer Dense Convolutional Network)、DensNet169(169-layer Dense Convolutional Network)[24]、ResNet18(18-layer Residual Nets)网络结构与ResNet50结构进行对比分析。表5所示为DensNet121、DensNet169、ResNet18与ResNet50网络基于TID2013图像库在学习率与epoch均相同的情形下训练测试所得的PLCC与SROCC值。其中,DensNet121网络的深度为121层,参数数量约为33 M,DensNet169网络的深度为169层,与ResNet50网络深度接近,而DensNet169网络参数数量约为57 M,ResNet18网络的深度为92层,参数数量约为44 M。虽然这3种网络结构的复杂度远低于ResNet50网络,但是从表5可以看出,基于ResNet50网络结构的评价模型的效果优于其他3种网络结构。当模型复杂度较低时,易出现欠拟合问题,训练误差与测试误差都很大,即不能很好地拟合数据,学习能力较低。表6所示为5种评价模型的空间与时间复杂度比较结果,其中,时间复杂度为训练一个epoch需要的时间。从表6可以看出,Res-DIQaM_FR模型的空间与时间复杂度远低于DIQaM_FR模型。

表5 4种评价模型基于TID2013图像库的性能比较结果Table 5 Comparison results of performance of four evaluation models based on TID2013 image library

表6 5种评价模型的空间与时间复杂度比较结果Table 6 Comparison results performance of spatial and temporal complexity of five evaluation models

4 结束语

本文对图像质量评价模型DIQaM_FR/NR进行改进,采用已训练好的ResNet50网络结构和GAP层分别取代DIQaM_FR/NR模型中的特征提取层和全连接层(FC-512)。迁移ResNet50网络基于ImageNet数据集的参数,并在此基础上对模型参数进行微调。为了避免出现标签噪声,采用未经处理的全图像作为模型输入,以在保证模型稳定性的同时降低其复杂性,并有效解决图像质量评价领域中数据集较小的问题。实验结果表明,该模型能够以更少的参数量得到与PSNR、FSIM等评价模型相似甚至更高的准确性,更符合人类视觉特性要求。下一步将迁移性能更优的深度学习网络并应用于图像质量评价任务。

猜你喜欢

特征提取图像算法
巧用图像中的点、线、面解题
有趣的图像诗
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
基于Gazebo仿真环境的ORB特征提取与比对的研究
进位加法的两种算法
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
一种改进的整周模糊度去相关算法
基于MED和循环域解调的多故障特征提取