一种改进的卷积神经网络的无参考JPEG2000图像质量评价方法

2017-03-01李朝锋

计算机应用与软件 2017年1期

关键词：卷积神经网络特征

朱睿李朝锋,2

1(江南大学物联网工程学院江苏无锡 214122)2(江南大学轻工过程先进控制教育部重点实验室江苏无锡 214122)

一种改进的卷积神经网络的无参考JPEG2000图像质量评价方法

朱睿1李朝锋1,2

1(江南大学物联网工程学院江苏无锡 214122)2(江南大学轻工过程先进控制教育部重点实验室江苏无锡 214122)

现有的图像质量评价模型对JPEG2000压缩图像的失真情况评价都不是很理想。针对这一问题，提出一种基于卷积神经网络的JPEG2000压缩图像质量评价方法。该模型由一层包含20个卷积核的卷积层，一层包含最大池、中值池和最小池的次采样层、一层采用1200个ReLU激活单元的全链接层和一个输出节点构成。采用最大、中值、最小三池联合的方法，可以有效提取图像的质量感知特征。在LIVE图像质量评价库JPEG2000压缩图像上的实验结果表明，该方法得到了比相关文献方法更好的主观感知一致性。

卷积神经网络深度学习无参考图像质量评价

0 引言

随着互联网技术的快速发展，对图像的传输、存储、压缩等需求日趋增多，而其中的每一种技术都需要对图像的质量进行评价，所以图像质量评价已经成为当前图像处理领域的一个研究热点。图像质量评价方法一般可以分为主观质量评价方法和客观质量评价方法。由于人是图像的最终接收者，主观质量评价的可靠性最高，但在实际应用中，主观质量评价费时费力，且无法嵌入自动化系统中，为此客观质量评价必不可少。客观质量评价根据有无参考图像信息可以分为全参考、半参考和无参考图像质量评价。无参考图像质量评价方法主要是指在没有参考图像信息的情况下对失真图像进行客观评价的一种方法。全参考和半参考方法需要参考图像的全部或者部分信息，在很多时候，参考图像信息很难获取或者获得代价太高，而无参考图像质量评价不需要原始图像的任何信息，所以无参考评价方法更为重要。近年来，无参考图像质量评价方法得到较大发展。Moothy等提出一种先分类后回归的方法DIIVINE[1]，该方法先对图像进行小波分解，使用广义高斯分布拟合得到尺度内和尺度间统计特征，然后使用支持向量机先分类再回归的方法预测图像质量得分。Mittal等对经过预处理的图像进行高斯拟合，提取形状、方差和均值等统计特征，使用SVR建立模型BRISQUE[2]。Saad等将图像分块后提取每块的离散余弦变换(DCT)系数，然后用广义高斯分布(GGD)函数进行拟合得到所需特征，最后用SVR训练得到评价e模型BLIINDS-II[3]。Gao等在小波域提取图像的非高斯性、局部依赖性和指数递减性特征，构建了两种评价方法：一种运用多核学习方法直接建立特征与图像主观得分之间关系的NSS-GS，另一种是需要两步框架的NSS-TS，即先判断图像的失真类型并分类，然后用不同失真的评价方法对不同类失真图像进行评价得到最终得分[4]。Liu等先将图像分块，然后对每块进行曲波变换后提取子带系数直方图拟合特征、能量差等，再取所有块的特征均值，运用先分类后回归的方法得到评价模型CurveletQA[5]。

深度学习[6]作为机器学习的一个分支，近几年来得到了迅猛的发展。其中卷积神经网络在图像处理领域也取得了重要的进展，如：图像内容处理、图像分类和物体识别[7-8]。1959年，Hubel和Wiese[9]两位科学家在对猫视觉实验中发现了猫的视觉系统是分级的，这种分级可以看成是逐层迭代、抽象的过程。

瞳孔接受像素，方向选择性细胞抽象出边缘，对边缘进一步抽象得出形状，对形状再进一步抽象得出是什么物体。

卷积神经网络特点在于将特征提取和网络回归良好地结合在了一起，这样结合的优点体现在两个方面：(1)随着网络深度的加深，可以更显著地提高网络的学习能力[10]。(2)在卷积神经网络框架中，采用反向误差传播的方法，将整个网络作为一个整体进行训练，这样就可在模型中加入最近提出一些提高学习效率和学习结果的新技术，如dropout[11]和ReLU(rectified linear unit)[11]等。

根据上述讨论，本文提出了一种改进卷积神经网络模型的JPEG2000编码图像质量评价的方法，不同于传统的卷积神经网络模型。我们在次采样层使用了大、中、小池结构结合并在输出层使用了ReLU激活单元的设计，实验结果表明，这样的结构设计使得实验结果得到了显著的提高。

1 改进卷积神经网络模型的原理与实现

本文提出的用于图像质量评价的CNN改进模型结构见图1所示。首先，将图像进行灰度化和归一化处理，然后将图像进行不重叠的切割并将训练用的图像块输入CNN改进模型进行模型训练，最后利用训练好的模型预测测试集中每一张小块的图像质量值并计算这些值的均值作为原图像的图像质量值。

图1 本文改进的卷积神经网络模型

1.1 网络结构

如图1所示，本文提出的CNN模型由五层网络结构组成。输入层接收经过灰度化和归一化后的32×32的图像块。在第一层卷积层中，我们使用20个7×7的卷积核通过步长为1像素的卷积运算对输入块进行处理，得到了20个特征图，其中每个特征图的大小为26×26。随后在次采样层中采用最大值、中值和最小值三种采样方法对20张特征图进行处理，分别得到最大值、中值和最小值三个特征池。这样做的目的不但是降低了特征的复杂程度，而且也在相应的特征图中提取出来比较显著的特征样本。在输出层，本文采用全链接方法，共有1200个节点来连接次采样层得到的特征，最后通过线性回归网络得到图像的质量值。

1.2 局部归一化处理

对失真图像进行不重叠切割前，先对失真图像进行归一化处理。本文采用的是局部归一化方法[12]。归一化计算式如下：

(1)

(2)

(3)

其中I(i,j)为失真图像，M、N分别表示图像的高和宽。P和Q是归一化窗口的大小，P和Q的最大值不应超过输入图像的大小。根据式(1)可知不同的窗口大小将会导致不同的均值和变异因数，在本文的方法中我们采用P=Q=3的窗口大小。通过式(1)-式(3)，用图像灰度值减去局部均值，再除以局部标准差可以消除图像的分段光滑性，并完成局部归一化。

1.3 卷积层

卷积层是通过卷积计算进行特征提取，在这一层中我们使用20个不同的卷积核，对每一个输入图像进行卷积运算，从而获得20个特征图。根据卷积神经网络的原理，卷积核的大小尺寸决定一个神经元的感受视野的大小。当卷积过小时，无法提取有效的特征，而当卷积核过大时，提取的特征的复杂度可能会超过后面网络的表示能力。因此设置适当的卷积核对于提高卷积神经网络的性能至关重要，同时也是卷积神经网络参数调节的难点。本文提出的模型采用的卷积核的大小为7×7，经过这样的卷积核处理后，我们会得到20个26×26的特征图。

1.4 次采样层

次采样层的输入是在上一层卷积层中经过卷积计算得到的20个特征图。在本层中，模型通过池化计算将特征图的维度进一步降低。对于每一个特征图本文只对它们取最大值、中值和最小值三个数值，分别存入最大池、中值池和最小值。计算式如下：

(4)

(5)

(6)

其中Pmax、Pmin和Pmedian表示最大池、最小池和中值池。M表示特征图。K表示卷积核的数量。

在场景识别领域中，卷积神经网络的池化层一般都会设置成2×2平均值的感知结构。在这种情况下，选择这种典型的感知方法可以使整个采样层的鲁棒性加强。特别是在被识别物体在空间上能被分成多个显著序列时，这种方法格外有效。但是，在无参考图像质量评价领域，经过我们的观察发现，很多失真都是均匀分布在空间域中的，将图像不重叠分割成32×32的图像块是不会影响这种失真的均匀性的。所以对于这种没有明显的全局显著特征的图像，使用本文中的池化方法可以大幅度地减少计算时间和结果的复杂程度，从而提高运算速度和预测结果的准确性。

1.5 输出层

本文模型在输出层采用了1200个激活节点，与前面的三个池采用全链接的方式连接。这里我们将次采样层的输出结果转换成一个60维的特征向量，每个特征都与1200个激活节点进行连接，所以在次采样层和输出层之间共有60×1200=72 000个参数。

在传统CNN的输出层中，一般都会采用sigmoid激活函数或tanh激活函数，本文模型使用Rectified Linear Units(ReLUs)作为激活函数。计算式如下：

(7)

其中w为连接权值，a为次采样层输出。

在深度CNN中，使用ReLU函数的模型在训练时要比使用tanh单元的模型效率更快[13]。而且ReLU函数的特性是阻止负信号通过，正是由于这种特性我们并没有在卷积层和次采样层使用ReLU函数进行滤波，而只是在线性回归的网络中使用它，使其能够过滤最小池中有可能出现的负输出。

Dropout是近几年由Hinton提出的一种防止网络过拟合的一种方法。其具体做法是将输出值按50%的概率设置为零，通过随机屏蔽输出信号的方法，Dropout成为一种对于训练权值网络的有效方法。本文在ReLU函数后，对于输出值进行Dropout处理。

1.6 模型调整与学习

Support Vector Regression (SVR)已经在无参考图像质量评价中得到成功应用[2]。本文模型中的输出层采用的目标函数与其非常相似，计算式如下：

(8)

其中x为输入图像，w为各层权值，f(w;x)为图像质量分数预测函数，y为图像的主观评价值。然后使用误差反向传播和梯度下降方法对权值进行调节。计算式如下：

(9)

Δw=▽wL

(10)

wnew=w+αΔw

(11)

其中w为权值，L为误差函数，α为学习率。在实验中我们还发现，在训练开始的时候使用较大的学习率，并在训练过程中减小学习率，可以使预测的较好结果。计算式如下：

α=α0(d)t

(12)

其中α为实时学习率，α0为初始学习率，d为在(0,1)的常数，t为训练次数。

2 实验结果与分析

2.1 在LIVE图像库上的实验结果与分析

本文选用LIVE[14]图像库中的JPEG2K失真类型作为实验数据集，该失真类型共有227张大小不同的原始图像，也给出了每幅失真图像的主观得分DMOS值。

为了评估本文方法的性能，选取两种评价指标：主观MOS和客观MOS的斯皮尔曼等级相关系数SROCC(Spearman Rank Order Correlation Coefficient)；主观MOS和客观MOS的皮尔逊线性相关系数PLCC(Pearson Correlation Coefficient)。

SROCC主要用于测量两组顺序样本的次序相关系数，即质量得分单调性的指标；PLCC主要用于客观评价得分与主观得分之间的回归拟合。SROCC和PLCC的值区间都为[-1,1]，其绝对值越接近于1表明主客观之间的相关性越好，反之，越接近0表明两者相关性越差。

为了和其他方法比较，本文采用了与他人文献中相同的处理方法。实验中随机选取LIVE数据库中80%的23幅原始图像及其对应的失真图像训练。剩余20%的6幅原始图像及其对应失真图像进行测试，这样保证训练图像与测试图像在内容上没有交叉。表1和表2分别列出了实验结果SROCC和LCC。

表1 在LIVE图像库JPEG2K失真类型上的SROCC值

表2 在LIVE图像库JPEG2K失真类型上的LCC值

图2为本文方法预测出的图像质量得分与主观得分的散点图，也表明了本文方法的主观感知一致性。

图2 本文模型预测图像质量值的散点图

由表1和表2可以分析出，本文在传统CNN模型基础上融入一些权值优化技术，以及在池化层采用最大、中值和最小三种联合的方法得到改进的CNN模型。实验结果显示，我们改进的CNN模型比传统CNN得到更好的主观感知一致性，也优于当前文献报道的顶级模型DIIVINE和BRISQUE。

2.2 模型参数比较与分析

本文模型中一些相关参数都是在实验初始阶段设置的，为了进一步研究这些相关参数初始值的不同对实验结果的影响，本节将在LIVE失真图像库的JPEG2K失真类型上实验相关的参数初始值不同时的表现。

2.2.1 输入图像尺寸

在我们设计的实验中，最后的预测结果为同一原始图像切块后得到所有图像块预测结果的平均值，所以输入图像块的大小尺寸不同可能会影响的预测结果。给出不同尺寸的实验结果如表3所示。

表3 不同输入图像尺寸大小得到的SROCC和LCC值

从表3中我们可以看出，图像块的大小对整体结果影响不大，但输入图像尺寸越大，实验所需的时间增长较多，综合考虑，我们选择输入图像大小为32×32。

2.2.2 卷积核的数量

我们给出卷积核的数量与预测结果之间的关系如图3所示。

图3 卷积核数目与预测结果的关系图

从图3中我们可以看出，实验结果会随着卷积核的增多而提高，但是当卷积核的数目超过20个的时候，实验结果提高趋于不变。相反地，随着卷积核的增多，实验所需时间增加较多。综合考虑，我们选择卷积核的数目为20个。

2.2.3 卷积核尺寸的大小

本文在实验中也测试了卷积核尺寸的大小对输出结果的影响，如表4所示。

表4 不同卷积核尺寸得到的SROCC和LCC值

从表4中我们可以看出，使用不同尺寸的卷积核进行实验所得到的结果差别并不明显，所以卷积核的尺寸对于实验结果的影响并不明显。我们选择了使实验结果相对较好的7×7大小卷积核。

3 结语

本文提出了一种改进卷积神经网络的无参考JPEG2000图像质量评价方法。该模型在次采样层采用了最大、中值、最小三池联合的方法，在输出层使用了ReLU激活函数和dropout技术，更好表达了图像质量感知特征。我们的实验结果也表明该模型在图像质量评价库上有更好的预测结果，优于当前文献报道的相关方法。

[1] Moorthy A K,Bovik A C.Blind image quality assessment:From natural scene statistics to perceptual quality[J].IEEE Transactions on Image Processing,2011,20(12):3350-3364.

[2] Mittal A,Moorthy A K,Bovik A C.No-referen ce image quality assessment in the spatial domain[J].IEEE Transactions on Image Processing,2012,21(12):4695-4708.

[3] Saad M A,Bovik A C,Charrier C.Blind Image Quality Assessment:A Natural Scene Statistics Approach in the DCT Domain[J].IEEE Transactions on Image Processing,2012,21(8):3339-3352.

[4] Gao X,Gao F,Tao D,et al.Universal Blind Image Quality Assessment Metrics Via Natural Scene Statistics and Multiple Kernel Learning[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(12):2013-2026.

[5] Liu L,Dong H,Huang H,et al.No-reference image quality assessment in curvelet domain[J].Signal Processing:Image Communication,2014,29(4):494-505.

[6] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural network [J].Science,2006,313 (5786):504-507.

[7] Landecker W,Chartrand R,DeDeo S.Robust Sparse Coding and Compressed Sensing with the Difference Map[C].//European Conference on Computer Vision (ECCV),2014:315-329.

[8] Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Computer Vision and Pattern Recognition (CVPR),2014 IEEE Conference on.IEEE,2014:580-587.

[9] Hubel D H,Wiesel T N.Receptive fields of single neurones in the cat’s striate cortex[J].The Journal of Physiology,1959,148:574-591.

[10] Bengio Y,Courville A,Vincent P.Representation Learning:A Review and New Perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.

[11] Nair V,Hinton G E.Rectified Linear Units Improve Restricted Boltzmann Machines.[C].// Proceedings of the 27th International Conference on Machine Learning (ICML),2010:807-814.

[12] Ruderman D L.The statistics of natural images[J].Netwrok:Computer in Nerual Systems,1994,5(4):517-548.

[13] Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C].//Advances in Neural Information Processing Systems 25,2012,1106-1114.

[14] Sheikh H R,Wang Z,Cornack L.LIVE image quality assessment database release2[EB/OL].http://live.ece.utexas.edu/research/quality.

A NO-REFERENCE JPEG2000 IMAGE QUALITY ASSESSMENT VIA IMPROVED CONVOLUTIONAL NEURAL NETWORK

Zhu Rui1Li Chaofeng1,2

1(SchoolofInternetofThingsEngineering,JiangnanUniversity,Wuxi214122,Jiangsu,China)2(KeyLaboratoryofAdvancedProcessControlforLightIndustry,MinistryofEducation,JiangnanUniversity,Wuxi214122,Jiangsu,China)

The existing image quality evaluation model for JPEG2000 compression image distortion upon evaluation is not very ideal.In view of this,a JPEG2000 compressed image quality evaluation method based on improved CNN framework is put forward.The model is consisted of one convolutional layer with 20 convolution kernels,one pooling layer with the max,medium and min pooling,one fully connected layer with 1200 ReLU units and one output node.Using the max,medium and min pool structure to extract the typical features in the image effectively.Experimental results show that the proposed method is consistent with the subjective score better in the LIVE library.

Convolutional neural network (CNN) Deep learning No-reference Image quality assessment

2015-11-05。国家自然科学基金项目(61170120);教育部优秀人才计划项目(NCET-12-0881)。朱睿，硕士生，主研领域：深度学习，模式识别。李朝锋，教授。

TP391.4

10.3969/j.issn.1000-386x.2017.01.032