基于深层卷积神经网络的图像美感度分类
2018-07-10杨国亮曾建尤王志元
杨国亮, 曾建尤, 王志元
(江西理工大学 电气工程与自动化学院, 江西 赣州 341000)
0 引 言
近年来, 计算机视觉领域中的图像美感度评估越来越受人们关注[1-3]. 由于人的视觉系统难于分析, 且人的视觉美感不能用简单的数学公式计算, 利用计算机判断图像的美感度成为一项极有挑战性的任务. 其本质是通过计算机从图片中学习特征, 最终将图片评价为低美感或高美感. 早期, 研究者们通过提取图像中易被计算的美学特征, 采用传统的分类器对图像进行分类. 比如, Nishiyama等[4]通过提取图像颜色和谐度和反映图片美感模糊、 边缘与显著性的美学特征, 来进行图片质量的分类. Dhar等[5]利用三种层次的图像属性, 分别是位置、 内容和光照属性来进行图像美感度分类. Donovan等[6]采用提取图片规则的方法, 例如, 三分法、黄金比例等实现图像美感度分类. 由于传统算法很难抽象出一种完整的美学特征, 导致早期研究在美感度分类上效果较差.
近年来, 卷积神经网络在计算机视觉领域上取得了更大突破, 如图像分类、目标识别、人脸识别等. 研究者开始思考用深度卷积神经网络算法对图像美感度进行识别. 如Guo等[7]认为手工提取的美学特征只适应特别数据集, 并行深度卷积网络能解决学习的美学特征不完整问题. Dong等[8]则提出利用卷积神经网络“理解”图像美学特征, 然后提取网络模型的最后一层美学特征, 进而用机器学习方法进行分类. 王伟凝等[9]先对AlexNet网络模型优化, 然后采用基于优化后的并行深度卷积网络进行美感度分类.
目前用于图像美感度分类的深度卷积神经网络横向层数相对较浅, 提取的特征区分度不强, 不能对复杂的美学特征进行很好的学习, 如王伟凝等[9]和 Dong 等[8]分别在横向上应用7和5层网络结构, 但准确率上仅达到77%和83.52%. 这些方法在特征描述上有限, 影响了网络的识别效果和收敛速度. 而文献[10-11]分别在Imagenet数据集上使用22层和50层, 识别效果有了一定提高. 因此, 为了增强算法对图像美感特征的学习能力, 提高分类准确率. 本文在残差网络[5]的基础上探索出适应图像美感度分类的方法, 提出了一种基于深层卷积神经网络的图像美感度分类算法, 并在AVA数据库和CUHKPQ数据库进行实验分析.
1 卷积神经网络
本文采用深层卷积神经网络对图像美感进行提取. 美感的特征提取过程是从底层到高层语义空间的抽象映射. 在进行卷积运算前, 需对数据进行增强处理. 对于卷积神经网络第l-1层的输出特征进行卷积滤波得到第l层第k组的特征映射X(l,k),X(l,k)可表示为
(1)
式中:W(l,k,p)为特征映射所需的滤波器;k和p分别表示第l层第k组、第l-1层第p组. 第l层的每一组特征映射都需要nl-1个滤波器以及一个偏置项b.
为了提升网络训练速度, 减少网络对初始化的依赖, 卷积层可以加入BN归一化层(Batch Normalization), 其本质是将数据规范化. 对于某层的d维输入X=(x(1),…,x(d)), 将每一维归一化为
(2)
深层卷积网络的层数在简单的堆叠后会形成巨大的计算量. 因此, 通过添加池化层的方式来减少特征的维数. 假定通过卷积层得的特征映射为X(l), 可以将X(l)划分为区域Rk,k=1,…,K, 池化函数可以定义为
X(x+1)=f(w(l+1),down(Rk)+b(l+1)),
(3)
卷积神经网络的参数随误差反向传播不断地在线更新, 本文采用随机梯度的方式进行参数调整. 随机梯度样本可以使用小规模的样本近似估计. 假设从训练集中抽出小批量样本. 可表示为z={x(1),…,x(m′)}, 梯度的估计可表示为
(4)
在进行梯度运算时, 网络对上亿个训练样本进行训练, 而每次更新计算只用到几百个样本. 对于随机梯度下降算法使用如下的梯度下降估计
θ←θ-εg.
(5)
在美感特征映射到线性空间之后, 输出层可对美感度进行评估计算. 输出层主要使用softmax函数对图片信息进行分类. softmax函数是将多个标量映射为一个概率分布, 设有k个标量x1,…,xk. 则softmax分类器输出可由式(6)求出.
(6)
2 基于深层网络的美感度分类
2.1 深层卷积神经网络的描述和分析
如图 1 所示, 本文提出的深层卷积神经网络模型由A类层、B类层、C类层、损失层、输出层构成. 其中, A类层共有49层, B类层共有16层, C类层2层, 全连接层共3层, 损失层1层, 输出层1层. 考虑到网络层的重要性和复杂度两种因素, 本文设计的深层卷积网络层数由A类层、全连接层、损失层、输出层决定, 深层卷积网络模型共有55层. 本文提出的模型中构造了多个全连接层, 增加了网络深度, 并有效提高在迁移学习下的图像美感度分类效果. 当输入图像美感图片后, 通过该模型可获得高和低两种美感度判别信息.
深层卷积网络模型具体构建如下: A类层主要包括卷积层、BN归一化层、Relu激活层. 其中, A类层中的第一层卷积层有64个卷积核, 大小为7×7. 所有B类层中间夹的三层卷积层从左到右依次为64个卷积核(大小为1×1)、64个卷积核(大小为1×1)、256个卷积核(大小为1×1), 同时, B类层还包括Eletwise层和Relu激活层. C类层为池化层. 最后5层则是输出层、损失层、3个全连接层(Full Connection). 由于输出层发生在测试阶段, 图 1 中未给出. FC1层是有2个输出的全连接层, FC2层由一个swish激活层和一个512个输出的全连层构成, FC3包括一个swish激活层和一个2 048个输出的全连接层.
本文深层卷积神经网络模型在卷积层后采用relu函数, 同时配合使用BN归一层并设置缩放参数(scale parameter), 达到更好的训练效果. 而在全连接层配合使用swish函数, 其在x<0时具有软饱和性能, 提升了噪声鲁棒性. relu函数和swish函数两种函数公式为
总而言之,城市道路交通工程施工作为一项基础性工程,城市道路交通工程施工的质量会直接影响到整个城市的可持续健康发展,那么,施工企业必须要加强对于工程施工质量的控制力度,通过对工程施工进行严格管理,才能更好的推进我国城市道路交通工程的可持续健康发展。
f(x)=max(0,x),
(7)
(8)
式中:α=1. 曲线如图 2 所示.
网络模型成功将迁移学习和全连接层、swish函数结合起来(函数曲线图 2 所示). 同时最后全连接层的权值均使用式(9)初始化.
(9)
式中:W为权值;nj为第j层神经元的个数. 网络中增加了线性空间的计算, 提高了网络复杂度. 如式(10)所示. 在后续的实验中, 可以证明训练时的迁移能力变得更加突出.
y=Wx,
(10)
式中:x为输出层输入信号, 其维度为d, 输出层输出为y, 其维度为v,W为权值矩阵.
(11)
z(l)=W(l)·fl(z(l-1))+b(l),
(12)
式中:z(l)表示l层的神经元的状态, 而W(l)表示l-1 层到l层的权重矩阵.
2.2 迁移学习
迁移学习是利用设定中学到的内容去改善设定中的泛化情况. 对于一种全新网络层直接随机初始化, 重新开始训练, 将导致模型收敛困难且分类性能下降[12]. 迁移学习使网络模型有不同数据类型, 可以学习更出色的底层规则, 得到更好的网络模型. 本文采用了迁移学习的微调方法进行网络的训练. 微调是将学习好的网络底层和高层的参数用于自己的数据, 然后训练出最优的模型. 其减少了网络学习美感特征的时间, 同时避免因输入数据少带来的分类准确率低的问题.
如图 3 所示, 微调过程发生在网络训练的中间阶段. 训练时, 本文所提模型首先在ImageNet上进行预先训练, 得到初始模型, 再采用CUHKPQ和AVA数据库对网络进行微调. 在微调过程中, 由于采用的不同场景的数据库和较复杂数据库更强调图片的整体美感, 而ImageNet的数据库更多突出图片物体, 降低了对背景重视程度, 故两种图片相似度一般. 因此, 本文网络的底层和高层的网络参数迁移复用后再进行重新学习.
图 3 网络训练流程图Fig.3 The chart of training network
3 实验与分析
本实验采用caffe框架来实现图像美感度分类,在linux系统下采用python语言来进行编程. 计算机的内存和显卡分别为16 G、Nvidia GeForce GT750M GPU.
3.1 实验数据
AVA数据库是大规模图片集, 每张图都有美感度评分. 评分由平均210个用户打出, 每人评分在1~10分之间. 本实验用每张图片评分的加权平均作为AVA数据库中每张图片的标签. 共收集到255 508张AVA数据库的图片. 为了增加对比性, 本文参考文献[13], 把采集到的AVA数据库分为A0数据集和A1数据集. 对于A0, 先对数据库中每张图片评分做加权平均, 然后根据评分从大到小排序. 各选取图片库中的前后10%高分图片和低分图片作为高美感图片和低美感图片. 对于A1, 在已经排序好的图片库中分高美感和低美感图, 以加权平均5分为分界线将图片分为高美感和低美感图片. CUHKPQ是包含1 767幅来自专业摄影网站的数据库, 且由animal,plant,static,architecture,landscape,human和night场景构成. 本文参照了文献[8]的方法, 将每个场景中一半高美感图片和一半低美感图片作为训练集, 其他作为测试集. 在以上两种数据中, 由于每张图片大小不同, 而网络训练模型在迁移学习时对输入图片大小有要求. 因此, 本文首先将图片缩放为256×256, 再剪裁为224×224, 然后镜像翻转. 图 4 是两种数据库中高美感和低美感图像示例.
图 4 AVA数据库和CUHKPQ数据库图像示例Fig.4 Image examples of AVA dataset and CUHKPQ dataset
3.2 实验仿真及结果分析
本文做了大量对比实验, 利用不同算法将美感图像分为高美感和低美感两种类别.
为了验证本文提出基于卷积神经网络的图像美感度分类算法优越性, 分别在A0和A1图片集上做了3种不同情况下的实验, 同时将残差网络[11]用于图像美感度分类. 由图 5 可知, 在A0数据集下, 本文算法的准确率明显高于残差网络. 而在图 6 中, 相比残差网络和本文方法在没有迁移学习的情况, 本文所提算法基本保持优势. 当迭代40 000次时可以达到80%的准确率, 且识别率依旧保持向上增长的趋势, 而残差网络算法识别率已经趋于平稳. 此外, 本文算法在10 000次达到的准确率, 残差网络需14 000次才能达到效果. 这主要得益于改进后网络增加了线性空间计算, 使得softmax分类器更容易对输入的图像美感信息分类.
图 5 A0数据集上准确率对比图Fig.5 Accuracy comparison chart on A0 dataset
图 6 A1数据集上准确率对比图Fig.6 Accuracy comparison chart on A1 dataset
表 1 列出了本文算法在CUHKPQ数据库的7种场景下高低美感度分类测试结果, 表中所示, 该算法分别与4种方法进行了对比. 实验表明,本文算法在6个场景的识别率有明显的优势, 而在Landscape场景上稍稍低于All features in[14]. 其中, architecture场景上高约2%, human场景上高约2.5%, night场景上高约2%, static场景上高约3% plant场景高2.31%. 而其他4种方法在7种场景中的少数场景上有较小的准确率优势.
表 1 每种场景下本文方法与其他方法对比Tab.1 Comparison of proposed method and other method
另外, 算法在图片特征较复杂的AVA数据集下进行了实验对比. 表 2 表示在数据集A0下高低美感度分类准确率对比, 明显可以看出, 本文方法比Ke等[2]、Marchesotti等[15]、 DCNN_Aesth_SP等[8]所提算法准确率高.
从表 2 可以看出, 王伟凝等[9]算法在A0数据集下美感度分类准确率可达85%, 但相比之下, 本文算法准确率仍高于2.1%. 表 3 为在A1的数据集下, 与其他两个深度学习方法对比, 本文算法分类准确率比王伟凝等[9]算法高约3.1%.
表 2 A0数据库实验结果与现有方法对比Tab.2 Comparison of the experiment results of the A0 datasets with existing methods
表 3 A1数据库实验结果与现有方法对比Tab.3 Comparison of the experiment results of the A1 datasets with existing methods
最后, 在A1数据集测试完后, 本文对训练后的模型进行了单张图片的可视化测试, 结果如图 7 所示. 在图 7 中, 第1行到第4行分别代表第1,4,13,25卷积层的特征图. 由图7可知, 网络达到25层后, 其已经具有了高级美感特征. 通过不同层的对比可知, 4种层之间分别相差3,9,12层卷积层, 第4层和第13层的特征依旧可看清物体轮廓, 可证明第4层和第13层之间存在更细致的美感特征.
图 7 某张美感图片的部分特征图Fig.7 Part feature picture of a aesthetic image
4 结束语
本文提出了一种基于深层卷积神经网络的图像美感度分类法. 通过对网络模型的优化, 然后利用本文深层卷积神经网络进行迁移学习. 实验表明, 该网络模型在AVA数据库和CUHKPQ数据集学习能力更强, 在图像美感的分类准确率上, 具有较好的效果. 当然, 利用深度学习方法解决图像美感的评估问题还处在初期, 有许多问题值得进一步研究. 比如, 建立可视化网络模型, 然后研究可视化的美感特征, 给出一个更深更有针对性的网络模型来提高分类的准确率; 可以将图像美感评估问题作为回归问题来解决, 对于图像美感的回归问题研究更有现实意义.