基于注意力机制的个性化图像美学质量评估
2021-10-28江佳俊杨晓雨
江佳俊,蒋 旻*,杨晓雨,郭 嘉
(1.武汉科技大学 计算机科学与技术学院,湖北 武汉 430065; 2.智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学),湖北 武汉 430065)
0 引 言
图像美学质量评估是利用计算机模拟人类对美的感知和认知,自动评价图像的“美感”[1]。图像美学质量评估是计算美学与计算机视觉、心理学、虚拟现实等领域的学科交叉新方向,其在图像推荐、图像编辑美学等行业具有良好的应用前景。
在图像美学质量评估的研究历史中,大部分美学图像评估方法都试图用量化指标对图像美感进行评估,根据量化指标的不同,大部分美学质量评估方法可以被划分成以下三类:(1)基于分类的方法,图像美学质量评估结果被分成“高质量”、“低质量”和“普通质量”三种类别;(2)基于评分的方法,图像评估结果为一个量化的分值,通常在1~10之间;(3)基于分布的方法,评估结果用各美学评分分值的概率分布来表达。由于近年来提出的大部分美学评分方法采用第二种方式,所以文中也选用基于评分的方式评估图像美学。
早期较传统的图像美学评价方法是根据与摄影相关的视觉特征(例如对称性、构图布局、颜色、纹理、清晰度、对比度等)来进行图像美学质量评估。这些特征往往是用一些手工设计的视觉特征描述子来表达。虽然手工设计的特征可设计性范围很广,但是由于设计特征时需要具备摄影中的美学规则的相关经验,计算量较大、很少考虑特征之间的关系和很难涵盖所有的美学规则等因素的存在,所以基于手工设计的特征的方法往往效率较低且输出结果不稳定。
为了改善传统方法中手工设计特征的低效和鲁棒性差的缺陷,近年来,研究人员逐渐将深度学习技术引入审美评估,但是大部分基于深度学习的审美评估方法存在一些共同的缺陷:
(1)一幅图像除了考虑构图布局外,往往存在需要突出的主体(主题)部分。大部分基于深度学习的方法往往只从图像整体角度进行评估,没有考虑主体的突出性和位置合理性。
(2)对于同一幅图像,不同人的美学评价可能不尽相同,甚至相去甚远。通用的美学质量评估方案一般没有考虑不同用户审美间的差异。如何将个人审美主观偏好建立在评估系统中,实现个性化美学质量评估,成为一个有挑战性的问题。
文中以个性化图像评估为研究对象,利用视觉显著性技术将主体的突出性和位置合理性等因素引入审美评估过程,提出了一种新的基于注意力机制的个性化美学质量评估方法。该方法在Rodriguez-Pardo等人提出的个性化残差网络PAA[2](personalised-aesthetic-assessment-using-residual-adapters)的基础之上引入了注意力机制,既保持了图像内容个性化偏好(个人美学质量评估的主观偏好),又将个人对图像构图的偏好(即主体的突出性)因素加入评分过程。在Flickr[3]数据集上的实验表明,该方法相较于PAA方法在评估准确率上提升了约3%。
1 相关工作
1.1 注意力机制
注意力机制的本质在于让网络能够学会忽略无关信息而关注重点信息。从作用角度而言,注意力机制主要分为空间注意力和时间注意力两类,文中采用的是空间注意力非局部操作non_local模块。
图1 文中算法网络结构
1.2 残差网络
残差网络主要用于解决深层网络退化问题和梯度爆炸问题。一条主路径和跳层连接组成残差块,若干个残差块组成残差网络。
1.3 研究背景
近些年来,图像美学质量评估成为了一个研究热点。传统的美学质量评估方法一般是通过图像的对称性、三分法则和物体显著性等原则进行图像评估,这类方法往往需要大量的人工标定和专业化手工设计特征。Yan Ke等人[4]提出了一种评估方法,包含图片简洁性、清晰度、颜色、对比度和平均亮度(曝光度)等特征描述,实现了基于分类的美学质量评估。Datta等人在文献[5]中将底层特征(颜色、纹理、形状、图片大小等)和高层特征(景深、三分法则、区域对比度)结合起来作为图像美学特征,得到了较好的效果。Luo等人在文献[6]中提出将前景和背景进行分离,得到前-背景对比度特征,该方法最后采用的美学特征包括清晰度、对比度、亮度对比度、颜色的简洁性、和谐度和三分法则的符合程度等。其在DPChallenge数据集上进行了实验,具有93%的分类准确率。Wong等人[7]在Luo方法的基础上进行了改进,采用基于显著度的方法提取前景,还融合了Yan Ke[4]和Datta[5]等人提出的一些特征,丰富了特征内容,取得了较好的实验结果。Marchesotti等人[8]直接用尺度不变特征变换(SIFT)、Fisher变换和局部颜色描述来进行美学图像评估,其在MRSA数据集上的实验表明,该方法评估性能显著提升。
上述基于手工设计特征进行图像质量评估的方法,由于需要专业化手工设计特征,存在因手工设计特征不完备性造成评估效率低且鲁棒性不高等缺陷。为了改善传统方法的缺陷,许多学者提出了一些基于深度学习的图像质量评估方法。与传统手工特征提取方法不同的是,这类方法不使用手工设计特征,而是采用基于监督学习的神经网络模型来进行质量评估,从实验效果来看,与基于手工特征的方法相比,这类方法普遍提高了评估的准确度。Kong S等人[9]提出了一种基于深度卷积神经网络图像美学排名方法,该方法的评分模型中包含了图像属性和内容,可以预测1到5级美学的属性和等级。该方法在AVA[10]数据集上的实验取得了较好的分类效果。Talebi等人[11]提出了一种深度CNN模型(NIMA)用于图像美学质量评估。NIMA模型没有采用基于分类或者基于评分的美学量化指标,而是根据美学质量评估模型评估任意给定的图像的评分等级分布。NIMA给每幅图像在1到10的范围内每一个可能的分数的可能性都进行赋值,输出一个分数分布直方图。这种方法能更好地表达美学评分问题本身具有的模糊性,所以在某种程度上提高了图像美学质量评估的精确度,实验表明,该算法在公共数据集AVA上获得了良好的性能测试结果,在AVA数据集中的极端美学品质图像表现更优。
考虑到图像的整体布局和内容相关性,Liu D等人[12]认为图像中视觉元素之间存在相互依赖关系,将图像合成信息建模为其局部区域的相互依赖更为合理,所以应该将图像划分为局部区域的组合,并在这些区域上计算美学特征。基于这种思想,他们提出了一种基于组合感知的网络,该网络通过神经网络来学习视觉元素之间的相互依赖关系,在AVA数据集上的测试得到了较好的结果。
面对同一幅图像,不同的人可能会有不同的美学评价。图像美学质量评估往往带有大量的个人感情色彩,大部分美学质量评估方法一般是试图建立一个通用美学模型,没有考虑个人主观偏好。但是近年来个性化图像美学也逐渐受到学者们的关注[2,13]。Rodriguez-Pardo等人[2]采用一种基于卷积神经网络模型的方法对具有不同类型的用户特定偏好进行建模,并利用该模型PAA(personalized aesthetic assessment using residual adapters)进行个性化的美学质量评估。该模型使用了残差适配器对特定用户的偏好进行建模。残差网络的加入不仅在一定程度上解决了网络退化问题和梯度弥散问题,而且大大加快了网络的效率。在Flickr数据集[3]上的实验体现了该方法基本能够实现个性化美学质量评估的功能。J Ren等人[13]提出了一种主动学习算法,并使用一个由所有者评定的真实个性相册的小数据集来优化网络。J Ren提出的网络主要包括三部分:(1)通用美学模型;(2)图像属性特征网络;(3)图像内容属性网络。将(2)、(3)提出的图像特征进行融合,作为美学图像评估的偏置来调整网络,实验表明,该方法能有效的自主学习个性化偏好,且在定量比较方面优于现有方法。由于真实个性化数据集难以收集,文中最终决定在PAA网络基础上进行改进。
一幅图像在进行美学质量评估时,除了需要考虑到图像本身的属性特点和结构外,还需要考虑图像的主体内容对图像评估结果的影响,但大部分评估方法只从图像本身特征和整体布局进行评估,没有考虑到图像主体的突出性及其位置的合理性对美学质量评估的影响。一般来说,视觉显著性最高的区域或者显著物体对应着图像中最重要的内容,即图像主体内容,所以显著性分析也被用于美学质量评估。Tu Y和Niu L等人在文献[14]中使用一个全卷积网络来生成能同时感知照片构图和物体显著性的美学评分图,其模型在实验中展现出了较好的性能。但是,该方法在进行图像显著性分析时,只考虑到了视觉显著性最高的区域,而忽略了其他区域,导致评估结果不够全面。
综上,文中提出了一种基于注意力机制的个性化图像美学质量评估方法。该方法在个性化残差网络的基础之上加入注意力机制来进行显著性分析,按显著性的高低对图像区域分配对应权重,这样不仅考虑了图像主体的突出性(显著性),而且还保留了图像显著性低的区域的影响力,使得各个区域对评估结果影响更加合理。文中提出的方法既考虑了图像内容偏好(个人美学质量评估的主观偏好),又考虑到对图像构图的偏好(即主体的突出性),在Flickr数据集上实验表明,与Rodriguez-Pardo提出的PAA方法[2]相比,文中方法取得了更好的评估准确率。
2 基于注意力机制和个性化的网络模型
为了实现上述目标,文中对Rodriguez-Pardo提出的PAA方法[2]进行了扩展,提出一种基于注意力机制的个性化残差网络。算法模型中融入个性化模块和注意力模块。网络结构如图1所示。该网络以ResNet18为基线[15],除了在每个Basic block都加入个性化模块外,还在layer2和layer3之间,以及layer3和layer4之间加入了注意力模块。每个Basic Block的结构相同,如图2所示,均是在ResNet18原始Basic block模块中的基础模块Ci上加入了个性化(建模)模块。
图2 含个性化建模的Basic Block模块的结构
图3 注意力机制模块内部结构
文中用非局部操作non_local[16]模块实现注意力模块,其内部结构如图3所示。引入注意力机制主要是为了增强图像构图对最终美学质量评估的影响。考虑到深层网络主要包含图像高层语义信息,位置信息量较少,而最浅层网络图像信息较为驳杂稀疏,所以文中设置两个注意力模块,分别放置在较浅层卷积层(layer2和layer3)之后。注意力模块将输入特征信息进行分块处理,采用特征矩阵逐乘的方式,得到每个位置像素的权重,从而实现权重的重新分配,对图像评估影响较大的位置区域的像素分配较大的权重,影响力较小的位置分配较小的权重。经过该模块处理后的特征如图1中的热力图所示,经第二个注意力模块处理得到的热力图信息更为详细,主体信息更为明确。
在layer4后网络又经过三个全连接层和两个正则化层,在最后一层全连接层后输出归一化后的美学审美评分。其中穿插了随机丢弃(dropout)部分神经元的方法,在一定程度上降低了过拟合的几率。此外,文中在训练过程中将卷积与其紧接的批标准化(batch normalization)进行折叠封装。由于一般卷积后接BN层是没有偏差(bias)的,这样将两部分折叠,加快了前向传播的速度,也不会影响最终的实验结果。文中网络使用的损失函数是均方误差MSE,定义如下:
(1)
3 实 验
3.1 数据集
为了对图像进行美学质量评估,前人构造了许多美学质量评估数据集,包括FLICKR[3]、AVA[10]、CUHKPQ[17]等,这些数据集中的图片大多数来自于网络上的图像分享网站DPChallenge、Photo.Net等。文中使用Flickr数据集进行相关测试。Flickr数据集属于社交数据集,包含1亿+张图片,其中除了图像的评分外,还包含各个用户之间的关系和共属的兴趣小组等信息,在进行个性化建模前需要将数据集按用户进行整理,整理得出多个个性化数据集,每个个性化数据集包括某用户id、该用户评估的所有图像id及其评分分值。考虑到图像的大小可能并未统一规格,需对数据集进行统一处理,将图像缩放至256×256大小,然后对图像进行随机水平翻转,并将图像随机裁剪为网络模型输入大小224×224,然后进行正则化处理,随机裁剪和翻转增加了数据集的多样性,可有效避免过拟合。为了加快训练过程中数据集的读取速度以及防止数据集散列存放占用大量内存空间,将数据集处理好之后以TFRecord格式进行存储。TFRecord格式采用二进制编码,占用空间小(只占用一个内存块),加载数据集时,只需要一次性加载这个二进制文件即可,简单、快速。对Flickr这种大型数据进行训练时,可以将数据分成多个TFRecord文件,来提高处理效率。
3.2 网络结构和参数设置
另外考虑到图像评估阶段中个性化的问题,在图像特征提取阶段中加入了残差块,通过残差块保存少量的用户偏好信息,将瓶颈层(bottleneck)与残差块相融合,从而达到个性化评估的效果。
3.3 实验设计
文中使用torch在具有6 GB GPU内存的NVIDIA GeForce GTX 1060Ti上的Python环境中训练和测试该算法,使用Adam优化器来进行参数学习以及网络优化,Batchsize设置为30,epochs设置为200,总共迭代次数为22 200次。在Flickr数据集上进行实验,分别对残差块和注意力机制模块的有效性进行对比评估。Flickr数据集总共包含40 500幅图像,210个用户参与评分。文中选取37个用户作为测试集,共4 739幅图像,剩下的所有数据作为训练集。为保证实验过程中单一变量原则,所有实验中的学习率统一设置为0.1,并在每训练10轮epochs后降低90%。在训练开始时,使用较大的学习率能使得网络快速收敛,随着训练的进行,逐渐降低学习率有助于找到最优解。为了得到稳定的模型,并兼顾效率,文中选择三折交叉验证进行个性化的实现。以第i个用户为例,第i个用户的个性化数据集Di会在实验中依据三折交叉验证原则进行划分,分为训练集合和测试集合。
文中使用的美学质量评估指标为SRCC[18](Spearman等级相关系数)范围为[-1,1],定义如下:
(2)
3.4 实验结果与分析
对比实验在Flickr数据集上进行,文中与PAA(personalized aesthetics with residual adapters)网络进行实验对比,结果如表1所示。
表1 与PAA网络在Flickr数据集实验结果对比
由表1可以看出,在同一数据集Flickr上,PAA网络取得SRCC均值为0.631的结果。文中以ResNet18网络为基线网络,在该网络基础上融入了残差块并集成了注意力机制,并通过选取ResNet18预训练模型前四层权重对网络进行训练拟合,引入注意力机制增强了特征提取过程中提取特征的有效程度,相当于权重的重新分配。通过对图像评估影响较大的区域分配较大权重,从而提高了美学质量评估的准确度,同时文中网络相较于PAA,稳定性略有增加。
另外进行了消融实验,文中在Flickr数据集上依次验证了残差块和注意力机制对最终的美学质量评估的改进,对比实验结果如表2所示。
表2 在Flickr数据集消融实验结果对比
文中的基线网络使用的是ResNet18网络,使用ResNet18预训练模型对模型进行训练后,在AVA上展现的性能为SRCC均值为0.561。
在基线网络上加入残差块后,由于残差块用来学习用户的特定偏好,而Flickr数据集中用户量较大,每个人的偏好不尽相同,这就造成了虽然评估效果有了一定的改善,但是SRCC值波动依旧较大。另外考虑到图像构图本身(主体的位置、布局等)对图像质量评估有影响,为了在特征提取过程对美学质量评估影响较大的部分特殊关注,在基线网络上加入注意力机制模块,为这部分区域分配较大的权重,提高此区域对最终美学质量评估的影响力,以便提升结果的可信度。从在Flickr数据集上的表现来看,评估效果有了较大的提高。最终,文中在基线网络上融合了注意力机制和残差块,在Flickr数据集上取得了SRCC值为0.659的结果,通过SRCC(std)来看该模型有了比较稳定的表现。
由在Flickr数据集上的消融实验表明,残差块和注意力机制的引入在一定程度上改善了图像质量评估效果。
表3 与NIMA网络在AVA数据集上实验结果对比
另外文中网络模型在AVA数据集上也做了测试,虽然AVA数据集中缺乏用户与评估图像间的关联信息,文中网络无法发挥出其个性化优势,所以将文中算法作为通用美学评估方法和最流行的通用美学评估方法NIMA进行了对比(如表3所示)。从AVA数据集上的测试结果显示,文中方法取得了SRCC均值为0.637的结果,比AVA稍好。从网络评估的稳定性而言,文中网络在AVA数据集上的表现比NIMA网络在AVA数据集上的表现来说要稳定。整体上看,文中网络表现稍优于NIMA的网络。
综合以上两个实验对比,文中在基线网络ResNet18上融合注意力机制和残差块后,网络性能有了明显的改善。
4 结束语
文中提出了一种基于注意力机制和个性化的图像美学质量评估网络,该网络主要以ResNet18为基线网络,在其基础上进行改进,在每个layer层中融入了残差块,并在第二个layer层和第三个layer层后加入了注意力机制模块,每个layer层的输出都是经过当前层处理(包括残差块)后与当前layer层输入相加后的结果,这样能更好地保证特征提取的合理性。实验结果表明,模型在对图像进行质量评估时保留了个人偏好,对个人的审美有了较大的改善,其次注意力机制的引入使得图像评估指标有了较大提升,相比于现有方法,文中提出的模型性能稍强,仍有很大的改进空间。文中只是在基线网络ResNet18上做了简单的改进,可以考虑将基线网络替换为Inception网络或者是其他网络,ResNet18只是对最终的结果进行了激活,而Inception在每次卷积后都进行了激活,这样提高了神经网络对模型的表达能力,与此同时,Inception卷积后对通道数进行了叠加,提升了模型的拟合能力。另外可考虑扩充数据集,现有的数据集缺乏对个人偏好的整理,可自己去收集整理出有关个人偏好的数据集。