图像美学质量评价综述
2022-10-11李业丽陆利坤
张 艳, 董 武, 李 桐, 李业丽, 陆利坤
(北京印刷学院信息工程学院,北京 102600)
随着当今科技的发展,可用于拍摄的设备越来越丰富,不仅限于相机、摄影机,因此互联网中出现了海量的图片。 随着社会的发展,人们越来越重视美,因此计算机能够自动判断和推荐给用户美学质量高的图像是非常有必要的。
对于图像美学质量评价的研究最早是2004 年微软亚洲研究院与清华大学联合进行的一项研究,用于使计算机自动区分普通用户和专业摄影师拍摄的图像。 目前,图像美学质量评价已初步应用于企业,比如,自 2016 年起,每年淘宝 “双11” 活动 “鲁班系统” 自动设计出几亿幅商品海报[1], “鲁班系统” 算法对设计出的图像进行美学评估,将美学质量最高的图像作为商品的海报;还有一些视频网站利用图像美学质量评价技术提取出一帧美学质量高的图像作为对应视频的封面,以吸引用户眼球,提高点击率等。 随着技术的提升,相信图像美学质量评价技术会发挥越来越重要的作用。
图像美学质量评价的发展主要分为两个阶段,第一阶段主要是基于手工设计美学特征的研究,第二阶段为基于深度学习的研究。
1 图像美学质量评价数据集
图像美学质量评价常用的数据集有Aesthetic Visual Analysis(AVA)数据集、Aesthetics and Attributes DataBase(AADB) 数据集和 CUHK-Photo Qua-lity(CUHK-PQ)数据集。
AVA 数据集是2012 年公布的用于美学视觉分析的大型数据库,包含25 万多张图像[2],每张图像对应三种标注:语义标注、风格标注和美学评分标注。
表1 为AVA 数据集中一张图像的标注实例。表1 中第一列为索引值,第二列为图像ID,根据图像ID 可以下载图像。 第三列至第十二列为人工美学评分,评分标准为1-10 分共十个等级。 实例中表示评1 分的有0 人,评 2 分的有 1 人,评3 分的有 5 人,评 4 分的有 17 人,评 5 分的有 38 人,评 6分的有 36 人,评 7 分的有 15 人,评 8 分的有 6 人,评9 分的有5 人,评10 分的有1 人。 第十三列至十四列为语义标注ID。 AVA 数据集的语义标注ID 有66 个,范围从1-66,分别代表广告、动物、建筑、天文、鸟、黑白、城市等。 每个图像都有0 到2个语义标注ID。
表1 AVA 标注实例
AADB 数据集是2016 年美国加州大学公布的图像美学数据库,包含1 万张图像。 每张图像有一个美学得分标注以及11 个属性标注。 11 个属性标注包含平衡标注、趣味标注、颜色和谐性标注、景深标注、光照标注、运动模糊标注、主体标注、三分标注、颜色鲜明标注、重复标注和对称标注。
CUHK-PQ 数据集是香港中文大学公布的图像美学数据库,包含17690 张图像。 每张图像包含一个美学等级标注。 CUHK-PQ 数据集中共有两种美学等级标注,即0 和1,0 代表图片美学质量低,1 代表图片美学质量高。 CUHK-PQ 数据集把图像分为8 个场景类别,即动物、植物、静态、建筑、风景、人、夜和其他。
2 基于手工设计美学特征的图像美学质量评价
基于手工设计美学特征的图像美学质量评价方法首先利用数学表达式对图像的美学特征进行量化,然后利用量化后的美学特征和机器学习方法对图像进行美学质量的分类。 常用的机器学习方法有贝叶斯分类、支持向量机等。
初期研究者根据图像的构图规则、景深、虚实、色彩度、趣味性等摄影规则提取美学特征,之后利用机器学习方法对图像的美学质量进行评价。
Yan 等人[3]提出用图片简洁性、虚化、颜色分布、对比度、平均亮度等特征来衡量图像的美学质量。 在文献[3]中,使用图像的边缘分布衡量图像的简洁性,使用图像颜色分布区别专业摄影师与业余摄影师拍摄图像的调色差异,并使用对比度、平均亮度衡量图像的明亮度。 实验表明,利用以上美学特征,可以有效区分出专业摄影师与业余摄影师拍摄的图像,提高了图像美学质量评价的准确率。
Datta 等人[4]使用更全面的56 种特征衡量图像美学质量,包括颜色、纹理、形状、图片大小、景深、三分法则、区域对比度等,进一步提高了图像美学质量评价的准确率。
李恒达[5]提出以全局构图特征与局部构图特征作为图像的美学特征。 全局构图特征是以图像中心为基准,计算图像中各主体目标的面积、距图像中心的距离和角度;局部构图特征是计算各主体目标之间的角度、距离和重叠距离。
2010 年,金鑫等人[6]提出 “基于内容的图像美学质量评价” 概念,认为对不同内容的图像进行美学质量评价,方法应该有所不同。 汤晓鸥等人[7]提出根据图像内容的不同将图像划分为7 个类别(风景、植物、动物、夜景、人物、静像、建筑),不同的类别设计不同的提取特征方式,并使用支持向量机进行分类。
基于手工设计美学特征的方法虽然在一定程度上提高了图像美学质量评价的准确率,但是这种方法需要研究者掌握大量的美学和摄影知识,而且手工设计的特征不能全面覆盖美学、摄影规则的各个方面,因此基于手工设计美学特征方法具有一定的局限性。
3 基于深度学习的图像美学质量评价
2012 年,AlexNet 获得了 ImageNet 大规模图像分类竞赛的冠军,从此更多的研究者运用卷积神经网络解决图像方面的问题。 研究者找到了不依赖图像摄影规则的研究方法,深度学习强大的提取特征能力以及依据特征的决策能力极大促进了图像美学质量评价研究的发展,从此图像美学质量评价的研究全面进入基于深度学习的时代。
基于深度学习的图像美学质量评价主要在卷积神经网络(CNN)的基础上进行研究。 CNN主要由输入层、卷积层、池化层、全连接层、输出层等结构组成,具有强大的特征提取和特征映射能力。
近几年,基于深度学习的图像美学质量评价方法的研究主要包含卷积神经网络模型的构建和基于神经网络的多任务联合研究。
3.1 卷积神经网络模型的构建
张小威[8]提出了一种基于迁移学习的图像美学质量评价方法,即利用已经训练好的网络模型作为基准网络,再利用相关数据集微调网络参数,进一步达到能对不同美学质量的图像进行分类的目的。 作者对主流的 Caffe-Net、Alex-Net 和 Vgg-Net进行了实验,实验结果表明,和随机初始化神经网络参数方法相比,基于迁移学习的图像美学质量评价方法有更好的性能,实验结果如表2 所示。 这种方法的缺点是评价精度可能会因为数据集的不同产生变化。
表 2 以 Caffe-Net、A lex-Net、Vgg-Net 为基准的基于迁移学习方法性能的比较
为了避免出现基于迁移学习的图像美学质量评价方法产生的评价精度数据不稳定现象,研究者采用随机初始化网络参数的方法,即通过图像数据集去训练参数随机设置的网络模型,通过训练调整网络参数,从而得到想要的网络模型。 但是卷积神经网络用于图像处理时存在一个弊端,即卷积神经网络要求输入的同一批图像是一个固定尺寸,因此要对图像进行预处理,如缩放或裁剪,但这样的处理会对图像的美学质量产生严重损失。 为解决这样的问题,房慧弟在文献[9]中提出全卷积神经网络(FCN),FCN 将传统CNN 的全连接层变换为卷积层,因为全连接层的参数矩阵是固定的,与特征矩阵进行内积时要求特征矩阵也是固定的,所以要求CNN 输入图像的大小是固定的。 FCN 去除了全连接层,实现了能够把任意大小的图像输入到网络模型。
李恒达在文献[5]中提出了一种基于语义信息的双通道卷积网络(SDCNN)图像美学质量评价方法。 该方法在Alex-Net 的基础上提出双通道网络模型,一个通道提取图像局部特征与全局特征,另一个通道提取基于语义信息的图像特征,从而提高图像美学质量评价的准确率,该网络的网络结构如图1 所示。
图1 SDCNN 网络结构图
SDCNN 与单通道卷积网络(SCNN)、双通道卷积网络(DCNN)的性能比较如表3 所示。 由表3可以看出,SDCNN 在不同语义下准确率有所提升,总体准确率也有所提升。
表3 SDCNN 与SCNN、DCNN 在图像不同语义下的比较
孟宣彤[10]认为卷积神经网络提取出的底层与中层特征与图像美学质量高度相关,因此提出了多层聚合网络(MLAN)。 该网络模型以Mobile-Net、VGG16 和Inception-V3 为基准,从中抽取底层、中层和高层特征,然后进行融合,从而实现对图像的美学质量进行评价,实验结果如表4 所示,和原Mobile-Net、VGG16 与 Inception-V3 模型相比,MLAN 准确率都有所提升。
表 4 以 M obile-Net、Vgg-Net、Inception-V 3为基准的M LAN 的精度
刘祥飞[11]提出基于多分支特征融合网络(MBFNet)的图像美学质量评价方法。 该方法使用三个ResNet50 作为网络分支,对同一幅图像从不同角度进行特征提取,之后将不同网络分支提取的特征用特征融合模块进行融合,形成融合特征,依据融合特征得到图像的美学质量评价分数,MBFNet 的网络结构如图2 所示。
图2 MBFNet 网络结构图
3.2 图像美学质量评价与图像描述的多任务联合研究
吕莎莎[12]在VGG-19 模型的基础上引入残差网络思想,同时引入空间注意力机制、通道注意力机制,提出Deep Image Aesthetic Reviewer(DIAReviewer)模型,该模型实现将美学质量评价与图像描述两个任务结合起来,DIAReviewer 的网络结构如图3 所示。
图3 DIAReviewer 网络结构图
3.3 图像美学质量评价与图像情感分析的联合研究
余俊[13]对ResNet50 神经网络的结构进行改进,提出美学-情感多任务学习卷积神经网络(AENet)。 AENet 可以同时得到该图像对应的美学质量评价结果与情感信息识别结果,实现了图像美学质量评价任务与图像情感信息识别任务相结合的目的。 AENet 由美学感知网络分支、共享感知网络分支、情感感知网络分支三路分支组成,三路分支实现对图像特征的提取,之后再用特征融合单元进行融合处理,形成新的特征图,最后经过决策输出结果,AENet 的网络结构如图4 所示。
图4 AENet 网络结构图
实验结果表明,加入情感分析的美学质量评价,图像的美感准确率更高,实验结果如表5 所示。
表5 AENet 与各方法之间的准确率比较
4 评价指标与误差度量
图像美学质量评价用准确率(Acc)这一指标度量模型的有效性,用均方误差(Mse)、平均绝对误差(Mae)、中位数绝对误差(Med)来度量评价的误差率。
4.1 评价指标
图像美学质量评价的准确率是以人工的美学质量高低分类为标准结果,模型预测分类正确个数占总评价图像个数的比例,其公式为:
其中,Ncor 为模型预测分类正确的个数,Ntol为总的评价图像个数。
4.2 误差度量
均方误差是模型预测评分与人工美学质量评分之间差值的平方,其公式为:
其中,Ntol 为总的评价图像个数,pi为模型预测评分,gi为人工的美学质量评分。
平均绝对误差是模型预测评分与人工美学质量评分之间差值的绝对值,其公式为:
其中,Ntol 为总的评价图像个数,pi为模型预测评分,gi为人工的美学质量评分。
中位数绝对误差是所有训练图像模型预测评分与人工美学质量评分之间差值绝对值排序后的中位数,其公式为:
其中,Ntol 为总的评价图像个数,pi为模型预测评分,gi为人工的美学质量评分。
5 总结与展望
图像美学质量评价是当前研究的热点课题之一,目前主要的研究方法是基于深度学习进行特征提取与评价。 图像美学质量评价结合交叉学科的研究,如图像美学质量评价与图像情感分析的联合研究在一定程度上也提高了图像美学质量评价的准确率。
图像美学质量评价受主观因素影响较大,这无疑加大了研究难度,因此图像美学质量评价还有一定的挑战空间,可以进一步研究图像美学质量评价模型的准确率和泛化能力。