APP下载

基于多尺度特征提取网络的图像美学量化评分方法

2021-01-26王欣穆绍硕陈华锋

浙江大学学报(理学版) 2021年1期
关键词:概率密度视图特征提取

王欣,穆绍硕,陈华锋

(1.北京中盾安全技术开发公司,北京100044;2.浙江传媒学院媒体工程学院,浙江杭州310018)

0 引 言

移动互联网时代,图像与视频数据量呈爆发式增长,迫切需要能自动检索并推送高美学质量的图像或视频,因此,对图像进行美学质量客观评价和筛选已成为人机交互的重点,迫切需要研究一种高效的图像美学客观评价方法,目前图像美学分类已成为研究热点。传统方法通常用信噪比和结构相似度评价图像画质,因此,只能评估噪声、变形、清晰度等,无法评估具有情感色彩的视觉美学质量。随后,研究者通过手工提取的美学特征实现美感分类,如颜色直方图和边缘分布等[1-3],但其属于手工设计,无实质性突破,与人类视觉真实美感评估相差甚远。同时,图像美感较易受主观影响,仅靠几种特例显然无法做全面、可靠的评估,需另寻他法,神经网络成为有效解决此问题的方案。卷积神经网络(CNN)是各种神经网络中最强大的学习结构之一,已成为计算机视觉领域的研究热点[4-18]。AVA数据集[4]包含250 000个具有美学评级的图像和14 000个带有样式标签的子集,使得用深度学习方法自动学习美学特征成为可能。KARAYEV等[5]通过CNN网络提取特征,对图像风格进行了有效分类。王伟凝等[6]提出的并行深度卷积神经网络图像美学分类方法,可有效提取美学特征,实现美学二级标签分类。李素梅等[7]基于卷积神经网络模型,提出一种评价立体图像舒适度的方法。文献[13]利用全局和局部2个视角设计的CNN模型,可用于美学评估分类。DONG等[14-15]用分类器对手工和神经网络提取的特征进行分类,效果很好;LI等[16]提出了一种基于图像内容的嵌入微调卷积神经网络方法评价图像美学质量,解决了数据规模小的问题。LU等[18]提出了一种基于深度学习的图像美学快速评价系统,采用新的深度神经网络方法实现了特征的自动学习。

虽然上述方法取得了一定成果,但仍存在不足:(1)通常采用二分类标签(“好”或“坏”)等单一指标评估图像美学质量,无法区分同类标签图像的美感优劣,如文献[10-12,19-20];(2)CNN 要求输入的图像尺寸固定,文献[12,18,21-22]等对外部训练图像预处理较简单,只是简单地将其插值到固定尺寸,影响图像的美学特征分布。为解决以上问题,本文提出一种基于全局和局部特征的多输入源图像美学量化评价方法。在网络输入端,采用几种不同表示方法获取图像的全局视图和局部视图,并将其联合作为输入;在网络输出端,以EMD为新的损失函数,将1~10分的概率密度质量函数作为神经网络模型的输出,并以均值作为量化值。实验证明,本文方法具有可行性和有效性,图像美学的客观评分值与实际评分值十分接近,分类准确率也较一般方法高。

1 基于CNN的图像美学量化方法

基于CNN的图像美学量化方法步骤:(1)预处理外部图像,构建训练数据集;(2)构建高效的CNN网络模型;(3)利用训练数据集训练并优化网络参数;(4)利用训练好的模型对图像或视频进行美学量化评分。

针对现有算法对图像美学质量评价单一和预处理简单等问题,提出了一种改进的多尺度特征提取网络模型,网络结构如图1所示。首先,在输入端提取外部训练图像的全局视图和局部视图,并将两视图联合作为输入;其次,构建多尺度特征提取网络模型,通过组合1×1,3×3和5×5三种尺度的卷积核,使图像特征提取更充分。最后,在softmax层以EMD为损失函数,用1~10分的概率密度质量函数作为神经网络模型的输出,评价图像,并以均值作为精确评价值。

1.1 外部训练图像预处理

图1 算法的网络结构Fig.1 Network structure of the algorithm

将CNN应用于美学质量分类并非易事。因为CNN要求输入固定尺寸的图像,而每幅图像的尺寸是不同的,图像的长宽比、分辨率和细节等均会影响图像的美学等级,因此很难直接训练CNN网络;大多研究只是简单地将图像插值至CNN网络所需尺寸,如图2中g1所示,易造成图像美学特征发生变化,影响后续评估。如何对输入图像的全局视图和局部视图进行自动美学特征学习成为一大难题。为解决此问题,笔者提出将图像的全局视图和局部视图进行深度融合,并将融合图作为输入(s×s×15),如图 2所示,实验中,将CNN所需的固定尺寸s设置为224。本文数据集选自专业的图像美学数据集AVA库,每幅图像均由200个不同职业、不同年龄的人进行评分,评分值为1~10(最高美学评分为10分),每幅图像都用相应的美学评分直方图作为本文神经网络模型的标签,见图2(标签)。

图2 图像预处理过程Fig.2 Image preprocessing process

对于全局视图,为充分保持原始图像的美学特征并输入CNN固定尺寸图像,提出3种变换组合以形成全局视图。直接缩放(g1):将原始图像直接插值至固定尺寸(s×s×3);短边规格(g2):以原始图像的短边规格为固定长度s的倍数调整图像尺寸,并裁剪中心区域尺寸为s×s×3的图像;长边规格(g3):以原始图像的长边规格为固定长度s的倍数调整图像尺寸,并用零填充边界元素,以生成s×s×3尺寸的图像。

对于局部视图,获取全局视图需调整原始图像的尺寸,会导致部分高分辨率局部美学信息的丢失,因此,本文的局部视图由原始图像中随机裁剪的2组固定尺寸(s×s×3)图像块l1,l2组成。

1.2 网络结构

对图像或视频进行美学评估需要通过网络模型充分提取光影、亮度、构图、颜色等“美”学特征,因此,设计能充分提取美学特征的网络结构至关重要。网络由4层多尺度特征提取单元(如图3所示)组成。其中,网络单元由特征提取层、融合层和映射层组成,Conv表示卷积操作,ReLU表示非线性激活函数。针对美学特征,提出由1×1,3×3和5×5三种尺度的卷积核(步长皆为1)并列组成特征提取层,其具有不同的感受野,能提取不同尺度的特征,同时,5×5大卷积核能提取相关性不强的特征。融合层采用级联的方式将这些包含多尺度信息的特征图合并,重组为新的特征图;为降低维度和提高网络的泛化能力,增加了1×1卷积的特征映射层。

图3 多尺度特征提取单元Fig.3 Multi-scale feature extraction unit

1.3 损失函数

AVA数据集是图像美学分类训练集的重要来源,包括几十万幅社交图片,经不同行业、不同年龄的200多人对每幅图片进行主观美学评分,构建1~10分的概率密度函数P,并建立“0”差和“1”美2类标签。P为主观统计评分,具有广泛性和真实性,

其中,s1=1,s2=2,…,s10=10,表示分数级,psi表示相应分数级的概率,传统的神经网络softmax分类输出层通常用交叉熵函数执行等级分类任务,而图像美学评分的输出(1~10分)是有序的,交叉熵函数无法体现此类间关系,HOU等[16]提出可通过EMD函数实现基于类间有序的数据集训练,为此,选取图像的统计概率密度函数P为标签,在损失层选用EMD函数,训练后输出与P一致的概率密度质量函数,并将概率密度质量函数的均值μ和方差σ作为图像或视频的美学评价量化值,EMD函数为

EMD定义为实际的概率密度函数P与估计的概率密度质量函数P^的最小代价,累计分布函数质量评级排序为s1<s2<···<sN,其中,N=10。

2 实验与分析

为验证本文方法的性能,选用图像美学评价领域通用的AVA数据集进行测试实验。根据实验需要,选取AVA数据集中1~10分各分数段图像共2 000幅,用其中的10%作为测试集,在网络参数初始化阶段,采用ImageNet分类数据库初始化CNN架构网络参数,全连接层采用随机初始化,动量设置为0.9,网络训练学习率设置为0.001,迭代后期再逐渐减小学习率。

基于AVA数据集,所有对比实验均用相同的训练集和测试集。图4为本文方法对AVA数据集中测试集的部分处理结果,其中,每幅子图下方括号内的值为本文方法的结果,即概率密度质量函数的均值;括号外的值为AVA数据集中的评分。直方图是对应图像的概率密度质量函数,横坐标为分数,纵坐标为对应的概率密度,求均值便得到本文方法对图像美学的量化评分。由图4可知,本文方法得到的图像美学量化评分与AVA数据集评分十分接近,因此,本文方法是可行和有效的。

图4 图像美学量化评分结果Fig.4 Image aesthetics quantitative scoring results

本文方法给出了图像美学的量化评分,而LU等[15]、KONG 等[18]和 MAI等[14]经典的图像美学评价方法均无法给出量化评分。为方便与这些方法进行图像美学分类准确度比较,进行了图像美学分类实验,并将图像评分的测试结果分为2级,高于5分的为高美学图像,低于5分的为低美学图像。本文方法与3种常用的图像美学评价方法的对比结果如表1所示,由表1可知,本文方法的分类准确率高于其他3种方法。从评分误差均值看,本文方法在预测真实评分过程中的误差并不小,有待在以后的工作中做进一步研究和改进。

表1 不同方法的AVA测试集实验对比Table 1 Experimental comparison of different methods on AVA dataset

3 结 论

提出了一种基于多尺度特征提取网络的图像美学客观量化评分方法,用于解决图像美学质量评价单一和训练集预处理简单等问题。所用网络模型由多个多尺度特征提取单元级联组成,构造了训练图像的全局视图和局部视图,并将两视图联合作为输入,最后以EMD为损失函数,输出分布为1~10分的概率密度质量函数,并以均值作为图像美学的客观量化值。实验表明,本文方法能较好地对图像美学做量化评价,但所得结果与真实评分值存在一定差异,算法精度有待进一步提高。

猜你喜欢

概率密度视图特征提取
连续型随机变量函数的概率密度公式
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于GUI类氢离子中电子概率密度的可视化设计
基于Daubechies(dbN)的飞行器音频特征提取
男性卫生洁具冲水时间最优化讨论
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图