APP下载

基于深度特征和注意力机制的艺术图像情感分类研究

2022-05-11刘佳欣

智能计算机与应用 2022年2期
关键词:卷积准确率语义

杨 松, 刘佳欣, 吴 桐

(1 大连外国语大学 软件学院, 辽宁 大连 116044; 2 大连外国语大学 语言智能中心, 辽宁 大连 116044;3 网络空间大数据安全院级研究中心, 辽宁 大连 116044)

0 引 言

随着微博、微信、论坛等社交媒体的广泛使用,越来越多的用户喜欢以文本、图像及视频的形式分享信息、表达观点和宣泄情绪。 网络中的海量信息往往存在很多主观的感情色彩,基于文本的情感分析技术已在信息情感的把握中发挥了重要作用,而基于图像的情感分析技术仍有待深入的研究。 图像情感分类作为计算机视觉、模式识别、认知科学等多个学科的交叉技术,近年来受到国内外研究人员的广泛关注。 希望借助计算机技术研究和建立符合人类感知的情感映射机制,理解并准确分类图像中蕴含的高层情感语义。 目前在一些特定场景的图像情感分类研究已取得一些成果,例如人脸表情、自然风景、服饰面料等,而以艺术图像为目标的情感分类研究相对较少。 艺术图像作为艺术作品的重要组成部分,本身具有丰富的情感语义信息,能够通过颜色搭配、线条手法、纹理特征及抽象主体特写等方式向人们传递作品内在的情感,相对于文本情感,图像情感表现得更为抽象、理解的难度更大。 研究艺术图像的情感识别与分类,对艺术图像的鉴赏、保护等具有重要指导意义。

本文从情感角度出发,以艺术图像作为研究对象,通过深度学习来挖掘艺术作品带给欣赏者的情感变化,提出一种基于深层特征和注意力机制的艺术图像情感分类模型FeaturesNet,抽取艺术图像的CLAHE 颜色特征和Laplacian 纹理特征,与学习到的深度情感语义特征融合,弥补情感语义特征抽取的不足。 引入CBAM 注意力机制,在降低模型过拟合的同时提高对艺术图像情感分类的准确率,为基于深度学习的图像情感分类提供一定参考。

1 相关研究综述

近年来,国内外的一些学者在艺术图像情感分类领域取得了一些成果。 雷晶晶以木板套色版画为研究对象,提出基于SVM 算法和模糊聚类算法的图像情感分类模型,实验采用人工标注的数据集,由于数据集小导致情感分类的准确率不高;李博等提取颜色直方图、Itten 对比、二阶矩特征,验证加权K 近邻算法在Abstract 数据集上离散情感分布预测的有效性,但参数K 需要人工选取。 传统的机器学习算法在图像情感语义分类中的应用已达到瓶颈,深度学习模型被引入到图像情感语义分类领域,能够解决图像特征需要人为构造的问题,有利于缩小图像底层视觉特征和深层语义特征之间的“语义鸿沟”。

盛家川等将人类认知与CNN 模型结合,根据中国画显著性区域和笔道复杂度提取感兴趣区域,利用预训练的微调GoogLeNet 模型提取中国画的深层特征并进行可视化,结合中国画情感表达手法知识,调整模型结构,优化训练参数,提升中国画情感分类的准确率;盛家川等提出基于CNN 特征聚合重标定的中国画情感分类算法,重定向图像为正方形,在ResNet 模型上融合同一模块下各卷积层特征并反馈至卷积层输出,重新标定通道特征值并强化不同特征的激活强度。 将预测值作为权重,计算各类别激活映射,加权融合所有类别的激活定位,视觉解释情感区域特征,实现对中国画的情感特征可视化及情感分类任务。 白茹意等利用抽象画的基本元素与人类情感之间存在的关系,提取抽象画的底层视觉特征,采用迁移学习方法,将预训练模型的参数迁移至目标模型并对模型进行微调,提取抽象画的深层语义特征,最后将两者线性融合,利用SVM 方法实现抽象画的情感分类任务;王征等利用AlexNet 模型提取中国画的深层特征并与颜色特征融合,将得到的特征组合进行特征处理,使用SVM 分类器进行情感分类;张浩等为深入分析云南少数民族绘画作品所蕴含的情感,微调预训练VGG16 模型,将该模型应用于Twitter 数据集中训练,以提升模型学习能力,采用不同方法分别对绘画作品进行数据增强,输入训练好的微调模型中,比较各方法以及组合处理方法对民族绘画作品的情感分类结果,以达到情感分类的最优状态。

深度卷积神经网络属于有监督学习方法,分类效果依赖于大量样本数据的训练,通过模型训练提取图像深度特征并与传统的图像底层特征融合,可以给模型性能带来一定的改善。 同时,图像情感的极性仅与图像特定的区域有关,而其他区域对分类的影响极小,通过在深度学习中引入视觉注意力机制,使模型更加关注那些影响图像情感分类结果的关键区域。 此外,随着模型层数逐渐加深,训练过程容易造成图像细节信息的丢失,改进模型结构仍存在着巨大的提升空间。 图像情感分类可以在图像深度特征融合、注意力机制引入、模型结构改进等方面开展深入研究,提升图像情感分类的准确率和效率,同时降低模型的过拟合度。

2 艺术图像的特征提取

2.1 CLAHE 颜色特征

颜色特征是图像最基本的底层视觉特征,是图像中关键与敏感的视觉信息。 在心理学的相关研究中,有学者认为颜色是表达情感的普遍方式,具有艺术性、鲜明性、联想性、独特性、合适性及唤醒性等特点。积极情感的图像整体色彩较为鲜艳明亮,消极情感的图像颜色则暗淡压抑。 在研究图像底层颜色特征时,大部分学者习惯采用颜色直方图表达颜色特征,可直观看出图像像素的分布情况。 在同一数据集中,图像的像素分布存在较大差异,针对像素分布不均匀的图像,部分区域与整体图像相比较为明亮或光线较暗,因此采用普通颜色直方图均衡进行全局图像增强,效果不太理想。 自适应直方图均衡(AHE)与颜色直方图相比,优势在于该方法通过计算图像每一处显著区域的直方图,重新调节图像亮度值,进行均匀分布,以改善图像每个区域的局部对比度,增强图像边缘的清晰度,但该方法容易导致图像产生噪声,进而产生图像过度增强的现象。 限制对比度自适应直方图均衡(CLAHE)与AHE 相比,通过对每一像素邻域的对比度限制,得到对应的变换函数,可有效抑制图像噪声。与原图像相比,经CLAHE 方法处理后的图像细节更为突出,特征更加丰富,颜色直方图较原图像相比也更为平滑,如图1 所示。

图1 CLAHE 颜色特征可视化图Fig.1 Figure of CLAHE color feature visualization

经过CLAHE 算法处理后的颜色特征输入到两个卷积层、两个最大池化层、一个全连接层、3 个BN层和3 个激活层的网络中。 其中,卷积核大小为3×3,64,2,1;最大池化层均为22,2;全连接层神经元为1 000个;激活层使用激活函数;卷积层和全连接层后均连接BN 层,用于防止模型过拟合。 将该网络模型命名为ColorNet,输出结果即为图像的颜色特征,记为,CLAHE 颜色特征提取过程,如图2 所示。

图2 CLAHE 颜色特征提取过程Fig.2 Extraction process of CLAHE color features

2.2 Laplacian 纹理特征

通常物体的表面都具有纹理特征,包含了对比度和空间频率等因素,其目的是描述图像相邻像素之间灰度空间的分遍历情况。 图像纹理特征同属于图像底层特征,虽然视觉效果没有颜色特征更直观,但不同的纹理特征同样能够对人类的情感产生影响。 拉普拉斯算子(Laplacian)是图像邻域内像素灰度差分计算的基础,利用二阶微分运算推导出的一种图像邻域增强算法,可用于描述图像区域的变化速度。 其基本思想是当邻域的中心像素灰度低于其所在邻域内的其他像素的平均灰度时,中心像素的灰度应该进一步降低;反之进一步提高中心像素的灰度,进而实现图像锐化处理。 与一阶微分运算相比,拉普拉斯算子边缘定位能力更强,获取的边界信息更加细致。 因此,利用拉普拉斯算子对图像进行锐化边缘检测、提取图像纹理特征有助于图像分类、目标检测识别、图像分割等任务。 二维图像拉普拉斯算子公式(1):

其离散化形式可表示为式(2):

Laplacian 算子对噪声很敏感,为了获取较好的纹理,突出边缘特征信息,使用高斯滤波对图像进行降噪处理。 本文提取图像纹理特征具体步骤为:

(1)利用高斯滤波去除图像噪声;

(2)将降噪后的图像转为灰度图像;

(3)使用Laplacian 算子提取处理后的灰度图像的边缘特征;

(4)将处理后的灰度图像与边缘特征图像融合。

经Laplacian 算子等处理后得到的纹理特征输入两个卷积层、两个最大池化层、一个全连接层、3个BN 层和3 个激活层的网络中。 其中,卷积核为3×3,64,2,1;最大池化层均为22,2;全连接层神经元为1 000个;3个激活层使用函数;卷积层和全连接层后均连接BN 层,防止过拟合。 将该网络模型命名为LapNet,输出结果即为图像的纹理特征,记为,Laplacian 纹理特征的提取过程,如图3 所示。

图3 Laplacian 纹理特征提取过程Fig.3 Extraction process of texture features

2.3 深度语义特征

在图像深度语义特征提取的过程中,采用ResNet101 与CBAM 注意力机制融合的网络模型对数据集进行训练,在不改变ResNet101 模型原结构的前提下,将通道注意力机制和空间注意力机制融入ResNet101 模型的第一层卷积层和最后一层卷积层中,集中关注图像主体区域和局部区域的特征信息,充分挖掘艺术图像的整体特征和细节特征,使模型训练和测试的准确率较传统卷积神经网络模型有所提升。 将该融合模型所提取的图像深层情感语义特征记为,在ResNet101 与CBAM 注意力机制融合模型中输入特征图后,模型不同层所提取到的特征可视化效果图如图4 所示。 由此可见,随着融合网络模型层数的不断加深,肉眼可见的可视化效果逐渐模糊,图像深层特征变得更加抽象。

图4 不同层深层特征可视化图Fig.4 Visualization map of deep features in different layers

2.4 特征融合输入

将上述提取到的 CLAHE 颜色特征、Laplacian 纹理特征和CBAM 深层语义特征利用() 函数并按照维数1(列)进行拼接融合,整体输入到含有两个全连接层、两个BN 层、一个激活层的网络中,将该卷积神经网络模型命名为FeaturesNet,其结构如图5 所示。

图5 FeaturesNet 网络模型结构Fig.5 Network model structure of FeaturesNet

3 情感分类模型

3.1 ResNet

2015 年,微软团队提出了ResNet 模型,模型结构较其他CNN 模型更深,整体性能也有所提高。 该模型的基本残差模块由短路连接路径和残差路径组成,通过引入网络前层与网络后层的短路连接路径加深模型的网络深度,有助于训练过程中梯度的反向传播,解决其他模型容易引发的梯度消失问题,提升深层次模型的网络性能。 残差路径结构包括卷积层、BN 层和ReLU 激活层,在连续两层卷积层中,将输入特征与卷积层输出特征合并,导致输出结果由原来两层输出() 变成()。 基于短路连接路径部分没有引进其他参数增加计算复杂度,因此即使增加模型层数,也能加快模型的训练速度,提升模型的训练效果。 ResNet 模型共有5 种网络结构,其中ResNet101 为残差神经网路中最常见的模型,其短路连接路径中共有3 个卷积层,分别为两层1×1 卷积层和一层3×3 卷积层,通过这3 层卷积层之间的短路连接路径加深各网络结构。

3.2 注意力机制

在计算机视觉领域中,注意力机制(Attention)与人类视觉机制十分相似,将关注焦点聚焦在图像局部显著区域位置。 早期研究中,L Itti 等受灵长类生物的视觉系统启发,提出视觉注意力机制模型,构建并融合颜色、方向和亮度特征图,最终提取复杂场景图像的显著区域位置。 随着深度学习的普及,将注意力机制与卷积神经网络结合,通过快速扫描数据集,判定主要特征区域,并将注意力集中分布在感兴趣区域或重要信息特征位置,忽略非感兴趣区域及无关信息,可更快、更准确地获取数据集的主要特征信息,提升网络模型工作效率。 CBAM 注意力机制是由Sanghyun Woo 等人于2018 年提出的,其本质是前馈卷积神经网络,由通道注意力机制( ChannelAttention ) 和 空 间 注 意 力 机 制(SpatialAttention)混合组成。 其工作原理是首先向模型中输入一张特征图,CBAM 注意力机制依次通过通道和空间两个维度提取特征图对应的注意力特征图;将注意力特征图与输入特征相乘得到自适应优化特征。 在通道注意力机制和空间注意力机制模块内均包含池化操作,利用平均值池化和最大值池化对图像全局区域和局部区域给予关注,同时保留特征图细节处的语义信息。 考虑到CBAM注意力机制具有轻量性和通用性的特点,本文将CBAM 注意力机制与ResNet101 卷积神经网络模型结合,通过端到端的训练,提升传统卷积神经网络模型的性能。

3.3 算法流程

将实验整体网络模型命名为FeaturesNet,输入的图像大小为224×224×3。 由于处理CLAHE 颜色特征和Laplacian 纹理特征均在OpenCV 库中进行,因此要将向量转换为numpy 数组形式,再分别进行底层特征处理;将CLAHE 颜色特征和Laplacian 纹理特征再转回向量形式,分别输入ColorNet 和LapNet 网络中,进一步提取图像底层特征,ColorNet 输出的特征记为, LapNet 输出的特征记为,图像数据输入ResNet101 与CBAM 融合网络模型中得到的深层语义特征记为; 最后,将得到的图像底层特征和深层情感语义特征融合,输入ClassNet 网络中,进而对艺术图像进行情感语义分类。

4 实验结果与分析

4.1 实验环境

本文实验环境:处理器为Intel i5-8279U,主频2.40 GHZ,实验基于Python 3.7 的深度学习框架Pytorch,开发工具为PyCharm,使用Linux 操作系统,GPU 进行训练,GPU 为NVIDIA Tesla V100-SXM2-16 GB,显存总量为16 160 MiB。

4.2 实验数据集的构建

缺少图像情感数据会导致卷积神经网络模型训练的不充分或模型易出现过拟合的问题。 实验使用Machajdik 等在2010 年所创建ArtPhoto 和Abstract两个公开数据集,其中ArtPhoto 数据集由806 幅艺术图像及情感标签组成,Abstract 数据集包含280 张艺术抽象画。 由于ArtPhoto 和Abstract 数据集情感标签完全相同,积极类情感和消极类情感数据集划分方式一致,通过对积极类情感和消极类情感的标签进行投票统计,将得票数高的标签作为图像的最终情感类别,若积极类情感和消极类情感求和票数相同,则剔除该图像。 经情感标签重新划分后,最终将ArtPhoto 数据集和Abstract 数据集合并作为本文实验的数据集,其中Positive 类共540 张图像,Negative 类共538 张图像。 数据集各标签的示例图像如图6 所示。

图6 图像情感数据集示例图像Fig.6 The schematic figures of image sentiment dataset

由于原数据集大多数图像格式是通道数为3 的RGB 格式图像,其中也存在少数通道数为1 的灰度图像,为方便后续实验的展开,在数据预处理阶段统一将图像转为RGB 格式。

情感语义信息的主观性和复杂性导致带有情感语义标签的图像数据集较少,而利用深度学习方法训练模型的本质是在海量数据集中学习深层次图像特征,进而获取图像情感语义信息,因此在数据集预处理阶段,还需对其进行数据增强操作。 具体操作包括对数据集中各图像翻转及旋转操作,数据集的增强示例图像如图7 所示。 对数据增强后的数据集进行人工筛选,最终形成各情感标签均为1 920张实验数据集。

图7 数据增强示例图Fig.7 The schematic figures of data enhancement

4.3 实验评价指标

实验评价指标为图像情感分类准确率,采用K折交叉验证方法,因此准确率最终为经K 折交叉验证后测试集的平均准确率。将标准差() 和(Area Under Curve)作为实验补充评价指标,通过记录每折测试集的准确率,计算测试集准确率集合的离散程度,得 出模型值,而值域为[0,1],模型值越大,证明模型分类的准确率越高。

4.4 实验结果分析

在训练过程中,设置迭代次数为20,学习率为0.01, BatchSize 为64, 采 用SGD 优 化 器, 选 择损失函数,动量梯度下降参数设为0.9,使用5 折交叉验证方法。 为验证本文模型对艺术图像情感识别的效果,选择经典卷积神经网络模型ResNet50、ResNet101、ResNet101 与CBAM融合算法及李志义提出改进VGGNet 模型、Satoshi Iizuka 提出的ColorNet 中ClassificationNet以及本文提出的特征融合模型进行比较,分析各模型对情感识别准确率变化的情况,5 折交叉验证后测试集的平均准确率见表1。 由表1 可知,以ResNet101 与CBAM 融合特征作为主干特征,分别用、和3 组特征组合逐一对数据集进行训练,所得的准确率较经典卷积神经网络模型及改进模型相比均有所提升,本文所提出的基于图像底层特征和深层情感语义特征融合的FeaturesNet 模型准确率可达93.36%,较ResNet50提 升 10.31%, 较 ResNet101 提 升 9.01%, 较ResNet101 与CBAM 融合模型即特征提升6.98%;与改进模型VGGNet 相比提升16.59%;与ClassificationNet 相比提升5.31%。 从实验结果也可以看出,与的特征组合所得准确率同比与的特征组合高033。 同时,和模型所对应的标准差较其他模型标准差也较低,的值趋近于1,说明在测试集上本文模型的准确率表现稳定,波动较小。在各模型的5 折交叉验证中,选取在训练集上预测结果最好的一折,绘制该折训练全过程的准确率及损失值变化情况,各模型的准确率随迭代次数变化的折线对比图如图8 所示,各模型随迭代次数变化的损失情况如图9 所示,横坐标代表迭代次数,纵坐标分别代表准确率和损失值。 由模型在训练集的表现情况可以得出,特征组合模型、和与经典卷积神经网络模型和他人改进模型相比,收敛速度更快,当4 时,FeaturesNet 模型的损失值从4 降至05 以下;当6 时,FeaturesNet 模型的损失值已经趋近于0,准确率能够达到100。

表1 不同模型的准确率对比Tab.1 Accuracy comparison with different models

图8 不同模型的准确率变化折线图Fig.8 Line chart of accuracy changes of different models

图9 不同模型的损失值变化折线图Fig.9 Line chart of loss value changes of different models

综上,将图像的深度特征与传统特征融合作为艺术图像情感分类模型的输入,能够充分发挥两者对情感分类的重要作用,同时引入基于CBAM 的注意力机制,使模型的关注点更集中在图像的重点区域,即决定图像情感倾向的区域,从而能够快速有效地提升艺术图像的情感语义分类的准确率。

5 结束语

本文提出一种基于深度特征和注意力机制的卷积神经网络模型FeaturesNet,将艺术图像的传统底层视觉特征与深层特征相结合,从多角度提取容易激发情感反应的艺术图像特征,可有效解决模型层数的加深带来细节特征丢失的问题,同时引入CBAM 注意力机制使模型更关注图像中决定情感倾向的重要区域,从而提升艺术图像情感分类的准确率。 实验结果表明,该模型对艺术图像情感分类的准确率可达到93.36%,证明其对艺术图像情感分类的有效性,为艺术图像的鉴赏与保护工作提供参考。

猜你喜欢

卷积准确率语义
基于全卷积神经网络的猪背膘厚快速准确测定
韩国语“容入-离析”关系表达及认知语义解释
基于图像处理与卷积神经网络的零件识别
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于深度卷积网络与空洞卷积融合的人群计数
卷积神经网络概述