APP下载

一种基于注意力机制的文物图像显著性检测方法

2023-03-15雷雨晴

大连民族大学学报 2023年1期
关键词:卷积文物像素

雷雨晴,杨 楠,冉 勇,闫 宇

(1.大连民族大学 a.计算机科学与工程学院;b.大连市汉字计算机字库设计技术创新中心, 辽宁 大连 116650;2.德江傩堂戏博物馆,贵州 铜仁 565200)

视觉显著性检测是通过模拟人类视觉来提取图像显著区域的算法,在图像重定位、图像自动裁剪、图像压缩和目标识别领域具有重要的应用。1998年Itti等从视觉心理学对人类自下而上的视觉选择性注意过程进行研究并提出了显著性检测模型[1]。显著性目标检测方法可分为传统显著性检测方法和基于深度学习的显著性检测方法。传统显著性检测方法研究中,Liu等提出将显著性检测定义为二元分割问题[2], Zhang L等利用背景和前景区分,进而构建图层排序的显著性检测方法[3], Hou X等通过观察图片背景的特征分布和属性,通过剔除图像背景信息得到显著区域[4]。深度学习的显著性方法研究中又分为传统的卷积神经网络方法和完全卷积神经网络方法。传统的卷积神经网络方法中,Wang L等提出了一种结合局部估计和全局搜索的显著性检测算法[5],Li G等将嵌套窗口中提取的多尺度CNN特征与具有多个完全连接层的深度神经网络结合将图像分为三个区域再对他们进行特征提取而后进行整和[6]。完全卷积神经网络中,Wu R等提出以VGG16作为基础网络附加互学习模块、边缘模块和解码模块的模型[7],Wang W等通过完整的迭代前馈和反馈策略扩展深度显著性目标检测(Salient Object Detection,SOD)模型,使其足够通用和灵活,涵盖大多数其他基于全卷积网络(Fully Convolutional Network,FCN)的显著性模型[8], Liu J J等人基于U形结构的模型[9]。

显著性检测在文物图像缩略图生成时具有重要作用。在文物系统展示中需要对大量的文物图像进行剪切显著性区域,这些需要大量人工进行。本文通过分析文物图像的背景属性和规律,提出了一种基于注意力机制的文物图像显著性检测方法。

自2014年以来,深度学习在显著性检测方向以其优异的性能,证明了其在显著性检测方向的可行性。然而,深层网络在面对如书画类文物图像这样图像特征多样化的情况下,现有的深度学习方法很难区分对象边界和周围相似区域域的像素,因此深层网络可能会输出高度模糊且边界不准确的显著图。2017年pinghu等提出了一个深层次的“层次集”(Deep Level Sets)网络来生成紧凑而统一的显著性图,即DLS[10]。DLS模型主要包括基于CNN的VGG16网络、超像素过滤(GSF)层和重量函数(HF)三个部分。首先原始图像通过基于CNN的VGG16网络,并输出全分辨率的粗略显著图像,于此同时对原始图像使用gSLICr进行超像素分割,统一输入到超像素过滤层,最后使用重量函数将GSF层的输出转换为最终显著图。但作用于文物图像时会存在不足。

(1)当文物图像较为复杂,前景背景差异较小的情况下,基于CNN的VGG16网络处理得到的粗略显著图会过于模糊,即使经过与超像素结果优化,得到的效果依旧不好。

(2)文物图像中会存在如图1a这类图像,图像边缘会有边框将其部分突出,但对于网络模型来说只能得出如图1b的结果。

a)边缘突出类图像 b)预测结果 图1 边缘突出类图像及其预测结果

2 本文方法

2.1 DLS模型

针对上文提到的问题,在DLS的基础上对其进行修改。

(1)基于CNN的VGG16网络部分。首先使用膨胀的卷积层替换了最后三个Max-pooling层,并最后一个完全连接的层更改为卷积层和Sigmoid层,以便网络获取RGB图像224×224。作为输入并产生56×56。最后,添加没有学习参数的上采样层,以将图像缩放到全分辨率。

由于后续算法中使用了水平集的方法,因此将卷积神经网络输出的显著性值线性的转移至[-0.5,0.5]并将其视为水平集。

(2)超像素过滤(GSF)层部分。在CNN网络运算的过程中,利用gSLICr将图像分割为400×500个超像素,而后将其与CNN网络产生后转换为的水平集一同输入GSF超像素过滤层。

(3)重量函数(HF)部分。由于如果使用简单的Heaviside函数作用于零水平集,会陷入局部最小值。为解决这种问题,采用了文献中提出的近似重载函数(AHF),该函数作用于所有的水平曲线并趋向于寻找一个全局最小化器,最终即可得到最终显著图。

其次设定阈值,在最终图像输出后对其进行判断,如大于阈值则在处理后重新输入网络。修改后网络模型如图2。

图2 基于注意力机制的DLS模型

其中网络部分是对称的编解码器架构,编码器组件基于ResNet-50来提取多级特征,编码器结构与解码器结构一一对应。A模型为注意力机制模块[11],D模块为自制的判别模块,C模块为图像像素改变模块。

2.2 注意力机制模块

注意力机制是通过算法模拟生物观察这一行为,将内部经验和外部感觉融合,增加部分区域观察仔细度的一个机制。而自注意力机制是在注意力机制的基础上做出改进,可有效的减少对外部信息的依赖,与注意力机制相比,自注意力机制更擅长捕捉特征或数据的内部相关性。

在未引入自注意力机制之前,大多数用于图像处理的模型都是用卷积操作堆叠起来的。但这存在一个明显的问题,卷积运算仅仅关注整个图像的局部区域,因此通过使用卷积层来建模图像中的依存关系是无效的或效果不明显的。而这导致了一个后果,对于多类别的数据集,哪怕是最新的生成模型,都难以捕捉某些类别中经常出现的几何或结构模式。为了解决这些问题,通常在网络中引入自注意力机制来缓解这一难题。

在卷积神经网络中,每张图片初始会由RGB三通道表示出来,之后经过不同的卷积核之后,每一个通道又会生成新的信号,比如图片特征的每个通道使用64核卷积,就会产生64个新通道的矩阵(H,W, 64),其中H,W分别表示图片特征的高度和宽度每个通道的特征其实就表示该图片在不同卷积核上的分量,类似于时频变换,而这里面用卷积核的卷积类似于信号做了傅里叶变换,从而能够将这个特征一个通道的信息给分解成64个卷积核上的信号分量。

既然每个信号都可以被分解成核函数上的分量,产生的新的64个通道对于关键信息的贡献肯定有多有少,如果我们给每个通道上的信号都增加一个权重,来代表该通道与关键信息的相关度的话,这个权重越大,则表示相关度越高,也就是我们越需要去注意的通道了。

模块的具体结构如图3。原始图像通过编译器,产生了新的特征信号U。U有C个通道,我们希望通过注意力模块来学习出每个通道的权重,从而产生通道域的注意力。该注意力机制主要分成三个部分:挤压(squeeze),激励(excitation),以及注意(attention)。

图3 模块具体结构图

2.3 判别模块

当文物图片有边框突出的情况,进行显著性检测会将其突出部分视作显著区域,因此对于网络输出的显著图S,置显著图S中显著点个数为nums,总像素个数numall,这样网络输出显著图的显著率rr为

(1)

根据数据集标注人员对数据集图像的判断,最终决定设置阈值T="80%" ,如果显著率rr大于阈值T,则会将显著图S输入图像像素改变模块。

2.4 图像像素改变模块

该模块主要接收判别模块传入的显著率过大的显著图,在接收后会按照图像宽高比例,去除图像边缘区域,直到得到的矩阵均为如图1b图中白色的区域。而后记录裁切位置,将裁切后的图像重新输入至模型,直至生成的显著图的显著率小于阈值,按照裁切的位置重新生成新的显著图像,过程与结果如图4。

a)裁剪后图像 b)最终结果图4 边缘突出类图像及其预测结果

3 实验结果与分析

采用人手工标注的方法制作逐像素标注图像,对于陶瓷、雕塑和青铜器具等物品展示类的文物图,显著目标区域通常为一个很明显的区域,对于这部分的文物图的标注通常是没有争议的,可以由一个人完成。而对于复杂的书画类文物图像,显著目标通常并不明显,因此该类文物标注由三个人分别完成,标注后采取少数服从多数的原则,最终决定图像的标注区域。这两类的文物图的标注结果如图5。

a)物品展示类图像 b)书画类图像图5 物品展示类和书画类图像

3.1 评估方法

与其他显著性检测论文相同,本文主要使用定性分析和定量分析的以下三种数值比较方法,对所提到的文物显著区域检测算法进行评估:准确率(Precision)和召回率(Recall)构成的PR曲线、真正率(True Positive Rate)和假正率(False Positive Rate)构成的ROC曲线以及F值柱状图。

3.2 性能评估

本文从定性和定量两方面对比传统显著性检测算法与深度学习模型,包含的传统方法有LC算法[12]和SBM算法[13],DLS模型[10]和SCRN模型[14]。

(1)定性分析。对上述对比模型和本模型分别在上述文物数据集上进行训练,并选取各类型图像,在多种模型检测方法内得到的对比结果如图6。

从图6中前四幅图的对比结果可以看出深度学习的算法要优于传统算法,但是在最后一幅图这样有存在明显边框的图像中基于深度学习的算法会将边框突出部分认为显著区域,而不会像传统方法那样依次计算每个像素点的显著值。从以上对比可以看出,在手工标注的图像显著区域数据集中,相较于其他方法,本文提出的方法能够更好的检测出图像显著区域。

(2)定量分析。为上述方法在手工标注的文物图像显著性数据集的准确率和召回率构成的P-R曲线如图7。P-R曲线就是精确率precision vs召回率recall曲线,以recall作为横坐标轴,precision作为纵坐标轴。可以合理的评估检测算法在输入图像上的运行效果,是计算机视觉领域中最常用的评估方法。准确率是指显著性算法正确检测出来的显著性像素的总数与检测到的像素总数的比率;召回率是指正确检测出来的显著性像素个数占标准集中显著性像素总数的比率。

图6 文物图像数据对比结果

图7 P-R曲线

真正值率和假正值率构成的ROC曲线如图8。ROC曲线的全称是ReceiverOperating Chara-cteristic Curve,中文名字叫“受试者工作特征曲线”,和PR曲线皆为类别不平衡问题中常用的评估方法,二者既有相同也有不同点。ROC曲线常用于二分类问题中的模型比较,主要表现为一种真正例率 (TPR) 和假正例率 (FPR) 的权衡。其中,真正类率(True Postive Rate)代表分类器预测的正类中实际正实例占所有正实例的比例,负正类率(False Postive Rate)代表分类器预测的正类中实际负实例占所有负实例的比例。

F值柱状图如图9。对于一个性能优越的检测算法来说,应该同时具备良好的准确率和召回率。但在实际情况中,通常是准确率的提高就意味着召回率的下降,反之亦然。综合了P和R的结果,而当F较高时则能说明试验方法比较有效,见表1。

图8 ROC曲线

图9 F值柱状图

表1 对比结果

4 总 结

本文详细的介绍了基于视觉显著性的文物显著区域提取方法。根据DLS显著性检测模型在文物数据集中存在的问题,对DLS模型部分功能进行修改,使其在上文中的文物数据集进行训练并与现有比较经典的视觉显著性检测算法结果进行比较。实验结果表明:本文提出的检测方法对于图像显著性区域的检测非常有效。

猜你喜欢

卷积文物像素
文物的栖息之地
像素前线之“幻影”2000
基于3D-Winograd的快速卷积算法设计及FPGA实现
文物的逝去
文物超有料
“像素”仙人掌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
ÉVOLUTIONDIGAE Style de vie tactile
高像素不是全部