APP下载

多尺度特征金字塔网格的显著性目标检测

2022-05-10张卫明史彩娟任弼娟陈厚儒

小型微型计算机系统 2022年5期
关键词:卷积显著性尺度

张卫明,史彩娟,任弼娟,陈厚儒

(华北理工大学 人工智能学院,河北 唐山 063210)

1 引 言

作为计算机视觉和机器学习的基础性任务,显著性目标检测能够定位并提取图像或视频中最吸引人关注的部分.早期的显著性目标检测利用手工标注的特征对显著性目标进行检测,费时费力.随着深度学习的发展,基于深度学习的显著性目标检测[1,2]得到广泛研究,并在智慧视频监控[3]和虚拟现实[4]等领域得到广泛应用.

为了增强高层特征中的语义信息,提高显著性目标检测性能,一些研究采用不同的特征金字塔结构,多尺度操作,以及卷积操作等.

近年,特征金字塔网络(Feature Pyramid Networks,FPN)[5]得到了广泛研究和应用.FPN是对卷积神经网络CNN特征提取的一种改进,主要包括3部分:自下至上的通路、自上至下的通路和横向连接.FPN通过对多尺度多感受域多分辨率的特征进行融合,增强高层特征中的语义信息.此后,一些工作如Ghaisi等人提出的NAS-FPN[6],采用神经网络结构搜索设计了一种新的特征金字塔结构进行目标检测,取得了优于FPN的检测性能.但是,NAS-FPN网络结构复杂,训练开销较大.另外,还有一些工作通过添加新路径的方式来提高原有FPN的性能.如Liu等人提出的PANet算法[7]在特征金字塔结构中添加了一条新的自下向上的路径,进一步增强特征融合效果;Liu等人提出特征金字塔网格(Feature Pyramid Grid,FPG)[8],是由特征金字塔组成的深网格,对多种路径进行融合,不仅取得了优于FPN的性能,同时复杂度也低于NAS-FPN.因此,本文对高层特征设计了一个多尺度特征金字塔网格结构,从而增强语义信息,提高本文所提算法的显著性目标检测性能.

对卷积神经网络提取的特征进行多尺度操作,是当前提升目标检测性能的主要措施之一.现有特征多尺度提取方式主要有两种:空洞卷积和池化结合上采样操作.空洞卷积的方式使用多个较小的卷积核完成大卷积核同样的任务,得到多尺度输出,从而降低了模型因为大卷积核导致的高复杂度和大计算量.空洞卷积的代表模块是Chen等人提出的空间金字塔池(Atrous Spatial Pyramid Pooling,ASPP)模块[9].但是,由于空洞卷积进行稀疏的特征采样,这就降低了远距离特征的相关性,容易引起局部信息缺失等问题.池化和上采样结合的方式需要经过多种卷积核的提取,池化利用大小不同的卷积核对原始特征进行多尺度提取,获得不同尺寸的特征图.上采样操作采用最近邻插值等方式将这些特征图的尺寸恢复到与原始特征一样,最后进行融合输出.采用池化/上采样的方式对图像进行多尺度多接收域的特征提取,可以提高远近距离特征之间的相关性,也可以增强语义信息等特性.池化结合上采样的代表模块是Zhao等人[10]提出的金字塔池模块(Pyramid pool module,PPM).相较于空洞卷积,池化结合上采样的方式开销小,但是多次的上下采样操作在一定程度上会降低特征图像的清晰度.本文所提算法选取PPM模块对最顶层特征的多尺度操作,进一步增强高层特征中包含的语义信息.

研究发现,不同的卷积操作对提高目标检测性能以及模型的复杂度均有不同的影响.研究表明将标准卷积分解为d×1和1×d卷积,可以减小参数量,比如秩为1的二维卷积核可等价转换为一组一维卷积.但是,神经网络学习到的核往往具有非常大的秩,直接将变换应用于核就会造成显著性信息的损失.Denton等人[11]通过以基于奇异值分解的方式找到低秩近似,然后微调上层以恢复性能.Ding等人在ACNet算法[12]中提出非对称卷积(Asymmetric Convolution Blocks,ACB)模块,使用一维非对称卷积核来代替方形卷积核,能够减小模型训练参数和复杂度,提高模型训练精度.因此,本文在高低层特征中分别采用ACB模块来进一步提高所提算法的性能.

综上,本文采用特征金字塔网格结构、多尺度操作和非对称卷积等,提出一种多尺度特征金字塔网格(Multi-scale Feature Pyramid Grid, MFPG)来获取更丰富的语义信息,提高显著性目标检测的性能。论文第2节详细介绍所提多尺度特征金字塔网格模型,第3节进行实验验证和性能分析,第4节对本文工作进行总结。

2 多尺度特征金字塔网格

本文提出了一种多尺度特征金字塔网格算法(Multi-scale Feature Pyramid Grid,MFPG)进行显著性目标检测,图1给出了MFPG结构示意图.

图1 多尺度特征金字塔网格模型(MFPG)结构示意图

2.1 MFPG模型结构

本文所提算法MFPG以PFA算法作为基准,同样采用VGG16为基础模型,低层特征为Conv1-2和Conv2-2两层特征,高层特征为Conv3-3、Conv4-3和Conv5-3三层特征.该模型分别对高层特征和低层特征进行操作,分别获取高层特征的语义信息和低层特征的空间信息.

为了从高层特征获得更加丰富的语义信息,首先采用特征金字塔网格FPG结构对高层特征进行增强;其次,使用金字塔池模块PPM对最顶层特征(Conv5-3)进行多尺度操作;最后,使用非对称卷积ACB模块(连续3×3、1×3和3×1卷积操作)调整尺寸和通道数.另外,对高层特征采用通道注意模块(Channel-wise Attention,CA),对低层特征采用空间注意模块(Spatial attention,SA),将二者融合得到总特征.最后,采用显著性图和真值图之间的交叉熵损失作为损失函数监督生成显著性预测图.

2.2 基于特征金字塔网格的高层特征增强模块

本文设计了一个基于特征金字塔网格的高层特征增强模块(图1虚线框包含内容),图2给出了其具体结构.

图2 基于特征金字塔网格的高层特征增强模块

特征金字塔网格是一个多路径的横向连接和自顶向下连接的体系结构,相比于特征金字塔网络具有更好的特征融合性能.本文构建的高层特征金字塔网格结构采用3种方式对特征进行融合:1)横向连接完成各种特征增强的路径,本文在横向连接引入了包含不同扩张率的空洞卷积CFE(context-aware feature extraction)模块对每层特征进行多尺度提取,以获得丰富的高层特征语义信息.2)跳连接保障原始特征融合的路径,跳连接把原始特征引入下一阶段的融合操作,进一步保障和增强融合后的高层特征的语义信息.3)上采样路径(图2斜线),保证具有丰富语义信息的高层特征传递到低一层进行融合,增强低一层特征具有的语义信息.

2.3 金字塔池模块

本文采用金字塔池模块PPM对最顶层特征(Conv5-3)进行多尺度操作,使提取后的特征具有更丰富语义信息,其结构图如图3所示.

图3 PPM结构图

金字塔池模块可以进行不同尺度不同接收场的特征提取,增强显著性目标具有的上下文语义信息.本文金字塔池模块采用不同大小的卷积核(如1、2、3和6的组合)映射出不同的子区域.首先,对原始图像使用大小不同卷积核进行池化操作,并进行1×1的卷积操作.然后,对N层特征进行双线性插值,上采样到原始图像的尺寸,其中N为金字塔的层数.最后,将N层的输出特征串联在一起,即为最终的输出特征.

2.4 非对称卷积模块

为了进一步提高显著性目标检测的性能,本文将非对称卷积ACB模块引入到多尺度特征金字塔网格模型MFPG中.非对称卷积ACB模块结构图如图4所示.

图4 ACB结构图

ACB模块对输入特征进行3条路径的卷积操作,卷积核大小分别为3×3、1×3和3×1.最后,对3条路径的输出特征进行融合得到ACB的输出.训练前用ACB模块代替标准的方形卷积,提高网络的训练精度,减小模型训练的参数和复杂度,不会引入额外的计算开销.

3 实验和分析

将所提MFPG算法在4个数据集上进行了广泛实验,通过数值比较、视觉比较、F-measure图和P-R曲线4方面以定性定量的方式对实验结果进行了分析,并与当前主流显著性目标检测算法进行了比较.

3.1 数据集和实验平台

实验采用ECSSD[13]、DUTS[14]、PASCAL-S[15]和DUT-OMRON[16]4个数据集.2013年香港中文大学的Yan等人建立了ECSSD数据集,该数据集中的显著性目标具有较复杂的结构.DUTS数据集包含10553个训练图像和5019个测试图像.2014年乔治亚理工学院的Li等人建立了PASCAL-S数据集,根据人类眼动数据集对该数据集中每张图像的显著物体进行标定.2013年大连理工大学的Yang等人建立了DUT-OMRON数据集,包括5168张高质量图像.

实验所用操作系统是Ubuntu 16.04,CPU为Intel Xeon E5-2630 v4,主频为2.2赫兹,GPU为GeForce GTX 1080,显存大小为8GB GDDR5X,模型训练使用一块GPU进行.

3.2 评价准则

实验中采用加权F-度量,平均绝对误差(MAE)、S-度量、P-R曲线和F-measure图4种评价准则.

(1)

平均绝对误差(MAE)是直接计算模型输出的显著性预测图与真值图之间的平均绝对误差.首先将两者进行二值化,然后采用如公式(2)进行计算:

(2)

S-度量(Structural measure,S-measure):可以对显著性预测图和真值图之间的结构相似性进行评估.S-度量处理像素级的错误时考虑了对象感知(Si)和区域感知(Sj)结构的相似性.S-度量的计算公式如下:

S=α×Si+(1-α)Sj

(3)

其中,通常α取0.5.

PR曲线是以 precision和recall作为纵、横轴坐标的二维曲线,即查准率-查全率曲线.PR曲线展示的是Precision & Recall的曲线,通过选取不同阈值时对应的精度和召回率画出.P-R曲线总体趋势的精度越高,则召回率越低.

3.3 数值比较

本文所提算法MFPG与多种显著性目标检测算法进行了比较,包括PFA[17]、HKSOD[18]、RAS[19]、SRM[20]、PAGRN[21]、C2SNet[22]、Amulet[23]、DCL[24]、UCF[25]、DHS[26]、RFCN[27]、NLDF[28]、KSR[29]和MDF[30].表1列出了在4个数据集上的最大F-度量MF、S-度量S和平均绝对误差MAE数值比较结果,最好结果用粗体表示.其中MF和S的数值越大表示算法的性能越好,而MAE的数值越小表示模型的性能更好.

从表1可以看出,本文所提算法MFPG在4个数据集上几乎均取得了最好的检测结果,证明了所提模型的有效性.其中在DUT-OMRON数据集表现最佳,表明MFPG对复杂背景和多个显著目标具有很好的检测性能.其中,MF比HKSOD、RAS和SRM分别提高了13.11%、8.23%和11.03%,S比HKSOD、RAS和SRM分别提高了5.28%、0.97%和2.59%,MAE比HKSOD、RAS和SRM分别减小了0.69%、0.27%和1.04%.

表1 本文算法与其他13种显著性目标检测算法的数值比较(MF是max F-measure)

3.4 视觉比较

图5展示了所提MFPG与其他14种显著性目标检测方法的视觉比较结果.第1行-第7行图片基于DUT-OMRON数据集测试,第8行-第9行图片来源于ECSSD数据集.

第1行和第7行是前/背景对比度较低时,第2行和5行是显著性目标较小的情况,第3行、第4行和第6行是在复杂数据集下,较大的显著性目标的情况,第8行和第9行是在简单数据集下,显著性目标较大的情况.第1列为原始图像,第2列为真值图,第3列为本文算法获得的显著性图.

从图5可知:1)当显著性目标与背景对比度较低时(第1行和第7行),所提算法MFPG能够对显著性目标进行正确定位,并画出较清晰的轮廓边界;2)当显著性目标较小时(第1行、第2行和第6行),相较于其他算法,所提算法MFPG能够进行正确的显著性目标定位;3)显著性目标在复杂图片中较大时(第3行、第4行和第7行),因为所提模型能够提取更丰富的高层语义信息,从而准确定位显著性目标的位置,同时使显著性目标具有清晰的边界;4)显著性目标在简单图片中较大时(第9行和第10行),通过观察可知所提算法MFPG能够产生较好的预测图,优于大多数显著性目标检测算法.

图5 本文算法与其他13种显著性目标检测方法的视觉比较

3.5 P-R曲线和F-measure图

图6和图7分别展示了所提算法MFPG与其他14种显著性目标检测方法的P-R曲线比较和F-measure图比较.

从图6 可以看出,MFPG的PR曲线优于其他14种显著性目标检测算法的PR曲线,这证明了MFPG算法有很好的性能和鲁棒性,尤其是在DUT-OMRON数据集.这表明在复杂数据集(背景复杂或者多个显著性目标等)中,所提模型能够取得良好的检测性能.从图7 可以看出,F-度量优于其他的显著性目标检测算法,这也说明了MFPG算法是可行的,即使在具有挑战性的数据集,也能取得良好的表现.

图6 P-R曲线结果比较

图7 F度量稳定性比较

3.6 多尺度性能比较

本节对现有多尺度操作的两类代表模块PPM和ASPP进行了实验分析,表2给出了两种模块的数值比较结果.通过表2可知,金字塔池块PPM的性能表现更加优异,相较于ASPP模块,MF升高了0.29%,MAE减小了0.02%.因此,本文所提算法MFPG采用金字塔池模块PPM对高层特征进行多尺度操作,从而获得更加丰富的语义信息.

表2 ASPP和PPM性能比较

3.7 非对称卷积与方形卷积比较

本节对非对称卷积模块(ACB)和方形普通卷积进行了实验分析,表3给出了非对称卷积和采用3×3卷积核的方形卷积的数值比较.从表3种可以看出Fβ提高了0.0143,MAE减小了0.0105,表明非对称卷积能有效提高模型性能.

表3 非对称卷积和3×3卷积核性能比较

3.8 消融实验

本节基于PFA基准算法进行了消融实验,研究所提算法MFPG中主要模块性能,包括高层特征金字塔网格结构(FPG)、金字塔模块(PPM)和非对称卷积模块(ACB).1代表基基准算法PFA,5代表本文所提算法MFPG.消融实验在ECSSD数据集进行,结果如表4所示,最好的结果用黑色粗体显示.

从表4可以看出:

表4 MFPG的消融实验

1)仅采用高层特征金字塔网格结构(FPG).高层特征金字塔网格模块能够(表3中的第3行)提升检测性能,Fβ从0.8936增加到0.8947,MAE从0.0560减少到0.0540.这主要归功于高层特征金字塔网格结构可以使MFPG从多尺度的高层特征中捕获丰富的上下文信息,增强显著性目标的定位.

2)仅采用金字塔模块(PPM).通过将金字塔池细化模块(PPM)引入基准算法PFA(表3中的第4行),Fβ从0.8936增加到0.9064,MAE从0.0560减少到0.0459.这表明PPM能够促进语义信息的获取,并显著提高检测性能.

3)仅采用非对称卷积模块(ACB).在基准算法PFA中嵌入ACB模块(表8中的第5行)也有助于提高检测性能,Fβ从0.8936增加到0.9079,MAE从0.0560减少到0.0455.这表明非对称卷积模块ACB能够提高基础模型的性能,表明了ACB模块的有效性.

4)同时采用以上3种模块的所提算法MFPG.可以看出MFPG的性能比PFA有了很大的提高,其中Fβ从0.8936增加到0.9105,MAE从0.0560减少到0.0437.这表明这些模块共同作用使本文所提算法MFPG具有更好的显著性目标检测性能.

4 结束语

本文从特征金字塔网格结构、多尺度操作和非对称卷积3个角度出发,提出了一种多尺度特征金字塔网格算法MFPG,从高层特征获取更加丰富的语义信息,进而提升显著性目标检测性能.但是,所提模型存在显著性目标空间信息不足等问题,接下来将进行空间信息增强的研究,提取清晰地显著性目标边界.

猜你喜欢

卷积显著性尺度
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
基于深度卷积网络与空洞卷积融合的人群计数
论商标显著性的判定标准
欧盟法院判决明确欧盟商标通过使用获得显著性的地域认定标准
论声音商标的显著性
尺度
卷积神经网络概述
商标显著性的司法判断(一)
以长时间尺度看世界