APP下载

基于特征增强的RGB-D显著性目标检测

2023-11-22刘译善

计算机技术与发展 2023年11期
关键词:边界模态显著性

刘译善,孙 涵

(南京航空航天大学 计算机科学与技术学院/人工智能学院/软件学院,江苏 南京 211100)

0 引 言

显著性目标检测旨在模拟人类视觉注意系统,检测场景中最为显著的物体。作为计算机视觉任务中非常重要的预处理步骤之一,在立体匹配[1]、图像理解[2]、动作识别[3]、视频检测及分割[4]、语义分割[5]、医学图像分割[6]、目标跟踪[7]、行人重识别[8]、伪装目标检测[9]、图像检索[10]等领域中发挥着非常重要的作用[11-12]。早期基于RGB图像的显著性目标检测在面对复杂背景、 光照变化等挑战性因素时难以取得理想效果,随着Microsoft Kinect等深度传感器的广泛使用,研究人员将深度图像引入,在检测中起到了较好地区分前景和背景的作用。但在跨模态特征融合、边界细化等问题上还需进一步探索。近几年,越来越多的研究工作采用中期融合策略实现跨模态特征融合,以此提升检测模型性能[13-15],考虑到只对边界进行增强容易导致检测的显著目标不完整,只对语义进行增强则会导致边界不准确。受文献[16-20]等相关工作的启发,该文提出一种基于特征增强的网络结构,同时增强语义和边界,以此获得边界清晰、完整的显著目标,设计模块单独捕捉边界信息的同时引入门控机制,选择丢弃或者保留引入了边界信息的显著图,以避免当边界信息捕捉效果不佳时破坏显著图质量的情况。首先特征融合增强模块(FFEM)交叉融合后通过混合注意力提取跨模态特征,提升模型对高层语义信息的捕捉。然后,考虑到深度信息有更明确的边界特征[21],通过边界特征增强模块(BFEM)对包含丰富细节信息的底层特征进行提取,为了避免噪声的引入,进一步设计门控,对低质量边界信息进行舍弃。最后通过混合增强损失对模型进行优化。所提出的模型在五个具有挑战性的数据集上进行实验,与当前主流的RGB-D显著性目标检测方法进行对比,达到了良好的检测效果。

1 相关工作

传统RGB-D显著性目标检测研究工作依赖于手工提取的特征。2012年,首个RGB-D显著性目标检测模型DM[22]将深度先验集成到显著性检测模型中,并提出了从2D和3D场景中收集的包含600张图像的NUS-3D数据集。此后各类研究方法陆续出现,如基于对比度[23-24]、形状[25]等手工特征,通过马尔可夫随机场[26]、高斯差分[27]和图知识[28]等方式进行建模的检测模型。除此之外,一些研究还尝试将传统方法组合来集成RGB和深度特征,如随机森林回归器[29]、角密度[30]等。但受到低水平显著性线索的限制,传统方法在复杂场景下的泛化性能较弱。随着深度学习在计算机视觉领域的应用,RGB-D显著性目标检测也取得突破进展。

2017年,Qu等人[31]首次将卷积神经网络应用到RGB-D显著性目标检测模型中,将传统方法基于超像素的拉普拉斯传播框架与训练后的CNN相结合,通过利用输入图像的内在结构来提取空间一致的显著图。早期基于深度学习的显著性目标检测方法简单使用全连接层[32-33],容易破坏数据的空间结构信息。目前更多的研究方法使用全卷积神经网络网络[34-36],能够缓解这一问题。根据跨模态特征融合阶段的不同,常常将相关研究方法分为早期融合[36]、中期融合[37-38]和后期融合[39]三个类别,中期融合是对另外两者的补足,能够从两种模态中学习高层语义,因此也是最常用的特征融合策略。尽管RGB-D显著性目标检测当前已经取得了突破性进展[16,31,34,39-41],但仍在以下两个方面存在一定的提升空间。

一是显著物体检测的完整性。目前已有方法无法在有效进行跨模态特征提取和融合的同时捕捉两种模态的相互作用,且鲜有检测模型明确利用两种模态的特异性,导致最终显著图不能够完整、正确地描述显著目标。该文设计的FFEM模块通过交叉融合和混合注意力,在利用跨模态特征互补性的同时充分利用了二者的相关性,消融实验部分验证了该模块的有效性。

二是显著物体的边界清晰度。当前研究大多集中在区域精度上不在边界质量上,且通过一个步骤同时捕捉图片的语义信息和边界细节,导致最终显著图边界模糊。针对这一问题,该文设计的BFEM模块对边界特征进行单独提取和增强,设计门控避免低质量信息干扰。除此之外,显著性目标检测方法中常用的损失函数交叉熵损失在判别边界像素点时,通常置信度都比较低,容易导致边界模糊。通过对区域和边界进行约束,以获得最终最优的检测结果。相关设计同样在消融实验部分验证了其有效性。

2 文中方法

该文提出的FENet网络结构如图1所示,采用端到端的模型。首先,使用两个ResNet-50残差网络分别提取RGB信息流和深度信息流的特征,表示为ri(i=0,1,…,4)和di(i=0,1,…,4);然后,由特征融合增强模块FFEM实现不同尺度的跨模态特征的逐级融合,同时充分利用跨模态特征的差异性对强化后的跨模态特征进行信息补充和完善;最后,通过边界特征增强模块BFEM, 从前三层浅层特征中获取更精确的边界信息,通过门控来抑制低质量深度图信息的影响,以生成最终高质量的显著图。所设计的特征融合增强模块FFEM和边界特征增强模块BFEM在2.1和2.2两个小节进行详细介绍。

图1 FENet网络框架示意图

2.1 特征融合增强模块(FFEM)

目前已有方法融合RGB和深度信息流特征时,在考虑二者相关性的同时常常容易忽略差异性,导致融合过程中容易丢失细节信息。该文设计的FFEM模块充分利用跨模态特征相关性进行特征自增强,即RGB和深度信息流特征通过交叉相乘和混合注意力,在互补特征的引导下进行自增强,再通过原始特征信息的补充完善特征,将自增强后跨模态特征拼接融合后通过3×3卷积进行特征提取,跨模态特征逐级融合以不断强化特征信息,如图2所示。

图2 特征融合增强模块结构

具体来说,首先通过1×1的卷积对通道进行压缩,之后采用跨模态特征两两交叉相乘的方式放大RGB和深度特征的相关性,抑制不相关特征,进而达到突出显著特征的目的。如下公式所示,Conv(·)表示卷积操作:

Fr=Conv1×1(ri)⊗Conv1×1(di)

(1)

Fr=Conv1×1(di)⊗Conv1×1(ri)

(2)

通过混合使用空间注意力(SA)和通道注意力(CA),同时在空间维度和通道维度增强特征表达;之后跳跃连接原始跨模态特征,并与上一层的融合特征Fi-1拼接,以实现特征的逐级增强,公式如下所示:

(3)

(4)

(5)

为了进一步利用跨模态特征的差异性,弥补原始跨模态特征在融合过程中的损耗,将ri和di进行补充,公式如下所示:

(6)

2.2 边界特征增强模块(BFEM)

将细节特征分开提取,针对浅层的低级特征设计了边界特征增强模块BFEM,以提取清晰边界特征,如图3所示。

考虑到高级语义特征能够准确定位图片中显著目标的位置,而深度图边缘更突出,因此提取深度图(d0、d1、d2)的细节特征。

图3 边界特征增强模块结构

不同层级的深度图特征二倍上采样后两两相加,与空洞卷积提取的多尺度特征进行相乘,增强边界的细节特征。两两增强后的细节特征相加后送入3×3卷积获取融合后的高质量显著区域。公式如下:

Fe=Conv3×3(DConv(Fi)⊗

((d0,d1)⊕(d0,d1,d2)))

(7)

在过往的研究工作中发现,底层特征往往包含一定的噪声,为避免噪声干扰,本模块还设计了门控SDU,将本模块获得的显著图S与前序阶段获得的显著图SM和真值图对比,计算各自的MAE值完成比较,取得分高者作为最终的显著性目标检测图输出。

2.3 损失函数

该网络结构的损失函数由两部分构成,结构损失和边界损失。二元交叉熵(BCE)是应用最广泛的损失函数,但BCE损失独立计算每个像素的损失,忽略图像全局结构,同时在背景占优势的图片中,前景像素的损失会被稀释。因此,针对高级感受野提取的区域显著性将更关注于困难像素点的二进制交叉熵损失BCE和全局结构的加权交并比损失IoU相结合,即:

Lr=Lwbce+LwIoU

(8)

为了进一步增强对边缘的监管力度,对边缘附近区域进行了约束和优化。公式如下:

(9)

(10)

其中,H、W分别表示图片的高和宽,Le表示边缘增强损失,P(·)表示具有5×5滑动窗口的平均池化操作,通过e来获取真值图轮廓附近局部区域,以达到优化显著物体轮廓的目的。S为获得的显著图,G为真值图。综上,总的损失函数L为:

L=Lr+Le

(11)

3 实验和分析

3.1 数据集和评估指标

在NJU2k[27]、NLPR[42]、DES[23]、STERE[43]、SIP[16]五个公开的RGB-D数据集上验证模型的有效性。其中选择NJU2K的1 485个样本和NLPR的700个样本作为训练数据集,NJU2K和NLPR剩余800个样本以及DES、STERE、SIP五个数据集的样本作为测试集。实验过程中采用F指标[44]、平均绝对误差[45]、S指标[46]和E指标[47]进行评估。F指标对准确度和完整度进行综合判断,计算公式如下:

(12)

其中,β2根据很多显著性目标检测工作经验设置为0.3,Precision为正确率,Recall为召回率。平均绝对误差(MAE)用来评估显著图S和真值图G之间的逐像素平均绝对误差,计算公式如下:

(13)

其中,W和H分别表示显著图的宽和高,S(x,y)为模型检测得到的显著图,G(x,y)为真值图。MAE的值越小,模型的性能越好。S指标用来评估区域感知(Sr)和目标感知(So)之间的结构相似性,定义为:

Sα=αS0+(1-α)Sr

(14)

其中,α是取自区间[0,1]的平衡参数,在文中设置为0.5。E指标在认知视觉研究的基础上提出,用于获取图像级统计信息和局部像素匹配信息,计算公式如下:

(15)

其中,φFM表示增强对角矩阵[47]。

3.2 实施细节

所提出的模型基于PyTorch网络框架,主干网络Res2Net-50[48]在ImageNet[49]上进行预训练。GPU为NVIDIA TITAN XP,显存大小为12 GB。训练过程中学习率设置为1e-4,迭代次数200。训练阶段通过随机翻转、旋转等策略进行数据增强,测试阶段最终输出的显著图重新调整到原来的大小。

3.3 与前沿方法对比

将所提出的方法与多种显著性目标检测方法,即基于深度方法的DMRA[50]、ICNet[41]、HDFNet[40]、UC-Net[51]、D3Net[16]、DQSP[52]、DSA2F[53]、SPSN[54],进行比较。表1列出了上述方法在五个数据集上F指标、平均绝对误差、S指标和E指标的对比情况。其中F指标、S指标和E指标数值越大表示模型性能越好,MAE则是数值越小表示模型性能越好。从对比结果可以看出,FENet模型在五个数据集上均取得了较好的检测结果,尤其在图片场景多以日常真实场景为主的NLPR和STERE数据集上,相较于其他基于深度学习的方法,F指标均提升了近1%,模型的泛化性能得到加强。在MAE和E指标上,总体也得到了提升,虽然在DES和SIP两个数据集上的结果要略低于UCNet模型和SPSN模型,但FENet模型在这两个数据集上的F指标和S指标分别更高于两个模型,这也契合在设计该模型时更聚焦于跨模态特征相关性、特异性进而提升检测结果完整性的探索,达到最终显著图在准确度和完整度上的综合判断。

表1 FENet模型与不同深度方法基准测试结果对比

续表1

基于深度学习方法的可视化结果对比如图4所示,对比第1、3行结果可以看到,在图片背景中存在干扰,如第1行的背景凹陷部分以及第3行人的左侧与背景中的树木衔接部分容易被误判为显著目标的一部分,FENet模型相较于另外几个模型能够尽可能避免背景干扰,同时完整、准确地切割出显著目标;对比第2行结果可以看到,当面对显著目标中包含容易漏检的细小部分情况时,如图中蝴蝶的各个触角,相较于其他模型漏检触角、边界模糊等的问题,文中模型能够以较为清晰的边界较好地检测出显著目标;对比第4、6行可以看到,当面对光照和阴影变化等情况时,相较于其他模型对于显著目标内部检测不完整、阴影部分未完整检测出的情况,文中模型在检测的完整度和清晰度上要高于其他模型;对比第5行可以看到,当面对多个显著目标时,虽然图中存在多检测了背景中部分人影的情况,但实际的两个显著目标,文中模型相较于其他模型能够更完整地检测出来。可以看出,该文所设计的分层增强语义和边界特征的FENet模型在显著目标的完整性和边界清晰度上取得了较为理想的效果。

图4 FENet网络与前沿的RGB-D显著性目标检测模型的可视化比较

3.4 消融实验

为验证文中相应模块设计的有效性,进行了消融实验,相关数据对比见表2。比较第1、2行可以看出,FFEM模块增强了模型的性能,在四个指标上均有了不同幅度的提升,其中在F指标和E指标上提升了0.5%左右,在DES数据集上结构相似性指标也有了1%的提升;比较第2、3行可以看出,BFEM模块的加入后在两个数据集的F指标和E指标上均提升了0.5%左右;比较第3、4行可以看到混合损失函数的使用在两个数据集上的四个指标上给模型性能带来了不同程度的提升,更契合预期。

表2 FENet模型在STERE和DES数据集上进行消融实验的结果对比

4 结束语

提出了一种RGB-D显著性目标检测框架,该框架通过特征融合增强模块和边界特征增强模块分别对高级语义信息和底层细节信息进行处理。实验结果表明,该框架是可行的,在主流的五个数据集上相较于前沿的方法取得了不错的效果,所设计的模块也通过消融实验进行了验证。

猜你喜欢

边界模态显著性
拓展阅读的边界
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
论中立的帮助行为之可罚边界
一种基于显著性边缘的运动模糊图像复原方法
论商标固有显著性的认定
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
“伪翻译”:“翻译”之边界行走者
由单个模态构造对称简支梁的抗弯刚度