基于非对称融合和关联上下文的RGBD语义分割算法研究

2022-04-14张静怡

现代计算机 2022年1期

张静怡

（四川大学电子信息学院，成都 610065）

0 引言

随着RGBD传感器的迅速发展，深度图数据的获取变得越来越容易了。深度图信息具有3D图像的几何信息，能够映射真实世界中的物体，因此可以作为具有色彩和纹理的RGB图像的补充。然而，如何利用深度图信息并且将其融入到其他信息流，仍是没有解决的问题。

早期的研究试图使用双通路网络，分别提取RGB和深度图的特征，然后在最后一层融合它们，再取得分割结果。这种晚期融合的策略融合两个模态的时机太晚，导致RGB分支不能在早期阶段取得它所需要的几何信息作为引导。后来，研究者设法在多个阶段将深度图特征融入到RGB分支中，具体做法是在编码器网络的多个阶段，将深度图特征加到RGB分支。实验表明，这种策略使得几何信息被更早、更有效地利用，可以提高语义分割的精度。

然而，现有研究中的融合模块普遍采用对称融合方式，诸如按元素相加或者特征图堆叠等，这种以同等方式处理深度图和RGB彩色图像的方式，存在两个问题。第一，由于采样设备精度的原因，原始深度图中含有大量噪声，直接利用将会带来不精确性，产生的负面影响将抵消引入深度图带来的积极影响。第二，显而易见，深度图和RGB彩色图像的信息差异性很大，对语义分割的贡献也有主次之分，采用对称融合的方式会融入过多深度图中的信息，尽管它对语义分割仅有辅助作用。

另外，在语义分割领域，人们开始关注上下文信息的利用。上下文信息有全局上下文、多尺度上下文，还有将特征图像素之间的关联信息充分利用的关联上下文。全局上下文的提取主要是通过类似全局池化的全局操作，将特征图的大小压缩，得到一个表征全局信息的特征。这种信息对于图片级的任务——如图片分类——可以提升语义判别能力，然而，对于像语义分割这种像素级的任务，全局信息不一定对所有像素都适用，因此，还需使用更细粒度的信息。后来，研究者通过池化操作将特征图转换到不同尺度，分别进行操作，再进行合成，这种做法保留了全局上下文优势的同时，融合了更多空间细节，更适用于语义分割任务。而这些研究中，虽然融合上下文有助于提取语义信息，但是无法获取不同位置之间的关联信息。较新研究中，基于自注意力机制来捕获空间维度和通道维度的特征依赖关系，可以捕获特征图在任意两个位置之间的空间依赖关系，然后通过加权和来对所有位置的特征进行更新。实验证明，这种关联上下文自适应地利用并加强了相似特征，对语义分割效果有明显的提升。

而现有的关联上下文的提取方法，虽然充分利用了逐点特征间的依赖关系，但是频繁进行高维矩阵乘法消耗大量资源。相邻像素之间的特征往往是相似的，没必要提取每两点之间的关联性。

针对上述问题，本文提出了基于非对称融合的关联上下文网络。其中，非对称融合模块考虑了深度图和RGB图像的差异性，深度图的噪声信号被过滤后，再与RGB特征图融合。而关联上下文模块在自注意力机制的思想的基础上，将特征图压缩成块，选择性地聚合具有相似特征的块，提取了区域与区域之间的依赖关系，在增加少量复杂度的前提下，显著提高语义分割准确性。

1 算法实现

本文提出的用于RGBD图像分割的网络——基于非对称融合的关联上下文网络（asymmetric fusion and associated context network，

AFACNet）结构如图1所示。该结构受到由Swift⁃Net改进并融入深度图的ESANet的启发——整体网络结构由经过预训练的编码器ResNet34主干网络、多次降采样、编码器解码器之间的用于提取上下文的模块、有由编码器部分跳跃连接的解码器，以及最后的上采样组成。其中，AFACNet使用两个编码器，分别编码RGB彩色图像和深度图。深度图编码器用来提取几何信息，并在编码器的多个阶段使用非对称融合模块（asymmetric fusion module，AFM）将特征融入到RGB编码器中。解码器模块（decoder module，DM）由若干卷积和上采样组合而成，在每个DM的模块使用按元素相加操作融入来自编码器的特征。在编码器和解码器之间，有一个用于提取关联上下文的上下文模块（context module，CM），可以获取区域之间的依赖关系，更好地组织语义信息。最后，在网络的末端将特征图映射成要判别的类别，再通过上采样操作将输出转换成与网络输入分辨率相同的图像。

下面，将对网络的每个结构的细节展开讨论。图1（下）展示了网络模块的具体结构。

图1 AFACNet网络整体结构（上）及模块具体结构（下）

1.1 编码器

RGB图像和深度图都使用了残差网络（ResNet）作为主干网络。随着网络结构的加深，梯度消失和梯度爆炸等问题随之产生，而ResNet的提出，使用残差连接的方式解决了上述的退化问题。另外，输入通过跨层链接，能更快地向前传播数据，或者向后传播梯度。共有五种ResNet网络，分别为ResNet18、ResNet34、ResNet50、ResNet101和ResNet152。它们的结构大致相同，差异主要表现在网络深度上。随着网络深度加深，参数也会随之增加，为了减少网络参数从而增加训练速度，在较深的ResNet结构（ResNet50及更深的网络）中采用了瓶颈结构，压缩模型的同时却对精度损失不大。为了权衡模型参数和分割准确性，实验中使用了ResNet34和ResNet50作为主干网络。

1.2 解码器

网络的解码器采用了ESANet中提出的解码器结构，每个DM由一个卷积层、若干个堆叠的Non-bt-1D（Non-Bottleneck-1D-block）模块、上采样堆叠而成，然后由按元素相加操作融入来自编码器的特征。实验表明，采用Non-bt-1D模块取代传统的带有残差连接的卷积模块，不仅可以压缩模型，还可以提高网络的精度。

1.3 RGBD非对称融合

AFM由链式残差池化（Chained Residual Pooling,CRP）和对称融合模块（Fusion Module,FM）两部分组成。深度图先经过CRP处理，再与RGB特征图一起输入FM进行融合。其中，CRP模块由多个堆叠的池化、卷积操作组合而成，并由残差块相连。经过池化的深度图，在一定程度上过滤掉了噪声信号，又有残差连接与没经过过滤的深度图融合，使网络自适应地选择过滤或者保留原始的深度图。这种非对称融合的方式，考虑了深度图与RGB特征的差异性，而由于池化操作的存在，减弱深度图对网络预测的影响，突出其作为辅助信息的地位，使得两种模态的信息得到更合理的利用和整合。

1.4 关联上下文模块

CM由三个分支组成。在第一个分支中，代表经过卷积神经网络（convolutional neural net⁃work，CNN）编码器处理后得到的特征图。经过全连接层（Fully Connected Layer，FC）生成大小不变而通道数为的特征图，同时，通过自适应池化操作生成大小被压缩为×而通道数为的特征图。在第一个分支中，()代表全局信息，是由通过全局平均池化操作得到的。与全局信息()通过残差连接，然后经过矩阵变维，生成大小为×的特征图，其中，=×。在第二、三个分支中的操作是类似的，首先将输入FC层，分别生成和，然后将和进行矩阵变维得到和。下面，对、和进行自注意力（Attention）操作，得到大小为×的特征图。公式（1）如下所示：

其中，和的点乘表示和的相似程度，但是它不是归一化的，因此需要使用softmax()操作进行归一化，得到的矩阵数值在0~1之间，产生注意力图。而表示输入特征图线性变换后的特征，将注意力图作用于上，即可得到过滤后的的特征图。最后，将×的特征图进行矩阵变维，复原为大小为××的特征图，与该模块的输入具有相同的大小。

2 实验

本文在常用的RGBD室内数据集NYUv2上做了实验，与现有其他RGBD语义分割方法比较，并且进行了消融实验来验证网络中提出的模块的有效性。

2.1 实验细节及数据集

实验采用了PyTorch深度学习框架，迭代次数为500次，批大小（batch-size）为8，使用的优化器是SGD优化器。同时，采用了PyTorch单周期学习率调度程序来自动调整学习率。为了增加实验数据，采取了随机放缩、切割和反转等数据增强的方式。另外，在训练时加载了ResNet的预训练模型，来提升模型训练的速度。网络输入图片的分辨率使用的是640×480，由于32倍降采样，输入CM的特征图大小为20×15，CM中自适应池化大小为5×5。

NYUv2数据集：NYUv2包含了1449张室内RGBD图像，其中795张用于训练，而654中用于测试。实验中使用了40类标签的设置。

2.2 实验结果

实验主干网络采用ResNet50，与其他在NYUv2数据集上的RGBD语义分割的网络相对比，结果如表1所示。

表1 实验结果对比

其中，表格中的Res是ResNet的缩写。

由表1可见，本文采用的主干网络参数量较小，但是同样可以取得有竞争力的效果。由此可见，为了提升网络的性能，不能一味地增加网络的深度；好的网络结构设计可以在不大量增加模型参数的前提下提高语义分割的效果。

2.3 消融实验

我们基于ResNet34和ResNet50主干网络分别做了消融实验。表2展示了网络结构中AFM和CM两个模块的消融实验的结果。其中，基本网络将AFM替换为普通的按元素相加的融合操作，并且去掉了CM。

表2 消融实验

对于AFM，在ResNet34上和ResNet50上分别为mIOU带来了0.58%和0.46%的提升；而对于CM，分别带来了1.44%和0.18%的提升。从而证明了模块的有效性。

3 结语

本文提出了一种新型的RGBD语义分割网络结构，针对RGB与深度图的融合方式，以及上下文信息的捕获方式进行了探讨，提出了非对称融合模块和关联上下文模块，解决了对称融合不能合理整合RGB与深度图信息的问题，另外采用自注意力机制获取特征块之间的依赖关系的同时却不带来过大的额外资源消耗。通过消融实验，验证了两个模块的采用分别为模型带来了一定程度的性能提升。与同类型模型相比，本文提出的网络模型参数量较少，占据资源较少，却具有更好的效果，因此具有一定的实际应用价值。