结合可变形卷积与双边网格的立体匹配网络

2022-12-13刘振国李钊宋滕滕何益智

计算机工程 2022年12期

刘振国，李钊，宋滕滕，何益智

（山东理工大学计算机科学与技术学院，山东淄博 255000）

0 概述

双目立体匹配［1-3］作为无人驾驶、机器人导航、增强现实等三维重建领域的核心技术，取得显著成效。随着深度学习的发展和研究，基于深度学习的双目立体匹配相较于传统双目立体匹配，在精度与速度方面都具有优异的性能。

文献［4］提出可以实现端到端训练的深度学习立体匹配网络DispNetC，该网络采用相关层对左右特征图进行相似性度量，并利用下采样的方式计算得到代价体，通过对代价体进行解码，获得视差并回归得到稠密视差图，虽然达到了实时性的目的，但是精度却大幅降低。文献［5］提出GC-Net，采用串联方式对特征提取得到的特征图进行聚合，将左右特征图串联得到代价体，最后使用3D 卷积聚合这些代价体。文献［6］提出PSM-Net，引入金字塔特征池化［7］，利用全局上下文信息进行匹配，该网络通过堆叠大量由3D 卷积组成的代价聚合模块进行代价聚合，虽然精度得到显著提高，但是计算量大幅增加，速度也大幅减慢。针对3D 卷积所存在的问题，文献［8］提出GA-Net，采用半全局聚集和局部引导聚集这2 种引导聚合层代替3D 卷积进行代价聚合，以提升精度并减少计算量，但是在网络模型中使用3D卷积进行代价聚合，其运行速度与2D 卷积相比仍存在一定的不足。

针对基于深度学习的立体匹配网络使用3D 卷积进行代价计算所产生计算量大的问题，文献［9］提出AANet，利用2D 可变形卷积构建代价体，并构建同尺度代价聚合模块与跨尺度代价聚合模块，在保持精度的同时显著提升速度，但是AANet 对边缘处的视差预测并不理想，同时特征提取部分的性能有待提高。

在基于深度学习的立体匹配网络中，利用3D卷积进行代价聚合，同时引用来自图像的监督信息，从而提高输出视差图的精度，导致计算量增大，例如基于2D 卷积的立体匹配网络通过特征相关构造3D 代价卷，而基于3D 卷积需要构建4D 代价卷。假设输入的代价卷与输出的代价卷大小相同，卷积核大小为K（通常K=3），最大视差D为64，则3D 卷积的计算复杂度为O（K3×C2×D×H×W），2D卷积的计算复杂度为O（K2×D2×H×W+3K4×D×H×W+3K2×D×H×W），2D 卷积的计算复杂度为3D 卷积的1/130。因此，3D 卷积虽然可以提高精度，但是产生的计算量导致速度减慢。2D 卷积方法可以加快模型速度，但是对于边缘处的视差预测鲁棒性较低，同时多尺度2D 卷积方法中特征提取部分的性能有待提高。

本文提出结合可变形卷积与双边网格的2D 卷积立体匹配网络。通过引入注意力特征增强结构，丰富低分辨率特征图的特征信息，采用注意力机制与Meta-ACON 激活函数提高特征提取效率，同时在聚合模块中结合可变形卷积与双边网格［10-11］，增强视差图的边缘信息。

1 网络结构

本文网络由特征提取、代价计算、代价聚合、双边网格上采样、视差回归组成。利用改进的特征金字塔网络（Feature Pyramid Network，FPN）进行特征提取，充分利用语义信息以及空间特征信息，提高特征信息的利用率。为减少计算量，本文使用类似于DispNetC 的互相关层［12］对提取的特征进行特征点匹配，以计算多尺度3D 代价卷。当获得多尺度3D 代价卷后，利用注意力机制与Meta-ACON 激活函数相结合的2D 可变形卷积代价聚合模块进行聚合，提高模型精度，采用双边网格对聚合得到的低分辨率代价卷进行上采样，提升预测视差在边缘处的鲁棒性。最后通过视差回归获得视差图。本文网络的整体结构如图1 所示。

图1 本文网络结构Fig.1 Structure of the proposed network

1.1 注意力特征增强结构

立体匹配网络的特征提取部分对双目图像特征信息提取的充分程度，可间接关系到弱纹理以及无纹理区域的鲁棒性。而基于深度学习的立体匹配网络多采用金字塔结构以及左右特征图共享权重来完成特征提取任务，同时，通过输出多尺度的特征图来构建代价体，具有较优的性能，如AANet。然而，当FPN［13］输出多尺度特征图时，低分辨率的特征图并没有与不同分辨率的特征图融合输出，这可能导致语义信息提取不充分，从而影响视差图的鲁棒性。

为了解决该问题，本文借鉴AugFPN［14］的思想，在高层低分辨率特征图上添加注意力特征增强结构，将其与低分辨率特征图进行融合输出。但是，与AugFPN 不同，本文的注意力特征增强结构对自适应空间融合进行改进，将拼接的上下文特征通过最大池化层与平均池化层后，分别经过1×1 卷积层与3×3卷积层处理，最后经过Sigmoid 函数生成权重。同时，在特征提取的残差结构中引入通道注意力机制［15］与Meta-ACON 激活函数［16］，增强特征提取能力，更加充分地提取特征。在特征金字塔网络中的注意力特征增强结构如图2 所示。

图2 注意力特征增强结构Fig.2 Structure of attention feature enhancement

首先，为了获得多个上下文信息，将特征图通过自适应池化层（该层由3 种比例的自适应池化层构成），获得3种H×W尺度的上下文特征，然后，这3 种上下文特征分别经过1×1 卷积层，使其通道数变为256，通过双线性插值进行上采样并融合。由于单一插值并融合易造成混叠效应，因此需要经过自适应空间融合来消除混叠效应。自适应空间融合把上采样特征作为输入，将多个特征图进行拼接，通过Sigmoid 函数生成一个空间权重。权重用于将上下文特征聚合成新的特征图。新的特征图具有多尺度上下文信息，仅适用于与原分支低分辨率特征图相融合，并不进行输出。自适应池化层与金字塔场景解析（Pyramid Scene Parsing，PSP）［17］网络的不同之处在于：PSP 将特征池化为具有固定大小的多个特征，而自适应池化层则考虑图像的比率。本文使用自适应空间融合层融合特征，而不是直接卷积连接特征，有助于消除混叠效应。由于引入的注意力特征增强结构额外增加用于融合的特征图，因此会增加参数量，对模型的速度产生影响。为提高特征提取性能，本文在残差结构中引入注意力机制与Meta-ACON 激活函数。注意力机制与Meta-ACON 激活函数融合结构如图3 所示。

图3 注意力机制与Meta-ACON 激活函数融合结构Fig.3 Structure of attention mechanism and Meta-ACON activation function fusion

注意力机制将图像中的特征信息转换为权重，生成的权重信息可辅助完成特征提取任务，充分提取特征信息，从而生成特征图。本文使用Meta-ACON 激活函数，可选择性地激活神经元，提升特征提取效率。注意力机制的计算如式（1）所示：

其中：σ为Sigmoid函数；W0为权重，W0∈RC/r×C；W1为权重，W1∈RC ×C/r。ReLU 激活函数后接W1，Favg与Fmax分别表示平均池特征与最大池特征。

Meta-ACON 激活函数如式（2）所示：

其中：Sβ为光滑的最大值函数；p1与p2为可学习的参数（p1≠p2）；β为开关因子。Meta-ACON 激活函数引入到残差网络中进行测试，并加入可学习的参数，参数量增加，但是自适应开关因子β的加入能够有效提高精度。

1.2 可变形卷积代价聚合与双边网格上采样

1.2.1 可变形卷积代价聚合

传统的跨尺度聚合算法［18］采用统一优化进行局部代价聚合，并利用不同尺度的代价体聚合来消除在无纹理区域中鲁棒性较差的现象。在弱纹理及无纹理区域中，低分辨率尺度下的代价体有利于特征点的匹配［19-20］，当代价体下采样时，具有相同分辨率的代价体在无纹理和弱纹理区域的纹理信息更加清晰。

本文采用可变形卷积进行聚合，有助于解决边缘膨胀问题，若采用规则卷积，采样点难以自适应地聚合到相似视差的位置，导致边缘膨胀。可变形卷积［21］的原理是将规则卷积提取与采样点对应的像素值，根据式（3）进行计算，得到带有偏移量的像素值：

其中：p0为像素点；pn为固定偏移；Δpn为可学习的偏移量；q为图像中的空间位置；G（q，p）为线性插值。

使用式（4）对带有偏移量的像素值进行计算，获得最终的像素值：

其中：y（p0）为最终的像素值；w（pn）为位置权重。

将最终的像素值更新到矩阵中，最后使用规则卷积进行采样，使采样点可以自适应地聚合到具有相似视差的位置。

为了解决2D 卷积方法在边缘处鲁棒性较差的问题并验证传统跨尺度聚合算法改进弱纹理及无纹理区域鲁棒性的结论，尺度间代价聚合采用堆叠的多尺度可变形卷积模块进行代价聚合。

基础聚合结构及聚合公式借鉴AANet 的原理，但需要近似传统跨尺度算法来解决无纹理和弱纹理区域鲁棒性较差的问题，并且输出单尺度低分辨率代价体与后续双边网格进行上采样。因此，与AANet聚合结构相比，本文将聚合后的多尺度代价体进行一次跨尺度代价聚合，并在聚合模块的残差网络结构中加入注意力机制与Meta-ACON 激活函数，进一步优化聚合效果，提升模型精度。可变形卷积代价聚合模块结构如图4 所示。

图4 可变形卷积代价聚合模块结构Fig.4 Structure of deformable convolution cost aggregation module

对于3 种尺度的成本卷C∈RD×H×W（D、H、W分别为最大视差、高度和宽度），使用式（5）近似可变形卷积进行聚合：

其中：C（d，p）为视差d在像素点p处聚合后的成本量；K为采样点的数量；Wk为聚合权重；Pk为基于窗口成本聚合方法的固定偏移量；ΔPk为可学习的额外偏移量；mk为位置权重。本文加入ΔPk可以在边缘及薄结构处获得理想的结果。mk用于控制像素点之间位置的相互影响，从而加强自适应聚合。自适应聚合的具体结构类似于残差结构，其中位于中间的卷积层使用可变形卷积。传统的跨尺度代价聚合方式将相同尺度代价体与固定数值相乘，而对于高尺度代价体则先进行下采样，然后与低尺度代价体相结合。

1.2.2 双边网格上采样

为了进一步解决边缘处预测视差鲁棒性较差的问题，本文采用双边网格进行上采样。双边网格最早应用于加速双边滤波［14］，并在BG-Net［13］中与3D卷积相结合，减少网络模型参数量。原始像素被投影到双边网格中，在双边网格中执行切片操作。在引导图的引导下，双边网格通过三线性插值来提取代价体的过程被称为切片。切片的维度只是单纯的一维信息，因此可以将3D 代价体升至可以进行切片操作的维度。与BG-Net 不同，本文网络将双边网格上采样与可变形卷积相结合，并且通过类似注意力特征增强的结构获得引导图。注意力特征增强导致参数量增加，从而影响模型的运行速度，但相比仅进行1×1 卷积处理获得的引导图，具有较丰富的纹理信息，有助于提升模型精度。可变形卷积代价聚合与双边网格相结合的结构如图5 所示。

图5 可变形卷积代价聚合与双边网格相结合的结构Fig.5 Structure of combining deformable convolution cost aggregation and bilateral grid

聚合后使用双边网格切片上采样，将低分辨率的代价卷上采样至高分辨率代价卷。首先，将得到聚合后的3D 代价卷升至可以切片的维度，以便于双边网格进行切片操作，然后，将特征提取部分得到的高分辨率特征图转换为引导特征图，与来自双边网格操作后的代价卷进行切片上采样。双边网格使用4 个维度B（w，h，d，g），其中w、h、d、g分别表示宽度、高度、视差和引导图特征。最后，通过双边网格切片获得4D 高分辨率代价卷并降维，得到3D 高分辨率代价卷。切片操作是在高分辨率引导图的引导下4D 双边网格中进行线性插值，同时切片层没有参数，并不会增加计算量。切片层的定义如式（6）所示：

其中：C为进行聚合并升至一定维度后的代价体；C∧为上采样后的代价体；B为双边网格；s∈（0，1）为网格的宽度或高度比；sg∈（0，1）为网格的灰度与引导图的灰度比；G表示引导图；⊗表示三线性插值。

1.3 视差回归与损失函数

本文对于每一个像素，采用Soft argmin 方法［5］进行视差回归。该视差回归方法可微并且能够返回亚像素精度的视差，有助于提升视差回归精度。视差回归如式（7）所示：

其中：Dmax为最大视差；σ为Sigmoid 函数；Cd为通过代价聚合以及上采样获得的代价卷；σ（Cd）为视差的概率。

由于Scene Flow 数据集［4］中的数据由大量真值标签标注，因此采用smoothL1 损失函数训练Scene Flow 数据集，如式（8）所示，smoothL1 函数如式（9）所示：

其中：N为被标记的像素数；dpred为预测视差；dgt为视差真值。

由于KITTI2012［22-23］数据集缺少真值标签，因此利用效果较好的模型训练出的KITTI2012 数据集作为伪标签［9］。在KITTI2012 数据集上的损失函数如式（10）所示：

其中：p为像素值；Dpseudo（p）为伪标签真值。

2 实验设置与结果分析

2.1 实验参数设置

本文实验使用Pytorch 框架，网络环境的搭建以及实验中的训练过程在配置为NVIDIA Tesla T4GPU 的服务器上运行。本文采用2 个数据集进行实验，分别为Scene Flow 和KITTI2012。对于Scene Flow 数据集，本文实验将图片随机裁剪分辨率为288×576 像素，验证集尺寸分辨率为540×960 像素，初始学习率为0.001，使用Adam 优化器进行优化（β1=0.9，β2=0.999），epoch 为64，在进行第20 次epoch 之后，每10 个epoch 降低一次学习率。对于KITTI2012数据集，本文实验采用Scene Flow 数据集生成的预训练模型进行训练，并将模型参数进行微调。在KITTI2012 数据集的视差预测时采用与文献［9］相同的策略，即用视差真值作为监督，提高模型在该数据集下的精度。本文最大视差设置为192。

2.2 实验结果分析

2.2.1 模型消融实验

为了选出最佳的网络结构，本文对所提网络进行消融实验，在Scene Flow 数据集上分析双边网格、注意力特征增强、注意力机制与Meta-ACON 激活函数对端点误差（EPE）的影响，其中注意力机制与Meta-ACON激活函数使用AMA 表示，结果如表1 所示。

表1 消融实验结果Table 1 Ablation experiment results

从表1 可以看出：当不添加注意力特征增强、注意力机制与Meta-ACON 激活函数、双边网格时，本文网络的端点误差为0.882；加入注意力机制与Meta-ACON 激活函数后，本文网络端点误差为0.835；加入双边网格与注意力特征增强后，本文网络端点误差为0.804；当加入注意力特征增强、注意力机制与Meta-ACON 激活函数、双边网格时，本文网络端点误差为0.756。因此最佳的网络模型为加入注意力特征增强、注意力机制与Meta-ACON 激活函数、双边网格。

2.2.2 在Scene Flow 数据集上的结果分析

在Scene Flow 数据集上，本文网络DEBGNet 与DispNetC［4］、GC-Net［5］、PSM-Net［6］、AANet［9］进行对比实验。本文使用的评价指标为EPE。在Scene Flow 数据集上不同网络的实验结果对比如表2 所示。

表2 不同网络的实验结果对比Table 2 Experimental results comparison among different networks

从表2 可以看出，本文网络DEBGNet 具有较优的精度。虽然本文所提网络在速度方面与实时网络DispNetC 相比不占优势，但是在精度方面，DEBGNet比DispNetC 的EPE 降低了约55%。与其他基于3D 卷积的网络模型PSM-Net、GC-Net 相比，DEBGNet 网络具有较高的精度和较快的速度。为了提升网络模型精度，在网络中加入Meta-ACON 激活函数与注意力特征增强，但会少量地增加计算量。因此，与基于2D卷积的AANet 相比，本文所提网络的速度虽然稍微慢一些，但EPE 下降了13.7%。

本文网络全部基于2D 卷积，在Scene Flow 数据集上，与AANet进行可视化对比。在SceneFlow数据集上，本文网络DEBGNet与AANet的可视化结果对比如图6 所示（彩色效果见《计算机工程》官网HTML 版）。

图6 在Scene Flow 数据集上不同网络的可视化结果对比Fig.6 Visual results comparison among different networks on Scene Flow dataset

在图6 中的第1 行为伪彩色深度图，第2 行为预测视差图，第3 行为原图。从图6 可以看出，在红色边框标注的部位，本文网络比AANet 能够更清晰地预测目标边界，尤其在细小的结构以及边角处。

2.2.3 在KITTI2012 数据集上的结果分析

本文采用KITTI 数据集提供的评价指标进行对比，KITTI2012 数据集的对比指标为2px、3px 以及5px 的非遮挡区域误差率（Noc）与所有区域误差率（All），对比指标数值越小效果越好。在KITTI2012 数据集上不同网络的评价指标对比如表3 所示。

表3 在KITTI2012 数据集上不同网络的评价指标对比Table 3 Evaluation indexs comparison among different networks on KITTI2012 dataset

从表3 可以看出，相比DispNetC，DEBGNet 在KITTI2012数据集上的误差率明显降低，与MC-CNN［24］、FAD-Net［25］、AANet 相比，本文网络在速度较快的前提下，2px、3px 以及5px 的对比结果中，误差率有良好的表现，尤其与AANet 相比，在5px 下Noc 误差率降低6.7%。

在KITTI2012 数据集上本文网络与AANet、GC-Net 的对比结果如图7 所示。该对比结果由KITTI 数据集提供，图7 中第1 行为原图，第2 行为误差图，第3 行为预测视差图。从图中黑色边框标注处可以看出，本文所提网络可以较准确地预测出目标边缘及细小区域处的视差。

图7 在KITTI2012 数据集上不同网络的可视化结果对比Fig.7 Visual results comparison among different networks on KITTI2012 dataset

3 结束语

本文提出结合可变形卷积与双边网格的立体匹配网络。该网络由2D 卷积构成，引入注意力特征增强结构，同时利用注意力机制与Meta-ACON 激活函数相结合的2D 可变形卷积进行代价聚合，通过双边网格进行上采样，提高模型精度。实验结果表明，相比PSM-Net、GC-Net，本文网络在Scene Flow 数据集上的端点误差分别降低31.1%、70.1%，运行速度分别加快60%、82%，相较于AANet 的端点误差降低13.8%。后续将采用遮挡掩码抑制方式优化本文所提的立体匹配网络［26-27］，以提高遮挡区域的鲁棒性。