一种融合深度信息的火星局部地表图像立体匹配方法

2022-01-21周科帅胡海东徐克鹏马梓佳李云松

空间控制技术与应用 2021年6期

周科帅，何刚*，胡海东，徐克鹏，马梓佳，李云松

1.西安电子科技大学,西安 710071

2.北京控制工程研究所,北京 100094

0 引言

目前，深空探测日益成为世界各航天大国科技探索与创新的战略制高点.深空探测有严苛环境未知、先验知识欠缺和资源严重受限等显著特点，对感知的自主性和智能化造成极大的困难，带来极高的挑战.火星是太阳系内与地球最相似的姊妹行星，成为深空探测领域中竞相角逐的热点.近年来中国在航空航天领域发展迅速，不但实施了月球探测计划，也于2020年实施了首次火星探测.现代火星探测发现火星表面与地球相似，发育着以内营力为主形成的山脉构造及火山等地貌，也有以外营力为主形成的陨击坑、古水系、风成地貌、冰川地貌和冻土地貌等.风沙地貌过程是火星表面最广泛和最活跃的地貌过程[1].火星地表形貌原始自然、色彩单一、纹理相似度高，针对需要定位的目标例如稀松土壤、不规则岩石，目标之间具有相似的纹理信息，且边界特征不明显，难以实现稠密像素级的精确定位，为语义地图构建及火星车导航行进任务提供数据支撑.

立体匹配作为计算机视觉中的一项经典任务，一般来说可以归结为4个阶段，包括匹配代价计算、代价聚合、匹配代价卷正则化和视差细化.传统的立体匹配算法主要有：局部算法，主要基于滑动窗口来计算局部窗口内的匹配代价；全局算法，通过优化包括局部数据项和平滑项的能量函数来计算立体视图之间的相关性；半全局的立体匹配算法SGM[2]，采用单像素互信息(HMI)作为匹配代价，沿着多个方向进行一维能量最小化来近似替代二维全局能量最小化.但是由于传统图像匹配方法存在光照敏感、透视失真等缺点，在不适定区域，例如遮挡、重复纹理和弱纹理等，依旧很难找到准确的匹配点，生成精准的视差图.

仅仅利用不同视角下光照强度的一致性约束已经不足以在不适定区域得到精确的匹配一致性估计，并且对于弱纹理区域这个约束是完全无效的.为解决传统纯双目算法的这些问题，提高立体匹配一致性，从而获得高精度的视差估计.采用了基于全卷积神经网络的立体匹配算法，利用大量的双目图像对与真实视差图像进行训练，在立体图像匹配和深度估计中取得了较大的进展.而当前基于卷积神经网络立体匹配方法的一个主要的问题就是如何有效的利用环境信息.一些研究尝试结合语义信息去优化匹配代价和视差图.如利用来自目标结构的三维模型信息去处理匹配中有歧义点的Displets方法[3].而ResMatchNet为了提高不适定区域的表现，去学习计算视差图的反射置信度[4].GC-Net采用编解码结构，充分利用几何特性建立匹配代价卷，混合多尺度上下文的特征信息来调整匹配代价[5].

立体图像与深度数据存在互补性.首次将三维激光雷达和立体视差估计融合的是PARK等[6]提出的CNN Fusion；DFuseNet使用一种与以前的图像比较网络相似的双分支编码器设计，基于空间金字塔结构分别做稀疏深度数据和彩色图像的编码[7]；LiStereo可以以自我监督的方式训练模型，从而减少传统方法中必须收集大量基准真实标签的代价[8].

本文提出一种适用于火星局部地表近场景的立体匹配算法，基准模型是HSMnet[9]，并且将稀疏深度数据作为辅助信息输入以增强HSMnet的性能.HSMnet是一种基于深度学习的立体匹配方法，该方法提出一种具有分层结构的神经网络模型，这种分层结构运算复杂度低，定位精度高.由于火星局部地表有形貌原始自然、色彩单一和纹理相似度高的特性，一般的双目立体匹配算法难以找到准确的匹配点，生成精准视差图，针对这个问题将稀疏深度信息融合进立体匹配算法，提高生成视差图的准确度.

主要内容如下：

1)针对火星局部地表目标定位任务，本文以HSMnet为基础提出了一种深度融合立体匹配方法，能够在不损失精度的情况下降低模型计算复杂度；

2)为减少匹配搜索空间大小以及解决多义性问题，本文使用条件匹配代价卷归一化来构建代价正则化；

3)本文将稀疏深度与立体图像进行结合，并将精准的稀疏深度信息与稠密的图像语义信息进行融合，可以获得精准稠密的深度图；

4)提出的方法在火星模拟场地测试数据集上能够以5FPS的速度完成高精度立体匹配定位.

1 方法

1.1 无人车的结构示意图和提出算法的总流程图

在本文的研究中，以获得火星局部地表目标的三维坐标信息为目的，为此提出了一种融合深度信息的立体匹配算法，将深度信息与双目相机获得的图像信息进行有效结合，从而能够精准的估计图像对应位置实际目标的深度信息.提出的方法以HSMnet为基础模型，结合CCVNorm和深度信息，从而解决火星局部地表纹理简单等特点造成的无法精确定位的问题.数据采集平台的结构示意图如图1所示，提出的算法的总体流程图如图2所示.

图1 无人车的结构图Fig.1 Structure diagram of pilotless vehicle

图2 融合深度信息的立体匹配算法流程图Fig.2 Algorithm diagram of stereo matching with depth information fusion

1.2 高分辨率分层立体匹配模型

由于火星地表探测平台有限的计算资源限制，且该任务近距离目标定位的特点决定了整体数据的像素视差分布在较大视差范围，所以在HSMnet端到端的框架的基础上，本文对匹配代价卷编码器与解码器的设计进行相应改进.模型的推理方式由粗到细，利用空间金字塔结构(SPP)，使特征感受野增大；在提取多尺度特征的同时，通过网络对高分辨率图像进行多次下采样，然后利用潜在的对应关系建立分辨率逐步提高的代价金字塔，大大减小了计算复杂度；为有效处理高分辨率的匹配代价卷，在视差的维度上进行三维卷积；对四维匹配代价卷进行细化搜索时，将视差通道进行下采样操作，这既降低了整体的计算复杂度，减少内存负担，又保持了算法较高的精度；同时设计了一个多尺度的损失函数，可以按需输出不同精度的视差图.

特征金字塔编码器：使用一个特征金字塔编码器来由粗到细地提取匹配特征.如图3所示，它采用一种具有跳连接的编码器-解码器架构，能够在保证粗尺度信息的同时有效地提取具有不同细节层次的特征.其特征编码器由具有4个残余块的自定义ResNet主干网组成，然后是4个SPP层，这能够在有限的计算资源与内存的情况下增大感受野.为保证火星局部地表目标定位的精度，我们适当减少对提取图像特征的下采样次数，在较高分辨率的特征基础上构建匹配代价卷.

图3 分层结构匹配代价卷编码器Fig.3 Matching cost volume encoder with hierarchical structure

匹配代价卷：在获取左右图像的这些特征后，结合水平方向上成对的潜在匹配对象间的视差，构建不同尺度的四维匹配代价卷.然后将4个匹配代价卷组成一个金字塔结构，每个匹配代价卷的空间分辨率越来越高，视差分辨率越来越高.不同于传统的三维匹配代价卷，构建的匹配代价卷不仅具有高度 H、宽度 W 和视差D，还具有表示特征通道数量C的维度，而对于编码器中的后续层，该维度会增加.

匹配代价卷解码器：三维卷积由输入通道数、输出通道数和步幅定义，而匹配代价卷由通道、视差通道、高度和宽度定义.将三维卷积“块”定义为具有残差连接的2个三维卷积.匹配代价卷解码器如图4所示，四维匹配代价卷先经过6个三维卷积块过滤；为了减小计算复杂度，同时保证较高的精度，我们在一部分解码器中对匹配代价卷沿着视差通道进行下采样操作；接着像特征提取的情况一样，应用体金字塔池化(将其扩展到四维匹配代价卷)来生成能够为高分辨率输入捕获足够的全局上下文信息的特征；对输出进行三线性插值上采样，以获得更高的空间(和视差)分辨率，从而可以将其与金字塔中的下一个四维匹配代价卷融合；为了获得从当前比例计算出的按需视差，使用另一个三维卷积块对输出进行处理，以生成三维匹配代价卷输出.此匹配代价卷可以在计算金字塔下游的后续匹配代价卷之前直接输出视差.

图4 分层结构匹配代价卷解码器Fig.4 Matching cost volume decoder with hierarchical structure

多尺度损失函数：本文在训练阶段设计了多尺度的损失函数以训练网络进行不同尺度的预测，可以按需输出不同精度的视差图.如式(1)按比例调整损失以考虑不同尺度的空间分辨率，L1到L4分别表示从最精细水平的损失到最粗糙水平的损失.

(1)

1.3 条件匹配代价卷归一化[10](CCVNorm)

由于火星局部地表纹理简单、相似度高等特点，基于单一数据源的立体匹配方法难以提取有用的特征，不能获得稳定且精确的定位，所以利用深度信息与立体图像互补的优势，在立体匹配网络的代价正则化阶段用条件匹配代价卷归一化来代替批量归一化层，以激光雷达获取的稀疏深度信息为条件调制匹配代价卷特征F，减少匹配的搜索空间大小并解决多义性问题.由于作为条件输入稀疏视差图其像素间的值不断变化，按像素选择不同的归一化参数不但需要一种替代策略来解决稀疏视差图中包含的无效信息，而且稀疏视差有效值对于匹配代价卷中不同视差级应有不同程度的作用.

(2)

(3)

(4)

图5 HierCCVNorm结构图Fig.5 Structure diagram of HierCCVNorm

(5)

(6)

1.4 输入融合

由于火星局部地表纹理相似度高难以精确定位，对于获取的稀疏深度信息，先将其重投影到左右图像坐标系下，再利用三角化原理转化为对应的视差，从而形成与立体图像相对应的两个稀疏视差图，如图6所示，将它们分别与对应的立体图像连接起来，以通过联合推理外观和几何信息来丰富表示.

图6 输入融合结构示意图Fig.6 Schematic diagram of input fusion structure

2 实验

2.1 数据集和参数设置

数据采集平台使用双目导航相机采集双目RGB图像，有方形视场，为50.28°×50.28°(对角线视场71.1°)，成像范围大于0.5 m，图像的有效像素数为2 048 pixel×2 048 pixel，像素位为8位；激光雷达规格为40线，测距能力120 m，精度(典型值)为±2 cm，水平视场角为360°，垂直视场角为40°；ToF相机有方形视场，水平视场角67°，垂直视场角51°，分辨率为640 pixel×480 pixel，测距能力0.5 m到5.5 m，准确性(典型)为±5 mm.

本文数据集来源于火星模拟场地，使用双目导航相机采集成对的RGB图像，图像的分辨率为2 048 pixel×2 048 pixel；使用激光雷达采集到的三维点云，转换坐标系到左右导航相机视角下，然后转换为分辨率2 048 pixel×2 048 pixel的深度图，得到稀疏激光雷达深度图，作为稀疏深度输入到模型；使用ToF相机采集稠密深度图，转换为三维点云，再转换坐标系到左导航相机下，然后转换为分辨率2 048 pixel×2 048 pixel的深度图，作为模型标签.使用Pytorch构建提出的模型，初始学习率设置为为0.001，每隔50个Epoch将学习率乘以0.1，batchsize设置为2，总的Epoch设置为100.使用40对数据作为测试数据集，并在测试数据集上计算深度均方根误差(depth_RMSE)、深度平均绝对误差(depth_MRE)和三像素误差(err_3px)评估模型性能.

2.2 对比实验

在对比实验中，为了证明提出方法的有效性，与GCnet+CCVNorm、HSMnet进行了对比实验，详细实验结果见表1.从表1可看出，提出的方法在评估指标上优于其他方法，尤其是在depth_RMSE评估指标上，本文提出的方法能够带来明显提升.如图7所示，对于RGB图像中与沙地纹理相似的方块，本文的方法得到的视差图比GCnet+CCVNorm与HSMnet得到的视差图在边缘部分拥有更加清晰的细节，而且在纹理高度相似的沙地区域，能得到更加平滑的效果，证明了该方法的优势.

表1 火星模拟场数据集上的对比实验结果Tab.1 Comparison of experimental results on the Mars simulation field dataset

图7 火星模拟场数据集上的实验结果对比图Fig.7 Comparison of experimental results on the Mars simulation field dataset

2.3 消融实验

为了证明提出的各个模块在火星数据集上立体匹配性能，故分步去除每一个模块，以测试每个模块的性能.从表2中的实验结果可以看出，每一个模块都能带来明显提升，将输入融合(IF)加入到HSMnet中时，depth_RMSE降低了2.04 mm，depth_MAE降低了1.65 mm，说明输入融合的方法在我们的数据集上近场景条件下得到了明显提升.在加入CCVNorm之后所有评估指标均得到改善，证明提出的融合方法的有效性.

表2 消融实验结果Tab.2 Results of ablation study

3 总结

文章针对火星局部地表定位任务，针对需要定位的目标例如稀松土壤、不规则岩石，提出一种融合深度信息的火星局部地表图像立体匹配方法.利用空间金字塔特征提取模块聚合不同尺度和位置的上下文信息，利用分层立体匹配架构构建多尺度的匹配代价卷，用条件代价卷归一化代替批量归一化层，在立体匹配网络的代价正则化阶段以深度信息为条件调制匹配代价卷特征，实现稠密像素级的精确定位，为语义地图构建及火星车导航行进任务提供数据支撑.通过在火星模拟场数据集上的训练与测试，表明所提出方法在火星局部地表下的优势.