基于联合检测‑描述的火星表面特征提取方法

2022-12-25何超群胡茄乾

南京航空航天大学学报 2022年6期

何超群，胡茄乾，刘洋，李爽

（1.南京航空航天大学航天学院，南京 211106；2.北京控制工程研究所，北京 100190）

近年来，随着航天技术的不断发展，人类在深空探测方面进步卓越，火星作为离地球最近的类地行星自然成为了探测的首要目标［1］，中国“天问一号”也已经成功着陆火星开始火星地表探测任务。受火星的大气不确定性和复杂的气候影响，火星的进入、下降和着陆段（Entry，descent and landing，EDL）是着陆器最容易出现故障的阶段。要在复杂的火星地理环境和较高的下降速度［2］下能够实现安全着陆，火星探测器必须具备高精度的、实时的、鲁棒的导航定位能力。为了提高着陆精度，视觉辅助惯性导航方法在火星着陆任务中得到越来越多的应用。由于光学图像包含丰富的信息、卫星及降落相机所拍摄图像分辨率的提高以及近年来相关视觉技术的发展，图像匹配技术能够很好地解决探测器着陆精度、实时性和鲁棒性不足的问题。

建立图像之间的像素点级别的匹配对应是计算机视觉辅助导航的基本任务之一，是三维重建、视觉定位导航、图像检索等工作的前提条件。经典的特征提取方法，如尺度不变特征变换（Scale‑in‑variant feature transform，SIFT）检测算法［3］、Harris角点检测算法［4］等，都是遵循了“先检测再描述”的过程原则，即首先通过特征检测器处理得到一系列关键点或兴趣点，之后基于这些关键点和它们邻域的图像信息，通过特征描述符描述出独特且明显的特征［5］。Trawny 等［6］对SIFT 关键点用欧式距离作为度量进行匹配，使用扩展卡尔曼滤波算法优化，可以不依赖陨石坑等具有特定几何形状的地貌，然而该方法不具有光照不变性。Delaune 等［7］则用Harris‑Laplace 特征点检测算法提取坐标，通过几何匹配算法进行定位，该算法的实时性好于SIFT 特征匹配，但匹配精度不满足探测器着陆需求。陶江等［8］提出使用加权处理的多维特征描述子，通过主要成分分析（Principal component analy‑sis，PCA）降维提高了匹配速度，增强了复杂火星地貌下传统算法的匹配鲁棒性。

随着计算机技术，尤其是人工智能科学的发展，人们发现卷积神经网络（Convolutional neural network，CNN）能得到更深层次的特征图，能在更高层次的信息领域进行特征提取与描述，卷积方法在计算机视觉领域得到广泛应用。Zeiler 等［9］对基于ImageNet 的卷积神经网络的各层模型工作原理进行了分析，揭示了各层网络在图像处理中的不同贡献，并基于这些发现提出了对特定卷积网络的改进方法。Yi 等［10］使用深度网络，基于稀疏特征点描述了不同图像间的运动对应关系，揭示了特征点与不同图像的层次间的联系，但是需要提前知道相机的内参函数，限制了适用范围。Dusmanu 等［11］结合Hard 类特征提取方法和Soft 类特征提取方法，对基于卷积神经网络的低阶描述方法进行改进，提出了Describe‑and‑detect 方法，在具有挑战性的亚琛日夜数据集上得到了良好的表现。Tian等［5］提出了不同框架下卷积特征描述符的性能评判标准，即绝对显著性和相对显著性两个方面，为特征检测与描述任务建立了新的Describe‑and‑Detect 框架。基于卷积网络得到的编码特征表征能力有限，陈俊芬等［12］通过改善网络结构和损失函数，提高了特征聚类性能，在简单的数据集下取得了良好的效果，但是在背景变化大，不确定性因素较多的情况下，准确率较低。Re‑vaud 等［13］引入自监督学习，将特征的检测可重复性和描述可靠性关联训练，提高了检测准确率，并且通过Style Transfer 增强了网络对抗光照变化的鲁棒性。李海丰等［14］将可变形卷积与特征融合相结合，加入多尺度模块，各模块独立组成DFNet，提高了背景存在干扰因素时的检测准确率，但是花费检测时间较长，不能满足实时性要求。Lee［15］提出基于U‑Net 的陨石坑检测算法，能够在普通数据集中自动检测出约75%的陨石坑数据，实现无人工辅助标注。Yang 等［16］建立了MDCD 火星陨石坑数据集，提出了高分辨率特征金字塔网络，网络主干加入特征聚合模块，提高了小型陨石坑特征提取能力。文献［15‑16］验证了卷积网络在火星图像处理上的可行性，但是仍然处于线、面特征检测阶段，无法在没有陨石坑的场景下推广应用。

本文采用的联合检测‑描述方法，旨在火星表面登陆这一具有挑战性的视觉导航任务中，得到最佳的稀疏特征集，并能够有效地储存和利用在匹配工作中。使用卷积神经网络生成原始图像的特定映射，在具有深层信息的映射上进行特征描述符的计算和特征点的提取，改进损失函数，将检测与描述紧密联合起来。这种检测方法，对于具有不同局部特征描述符的像素点，也能提取更好的适用于匹配任务的特征点，提高匹配的准确率。

1 数据获取与可训练数据集的建立

1.1 数据获取

本文选取青海省海西州大柴旦红崖地区作为模拟着陆区，利用Blender 模拟了火星着陆的过程，获取了模拟的着陆视频。使用Blender 调用地理信息系统（Geographic information system，GIS）插件，截取部分区域的数字高程模型（Digital elevation model，DEM），细化后恢复其三维模型，再将其通过矫正的色彩信息贴在三维模型上，完成对着陆区域的建模。建模结果如图1所示。

图1 着陆区建模结果Fig.1 Modeling results of the landing zone

在获取着陆区域的模型后，创建一个相机，通过设定速度和旋转生成一条轨迹，将此场景创建为一个动画则可获得模拟的火星着陆视频。视频共250 帧，可获得250 张图像，如图2 所示。部分获取的火星着陆图像如图3 所示。

图2 添加相机着陆模拟动画结果Fig.2 Results after adding simulated landing animation of the camera

图3 模拟成像结果(部分)Fig.3 Results of certain simulated images

1.2 训练数据集的建立

图像的特征提取是像素级别的处理与操作，为了生成像素层面匹配的训练数据，通过对仿真火星下降段着陆过程中，视觉传感器拍摄得到的视频，进行逐帧的图像提取，获得了原始的图形数据，包含250 张不同位置、不同角度、不同光照条件的图像，同时加入挑选自Mars32k 数据集中的873 张火星地表图像。使用COLMAP 工具对这些图像进行处理，可以得到多视角立体成像的相机参数和深度图。为了提取匹配的特征信息，首先只选择稀疏SFM 点云（图4）中重叠度超过50%的图像对（每一对包含两张图像）。事实上，由于着陆器的运动连续性，以及获取到图像的所属帧的连贯性，绝大多数图像之间都满足这一条件。对于每一组图像对，将第2 张图像上具有深度信息的点投影到第1张图像中，对第1 张图像的深度图进行深度检查，移除被遮挡的像素点。最后得到可以输入到卷积神经网络中，用来训练和验证的火星表面特征数据集。

图4 火星表面（部分）稀疏SFM 点云Fig.4 Sparse SFM point cloud of part of the Martian surface

COLMAP 可以使用高精度的SFM 算法处理生成高质量的3D 模型，对于每一张输入的需要重建的图像，COLMAP 都能够先生成其深度图Di，对于不能计算深度的像素点会用空点云代替，还能输出包括相机参数、稀疏SFM 点和相机视角等参数。COLMAP 原始产生的映射数据包含很多误差，主要包括：（1）只出现在一张图像中的瞬时物体被分配的错误深度；（2）噪声引起的深度不连续性；（3）背景物体对前景物体的溢出影响。目前已有的类似多目立体视觉（Multiple view stereo，MVS）方法均会产生这些误差，并会严重降低接下来的训练过程的精确度。文献［17］设计了一种基于COLMAP 的改进MVS 方法，基于优先选择更少的训练数据集从而减少训练效果不好的数据的原则，算法在深度估计步骤更加保守，通过应用中值过滤器，在迭代计算的每个阶段，都会试图确保临近的深度估计具备几何一致性。

2 联合检测‑描述的特征提取方法

经典的“先检测再描述”方法需要2 个阶段，即分离的检测阶段和描述阶段，一定程度上增加了计算量并带来特征弱关联性，导致特征匹配在诸如拍摄角度变化、火星光照变化等环境下精准度下降，为视觉辅助导航带来了挑战。不同于两阶段的传统方法，联合检测‑描述的方法通过卷积神经网络进行密集的特征提取，获得了兼具特征检测器和特征描述符的表示，因为检测器和描述符共用图像底层和高层信息，称之为联合检测‑描述方法。

2.1 联合检测‑描述流程

联合检测‑描述方法基于卷积神经网络对原始图像进行一系列计算，方法结构如图5 所示。

图5 联合检测-描述方法结构图Fig.5 Illustration of joint detection-description

首先对输入的图像I使用卷积神经网络C处理，卷积网络采用不包含全连接网络的VGG16 结构模型，得到三维张量F如下

基础的深度卷CNN 包含卷积、激活和池化3个部分。卷积部分是CNN 的基础部分，对于图像的单个通道，卷积核在其x、y方向上按照特定的步长平移，将对应卷积空间中的数字信息与自身核的权重相乘，并加上一定的偏置，作为映射特征图上新的特征信息，可以表示为

式中：p×q为卷积核的大小；ωi为卷积核的权重；vi为每一步卷积核对应的图像像素信息；bi为每一个卷积核的偏置项。在一般卷积操作完成后，得到的特征图尺寸是经过压缩的。为了保证特征图与原图像尺寸相同，可以采用填充的方式处理。全零填充是最常用的填充手段。如图6 所示，通过在原始图像周围一定范围内使用0 填充本来不存在的像素单元，并实际参与到卷积核的运算中，就可以保证特定步长下输出的特征图尺寸与原图相同。

图6 全零填充示意图Fig.6 Illustration of same padding

卷积模块整体是线性运算，无法满足特征提取的特定需求，需要通过激活模块进行非线性化。激活函数是具有不同特点的非线性函数，常用的激活函数有Sigmoid 函数、tanh 函数、ReLU 函数等。即使是激活后的特征图，也含有很多冗余的空间信息，通过池化操作，对特征图进行降采样操作，可以有效降低特征空间，减少低层特征的参数，提高深层空间特征提取的深度，这一操作可以认为是降低分辨率的过程。

传统的检测方法通过筛选去除非局部最大值的操作来稀疏化特征表示，而卷积得到的特征图是多维的，即存在多个映射图Dk(k=1，2，…，n)，这就意味着检测点可能是多维映射图中的不确定的某一个，对此，检测点需要满足的条件为

式中：Dk对应图5 中特征图的其中一个通道，取n=512，则共有512 层特征图，对应一个特征点的描述符为［512，1］大小的向量。

2.2 改进损失函数

为了训练上文描述的模型，在网络同时执行检测与描述任务的要求下，能够将网络训练调整到良好地适应不同的任务，需要一个合理的损失函数来联合优化检测和描述的目标。在检测过程中，要在火星着陆环境这种视角、光线变化频繁的场景，也能检测到稳定的特征，应该追求特征检测器的绝对显著性，特征点应该具备高信息性、高精准性和高质量。在描述过程中，为了在匹配阶段提高准确率，应该追求特征描述符的相对显著性，即描述符在其邻域内具有高区别性，不易与其他特征混淆。综合特征点的绝对显著性和相对显著性，定义影响损失函数的主要标准为

式中：SAS(x，y)为检测点(x，y)处的绝对显著性；SRS(x，y)为检测点(x，y)处的相对显著性。相对显著性代表了特征点的独特性，表示特征点相对其附近的点和其他特征点具有差别，以提高特征检测阶段的准确率，在本文提出的网络中，其计算方式为

式中：p为点(x，y)处的卷积值；(x'，y')为以点(x，y)为中心的3×3 范围内的点的集合。绝对显著性代表了特征点的信息性，表示在不同时刻下的图片，同一对特征点的描述相似程度。绝对显著性越强，特征描述符越有效，匹配准确率越高，其计算方式为

3 仿真和结果分析

试验首先将火星表面图像数据库进行处理，得到可供卷积神经网络训练的数据形式。然后对神经网络进行训练，将网络结构、权重参数保存到模型文件，调用离线学习好的模型，便可以对输入的火星图像进行特征提取。最后将提取到的特征信息用于匹配阶段，验证联合检测‑描述方法提取到的特征点的实用性。本试验采用的操作平台硬件信息为Intel i5 CPU，主频2.8 GHz，显卡为NVID‑IA GTX 1050ti 4G，显卡官方CUDA 算力为6.1，内存大小16 GB。软件则采用Windows 平台，在Python 开发环境下，使用Pytorch 工具包搭建所需的神经网络模型，使用Pycharm 软件进行运行与调试。训练参数方面，将学习率设置为0.001，batch size 大小设置为1，训练Epoch 为10 代。

3.1 特征提取与描述仿真结果

从仿真火星下降图像中，选择6 组图像作为测试对象。将高度较高的2 张图像作为图像对1；高度较低的2 张图像作为图像对2；角度变化较大的2 张图像为图像对3；光照变化较大的2 张图像为图像对4，高度、角度变化均较大的2 张图像为图像对5，高度、光照变化均较大的2 张图像为图像对6。表1 是联合检测‑描述方法提取到的特征点与使用SIFT 算法提取得到的特征点信息对比。

从表1 可以看出，图像对1 由于处于高度较高的位置拍摄得到，原始图像包含的地貌特征较多，纹理复杂，特征点信息数量充足，联合检测‑描述方法在这个场景下提取到的特征数量与SIFT 提取到的结果相差较小。在图像对2 中，由于拍摄海拔低，特征纹理少，联合检测‑描述方法得到的特征数量高于SIFT 方法112.9%，验证了联合检测‑描述方法在一般场景下的有效性。图像对3～6 则是高度、角度、光照变化较大的场景，本文提出的方法在检测数量和匹配数量上均优于SIFT 方法，具体匹配结果分析见3.2 节。

表1 特征点提取结果数量表Table 1 Results of feature point extraction

3.2 特征匹配仿真结果

在这个试验中，考虑一个标准的图像匹配场景，即给定2 张图像，分别借由联合检测‑描述方法和SIFT 工具对其进行特征提取，然后根据统一的匹配准则进行特征匹配。匹配方法是对于每一组图像对，都使用最邻近搜索［18］对已有的特征点搜索匹配，且只保留一组图像对中2 张图像均满足最邻近要求的结果。对于一组匹配的重合投影误差，当误差小于给定的阈值时，即认为匹配成功，并将匹配正确率作为测试准确率的评价标准。

图像对1 中的2 张图像，拍摄时间间隔为4.2 s，图像对2 中的2 张图像，拍摄时间间隔为2.1 s。图7 和图8 分别展示了第1 组图像对和第2组图像对的特征匹配结果。

图7 图像对1 匹配结果对比Fig.7 Matching results of Pair 1

图8 图像对2 匹配结果对比Fig.8 Matching results of Pair 2

图像对1 的匹配中，联合检测‑描述方法共生成1 362 组匹配对，SIFT 共生成1 753 组匹配对，两者准确率分别为100% 和99.8%，可以看出经典方法存在4 个明显的错误匹配。图像对2 的匹配中，联合检测‑描述方法共生成66 组匹配对，SIFT 则只生成了31 组匹配对，相对少了55%。且联合检测‑描述的方法准确率为99.7%，而使用SIFT 算法生成的特征点进行匹配，准确率只有87.1%，对重建和导航工作的精准度产生了不良影响。从试验结果可以看出，联合检测‑描述方法在火星表面图像特征提取、特征描述方面拥有更好的表现，其结果用于特征匹配阶段也能得到相较经典方法更高的准确率，体现了联合检测‑描述算法的优越性。

图9 中，左右图像在平移的基础上相机存在3°的角度变化。两种方法的匹配结果如图9 所示，SIFT 匹配结果较为稀疏，存在大量的特征点提取出来却无法匹配的情况，而联合检测‑描述方法依然可以获得稠密的匹配结果。

图9 角度变化下图像对3 匹配结果Fig.9 Matching results of Pair 3 when the shooting angle varies

如图10 所示左右图像在图9 的变化基础上增加了光照的变化。当光照变化较大时，SIFT 提取到的特征描述，在匹配阶段完全失效，而联合检测‑描述方法却依然能够获得260 个匹配点对。图9 和图10 展现了联合‑检测描述方法对视角变化和光照变化的高鲁棒性，体现了联合检测‑描述方法在火星复杂场景下的优越性。

图10 光照变化下图像对4 匹配结果Fig.10 Matching results of Pair 4 when the light varies

4 结论

深空探测由于其通信不便等特殊性，对航天器、探测器的自主性要求也更高。本文针对火星探测器着陆过程中的光学导航问题，以提高光学测算准确性、稳定性为出发点，提出了联合检测‑描述的特征提取、描述方法，使用一个卷积神经网络通道，同时实现了特征提取器和特征描述符的功能，解决了视角变化较大和光照条件变化较大的情况下，火星着陆器下降过程图像特征处理困难问题。仿真证明，本文的卷积神经网络结构能对训练数据库进行良好的线下学习，并能离线地对特征进行提取和描述，提取到的特征用于特征匹配阶段，也能获得更高的匹配准确率，且具有良好的鲁棒性。未来，提高算法的运行速度，促进人工智能算法在深空探测的实际应用，也是需要关注和研究的重点。