多层渐进式特征对齐网络优化的空地影像稳健匹配

2023-10-17张欢黄涛许俊杰徐川杨威

计算机工程 2023年10期

张欢，黄涛，许俊杰，徐川，杨威

（1.湖北工业大学计算机学院，武汉 430068；2.武昌首义学院信息科学与工程学院，武汉 430064）

0 概述

精细化三维模型作为地理空间信息的重要表征，在智慧城市建设的城市规划、管理和交通等方面发挥了关键作用，倾斜影像等航空影像因具有大范围的场景感知能力而成为当前城市精细化三维建模的常用数据源。然而，在复杂城市区域（如遮挡问题严重的高楼密集区），视角变化、遮挡等因素导致基于航空影像生成的三维模型容易出现边缘不准确、孔洞以及建筑物立面纹理模糊等问题，因此，单一的空中影像并不具有复杂的建筑立面表示能力，而地面影像作为空中视角的重要补充，发展联合空地影像的三维建模可有效解决立面纹理模糊和模型孔洞问题。为满足联合空地影像的三维建模需求，首先需要解决空地影像的匹配问题。然而，由于拍摄角度的不同以及光照的差异，导致空地影像间存在较大视角差异以及同名区域遮挡和畸变问题，给空地影像特征匹配带来了极大的困难［1-3］。

目前，图像匹配方法大致可以分为3类，即基于区域的匹配、基于特征点的匹配以及基于深度学习的匹配。

基于区域的匹配方法通常采用一个合适的区域相似性度量策略来进行图像间的像素级匹配。该类方法计算成本高，对尺度变化及视角变化比较敏感［4-6］。

基于特征点的匹配方法主要通过度量特征描述子的距离来实现特征点匹配，从最初的基于图像灰度的角点检测算法Harris［7］以及SIFT（Scale Invariant Feature Transform）算法［8］开始，特征匹配方法应用广泛，发展迅速，相继出现了ORB［9］、PCA-SIFT（Principle Component Analysis SIFT）［10］、SURF（Speed Up Robust Feature）［11］、ASIFT（Affine SIFT）［12］、联合对数极坐标描述与位置尺度特征［13］且局部结构约束的相位一致性匹配［14］等匹配方法。这些方法对尺度、旋转、视角变化有一定的适应性，对计算时效性也进行了有效的探索，但是在存有显著视角差异与畸变的空地影像匹配上，这些方法匹配效果较差甚至匹配失败。

随着人工智能的兴起，深度学习在图像匹配中的应用越来越广泛，相继出现了基于学习的不变特征变换LIFT 方法［15］、基于深层特征匹配的DFM 方法［16］、基于全卷积特征图像块描述的Siamese 网络［17］、基于图神经网络的SuperGlue 方法［18］以及联合梯度描述符的空天匹配网络［19］等方法。借助深度学习强大的特征学习能力，这些方法在视角变化较小时匹配性能较好，但是由于网络结构的特殊性以及未充分利用特征信息，导致这些方法对空地影像匹配的泛化性不够。

空地影像匹配的视角差异及同名区域遮挡导致匹配识别同名点较少甚至匹配失败等问题。如何提高空地影像同名区域的特征提取能力与匹配能力，构造空地视角特征的有效描述，实现空地影像稳健匹配，具有实际研究与应用价值。本文借助深度学习高层的语义特征来构建空地特征的可靠描述，以进行粗匹配。利用粗匹配结果变换地面影像到空中视角，然后在空中视角上进行多层的匹配与优化。在此基础上，提出一种多层渐进式匹配网络优化的空地影像稳健匹配方法（MLFM），以克服空地匹配时存在的视角差异与畸变问题，实现空地影像的鲁棒匹配。

1 改进DFM 方法

DFM［16］作为主流的图像匹配方法，将预训练过的ResNet101 网络作为图像局部特征的提取器，通过融合高层语义特征和低层局部特征来优化图像匹配过程，在倾角差异小的影像上取得了鲁棒的匹配效果，成为图像匹配领域一个新的范式。因此，本文算法借鉴DFM 方法相关的匹配思想。

空地影像由于拍摄角度的不同以及光照的差异，往往会给图像匹配任务带来同名区域遮挡和畸变等问题，而遮挡区域和畸变区域由于局部邻域在空中和地面影像的表现形式不一致，因此需要较大的感受野或大尺度特征来捕捉稳定的特征描述。而在非遮挡区域和非畸变区域，空地影像同名点相同邻域的特征趋于一致，小尺度特征即可构成空地影像间的一致性描述，因此，此时不宜采用过大的尺度特征来进行同名点间的特征描述。为了兼顾小尺度特征和大尺度特征，本文采用能聚合多尺度特征的EfficientNet 预训练模型来进行空地影像间的特征描述。EfficientNet 通过对网络深度和网络宽度的探索，利用一组缩放系数统一缩放这2 个维度，较好地融合了不同尺度的特征，在ImageNet 数据集上的分类Top-1 准确率远高于相同参数量级的其他网络，说明了EfficientNet 具有强大的特征提取能力。

2 多层渐进式对齐网络匹配方法

本文提出的MLFM 匹配方法包括3 个步骤：

1）图像特征图生成。将待匹配图像A、B 传入EfficientNet-B3［16］预训练网络模型中进行前向传播，得到图像A、B 的多层特征图。

2）高层特征图粗匹配。首先，对A、B 的高层特征图进行展平操作，得到特征图上多通道的所有像素点分数；然后，在多通道特征图上计算匹配图像到待匹配图像上每个像素点的距离并作为相似度匹配结果，取相似度高的两组匹配点对，采用最近邻距离比率的方法进行相似度度量，满足的点作为初始匹配点保留到同名点集中。

3）多层特征图匹配与优化。首先，在上一步得到的初始匹配点对上计算由图像B 到A 的单应矩阵，在图像B 上运用该单应矩阵得到与A 近似视角的变换图像C；然后，在多层特征图上对图像A 和C进行匹配和优化，得到图像A、C 上精确的匹配点对；最后，运用单应矩阵逆变换得到A、B 上的匹配点对，将其作为最终的匹配点集。

本文MLFM 方法整体流程如图1 所示（彩色效果见《计算机工程》官网HTML 版）。

图1 多层渐进式匹配网络优化的空地影像匹配流程Fig.1 Procedure of aerial-ground images matching optimized by multi-layer progressive matching network

2.1 高层特征图粗匹配

2.1.1 高层特征图生成

由于空地影像间具有显著的视角变化，导致影像间存在较大的几何畸变、同名区域遮挡等问题，从而使得基于梯度主方向的匹配方法效果较差甚至匹配失败。近年来，卷积神经网络在图像分类、图像分割、图像去噪等任务中取得了优异的效果，体现了卷积神经网络强大的特征提取能力，而EfficientNet-B3［20］网络作为其中的一员，在ImageNet［21］数据集上的分类Top-1 准确率远高于DenseNet-201［22］、ResNet50［23］等具有复杂结构的网络，充分说明轻量化网络EfficientNet-B3 具有强大的特征提取和语义理解能力。

考虑到高层特征图包含充分的语义信息，本文在EfficientNet-B3［20］模型上抽取第7 层作为粗匹配特征图，用以计算初始的单应变换。

2.1.2 特征图粗匹配

在获取影像A、B 的第7 层512 通道特征图FMA、FMB后，对特征图进行展平操作，获得特征图上每个像素点在512 通道上的分数，记为FFP，A、FFP，B，对2 个多通道分数图进行相似性匹配，计算分数图A 上每个点到分数图B 上每个点的分数，如式（1）所示：

式（1）记录了分数图A 上每个点到分数图B 上每个点的匹配结果，值越小，相似度越高，取相似度最高的两组匹配点对，采用最近邻距离比率的方法去除匹配置信度低的匹配点对，如式（2）所示：

其中：MMPF，A2B为相似度图MMP，A2B中匹配相似度最高的匹配点对分数；MMPS，A2B为相似度图MMP，A2B中匹配相似度次高的匹配点对分数；RA2B为两者的比值，该值小于预设的ratio 值（本文取0.99）时则接受该匹配，否则拒绝该匹配。记图像A 到图像B 的匹配点集为PPT，A2B。

用相同的方法计算MMP，B2A和RB2A，进而得到图像B 到图像A 的匹配点集为PPT，B2A。取PPT，A2B和PPT，B2A的交集作为粗匹配最终点集InitP。

2.2 渐进式匹配与优化

渐进式匹配与优化可以分为如下3 个环节：

1）初始单应矩阵计算。对粗匹配点集采用RANSAC［24］策略计算初始单应变换矩阵。

2）变换图像匹配。利用计算的初始单应矩阵将地面影像转换到近似空中视角的影像上，然后在相同视角下进行特征图的相似性匹配。

3）多层特征图匹配与优化。在每一层特征图上都进行当前层特征图匹配和对上层匹配点集矫正的操作，最终得到准确的匹配点集。

渐进式匹配与优化示意图如图2 所示。

图2 渐进式匹配与优化示意图Fig.2 Schematic diagram of progressive matching and optimization

2.2.1 初始单应矩阵计算

在得到粗匹配点集后，采用RANSAC［24］算法来计算初始单应矩阵。RANSAC［24］算法采用迭代的方式从一组包含错误数据的被观测数据中估算出数学模型的参数，其计算公式如式（3）所示：

其中：p表示RANSAC［24］算法模型被接受的概率；ω表示数据在内点集中的概率，ω取0.99；k表示迭代次数，本文最大迭代次数取5 000。将RANSAC［24］算法计算得到的单应矩阵MInit作为初始变换矩阵。

2.2.2 视角变换图像匹配

在空地影像匹配上，图像间存在较大的视角变换，导致同名点间匹配困难。因此，本文利用粗匹配计算的初始变换矩阵将地面影像转换到空中视角上，记图像为C，然后在同一视角下完成后续的匹配任务。

2.2.3 多层特征图匹配与优化

在得到空中视角图像C后，计算图像C 的特征图，记为FMC，然后计算2 个同一视角特征图在倒数第2 层到第1 层上的匹配，同样采用双向最近邻匹配策略和最近邻距离比率的方法来抑制置信度低的匹配点。由于特征图层数每减少1层，特征图长宽则扩大1倍，此时需要上采样匹配点到上一层进行匹配点纠正，本文采用均化上采样，可有效平滑上采样误差，提高匹配精度，如式（4）所示：

其中：PPts，A，C为图像A、C 在本层特征图中的双向匹配结果；为本层特征图在上层特征图上采样后得到的匹配点映射。然后，对映射的匹配点进行矫正以及计算本层的匹配点，采用八邻域矫正，如式（5）所示：

其中：MSA，C(i，j)为匹配分数；FMA(i+m，j+n)为空中影像特征图上匹配点周围八邻域点分数；FMC(i+m，j+n)为视角变换影像特征图上匹配点周围八邻域点分数。当邻域中有分数小于原匹配点分数时，将最小分数对应的匹配点对作为矫正后的匹配点对，对上层匹配点矫正后，将矫正后的匹配点与本层匹配点同时传入上层进行匹配与矫正，重复上述操作，得到最终的置信度高的匹配点集。

3 实验结果与分析

为验证MLFM 方法的性能，将其与当前比较先进的SIFT［8］、D2-net［25］、DFM［16］等方法进行对比，采用同名点匹配数量（Number of Correct Matches，NCM）、匹配所用时间和均方根误差（Root Mean Square Error，RMSE）指标来衡量算法性能。本文借鉴已有研究通过仿射变换模型求解影像之间对应关系的思路，保留误差在3像素内的匹配结果且匹配同名点对不能少于4对。对比算法都在Window10 X64 操作系统下由Python 编译平台实现，设备处理器是Intel®CoreTMi7-10510U CPU 2.30 GHz，RAM 为24 GB。

3.1 数据源

本文选取具有重复纹理、倾角差异、区域遮挡和尺度差异等4 种不同模式的8 组空地影像来比较算法的匹配性能。其中，8 组影像均拍摄于湖北武汉的不同建筑，空地影像尺寸均为512 像素，测试图像如图3 所示。

3.2 结果分析

将MLFM 方法的匹配性能与SIFT［6］、D2-net［21］、DFM［13］等3 种匹配方法进行对比，匹配结果如图4～图7 所示。

图5 4 种方法在倾角差异影像上的匹配结果Fig.5 Matching results of four methods on tilt angle difference images

图6 4 种方法在区域遮挡影像上的匹配结果Fig.6 Matching results of four methods on regional occlusion images

图7 4 种方法在尺度差异影像上的匹配结果Fig.7 Matching results of four methods on scale difference images

由图4～图7 可知：SIFT 方法在空地影像上的匹配结果较差，误匹配点数量较多，总匹配点数量少于其他3 种方法，在重复纹理影像与倾角差异影像上匹配失败，本质上是由于SIFT 方法对特征点的描述基于梯度幅值的大小，而在空地影像中，同名点邻域梯度幅值变化较大，无法构成同名区域的共性描述，从而导致匹配失败；D2-net 方法对区域遮挡及尺度变换有一定的适应性，在倾角差异和重复纹理影像匹配中正确匹配点数较少，该方法在匹配点数量上与DFM 方法相当，逊色于MLFM 方法；DFM 方法在重复纹理影像上匹配效果很差，在同名区域遮挡影像上匹配效果较好，该方法匹配点数量优于SIFT 方法，与D2-net 方法相当，逊色于MLFM 方法，且匹配点分布较为集中；MLFM 方法在上述4 种情况下匹配性能均优于其他3 种方法，从整体上看，MLFM 方法匹配点数多于其他3 种方法，说明了多层渐进式网络能更好地捕捉空地影像同名区域间的共性特征，充分挖掘空地影像中较为重要的语义信息。

在图像匹配任务中，通常采用NCM 和RMSE 这2 种指标来衡量匹配算法的性能。本文也采用这2 种指标来进行量化分析，其中，RMSE 的定义如式（6）所示：

表1 统计了4 种方法在8 组空地影像匹配中的NCM 和RMSE 结果，其中，“/”表示匹配失败，最优结果加粗标注。

表1 4 种方法对8 组空地影像的定量匹配结果Table 1 Quantitative matching results of eight groups of aerial-ground images using four methods

由表1 可知：SIFT 方法匹配结果最差，在重复纹理影像上匹配失败，对视角变化和区域遮挡比较敏感，在倾角差异和区域遮挡影像上匹配近乎失败，总体匹配点偏少，平均NCM 为6.38，由此可知SIFT 方法对空地特征的一致性描述能力较差；D2-net 方法优于SIFT，平均NCM 较低，生成的匹配点较稀疏，且匹配点集中在相同区域，可知D2-net 方法对空地特征的描述能力一般，对尺度差异和区域遮挡适应性较差，导致匹配结果较差，平均NCM 为22；DFM 方法在8 组影像中成功匹配了7组，其中，在区域遮挡影像上匹配鲁棒性较好，可获取丰富的同名点，但该方法对具有较大尺度差异和重复纹理的影像对不够鲁棒，且生成的匹配点集中在同一区域，然而该方法的匹配点对具有较高的精度，平均RMSE 为1.16 像素，平均NCM 为18.57；MLFM 方法在8 组影像中都实现了成功匹配，其在重复纹理及倾角差异影像上匹配效果较好，平均内点数均多于其他3 种方法，且匹配点分布较为均匀，证明MLFM 方法使用的多层渐进式匹配网络可以充分挖掘区域特征的纹理信息，进而构成同名点间鲁棒的特征描述，平均NCM 为28.88，高于其他3 种方法，平均RMSE 为1.29 像素，略逊色于DFM 方法。

综上，MLFM 方法在重复纹理、倾角差异、区域遮挡和尺度差异等情况下均具有较好的鲁棒性，平均NCM 是SIFT 方法的4.5倍，是D2-net 方法的1.3倍，是DFM 方法的1.6倍。MLFM 的平均RMSE明显优于SIFT 与D2-net，略逊色于DFM 方法。由此可知，MLFM 方法在空地影像中可实现稳健匹配。

4 结束语

为解决空地影像匹配问题，本文提出一种MLFM 方法。首先通过多层渐进式匹配网络挖掘空地影像同名区域的共性特征，然后进行多层特征匹配与优化，最终得到准确的匹配点集。实验结果表明，在重复纹理、倾角差异、区域遮挡和尺度差异等不同模式的空地影像上，与SIFT、D2-net、DFM 等主流图像匹配方法相比，MLFM 方法取得了更优的匹配性能，在重复纹理和倾角差异等复杂场景下的鲁棒性更强。后续将提高MLFM 对区域遮挡和尺度差异的适应性，进一步提高算法性能。