APP下载

一种基于交叉注意力机制多模态遥感图像匹配网络

2023-10-22石添鑫曹帆之韩开杨邓新蒲

智能计算机与应用 2023年8期
关键词:图像匹配描述符卷积

石添鑫, 曹帆之, 韩开杨, 邓新蒲, 汪 璞

(国防科技大学电子科学学院, 长沙 410073)

0 引 言

近年来,多模态遥感图像匹配引起了广泛关注。该研究目的是在2 张或多张由不同的传感器、不同的视角或不同的时间获得的图像中识别同名点。 由于不同传感器成像机制、成像条件不同,多模态图像之间存在明显的非线性辐射失真(NRD)和几何畸变。 因此多模态图像之间精确匹配仍然是一个具有挑战性的问题。 最近研究表明,图像的结构和形状特性在不同的模态之间得以保留。 Ye 等学者[1]通过捕获了图像之间的形状相似性,提出了一种新的图像匹配相似度度量(DLSC),且与图像间强度无关。 虽然该研究方法在处理图像间非线性强度差异效果较好,但如果图像包含很少的形状或轮廓信息,则DLSC 的性能可能会下降。 基于此,Ye 等学者[2]又提出一种快速鲁棒的传统匹配框架,在所提框架中,图像的结构和形状属性由像素级特征表示,并将定向相位一致性直方图作为特征描述子,且获得了良好的结果。 但该框架无法处理具有较大旋转和比例差异的图像。 Li 等学者[3]发现相位一致性图(PC)具有很好的辐射鲁棒性,并构建最大索引图来削弱多模态图像的NRD 差异,提出了一种具有旋转不变性且对辐射变化不敏感的特征变换方法(RIFT)。 但是RIFT 方法不支持图像的尺度差异。Xie 等学者[4]提出了基于log Gabor 滤波的扩展相位相关算法(LGEPC),更好地解决了NRD 以及大尺度差异和旋转变换问题,但该方法配准精度不太令人满意。 这些传统方法均是人工制作的描述子,而这些描述子通常来自图像的外观信息,如颜色、纹理和梯度,难以表达更深层次和更抽象的特征。 此外,人工特征描述符的系数和最佳的参数需要大量的手动调整。 因此深度学习的方法渐渐受到人们的关注。

在图像匹配的领域,基于深度学习的算法吸引了许多关注[5-7]。 但是在多模态遥感图像匹配中,深度学习的方法并没有表现出极大的优势。 一方面,因为将图像匹配的任务重新设计为可区分的端到端过程是具有挑战的。 另一方面,正如文献[8]中所述,当前用于训练的本地多模态数据集还不够多样化,无法学习高质量且广泛适用的描述符。 目前该领域只有少量深度学习方法是针对多模态设计的,大多仅适用于某一种类型的跨模态,例如可见光与SAR 图像匹配、红外与可见光图像匹配等。 且现有的多模态匹配深度方法SFcNet[9]、CNet[10]普遍存在提取正确特征点个数较少的问题。

针对上述问题,本文提出一种基于交叉注意力机制的多模态遥感图像匹配网络(PCM)。 具体来说,利用相位一致性具有良好辐射鲁棒性,首先构建多模态图像的相位一致图(PC 图),然后利用Fast算法在PC 图上来获得更多、更稳定的特征点,接着通过交叉注意力机制学习多模态图像的共有特征,得到特征点的描述子。 最后,计算描述子之间的余弦距离,选取距离最短的点作为匹配点。 实验表明该算法在公开多模态遥感数据集上性能优异,且在其他领域的多模态数据上仍然有效。

1 背景知识

1.1 注意力机制

在2017 年,Google 团队在论文《Attention is all you need》[11]中提出了一个自我注意的结构。 这引起了巨大的反响,使注意机制成为最近研究的重要主题,该研究在各种NLP 任务中取得了成功,同时在视觉领域也开始尝试把自我注意的结构应用于各类任务中,如语义分割、图像分类、人类姿势估计等。注意机制旨在自动探索有意义的功能,以增强其表示能力并提高最终性能。 自注意力机制的计算方式如下:

其中,X表示输入的数据,Q,K,V的值都是通过X和超参W相乘得到的。 这里,Q可理解为查询的变量,K为索引的变量,V为内容的变量。

1.2 相位一致性

相位一致性(phase congruency,PC)是将图像傅立叶分量中相位一致的点的集合。 这是一个无量纲的量,其取值范围被标准化为0~1,因此受图像亮度或对比度变化的影响较小。 最早关注到图像相位信息是Oppenheim 等学者[12],研究中发现在信号的傅立叶表示中,在某些情况下如果仅保留相位,信号的许多重要特征就会得到保留。 随后,Morrone 和Owens[13]发现能量函数的极大值出现在相位一致的点上,因此提出了一种利用构造局部能量函数来检测和定位特征点算法。 Kovesi[14]对该方法做出了改进,克服了噪声等问题,使该方法的应用得以保证。目前,相位一致图已经广泛应用于图像边缘检测中。

1.3 构建相位一致图

本文利用相位一致性构建多模态图像的相位一致图(PC 图),如图1 所示。 具体来说,本文使用Log-Gabor 小波在多个尺度和方向上计算,计算公式见式(5):

图1 利用相位一致性构建多模态图像PC 图Fig. 1 Construction of multimodal image PC maps using phase coherence

其中,PC(x,y) 表示相位一致性的大小;Wo是频率分布的权重因子;Aso(x,y) 为在小波尺度s和方向o上的(x,y) 处的振幅;ε是一个很小值,为了防止分母为零;■.」 运算符防止结果为负值,即封闭的值为正值时结果等于其本身,否则为零。ΔΦso(x,y) 是一个敏感的相位偏差函数,定义为:

其中,eso(x,y),rso(x,y) 是将图像与偶对称小波和奇对称Log-Gabor 小波分别进行卷积,得到在尺度s和方向o上的响应。E(x,y) 是一个局部能量函数,函数中的2 部分通过信号和一对正交滤波器进行卷积来得到,即:

2 模型构建

在本节中,阐述了所提出的多模态遥感图像匹配方法。 算法流程如图2 所示。 由图2 可看到,本文算法主要由3 个阶段组成,包括:特征点检测、特征描述符获取和特征点匹配。

图2 本文算法流程图Fig. 2 Flow chart of the algorithm in this paper

2.1 特征点检测

在图像匹配的过程中,如何提取重复率高、分布均匀、且稳定的特征点也是近来的研究热点。 在多模态图像匹配中由于存在较大的非线性辐射畸变,在自然图像上表现较好的特征点检测方法并不能完全适用。 因此,本文利用相位一致性具有辐射鲁棒性,考虑构建多模态图像的PC 图。 通过构建的PC图,多模态图像之间共有的结构特性被保留下来。接着在PC 图上进行特征点检测,具体来说,通过1.3节中式(5)获得图像的相位一致图,接着利用Fast特征提取算法在PC 图上提取一定数量的特征点。在PC 图上利用Fast 算法提取特征点如图3 所示。需要说明的是,在训练阶段本文选取了利用上述方法提取的特征点中,均匀分布的30 个特征点进行训练。

2.2 特征描述符获取

通过第一步得到特征点位置后,还要知道特征点的描述符,考虑采用人工设计的特征描述子,难以表达更深层次和更抽象的特征。 并且人工特征描述符的系数和最佳参数需要大量的手动调整。 因此本文利用深度学习的方法获得具有更好特征表达能力的描述子。 本文算法提出一种基于交叉注意力机制的卷积神经网络。 由于注意力机制是一种搜索全局特征的结构,需要的计算量和内存都较大,为了减少计算量和内存,考虑首先学习半稠密的描述符。 具体网络结构如图4 所示。 首先,参考图像与感知图像经过一个卷积核大小为11×11 的大尺度卷积,提取浅层特征,此时特征维数为64,接着经过3 层VGG-Basicblock 提取深度特征,每层网络包含2 个卷积层、2 个BN 层、1 个dropout 层,特征维数扩展为128。 然后,再经过1 个卷积核大小为15×15 的大尺度卷积,获得全局特征,最后通过1 个dropout层,丢弃一些无用特征,这样就得到了大小为原图大小八分之一的特征图,特征通道为128 维。 但是由于图像之间差异较大,因此采用了互注意力机制,更好地学习彼此的共有的特征。 通过上述步骤得到了半稠密描述符,此时的特征图尺寸为原图大小的八分之一。 除此之外,还需要得到每个特征点对应的描述符,由于得到的特征图尺寸为原图大小的八分之一,无法利用特征点的位置直接在特征图上提取特征。 因此,本文首先对原图上特征点的坐标进行归一化,接着根据输入特征图的尺度按比例恢复特征点坐标,见式(10):

其中, (X,Y) 为归一化后的特征点坐标; (x,y) 为特征在原图的坐标位置;H,W分别为原图和特征图的长宽;h和w分别为特征图的长宽。 但是这个新的坐标位置可能并非为整像素,此时要对其进行双线性插值补齐,然后其余特征通道按照同样的方式进行双线性插值。 通过上述方法即得到了每个特征点对应的描述符。

2.3 特征点匹配

在训练阶段,本文采用有监督训练,每对图像的标签已知。 首先,利用2.1 节中介绍的特征点检测的方法获得参考图像上的特征点位置(xr,yr), 然后利用图像标签计算得到感知图像上的对应点位置(xs,ys),具体见式(3):

其中,H为一个3×3 大小的矩阵,即为图像的标签。 因此在特征匹配阶段,只需要计算考虑描述子间的损失函数,降低了训练的难度。 本文损失函数参考SuperPoint[5]研究中给出的损失函数,将损失函数定义为合页损失(Hinge-Loss), 具体计算公式为:

其中,λd为定义的权重;shwh'w'判断对应点是否匹配;Ph'w'为双三次插值后特征点坐标;是对Ph'w'做单应性变换H。dhw为预测点的描述子;为真值点的描述子。 当dhw和d'h'w'越相似时,损失函数越小。 在本文中,设置λd=250,mp=1,mn=0.2,λ=0.000 1。

3 实验与分析

本节中,将本文所提方法与其它主流方法在匹配的性能、计算复杂度和推理时间等方面与进行比较。 最后,在计算机视觉领域以及医学图像领域验证本算法的泛化性能。

3.1 实验数据

本文的训练集是从Landsat8 卫星影像上获取的不同波段的图像,对地分辨率为30 m。 训练集包含1 153对大小为256×256 的图像。 测试数据集选用了Jiang 等学者[15]提出的多模态图像匹配数据集。 该数据集包括3 个不同领域的多模态数据:计算机视觉领域、医学领域、遥感领域。 本文的对比实验主要在其中的遥感数据上测试。 同时,为了验证该算法的鲁棒性,在医学数据集中进行了泛化性能测试。 实验设置在24 GB NVIDIA 3090 上,并进行网络训练测试。

3.2 实验设置

实验的性能指标主要为匹配精度(ACC)、正确匹配点个数(NCM)、匹配运行时间(RT),其中匹配正确点是指预测匹配点与真实匹配点之间距离不超过5 个像素的点,而匹配精度是指正确匹配点个数与算法总匹配点个数的百分比。

对比实验选取了4 种对比算法, 分别为RIFT[3],HAPCG[16],3MRS[17],DFM[7],其中DFM 为深度学习的方法,但是其在论文中介绍该方法无需进行训练。 上述方法均在Jiang 等学者[15]提出的多模态图像匹配数据集测试。 为了更好地比较不同算法的性能,所有传统对比算法与本文算法均未使用误差点剔除模块,同时保证初始检测特征点数量相同,均设置为5 000 个。

3.3 算法性能比较

表1 展示了本算法与现有传统算法与深度算法在匹配精度上的对比结果。 可以看出,本算法在光学图像与SAR 图像类型匹配中取得了最高的匹配精度,而同为深度学习方法的DFM 算法在地图图像与光学图像上匹配精度最大,其余3 种传统方法则是在红外与光学图像上有最好的匹配精度。 本文算法在所有类型上均优于传统算法,但是在某些多模态类型下的精度并没有DFM 算法高。 不过通过具体的实验数据,5 种方法在多模态图像匹配数据集的匹配精度对比如图5 所示,可以发现DFM 算法在某些图像上匹配结果很好,但是在一些难度较大的图像上匹配精度为0。 因此通过表1 和图5 可以看出,本文算法不仅具有较好精度,同时也具有很好的稳定性。

表1 5 种方法在多模态数据集上的匹配精度(ACC)Tab. 1 Matching accuracy (ACC) of the five methods on the multimodal dataset%

表2 展示了本算法与现有传统算法及深度算法在匹配正确点个数上对比结果。 从表2 可以看出,不管哪种类型数据,在匹配正确点个数上本文算法均取得了最好的效果,同时在所有类型数据中,可见光与可见光匹配效果最好。

表2 5 种方法在多模态数据集上的匹配正确点个数(NCM)Tab. 2 Number of correctly matched points (NCM) of the five methods on the multimodal dataset

5 种算法在多模态数据集上的匹配时间对比结果见表3。 从表3 可以看出,不管哪种类型数据,本文算法运行速度较传统算法均提高了4 ~10 倍,与深度方法对比也在大部分数据类型上都有更快的运行速度。

表3 5 种方法在多模态数据集上的匹配时间(RT)Tab. 3 Matching times (RT) of the five methods on the multimodal dataset

3.4 算法鲁棒性实验

表4 为该算法在医学多模态数据上的实验结果。 由表4 可以看出,本文算法即使在医学多模态图像上测试,在3 种指标下都有不错的结果,证明本算法具有较高的鲁棒性。

表4 本文算法在医学多模态数据上的实验结果Tab. 4 Experimental results of this proposed algorithm on medical multimodal data

4 结束语

针对多模态遥感数据匹配的难点问题,图像间存在非线性辐射差异,本文提出一种基于交叉注意力机制的多模态遥感图像匹配网络。 该网络利用相位一致性获得更稳定的特征点,同时利用交叉注意力机制学习多模态图像共有特征,在更容易获得的多波段遥感小容量数据集上进行训练。 实验结果表明,本文方法在公开数据集上匹配性能优异,并在其他领域的多模态数据上仍然有效。 但是当图像间有较大的旋转或者尺度差异性能会下降,后续将考虑对训练数据进行增强,同时优化网络结构进一步提高匹配速度。

猜你喜欢

图像匹配描述符卷积
基于结构信息的异源遥感图像局部特征描述符研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于AKAZE的BOLD掩码描述符的匹配算法的研究
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
Linux单线程并发服务器探索
一种用于光照变化图像匹配的改进KAZE算法
利用CNN的无人机遥感影像特征描述符学习
挖掘机器人图像匹配算法研究
基于SIFT和LTP的图像匹配方法