多源遥感影像学习型特征双向一致性配准
2023-12-15张永显马国锐訾栓紧
张永显,马国锐,訾栓紧,门 行
1.武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079; 2.中国消防救援学院,北京 102202; 3.65547部队,辽宁 鞍山 114200
影像配准是将多时相、多平台、多传感器等多种手段获取的两幅或多幅影像进行空间几何一致性对齐的过程[1],目的是去除或抑制待配准图像和参考图像之间的几何不一致性,有效降低复杂环境对目标区域多源协同观测产生的云雾遮挡、昼夜交替等不利因素的影响,获取目标区域更为全局可靠的信息,得到更为全面准确的分析结果,为多源遥感信息的深度挖掘、大数据分析提供了重要支撑,在图像检索[2]、三维重建[3]、灾害评估[4]等多种应用中发挥着重要作用。然而,在摄影成像时由于多源遥感影像的物理辐射信息、成像几何机理、摄影成像时间等不同,在辐射特征和几何特征上产生了显著差异,使得建立多源遥感影像亚像元对应关系仍面临较大挑战。
为解决多源遥感影像像素级配准问题,学者们进行了大量研究,从发展历程来看,基于影像特征的配准方法经历了由模型驱动的手工设计型特征到由数据驱动的学习型特征的演化。常见的特征有3种类型:角点、边缘和区域。不论是手工设计型还是学习型特征,理想的特征检测器应具备3个特点[5]:能够有效探测图像中具有可区分性的关键信息;当场景发生不同的变换时能够重复检测到一致性特征;提取的特征要具有尽可能低的计算复杂度。
基于手工设计型特征的影像配准方法,是依靠研究者经验或知识进行设计特征检测器、特征描述子及相似性度量模型来实现图像配准。文献[6—9]通过改进SIFT算法或者结合其他约束信息开展了多源影像高精度配准研究,在影像灰度和结构较为接近的异源影像中取得了较好的结果。但当影像辐射差异和灰度差异较大时,会面临特征梯度信息较小的挑战,使得同名特征点匹配准确性大大降低,严重影响了配准算法性能。已有的研究中,梯度互信息方法能够适应影像间辐射差异,被成功应用于多源遥感影像配准[10],但其庞大的计算代价限制了应用范围[11]。为解决多源遥感影像灰度和纹理差异显著导致高精度配准困难的问题,文献[12—13]以影像轮廓和局部形状具有高度相似性特征为出发点,利用多源影像之间的几何结构特征捕获共有属性,显著提升了多源遥感影像配准精度,然而这种方式需要较为完备的预处理以消除影像旋转、尺度、视差等因素带来的影响,不利于全自动化的影像配准。
基于学习型特征的影像配准方法,是利用深度学习特别是卷积神经网络(convolutional neural network,CNN)作为一种图像高层特征提取器对影像信息从低层到高层进行局部自适应学习,经过多层级非线性映射从训练数据中学习较为稳健的特征和描述符[14]。由于是数据驱动的,具有较强的灵活性,能够利用图像高层语义化信息进行匹配,理论上具有更强的泛化性,从而提升影像配准算法性能[15]。在遥感图像匹配领域,文献[16—17]基于Siamese网络架构提取学习型特征。文献[18]进一步利用Triplet网络架构提取学习型特征,均取得了较好的配准结果。此外,在计算机视觉图像匹配领域,还有同时提取特征点和描述符的D2-Net[19]、SuperGlue[20]、SGM-Net[21]等网络模型也都应用到多源遥感影像配准的研究,从不同方面提升了多源遥感影像配准精度和效率。文献[22]基于对影像配准整体效率的思考,提出一种基于端到端方式的影像配准框架,有效提升了整体配准精度。文献[23]提出了一种针对光学图像和SAR图像稀疏匹配的深度学习框架,实现了适用于大尺度场景多源遥感影像配准。这些基于学习型特征的多源遥感影像配准方法重点解决影像非线性几何和辐射差异造成的影响,以提升配准精度和效率。然而,对于具有旋转角度较大的多源影像配准,仍鲜有研究。
综上分析,无论是基于手工设计型特征还是学习型特征的影像配准方法均取得了长足发展。但随着应用领域深度和广度的不断拓展,对多源遥感影像配准提出了更高要求,依然存在较多提升空间,主要表现为:对于具有显著仿射变化的图像,现有的多源遥感影像特征匹配算法性能表现不佳;对于旋转、尺度、视角等非线性几何差异,进行自动配准前需要较完备的预处理来提升配准精度,增加了工作量;大规模训练数据是提升学习型特征表征性能的重要途径,目前公开的多源遥感影像训练数据并不多见,使得影像自动配准应用受到限制。
针对以上多源遥感影像配准存在的特征提取算法适应性差、同名特征点利用率不高、训练数据规模不足等问题,本文提出一种具有双向一致性变换的多源遥感影像学习型特征自动配准方法。首先,利用适应性改造的ResNet101深层网络模型提取输入影像的学习型特征,以提升应对多源遥感影像间非线性辐射畸变和几何畸变的能力,增强影像特征匹配算法对具有显著仿射变化的配准性能;然后,采用双向一致性特征匹配策略,得到稳健匹配的同名点对;最后,利用回归网络学习变换矩阵参数,完成多源遥感影像的像素级配准。
1 双向一致性配准方法
1.1 算法整体框架
本文提出的多源遥感影像学习型特征双向一致性配准方法主要由特征提取、特征匹配、参数估计3部分组成,如图1所示。特征提取模块主要用于提取输入图像对{IA,IB}的特征信息{fA,fB},其网络结构借鉴了ResNet101模型,并对其进行适应性改造来提取多源遥感图像特征。特征匹配模块是根据特征图{fA,fB},采用双向计算特征关联图的非负皮尔逊相关系数的方式获取特征点对相关度。变换矩阵参数回归模块是根据置信度较高的N对匹配点,利用加权方法回归仿射变换参数完成图像配准。
图1 本文算法整体流程框架
1.2 学习型特征提取模型设计
1.3 双向一致性特征匹配模型
经典的暴力匹配、快速最近邻匹配等方法首先是计算两幅图像中描述符之间的相似性,然后设置阈值约束相似性得分来提高匹配可靠性,进而实现同名特征匹配。这种匹配方式主要考虑了特征描述符之间的相似性和特征空间位置分布,缺乏对特征描述大小、方向、强度等特性的考虑使得影像配准精度完全取决于特征匹配精度和空间位置分布,不利于环境差异显著的多源遥感影像配准。为充分利用原始描述符提供的有效信息,本文借鉴特征图关联思想[25],利用双向非负皮尔逊相关系数在特征图的关联网络中计算特征描述符的相似性,再对描述符的相似性得分进行排序和归一化处理,以降低模糊匹配的权重,增强匹配的可靠性。对于L2正则化后的特征图fA,fB∈Rh×w×d,经过关联层输出的由fA到fB的关联图cAB∈Rh×w×(h×w),由fB到fA的关联图cBA∈Rh×w×(h×w),双向关联图cAB和cBA在每一位置都包含一对描述符的标量积,如图2所示。双向非负皮尔逊相关系数计算特征关联图的相似性表达式如下
图2 双向一致性特征匹配模型结构
(1)
式中,(i,j)和(ik,jk)表示特征在特征图fA、fB的位置;uA和uB表示特征图fA、fB的平均值。
1.4 变换矩阵参数加权回归
参数回归目的是从关联特征图中学习出两个输入图像之间几何变换模型参数,本文采用具有6自由度的仿射变换矩阵作为几何变换模型。参数回归网络模型[25]是由两个Padding值为0,Stride为1的卷积层(Conv)组成,每个卷积层之后添加了批正则化(BatchNorm)和ReLU激活函数,最后通过全连接层(FC)得到变换矩阵的参数,如图3所示。
图3 参数回归网络结构
由于待配准图像和参考图像的匹配关系是相互的,因此,二者之间仿射变换矩阵具有可逆性,且其逆矩阵仍是仿射变换矩阵,利用这一特性构建了双向回归网络,并对网络回归结果赋予不同权值,形成变换矩阵参数加权回归模型,以提高多源遥感影像配准性能。变换矩阵参数加权回归模型可表达为
θ=αθs→t+βθt→s+γ
(2)
式中,α、β为系数调节因子,试验中取值均为0.5;γ为变换参数扰动项;θs→t、θt→s分别是待配准图像与参考图像之间变换矩阵。
变换矩阵参数回归整体过程如图4所示。
图4 变换矩阵参数回归模型
2 网络模型训练
2.1 损失函数
网络损失函数设计以变换格网损失函数为基础,思想是将参数回归网络估计的变换参数应用到待配准图像像素格网上,再度量与真值变换的像素网格中对应点之间的距离。整个损失函数模型设计如图5所示。
图5 损失函数模型
对于给定的估计值θest和真值θgt,变换格网损失函数可表示为
(3)
式中,Tθest(Gi)和Tθgt(Gi)分别表示参数回归网络估计的θest和真值θgt变换得到的格网点Gi,影像格网点Gi={(xi,yi)}i=1,2,…,N。
为能够在网络训练中使回归网络反向传播参数更新后输出的仿射变换模型参数值与真值差异不断缩小,在式(3)中增加了θs→t和θt→s两个分支项,把双向一致性学习嵌入损失函数,提升多源遥感影像配准精度,最终损失函数如下
(4)
2.2 模型训练
微调的模型训练和验证数据采用Google Earth数据集,它包含10 000个图像对,每个图像对都是在相同的地方不同时间拍摄的,由于图像配准模型进行大规模训练需要获取图像对的严格几何变换参数是一项巨大的工作量,因此,部分图像对是通过随机仿射变换作为真值对原始数据集进行了扩充,训练时首先将其分为9000、500和500个图像对,分别进行训练、验证和测试[26]。
模型训练平台为Dell 7920工作站,CPU Xeon 6126@2.60 GHz,显卡GeForce RTX2080Ti(12 GB显存),内存64 GB,操作系统Ubuntu18.04。模型的实现采用Pytorch框架,训练优化器选用Adam,学习率为0.000 5,BatchSize设置为10,图像输入尺寸为240×240。
3 试验结果与分析
3.1 试验数据
测试数据类型包含4种:Google Earth影像数据、多源卫星影像数据、多源无人机影像、混合Google Earth-卫星-无人机多源遥感数据。数据差异性除了具有显著的旋转、光照、纹理、尺度变化,也包含不同成像模式和时相的多源遥感影像。影像分辨率涵盖从0.05~10 m的多分辨率图像。数据覆盖山地、丘陵、平原等多种地貌类型,以充分验证算法的可靠性。数据介绍见表1。
表1 数据基本情况
图6展示了测试数据缩略图,其中Google Earth影像数据主要测试算法在时相、旋转角度差异较大时对不同地物类型的适应性;多源卫星遥感数据存在不同模态、不同分辨率、不同地形地貌等多种综合性的差异,测试算法对多源卫星遥感影像的适应性;无人机数据在地物辐射方面差异显著,测试算法对非线性辐射差异的多源无人机影像配准性能;Google Earth-卫星-无人机的多源遥感数据具有地物特征变化明显、成像模式不同等特点,能够较好测试算法对多源多模态遥感图像不变性特征的提取能力。
图6 测试影像数据
3.2 评价指标
3.2.1 归一化相关系数
归一化相关系数(normalized correlation coefficient,NCC)可用来度量图像之间关联程度,试验中采用减去均值的归一化相关系数,以降低相机曝光参数不一致带来的灰度差异影响,具体表示为
NCC(I1,I2)=
(5)
式中,μ1和μ2分别为图像I1和I2的均值;x为图像所有的像素点。
3.2.2 结构相似度
结构相似性(strucutral similiairty,SSIM)可用于衡量两张图像相似性,给定两张图像I1和I2,结构相似性SSIM可描述为
SSIM(I1,I2)=[l(I1,I2)]φ[c(I1,I2)]ψ×
[s(I1,I2)]κ
(6)
(7)
(8)
(9)
式中,l(I1,I2)用于比较亮度;c(I1,I2)用于比较对比度;s(I1,I2)用于比较图像的结构;φ、ψ、κ均为调整因子;μ1、μ2、σ1、σ2分别为图像I1和I2的均值和方差;σ12为协方差;C1、C2、C3为常数,用以维护稳定性。
3.2.3 均方根误差
配准精度可通过同名点的均方根误差(root mean square error,RMSE)进行刻画,描述为
(10)
3.3 试验设置
试验的对比分析选取了适应于多源遥感影像配准的5种方法,包括基于手工设计特征的RIFT(radiation-variation insensitive feature transform)[27]算法、基于ENVI 5.3.1商业软件的手工选点配准方式和基于深度学习特征的D2-Net[19]、SGM-Net[21]、文献[26]算法。实际操作中图7显示了RIFT算法对旋转、尺度等差异较大的多源图像出现较多无法正确匹配或者有丰富的匹配点对但配准效果不理想的状况,未能较好地适应于试验数据,因此,本文仅对比了适应性较好的深度学习方法和手工选点方式。
3.4 试验结果
3.4.1 定性评价与分析
对于本文方法的试验结果采用定性和定量相结合的方式进行分析评价。定性评价主要通过人工观察配准结果,具体做法是首先把配准后的多源影像进行叠置,然后利用棋盘格交错分块显示并放大局部区域的方式呈现配准效果,结果如图8所示。
图8 本文方法在测试数据中的配准结果
由图8可知,本文方法对于所有测试数据均取得了较好的配准效果,能够有效抵抗不同时相、尺度、季节、纹理、视角、成像模式等非线性辐射和几何差异的影响,适用于多种数据源的影像配准。从Google Earth影像配准验证结果可知,本文方法对大旋转角度的多源影像具有较好的效果,由于该组数据存在显著的旋转和季节差异,为此在多季节变换的训练数据集中采用随机旋转矩阵扩充多旋转角度影像参与训练,增强了模型对旋转图像匹配的适应性;多源卫星影像配准结果表明本文方法能够适用于成像模式有差异或存在多种综合差异的影像;多源无人机影像配准试验证明了本文方法能够抵抗较大非线性辐射差异的影响;Google Earth-卫星-无人机影像配准试验进一步验证本文方法对地物类型和尺度差异显著的数据同样具有较好的适应性。
3.4.2 定量评价与分析
定量评价指标采用归一化相关系数NCC、结构相似性SSIM和均方根误差RMSE进行配准效果评价。其中,NCC和SSIM值越大配准精度越高,取值范围分别为NCC∈[-1,1],SSIM∈[0,1]。配准之前和配准之后的NCC、SSIM对比结果如图9所示。
由图9可知,归一化相关系数NCC配准之后有着明显的提高,表明了本文方法对多源遥感影像配准的有效性,其中第4组光学-光学测试数据配准之后NCC增幅最为显著,从0.088提升至0.613,增长0.525,显著提升了具有综合差异的多源遥感影像关联度,实现了可靠的配准结果;最小增加值呈现负方向的增长,即第8组无人机光学-SAR图像,由配准前的-0.04到配准后的-0.09,这是由于成像模式不同,非线性辐射差异显著,使得配准之后其归一化相关系数仍不显著;其余测试数据配准后NCC均有显著提升。对于SSIM值,虽然配准之后均有所增加,但增幅较低,多在0.1以内,表明配准前后对图像结构调整变动不大。
均方根误差RMSE是衡量配准精度的重要指标,配准耗时T是衡量配准效率的重要指标,二者均为值越小配准效果越好,为验证本文方法的稳健性与高效性,表2重点对比了在所有测试数据上本文方法和其他几种方法的配准精度和效率,可以发现相比于其他几种方法出现精度不稳定、效率低下、失配等问题,本文方法配准误差能够基本控制在2像素以内,配准耗时控制在5 s以内,验证了本文算法对多源遥感影像配准的可靠性。
表2 不同方法配准精度和效率比较
4 结论与展望
多源遥感影像之间由于存在显著的非线性辐射和几何等差异,使得相同区域的同名特征匹配存在多解和误匹配等现象,利用匹配关系解算的变换矩阵精确性不高,导致了配准性能低下、精度较差等问题。本文提出了一种具有双向一致性变换的多源遥感影像学习型特征自动配准方法。该方法基于微调的ResNet101网络模型实现多源遥感影像学习型特征提取,利用双向一致性特征匹配模型提升同名特征匹配的可靠性,并通过小型轻量级网络加权回归变换矩阵参数,最终实现多源遥感影像稳健可靠的一致性配准。选取Google Earth影像、卫星影像、无人机影像、混合Google Earth-卫星-无人机影像4种不同数据源测试本文方法的性能,并与具有代表性的多种方法进行比较,表明本文方法对于多源遥感影像在配准精度和稳健性方面的优势。
本文方法仅使用局部学习型特征和变换参数自学习的方式来探索多源遥感影像自动配准。然而,多源遥感影像表现形式差异显著,同一区域可能会由于尺度、遮挡、视角、纹理等因素,在多源影像上无法获取同名特征,严重影响配准的可靠性和稳健性。此外,深度学习模型是数据驱动的,其性能高度依赖于训练数据的质量、数量和多样性,而获取高质量的大规模多源遥感影像配准的训练数据集仍面临巨大挑战。因此,在进一步的研究中,需要更加深入探索学习型特征匹配机理,借鉴迁移学习、自监督学习等思想,提升多源遥感影像配准的精度、效率和适用范围,以更好地服务于实际工程应用。