基于位置约束的参考图引导的遥感影像超分辨率网络

2023-03-15杨敬钰岳焕景

天津大学学报(自然科学与工程技术版) 2023年4期

杨敬钰，杨帆，岳焕景

（天津大学电气自动化与信息工程学院，天津 300072）

随着卫星成像技术的不断发展，人们已经可以获取到分辨率为 0.1m的高质量遥感影像，但这些影像资源仍然无法对同一位置区域实现长时间的连续覆盖.但在遥感对地观测领域中，对生态或地质环境进行长时间跨度的监测是具有重要意义的[1-4].因此，本文通过图像超分辨率(super-resolution，SR)算法来解决这一问题.

图像超分辨率是指通过一定的算法从低分辨率(low-resolution，LR)图像中重建出其对应的高分辨率图像的过程[5].现有的图像超分辨率算法主要可以分为两类：单图像超分辨率方法和基于参考图的图像超分辨率方法.近年来，卷积神经网络(convolutional neural networks，CNNs)已被证明具有很强的特征提取能力，因此基于深度学习的思想也被广泛应用于上述两类图像超分辨率算法中.

对于单图像超分辨率算法，在自然图像领域中，Dong等[6]首次将深度学习思想应用于图像超分辨率.并且，为进一步提高网络效率，Dong等[7]通过在网络末端添加反卷积层的方式构建了 FSRCNN网络.Kim等[8]搭建了一个深度卷积神经网络来实现图像超分辨率.同时通过残差学习、较大的学习率以及可调节的梯度裁剪来保证网络的快速收敛.Lim等[9]针对超分辨率任务的特性，对原始的残差网络进行了改进，删除了其中不必要的模块，并提出 EDSR网络，该网络获得了出色的重建性能.卷积神经网络中不同通道的特征信息具有不同的关注点，但上述的图像超分辨率算法对这些信息总是进行相同的操作，这将在一定程度上削弱网络的特征表达能力.针对这一问题，Zhang等[10]将注意力机制引入到残差块中，提出了一种能够在通道维度上进行自适应特征缩放的图像超分辨率网络.Niu等[11]进一步提出了一个对深度、通道和位置注意力机制进行融合的网络HAN.在遥感领域中，早期的方法[12]选择直接套用针对自然图像设计的网络模型，再利用遥感影像对其进行重新训练.针对遥感影像的独特结构信息，Lei等[13]提出了 LGCNet网络，该网络能够更好地对局部地物目标和全局环境先验等多尺度的特征进行学习.Wang等[14]针对不同的频率维度来训练多个卷积神经网络.通过小波分解的方式，这些网络可以恢复出不同方向的频率特征.为进一步提升网络的特征表达能力，Jiang等[15]所提出的方法则在网络中引入了更为密集的连接，并通过渐进的学习模式来训练两个子网络.

由于单张低分辨率影像中的信息是有限的，所以上述单图像超分辨率方法的重建结果往往较为平滑和模糊.而参考图引导的图像超分辨率算法则可以有效改善上述问题，此类方法可以利用高分辨率参考图像中的相似纹理对重建过程进行引导，进而生成拥有更多纹理细节的重建结果.在自然图像领域中，Yue等[16]通过全局配准和块匹配的方式来利用参考图像中的相似信息.通过对 CNNs的引入，Yue等[17]进一步提出了改进方法，当外部的相似图像可用时，该网络能够同时使用内部和外部的相似信息来对重建过程进行引导.为解决相似块内部也可能存在着像素移位的问题，Zheng等[18]提出了一种通过光流的方式来进行像素维度配准的方法.不同于以往在原图像域进行匹配的方法，Zhang等[19]提出了SRNTT，该网络能够在特征域上实现多尺度的相似块匹配.Yan等[20]建立了一个通用的参考图像池，通过这样的方式，可以在匹配过程中使用到更多的参考图像信息.Yang等[21]将注意力机制引入到了纹理匹配的过程中，更有效地实现了参考纹理向目标纹理的变换.在遥感领域中，Dong等[4]首次提出了针对遥感影像设计的参考图引导的图像超分辨率网络RRSGAN.该网络基于梯度引导和可变性卷积来实现特征对齐.然而，这样的匹配策略仅适用于图像中的大尺度结构信息，对于细节纹理的对齐效果并不理想，进而阻碍了网络获得更好的重建性能.

对于同一位置区域而言，通常可以获取到来自不同卫星在不同时间段拍摄的多幅分辨率不同的遥感影像.其中的高分辨率影像可以作为低分辨率影像在超分辨率重建过程中的参考影像.因此，对于遥感图像来说，参考图引导的图像超分辨率策略是完全可行的.虽然在之前的研究中已经有了相关工作的产出，但这些方法在进行相似块匹配时，都忽略了多个相似块在位置信息上的联系，即与低分辨率图像中相邻像素点所匹配的参考图像块应该也是尽可能相邻或聚合的.其次，之前的方法多采用直接进行通道维度合并的方式来实现特征融合，这显然是不合理的.针对这些问题，本文提出了一个基于相似块位置约束和多尺度特征自适应融合的超分辨率网络.该网络首先通过位置编码的方式来对匹配后的参考特征图进行约束，从而保证低分辨率输入中邻近元素所对应的参考特征块具有更高的聚合度，有效提高匹配精度.然后通过对通道注意力机制的引入，实现了多尺度特征的自适应融合，提高了网络的特征表达能力.

1 网络结构

1.1 网络结构概述

基于 TTSR[21]，本文提出了基于位置约束的遥感影像超分辨率网络，如图1所示，其中LRI 表示低分辨率输入，SR

图1 整体网络结构Fig.1 Architecture of the proposed network

I 表示重建输出.对于 4×超分辨率，网络共包含 3个分支，分别用于处理 1×、2×以及 4×3个尺度上的特征.对于尺度 1所在的分支，首先通过多个残差块来进行特征提取，以获得相应的骨干特征图，然后再使用基于位置编码的纹理转换模块来实现参考图特征的匹配和变换，最后通过多个残差块和多尺度特征自适应融合模块进一步重建出图像的纹理信息.尺度2和尺度3的重建过程与尺度1相似，不同之处在于尺度 2、3的骨干特征图是通过对尺度1、2的特征图进行上采样来获取的.网络最终的重建结果SR

I 是由3个尺度的特征进行自适应融合生成的.

1.2 基于位置编码的纹理转换模块

如图2所示，该模块以 ILR↑、IRef、IRef↓↑以及B作为输入，最终输出转换后的特征图F.其中 ILR↑代表经过4倍上采样后的低分辨率输入，IRef代表高分辨率参考图像，IRef↓↑代表经过4倍下采样和4倍上采样后的参考图像，B代表图1中输入到纹理转换模块的骨干特征图.该模块首先在特征域对 ILR↑和IRef↓↑进行块匹配，然后利用块匹配的结果来引导IRef的特征图与骨干特征图进行融合变换.与TTSR[21]相比，本文提出的纹理转换模块主要有两大不同之处.一是本文在纹理转换的过程中引入了位置编码的策略，该策略正是以往方法所欠缺的.通过位置编码的方式，可以计算出与低分辨率输入中邻近元素相匹配的参考特征块之间的聚合度，并以此为基准生成位置编码图P，实现对参考特征图的位置约束.二是在参考特征图的融合变换部分，本文对TTSR中的软注意力方法进行了扩充，提出了双重注意力机制.该机制从参考特征块的纹理相似度和位置聚合度两个方面出发，更为有效地实现了对高匹配度特征的增强以及对低匹配度特征的抑制.该模块的具体实现细节如下文所述.

图2 基于位置编码的纹理转换模块Fig.2 Texture transformer based on position-encoding

1.2.1 纹理提取器

通过预训练的 VGG[22]网络所提取到的语义特征并不能完全适用于图像超分辨率任务.因此，为了获得更准确和有效的纹理特征，本文使用了一种可学习的纹理提取器，共包含 5个卷积层和两个池化层.在训练过程中，该提取器能够逐步生成更适用于超分辨率任务的纹理特征.其具体表示为

式中：Gte为纹理提取器；Q、K、V分别表示为ILR↑、IRef↓↑、IRef的纹理特征.

1.2.2 全局搜索模块

全局搜索模块通过计算Q与K之间的相似度来实现低分辨率图像与参考图像之间的块匹配.首先，以每个像素点为中心，将Q和K分解成大小为 3×3的特征块，将这些特征块分别表示为qi，i ∈ [1 , H W]和kj， j∈ [1 , H W].H和W分别为 ILR的高和宽.然后计算出qi和ki之间的相似度，并以此为标准从K 的全局范围内筛选出与每个特征块qi最相似的特征块ki.qi和ki之间的相似度是通过归一化内积的方式来进行计算的

式中si,j为Q中第i个特征块与K中第j个特征块之间的相似度.

获得特征块之间的相似度后，基于全局搜索的策略，可以从所有ki中筛选出与每个qi最相似的特征块.具体表示为

式中si为软注意力图S中的第 i个元素，所有的si共同组成S.硬注意力图J将作为位置编码和硬注意力模块的输入，软注意力图S将作为双重注意力模块的输入.

1.2.3 位置编码

通常来说，两张图像中的相似纹理总是会以块的形式出现.因此，对于Q中的邻近元素来说，分别以它们为中心的qi在全局搜索模块中所匹配到的kj也同样应该在空间信息上具有较高的聚合度.针对这一特性，本文设计了一种以相似块聚合度为标准的位置编码模块.该模块以硬注意力图J作为输入，计算出与每个元素相对应的位置约束.首先，以J中的各元素为中心，划分出大小为 3×3的局部窗口，然后再计算窗口内所有元素与中心元素之间的位置差总和.具体计算公式为

式中：x，y ∈ [-1 ,1]；Gpos(a)表示用 a除以W后对结果中的商和余数进行求和，结果中的商和余数分别对应于窗口中各元素与中心元素在垂直和水平方向上的位置差异；p~i表示窗口内所有元素的位置差总和.最后，还需要获取到所有p~i中的最大值，并进一步计算出位置编码图P中每个元素的值，具体表示为

式中：z=0.5；pi为P中的第 i个元素，所有的pi共同组成位置编码图P.

1.2.4 硬注意力

硬注意力模块能够利用J中的位置信息来对V中的特征块进行重组，进而生成匹配后的参考特征图R.首先使用与前文相同的方法将V拆分成大小为3×3的特征块vi，然后再通过以下方式来实现特征匹配，即

式中ir表示R中的第 i个元素，所有的ir共同组成匹配后的参考特征图R.

1.2.5 双重注意力

双重注意力模块旨在通过软注意力图S和位置编码图P来实现对参考特征图R的自适应转换，在转换过程中能够对高匹配度的特征进行增强，对低匹配度的特征进行抑制.具体转换过程如下.

式中：Gconv代表卷积操作；‖ 代表特征图在通道维度上的级联；⊙代表 Hadamard乘积；F代表纹理转换模块的输出.

为了降低计算复杂度，该网络仅在尺度1上进行了全局搜索和位置编码，其余两个尺度的硬注意力图J、软注意力图S以及位置编码图P均由尺度 1的结果映射得到.

1.3 多尺度特征自适应融合模块

如图1所示，网络通过分布在3个尺度上的参考特征图来对超分辨率过程进行引导，最终的重建结果也是由 3个尺度上的特征进行融合生成的.然而，如果直接以相同的权重将这些跨尺度的特征进行融合，将无法获得出色的重建性能，因为并不是所有的特征都能为重建过程提供相同的引导.针对这一问题，基于 RCAN[10]，本文提出了多尺度特征自适应融合模块，有效增强了网络中各分支的特征表达能力.由于不同尺度的特征图拥有不同的尺寸大小，因此在进行融合前，还需要对不同尺寸的特征图进行上采样和下采样操作，其中上采样操作通过双三次插值实现，下采样操作通过步长为2的卷积来实现.

具体的融合过程为：首先将重采样后的特征图进行通道维度的级联，然后通过全局平均池化层和两个卷积核大小为1×1的卷积层来获取其通道维度上的权重，并将该权重与级联后的特征图进行 Hadamard乘积，生成优化后的特征图.最后，通过一个卷积层将优化后的特征图映射为原始的通道数，得到最终的融合结果.

1.4 损失函数

式中：θ为网络的参数；N为中像素的总数量；G为批量大小.

2 数据集与实验设置

2.1 数据集

本文使用遥感领域中的公开数据集 RRSSRD[4]来进行网络的训练和测试.其中训练数据共包含了4047组高分辨率图像和参考图像对，覆盖了机场、沙滩、桥梁、居民区、运动场等多个遥感场景，它们均分布在厦门和济南地区.其中高分辨率图像是通过WorldView-2和GaoFen-2卫星获取的，覆盖2015和2018两个年份.参考图像则是从 Google Earth 2019年的影像中获取的.高分辨率图像和参考图像的尺寸大小均为 480×480.低分辨率输入图像是由高分辨率图像通过下采样的方式生成的.RRSSRD的测试集共有4组，每组均包含 40对高分辨率图像和参考图像.第 1组测试数据的高分辨率影像由WorldView-2卫星拍摄的，覆盖区域为厦门.第 2组测试数据的覆盖区域与第1组数据相同，但其高分辨率影像是由Microsoft Virtual Earth卫星拍摄的.第3组测试数据的高分辨率影像由 GaoFen-2卫星拍摄的，覆盖区域为济南.第 4组测试数据的覆盖区域与第 3组数据相同，但其高分辨率影像是由 Microsoft Virtual Earth卫星拍摄的.此外，4组测试数据中的参考影像均是由Google Earth卫星拍摄的.所有高分辨率图像和参考图像的尺寸大小均为 480×480.低分辨率输入图像则是由高分辨率图像通过下采样的方式生成的.

2.2 实验设置

本文提出的网络中，除通道注意力模块和最后一个卷积层使用了大小为 1×1的卷积核外，其余卷积层的卷积核大小均为 3×3.网络的第 1个卷积层和所有的残差块中的通道数均为64.

在训练过程中，本文通过 90°、180°、270°的随机旋转以及垂直和水平方向的随机翻转来实现数据增广.所提出的网络采用参数为β1=0.9、β2= 0.999以及ε= 1 0-8的 Adam优化算法.纹理提取器的初始学习率为 5 × 1 0-5，其余模块的初始学习率为 1× 1 0-4.每隔 100个迭代次数(epoch)，学习率下降一半.网络在 150个 epoch收敛，训练数据的批量大小为5.该网络在NVIDIA GeForce RTX 2080 Ti服务器上使用Pytorch框架进行训练.

3 实验结果

本文将提出的方法与其他新近的图像超分辨率方法在 4×和 8×超分辨率任务上进行了对比.对比方法包括两类：一是单图像超分辨率方法，如RCAN[10]和 HAN[11]；二是参考图引导的图像超分辨率方法，如 TTSR[21]和 RRSGAN[4].以上方法均在RRSSRD 上进行了重新训练.对于 8×超分辨率，本文提出的方法通过将2×超分辨率模型和4×超分辨率模型进行级联来实现.TTSR与 RRSGAN也采取了相同的策略.对于单图像超分辨率方法 RCAN和HAN，则遵循其原始设置，在网络末端添加一个额外的上采样层来实现8×超分辨率.TTSR和RRSGAN在原始的训练过程中均引入了对抗损失，但这往往会产生较低的峰值信噪比(peak signal-to-noise ratio，PSNR)和结构相似性(structural similarity，SSIM)数值.因此，为保证实验的公平性，在对这两种方法进行重新训练时，仅使用了其重建损失，获得了相应的TTSR-rec和 RRSNet版本.除了 PSNR和 SSIM，本文还引入了学习感知图像块相似度[23](learned perceptual image patch similarity，LPIPS)指标，该指标通过一个预训练的网络来评估重建图像与原始图像之间的感知相似度.不同于 PSNR和 SSIM，越低的LPIPS数值对应越好的重建结果.下文中，本文方法(无参考图)代表将网络中的纹理转换模块替换为一个卷积层时所对应的单图像超分辨率网络.

3.1 定量结果对比

表1从PSNR、SSIM和LPIPS 3个方面展示了本文提出的方法与其他方法在4×和8×超分辨率任务上的重建性能.可以看出本文方法(无参考图)相较于其他的单图像超分辨率方法，在性能上并没有过多的损失，这说明在缺少参考图像时，本文提出的多尺度特征自适应融合模块仍然能够帮助骨干网络获得更好的 8×超分辨率结果，本文方法相较于次优的方法在4个数据集上分别获得了PSNR/SSIM/LPIPS为 0.08dB/0.003/0.002、0.06dB/0.002/0.003、0.09dB/0.003/0.003、0.0.07dB/0.002/0.001的提升.以上定量对比结果证明了本文提出的基于位置编码的纹理转换模块和多尺度特征自适应融合模块的有效性，使网络在多个尺度的超分辨率任务上均获得出色的重建性能.

表1 在4个测试集上的PSNR/SSIM/LPIPS结果Tab.1 PSNR/SSIM/LPIPS results comparison among different methods on four testing datasets

3.2 定性结果对比

图3和图4分别展示了本文的方法与其他对比方法在RRSSRD-2和RRSSRD-4测试集上的4×超分辨率结果.图3(a)为原始的高分辨率图像，图3(j)为原始高分辨率图像在图3(a)中红色框区域的放大结果，图3(f)为参考图像，图3(b)～(e)及图3(g)～(i)为各超分辨率方法的重建图像在(a)中红色框区域的放大结果.从图3和图4可知，由于低分辨率输入能够提供的纹理信息有限，所以单图像超分辨率方法的重建结果均显得较为平滑，且无法恢复出清晰的纹理轮廓.TTSR虽然能够获取一定的参考图像信息，但在全局维度上的块匹配缺少更多的约束条件，导致匹配准确度下降，从而影像最终的重建性能.RRSNet中提出的基于梯度的匹配方法更适用于处理大尺度的地物目标，所以在对一些较为细节的纹理进行恢复时，能获得的性能提升较为有限.本文通过对位置约束的引入，有效提高了纹理转换模块的匹配精度，进而再利用多尺度特征自适应融合模块帮助网络重建出了最清晰和锐利的细节纹理，如图3(i)和图4(i)所示.

图3 RRSSRD-2测试集上的4×超分辨率结果Fig.3 Visual comparison results on RRSSRD-2 at 4× SR

图4 RRSSRD-4测试集上的4×超分辨率结果Fig.4 Visual comparison results on RRSSRD-4 at 4× SR

图5和图6分别展示了本文方法与其他对比方法在RRSSRD-1和RRSSRD-3测试集上的8×超分辨率结果.对于8×超分辨率，ILR↑和 IRef↓↑将变得尤为模糊，相似块的匹配也会变得特别困难.但本文提出的方法仍然能够在所有对比方法中生成最清晰的重建结果.由此可以证明，即使匹配条件并不理想，位置编码的策略仍然可以帮助网络保持较为稳定的匹配精度，并通过跨尺度的自适应融合机制对超分辨率过程进行有效引导.

图5 RRSSRD-1测试集上的8×超分辨率结果Fig.5 Visual comparison results on RRSSRD-1 at 8× SR

图6 RRSSRD-3测试集上的8×超分辨率结果Fig.6 Visual comparison results on RRSSRD-3 at 8× SR

3.3 鲁棒性分析

在实际应用中，低分辨率输入图像和参考图像通常是由不同卫星在不同时间段拍摄的，所以可能会出现卫星坐标不匹配、参考图像缺失、参考图像被云覆盖等情况.因此，网络在使用不同相似度的参考图像时，能够具保持一定的鲁棒性也是尤为重要的.图7展示了本文提出的方法在使用不同的参考图像时所获得的重建结果.图7(a)为原始的高分辨率图像，图7(f)为(a)中红色框区域的放大结果，图7(g)～(i)分别为使用图7(b)～(d)作为参考图像时，本文方法的重建图像在图7(a)中红色框区域的放大结果.图7(e)为不使用参考图像时，本文方法重建图像的放大结果.图7(j)为 HAN 重建图像的放大结果.显然，当使用的参考图像来自于 RRSSRD数据集时，本文方法具有最好的重建性能，并生成更多真实清晰的细节纹理.即使使用了不相干或被云覆盖的参考图像，本文的方法仍然可以不受其干扰，并对不相似的纹理进行抑制，获得与HAN相近的重建性能.

图7 使用不同参考图像的4×超分辨率结果Fig.7 4×SR results with different reference images

4 结语

本文提出了一种基于位置约束的参考图引导的遥感影像超分辨率网络，并同时引入了对跨尺度特征进行自适应融合的策略.在纹理转换模块，通过位置编码的方式来对匹配到的参考特征块进行约束，有效提高了匹配的准确度.然后，基于通道注意力机制，对 3个尺度上的参考特征图和低分辨率特征进行自适应的融合，提高了网络的特征表达能力和重建性能.实验结果表明，本文所提出的方法在定量和定性两个方面均表现出了优于现有超分辨率方法的重建性能.