一种基于注意力嵌入对抗网络的全色锐化方法

2023-04-29张攀李晓华周激流

四川大学学报（自然科学版） 2023年1期

张攀李晓华周激流

全色锐化旨在将低空间分辨率的多光谱图像和高空间分辨率的全色图像进行融合，生成一幅高空间分辨率的多光谱图像.伴随卷积神经网络的发展，涌现出很多基于CNN的全色锐化方法.这些用于全色锐化的CNN模型大都未考虑不同通道特征和不同空间位置特征对最终锐化结果的影响.并且仅使用基于像素的1-范数或2-范数作为损失函数对锐化结果与参考图像进行评估，易导致锐化结果过于平滑，空间细节缺失.为了解决上述问题，本文提出一种嵌入注意力机制，并辅以空间结构信息对抗损失的生成对抗网络模型.该网络模型由2个部分组成：一个生成器网络模型和一个判别器网络模型.嵌入通道注意力机制和空间注意力机制的生成器将低分辨多光谱图像和全色图像融合为高质量的高分辨多光谱图像.判别器以patch-wise判别的方式对锐化结果与参考图像的梯度进行一致性检验，以确保锐化结果的空间细节信息.最后，在3种典型数据集上的对比实验验证了所提出方法的有效性.

全色锐化；深度学习；注意力机制；生成对抗网络

TP751A2023.012001

收稿日期： 2022-03-04

作者简介：张攀（1997-），男，重庆人，硕士研究生，研究方向为遥感图像处理.E-mail： zhangpan@stu.scu.edu.cn

通讯作者：李晓华. E-mail： lxhw@scu.edu.cn

AESGGAN： an attention embedded adversarial network for pansharpening

ZHANG Pan， LI Xiao-Hua， ZHOU Ji-Liu

（College of Computer Science， Sichuan University， Chengdu 610065， China）

Pansharpening aims to fuse low-resolution multispectral image with high-resolution panchromatic image to generate a high-resolution multispectral image. With the development of Convolutional Neural Network （CNN）， many CNN-based pansharpening methods have appeared and achieved promising performance. However， most of CNN-based pansharpening methods did not consider that the features in different channel dimensions and spatial dimensions have the different importance to generate a good result. In addition， only L1-norm or L2-norm is used as the loss function in the pixel domain to examine the distortion between the pansharpening results and the reference images， which usually cause the pansharpening results appear overly smooth and lack spatial detail information. In order to address the two problems， the authors proposed an attention embedded adversarial network with spatial structure information adversarial loss. This network consists of two parts： the generator and the discriminator. The channel attention and spatial attention embedded generator fuses low-resolution multispectral image and panchromatic image into a high quality high-resolution multispectral image. In order to ensure the spatial information of pansharpening results， the discriminator verifies the consistency of the gradient of pansharpening results and reference image by a patch-wise way. Finally， comparative experiments on three typical datasets verify the effectiveness of the proposed method.

Pansharpening； Deep learning； Attention mechanism； Generative adversarial networks

1 引言

高分辨率多光谱图像HRMS（High Resolution Multispectral）广泛应用于军事、农业、医学研究等领域，并且例如Google Earth等商业产品对HRMS图像的需求量也在持续增长.然而，由于受到卫星传感器的物理限制，单一传感器较难获取兼顾空间分辨率和光谱分辨率的HRMS图像［1］.相应的，一般采用两个传感器分别获取低空间分辨率的多光谱图像LRMS（Low-Resolution Multispectral）和高空间分辨率的全色图像PAN（Panchromatic），传回地面后通过全色锐化方法将它们合成为HRMS图像.张攀，等：一种基于注意力嵌入对抗网络的全色锐化方法

随着卷积神经网络（Convolutional Neural Network，CNN）在图像领域的广泛运用，其在遥感领域多个方向也有着许多实际应用，例如遥感图像去噪［2］、高光谱图像分类［3］以及全色锐化.目前全色锐化方法主要分为两大类［4］：传统方法和基于CNN的方法.其中传统方法又可分为基于分量替换（Component Substitution，CS）和基于多分辨率分析（Multiresolution Analysis，MRA）两大类.CS方法首先对上采样的LRMS图像进行某种变换，然后用PAN图像对变换后的第一分量进行替换，最后通过逆变换得到HRMS图像［5］.根据所采用的变换，CS方法有IHS（Intensity-Hue-Saturation）［6］、PCA（principal Component Analysis）［7］和GS（Gram-Schmidt）［8］等.MRA方法的主要原理是通过多分辨率分析算法从PAN图像中提取高频空间信息，并将其注入到上采样的LRMS图像中.根据所采用的多分辨率分析方法，MRA方法有DWT（Decimated Wavelet Transform）［9］、ATWT（“à Trous”Wavelet Transform）［10］和LP（Laplacian Pyramid）［11］等.有研究表明［12］，几乎所有的传统方法都可以用一个通用的细节注入模型来描述，即将PAN图像中的空间细节信息注入到上采样的LRMS图像中得到HRMS图像.总的来说，CS方法可以保留较多的空间信息，但是光谱失真一般较为严重［13］，而MRA方法光谱失真较小，但是会面临不同程度的空间信息丢失问题［14］.

近年来，随着深度学习在图像领域的广泛应用，陆续诞生了许多基于CNN的全色锐化方法［15-17］.PNN［15］在基于超分辨率的三层CNN架构之上，首次将CNN用于全色锐化，通过将上采样后的LRMS图像与PAN图像进行堆叠作为输入，生成对应的HRMS图像.因为利用了有监督的深度学习，PNN的各项指标都显著优于传统方法.Yang等［16］受到ResNet中跳跃连接（Skip Connection）和全色锐化先验知识的启发，提出基于残差学习的全色锐化方法PanNet，该方法通过在全色锐化CNN模型中添加跳跃连接来模拟通用的细节注入模型，并且搭建较深的网络来学习HRMS图像和LRMS图像的残差，获得了更优的锐化结果.Zhang等［18］认为，基于残差学习的全色锐化方法学习到的残差由大部分空间细节信息和少部分光谱信息组成，少部分的光谱信息会对空间信息的注入造成干扰，所以引入图像的空间梯度来检验锐化结果与PAN图像的空间信息一致性，从而提升合成图像的空间质量.Liu等［17］首次提出基于生成对抗网络的全色锐化方法PSGAN，采用一个双分支结构生成器分别处理LRMS图像和PAN图像，再合并处理生成HRMS图像，同时使用判别器使生成的HRMS图像尽可能逼近真实的HRMS图像.Zhang等［19］认为PSGAN架构较为简单，并未使用全色锐化领域的先验知识，所以提出一个基于空间特征变换和残差学习的生成对抗网络SFTGAN，相较于PSGAN，SFTGAN锐化结果在光谱和空间两方面都得到了进一步的提升.

通过分析，我们发现目前用于全色锐化的CNN模型存在两个不足.首先，这些模型只是简单的将经卷积层处理得到的特征送入下一层，忽略了不同通道特征和不同空间位置特征对最终锐化结果的影响.其次，在训练阶段，只采用基于像素的1-范数或2-范数作为模型的损失函数来评估锐化结果与参考图像的整体相似程度，这会导致锐化结果过于平滑，空间细节缺失［20］.针对以上不足，本文提出一种基于注意力嵌入对抗网络的全色锐化方法AESGGAN（Attention Embedded Spatial Gradient Generative Adversarial Network）.一方面在生成器的设计中引入通道注意力机制和空间注意力机制［21］，使生成器从通道和空间两个维度对能生成更好锐化结果的关键特征给予更多的重视.另一方面，我们在损失函数中添加了空间结构信息的对抗损失，对融合结果的梯度进行patch-wise判别，以避免由1-范数损失函数带来的高频细节丢失问题.最后，在三种典型数据集上的大量客观指标和主观视觉评估表明，与一些典型的方法相比，本文提出的方法具有更好的性能表现.

2 相关背景

2.1 问题描述

全色锐化的目标是，以LRMS图像M和PAN图像P为输入生成HRMS图像H，期望生成的HRMS图像同时具有与LRMS图像相同的光谱分辨率和与PAN图像相同的空间分辨率.现有的传统方法［12］都可以用公式的细节注入模型表示.

Hb=M～b+gbD（1）

式中，b∈{1，…，B}表示第b个波段；M～表示r倍上采样后的LRMS；r为PAN图像和LRMS图像的分辨率比；g=g1，…，gb，…，gB是注入增益向量；D是高频细节.根据高频细节的获取方式不同，传统方法可进一步分为基于CS的方法和基于MRA的方法.

随着CNN在图像领域的广泛运用，陆续诞生了许多基于CNN的全色锐化方法［15-17］.比如，PNN［15］直接将全色锐化看做一个盲盒，通过深度学习的方式获得一个CNN锐化模型，模型以LRMS图像和PAN图像作为输入，以锐化后的结果，即HRMS图像，作为输出，如下式所示.

H=Gθ（M，P）（2）

式中，Gθ表示全色锐化CNN模型；θ是模型的参数.

PanNet［16］通过引入跳跃连接来模拟公式描述的细节注入模型，此时深度学习的目标转化为如式（3）所示的HRMS图像与LRMS图像之间的残差学习.

H=M～+Dθ（M，P）（3）

式中，Dθ表示以LRMS图像和PAN作为输入，输出残差信息的子模型.

由于结合了传统全色锐化方法的先验知识，基于残差学习的全色锐化CNN模型比基于普通CNN的全色锐化模型的整体锐化效果更好.

2.2 注意力机制

注意力机制是人类视觉系统的一个重要特性，人类的视觉系统可以从复杂的场景中快速且自然的识别出重要场景，并给予更多的注意力.在深度学习中实施注意力机制［22］，可以实现与人类视觉系统类似的效果［23］，即深度学习模型可以从大量的特征中抽取出更具代表性的特征，对能产生更好输出的特征赋予更大的注意力权值，从而让模型更加关注重要的特征，忽略不重要的特征，最终提高模型的性能.基于注意力机制的特征优化模式可用式（4）描述［21］.

FA=M（F）F（4）

式中，F∈RC×H×W表示原始输入特征；M表示以F作为输入获取注意力权值的模块，注意力权值用注意力图表示；表示element-wise乘法；FA∈RC×H×W表示利用注意力图加权优化后的特征.

在CNN模型中，特征的具体表现一般为多通道的2D张量，因此注意力机制通常以通道注意力［24］和空间注意力［25］两种方式来实现.其中，通道注意力依据视觉系统对不同通道的注意力差异，生成1D的注意力图对原始特征在通道维度进行加权优化.类似的，空间注意力依据视觉系统对2D空间不同位置的注意力差异生成2D的注意力图，对原始特征在2D空间进行加权优化.

在CNN模型中顺序连接通道注意力模块和空间注意力模块，可以从通道域和空间域两方面考虑视觉系统的注意力差异，从而提高模型的性能.并且由于通道注意力模块和空间注意力模块的轻量级架构，并不会带来过多的资源开销.

2.3 生成对抗网络

GANs［26］的主要思想是运用对抗策略来训练一个足以以假乱真的网络模型.GANs通常由一个生成器G和一个判别器D组成，生成器以噪声变量作为输入，以生成样本为输出，其目标是生成判别器无法区分的样本.判别器以生成样本或真实样本作为输入，判定输出该样本为真实样本的概率，其目标是区分生成样本和真实样本.它们的目标函数可以用公式表示.GANs的训练一般通过生成器和判别器的迭代交互训练完成.

minG maxDVGAN（G，D）=

Ex～Pr［logD（x）］+

Ex～～Pg［1-logD（x～）］（5）

式中，pr表示真实样本分布；pg表示生成样本分布.尽管原始的GANs能够在MNIST数据集上生成效果很好的手写数字图像，但是原始的GANs存在着两个主要问题，一个是训练不稳定，另一个是当GANs用于高分辨率图像生成时生成图像的质量不高.学者们在如何提升GANs训练时的稳定性这一问题进行了更进一步的探索［27-29］.Arjovsky等［28］依据Wasserstein距离提出WGAN，并重新设计了如下式所示的目标函数.

minGmaxDVWGAN（G，D）=

Ex～Pr［D（x）］-Ex～～Pg［D（x～）］（6）

并且WGAN要求判别器的输出值足够平滑，为了达到这个要求，WGAN提出的策略是权重裁剪（Weight Clipping），即按照预先设置的权重范围硬性的裁剪判别器的参数，从而限制判别器输出值的范围.虽然WGAN提高了GANs训练时的稳定性，但是权重裁剪策略过于简单，并且使用权重裁剪会面临权重范围难以选取的问题.Gulrajani等［29］在WGAN的基础上提出WGAN-GP，采用梯度惩罚（Gradient Penalty）策略替换权重裁剪策略，实施方法是在判别器的目标函数中添加如下式所示的梯度惩罚项.

LGP=Ex^～Px^‖SymbolQC@x^D（x^）‖2-12（7）

其中，Px^表示符合式（8）的样本分布；SymbolQC@x^Dx^表示判别器的梯度.

x^=ε·x+1-ε·x～，ε∈0，1（8）

采用梯度惩罚策略可以实现在提升模型训练稳定性的同时简化模型超参数的调整步骤.

此外，为了提高GANs生成图像的质量，学者们进行了进一步的研究［30-32］.Isola等［32］认为，对输入图像分区域判定能够丰富生成图像的细节信息，并据此对判别器进行改进，提出马尔可夫判别器（PatchGAN），使判别器从只输出一个判别值改为输出一个空间尺寸为n×n的矩阵标签X，X的元素Xi，j代表着马尔可夫判别器对输入图像中相应区域patch的判定结果.由于马尔可夫判别器是对输入图像不同局部区域进行判定，所以能提高生成图像的局部保真度，即提高生成图像的质量.

本文受PatchGAN的启示，将马尔可夫判别器应用于全色锐化中，以期提高锐化结果的质量.

3 方法

3.1 网络整体框架

全色锐化的目标是在保留LRMS图像中光谱信息的同时尽可能融入PAN图像中的空间细节信息.对于光谱信息的保留，目前基于CNN的全色锐化方法广泛使用的策略是在CNN模型中添加跳跃连接，即通过深度学习获取HRMS图像和LRMS图像的残差信息，然后将上采样的LRMS图像与残差信息相加获得最终的HRMS图像.这种基于残差学习的方式可以较好的保留LRMS图像中的光谱信息.然而，在空间细节信息的融入方面，仍然有较大的提升空间.在模型训练中，现有基于CNN的方法通常以模型锐化结果与参考HRMS图像的1-范数或2-范数作为损失函数.这种基于像素的损失函数注重的是生成图像与参考图像的整体相似性，容易导致生成图像过于平滑，丢失高频细节信息［20］，例如道路和房屋的边缘.此外，目前大部分基于CNN的全色锐化方法将所有的特征统一对待，使得模型不能高效的学习特征之间的联系.

为了解决上述问题，本文以GANs为基础框架，对生成器和判别器分别进行改进，以期锐化结果在保留光谱信息的同时融入尽可能多的空间细节信息.首先，我们在生成器的设计中引入注意力机制，使模型更加关注能产生更好锐化结果的重要特征.其次，本文在采用基于像素的损失函数基础上，添加了空间结构的对抗损失，具体来说，使用马尔可夫判别器对锐化结果和参考图像的梯度进行patch-wise判定，使对抗训练中的局部细节信息得到更多的重视，从而确保锐化结果的空间细节信息.图 1给出了AESGGAN的整体框架，该框架主要由两部分组成：基于注意力机制的生成器负责将LRMS图像和PAN图像融合为HRMS图像；马尔科夫判别器实现对梯度图的patch-wise真伪判定.

3.1.1 基于注意力机制的生成器首先，我们实施了一个单纯的基于残差学习的生成器.考虑到人眼视觉系统对细节信息常常具有更多的关注度，而且具有代表性的特征往往只出现在某些特征通道或某些局部空间位置，我们在单纯基于残差学习的生成器的部分卷积层之后引入通道注意力模块和空间注意力模块，对中间特征进行加权优化.此外，受到DenseNet［33］的启发，我们向模型中添加多个跳跃连接，把从LRMS图像和PAN图像中提取到的低级特征多次注入模型，实现对特征的复用.

图2给出了基于注意力机制的生成器G的网络架构及空间注意力模块SABlock和通道注意力模块CABlock.通道注意力模块的结构如图 2d所示.通道注意力模块接收尺寸为256×N×N的特征作为输入，然后对输入特征在空间域上分别求全局平均值和全局最大值，得到通道维度为256的空间平均特征和空间最大特征.接着将两组特征输入共享多层感知机（Shared MLP），输出维度不变的两组特征.值得说明的是，为减少参数量，共享感知机内部对特征的通道进行了的压缩和扩充.在这之后，将经共享多层感知机处理后的两组特征相加并输入激活函数，得到大小为256×1×1的通道注意力图.最后，利用通道注意力图对输入特征加权，得到在通道域优化后的特征并作为输出.

空间注意力模块的结构如图 3b所示.空间注意力模块接收尺寸同样为256×N×N的特征作为输入，不同的是，空间注意力模块对输入特征分别在通道域上求全局平均值和全局最大值，得到尺寸都为1×N×N的通道平均特征和通道最大特征.接着连接两组特征得到尺寸为2×N×N的复合特征.再将复合特征依次输入卷积层和激活层，可以得到尺寸为1×N×N的空间注意力图.最后利用空间注意力图对输入特征加权，输出在空间域优化后的特征.

3.1.2 马尔可夫梯度判别器 AESGGAN包含两个结构相同的马尔可夫判别器，它们分别从水平和垂直方向对锐化结果的梯度和参考图像的梯度进行patch-wise判定.图 3展示了判别器的网络框架.水平梯度判别器DX接收锐化结果或参考图像的水平梯度，输出对它们的判定结果.类似的，垂直梯度判别器DY接收锐化结果或参考图像的垂直梯度，输出对它们的判定结果.与传统GANs的判别器仅判别整个输入的真伪不同，马尔可夫判别器接收空间尺寸为N×N的输入，输出patch-wise的真伪判定结果，即一个空间尺寸为n×n的矩阵标签，其中n=N/8-2.矩阵元素Xi，j即是判别器对相应patch的判定值.通过patch-wise判别，可提高判别器对图像局部空间细节的关注，从而促使生成器模型朝着丰富锐化结果的局部空间细节的方向学习.

3.2 损失函数

模型的训练通过生成器和判别器的迭代交互训练完成，即先固定判别器学习生成器，然后固定生成器学习判别器，一直重复，直到达到给定结束条件.生成器的损失函数包含1-范数损失项和空间结构信息对抗损失项.其中空间结构信息对抗损失项包含水平梯度判别损失和垂直梯度判别损失两个子项.生成器的整体损失函数LG如下式.

其中，λ是超参数；LGPX和LGPY表示梯度惩罚项，梯度惩罚的具体计算见式（7）和式（8）.

4 实验及分析

4.1 实验设置

为了验证我们方法的有效性，我们在GaoFen-2，WorldView-2和QuickBird 3个数据集上，对7个典型传统方法：Brovey［34］、SFIM［35］、IHS［6］、GFPCA［36］、GSA［37］、CNMF［38］和MTF_GLP_HPM［39］，4个较先进的基于CNN的方法：PanNet［16］、SFTGAN［19］、GPPNN［40］和FGF-GAN［41］，以及本文提出方法AESGGAN进行了对比实验，并从客观指标和主观视觉两方面对实验结果进行了展示和分析.另外通过消融实验对所提方法中的创新点进行了有效性验证.

4.1.1 数据集我们收集了GaoFen-2，WorldView-2，QuickBird卫星拍摄的原始LRMS图像和PAN图像.PAN图像的空间分辨率分别为0.8、0.5和0.6 m，对应的LRMS图像包含红、绿、蓝和近红外4个波段，空间分辨率分别为3.2、2.0和2.4 m.

对于每个数据集，我们都获得了11 000对尺寸分别为128×128的LRMS图像块和512×512的PAN图像块.首先，由于无法获得真实的HRMS参考图像，我们依据Walds Protocol［42］对LRMS图像块和PAN图像块进行了降分辨率和下采样处理.得到的降分辨率LRMS图像块和PAN图像块用作模型的输入，原始的LRMS图像块将作为锐化结果的参考HRMS图像.然后，我们通过随机划分的方式将10 000对当作训练集，剩余1000对当作测试集.数据集的详细信息在表 1中展示.

4.1.2 评价指标为了评估全色锐化结果，本文采用以下6个广泛使用的评价指标：Spectral Angle Mapper（SAM）［43］，Relative Dimensionless Global Error in Synthesis（ERGAS）［44］，Spatial Correlation Coefficient（SCC）［45］，Structural Similarity（SSIM）［46］，Peak Signal to Noise Ratio（PSNR），Universal Image Quality Index（Q）［47］.其中SAM和ERGAS是评价光谱失真的指标，值越小越好，理想值为0.SCC是评价空间相似度的指标，值越大越好，理想值为1.SSIM、PSNR和Q是综合性指标，值越大越好.

4.1.3 实验细节我们在Ubuntu 20.04.1操作系统上使用PyTorch框架实现AESGGAN，并在Intel Xeon E5-2650 v4 CPU和Nvidia GeForce GTX 1080Ti GPU上运行.训练AESGGAN时epoch设置为200，batch size为16.采用Adam优化器，初始学习率为1e-3，每20个epoch乘以0.5.损失函数中α=1，β=γ=1e-4，λ=100.训练时对数据进行了归一化处理.

4.2 实验结果及分析

4.2.1 GaoFen-2上的实验结果在GaoFen-2测试集上，我们对上面提到的12种方法和本文提出的方法进行了测试，表 2给出了实验结果.可以看出，基于CNN的方法普遍优于传统方法，他们的SAM、ERGAS、SSIM和PSNR等4项指标明显好于传统的全色锐化方法，尤其是表示光谱失真的SAM指标，其中我们提出的AESGGAN的SAM指标比传统全色锐化方法平均提升了60%.这一方面得益于深度学习的先进理论，另一方面是因为基于CNN的方法是一种有监督学习方法.本文提出的方法和现有的较先进的深度学习方法PanNet、SFTGAN和GPPNN相比，各项指标都达到最优，相较于次优的GPPNN，提出方法的SAM指标提升21%，ERGAS指标则提升16%.

图4以GaoFen-2数据集中一个图像块为例，展示了各种方法的全色锐化视觉效果.由图 4可以发现，相较于参考图像，Brovey、IHS、GFPCA、CNMF、MTF_GLP_HPM的锐化结果有较明显的光谱失真.而在空间细节信息保留方面，除了AESSGAN，所有的全色锐化方法都存在明显的空间细节丢失，具体表现在图像框选区域草地上的土路模糊，几乎无法辨别.相较之下，提出的AESGGAN方法对框选区域的空间细节信息还原最为准确.整体比较发现，在GaoFen-2数据集下，所有参与比较的全色锐化方法中，AESGGAN可以在保证LRMS图像的光谱信息准确性下，最大程度保留PAN图像中的空间细节信息.

4.2.2 WorldView-2上的实验结果表3展示了WorldView-2测试集上12种方法的评价指标.可以发现，在光谱信息和空间信息保留方面，和在GaoFen-2数据集一样，基于CNN的方法都优于传统方法的评价指标，并且GPPNN在WorldView-2上的表现最优，提出的AESGGAN总体与之持平.

图 5以一幅WorldView-2图像为例，展示了不同方法的锐化结果.从图5可以发现，传统方法获得的锐化结果在空间细节较为复杂的地方，会存在较严重的空间信息丢失现象，如框选区域中的足球场标线，并且SFIM、IHS、GSA、CNMF和MTF_GLP_HPM获得的锐化结果还会出现较明显的光谱失真.相比之下，基于CNN方法获得的锐化结果，光谱失真和空间信息丢失都较小.值得注意的是，虽然GPPNN锐化结果中的“足球场标线”很清晰，但是其整体颜色偏深，存在较为明显的光谱失真.总的来说，AESGGAN获得的锐化结果，不论是光谱信息还是和空间信息，都与参考图像最相似.

4.2.3 QuickBird上的实验结果表4展示了12种方法在QuickBird测试集上的评价指标.表 4表明AESGGAN在所有指标中均能达到最优，尤其是SAM、ERGAS和PSNR指标.相较于传统方法，AESGGAN的SAM指标平均提升66%，ERGAS指标平均提升60%，PSNR平均提升25%.相较于基于CNN的方法，AESGGAN的SAM指标平均提升33%，ERGAS指标平均提升35%，PSNR指标提升8%.图6以一张QuickBird图像为例，展示了不同方法的降锐化结果.从框选区域以及图像右下部分可以发现，所有传统方法的锐化结果都存在严重的空间信息丢失问题.基于CNN的方法中，PanNet、SFTGAN和GPPNN的锐化结果在图像右下部分也有较为明显的空间信息丢失，FGF-GAN虽然空间信息保留较为完整，但是存在较为明显的光谱失真现象，表现为颜色偏深.相对而言，在QuickBird数据集下，AESGGAN仍然可以保留最多的光谱信息和空间信息.

4.3 消融实验

为了检验通道注意力模块、空间注意力模块和空间结构信息判别模块的有效性，这里以GaoFen-2数据集为例进行消融实验.具体来说，按照是否包含通道注意力模块（CA）、空间注意力模块（SA）和空间结构信息判别模块（D）构建了如表 5所示的6个模型，不同的模型对应不同的添加模块.然后用这些模型进行测试并与提出的AESGGAN进行对比.

表6展示了在GaoFen-2数据集上6个模型的降测试结果，图 7以一个图像块为例展示了各模型的视觉效果.

综合表 6和图 7可以发现，仅添加空间结构判别模块的模型，光谱信息保留和空间信息保留能力相较于模型M提升较小.而两种注意力模块的嵌入都可以提升锐化效果，相对而言，通道注意力模块对锐化效果的提升要高于注意力模块对锐化效果的提升.我们认为，通道注意力模块比空间注意力模块的效果更好的原因在于，在生成器中，通道注意力模块提取的是不同通道特征对最终锐化结果的重要性，在CNN中每个通道都对应原始输入的一种滤波结果，即常常代表一种具有共性的特征，所以在面对具体的测试样本时，不仅能关注当前样本的特点，还能加强共性的特征.而空间注意力模块提取的是不同空间位置的特征对最终锐化结果的重要性，因为样本的多样化，使得不同空间位置的特征个性化较强，因此在测试阶段仅能获取当前样本的特点.在此基础上，同时添加通道注意力、空间注意力和空间结构信息判别模块能够取得整体最好的全色锐化效果.

5 结论

本文提出了一种基于注意力机制和空间结构信息判定的多光谱全色锐化对抗网络AESGGAN，一方面通过在生成器中嵌入通道注意力和空间注意力来提高对能生成更好锐化结果的重要特性的提取能力，另一方面在水平和垂直方向对锐化结果和参考图像的梯进行patch-wise判别，以保证锐化结果和参考图像的空间结构信息一致性.三种典型数据集上的对比实验表明，AESGGAN的锐化效果优于参与比较的所有传统方法和目前较为先进的深度学习算法.

由于真实的HRMS图像无法获得，几乎所有基于CNN的有监督全色锐化方法都是通过对原始图像进行降分辨率处理得到有监督学习的训练集.虽然这种方法在降分辨率的测试中能够取的很好的效果，但是降辨率图像和原始分辨率图像的分布存在差异，在降分辨率下训练得到的模型在原始分辨率输入下不一定能取得同样好的效果.因此，下一步工作我们拟对通过降分辨率数据集下训练好的全色锐化模型在原始分辨率的数据集下进行无监督的迁移学习，使它更符合原始分辨率下真实HRMS图像的分布.

参考文献：

［1］ Ye F， Guo Y， Zhuang P. Pan-sharpening via a gradient-based deep network prior ［J］. Signal Process： Image， 2019， 74： 322.

［2］张意，阚子文，邵志敏，等. 基于注意力机制和感知损失的遥感图像去噪［J］. 四川大学学报：自然科学版， 2021， 58： 042001.

［3］池涛，王洋，陈明. 多层局部感知卷积神经网络的高光谱图像分类［J］. 四川大学学报：自然科学版， 2020， 57： 103.

［4］ Ghassemian H. A review of remote sensing image fusion methods ［J］. Inform Fusion， 2016， 32： 75.

［5］ Zhang L， Shen H， Gong W， et al. Adjustable model-based fusion method for multispectral and panchromatic images ［J］.IEEE T Syst Man Cybern： B， 2012， 42： 1693.

［6］ Haydn R. Application of the IHS color transform to the processing of multisensor data and image enhancement［C］//Proceedings of the International Symposium on Remote Sensing of Arid and Semi-Arid Lands. Egypt： Environ Res Inst of Mich， 1982.

［7］ Kwarteng P， Chavez A. Extracting spectral contrast in landsat thematic mapper image data using selective principal component analysis ［J］. Photogramm Eng Remote Sens， 1989， 55： 339.

［8］ Laben C A， Brower B V. Process for enhancing the spatial resolution of multispectral imagery using pan-sharpening：US06011875A ［P］. 2000-01-04.

［9］ Mallat S G. A theory for multiresolution signal decomposition： the wavelet representation ［J］. IEEE T Pattern Anal， 1989， 11： 674.

［10］ Shensa M J. The discrete wavelet transform： wedding the a trous and Mallat algorithms ［J］. IEEE T Signal Process， 1992， 40： 2464.

［11］ Burt P J， Adelson E H. The laplacian pyramid as a compact image code ［M］//Readings in computer vision. San Francisco： Morgan Kaufmann， 1987.

［12］ Vivone G， Alparone L， Chanussot J， et al. A critical comparison among pansharpening algorithms ［J］. IEEE T Geosci Remote Sens， 2014， 53： 2565.

［13］ Zhou X， Liu J， Liu S， et al. A GIHS-based spectral preservation fusion method for remote sensing images using edge restored spectral modulation ［J］. ISPRSJ Photogramm， 2014， 88： 16.

［14］ Aiazzi B ， Alparone L ， Baronti S， et al. 25 years of pansharpening： a critical review and new developments ［M］//Signal and Image Processing for Remote Sensing. Boca Raton： CRC Press， 2012.

［15］ Masi G， Cozzolino D， Verdoliva L， et al. Pansharpening by convolutional neural networks ［J］. Remote Sens， 2016， 8： 594.

［16］ Yang J， Fu X， Hu Y， et al. PanNet： a deep network architecture for pan-sharpening ［C］//Proceedings of the IEEE International Conference on Computer Vision. Venice： IEEE， 2017.

［17］ Liu Q， Zhou H， Xu Q， et al. PSGAN： a generative adversarial network for remote sensing image pan-sharpening ［J］. IEEE T Geosci Remote S， 2020， 59： 10227.

［18］ Zhang H， Ma J. GTP-PNet： a residual learning network based on gradient transformation prior for pansharpening ［J］. ISPRS J Photogramm， 2021， 172： 223.

［19］ Zhang Y， Li X， Zhou J. SFTGAN： a generative adversarial network for pan-sharpening equipped with spatial feature transform layers ［J］. J Appl Remote Sens， 2019， 13： 026507.

［20］ Ledig C， Theis L， Huszár F， et al. Photo-realistic single image super-resolution using a generative adversarial network ［C］//Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu： IEEE， 2017.

［21］ Woo S， Park J， Lee J Y， et al. Cbam： convolutional block attention module［C］//Proceedings of the European conference on computer vision （ECCV）. Munich： Springer， 2018.

［22］ Bahdanau D， Cho K， Bengio Y. Neural machine translation by jointly learning to align and translate［C］// International Conference of Legal Regulators. San Diego： arXiv， 2015.

［23］ Guo M H， Xu T X， Liu J J， et al. Attention mechanisms in computer vision： a survey［J］. Comput Visual Media， 2022， 8： 331.

［24］ Hu J， Shen L， Sun G. Squeeze-and-excitation networks ［C］//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City： IEEE， 2018.

［25］ Mnih V， Heess N， Graves A. Recurrent models of visual attention［C］// Proceedings of the Advances in Neural Information Processing Systems（NIPS）. Montreal： MIT Press， 2014.

［26］ Goodfellow I， Pouget-Abadie J， Mirza M， et al. Generative adversarial nets ［C］. Advances in Neural Information Processing Systems（NIPS）. Montreal： MIT Press， 2014.

［27］ Mao X， Li Q， Xie H， et al. Least squares generative adversarial networks ［C］//Proceedings of the IEEE International Conference on Computer Vision. Venice： IEEE， 2017.

［28］ Arjovsky M， Chintala S， Bottou L. Wasserstein generative adversarial networks ［C］//Proceedings of the International Conference on Machine Learning. Sydney： International Machine Learning Society， 2017.

［29］ Gulrajani I， Ahmed F， Arjovsky M， et al. Improved training of wasserstein gans ［C］//Advances in Neural Information Processing Systems（NIPS）. Long Beach： MIT Press， 2017.

［30］ Gregor K， Danihelka I， Graves A， et al. Draw： a recurrent neural network for image generation ［C］//Proceedings of the International Conference on Machine Learning. Lille： International Machine Learning Society.［S.l.：S.n.］， 2015.

［31］ Dosovitskiy A， Brox T. Generating images with perceptual similarity metrics based on deep networks［C］//Advances in Neural Information Processing Systems（NIPS）. Barcelona： MIT Press， 2016.

［32］ Isola P， Zhu J Y， Zhou T， et al. Image-to-image translation with conditional adversarial networks［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu： IEEE， 2017.

［33］ Huang G， Liu Z， Van Der Maaten L， et al. Densely connected convolutional networks［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu： IEEE， 2017.

［34］ Gillespie A R， Kahle A B， Walker R E. Color enhancement of highly correlated images. II. Channel ratio and “chromaticity” transformation techniques［J］. Remote Sens Environ， 1987， 22： 343.

［35］ Liu J G. Smoothing filter-based intensity modulation： a spectral preserve image fusion technique for improving spatial details ［J］. Int J Remote Sens， 2000， 21： 3461.

［36］ Liao W， Huang X， Van Coillie F， et al. Two-stage fusion of thermal hyperspectral and visible RGB image by PCA and guided filter ［C］//Proceedings of the 2015 7th Workshop on Hyperspectral Image and Signal Processing： Evolution in Remote Sensing （WHISPERS）. ［S.l.］： IEEE， 2015.

［37］ Aiazzi B， Baronti S， Selva M. Improving component substitution pansharpening through multivariate regression of MS + Pan data ［J］. IEEE T Geosci Remote Sens， 2007， 45： 3230.

［38］ Yokoya N， Yairi T， Iwasaki A. Coupled nonnegative matrix factorization unmixing for hyperspectral and multispectral data fusion［J］. IEEE T Geosci Remote Sens， 2011， 50： 528.

［39］ Aiazzi B， Alparone L， Baronti S， et al. MTF-tailored multiscale fusion of high-resolution MS and Pan imagery ［J］. Photogramm Eng Rem S， 2006， 72： 591.

［40］ Xu S， Zhang J， Zhao Z， et al. Deep gradient projection networks for pansharpening ［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.［S.l.］： IEEE， 2021.

［41］ Zhao Z， Zhang J， Xu S， et al. FGF-GAN： a lightweight generative adversarial network for pansharpening via fast guided filter ［C］//Proceedings of the 2021 IEEE International Conference on Multimedia and Expo （ICME）. ［S. l.］： IEEE， 2021.

［42］ Wald L， Ranchin T， Mangolini M. Fusion of satellite images of different spatial resolutions： assessing the quality of resulting images ［J］. Photogramm Eng Rem S， 1997， 63： 691.

［43］ Yuhas R H， Goetz A F H， Boardman J W. Discrimination among semi-arid landscape endmembers using the spectral angle mapper （SAM） algorithm［C］// Proceedings of the JPL， Summaries of the Third Annual JPL Airborne Geoscience Workshop. Pasadena： AVIRIS Workshop， 1992.

［44］ Wald L. Data fusion： definitions and architectures： fusion of images of different spatial resolutions ［M］. Paris： Presses des MINES， 2002.

［45］ Zhou J， Civco D L， Silander J A. A wavelet transform method to merge Landsat TM and SPOT panchromatic data ［J］. Int J Remote Sens， 1998， 19： 743.

［46］ Wang Z， Bovik A C， Sheikh H R， et al. Image quality assessment： from error visibility to structural similarity［J］. IEEET Image Process， 2004， 13： 600.

［47］ Wang Z， Bovik A C. A universal image quality index ［J］. IEEE Signal Proc Let， 2002， 9： 81.