多感受野特征与空谱注意力结合的高光谱图像超分辨率算法
2022-03-24曲海成王雅萱申磊
曲海成, 王雅萱, 申磊
(辽宁工程技术大学软件学院,葫芦岛 125105)
0 引言
高光谱图像是由高光谱成像传感器在多个连续的窄光谱波段上获取同一场景的图像,通常有几十个到上百个波段,其中包含了丰富的光谱信息。高光谱图像被广泛应用于生物识别[1]、植被检测[2]和医疗诊断[3]等领域。高光谱图像超分辨率是一种信号后处理技术的研究热点,旨在从低分辨率图像中获取高分辨率图像,以克服高光谱图像固有的分辨率限制。
现有高光谱图像超分辨率方法可以分为2类: 基于多源融合的超分辨率方法和基于单幅图像的超分辨率方法。基于多源融合的方法是利用同一场景的辅助高分辨率图像如多光谱图像、全色图像等重建高分辨率高光谱图像。Akhtar等[4]通过利用辅助图像和低分辨率高光谱图像的稀疏表示,提出了一种基于稀疏空间光谱表示的超分辨率方法,实现了辅助空间信息和光谱信息的融合。Dian等[5]提出了一种用于低分辨率高光谱图像与高分辨率多光谱图像融合的深度高光谱图像锐化方法,该方法通过基于深度卷积神经网络的残差学习直接学习图像先验知识,提高了重建精度。这些融合方法通常都能取得很好的效果,但这些方法都需要辅助图像,这极大地限制了实际应用。单幅高光谱图像超分辨率方法不需要辅助图像直接从低分辨率高光谱图像重建高分辨率高光谱图像。主要包括基于插值、基于稀疏表示和基于深度学习的方法。早期Huang等[6]提出在傅里叶插值变换域内重构,从而恢复高频信息,但插值方法能力有限,且重构图像细节丢失严重,导致该方法实用性不强。进一步,练秋生等[7]基于稀疏表示提出了一种基于两级字典以及分频带字典的单幅图像超分辨率算法,该算法利用高低分辨率系数之间的对应关系进行图像重构。之后,一些基于稀疏表示的单幅图像高光谱图像超分辨率方法相继被提出[8],这些方法虽然明显优于基于插值的方法,但由于其浅层启发式模型的表达能力有限,仍然不能很好地恢复复杂的图像细节。近年来,深度学习算法已被广泛应用于各类计算机视觉任务中,由于其神经网络架构,能够拟合复杂的非线性映射函数,研究者开始研究适合单幅高光谱图像超分辨率的映射函数。Li等[9]通过低分辨率观测邻近波段与高分辨率观测波段之间的光谱差异学习深度映射,与传统方法相比取得了优异的结果。Qiao等[10]提到,深度网络中输入的低分辨率图像与输出的高分辨率图像一定程度上是近似的,即低分辨率图像中的高低频信息与高分辨率图像携带的高低频信息相似,利用图像的低频信息和高频信息,使重建图像的轮廓、细节信息更丰富,完成低分辨率图像向高分辨率图像的映射。另外,基于深度学习的单幅图像超分辨方法虽然取得了一定的成果,但大多忽略了高光谱图像相邻光谱波段间的强相关性,不能深入研究组间的光谱相关性,便限制了网络提取光谱特征的能力。
为此,本文提出了一种多感受野特征提取与空谱注意力结合的超分辨率算法,命名为MASR。该算法利用高光谱图像光谱分辨率高、波段覆盖范围广、“图谱合一”等特点,进行空谱结合的注意力增强; 同时通过卷积核大小不同的多尺度卷积提取高光谱图像的高频信息和低频信息,进行图像的特征重建; 此外还应用像素级反卷积缓解棋盘格效应,改善图像特征重建质量。
1 相关工作
1.1 图像高频信息与低频信息
图像高频信息表示图像中灰度值变化剧烈的区域,对应着图像的边缘、纹理等,反映的是小范围的细节信息。图像低频信息表示图像中灰度值变化缓慢,对应着图像中连续渐变的区域,也就是大范围的轮廓信息,即常说的图像大致概貌和背景,是图像的近似信息。为了获取图像中的高低频信息,使用傅里叶变换实现对图像频率的过滤,过滤方法包括高通滤波和低通滤波,所谓高通滤波便是保留图像中的高频信息,过滤低频成分,高通滤波表达式为:
(1)
式中:Hh(u,v)为高通滤波; (u,v)为频率矩形中心点坐标;D(u,v)为距频率矩形中心的距离;D0为截止频率。
低通滤波与之相反,只保留图像中的低频信息,低通滤波表达式为:
Hl(u,v)=e-D2(u,v)/2σ2,
(2)
式中:Hl(u,v)为低通滤波;σ为关于中心的扩展度的度量。
为了直观感受图像中高频信息和低频信息的差异,在Chikusei和Pavia Centre scene数据集上,对图像中的高频信息和低频信息进行可视化,显示结果如图1所示。
(a) Chikusei图像(b) 高频信息(c) 低频信息
(d) Pavia Centre scene图像(e) 高频信息(f) 低频信息
在卷积过程中,较大的卷积核可以提取图像细节特征,保留原始图像高频信息,较小的卷积核可以提取图像轮廓信息,若在特征提取的过程中使用单一卷积,可能造成提取特征信息的丢失,因此使用不同大小的卷积核构成多感受野卷积,有效地保证了特征图信息的完整性。
1.2 注意力机制
注意力机制(attention mechanism,AMM) 是机器学习中的数据处理方法,旨在通过深度网络自动学习图像中的局部重要特征,通过对特征信息之间的相互依赖进行建模,利用神经网络的平均池化层生成一个mask掩码, mask上的值代表图像不同区域的特征权重,基于权重值自适应地重新划分特征图中的信息重要度。
空间注意力机制(spatial attention module,SAM)可以引导网络聚焦于空间域中最具特征量的区域,通常的做法是将特征图沿通道轴做平均池化处理,生成二维的特征描述符,该描述符标注了空间域中需要被关注或抑制的特征位置,增强网络对重要信息量的捕获与传递能力。通道注意力机制(channel attention module,CAM)是对空间注意力的有效补充,通过平均池化层顺着空间维度进行特征压缩,将每个通道的二维的空间特征变为一个实数,某种程度上,这个实数对特征具有全局的感知能力,代表了该通道对全局特征的响应权重,衡量了每个通道对特征有效提取的贡献能力。
2 MASR网络模型
不同于对高光谱图像整体进行特征提取,为了更充分利用高光谱图像相邻光谱波段之间的相关性,MASR网络将高光谱图像沿光谱波段分成多个组。每组主要包括特征提取、上采样、特征融合和图像重建4个部分,总体网络结构如图2所示。
图2 总体网络结构
2.1 多感受野特征提取空谱注意力模块
图像超分辨率是一个不适定问题,需要额外的先验知识(正则化)来约束重建过程。对于高光谱图像的超分辨率问题,有效利用高光谱图像的内在特性,即空间上的非局部自相似性和光谱间的高相关性是至关重要的。因此,本文提出了多感受野特提取和空谱注意力模块来利用空间和光谱先验知识,提取图像特征,该模块结构如图3所示。
图3 多感受野特征提取注意力模块
该模块包括多感受野特征提取模块(multi-receptive field feature extraction block,MFB)和空谱结合注意力模块(space spectrum combined with attention module,AM)2部分,该模块可以从输入图像中获得既有低频信息又有高频信息的特征。
2.2 多感受野特征提取模块
卷积核的大小会影响特征提取过程中所获取的信息。小尺寸核对低频信息的特征提取效果较好,对高频信息的特征提取效果较差,而大尺寸核对高频信息的特征提取效果较好,但对小细节的特征提取效果较差。这个问题可以通过在不同的卷积神经网络层中使用不同大小的卷积核来解决。但是,这增加了卷积神经网络架构的深度,会导致更高的复杂性。因此,本文使用同一层内的多感受野卷积,构成MFB,该模块结构如图4所示。
图4 多感受野特征提取模块
该模块,同时使用不同的卷积核进行特征提取,该模块采取的卷积核大小分别为1×1,3×3,5×5,7×7,小卷积核可以提取低频信息即图像中比较平滑区域,大卷积核提取高频信息即图像的边缘轮廓信息,同时提取低频信息和高频信息,使输入的特征图有更细的信息。上述过程描述的表达式为:
F[o]=Conv[Concat(f1,f3,f5,f7)],
(3)
式中:F[o]为输出特征图; Conv表示卷积操作; Concat表示特征图通道拼接;f1,f3,f5,f7分别对应的是1×1,3×3,5×5,7×7卷积操作。具体表达式分别为:
(4)
式中:F[i]为输入特征图;w和b分别代表卷积的权重和偏置,特征图从4个卷积操作中被获得,它们可以通过多感受野特征的连接操作组合起来。为了对连接后的特征图进行降维,将其输入至一个3×3的卷积层,降低通道维度。
2.3 空谱结合注意力模块
该模块有助于有效地提高网络的表示能力,文中使用的AM设计如图5所示。
图5 空谱结合注意力模块
该模块前半部分是空间残差注意力,后半部分是光谱残差注意力。该模块采用2个3×3卷积构建更深层网络,然后沿通道维度做全局空间池化,形成空间注意力图。将注意力图和卷积后的特征图相乘,增强高光谱图像中信息的传递,将空间注意力残差模块和光谱残差模块串联,将输出的特征图经过2个1×1卷积块,做光谱通道缩放,学习光谱维度的权重值,将其与特征图相乘,增强光谱信息的有效表达,通过光谱特征之间的相互依赖进行建模,自适应地重新分配每个通道特征。前半部分过程描述的表达式为:
Fspa=F′+GAP[Conv3(F′)]⊗Conv3[Conv3(F′)] ,
(5)
式中:Fspa为空间注意力;F′为输入的特征图;GAP()为全局平均池化函数; Conv3为3×3卷积。后半部分过程描述的表达式为:
F=Fspa+GAP[Conv1(Fspa)]⊗Conv1[Conv1(Fspa)],
(6)
式中:F为输出特征图; Conv1为1×1卷积操作。
2.4 损失函数
为了更好地训练MASR网络模型,使得超分辨率结果接近真实的高分辨率图像,本文使用的总体损失函数[12]L定义为:
L(θ)=L1+βLSSTV,
(7)
式中:β为平衡不同损失贡献度的权重参数,通常使用常数去衡量,所以在实验中设定β=1E-3;L1损失被称为最小绝对值偏差,它衡量了目标值与估计值之间的绝对差值,在整个训练阶段都能保持较好的收敛性,所以选定L1损失来衡量模型重构精度。该L1损失函数定义为:
(8)
(9)
3 实验与结果分析
3.1 实现数据集与参数设置
实验用3个高光谱图像数据集来测试,分别为 Chikusei,Pavia Centre scene和 CAVE数据集。
第一个高光谱数据集是Chikusei数据集,有128个波段,光谱范围为363~1 018 nm。场景由2 517×2 335像素组成,地面采样距离为2.5 m。首先对图像的中心区域进行裁剪,得到2 304×2 048×128像素的子图像,再将其分为训练数据和测试数据。提取该图像顶部区域作为测试数据,测试数据为4幅无重叠的高光谱图像,图像大小为512×512×128像素。
第二个数据集是Pavia Centre scene数据集,它有102个光谱波段(从最初的115个光谱波段中去除了水汽吸收和噪声光谱波段)和1 096×1 096像素。需要注意的是,在中心场景中,不包含信息的区域被删除,只留下一个有意义的1 096×715像素区域。对图像的中心区域进行裁剪,提取图像的左半部分作为测试数据,测试数据为4幅无重叠的高光谱图像,图像大小为224×224像素。
为了证明本文算法对于高光谱图像的普适性,本文不仅选择遥感高光谱数据集进行实验,还在普通高光谱数据集CAVE上进行验证。CAVE数据集是由32个日常物体场景组成,图像大小为512×512像素,有31个光谱波段,光谱范围为400~700 nm。为了准备训练样本,从数据集中随机抽取20幅高光谱图像,随机抽取10%的样本作为验证集。数据集剩余的12幅高光谱图像用于测试,其中原始图像作为高分辨率高光谱图像的真值图。输入的低分辨率高光谱图像是真值图空间分辨率的1/4大小。
实验采用Pytorch框架实现了多感受野特征与空谱结合的卷积神经网络,所使用计算机的CPU型号为Intel Core i7-6700 @3.4 GHz,GPU型号为NVIDIA TITAN RTX,内存为24 GB。
3.2 评价指标
实验中使用了6个指标评估本文的算法,它们分别是均方根误差RMSE, 峰值信噪比PSNR,CC(cross correlation)[14],光谱角映射SAM,相对全局合成误差ERGAS[15],结构相似度SSIM[16]。对于重建高光谱图像的PSNR和SSIM,取它们在所有波段的平均值,即平均峰值信噪比MPSNR[17]和平均结构相似度MSSIM[17]。CC,SAM和ERGAS是高光谱融合任务中被广泛采用的3个质量指标[12],其余3个指标是常用于定量评价图像恢复质量的指标。这些指标的最佳值分别是0,+∞,1,0,0和1。
3.3 消融实验
3.3.1 多感受野特征提取与注意力模块
为了验证MFB和AM的有效性,实验对Chikusei数据集采用6个指标进行实验比较,结果见表1。
表1 Chikusei数据集在不同模块实验对比
由表1可知,MFB模块可以有效地提取低频信息特征和高频信息特征,与没有MFB相比,采用MFB模块后,本文算法获得了一定的性能提升。加入MFB模块后,虽然各客观指标的改进幅度相对较小,但MPSNR提高了0.534 1,SAM降低了0.252 9,这证明了MFB的引入更有利于网络性能的提升。
AM模块有助于有效提高网络的表示能力。由表1可知,与没有AM相比,采用AM机制后,本文算法获得了一定的性能提升。加入AM模块后,虽然各客观指标的改进幅度相对较小,MPSNR提高了1.571 2,SAM降低了0.790 2。由此可见,AM的引入更有利于光谱特征的表示。
为了从直观上验证本文添加的MFB和AM模块的有效性,以2幅Chikusei数据集的区域为例,图6给出了对比效果。
(a) 真值图1(b) 无MFB1(c) 有MFB1(d) 本文算法1(MFB+AM)
(e) 真值图2(f) 无MFB2(g) 有MFB2(h) 本文算法2(MFB+AM)
从图6可以看出,Chikusei数据集是对农田的遥感影像图,当没有采用MFB模块时,田地间的分界线模糊,颜色间亮暗分布不均匀,加入MFB模块之后,图像的色差有所改善,且建筑物与农田间的边缘信息更加清晰,说明MFB模块可以有效地提取图像的细节信息及轮廓信息。本文算法结合了MFB模块与AM模块,由图6(d)和(h)可知,继续加入的AM模块,可利用高光谱图像丰富的光谱信息辅助存在缺陷的空间信息,重建更高空间分辨率的高光谱图像,实验效果不管是纹理还是颜色更接近于真值。本文算法可以获得有效的特征,使得特征信息更加有效、完整,达到了较理想的超分辨率效果。
同时为了验证方法的泛化能力,使用Pavia Centre scene数据集进行测试,以2幅Pavia Centre scene数据集的区域为例,结果如图7所示。
(a) 真值图1(b) 无MFB1(c) 有MFB1(d) 本文算法1(MFB+AM)
(e) 真值图2(f) 无MFB2(g) 有MFB2(h) 本文算法2(MFB+AM)
从图7可以看出,Pavia Centre scene数据集是对水、沥青、砖和阴影等地方的遥感影像图,当没有采用MFB模块时,砖的分界线模糊,颜色间亮暗分布不均匀,阴影与沥青边缘也模糊不清,加入MFB模块之后,图像的色差有所改善,且砖、阴影和沥青的边缘信息更加清晰,说明MFB模块可以有效地提取图像的细节信息及轮廓信息。图7(d)和(h)是本文算法的结果,本文算法结合MFB和AM模块后,图像中房屋间的边缘特征得到了更好的重建。相比于其他的实验结果,本文算法的蓝色屋顶更加清晰,阴影部分更加精细。通过效果图的对比可以看出,本文算法对复杂的地物目标超分辨率后,重建的细节特征更加明显。
3.3.2 分组策略
为了有效地利用高光谱图像相邻光谱波段间的相关关系,减少模型参数,本文设计了一种分组策略,即沿光谱维度将高光谱图像分成若干组,为尽可能地保留组间光谱波段的关联性,每组内设置重叠波段数P。为验证分组策略的可行性,在Pavia Centre scene数据集上,进行分组验证。首先通过将每组光谱通道数g固定为8,探讨重叠因子P对图像超分辨率后MPSNR的影响,实验结果如图8所示。
图8 重叠因子对MPSNR的影响
从图8可以看出,重叠因子与MPSNR是非线性关系,并不是越大越好,当它取到临界值P=2时,此时网络中MPSNR最大。可见,重叠因子为2时,已满足对组间光谱相关性的充分利用,若继续增加重叠波段,可能会对组内光谱信息造成干扰,因此分组时选择重叠因子为2。为进一步确定组内光谱波段数g的选择,固定P=2进行实验验证,结果如图9所示。
图9 每组光谱通道数
从图9可以看出,当每组光谱波段数为8时,网络中MPSNR最大,使用分组策略后,光谱重构性能有了很大的提高。经过多次实验表明当g=8,P=2时,实验效果最佳。
3.4 与现有的算法对比实验
最后,为验证本文算法的有效性,在Chikusei数据集上,将本文算法与现有的算法进行比较,对比的算法有Bicubic[18],VDSR[19],TLCNN[20],EDSR[21],RCAN[22],SAN[23],3DCNN[24],GDRRN[25],DeepPrior[26]。实验对比结果见表2。
表2 在Chikusei数据集上不同算法的对比结果
表2中,VDSR算法在引入了深度残差网络后进行图像超分辨,取得了一定的效果,但其残差结构不如本文设计得巧妙,并未有较好的超分辨率效果; 3DCNN通过给定大量的原始图像及其损坏图像的实例对,可以很好地利用光谱相关性,将退化的图像恢复到原始图像,但其计算复杂度非常大,检测性能受到一定的制约; GDRRN通过设计一组递归模块并将其嵌入到全局残差结构中,提出了一种分组深度递归残差网络,这种群卷积和递归结构保证了它能够产生很好的性能,可见分组卷积模式有利于高光谱图像信息充分提取; DeepPrior开发了一种有效的单幅高光谱图像恢复算法,由于高光谱训练样本有限,光谱波段维度高,很难充分挖掘高光谱图像空间信息和光谱之间的相关性。综上所述,本文提出的MASR模型沿光谱波段进行分组卷积,使用不同卷积核精细化地提取原始图像信息,并且充分挖掘了空谱之间的相关性,超分辨率效果优于TLCNN,3DCNN,GDRRN和DeepPrior等现有算法。
为了验证本文算法的泛化能力,使用Pavia Centre scene数据集与其他算法进行再次比较,对比结果见表3。
表3 在Pavia Centre scene数据集上不同算法的对比结果
由表3可知,在不同的高光谱数据集Pavia Centre scene上,本文算法仍然优于其他先进算法。其中MPSNR为31.942 2,RMSE为0.028 1。通过以上2个对比实验可以看出,本文算法使用的MFB有效地提取了图像的低频信息和高频信息,AM能够有效地增强特征表达能力。
以上2个数据集均为遥感高光谱数据集,为验证本文算法的有效性,在普通高光谱数据集CAVE上实现进一步的实验验证,对比结果见表4。
表4 在CAVE数据集上不同算法的对比结果
由表4可知,在普通的高光谱图像CAVE数据集中,本文算法依然实现了较好的超分辨率效果,其中RMSE为0.013 9,MPSNR为39.172 9。通过上述对比实验结果可以看出,本文算法针对普通高光谱数据集也适用,本文的MFB有效地提取了特征的高低频信息,AM增强了图像的空间和光谱信息,捕获了更加敏感的特征信息,使得最终得到的特征图的信息更加完整且有效。
4 结论
本文提出的多感受野特征与空谱注意力结合的高光谱图像超分辨率算法,在高光谱图像超分辨率上取得了较好的效果,具体结论如下:
1)本文算法在单个卷积层中设计多尺度卷积核,充分提取多感受野特征,保证图像中高频信息和低频信息完整性。
2)空谱结合注意力模块充分利用了高光谱数据的空间和光谱相关性特征,增强网络对图像细节信息的敏感性,更有效地重建超分辨率图像特征。
3)通过模块分析实验可以看出,本文使用的2个模块可以有效地提升重建结果的质量。该网络中也采用了像素反卷积层,缓解了特征图因上采样产生的棋盘格效应。在高光谱数据集上的实验结果表明,本文算法优于其他现有算法,在超分辨率上表现优异。