Res2-Unet 深度学习网络的RGB-高光谱图像重建

2022-08-02宋蓓蓓马穗娜孙文方

光学精密工程 2022年13期

宋蓓蓓，马穗娜，何帆，孙文方

（1. 长安大学信息工程学院，陕西西安 710064；2. 西安电子科技大学空间科学与技术学院，陕西西安 710126）

1 引言

高光谱图像（Hyperspectral Image，HSI）的光谱分辨率在0.01λ量级，在电磁波谱的可见光和近红外区域内其谱段数达几十甚至数百个。高光谱图像具有图谱合一和空谱相关性较强等特性，因此在军事［1-2］、农业［3］、海洋［4］、环境监测［5］和医学物理研究［6-7］等领域越来越受到重视。与传统的RGB 三谱段多光谱成像相比，高光谱图像的主要优势在于能够在更宽的光谱响应范围内以更高的光谱高分辨率捕获更多细节。然而，相对普遍装备的低成本RGB 成像相机，高光谱成像设备价格昂贵，难以广泛应用，因此，从RGB图像重建高光谱图像的技术引起学术界和工业界的关注［8-9］。

由计算机视觉和模式识别领域的顶级学术会议CVPR（IEEE Conference on Computer Vision and Pattern Recognition）组织的NTIRE（New Trends in Image Restoration and Enhancement）挑战赛［8］是近年来计算机视觉领域非常有影响力的赛事，其内容包括图像去模糊、去雾、去噪及超分辨率重建等。RGB-高光谱图像重建（Challenge on Spectral Reconstruction from an RGB Image）是NTIRE 挑战赛的项目之一，于2018 年和2020 年成功主办过两次［8-9］。RGB-高光谱图像重建挑战赛提供了较大的数据集，参赛者基于数据集构建从RGB 图像到高光谱图像的映射方法，以获得高质量的高光谱重建图像。

较早的图像重建方法主要集中在建立稀疏表示与压缩感知（Compressive Sensing，CS），以及浅层网络学习模型上［10-13］，泛化能力有限，重建图像质量较差。在2018 年的RGB-高光谱图像重建挑战赛上，主办方提供了包含256 个RGB-高光谱图像对的BGU HS 数据集。在大数据背景下，深度学习神经网络在RGB-高光谱图像重建方面得到了大量应用。Xiong 等［14］提出了一种由自适应残差块组成的深度残差网络HSCNNR。为了进一步提高性能，他们设计了一种基于密集连接结构的更深层次HSCNN-D 模型和基于融合的后处理方案，重建精度有所提升，但是网络参数量和计算量却大幅增加。Stiebel 等［15］将语义分割中常用的Unet 网络［16］引入到这项工作中，考虑到光谱重建的特殊性，删除了Unet 网络中的池化层和批量归一化（Batch Normalization，BN）［17］处理，最终获得第四名的好成绩。为了解决近红外光谱段信息难以重建的问题，Zhou等构建了包括一个生成器和两个鉴别器的生成对抗网络［18］，其中一个鉴别器关注全光谱段信息，另外一个鉴别器仅关注近红外光谱段信息，但需要在训练集中删除与测试集不匹配的部分数据，以避免训练过程中出现振荡现象，因此网络的鲁棒性较差。

在2020 年的RGB-高光谱图像重建挑战赛上，一个更大的数据集ARAD HS 被公开，参赛算法的性能获得显著提升。Li 等［19］提出了一种自适应加权注意力机制网络（Adaptive Weighted Attention Network，AWAN），其中的长短跳跃连接有助于建立远程像素的相关性，有效提高了重建精度，但需要预先已知光谱响应曲线，实用性较差。Zhao 等［20］提出了一个4 级分层回归网络（Hierarchical Regression Network，HRNet），使用残差模块和密集连接方法，有助于去除重建噪声和减少重建伪影。Peng 等［21］为光谱重建设计了一个残差像素注意网络（Residual Pixel Attention Network，RPAN），可以自适应地重新缩放每个通道中的像素级特征。

综上所述，现有的光谱重建主要通过加深网络、加宽网络，以及多网络融合等方法提升重建性能，但模型参数量和计算量会成倍增加。由于图像高频纹理特征信息会随着网络加深而丢失，当网络结构不能充分保护这些高频信息时将限制网络的性能。因此，本文提出了一种基于类Unet 结构的RGB-高光谱图像重建网络（Res2-Unet）。整个网络以Unet 架构为基础，引入Res2Net［22］模块构建其骨干网络，利用Res2Net 的残差连接、多尺度融合等特性可更加细粒度地提取图像的局部和全局特征，同时加入通道注意力机制［23-24］能自适应调节通道特征响应，编解码间的跳跃连接可充分融合不同尺度的高频信息。最后，在NTIRE 2020 挑战赛提供的ARAD HS 数据集上进行性能测试，结果表明，Res2-Unet 方法无论在客观评价还是主观视觉方面均具有较好的结果。

2 Res2-Unet 深度学习网络

2.1 Res2-Unet 网络设计思路

RGB-高光谱重建属于图像恢复范畴，而回归是解决图像恢复的常用方法。Unet［16］网络是一种回归网络，最早用于医疗影像分割，包括编码网络和解码网络两部分。编码网络对输入图像进行多次卷积和池化操作，特征图的分辨率逐步变低，但特征图的通道数量不断增加，以达到整合多尺度上下文信息的目的。解码网络对特征图进行多次上采样和卷积操作，特征图的分辨率不断提高，最终恢复到原始图像的分辨率。不同于Segnet 网络［25］，Unet 网络利用图像的多尺度信息在编码和解码通道之间使用跳跃连接融合图像的浅层与深层特征。Unet 的编码网络部分采用VGG16 作为主干网络，但是VGG16 网络层数多、参数多，所以具有计算量大、训练收敛慢的缺点。为了解决这一问题，近年来一种结合ResNet［26］和Unet 的Res-Unet［27］被提出，ResNet网络的残差结构不仅在不降低精度的情况下拥有较少的网络参数，而且可以克服梯度发散问题得到更快的收敛速度。

Res2Net 是一种新颖的卷积神经网络模块架构［22］，其结构如图1 所示。它使用3×3 群卷积层代替ResNet 模块中的一个3×3 卷积层，在物体检测、面部分析、边缘检测、语义分割、显著性物体检测和骨架检测中都能有效提升性能。在Res2Net 模块中，输入经过1×1 卷积后将特征图按通道平均分为s个子集。除了第一个子集外，其他每个特征图子集都要经过3×3 卷积层处理。由于子集之间的连接操作，每一个3×3 卷积层均接收到它之前所有特征图子集的信息，因此可以得到更大的感受野。Res2Net 模块的输出包含了多种大小、尺度和数量的感受野及其组合。这种分组、合并的策略使得卷积层以更细粒度级别表达多尺度特征，能够更有效地处理特征图信息。参数s用于控制尺度维度，更大的s能提供更多不同尺寸的感受野，但同时也会增加计算量和内存消耗，一般选择s=4。

图1 Res2Net 模块Fig.1 Res2Net module

本文结合Unet 和Res2Net 的优势，提出了一种称为Res2-Unet 的深度学习网络以解决RGB-高光谱重建问题。

2.2 Res2-Unet 网络描述

Res2-Unet 网络结构如图2 所示，左侧是编码网络，右侧是解码网络，共4 个尺度。在编码网络部分主要使用3×3 卷积、Res2Net-SE 和PixelUnShuffle［28］等3 种模块。

图2 Res2-Unet 网络结构Fig.2 Network architecture of Res2-Unet

首先，采用3×3 卷积模块提取图像浅层特征。输入RGB 图像x，进行128 个通道的3×3 卷积，即：

用卷积建模的多通道之间具有固定的隐式和局部性关系，而高光谱的多通道特性期望以显式方式改变通道之间的相互依赖性来增强对卷积特征的学习，以增强网络对捕获特征的敏感性。由于SE（Squeeze and excitation networks）模块［23］具备全局信息嵌入和自适应激励调节功能，能有效解决通道依赖性问题，因此提出网络采用Res2Net-SE 模块进行特征映射。Res2Net-SE 模块结构如图3（a）所示，它在Res2Net 模块基础上增加了SE 模块。

图3 Res2Net-SE 模块和SE 模块Fig. 3 Res2Net-SE module and SE block

SE 模块首先使用全局平均池化层将全局空间信息压缩到通道域以实现空间信息的聚合。

其中：z（c）是通道c的全局平均池化结果，o（c，i，j）是通道c特征图在空间（i，j）处的值，H和W分别为特征图在行列方向的数据量。然后，使用ReLU 和Sigmoid 函数来获得通道之间的依赖关系，即：

其中：δ是ReLU 函数，σ是Sigmoid 激活函数，W1∈RC/r×C和W2∈RC×C/r是线性映射函数，r为压缩比，取32。

SE 模块具备通道注意力机制，可以保护重要的通道特征。由于高光谱图像具备多通道特性，引入SE 模块对高光谱图像的多通道数据重建调节具有一定的作用。因此，Res2Net-SE 模块不仅可以在更加细粒度级别捕捉局部和全局的图像特征，同时残差连接也有助于增强上下文信息，且具备多通道自适应调节能力。于是Res2-Unet 编码网络的第一尺度特征映射函数可表示为：

其中：Fmap（1）（·）为第一尺度特征映射函数，它由两个Res2Net-SE 模块级联得到，每个通道的特征图与原始输入图像具有相同的分辨率；FRes2Net-SE（·）是Res2Net-SE 模块的特征映射函数。不同于Unet，在Res2-Unet 网络的第二尺度特征映射中采用PixelUnShuffle 取代Maxpooling 进行下采样。PixelUnShuffle 的优势在于每经过一次操作后特征总量不发生变化，虽然特征图的分辨率降低1倍，但特征通道的数量会变为原先的4 倍。Res2-Unet 编码网络的第二尺度特征映射函数可表示为：

其中：Fmap（2）（·）为第二尺度特征映射函数，FPUS（·）为PixelUnShuffle 操作。x3每个通道特征图的分辨率为x2的一半，通道数却增加了一倍。Res2-Unet 网络的第三、四尺度特征映射采用与第二尺度特征映射一样的处理方法。

在解码网络部分，首先使用一个1×1 的无填充卷积操作，对所有通道进行加权处理可获得更佳的深层特征信息表示。另外，使用PixelShuffle层进行上采样处理，与传统的最邻近或双线性上采样插值不同，PixelShuffle 每经过一次操作后特征总量不发生变化，特征图分辨率提升1 倍，特征通道数量变为原先的1/4，这样能有效地保留特征。网络的最后部分使用两个3×3 卷积层将特征图映射到目标高光谱图像。

由于L1损失函数对异常值不敏感，具有稳定的梯度，且相对其他传统损失函数产生较弱的空间纹理模糊现象，因此Res2-Unet 网络使用L1损失函数进行网络训练。L1损失函数定义为：

其中：x和y分别是输入的RGB 图像和参考的高光谱图像，G（·）是以上提出的重建网络Res2-Unet。

3 实验与结果分析

3.1 实验数据集

采用来自NTIRE 2020 挑战赛提供的ARAD HS 数据集［8］对网络进行训练和测试。ARAD HS 数据集分为两部分，一部分用于Clean赛道，另一部分用于Real World 赛道。每个赛道均包含由450 个RGB-HS 图像对组成的训练集、10 个RGB-HS 图像对组成的验证集，而测试集中仅提供了10 幅RGB 图像，但与之对应的高光谱数据不可下载。因此，实验中将验证集中的10 个RGB-HS 图像对作为测试集。其中，高光谱图像由400～700 nm 中31 个波段的光谱图像组成，每个波段的图像尺寸为482×512 像素，每个波段带宽为10 nm。Clean 赛道中的RGB 图像由对应的高光谱图像经过固定的光谱响应函数生成，如下：

其中：R为31×3 的矩阵，是由相机的RGB 三色光谱响应曲线［29］离散化处理得到。Real World赛道中的RGB 图像不仅由对应的高光谱图像经过固定的光谱响应函数进行变换处理，而且叠加了一定强度的高斯噪声用于模拟相机的电子噪声，并最终通过了去马赛克效应运算，整个处理流程更接近实际的RGB 成像过程。以上所有的高光谱数据均经过归一化处理，数值为0～1。

3.2 评价方法

NTIRE 2020 挑战赛主要采用平均相对绝对误差（Mean of Relative Absolute Error，MRAE）和均方根误差（Root Mean Square Error，RMSE）来评价网络的高光谱图像重建性能，MRAE 和RMSE 的计算公式如下：

其中：SAM（i，j）为图像（i，j）位置的光谱角：

MRAE，RMSE 和MSAM 越小，重建性能越好，而PSNR 值越大表示重建性能越好。

除此之外，统计网络参数量用于评价网络计算空间复杂度。网络参数量越多表明存储网络所用内存空间越大。网络浮点运算数（Floating Point Operations，FLOPs）用于评价网络计算时间复杂度，FLOPs 越大，网络运算耗时越长。

3.3 实验环境和网络参数

设计的网络使用Leaky-ReLU［30］类型的激活函数，它相比ReLU 具有更好的非线性性并可加速收敛。整个过程未采用BN 操作，这是因为BN操作会破坏图像的对比度信息，不利于图像重建，且会导致训练速度缓慢，甚至训练发散。网络中的每个卷积层采用镜像填充的边缘填充方式，可以有效降低边界效应。

实验的所有网络训练和测试均是基于Pytorch 深度学习平台，GPU 是NVIDIA GeForce RTX 3090，每个网络训练10 000 个Epoch，初始学习率为10-4，每经过2 000 个Epoch 后学习率减半。训练过程中，Batch Size 设置为16，参数优化算法使用Adam 优化器，其中β1=0.5，β2=0.999，e=10-8。

3.4 实验结果

3.4.1 结果比较

与NTIRE 2020 挑战赛最优秀的两种网络AWAN［19］和HRNet［20］进行对比实验，Clean 和Real World 两个赛道的测试集各10 组数据分别进行高光谱图像重建，将重建图像与参考图像代入式（8）～式（12），计算得到MRAE，RMSE，PSNR 和MSAM 的均值和标准偏差，结果如表1和表2 所示。在评价结果均值相当的情况下，其标准偏差越小表明算法鲁棒性越好；而标准偏差较大则说明模型对某些数据的重建效果较好，对其他一些数据的重建效果较差。

与AWAN 和HRNet 两种优秀的方法相比，提出的方法无论是在Clean 赛道还是在Real World 赛道中各项评价都取得了最好的统计结果。两个赛道中，提出方法与AWAN 方法的MRAE 均值相当，但是MRAE 的标准偏差更小，表明提出方法在处理各种场景数据时性能更为稳定。对于PSNR 和MSAM 两种评价方法，无论是在均值结果还是标准偏差结果方面，提出方法均获得较为显著的优势。在Clean 赛道中，提出方法的PSNR 平均值相比AWAN，HRNet 分别高出0.08 dB 和1.73 dB；在Real World 赛道中，PSNR 平均值分别高出0.72 dB 和0.97 dB。

AWAN，HRNet 和提出网络的网络参数量分别为17.421M，31.705M 和34.651M，网络浮点运算数分别为1.142T，164.013G 和117.481G，单幅图像的网络运行时间分别为4.600 8，2.605 8和2.144 7 s。AWAN 的网络参数量最少，但是网络浮点运算数最多且运算时间最长。提出网络的参数量较其他方法稍多，但网络浮点运算数最少且运算时间最短，表明提出网络的计算空间复杂度适中，计算时间复杂度最低。

表3 和表4 分别给出了AWAN，HRNet 和提出网络在10 组测试数据中测得MRAE，RMSE，PSNR 和MSAM 的相关系数。当两种评价方法获得结果数据的相关系数越大，说明两者的关系越强，即两者评价的一致性越好。在3 种网络中，MRAE 与MSAM 之间的相关系数均大于0.93，表现出极强的正相关性，评价结果的一致性好。PSNR 与RMSE 之间的相关系数均小于-0.94，表现出极强的负相关性，显然印证了式（10）所表示两者的负相关关系，它们评价结果的一致性好。因此，MRAE，RMSE，PSNR 和MSAM 均是有效的评价方法。

对比表1 和表2，相同网络在Real World 赛道测试结果均差于Clean 赛道。对比表3 和表4，Real World 赛道测试结果相关系数的绝对值普遍低于Clean 赛道。这表明由于Real World赛道的测试数据引入了噪声和JPEG压缩效应，所有网络更难以重建光谱信息，且重建结果的稳定性较差。

表1 Clean 赛道测试结果比较Tab.1 Comparison of test results for Clean track

表2 Real World 赛道测试结果比较Tab.2 Comparison of test results for Real World track

表3 Clean 赛道测试结果相关系数Tab.3 Correlation coefficients of test results on Clean track

表4 Real World 赛道测试结果相关系数Tab.4 Correlation coefficients of test results on Real World track

图4～图7 是两个赛道中两组测试数据通过AWAN，HRNet 和Res2-Unet 3 种网络获得重建光谱图像与参考光谱图像的光谱角制图的比较。图4（a）是输入的RGB 三通道彩色图像，图4（b）是二值图，亮处表明该处由Res2-Unet 网络获得的SAM 值比AWAN 网络获得的SAM 值小，即由Res2-Unet 网络获得的重建光谱数据更接近参考光谱信息；暗处表明该处由Res2-Unet 网络获得的SAM 值比AWAN 网络获得的SAM 值大，即由AWAN 网络获得的重建光谱数据更接近参考光谱信息。图4（c）所示二值图是Res2-Unet 网络与HRNet 网络获得SAM 相比较的可视化图像，图4（d）所示二值图是AWAN 网络与HRNet网络获得SAM 相比较的可视化图像。

图7 Real World 赛道ARAD_HS_0463 数据测试结果的SAM 比较Fig.7 SAM comparison of ARAD_HS_0463 data on Real World track

图8～图11 是两个赛道中两组测试数据通过AWAN，HRNet 及Res2-Unet 3 种网络获得的重建光谱图像与参考光谱图像在5 个均匀分布位置处的光谱曲线比较。图8（a）是输入的RGB 三通道彩色图像，并在图中标注了5 个位置点。图8（b）～图8（f）依次给出了这5 个位置处的光谱数据曲线。

对照图4 和图8 所测试的Clean 赛道ARAD_HS_0451 数据结果，由图4（b）和图4（c）可知提出方法在房屋纹理区获得更好的SAM 评价性能。图8（d）和图8（e）分别描绘的位置3 和位置4 均属于纹理区，提出方法获得的重建光谱数据曲线更接近参考光谱数据曲线。虽然提出方法在天空所在的平坦区获得的SAM 评价性能不及AWAN，但是如图8（b）和8（c）所示，两种方法重建得到的光谱曲线十分接近，重建结果相当。

图4 Clean 赛道ARAD_HS_0451 数据测试结果的SAM 比较Fig.4 SAM comparison of ARAD_HS_0451 data on Clean track

图8 Clean 赛道ARAD_HS_0451 数据光谱曲线比较Fig.8 Spectral curve comparison of ARAD_HS_0451 on Clean track

对照图5 和图9 所测试的Clean 赛道ARAD_HS_0463 数据结果，由图5（b）和图5（c）可知提出方法在大部分区域的SAM 评价均不及AWAN 和HRNet。但如图9 所示，3种方法重建得到的光谱曲线在400～600 nm十分接近，重建结果相当，提出方法仅在600～700 nm的重建结果较差。

图5 Clean 赛道ARAD_HS_0463 数据测试结果的SAM 比较Fig.5 SAM comparison of ARAD_HS_0463 data on Clean track

图9 Clean 赛道ARAD_HS_0463 数据光谱曲线比较Fig.9 Spectral curve comparison of ARAD_HS_0463 on Clean track

对照图6 和图10 所测试的Real World 赛道ARAD_HS_0451 数据结果，以及图7 和图11 测试的Real World 赛道ARAD_HS_0463 数据结果，由图6（b）～6（c）和图7（b）～7（c）可见提出方法在大部分区域获得了更好的SAM 评价性能。在图10 和图11 所示的重建光谱曲线比较中，提出方法重建得到的光谱数据整体上更接近于参考光谱数据。

图6 Real World 赛道ARAD_HS_0451 数据测试结果的SAM 比较Fig.6 SAM comparison of ARAD_HS_0451 data on Real World track

图10 Real World 赛道ARAD_HS_0451 数据光谱曲线比较Fig.10 Spectral curve comparison of ARAD_HS_0451 on Real World track

综上所述，在Clean 和Real World 两个赛道中，无论是采用二值图进行SAM 可视化比较，还是典型位置的重建光谱数据曲线比较，提出方法整体上具有优势。但3 种方法对于600～700 nm近红外谱段数据的重构结果均与目标存在较大差距。

3.4.2 消融实验

对设计的网络进行两种消融实验，其一是去掉骨干网络中的SE，以检验通道注意力机制对性能的影响，其二是将骨干网络中的Res2Net-SE 模块替换成3×3 的卷积模块Conv3×3，以检验Res2Net 模块在整个网络中的作用。两个赛道的网络消融测试结果如表5 和表6 所示，除此之外Conv3×3，Res2Net 和Res2Net-SE 3 种模块为主构成骨干网络的网络参数量分别为55.580M，34.477M 和34.651M，而FLOPs 分别为182.549G，117.449G 和117.481G。结果表明，相对于Conv3×3 模块，采用Res2Net 模块后不仅减少了21.103M 个网络参数，而且重建图像的4 种评价结果均显著提升，证明了Res2Net 模块的有效性。其性能提升的主要原因在于Res2Net模块的多尺度处理，以及多子集融合方式更有利于提取局部和全局信息。

表5 Clean 赛道网络消融测试结果比较Tab.5 Comparison of test results of network ablation on Clean track

表6 Real World 赛道网络消融测试结果比较Tab.6 Comparison of test results of network ablation on Real World track

在Res2Net 上添加SE 模块后，虽然网络参数量增加了大约0.2M，FLOPs 增加仅0.032G，但对网络性能的提升有一定帮助。其主要原因在于SE 模块是通过建立通道之间的相互依赖性来自适应地调节各通道之间的特征响应，使网络能够更好地学习一些重要性通道的特性以提高网络重建的整体性能。

4 结论

本文提出了Res2-Unet 深度学习网络用于RGB-高光谱图像重建。通过Res2Net 模块内的短残差连接和整体的长残差连接增强上下文信息，提高模型重建能力。在Res2Net 中引入SE模块，使网络能够更好地学习重要性通道的特性，提高了网络重建的整体性能。对比参考图像与重建图像，无论是在图像的低频平坦区还是在图像的高频纹理区，提出方法均获得了更好的视觉效果。实验结果表明，无论是所提出网络还是AWAN，HRNet 网络，对于高光谱的两端光谱数据重建还是不尽如意，特别是近红外端的重建结果较差。未来将考虑设计生成对抗损失和感知损失等以进一步提高网络对光谱的重建能力。