一种改进多尺度三维残差网络的高光谱图像分类方法

2020-12-16郑姗姗赵静一江国乾

计算机工程 2020年12期

郑姗姗,刘文,单锐,赵静一,江国乾,张智

(1.燕山大学 a.理学院; b.机械工程学院; c.电气工程学院,河北秦皇岛 066004; 2.北京航天研究所,北京 100094)

0 概述

成像光谱仪在进行特征成像时,以数十至数百个连续细分的波段对目标区域成像得到以像素为单位的高光谱图像[1],其中三维(Three-Dimensional,3D)数据块包含大量空间与光谱信息,能有效反映成像目标情况。然而高光谱图像标记训练样本数量有限,且存在光谱维度高、信息冗余等问题,因此,高光谱图像分类问题亟待进一步研究。

在对高光谱图像分类研究早期,研究人员提出多种特征提取方法[2-3]和判别学习方法[4],但是这些方法仅利用光谱信息,并未深入研究图像数据的内在空间结构信息。针对该问题,研究人员将空间信息引入高光谱图像分类方法[5-6]。文献[7]提出基于独立空谱残差融合的联合稀疏表示高光谱分类方法,对空间特征进行有效提取,并提高图像分类精度。

近年来,包括卷积神经网络(Convolutional Neural Networks,CNN)和堆叠自动编码器(Stacked Auto-Encoder,SAE)[8-9]在内的深度学习网络模型被应用于高光谱图像分类领域。文献[10]考虑上下文深度CNN,利用相邻单个像素向量的局部空间与光谱关系联合优化图像的空间和光谱信息。由于基于CNN的方法可能无法从高光谱图像(Hyperspectral Image,HSI)的复杂场景中有效提取并辨别特征,因此文献[11]提出基于双路径网络(Dual Path Networks,DPN)的HSI分类方法并得到良好的分类结果。文献[12]提出基于图像分割方法DeepLab的深度学习框架,通过获取多个尺寸特征有效避免空间分辨率降低,然而其中基于2D-CNN的方法不能充分利用联合空间和光谱信息,导致部分信息丢失。文献[13]提出残差网络SSRN,使用连续空间和光谱残差模块分别提取空间和光谱信息,但单独设计特征提取模块造成网络设计冗余。文献[14]为减少训练时间并提高准确性,提出用于HSI分类的端到端快速密集光谱空间卷积(Fast Dense Spectral-Spatial Convolution,FDSSC)框架,使用不同卷积核分别提取空间和光谱特征,利用有效卷积方法降维并得到较好的分类结果。文献[15]基于最大化高光谱影像空间和谱间信息利用率的思想,提出一种改进的三维卷积神经网络分类框架,可很好地适应高光谱遥感影像三维结构。

考虑到高光谱图像样本数量有限以及光谱维度高对分类精度的影响,本文提出一种深度三维卷积神经网络(M3RCNN)分类方法。使用串联的三维卷积滤波器块代替原始滤波器,先后在空间区域和光谱维度上采样减少参数量,同时利用批量归一化(Batch Normalization,BN)层和随机失活层(Dropout)防止过度拟合,解决学习过程中的退化和梯度弥散问题,并对M3RCNN首层卷积步长和相邻像素块尺寸的选取进行对比分析。

1 M3RCNN框架

1.1 三维卷积滤波器块

在HSI分类中,对输入数据执行三维卷积操作可同时提取高光谱数据的空间和光谱信息。M3RCNN采用三维卷积滤波器,不需对原始高光谱数据进行降维等预处理,可避免丢失光谱信息。三维卷积计算公式如下:

(1)

由于线性整流(ReLU)函数可有效加速随机梯度下降收敛,因此选择ReLU函数作为激活函数,其表达式为:

f(x)=max(0,x)

(2)

开发深度三维CNN所需计算成本和存储需求较高,因此,M3RCNN采用特殊的三维卷积滤波器块,其结构如图1所示。该网络使用v1×v2×1和1×1×v3卷积滤波器串联替换v1×v2×v3滤波器,在一定程度上减少模型参数量与训练时间,此外,这两个滤波器可在同一个路径中相互影响,光谱滤波器连接到下一级输出。

图1 三维卷积滤波器块结构Fig.1 3D convolutional filter block structure

1.2 多尺度三维滤波器组

多尺度三维滤波器组[16]与Inception模块类似,利用输入图像局部稀疏结构从不同尺度中提取抽象特征,其结构如图2所示,虚线部分为三维卷积滤波器块结构。由于最大池化层在不增加网络计算量的同时,可减少网络训练参数量并促进模型收敛,因此为避免造成空间尺寸不相等的问题,M3RCNN添加最大池化层将空间尺寸调整为相同大小,并将多尺度滤波器组与三维卷积滤波器块结合。在多尺度三维滤波器组中,1×1×1、3×3×1、5×5×1这3种尺度的滤波器主要利用输入图像的局部空间相关性,1×1×3、1×1×5这2种尺度的滤波器用于解决光谱相关性,且3×3×1与1×1×3、5×5×1与1×1×5尺度的滤波器在同一路径下相互影响,将光谱维度拼接后得到丰富的多尺度空间和光谱信息。

图2 多尺度三维滤波器组结构Fig.2 Multi-scale 3D filter bank structure

1.3 三维残差单元

本文受ResNet[17]成功应用于图像识别任务的启发,考虑到M3RCNN模型深度可能导致梯度弥散,因此,使用三维残差加深网络以避免弱信号丢失并提高效率,从而在不引入额外参数的情况下提取更佳的深层抽象特征。一般地,残差单元表示为:

xt+1=h(xt)+F(xt)

(3)

其中,xt和xt+1分别为第(t+1)残差单元的输入与输出,h(xt)=xt为恒等映射,F为非线性残差函数。

M3RCNN用三维残差单元取代ResNet的残差单元,可增加残差结构多样性并提高训练效率,其结构如图3所示,虚线部分为三维卷积滤波器块结构。为使残差单元不受滤波器数量的限制,在最下方加入1×1×1卷积层,以调整滤波器数量并减小特征图尺寸。

图3 三维残差单元结构Fig.3 3D residual unit structure

1.4 M3RCNN结构

M3RCNN主要由滤波器组、三维残差单元和若干卷积层构成,其结构如图4所示。由于高光谱图像光谱维度较高,存在信息冗余问题,因此模型首层使用步长卷积降维。多尺度三维滤波器组使用16通道,因为在光谱维度进行拼接,所以增加卷积层(Conv)进行步长降维,滤波器尺寸为3×3×3,卷积步长为1×1×3,通道数量为32,采用三维残差单元,通道数量为64,卷积层和全连接层的滤波器数量为128。上述模块均经过BN层,并在全连接层(Dense)层后加入Dropout层以防止发生过拟合,Dropout率设置为0.5。

图4 M3RCNN结构Fig.4 M3RCNN structure

M3RCNN采用反向传播算法进行训练,选取Softmax函数作为训练分类器损失函数完成高光谱图像的多种地物分类任务,表达式为:

(4)

其中,xi表示在Softmax层中输入样本的第i类别,f(xi)表示样本预测为第i类别的概率。

2 实验数据集

本文选择美国印第安纳松树林(Indian Pines)数据集和意大利帕维亚大学(Pavia University)数据集两个较流行的高光谱数据集进行M3RCNN性能评估,以总体分类精度(OA)、平均分类精度(AA)和Kappa系数作为分类指标。

Indian Pines数据集由机载可视红外成像光谱仪对美国印第安纳州的印度松树进行成像得到,空间尺寸为145像素×145像素,光谱覆盖范围为400 nm～2 500 nm,空间分辨率为20 m,除去被吸水效应破坏的20个光谱波段,采用剩余200个波段进行分类。该数据集共有10 249个标记像素,由16个类别的地表物组成,主要为农作物、植物等自然景观。

Pavia University数据集来自德国机载反射光学光谱成像仪对意大利帕维亚城进行成像所得的部分高光谱数据,光谱覆盖范围为430 nm～860 nm,空间分辨率为1.3 m,除去受噪声影响的光谱波段,采用剩余103个光谱波段进行分类。Pavia University数据集中数据尺寸为610×340×103,含有42 776个标记像素,由9类地物组成,包括砾石、金属板等城市景观。

在Indian Pines数据集中,随机选择每个类别数量的20%作为训练样本。在Pavia University数据集中,训练集和测试集的样本数量比例为1∶9。

3 实验结果与分析

3.1 网络参数

本文选择分类交叉熵函数作为损失函数,采用随机梯度下降法SGD作为优化器,通过网格搜索与交叉验证分别得到学习率、衰减值、动量的最优值分别为0.04、0.000 5和0.8。由于训练样本较少,因此批尺寸设置为16。实验硬件平台采用i5-7500 CPU和GTX960 GPU。

3.1.1 三维卷积滤波器块有效性

三维CNN通常使用v1×v2×v3滤波器同时在空间和光谱上采样。M3RCNN采用三维卷积滤波器块先后在空间和光谱上采样,大幅降低参数量和训练时间,且v1×v2×1和1×1×v3在同一路径相互影响,有利于网络模型收敛。

表1和表2分别为在Indian Pines和Pavia University数据集上未使用与使用三维卷积块时模型参数量、训练时间及总体分类精度情况。可以看出,在Indian Pines数据集上使用三维卷积块后,参数量下降约7 100 000个,训练时间和测试时间分别减少445.30 s和1.33 s,OA值提高0.25个百分点。在Pavia University数据集上使用三维卷积滤波器块后,参数量、训练时间及测试时间均有所下降,且OA值无明显提高,这是因为Pavia University数据集比Indian Pines数据集更大,特征提取更充分。

表1 Indian Pines数据集上未使用与使用三维卷积块所得实验结果Table 1 Experimental results without and with3D convolution blocks on Indian Pines dataset

表2 Pavia University数据集上未使用与使用三维卷积块所得实验结果Table 2 Experimental results without and with3D convolution blocks on Pavia University dataset

3.1.2 多尺度滤波器组有效性

为验证共同利用空间和光谱信息的多尺度滤波器组有效性,将含有多尺度滤波器组的M3RCNN方法与不含多尺度滤波器组的3RCNN方法在Indian Pines数据集和Pavia University数据集上的OA值进行对比,结果如表3所示。可以看出,在两个数据集上M3RCNN的OA值均高于3RCNN,这是因为3RCNN未进行多尺度拼接,无法实现局部区域数据增强。

表3 2种方法在2个数据集上的OA值Table 3 OA value of two methods on two databases %

3.1.3 残差单元有效性

为验证残差单元的有效性,将含有残差单元的M3RCNN方法与不含残差单元的M3CNN方法在Indian Pines数据集和Pavia University数据集上的OA值进行对比,结果如表4所示。可以看出,在两个数据集上M3RCNN的OA值较M3CNN分别提高1.21和0.36个百分点。

表4 2种方法在2个数据集上的OA值Table 4 OA value of two methods ontwo databases %

3.1.4 首层卷积光谱采样步长对网络模型的影响

由于高光谱图像光谱维度高,存在信息冗余,直接对输入图像进行卷积处理计算量较大,因此需对数据进行降维。在M3RCNN结构中,通常使用卷积步长进行降维。首层卷积核尺寸为1×1×11,空间步长卷积为1,确保对每个像素点都进行卷积操作。

表5和表6分别为在Indian Pines数据集和Pavia University数据集上由不同光谱采样步长所得模型参数量、训练时间、测试时间及总体分类精度情况。可以看出,当步长从1增加到7时,两个数据集上的参数量、训练时间、测试时间均逐渐下降,且降幅逐渐减小。在Indian Pines数据集上,当步长为3或5时,与步长为1相比,总体分类精度虽然有一定的损失,但是参数量、训练时间与测试时间降幅较大,可降低对计算机硬件与内存的要求,而当步长为7时,OA值又有所上升。在Pavia University数据集上,当步长为1时,总体分类精度最低,这可能是因为参数量过大导致过拟合概率增加。综上考虑,由于光谱采样步长为7时M3RCNN的参数量、训练时间、测试时间均最低且OA值较高,因此在两个数据集上M3RCNN模型首层光谱卷积步长选择7。

表5 Indian Pines数据集上不同光谱采样步长所得实验结果Table 5 Experimental results of different spectralsampling steps on Indian Pines database

表6 Pavia University数据集上不同光谱采样步长所得实验结果Table 6 Experimental results of different spectralsampling steps on Pavia University database

3.1.5 相邻像素块尺寸对网络模型的影响

在数据处理阶段,由于原始图像尺寸较大,直接进行数据处理对硬件和内存要求很高,因此对H×W×B图像进行边缘填充,得到(H+s-1)×(W+s-1)×B图像,再从中选取s×s×B相邻像素块,从而得到边缘特征。其中,s为像素块空间尺寸,H、W分别为原始高光谱图像的两个空间维度,B为光谱维度。但是像素块尺寸不能过小,否则会导致感受野较小,不能充分提取图像特征。

表7和表8分别为在Indian Pines数据集和Pavia University数据集上由不同的相邻像素块尺寸所得模型参数量、训练时间及总体分类精度情况。可以看出,在两个数据集上,随着相邻像素块尺寸的增加,OA值均明显提升,但训练时间和测试时间也相应延长。

表7 Indian Pines数据集上不同的相邻像素块尺寸所得实验结果Table 7 Experimental results of different adjacentpixel block sizes on Indian Pines database

表8 Pavia University数据集上不同的相邻像素块尺寸所得实验结果Table 8 Experimental results of different adjacentpixel block sizes on Pavia University database

3.2 对比实验分析

以下将本文M3RCNN方法分别与SVM[18]、SAE[19]、CNN[20]和3DCNN[21]方法在不同数据集上的分类效果进行对比实验分析。

3.2.1 Indian Pines数据集实验

在Indian Pines数据集上,输入图像尺寸为9×9×200。上述5种方法在Indian Pines数据集上对地表实物的分类效果如图5所示。可以看出:SVM、SAE受噪声影响较大,分类效果较差;CNN、3DCNN在Indian Pines数据集每个类别中由于训练样本有限,因此分类效果不理想;M3RCNN受噪声影响较小,与其他方法相比具有更好的分类性能,且分类效果稳定。

图5 Indian Pines数据集上不同方法所得分类效果图 Fig.5 Classification effect images obtained by differentmethods on Indian Pines dataset

表9和表10分别为上述5种方法在Indian Pines数据集上对不同类别的分类精度及分类指标结果。

表9 Indian Pines数据集上5种方法对不同类别的分类精度Table 9 Classification accuracy of five methods onIndian Pines dataset for different categories %

表10 Indian Pines数据集上5种方法的分类指标结果Table 10 Classification indexes results of five methodson Indian Pines dataset %

可以看出,与SVM相比,CNN由于可以主动学习深层次特征,因此其OA值和AA值更高。对于无监督的SAE方法,由于其可利用标签信息取得判别性分类特征,因此M3RCNN的OA值和AA值比SAE更高。CNN采取原始堆叠卷积,参数量多且训练时间长,M3RCNN相较CNN使用三维卷积块参数量更少且训练时间更短,同时OA值更高。与使用双卷积池化结构3DCNN相比,使用改进多尺度滤波器的M3RCNN可提取更深层次的多尺度空间和光谱特征,并使用残差单元改善网络深层对分类精度造成的影响,其OA值和AA值更高。对单个类别分类精度而言,M3RCNN对15个类别的分类精度都高于其他方法,其中在Stone-steel-towers和Oats上分类精度均达到100%。

3.2.2 Pavia University数据集实验

在Pavia University数据集上,输入图像尺寸为9×9×103。上述5种方法在Pavia University数据集上对地表实物的分类效果如图6所示。可以看出,SVM、SAE方法受噪声影响分类效果不理想,虽然CNN、3DCNN方法的分类精度较高,但M3RCNN的分类效果图更接近真实地物。

图6 Pavia University数据集上不同方法所得分类效果图 Fig.6 Classification effect images obtained by differentmethods on Pavia University dataset

表11和表12分别为上述5种方法在Pavia University数据集上对不同类别的分类精度及分类指标结果。可以看出,M3RCNN的OA值达到99.83%,比其他5种方法分别提高9.04、5.16、1.26和0.57个百分点,其AA值达到99.76%,具有更好的分类性能。

表11 Pavia University数据集上5种方法对不同类别的分类精度Table 11 Classification accuracy of five methods onPavia University dataset for different categories %

表12 Pavia University数据集上5种方法的分类指标结果Table 12 Classification indexes results of five methodson Pavia University dataset %

4 结束语

本文结合三维卷积、多尺度滤波器与残差结构,提出一种用于高光谱图像分类的端到端M3RCNN方法。采用三维卷积块改进多尺度三维滤波器和残差单元,以降低参数量与加速模型收敛,并选出M3RCNN首层卷积步长和相邻像素块尺寸的最优值。实验结果表明,该方法可有效学习分类判别特征,较SVM、SAE等方法分类精度更高。后续将在无监督环境中使用生成式对抗网络以进一步提升高光谱图像分类精度。