APP下载

基于Sentinel-2和3D多源域自注意力模型的湿地分类

2024-03-09楼桉君贺智肖曼李心媛

遥感学报 2024年1期
关键词:源域特征提取卷积

楼桉君,贺智,2,肖曼,李心媛

1.中山大学 地理科学与规划学院,广州 510275;2.南方海洋科学与工程广东省实验室(珠海),珠海 519082

1 引言

湿地是重要碳库,对实现碳达峰碳中和目标、推进区域可持续发展具有重要意义。湿地覆被类型复杂,特征相似,存在“同物异谱”和“同谱异物”现象(莫利江 等,2012),季节性植被动态、水文波动和人类活动等影响也增加了湿地遥感分类的难度。

湿地遥感分类方法包括人工目视解译和计算机自动分类法(孟祥锐,2019)。人工目视解译法精度高,但主观性强、分类效率低(张康永,2019)。在计算机自动分类法中,决策树(Guo等,2021)、支持向量机SVM(Support Vector Machine)(Gxokwe 等,2022)、随机森林(宁晓刚 等,2022)等监督分类方法,能够对多尺度和多源数据进行自动优化学习,实现大范围的湿地制图。但由于制图精度和制图效率要求进一步提高,新的湿地分类方法也被不断地开发。

近年来,深度学习在湿地遥感自动化分类中被广泛关注(龚健雅和季顺平,2017)。Ståhl 和Weimann(2022)基于卷积神经网络CNN(Convolutional Neural Network)对历史地图数据提取湿地信息。Fu 等(2021)利用SegNet 和无人机数据对岩溶湿地植被进行分类。Hu 等(2021)基于无监督学习、多尺度CNN和注意力机制进行湿地覆盖图绘制。这些基于深度学习的方法有效提升了分类精度,但需要大量湿地标记数据,可迁移性有待提高(刘玮,2020)。

湿地遥感影像地物复杂、标记困难,如何在有限标记样本情况下训练一个较好的分类模型是目前研究的难点。小样本学习方法能解决这一困境,该方法从有足够标记数据的源域中学习信息、训练模型,实现对仅有少量标记数据的目标域的推理。典型的小样本方法包括基于神经网络和SVM的深度小样本学习DFSL(Deep Few-Shot Learning)(Liu 等,2019)、空谱关系网络SS-RN(Spatial-Spectral Relation Network)(Rao 等,2019)和深度关系网络(Deep Relation Network)(Gao 等,2020)等。由于源域数据和目标域数据来自分布不同的域,存在严重的域转移误差。为实现跨域学习任务,学者们提出多种方法,大致可以分为基于域自适应(Deng 等,2018;Othman 等,2017;Wang等,2019;Yang和Crawford,2016)和基于微调的方 法(Jiao 等,2017;Mei 等,2017;Yang 等,2017)。上述方法主要涉及单源域的域自适应算法,可能导致次优解(Shen 等,2018)。有学者提出了多源域自适应的算法,例如多源蒸馏域自适应MDDA(Multi-source Distilling Domain Adaptation)方法(Zhao等,2020)以及多源域适应和标签统一mDALU(Multi-source Domain Adaptation and Label Unification)方法(Gong等,2021)。多源域自适应算法可充分利用现有遥感影像标记样本库,同时能解决源域和目标域影像由于传感器、成像时间、成像地点的不同而特征分布差异较大的问题(Tuia等,2016)。目前多源域自适应的方法尚未涉及湿地遥感分类,湿地遥感影像训练样本量少,同时特征分布差异更明显,因此利用多场景源域影像和多源域自适应算法来提取高精度的湿地信息具有可行性。

卷积网络作为常用的特征提取器,通过卷积运算来获取图像有效的局部信息,不同深度的卷积层可以提取不同的特征(Wang等,2017)。堆叠多层网络可以获取缺失的全局特征(Simonyan 和Zisserman,2015),但容易造成过拟合。相比之下,利用注意力机制建立局部信息之间的关系来获取全局特征是一种更好的选择(顾勇翔 等,2023)。Transformer(Vaswani等,2017)在自然语言处理时能够充分利用上下文关系,通过编码器-解码器构架(Bahdanau 等,2014;Cho 等,2014;Sutskever等,2014)以及自注意力机制进行并行训练。在计算机视觉领域,Vision Transformer(Dosovitskiy 等,2021)表明,仅使用1 层Transformer 就可以在ImageNet-1K(Deng 等,2009)上获得较好的效果。将Transformer 应用于高分辨率湿地遥感影像分类,可充分利用相邻湿地地物之间的空间关系,获取全局信息,得到更强有力的特征(Cao 等,2021)。但遥感影像尺寸较大,直接使用自注意力部分代替卷积,会提高时间复杂度(Chen 等,2021)。因此,本文先利用卷积网络获取图像局部特征,再通过Transformer 模型增强对图像全局特征的提取能力。

为解决小样本湿地分类中可能存在多场景分布的源域以及提取特征缺失全局信息的问题,本文提出基于3D 多源域自注意力的小样本学习模型3DMDAFSL(3D Multi-source Domain self-Attention Few-Shot Learning)(图1)。以Chikusei高光谱数据集,东莞—广州、江门—佛山部分区域Sentinel-2数据为源域数据集,以中山市部分区域Sentinel-2数据为目标域数据集,进行多源域小样本湿地分类。

图1 训练阶段的3D多源域自注意力小样本学习框架Fig.1 3D Multi-source domain self-attention few-shot learning framework during the training phase

2 研究方法

2.1 3D-MDAFSL框架

3D-MDAFSL 框架包括源域小样本学习和目标域小样本学习。模型的训练过程如图2所示,共有N个源域数据集,1 个目标域数据集。在目标域数据集中每类分别选取了1—10 个标记样本,并通过加入随机高斯噪声等方式将每类样本增广至200 个,作为目标域小样本学习的支持集,剩余的样本作为目标域未标记的查询集用于检验模型精度。而源域则随机选取200个标记样本作为源域小样本学习的支持集,剩余作为源域查询集。每个域支持集和查询集样本不重合。小样本学习在每一源域和目标域中交替执行,不仅可以发现源域中可迁移的元知识(例如地物内在的纹理规律、光谱规律、空间结构规律等),还可以学习到目标域的特征信息。

图2 模型训练和测试过程Fig.2 Training and testing process of the model

训练阶段流程如图1所示,每一组小样本学习可分为4 个步骤:(1)利用由2D 卷积构成的映射层和MT分别对每一源域和目标域的数据进行变换,提取相同维数的特征输入模型。(2)利用特定域特征提取器(n=1,2,3,…,N)和FT将源域和目标域特征嵌入到光谱空间中,以提升类内紧凑性和类间可分离性。(3)通过计算未标记和已标记特征之间的欧氏距离来执行小样本学习。(4)为了减小域转移所造成的误差,对每一源域和目标域提取的特征采用有条件的对抗域自适应策略,实现域分布对齐,使提取的空谱特征具有域不变性。因此具有域自适应的源域小样本学习损失函数为

类似地,具有域自适应的目标域小样本学习损失函数为

式中,LT为目标域损失,为目标域小样本学习损失。为目标域与第一个源域的域转移损失。

最后,多源域小样本模型的总损失函数为

式中,Ln为第n组源域和目标域的总损失。

测试阶段流程如图2所示,首先,利用映射层MT对目标域数据进行特征提取;其次,通过训练好的3D特征提取器F将特征映射至光谱空间维度;最后,利用K近邻(K-nearest Neighbor)分类器对未标记样本进行分类。

在阐述完模型训练和测试流程后,下面将重点对框架中的特定域特征提取器及特定域鉴别器进行详细介绍。

2.2 特定域特征提取器

特定域特征提取器F的作用是将映射层输出特征映射到光谱空间中。为进一步提高模型精度,本文基于Transformer 编码器与深度残差卷积设计了一个3D 光谱—空间提取网络,分别对每一源域与目标域的输入特征进行空谱联合映射。特定域特征提取器由一个深度残差3D 卷积块、一个Transformer 块、一个3D 卷积层和两个Max pooling层组成,网络结构和部分参数见图3。其中,深度残差3D 卷积块包括3 个3D 卷积(步长为1,卷积核大小为3,填充大小为1),3 个归一化层,以及3 个激活层,激活层采用Swish 函数。该模块使用残差连接的方式来缓解梯度消失问题,使原有特征得以保留。

图3 特定域特征提取器Fig.3 Domain-specific feature extractor

Transformer 块由多个Transformer 层组成,每层Transformer 包括一个3D 卷积(步长为1,卷积核大小为1)、多头自注意力机制和前馈神经网络。其中,3D 卷积与多头自注意力机制、多头自注意力机制与前馈神经网络之间均使用残差连接。多头自注意力机制采用了全局感受域,而3D 卷积的计算主要集中于局部区域,前者的计算量较大。为此,本文在第一层Transformer 中利用Max pooling来降低计算量。

本文将采用调换卷积模块与Transformer模块位置、仅保留其中一个模块、仅在卷积网络中加入SimAM 注意力模块(Yang 等,2021)、直接使用CoatNet(Dai 等,2021)作为特征提取器的方式来验证3D 特征提取器F结构的有效性。其中SimAM是一种新的3D 注意力模块,不同于现有的通道注意力模块,该模块无需额外参数,只是设计了一种能量函数为特征图推导出3D 注意力权值,可以嵌入到现有的卷积网络中。而CoatNet 是以有原则的方式垂直堆叠卷积层和注意力层的混合模型,在不同数据集大小以及不同资源约束下均达到了最佳,在数据有限的情况下也表现出很高的精度。

2.3 特定域鉴别器

本文采用有条件的对抗域自适应策略对每一源域和目标域特征分布进行对齐。域鉴别器D(图4)的作用是判断样本属于源域还是目标域,D由5 个全连接层组成,除最后一层外,每一个全连接层后接一个ReLU 激活层和Dropout 层,最后利用Softmax函数判断输入特征属于源域还是目标域。

图4 特定域鉴别器Fig.4 Domain-specific discriminator

图5 Chikusei数据集Fig.5 Chikusei dataset

图6 东莞—广州部分区域数据集Fig.6 Dongguan-Guangzhou partial regional dataset

图7 江门—佛山部分区域数据集Fig.7 Jiangmen-Foshan partial regional dataset

3 数据结果处理与分析

3.1 实验数据

本文共使用了4 个数据集,包括Chikusei 高光谱数据集,以及3 个自制的Sentinel-2 S2MSI2A 级数据集,均选自粤港澳大湾区内湿地类型较为丰富的区域,分别为东莞—广州部分区域数据集、江门—佛山部分区域数据集以及中山市部分区域数据集,空间分辨率为10 m,由9 个光谱波段组成,成像时间为2020年10月26日,其中前两者作为补充的源域数据集,中山市部分区域数据集用作本文的目标域数据集。

(1)源域标准数据集。现有的遥感分类标准数据集大多为高光谱数据集,本文选择Chikusei高光谱数据集作为标准源域数据集,该数据集于2014 年7 月29 日在日本茨城县Chikusei 使用高光谱可见光/近红外相机采集。它包含19 个类,共2517 像素×2335 个像素,空间分辨率为2.5 m,由128个光谱波段组成,波段范围为363—1018 nm。

(2)源域数据集1。源域数据集1 为东莞—广州部分区域的Sentinel-2 S2MSI2A 级数据,共3108×3970 个像素,主要包括海鸥岛红树林湿地公园、东莞水道、大岭山森林公园、同沙生态公园、水濂山森林公园等地。

(3)源域数据集2。源域数据集2 为江门—佛山部分区域的Sentinel-2 S2MSI2A 级数据,共1561×1647 个像素,主要包括西江、大雁山、华侨城古劳水乡、南海湾森林生态园、龙江大金山森林公园等地。

(4)目标域数据集。目标域数据集为中山市部分区域的Sentinel-2 S2MSI2A 级数据,共1349×1517 个像素,主要包括横门水道、翠湖公园、广东中山翠亨国家湿地公园、象棚山等地。

3 个自制的湿地数据集参照《全国湿地资源调查与监测技术规程(试行)(林湿发[2008]265号)》和研究区真实地表情况,将研究区地表分非湿地、自然湿地和人工湿地3 大类共9 小类,具体分类情况及每类样本的数量如表1所示。

表1 湿地分类情况及样本数Table 1 Wetland classification system and sample size

3.2 实验设置

本文选择PyTorch 深度学习框架,共训练1200个Epoch,学习率为0.001。分类性能通过总体精度OA(Overall Accuracy)、平均精度AA(Average Accuracy)、Kappa 系数、用户精度UA(User’s Accuracy)以及制图精度PA(Producer’s Accuracy)进行评价。为保证公平性,本文所有实验的输入特征为遥感影像的空谱联合信息,每组实验重复10次,保留均值结果和标准差。

为了验证3D-MDAFSL 模型性能,本文选取了六种监督分类的方法进行对比,分别为SVM、随机森林、3DCSN(3D Convolutional Siamese Network)(Cao 等,2020)、CNN-HSI(Convolutional Neural Networks for Hyperspectral Image)(Yu 等,2017)、DCFSL+SVM(Deep Cross-domain Few-Shot Learning+SVM Classifier)(Li 等,2022)、DCFSL+KNN(Deep Cross-domain Few-Shot Learning+KNN Classifier)(Li 等,2022)。其中,SVM 和随机森林的算法可作为传统机器学习分类方法的代表;3DCSN 和CNN-HIS 算法是仅有目标域的小样本分类算法;DCFSL+SVM 和DCFSL+KNN 是两种跨域的小样本分类算法。此外,本文针对特征提取器和源域通道数设置了两组消融实验:将特征提取器进行更改或者删去以验证本文设计的3D 特征提取器的性能,更改输入源域的通道数以验证多源域通道的效果。

3.3 不同分类方法的对比实验

本文选择了6 种监督分类方法,因这6 种方法或没有源域数据或仅有一组源域数据,为保证实验公平性,选取单一源域通道的3D-MDAFSL 模型进行比较。不同方法的分类结果如表2 和图9,10,11所示。

表2 目标域数据集分类结果(每类5个标记样本)Table 2 The target domain dataset classification results(Five labeled samples per class)

图9 不同方法分类精度及kappa系数随标记样本数量变化图Fig.9 Variation of classification accuracy and kappa coefficient of different methods with the number of labeled samples

图10 不同用地类型的用户精度和制图精度(每类5个标记样本)Fig.10 User’s accuracy and producer’s accuracy of different landuse types(Five labeled samples per class)

图11 不同方法分类结果对比图(每类5个标记样本)Fig.11 Comparison chart of classification results by different methods(Five labeled samples per class)

从图9的实验结果可看出:(1)随着目标域标记样本数目的增加,跨域的方法在湿地小样本数据集中表现更稳定。DCFSL+SVM、DCFSL+KNN和3D-MDAFSL 在标记样本数极少时也能获得高于83%的精度,其他方法则明显受训练样本数制约。(2)单源域通道的3D-MDAFSL 相比于其他方法可以得到最优的分类效果,在小样本的情况下提取出更高精度的湿地信息。就图9总体趋势而言,基于深度学习网络的小样本学习方法3DCSN和CNNHSI要优于传统的机器学习模型,而跨域的小样本学习方法DCFSL+SVM 和DCFSL+KNN 相比于只有目标域数据作为训练集的3DCSN 和CNN-HSI 算法分类精度更佳。

实验结果充分验证了3D-MDAFSL 模型在小样本分类中的优势,在少量训练样本的情况下,均能获得理想的分类结果,其在目标域湿地数据集中的稳定性和精度均要高于其他模型,具有较高的应用价值。但由于引入注意力机制,3D-MDAFSL 模型的时间复杂度增加,计算效率相对降低。

如表2所示,当目标域数据集中每类地物只含5 个标记样本时,3D-MDAFSL 的总体分类结果明显优于其他方法,且标准差较低,模型性能稳定。相比于传统机器学SVM 和随机森林方法,OA 分别提高了14.52%和14.50%,相比于3DCSN 和CNNHIS 则提高了4.95%和6.40%,与跨域的DCFSL+SVM 和DCFSL+KNN 相比,3D-MDAFSL 的OA 提高了2.40%和4.31%。这说明相比于其他模型,3D-MDAFSL 在实际应用中能取得较优的效果,更适合用于本文湿地数据集的分类。

就各类地物的分类精度而言,3D-MDAFSL 模型在各类地物的表现均衡,UA 和PA 综合较高。其他方法均有明显的错分漏分现象,UA 和PA 值差异较大。例如在提取建设用地时,SVM、随机森林、DCFSL+SVM 以及DCFSL+KNN 有显著的错分现象,在沼泽和滩涂用地中CNN-HSI、3DCSN方法漏分明显。3D-MDAFSL 能较为准确且均衡地对各类别进行分类,在林地、河流、沼泽等水体和植被的信息提取中占据优势,适合用于湿地分类和信息提取。

3.4 消融实验

3.4.1 3D特征提取器的对比实验

为验证本文提出的3D特征提取器F的有效性,设计了6组对照实验,将F分别与2个深度残差3D卷积块(2-3D Res)、加入SimAM 模块的深度残差3D 卷积网络(3D Res-SimMA)、Transformer 块和深度残差3D 卷积块调换位置(Transformer-3DRes)、直接使用Transformer 编码器、直接使用CoatNet 作为特征提取器以及无特征提取器的单源域小样本分类模型进行比较。

图12的实验结果表明:(1)相比于无特征提取器的框架,分类精度提升约6.79%,最高总体精度可达90.27,分类Kappa系数为0.8727。相比于仅使用深度残差3D 卷积块和Transformer 编码器的特征提取器,分类精度分别提高约4.31%和3.24%。这说明本文设计的3D特征提取器F能够提高模型分类精度,在本文的小样本多源域框架中更具优势。(2)引入注意力机制能够提升模型提取特征的能力。在深度残差3D 卷积网络中加入3D 注意力SimAM 能优化分类结果。(3)本文的3D 特征提取器F在各类地物上的分类表现较为均衡(表3),UA和PA 值相对较高,差异较小。由此可见本文设计的3D特征提取器F在提高整体分类精度的基础上,也能稳定提取各个类别的湿地信息,更具实用性。

表3 不同特征提取器的用户精度和制图精度(每类5个标记样本)Table 3 User’s accuracy and producer’s accuracy of different feature extractors(Five labeled samples per class) /%

图12 不同特征提取器分类精度对比图(每类5个标记样本)Fig.12 Comparison chart of classification accuracy for different feature extractors(Five labeled samples per class)

图13 特定域特征提取器的损失和精度随训练次数的变化Fig.13 The loss and accuracy of domain specific feature extractor vary with the number of epochs

观察基于Transformer 和深度残差卷积的3D 特征提取器损失随迭代次数的变化,1200 个Epoch内,小样本学习损失、域转移损失和总损失均随迭代次数增加而收敛,总体精度则随迭代次数增加而增加,符合模型的训练要求。

可视化特征提取器部分层对光谱特征处理后的结果,每层选取9个波段、8个通道共72张特征图进行展示(图14),第一层输出的特征图大小为9×9,第二层特征图输出大小为5×5,可以观察到更深层网络的特征更为抽象,不同的通道对不同信息进行学习,特征之间的差异增大。

3.4.2 多源域通道的对比实验

为验证多源域通道的有效性,本文选择基于Transformer 和深度残差卷积的3D 特征提取器F作为特定域的特征提取器,设置了5组对照实验,分别为以Chikusei数据集作为单一源域,以源域数据集1 作为单一源域,以Chikusei 数据集和源域数据集1 作为双源域,以源域数据集1 和源域数据集2作为双源域,以Chikusei 数据集、源域数据集1 和源域数据集2作为三源域通道的对比实验,实验结果如表4和图15所示。

表4 不同源域通道的对比实验(每类5个标记样本)Table 4 Comparative experiments with different source domain channels(Five labeled samples per class)

图15 不同源域通道分类结果对比图(每类5个标记样本)Fig.15 Comparison chart of classification results for different source domain channels(Five labeled samples per class)

实验结果表明:(1)在源域数据集中增加与目标域数据集解译标准类似的数据集能够使分类结果更加准确。相比只用Chikusei标准数据集作为单一源域的模型,添加1组自制的源域数据集能够使模型的分类精度提升至91.75%,当源域数量为3 组数据集(1 组标准数据集+2 组自制数据集)时,分类精度相比于单源域(1)实验约提高3.00%。而双源域(1+2)实验全部选择自制的源域数据集,相比于单源域(1)分类精度提高了3.60%。这说明多源域通道的输入能够提升分类精度,提取更加准确的湿地信息。(2)多源域通道的输入通过提升部分用地类型的分类精度优化了总体分类表现,河流、沼泽、滩涂和盐田等用地类型的分类精度都有了一定程度上的提升。

4 结论

为解决现有小样本遥感影像分类算法在地物精细分类上精度不足的问题,本文引入自注意力机制和多源域自适应算法,构建了3D-MDAFSL 模型。首先通过映射层对每一源域和目标域的输入数据提取相同维数的特征,之后利用3D 特征提取器将特征映射到空谱维度,并进行小样本学习,特定域鉴别器能够使多个源域和目标域之间的特征空间分布对齐,最后将特征输入至K 近邻分类器得到分类结果。3D-MDAFSL 模型可实现对中山市Sentinel-2 湿地数据集的精细分类,当目标域标记样本数为5 时,单源域的3D-MDAFSL 模型相比于传统机器学习的SVM 和随机森林方法、小样本分类算法3DCSN 和CNN-HIS 以及跨域的DCFSL+SVM 和DCFSL+KNN,方法,各类地物精度更为均衡,OA、AA和Kappa系数均能达到最优。

本文方法的主要优势在于:一方面,能满足源域多场景分布的实际情况,使模型在目标域数据集标记样本数量较少时,充分学习具有相似解译标准的源域数据集或者是其他标准数据集的特征信息,提升模型的分类性能。另一方面,基于自注意力机制和深度残差卷积构建的3D 特征提取器能将特征映射到光谱—空间维度,使提取的特征兼具局部和全局信息,增强网络的泛化性能,在高精度的湿地精细分类中更具实用价值。

猜你喜欢

源域特征提取卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于参数字典的多源域自适应学习算法
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法
Bagging RCSP脑电特征提取算法
可迁移测度准则下的协变量偏移修正多源集成方法
基于MED和循环域解调的多故障特征提取
一种基于卷积神经网络的性别识别方法
Walsh变换在滚动轴承早期故障特征提取中的应用