结合深度学习和植被指数的滨海湿地高分二号遥感影像信息提取

2023-07-13崔宾阁吴景李心慧任广波路燕

遥感学报 2023年6期

崔宾阁，吴景，李心慧，任广波，路燕

1.山东科技大学计算机科学与工程学院,青岛 266590;

2.自然资源部第一海洋研究所,青岛 266061

1 引言

滨海湿地是陆地生态系统和海洋生态系统的过渡地带，在改善气候、维护区域生态平衡、维护生物多样性等方面发挥着重要的作用。同时，滨海湿地承受着自然过程与人类活动的双重影响，是敏感的生态脆弱区，也是国家重点保护的湿地环境之一（徐东霞和章光新，2007）。快速准确地提取湿地地物类型信息是合理开展保护和恢复滨海湿地工作的前提（Yang 等，2016）。滨海湿地环境复杂，大部分地区难以进入现场勘察，遥感技术作为有效的大规模监测手段，具有监测范围广、周期短等多种优点，在滨海湿地信息提取方面发挥了重要作用（范德芹等，2016）。

传统滨海湿地信息提取方法大多采用面向对象分类方法或使用光谱分析、提取影像浅层特征等方法得到不同的遥感地物特征，然后使用人工阈值或传统机器学习模型进行信息提取，如决策树DT（Decision Tree）（王建步等，2014）、支持向量机SVM（Support Vector Machines）（Yang 等，2016；Han等，2018）、随机森林RF（Random Forest）（刘家福等，2018；张磊等，2019）等。但传统机器学习模型的结构较简单，不能有效表达复杂的地物特征（Wang等，2015）。

近年来，以卷积神经网络CNN（Convolutional Neural Networks）为代表的深度学习方法受到了越来越多的关注。与传统机器学习方法相比，深度学习拥有复杂的网络结构和更强大的特征学习能力，已被证明能够很好地从原始图像中提取深层特征（卢宏涛和张秦川，2016；周飞燕等，2017）。深度学习分类方法已在滨海湿地信息提取中得到了大量应用。Hu等（2019a，2019b）采用深度卷积神经网络DCNN（Deep Convolutional Neural Networks）对黄河口湿地CHRIS高光谱影像进行了信息提取；后提出了多目标CNN 模型和决策融合方法解决类别混淆现象。Feng等（2019）提出了一种融合多时相不同传感器数据的多分支DCNN，对黄河三角洲湿地的Sentinel 影像进行了信息提取。Liu 等（2021）提出了一种融合高光谱影像和多光谱影像的多数据流CNN，对黄河口湿地和盐城湿地的高分五号和Sentinel 影像进行了信息提取。上述方法在进行大尺度湿地地物信息提取时效果较好。

然而，对滨海湿地植被进行精细信息提取仍是具有挑战性的任务。河流、地下水和海水的相互作用造成了滨海湿地含盐量的空间分异，整体上，滨海湿地的土壤含盐量呈现沿海岸线向内陆递减、河道向两侧递增的趋势。而滨海湿地植被的生长势与生物量会因生长区域水盐条件的不同产生较大差异（刘玉斌等，2017），这使得滨海湿地植被呈现形变程度高、尺度变化大的特点，且部分植被在生物量峰值时光谱特征极其相似，加大了植被精细信息提取的难度。此外，在滨海湿地广袤的潮滩上，盐地碱蓬与柽柳、芦苇、互花米草等植物混合交错生长，且大多植株矮小、分布稀疏、底质湿度大，导致其在遥感影像中信号较弱。与中低分辨率遥感影像相比，高分辨率遥感影像能提供更丰富的地物信息，如纹理、几何特征等（孟祥锐，2019），因此植株矮小且分布稀疏的植被可在高分辨率遥感影像上拥有更多信息。但空间分辨率的增加导致了地物类别之间的光谱可分离性降低，使得光谱混淆现象较为严重。

针对上述情况，本文提出了基于空间金字塔技术和注意力机制（张宸嘉等，2021）的增强多尺度特征提取模块E-MFE（Enhanced Multi-scale Feature Extraction），结合典型植被指数，设计了滨海湿地遥感影像深度语义分割网络MFVNet，并分析了不同植被指数对信息提取的影响。

2 研究方法

编码器—解码器结构被广泛应用于现代语义和实例分割网络中。编码器逐步减少特征图的尺寸，并通过更大的感受野（Luo 等，2016）学习抽象特征；解码器将编码器输出的小尺寸特征图上采样至输入图像的尺寸，以实现逐像素分类。在遥感影像语义分割网络中，感受野的大小影响着地物特征提取的范围。如果感受野太小，则不利于模型提取大尺度地物特征；如果感受野太大，则不利于模型提取小尺度地物特征。将不同感受野或不同层次的地物特征进行融合，可以提高网络对于不同尺度滨海湿地地物的提取效果，如空洞空间金字塔池化ASPP（Atrous Spatial Pyramid Pooling）（Chen 等，2018）、特征金字塔网络FPN（Feature Pyramid NetWork）（Lin等，2017）、金字塔场景解析网络PSPNet（Pyramid Scene Parsing Network）（Zhao等，2017）。

2.1 MFVNet架构

本文提出的端到端MFVNet架构如图1所示。整体上，MFVNet 可分为编码器和解码器两个阶段。编码器由5 个增强多尺度特征提取模块E-MFE 和4 个下采样操作构成，在前4 个E-MFE 模块后接一个下采样，以增大感受野，使卷积操作能在更大的空间范围内进行特征提取。解码器由5 个EMFE 模块、4 个3×3 卷积、多个上采样操作和1 个1×1卷积构成。前4个E-MFE 模块接受编码器同一层次E-MFE 模块输出的特征图与解码器下一层次上采样后的特征图，进行多尺度地物特征提取；最后一个E-MFE 模块接受前4 个E-MFE 模块不同倍率上采样和卷积后的特征图，进行不同层次语义和细节信息融合。最后，使用一个卷积核数目为地物类别数、激活函数为Softmax 的1×1 卷积来输出MFVNet的预测结果。

图1 MFVNet整体架构Fig.1 The overall architecture of the MFVNet

本研究使用交叉熵损失函数作为网络的损失函数，其公式如式（1）所示。

式中，y表示真实标签值，p表示网络预测值，n表示地物类别数，i∈（1，n），m表示像素总数。

2.2 增强多尺度特征提取模块E-MFE（Enhanced Multi-scale Feature Extraction）

滨海湿地植被在遥感影像中呈现形变程度高、尺度变化大的特点，这对精细尺度信息提取提出了挑战。受空洞卷积金字塔结构和注意力机制的启发，本文设计了一种增强的多尺度特征提取模块E-MFE，将不同感受野的地物特征进行融合，以获得滨海湿地植被多尺度特征，其结构如图2所示。

图2 增强多尺度特征提取模块Fig.2 Enhance multi-scale feature extraction module

E-MFE由一个卷积核大小为3×3的双卷积分支、3 个扩张率分别为2、3、5 的空洞卷积分支、一个通道权重分支和两个1×1卷积构成。其中，通道权重分支使用全局平均池化来聚合每个通道的特征，并利用Sigmoid 函数获得特征图不同通道的权重。E-MFE 首先使用一个1×1 卷积对输入特征图进行通道信息整合，然后分别使用3×3双卷积和扩张率为2、3、5的空洞卷积进行多尺度特征提取。由于特征图各通道的重要性不同，本文设计了一种通道注意力共享机制，即将通道权重与空洞卷积提取的多尺度特征图相乘，得到通道注意力增强后的多尺度特征。进而，将双卷积分支提取的特征与增强后的多尺度特征进行拼接，并对拼接后的结果使用1×1卷积进行特征融合。最后，将前一个1×1 卷积的输出作为恒等映射，与后一个1×1 卷积的输出进行求和，以改善网络训练并提升网络表征能力。E-MFE计算过程可以表示为

式中，X表示输入特征图，X′表示前一个1×1 卷积输出的特征图，X″表示后一个1×1卷积输出的特征图，Z表示通道注意力增强后的多尺度特征，Y表示输出特征图，Conv1×1(.) 表示1×1 卷积操作，表示卷积核大小i×i、扩张率为j的空洞卷积操作，表示3×3双卷积操作，Cat（.）表示拼接操作，S（.）表示Sigmoid 激活函数，G（.）表示全局平均池化操作。

2.3 植被指数选择

滨海湿地植被易被混淆分类，且部分稀疏植被的影像特征不明显，因此本文引入了典型植被指数以增强植被特征表示。针对滨海湿地植被影像特征不明显的问题，本文选择了对植被灵敏度高的归一化植被指数（NDVI）（Rouse 等，1974）和比值植被指数（RVI）（Pearson和Miller，1972）；针对滨海湿地植被覆盖密度不同致使土壤背景会对信息提取结果造成影响的问题，本文选择了能减弱土壤反射率变化的修正土壤调节植被指数（MSAVI）（Qi等，1994）和差值植被指数（DVI）（Li等，1995；朱玉玲，2020）。

以上植被指数定义如表1 所示，其中，NIR 表示遥感影像中近红外波段反射率，R表示红光波段反射率。

表1 植被指数定义Table 1 Definition of vegetation index

3 实验结果与分析

3.1 实验数据

本文所用的遥感数据为2016 年8 月GF-2 卫星拍摄的黄河口湿地多光谱遥感影像。黄河口湿地位于黄河入海口处，经纬度范围约为37°35'N—37°55'N、119°1'E—119°20'E，处于山东省东营市黄河三角洲国家级自然保护区内。研究区位置与实验影像如图3所示，影像大小为7300×6908，空间分辨率为4 m，以标准假彩色（NIR、R、G）图像显示。

图3 研究区位置与实验影像Fig.3 Location of the study area and experimental images

根据对黄河口湿地现场踏勘情况与使用的影像数据特点，结合专家目视解译结果，确定该影像的分类类别为芦苇、互花米草、柽柳混生区、海草床、裸潮滩、潮滩稀疏植被、水体和其他等8 类。考虑到潮滩稀疏植被在遥感影像中可视化效果较差（如图4（a）中红框所示），本文在目视解译时使用归一化植被指数NDVI 增强视觉效果（图4（b））。结合现场踏勘获取的数据资料，得到的标签图像如图4（c）所示。

图4 遥感影像与标签图像Fig.4 Remote sensing image and label image

3.2 实验参数及实验数据预处理

本文选择TensorFlow 为后端的Keras 框架实现MFVNet 模型和其他深度学习模型，并在NVIDIA Tesla P100 上进行训练，训练迭代次数为100。采用10折交叉验证，优化器为Adam算法，学习率为0.0001，批量大小为8。

首先对遥感影像进行辐射定标和大气校正，然后根据黄河口湿地典型地物的空间分布和现场踏勘结果，选择训练样本区域，如图5 中红框所示。训练样本区域约占整幅影像11%，测试数据为去除训练样本区域后的影像数据，测试数据和训练样本区域的像素数目如表2所示。

表2 训练样本区域与测试数据的像素数目Table 2 The number of pixels in the training samples area and test data

图5 训练样本区域选取Fig.5 Training samples area selection

由于GPU 内存的限制，本文以128×128 大小的图像作为深度学习模型的输入。为扩充模型的训练数据并保持上下文信息的完整性，本文将选择的训练样本区域切割成128×128大小的图像，切割时步长设为32。然后，将切割后的图像进行归一化处理，使图像数据保持在0—1，以提高模型的收敛速度。

3.3 评价指标

为评估各种方法的精度，本文使用混淆矩阵对测试样本进行类别统计，混淆矩阵构造如表3所示。

表3 混淆矩阵表示Table 3 Confusion matrix representation

本文采用精准率Precision（P）、召回率Recall（R）和F1 分数作为分类结果中各种地物的精度评价指标，其计算公式如式（6）—式（8）所示。

采用总体精度OA 和Kappa 系数作为分类结果的整体评价指标，其计算公式如式（8）和式（9）所示。

3.4 对比实验

本文将MFVNet与传统的机器学习模型SVM以及典型的深度学习模型UNet（Ronneberger 等，2015）、MultiResUNet（Ibtehaz 和Rahman，2020）和HRNet（Sun等，2019）应用于黄河口湿地地物分类实验，各种方法的信息提取结果如图6所示。

图6 黄河口湿地信息提取结果Fig.6 Results of extraction of wetland information in the Yellow River Estuary

从整体来看，SVM 分类结果混淆现象比较严重。UNet 在潮滩稀疏植被上识别效果较好，但对于颜色和纹理相近的芦苇与互花米草，混淆分类较为严重，如图6（c）上方框图所示。MultiResUNet采用多层卷积堆叠的方式增加感受野，以提取多分辨率特征，但对潮滩稀疏植被的提取效果不佳，如图6（d）下方框图所示。HRNet 在并行的多分辨率子网上反复交换信息以增强高分辨率特征表示，在互花米草和其他上获得了较好提取效果，但在柽柳混生区和芦苇上混淆分类较为严重，如图6（e）上方框图所示。MFVNet 使用修正土壤调节植被指数MSAVI、差值植被指数DVI 和比值植被指数RVI 增强植被特征，并用增强多尺度特征提取模块E-MFE 获取不同尺度地物特征，有效缓解了提取结果的混淆分类现象，改善了多种地物的提取效果，如图6（f）框图所示。

各种模型和方法在测试数据上的结果如表4所示。MFVNet 的总体精度和Kappa 分别达到了93.89%和0.9072，优于其他方法，在柽柳混生区、海草床和潮滩稀疏植被等地物上的精确率、召回率和F1分数均远高于其他方法。

表4 信息提取结果精度对比Table 4 Accuracy comparison of information extraction results

为了验证MFVNet 的泛化能力，本文使用另一幅GF-2 遥感影像（2017 年8 月拍摄）进行了对比实验，因该幅影像云和阴影过多，故裁剪了部分区域进行实验，如图7所示。UNet、MultiResUNet、HRNet和MFVNet这4种深度学习模型的信息提取结果如图7（c）至图7（f）所示。从整体来看，UNet的混淆分类现象较为严重，MultiResUNet 和HRNet在海草床上识别较好，但对潮滩稀疏植被提取效果不佳。MFVNet 缓解了混淆分类现象，并极大提高了柽柳混生区和潮滩稀疏植被的提取精度。以上模型在测试数据上的精度如表5 所示。MFVNet的总体精度和Kappa 达到了92.18%和0.8998，优于其他方法。

表5 2017年遥感影像信息提取结果精度对比Table 5 Accuracy comparison of information extraction results from remote sensing images in 2017

图7 2017年黄河口遥感影像信息提取结果Fig.7 Yellow River Estuary remote sensing image information extraction results in 2017

3.5 消融实验

E-MFE 模块使用多个空洞卷积同时捕获不同感受野的地物特征，并利用通道注意力共享机制对多尺度特征进行增强或抑制，选择出对滨海湿地地物分类有用的特征。为了验证E-MFE 模块和植被指数V-Index 的有效性，本文进行了消融实验，结果如表6所示。从表6中可以看出，加入E-MFE模块后，网络模型的总体精度和Kappa 分别提升1.58%和0.0238；加入V-Index 后，网络模型的总体精度和Kappa 分别提升1.01%和0.0155；同时加入E-MFE 模块和V-Index 后，网络模型的总体精度和Kappa分别提升2.43%和0.0372。

表6 MFVNet消融实验结果Table 6 MFVNet ablation experiment results

3.6 植被指数影响分析

植被指数是人们通过长期实践总结出来的不同遥感光谱波段间的线性或非线性组合，被普遍认为能较好地反映植被覆盖度和生长状态的差异。为了研究加入不同植被指数对滨海湿地信息提取的作用，本文开展了植被指数影响分析实验，结果如表7所示。为了消除深度学习模型训练的随机误差的影响，本文分别进行了10次实验，并计算了10次实验结果的均值与标准差。从表7中可以看出，加入NDVI之后模型的总体精度和Kappa均有所下降，但海草床的精准率提升较大；加入MSAVI之后，总体精度和Kappa提升较大，芦苇的召回率和柽柳混生区的精准率提升较大；加入RVI之后，芦苇和互花米草的精准率提升较大、柽柳混生区和潮滩稀疏植被的召回率提升较大。加入DVI之后，芦苇和柽柳混生区的召回率、互花米草和海草床的精准率提升较大，以上4种植被的F1分数均提升较大。

表7 MFVNet使用不同植被指数的结果Table 7 The results of using different vegetation indices to MFVNet

为了得到最优的滨海湿地信息提取结果，本文基于表7 的实验结果设计了5 种植被指数组合方案。方案1是NDVI、MSAVI、RVI和DVI共4种植被指数的组合；方案2是在大部分植被地物上表现较好的MSAVI、DVI和RVI的组合；方案3是MSAVI和DVI的组合；方案4是MSAVI和RVI的组合；方案5是DVI和RVI的组合。不同植被指数组合方案在测试数据上的结果如表8 所示。从表8 中可以看出，方案2在所有植被类型上都获得最高的精度，且总体精度和Kappa 与表7 中加入单一植被指数的结果相比提升较大。因此，本文使用方案2中MSAVI、DVI和RVI等3种植被指数的组合增强植被特征表示。

表8 MFVNet增加不同植被指数组合方案的结果Table 8 The results of MFVNet adds different vegetation index combinations

4 结论

本文提出了一种结合深度学习和植被指数的滨海湿地信息提取网络MFVNet，缓解了植被易被混淆分类的问题，结果的总体精度和Kappa分别达到93.89%和0.9072。为了有效捕获不同尺度的地物特征，本文基于空洞卷积和注意力机制提出了增强多尺度特征提取模块，有效提高了滨海湿地信息提取精度。针对滨海湿地植被易被混淆分类，且部分植株矮小和分布稀疏导致在遥感影像上特征不明显的问题，本文引入了典型植被指数以增强植被特征，并基于MFVNet 实验了不同植被指数对信息提取的影响。实验表明，同时增加修正土壤调节植被指数MSAVI、差值植被指数DVI 和比值植被指数RVI可对滨海湿地信息提取的贡献最大。

本文的实验证明，在深度语义分割网络中加入植被指数有利于提高滨海湿地植被的信息提取精度，但本文仅初步探究了不同典型植被指数对滨海湿地信息提取的作用，未涉及不同时相植被指数的影响分析。下一步计划引入多时相遥感影像，研究不同时相下的植被指数与深度学习结合对改善滨海湿地植被信息提取精度的影响。