迁移学习方法提取高分一号影像汶川地震震后滑坡

2023-09-09李震李山山葛小青

遥感学报 2023年8期

李震，李山山，葛小青

1.中国科学院空天信息创新研究院,北京 100094;

2.中国科学院大学电子电气与通信工程学院,北京 100049

1 引言

地震是触发滑坡灾害的主要因素之一，一次大型地震可诱发数万处滑坡（李为乐等，2011），如发生在2008 年的四川省汶川大地震（震级达到8.0 级），共触发约5万处滑坡，仅灾后在汶川县境内实地调查的滑坡就有1700 处（黄汀等，2018）。滑坡发生后，获取滑坡地区的信息对于救灾具有重要的意义。遥感是获取滑坡地区信息的重要方式，已应用于滑坡区域调查和滑坡动态监测等方面（苏凤环等，2008）。在灾害发生后，利用遥感影像进行滑坡制图，能够直观地反映灾区内滑坡的分布情况，便于进行灾后评估和灾后调查。

高空间分辨率影像能提供精细的地物描述，近年来高分辨率影像也逐渐应用到滑坡识别中（Mondini 等，2011；Fan 等，2017；李强等，2019）。相比中低分辨率的遥感卫星，通过高分辨率遥感卫星能更清楚地观测到滑坡的纹理、形状、大小，使得滑坡信息提取更为自动、精细、准确（李松等，2015；Yu 等，2017）。通常，滑坡识别的方法可分为目视解译、基于像元的分类方法、面向对象的提取方法（王治华，1999；安立强等，2011；叶润青等，2007）等。目视解译方法需要专业人员，辅以计算机图像处理与其他非遥感资料，综合分析，多方验证（王治华，1999；彭令等，2017），耗费大量人力。基于像元的方法充分利用光谱信息，将相似的像元归为一类，进而实现图像分类。但在高分遥感影像中，该方法会受到滑坡体上的相似地物类型干扰（叶润青等，2007），也难以区分与滑坡光谱特征相似的地物（如裸土、河道等），较难解决高分影像“同物异谱，异物同谱”特点带来的分类精度低的问题。面向对象的提取方法结合了光谱、纹理、形状等更多特征，但是该方法在分割参数（如光谱权重、均质因子、分割尺度等）等阈值确定中存在较强的不确定性，基于经验设置往往对提取结果影响较大（黄汀等，2018）。

近年来，深度学习在计算机图像领域（如语义分割、目标检测）已有广泛应用。作为数据驱动方法，它能够自动学习大量样本内部规律和表示层次，挖掘出已有方法难以获得的深层次特征。一些学者在不同研究区上尝试利用深度学习方法进行滑坡提取，如Wang 等（2019）基于滑坡前后的可见光影像，辅以滑坡前的NDVI 数据，探究卷积神经网络在滑坡提取上的精度，该方法相较于传统方法精度有所提升；Liu 和Wu（2016）结合小波变换和深度学习的方法，在Google Earth 中的影像上进行滑坡识别，其方法和效率均高于支持向量机方法和人工神经网络方法；Liu 等（2020）在RGB 可见光波段的基础上引入坡度、坡向和数字地表模型等，利用空间信息减少滑坡像元的错误判别，并利用改进的U-Net网络进一步提高滑坡提取的精度。虽然深度学习在滑坡提取中有所表现，但需要标记的样本数量较多且丰富（LeCun等，2015）。一般情况下，基于单幅影像训练神经网络样本量相对较少，输入网络中进行训练易造成过拟合（Wang 等，2019）。

迁移学习是一种利用源域的知识提升目标域预测函数的深度学习方法（Pan 和Yang，2010）。其将训练好的模型重用为其他任务的起点，在各类机器学习任务中（Yin 等，2005；Raina 等，2006；Dai 等，2007）有着较好的表现。此外，当训练域和目标域不相同，网络仍有很好的泛化能力，可以把在训练域学习到的特征应用于其他域的任务中（Penatti 等，2015）。本文以汶川县境内震后滑坡为研究对象，提出一种利用迁移学习方法进行高分遥感影像滑坡提取的方法：在特征丰富的源领域，针对性地设计编码层，训练提取特征；与解码层组成网络，通过人工提取的滑坡训练集约束，将学习到的编码特征迁移至滑坡提取任务中，从而改善高分遥感影像中滑坡提取的精度。

2 研究区和影像预处理

本文研究区选取为“5·12”地震严重影响的区域，地理位置在四川省汶川县境内绵虒镇以南（图1（a）），经纬度范围31°17'N—31°21'N，103°27'E—103°30'E（图1（b））。研究区内包括河流、房屋、植被、云雾等，滑坡数量多，其形状多为长条状、舌型。

图1 研究区地理位置图Fig.1 The research area geographic location

本文获取了2013年—2015年3年中云量低、质量较好的数据，即2013 年8 月12 日、2014 年10 月2 日、2015 年8 月5 日3 景高分一号（GF-1）卫星影像，原始数据包含分辨率为8 m 多光谱数据和2 m 的全色数据。对高分影像数据进行辐射校正、几何校正、图像配准、图像融合等预处理，得到融合影像。对照高分辨率航空影像及地面调查结果，采用目视解译方式，勾画出遥感影像上的滑坡体，制备每景的滑坡样本标签（图2）。

图2 影像预处理与标签制备Fig.2 Image preprocessing and label preparation

图3 本文的研究方法框架Fig.3 Framework of the proposed method

对每景影像和滑坡标签切片，均得到224 张256×256 大小的影像和对应标签。随机选取每景20%影像切片（45 个）和对应的滑坡标签作为测试集，其余作为训练集（179 个），后续实验基于测试集切片进行分析讨论。为增强训练模型鲁棒性，采用旋转、翻转、随机±10%拉伸、色彩抖动和添加高斯噪声等对训练集进行样本增强。扩增后每景影像的训练集含25776张滑坡切片。

3 研究方法

本文提出的迁移学习网络主要包含两个部分：（1）源域及其网络的选择和源域网络的训练。以ImageNet 数据集为源域训练ResNet 网络，保存最优模型；（2）目标域网络的选择及整个网络的训练。将（1）中的最优模型作为编码器，选择LinkNet 网络作为基础网络框架和解码器，与编码层组成训练网络。最后，设置损失函数、学习率、优化器，将滑坡训练集输入到网络中进行训练，实现目标域高分一号影像的滑坡提取。

3.1 源领域与编码器

在编码器部分，本文采用残差网络ResNet 对ImageNet 数据集进行预训练学习，该网络具有较强的泛化能力，有利于将预训练域的深度特征应用于其他域的任务中（Penatti 等，2015）。其核心结构为残差模块，将原来的学习目标调整为学习模块输入和输出之间的残差。如图4所示，输入到该模块的信息x，通过跳跃连接与模块运算后的结果相加，实现了模块内部对残差进行优化。通过该模块计算后，学习目标最终表示为h(x)=f(x)+x。

图4 残差块Fig.4 Residual block

ResNet 的超参数包括优化方法、批处理数（batch size）、学习率和网络深度等。此外，不同深度的网络包括：ResNet34，ResNet50，ResNet101等。编码器深度为34 时残差块采用“3×3”的卷积，当编码器深度为50、101 时残差块分别采用“1×1、3×3、1×1”的卷积。

3.2 目标域与解码器

目标域的任务是实现该高分影像的滑坡提取。该任务本质为像元的二分类任务，经过一系列特征解码后的分类结果反映滑坡的大小、形状。高分一号遥感影像中滑坡大小不一，较小滑坡体的范围小，特征相对简单，而较大滑坡体的边界通常是过渡性的，很难看作一个特征均一的目标，滑坡特征较为复杂。本文选择LinkNet 网络解码器作为本文解码器。该解码器使用残差结构，在残差结构中网络学习目标为输入和输出之间的残差。从整个网络层面来看，这种结构的残差块对应提取复杂特征的深层网络。如下图5所示，以第一编码—解码层的残差结构为例，该部分的输入为第一编码层提取的浅层特征x（图5），输出为深层解码编码结构提取的特征，记为h(x)=f(x)+x，深层网络特征是待优化的残差函数f(x)。通过这种结构，网络在同一层的解码编码结构下专注学习残差块的深层特征，进而提高了对目标的描述能力。而且从编码层计算获得的浅层特征又通过残差结构的跳跃连接迁移到解码过程中，引入对影像编码时下采样损失的空间信息，有利于恢复提取结果的空间特征，因此该结构能够对不同大小的滑坡体特征有更好的学习能力。

图5 解码器的残差结构Fig.5 The residual structure of the decoder

在预训练后的编码器与解码器连接过程中，为了将ResNet 在ImageNet 上学习到的特征提取能力迁移到高分遥感影像滑坡提取任务中，调整输入通道数为4，以适应输入的遥感影像；然后，删除ResNet 的分类层，将剩余的编码结构与LinkNet解码结构组成网络，并将组成后的网络分类层输出通道数调整为1，经过Sigmoid 函数计算后表征像元属于滑坡的概率。表1是编码器和解码器的网络结构和参数设置。

表1 本文滑坡提取LinkNet网络结构与参数设置Table 1 Network structure and parameter settings of LinkNet for landslide extraction in this article

3.3 模型训练

为了得到最优的网络参数，需要选择优化算法和损失函数对网络进行训练。训练本质是输入训练样本通过反向传播算法不断优化网络参数。参照He 等（2016）的实验设置并结合实验条件，本文的优化方式选择随机梯度下降SGD（Stochastic Gradient Descent）法，批处理数设置为8，为保持较稳定的拟合过程，学习率设置为较小的0.01。此外，针对滑坡像素和非滑坡像素进行二分类，本文选取带有Dice 系数的二项交叉熵BCE（Binary Cross Entropy）损失函数。其中，Dice 系数用于衡量预测结果和标签的相似性，是预测结果和真实结果交集与并集的度量，表示为C(Xi，Yi)。二项交叉熵用于衡量每个像素的信息熵，熵值越小，预测结果与样本越相似，表示为H(Xi，Yi)。整个损失函数L(X，Y)可以表示为

式中，i表示影像索引，y(j)为索引为i的影像中第j个滑坡像素真实值；为索引为i的影像中第j个滑坡像素预测值，由模型输出，表示该像素是滑坡的概率值；Xi为索引为i的影像经网络计算后输出的滑坡标签，Yi为索引为i的影像的滑坡标签。

4 结果分析

本文滑坡提取实验在Linux系统的Pytorch框架下完成，通过TensorBoardX 监视训练。服务器的硬件配置是Intel Xeon（R）CPU E5620@2.40 GHz，GPU 为TITAN XP，Python 版本为3.6.2。本文设计以下两类实验进行对比验证：

实验一：对本文提出的迁移网络，讨论编码器深度超参数的优化设置；

实验二：在研究区2013 年、2014 年和2015 年3 景高分遥感影像上进行滑坡提取，对比本文提出的LinkNet 迁移网络与无迁移的LinkNet 网络（该网络编码层结构与本文网络结构相同，但不使用ImageNet 进行预训练，仅使用影像上的样本进行训练）、支持向量机、文献（Liu 等，2020）中改进的U-Net 网络和主流迁移学习网络AlbuNet（Shvets 等，2018），进行实验结果比较分析。

4.1 评价方法

对于二分类问题，通常采用混淆矩阵统计像元计算分类精度（王宇等，2019）。精度评价通常涉及3 类像元（表2），包括真阳性TP（True Positives）、假阳性FP（False Positives）、假阴性FN（False Negatives）。通过精度（Precision）、召回率（Recall）与F1 度量（F1 measure）等作为评价指标（式（4）—式（6））。其中，精度是网络输出的滑坡像元预测正确的比例，召回率是滑坡像元被预测出的比例，F1 度量是精度和召回率调和平均值，是两种精度的综合评价。

4.2 实验一

对ResNet 超参数进行了实验，发现网络深度是影响提取结果精度的关键因素。故本文结合实验条件，选择随机梯度降SGD（Stochastic Gradient Descent）法作为优化方式，设置批处理数为8，设置学习率为较小的0.01，进而讨论网络深度在迁移学习中的表现。本实验在编码层选取ResNet34，ResNet50，ResNet101 这3 种不同深度的网络进行探究。本文先对各个深度的网络进行预训练，迁移到LinkNet 网络中，再输入滑坡训练集训练网络。得到的实验结果如表3所示。

表3 3种不同深度编码层的滑坡提取精度Table 3 Accuracy of three different depths of encoders for landslide extraction

可以观察到，随着编码层深度增加，滑坡提取的F1 度量有一定的提升，但是这种提升有一定的上限。F1 度量调和了精度和召回率，其中，ResNet50 的F1 值最高，故选择ResNet 50 作为编码层。

4.3 实验二

为了验证LinkNet 迁移网络在滑坡提取上的有效性，下面将对比无迁移的LinkNet、支持向量机、改进U-Net深度学习网络和一个主流的迁移学习网络AlbuNet。其中，支持向量机的核函数为高斯核，惩罚系数为1。AlbuNet 的编码层采用在ImageNet 上预训练的ResNet34，解码层采用UNet。输入3 景的滑坡数据进行对比实验，所有输入到网络中的影像和标签均分割为256×256大小的切片，损失函数为带有Dice 系数的二项交叉熵，优化方法为随机梯度下降法，学习率设置为0.01。

表4 是LinkNet 网络结构是否迁移编码层的结果对比。在3 景滑坡测试集数据上，LinkNet 迁移网络比LinkNet网络在精度、召回率和F1度量上都有提高。其中，F1 度量分别提高3.63%，5.07%，4.34%。该结果表明编码层从自然场景数据集中学习的特征提取能力提升了模型提取滑坡的能力。

对比本文方法与支持向量机、改进U-Net 和AlbuNet在3景滑坡测试集上的表现。

首先，与深度学习方法相比，支持向量机存在较多的误判和漏判，如图6（c）第3行支持向量机将河漫滩判别为滑坡，而且SVM 方法提取的滑坡图斑破碎（图6（c）第2 行）。实验结果（表5）表明，改进的U-Net、AlbuNet 及本文提出的LinkNet 迁移网络3 种深度学习方法在精度、召回率和F1 度量上均大幅优于支持向量机。反映出深度学习网络在使用光谱信息的同时，又考虑像素间的语义关系，挖掘了滑坡对象的深层次特征，有利于提高提取精度。

表5 本文方法与其他方法的比较Table 5 Comparison between method of this article and other methods

图6 不同方法滑坡提取结果Fig.6 Result of different method of landslide extraction

其次，对比改进的U-Net网络与AlbuNet、本文的LinkNet迁移网络两种迁移学习方法。如图6（d）与图6（e）、图6（f）第3行的对比，改进的U-Net漏判滑坡表面恢复的植被，多个滑坡堆积重叠处没有被识别出来，连贯性相对较差。实验结果（表5）表明，迁移学习方法在3 个指标下都优于改进U-Net 方法，在3 景的F1 度量上，AlbuNet 分别提高1.85%，3.55%，3.60%，LinkNet 迁移网络分别提高3.4%，5.39%，4.64%。该结果反映迁移学习的网络不仅更好地学习了滑坡数据集的特征，而且对滑坡的预测能力也相对较好。将预训练的编码结构迁移后再加入滑坡数据集训练网络，充分利用了卷积神经网络特征提取的泛化能力，使网络对滑坡的语义特征学习更充分，降低了模型对滑坡的漏判，提升了滑坡提取的精度。对比主流迁移学习网络AlbuNet 与LinkNet 迁移网络，在3 景的F1 度量上，本文方法比AlbuNet 高1.55%，1.84%，1.04%。虽然本文方法相较其方法取得了精度提升，但是与滑坡标签相比（如图6（b）与图6（f）第6行对比）本文方法对处于恢复阶段的滑坡像元的识别上仍存在一些误差。经过分析，这是由于处于恢复期的滑坡体发生了较为明显的特征变化。

5 结论

本文提出了一种基于迁移学习的震后滑坡提取方法。针对迁移学习源领域数据集和本文滑坡数据集的特点，在编码阶段，利用ResNet 网络先进行特征提取；在解码阶段，利用LinkNet 解码器作为本文解码层，与编码器组成本文网络，在影像滑坡样本集特征的约束下，实现特征迁移，在高分影像上进行较高精度滑坡提取。实验结果表明：

（1）建议选取ResNet50 作为编码层结合LinkNet 组成滑坡提取网络，相较于其他深度编码层和迁移网络结构，精度较高。

（2）相较于传统SVM 分类、改进的U-Net 和其他迁移学习方法，利用本文提出的LinkNet 迁移网络在滑坡提取上取得较高的精度和较好的效果，有利于后续滑坡危险性评估、灾害详查、灾情预警等决策。

本文贡献在于：通过将ImageNet 上预训练的ResNet 的编码结构与LinkNet 解码结构组成迁移网络的方式，迁移ImageNet 学习的特征提取能力到滑坡提取任务中，克服在相对较少的滑坡数据集上深度学习方法面临的过拟合问题，提高了滑坡提取的精度。同时，本文证明编码层网络深度对滑坡精度的影响，并且通过对比其他方法证明本文滑坡提取方法的有效性。

此外，在本文提取的滑坡中，部分滑坡已经处于恢复期，恢复阶段的滑坡特征逐渐向背景植被过渡，滑坡特征逐渐不明显，造成处于该阶段的滑坡提取存在一定误差，在后续研究中将考虑利用多时相滑坡影像样本，引入滑坡恢复过程中的信息对本文算法进行改进和验证。