深度语义分割网络的遥感影像水体提取
2024-03-25郑文雅
郑文雅
(福州大学环境与安全工程学院 福建福州 350108)
0 引言
水是生命之源,是生命存在和发展的重要资源,及时掌握水资源的时空变化对人类生产生活具有重要意义[1]。随着遥感技术的发展,利用卫星遥感影像进行水体提取成为有效的手段,众多学者通过遥感影像对水体提取技术进行研究,提出许多有效的方法。目前水体提取可分为2 大类:①基于影像光谱特征的提取方法,通过分析影像的光谱特征来构造水体运算公式,进行水体的提取,如水体指数法[2-3]、单波段阈值法[4]、谱间关系法[5]等,这类方法更多地用在中分辨率影像上,提取速度快且简单,但细小水体提取精度低;②综合了影像的光谱、纹理、空间等特征的分类器方法,如支持向量机[6]、面向对象[7]、决策树[8]等,该类方法更常用于高分辨率影像,提取精度高,但分类过程复杂,受外界干扰大[9]。
近年来,随着深度学习的快速发展,其优秀的特征提取能力受到研究者的青睐,被逐渐用于水体提取。王雪等[10]利用全卷积神经网络模型有效提取水体;陈前等[11]利用卷积神经网络和DeepLabv3 语义分割网络,对高分辨率卫星遥感影像进行水体提取研究,证明深度学习提取水体的可行性;张铭飞等[12]利用卷积神经网络模型提取水体,模型提取精度高达94.78%。
在LONG 等[13]提出全卷积神经网络(Fully Convolutional Networks,FCN)结构后,端到端的卷积网络第一次推广到语义分割领域中。FCN 通过像素级预测实现语义分割,能准确提取物体特征,但由于像素与像素之间的关系考虑不全,导致分割结果不够精细[14]。为提高算法的精度,学者们在FCN 的基础上提出许多改进的方法,例如U-Net[15]、PSPNet[16]、SegNet[17]、DeepLab[18-20]等网络。
因此,本文针对传统方法提取水体边缘轮廓较模糊、细小水体提取不完整、水体提取精度不高等问题,构建哨兵遥感影像的语义分割训练数据集,选取常用的U-Net、PSPNet、DeepLabv3 网络模型来提取水体,并与归一化差异水体指数、最大似然法、支持向量机、随机森林进行比较,探讨语义分割模型提取水体的可行性。
1 研究区概况及数据
1.1 研究区概况
福州市位于福建省东部,地理坐标为北纬25°15'~26°39',东经118°08′~120°31′,拥有丰富的水资源。闽江是福建省最大的水系,从武夷山流经三明、南平、宁德等地区后,在水口镇汇入福州境内。闽江长530 km,流经福州约150 km。福州市区内还有不少河流与闽江交汇,包括晋安河、安泰河、茶亭河、白马河等30 多条河流,共同构成福州市区的水系网络。研究以福州市鼓楼区、台江区、仓山区、晋安区、马尾区为研究区,该区域水域面积大,有大江、小河流、湖泊、池塘、沟渠等常见的水体类型。
1.2 数据
哨兵二号(Sentinel-2)是高分辨率多光谱成像卫星,于2015 年6 月23 日发射。携带从可见光和近红外到短波红外的13 个波段信息的多光谱成像仪,幅宽为290 km,空间分辨率分别为10、20、60 m。考虑到影像分辨率的不同,一些传统的水体指数无法直接应用。若把分辨率重采样为10 m,其效果可能也会受到影响,所以本文选择蓝、绿、红、近红这4 个空间分辨率均为10 m的波段进行研究。考虑到云量和季节的影响,本文选择2023 年1 月的福州市区哨兵二号影像。
2 研究方法
2.1 归一化差异水体指数
归一化差异水体指数(Normalized Difference Water Index,NDWI)[2]是目前应用广泛的水体指数,水体信息在绿光波段具有较强的反射,在近红外吸收强。因此,可通过二者反差构建指数,突出水体,具体计算见式(1)。
式中:Green、NIR 分别为绿波段和近红外波段。
深度学习虽然具有强悍的特征提取能力,但是其依赖于标签数据,需要消耗大量的人力物力,才能得到精确的标签数据。因此,为减少样本标记时间,本文先利用NDWI 提取水体,对水体误提、漏提的区域进行修改,完成水体标签的制作,最后构建样本数据集。
2.2 U-Net 网络模型
U-Net 模型是对FCN 网络的优化,最早应用于医学图像领域,模型结构简单,适合处理小数量级的数据集。与FCN 网络的像素相加不同,U-Net 采用通道连接的方式,可保留上下文信息,并加强像素之间的语义联系,结构如图1 所示。主要由左侧的下采样和右侧的上采样组成。下采样对输入的影像进行卷积和池化操作,作用是获取影像上下文信息,上采样作用则是精准定位目标。输入的影像通过3×3 卷积与最大池化处理对图像特征进行提取,由于特征图每次池化后都会缩小为原来的1/2,因此影像的细节信息也会损失。特征图进入解码器后会通过3×3 卷积与上采样恢复到原图相同的尺寸。接着生成的特征图会被输入解码器,与上采样中生产的相同尺寸的特征图进行拼接合并,以便获得更多的细节信息,有效恢复图片特征信息。
图1 U-Net 网络结构
2.3 PSPNet 网络模型
PSPNet 算法引入金字塔池化模块,能够增大深层区域的感受野,可以将不同尺度上的上下文信息聚集起来,进行场景理解。网络结构如图2 所示。首先输入图像,通过特征提取网络得到特征图像,接着把特征图送入金字塔池化模块,以便获得不同尺寸的区域特征,然后进行上采样,得到原图尺寸,最后连接融合原特征图和不同层的特征图并进行卷积,输出最终的预测结果。
图2 PSPNet 网络结构
2.4 DeepLabv3 网络模型
DeepLabv3 网络[20]提出的并行和串行结构,能够高效地获取多尺度的地物特征。并且通过改进具有空洞卷积的空间金字塔池化方法,以及加入批次归一化层和全局平均池化,使得算法的收敛性和整体性能都得到提高。DeepLabv3 网络有级联型(Cascaded Model)和多孔空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)2 种模型。本文使用常用的ASPP 模型,结构如图3 所示,其是由1 个1×1 的普通卷积、3 个3×3 的膨胀卷积和平均池化层组成。ASPP 模型使用4 个不同采样率的多孔卷积对特征图像进行分支,然后融合各采样率的图像,以获得最终图像。全局平均池用于对模型进行特征映射,并将图像级特征输入到1×1 卷积中。然后通过双线性插值将特征上采样到特定的空间维度。最后,通过连接这5 个分支的输出并使用1×1 卷积层来进一步融合信息。
图3 ASPP 模型结构
2.5 评价指标
本次研究选择混淆矩阵进行水体提取精度的验证,其中常用的指标主要有精确度(precision)、召回率(recall)、总体精度(Overall Accuracy,OA)及Kappa 系数,具体计算见公式(2)~(6)。
式中:TP(True Positive)表示水体像素被正确识别成水体的像素数量;TN(True Negative)表示非水体像素被正确识别成非水体的像素数量;FP(False Positive)表示非水体像素被错误识别成水体的像素数量;FN(False Negative)表示水体像素被错误识别成非水体的像素数量。
3 实验与分析
3.1 实验参数确定
采用相同的数据集和模型训练参数对U-Net、PSPNet、DeepLabv3 模型进行训练,实验通过Python 和Pytorch 实现。数据集影像大小设为256×256,通过图像旋转、镜像翻转等操作进行数据增强,数据集中将80%数据集作为训练集,20%作为测试集。模型参数批次大小(Batch Size)设置为4,训练轮数(Epoch)设为100,基础学习率(Learning rate)设为0.000 1。
3.2 不同方法实验结果
为探讨语义分割模型提取水体的可行性,研究选取NDWI、最大似然法(ML)、支持向量机(SVM)、随机森林(RF)与PSPNet、U-Net、DeepLabv3 等3 种语义分割方法进行对比。其中,NDWI 阈值设置为自定义,保证在错提较少的情况下提取更多的水体。各方法部分提取结果如图4 所示。图4(a)包括小河流、湖泊、池塘,图4(i)则为宽阔的闽江,图中均包含大量的建筑和阴影。由图4可以看出,NDWI 法漏提、错提水体严重,对于小面积水体提取效果较差,建筑物多且密集的区域容易被检测成水体,结果受阈值选取的影响,阈值选取过大,水体提取完整,但是误提严重。ML、SVM、MF 都能较好地提取出水体,但存在不同程度的误提、漏提现象,小部分阴影和建筑被错误提取以及小面积水体、水体边缘线的提取效果较差,3 种分类器方法受到样本的影响,不同的样本提取结果差异较大。3 种语义分割方法均能较好地去除阴影和建筑对水体提取的影响,整体效果较好。其中,Deeplabv3 方法提取水体的能力最好,对小面积水体的提取能力优于PSPNet 和U-Net,但提取的水体边缘较平滑,提取水体边缘线能力欠佳;PSPNet 方法零星的阴影会被提取以及细小水体未能提取到;U-Net 方法很好的区分水体和非水体,但一些小水体没能完全提出。综上可以看出,DeepLabv3 方法提取水体的能力最好。这是由于DeepLabv3 网络引入批量归一化层和全局平均池化,以更优化的方式对多尺度上下文进行编码进而获得整体信息,所以整体提取效果最佳。
图4 各方法实验结果
3.3 不同方法实验精度评价
本文采用随机抽样方式评估各方法提取水体的精度,结果如表1 所示。由表1 可以看出NDWI 的精确度最低,为80.33%,说明其误检严重。ML 法的召回率最低,为80%,主要因为ML 法分类过程中平均值和方差只计算1 次,导致提取结果稍差。3 种分类器方法中RF的总体精度和Kappa 系数是最高的,其次是SVM,最后是ML,均优于NDWI 法。其中,ML 的精确度达90.57%,高于NDWI 的80.33%、SVM 的87.93%、RF 的86.89%,表明ML 提取水体的准确较高,误检情况少,但是其提取水体的能力较差,导致整体提取效果差。分析表1 可知,3 种语义分割模型总体精度和Kappa 系数都高于其他4 种方法,这说明语义分割网络提取水体是可行且准确的,精度优于传统方法。其中,DeepLabv3 网络的总体精度大于PSPNet 网络的93.5%和U-Net 网络的95%,得到最高总体精度96%。DeepLabv3 的精确度为90.6%,召回率为96.67%,总体精度为96%,Kappa 系数为90.65%,相较于其他6 种方法有很高的准确性。
表1 水体提取精度评价
4 结论
本文利用哨兵二号影像提取水体,探讨语义分割网络提取水体的可行性,结果表明语义分割模型精度优于NDWI、最大似然法、支持向量机、随机森林。其中,DeepLabv3 整体效果最好,提取精度最高。
(1)各个方法在提取大面积水域时效果都较好,但在提取小面积水体时均存在问题,除DeepLabv3 网络提取小面积水体较完整外,其他方法提取效果欠佳。但DeepLabv3 网络提取的水体边缘比真实的要平滑,导致效果稍差,需要进一步研究。
(2)相比于传统方法需要对遥感影像的光谱特征进行分析和特征选取,深度语义分割模型则可以直接学习到复杂的地物特征,能够准确地提取水体,但是其提取精度依赖于样本数据集。为减少样本标记时间,本文则利用NDWI 作为辅助提取水体,高效完成水体标签的制作,实验表明该方法是可靠的。