基于改进U-Net的海岸线提取方法
2022-06-22李广雪韩慧慧
王 蕊, 丁 咚, , 李广雪, , 任 昕, 韩慧慧
(1. 中国海洋大学 海洋地球科学学院, 山东 青岛 266100; 2. 中国海洋大学 海底科学与探测技术教育部重点实验室, 山东 青岛 266100; 3. 青岛海洋科学与技术国家实验室 海洋矿产资源评价与探测技术功能实验室, 山东 青岛 266580)
基于遥感影像数据中水陆边界特性, 将海岸带区域图像精确分割为海洋区域和陆地区域[1-2], 并精细提取海岸线是遥感领域的研究热点之一。其分割结果对海岸线变化分析[3]、船舶目标快速检测[4]、海洋环境监测[5]和海洋资源开发等具有重要意义。
实地测量法和摄影测量法是主要的传统岸线提取方法[6], 但其野外踏勘工作量大且耗时长, 在海岸线监测的时效性、动态性及便利性上不具备优势。随着遥感技术的快速发展, 前人积极研究和探索了多种基于遥感影像提取海岸线的方法, 这些方法可以大体分为3类: (1) 基于阈值的方法, 如OSTU[7]、NDWI[8]、MNDWI[9]、SMNDWI[10], 通过对遥感影像的不同波段归一化来提取水体。但最优阈值的确定存在一定的难度, 此外海岸线环境复杂,仅考虑光谱信息提取岸线准确率较低; (2) 基于图像中地物边缘对应的图像灰度与其周围像元灰度的不连续特征, 通过边缘算子对海陆区域的边缘进行提取, 常用的方法有Sobel[11]、Roberts[12]等一阶微分算子及Laplacian[13]二阶微分算子和非微分边缘检测算子Canny[14]。但基于边缘检测算子提取的海岸线会因环境噪声破坏其连续性, 需要数学形态学进行处理与后期优化; (3) 面向对象的分割方法, 将遥感影像划分出由同质像元组成的不同大小的对象[15-17],根据的光谱、空间集纹理特征对数据进行处理[18]。面向对象方法可以减少像素内部信息的干扰, 但步骤复杂, 不能充分利用图像的隐含信息。
随着高分辨率遥感数据源的不断增加, 以及遥感图像空间分辨率的不断提高, 传统的基于遥感影像获取海陆边界的方法在面对更清晰的纹理和更复杂的海岸带背景信息时, 很难获得较好的提取结果。近年来, 卷积神经网络[19](convolutional neural networks, CNN)在计算机视觉识别领域取得了巨大进步,例如目标检测[20-21]、图像分类[22-23]和语义分割[24-25]等。现有的深度学习网络模型, 一般面向城市场景图像[26-28], 较少应用于空间异质性较强的岸线提取,在对空间信息丰富的高分辨率遥感影像进行海陆分割时, 存在将沿海水体及悬浮泥沙浓度高的海水误分类现象, 不利于后期海岸线信息提取等工作的开展。
针对上述问题, 作者在经典U-Net模型的基础上,提出一种新的用于像素级海陆分割的网络结构, 旨在提高海岸线提取精度。将BN算法和转置卷积加入到网络中, 不仅可以获得准确的海陆分割边缘, 还可以进一步提高分割效率。为了评估改进U-Net在海陆分割方面的性能, 本研究基于高分一号遥感影像数据集进行实验, 与其他网络模型进行相比分析。研究结果显示改进的U-Net在海陆区域获得了更高的总体精度(overall accuracy, OA)、均交互比(mean intersection over union, MIoU)和F1分数(F1-measure)。
1 原理与方法
1.1 全卷积神经网络的概述
CNN通过卷积和池化操作提取影像的局部特征,CNN中的全连接层将局部特征整合为抽象特征[29],随后映射到样本标记空间。在下采样(subsampling)过程中, 特征图尺寸不断变小, 丢失细节信息, 无法做到精确的基于像素级的图像分类。全连接层中的神经元的感受野覆盖了前一层的全部输入, 导致模型运算时间过长、计算率低并限制感受野的大小。全卷积神经网络[30](fully convolutional networks,FCN)用卷积层代替CNN中的全连接层, 在像素级对图像进行分类, 执行端到端图像分割任务, 网络架构如图1所示。
图1 CNN与FCN对比图Fig. 1 CNN vs. FCN
FCN的上采样(upsampling)操作能够将特征图恢复至输入尺寸, 但会丢失特征信息, 降低边界分割精度。因此, 很多研究都集中在如何提高像素级高分辨率的分割结果上。
1.2 经典U-Net网络
经典U-Net[31]是一个端到端全卷积网络, 其网络编码-解码结构如图2所示。编码器由卷积层和最大池化层组成。解码器通过上采样, 恢复特征图至输入大小的尺寸。编码器和解码器之间通过跳跃连接(skip connection)将下采样部分得到的高维空间信息和对应上采样部分得到的高层语义特征相结合, 构建高层次的复杂特征, 使得分割结果可以得到精确的定位与精细的边界。当前一些深度学习软件平台选择其作为语义分割的网络, 如ArcGIS Pro软件中的语义分割模块、ENVI软件中的深度学习模块等。
图2 U-Net模型结构图[31]Fig. 2 Model structure diagram of U-Net
1.3 批归一化层
批归一化(batch normalization, BN)是一种数据正则化方法[32], 通过解决深度神经网络内部协变量偏移(internal covariate shift)来加速网络训练。神经网络迭代过程中, 随着模型参数的不断更新以及模型层数的不断增加, 网络输出层输出数据的分布会发生偏移并被累积放大。网络就需要在训练的过程中不断地去适应不同的数据分布, 降低了模型的学习速度。BN算法可以解决上述问题, 通过对输入层进行归一化使得训练梯度变化趋于平缓, 加速收敛[33],并且减少梯度对参数大小或初始值的依赖, 解决了梯度弥散问题, 有效防止模型过拟合。BN算法原理如下:
通过归一化操作将数据约束为正态分布, 再使用缩放参数γ以及偏移参数β对归一化后的数据进行反变换, 来还原最佳的数据分布, 提高网络的泛化能力。
1.4 转置卷积
语义分割中需要运用上采样将提取的特征还原到原图像大小, 以实现像素级别的分割预测。上采样的方法主要有插值法[34](interpolation)、转置卷积[35](transposed convolution)和反池化[36](unpooling)。
转置卷积是一对多的映射关系, 可以实现低维特征到高维特征的转换。如图3所示, 相比于卷积操作的多对一的映射关系, 转置卷积只是形式上的转置。相比于插值法和反池化, 转置卷积矩阵的参数在训练过程中可进行更新。
图3 步长为1, 填充为0的卷积(a)与转置卷积(b)Fig. 3 Convolution with Stride = 1 as well as padding = 0 (a) and transposed convolution (b)
1.5 改进U-Net网络
海岸带区域地物多样, 地理条件复杂, 数据细节特征丰富, 增加了基于高分辨率遥感影像数据的海岸线提取的复杂度。基于以上情况, 本文在经典U-Net的网络结构上进行改进处理, 构建了改进的U-Net网络结构如图4所示。
图4 改进U-Net模型结构图Fig. 4 Model structure diagram of improved U-Net
输入层由原来的单通道改为了多通道, 可以学习遥感影像数据的多通道信息特征。编码器由5个重复的处理块组成, 每个块中包括两次连续的卷积核大小为3×3, 步长为1的卷积。块与块之间通过一个核为2×2步长为2的最大池化操作进行连接。解码器与编码器结构上对称, 也由5个重复的处理块组成。解码器的卷积操作与编码器的卷积操作一致, 块与块之间通过核为步长为4×4, 2的转置卷积。相比与传统U-Net网络使用的双线性内插法, 转置卷积可以使网络能够学习到更多特征。每层卷积采用的是“same”模式, 得到的图像大小与卷积操作前的图像相同, 保留了更多边界信息。每次卷积操作后加入批归一化层,从而能够将卷积层输出的特征归一化为正态分布, 将得到的结果输入到线性整流函数(rectified linear unit,ReLU)中, 提高模型的非线性表达能力。这种网络结构能够在一定程度上提升网络的最大可训练深度, 强化模型学习目标物边缘信息, 提高目标分割边缘精度。
2 实验与分析
2.1 研究区域与实验数据
本文研究区域为山东省青岛市市区沿海及胶州湾区域(图5), 结合前人研究成果及研究区海岸底质特征与空间形态可知, 该区域岸线类型丰富且形态呈现多样化的特点。
图5 研究区地理位置Fig. 5 Location of the research area
研究区自然岸线类型有基岩岸线、砂质岸线、粉砂淤泥质岸线和河口岸线等, 基岩岸线潮间带底质以基岩为主, 主要分布于崂山风景区沿海一线;砂质岸线在研究区内分布较多, 其空间平面形态相对平直, 如青岛市沿海的多个海水浴场; 粉砂淤泥质岸线的潮间带底质基本为粉砂淤泥, 其滩涂宽阔,在胶州湾北部有大量分布; 河口岸线为河流入海口,是河流与海洋的分界线, 如大沽河入海口等。
研究区人工岸线在胶州湾东西两侧及青岛市市区沿海一线分布较多, 且其空间形态呈现出多样化的特点, 为了更为准确地评估本方法对于岸线的提取精度, 作者将人工岸线在形态学上进一步细分,依据人工岸线形状特征, 划分为平整型(岸线连续且平直分布)、岛屿型(周边为海域包围的离岸型人工岸线)和复合型海岸线(形态上不规则, 存在大量的凸出或凹进型岸线形态)。
实验数据来源于中国海洋卫星数据服务系统(https://osdds.nsoas.org.cn/)。本文采用了5景高分一号PMS1多光谱遥感影像, 其空分辨率为8 m, 详细信息如表1所示。
表1 研究区遥感影像信息Tab.1 Remote sensing image information in the research area
2.2 数据预处理
数据预处理流程如图6所示。首先, 对获取的原始影像进行校正, 消除因大气、地形、传感器姿态等因素产生的畸变, 提高遥感数据的质量。将获取的遥感影像在ENVI软件中进行辐射定标、大气校正和正射校正。本研究采用Flaash大气校正去除辐射亮度数据中的大气和太阳的影响。对校正后的遥感影像在ArcGIS软件中解译为二值分割图,其中黄色像素代表陆地、蓝色像素代表海洋。将遥感影像与二值图的尺寸分别裁剪为256像素×256像素, 图像裁切时每个实验数据集之间彼此不相重合。裁切后的数据按 8︰1︰1随机划分。通过以上操作, 得到训练集包含984个样本, 验证集包含123个样本, 测试集包含123个样本和每个样本所对应的二值图标签。训练样本及其二值图示例如图7所示。
图6 GF-1 PMS影像处理流程Fig. 6 GF-1 PMS processing flowchart
图7 数据集实例Fig. 7 Instances of the dataset
2.3 模型训练
适应矩估计(adaptive moment estimation, Adam)作为优化器最小化损失, 每次迭代前随机打乱(shuffle)训练集。
将改进U-Net模型在高分遥感数据集上进行训练,实验环境如表2所示, 训练参数如表3所示。使用自
表2 实验环境Tab. 2 Experimental environments
表3 训练参数Tab. 3 Training parameters
2.4 评价指标
选用总体精度、均交互比和F1分数3个指标对实验结果进行定量评价。
总体精度是正确分类的像素(不考虑类别)与像素总数之比, 计算公式为:
交并比(intersection over union, IoU)表示预测值与真实值之间的交集与预测值与真实值之间的并集的比值, 均交互比表示所有类的平均交互, 是语义分割的标准度量。
公式(5)和公式(6)中:TP(True Positives)、TN(True Negatives)、FP(True Negatives)、FN(True Negatives)代表意义如表4所示, 其中TP代表预测为正样本,并且预测正确;TN代表预测为负样本, 而且预测正确;FP代表预测为正样本, 但是预测错误;FN代表预测为负样本, 但是预测错误。k表示样本类别数量,本研究中为2。
表4 精度评价混淆矩阵Tab. 4 Confusion matrix for accuracy evaluation
F1分数是精确度(presicion)与召回率(recall)的调和平均数, 能够综合反映算法对正负样本的识别与区分能力。F1分数的公式如下
2.5 实验结果与分析
在相同的实验环境下, 对SegNet、经典U-Net网络与本文提出的改进U-Net网络进行对比实验。为了直观地展示对比结果, 本研究分别选取了人工岸线与自然岸线的几个典型区域进行分析比较。海陆分割结果如图8和图9所示。
图8 3个典型人工岸线区域分割结果的视觉对比Fig. 8 Visual comparison of segmentation results in three typical artificial shoreline areas
图9 4个典型自然岸线区域分割结果的视觉对比Fig. 9 Visual comparison of segmentation results in four typical natural shoreline areas
由图8c可知, 本文所采用的改进U-Net对人工岸线分割结果的整体视觉感知最优。与经典U-Net和SegNet相比, 改进U-Net可以获得更多的空间一致性结果。在图8d中, 经典U-Net在早期的低级信息提取过程中, 由于感受野小, 无法识别跨海大桥的细长结构和复合型岸线的细节特征。在图8e中, SegNet丢失了岸线的边界信息, 因此识别结果中出现了破裂和模糊现象, 识别效果最差。平整型岸线是一个包含水产养殖池塘和裸地的海岸带, 由于水产养殖池塘和海水具有相似的光谱特征, SegNet将水产养殖池塘分类为海水。与其他方法相比, 改进U-Net具有更大的感受野, 能够提取岸线的空间结构信息, 避免误分类。
由图9d可知, 经典U-Net对自然岸线的提取结果较差, 存在漏检误检现象。在图9e中, SegNet网络对自然岸线的提取结果也存在与经典U-Net网络相同的问题, 且其网络语义分割的效果更差, 存在更多误检、错检和漏检现象。对于基岩型自然岸线,SegNet在识别过程中将大型山体形成的阴影错误地识别为水体信息。经典U-Net网络在分割完整度上总体要优于SegNet网络, 但在内部区域会出现空洞现象, 对于曲折的自然岸线不能完整识别, 存在漏检现象, 边界分割不精细, 同样会将高山阴影错误识别为水体。对于砂质岸线, 在训练集中将砂质滩涂标记为陆地, 经典U-Net和SegNet丢失了滩涂的结构信息, 导致滩涂区域被识别为海域, 且SegNet的识别结果噪音较多。粉砂淤泥质岸线和河口型岸线都是包含大量养殖池的沿海地区。水产养殖池塘和海水具有相似的光谱特征, 而由淤泥构成的浅滩在光谱特征上与陆地相似, 因此经典U-Net和SegNet方法会将水产养殖池塘和一些浅滩误分为海水。在图9d和图9e中, 模型提取的陆地边界与水产养殖池塘的边界没有很好地对齐, 这可能是因为详细信息没有直接传播到SegNet和经典U-Net中的解码器。由图9c可知, 改进U-Net网络能很好地保留边界信息, 其语义分割效果最好, 自然岸线之间不存在黏连, 漏检、错检现象较少。
表5显示了上述方法在测试集上的定量结果。从实验结果数据来看, 本文提出的改进U-Net网络在3个指标上都有最好的结果。与SegNet相比, 改进的U-Net在总体精度、均交互比和F1分数分别提升了4.25%、6.62%和11.28%; 与经典U-Net网络分割结果相比, 3项指标分别提升了2.31%、2.17%和2.93%。综上所述, 改进的U-Net网络可以较好地对海陆进行语义分割。
表5 网络模型的精度对比Tab. 5 Comparison of the network model accuracy
3 结论
本文在经典U-Net网络结构的基础上, 通过引入BN算法和转置卷积, 提出一种改进的海陆分割模型,可以实现基于遥感影像的像素级的分割预测。将改进的U-Net与经典 U-Net和SegNet模型进行了比较比较。实验结果显示, 将BN算法和转置卷积加入到网络中, 可以有效降低调参难度并显著提高边缘分割精度。结果表明:
本研究提出的改进U-Net网络模型具有优异的海陆分割性能, 在精度评价指标总体精度、均交互比和F1分数分别达到了98.81%、96.17%和91.94%, 在海陆分割及岸线提取上体现出优越的特性。
相对于经典 U-Net、SegNet模型, 本研究提出的改进U-Net网络模型方法有效提高了研究区弱边界(自然海岸线)和强边界(人工海岸线)的提取精度以及边界分割完整度, 能够更好地区分阴影与水体,漏检、错检现象较少, 可以更有效避免误分类。
由于高分辨率遥感图像复杂的纹理和密集分布,传统的基于人工特征提取和图像处理的方法难以得到较好的提取精度。改进的U-Net神经网络可以更好提取地物本质特征, 更准确挖掘高分遥感影像的空间分布特征、纹理特征以及光谱特征, 从而提升分类的准确性。