基于改进双边网络的SAR图像海陆分割方法
2020-10-24戴牧宸冷祥光熊博莅计科峰
戴牧宸 冷祥光 熊博莅 计科峰
(国防科技大学电子科学学院电子信息系统复杂电磁环境效应国家重点实验室 长沙 410073)
1 引言
随着合成孔径雷达(Synthetic Aperture Radar,SAR)成像技术的发展,利用SAR图像进行海洋监测、海洋目标检测已成为当前的研究热点,而实现精准快速的海陆分割对海岸线提取与监测、近岸目标检测等任务具有非常重要的意义。以舰船目标检测任务为例,海陆分割可排除SAR图像中陆地背景干扰引起的虚警,降低不必要的计算量,有效提高检测效率[1–3]。
传统的海陆分割算法可分为两大类。第1类方法是利用算法检测出陆地区域,代表算法有阈值分割方法[4,5]、聚类方法[6]、边缘检测方法[7]和基于马尔科夫随机场方法[8]等。此类方法依靠图像中陆地区域和海域在灰度、相似度等特性上的差异分割出陆地区域,在简单场景下可获得较高的分类准确度。但此类方法易受噪声干扰,且需要人为设置参数来调控结果,鲁棒性较差,难以满足实际应用中高准确率和鲁棒性的要求。第2类方法是基于现有的地理数据库模型获取陆地掩模并进行调整,文献[9]通过访问海岸线数据库(Global Self-consistent,Hierarchical,High-resolution Geography database,GSHHG)来获取初始的海岸线,而后使用CV(Chan-Vese)模型获取更加精细的分割结果。该类方法在初始地理信息正确的情形下,分割结果优异。但在海岛信息缺失,海岸线偏移,传感器参数偏差等初始地理信息误差较大的情形下会出现分割结果异常的现象。
深度学习由于其强大的图像特征提取能力,被广泛应用于图像分割领域。Berkeley团队提出FCN(Fully Convolutional Networks)方法用于图像语义分割,将图像级别的分类扩展到像素级别的分类,奠定了语义分割的基础[10]。当前语义分割方法主要分为两大类,一类是通过编码器-解码器结构融合高层语义和低层空间信息进而实现精细的图像像素级分类,代表方法有U-Net[11],SegNet[12]等。另一类是使用空洞卷积结构,省去池化层,减少图像特征提取过程中输入图像部分位置信息的丢失,代表方法有DeepLabv3+[13],PSPNet[14]等。近年来,已有学者将深度学习方法应用于海陆分割任务[15–18]。文献[17]在U-Net网络的基础上提出DeepUNet,设计了DownBlock模块和UpBlock模块替代编码-解码结构中的卷积层,在光学遥感图像海陆分割任务中获得了更精确的分割结果。文献[18]提出基于密集深度分离卷积的分割网络架构,通过密集分离卷积和扩张卷积提取图像高维特征,并构造基于双线性插值的上采样解码模块用以实现SAR图像海陆分割。
现有的基于深度学习的海陆分割算法多采用U型网络结构,其通过逐层融合骨干网络不同层级的特征,逐步将特征图分辨率恢复至原图大小。但此类方法会在高维特征图提取过程中引入过多的计算量,因而分割速度较慢。文献[19]提出的双边网络(Bilateral Segmentation Network,BiSeNet)可有效平衡分割速度和精度,在自然场景图像语义分割任务上取得了较好的表现。但对于SAR图像海陆分割任务,双边网络的特征提取路径难以有效提取SAR图像的上下文语义信息和空间信息,因而分割效果较差。本文根据SAR图像特点减少双边网络中空间路径的卷积层数,从而降低空间信息的损失,并选用ResNet18轻量化模型作为上下文路径骨干网络,减少过拟合现象并提供较广阔的特征感受野,同时提出边缘增强损失函数策略,提升模型分割性能。基于高分三号SAR图像数据的实验表明,所做改进可有效提升网络的预测精度和分割速率,并降低网络规模,同时网络泛化性能较强,具有较高的实际应用价值。
2 双边网络(BiSeNet)
当前实时语义分割算法大多通过牺牲精度来获取更快的速度,实际应用效果不佳。文献[19]提出的双边分割网络BiSeNet,可有效平衡语义分割的精度和速度。其通过构建两条特征提取路径分别提取高维非线性特征和低维空间特征,使得网络兼备广阔的感受野和丰富的空间特征信息。该架构主要由空间路径(spatial path)和上下文路径(context path)两条路径构成。
空间路径的作用是保持输入图像的尺寸,获取空间信息。上下文路径的作用则是获取足够大的感受野,从而判断目标类别,其使用一系列注意力优化模块(Attention Refinement Module,ARM)优化输出的上下文语义特征信息。两条路径的输出特征通过特征融合模块(Feature Fusion Module,FFM)实现特征融合并进行像素级分类,最后通过双线性插值上采样获取分割结果。在分割速度方面,虽然空间路径输入的图像尺寸较大,但其只有3层卷积块,因此计算量较小,而上下文路径则采用轻量级的网络,可快速实现下采样。此外,两个模块可并行计算从而进一步提升分割速度。在分割精度方面,空间路径输出特征具有丰富的空间细节信息,而上下文路径具有较广阔的感受野,可充分提取图像上下文信息,因此网络分割精度较高。
3 基于改进双边网络的海陆分割网络
与自然场景图像不同,SAR遥感图像的图片尺寸一般较大。直接对原始图像进行海陆分割会消耗大量计算资源,分割速度较慢,现有研究通常对原始图像和对应标签进行线性降采样处理,在降采样后的图像上进行训练和预测,以提升分割速率。该做法使得图像中目标特征尺寸进一步缩小,直接利用当下主流的语义分割框架难以有效提取图像分割所需高维非线性特征和低维空间特征,使得分割精度下降,因而需要对网络的特征提取结构进行改进。
3.1 整体架构
图1展示了本文网络的整体结构。该网络主要由空间路径和上下文路径两部分组成。空间路径的作用是保持输入图像的尺寸,获取空间信息。上下文路径的作用则是获取足够大的感受野,提取高维非线性特征。网络的输出由上采样模块融合两路特征,并对卷积获得的特征图4倍双线性插值上采样获得。
3.1.1 空间路径
海陆分割网络的训练和预测通常是在线性降采样后的图像和海陆标签上进行的,因此需要使用层数更少的特征提取模块以保留充足的图像空间信息。如图1所示,所提方法减少了双边网络空间路径的卷积块数目,该路径使用两个卷积块提取图像空间特征。卷积块的组成如图1(a)所示,每个卷积块由卷积层、批标准化层和激活层(ReLu)组成。卷积层通过卷积核卷积运算,提取图像低层特征。批标准化层对卷积层输出特征进行标准化处理,调整数据分布回到正态分布,使得网络在训练时获得更稳定的参数。ReLu激活层可赋予网络对特征进行非线性表达的能力。空间路径使用步长为2的卷积层用以替代常规的卷积池化层,减少输入图像空间位置信息的丢失。该路径输出特征图的空间尺寸较大,其大小是输入图像的1/4,因而输出特征含有丰富的空间信息。
图1 基于改进BiSeNet的SAR图像海陆分割网络架构Fig.1 The structure of network based on improved BiSeNet for sea-land segmentation
3.1.2 上下文路径
SAR是一种相干成像系统,其后向散射成像机制会不可避免地导致相干斑噪声的产生。此外,因风力、浪涌等自然因素的影响,SAR图像中海域存在复杂的海杂波干扰,同时由于SAR系统侧视成像的特点,图像中陆地区域如建筑和山体等高大目标会带来较为明显的阴影,上述成像特性均会给SAR图像海陆分割带来不利影响。为准确判定图像中像素的类别标签,网络需要使用较深的网络层数和较大的特征感受野感知像素所在场景的上下文信息。但随着卷积神经网络模型层数的加深,网络参数就越多,模型复杂度就越高,训练所需的数据量就越大,而SAR图像海陆分割的训练数据集相对较小,该情形下网络在训练时容易出现过拟合现象。综合考虑上述SAR图像海陆分割任务的特点,可通过适当缩减高维非线性特征提取模块的通道数来降低网络复杂度。如图1所示,上下文路径使用ResNet18轻量化模型作为骨干网络,其可在大幅减少计算量的情形下保留较丰富的高维特征信息,并提供较大的感受野。考虑到网络输入为SAR原始图像线性降采样处理后的图像,因此上下文路径骨干网络的16倍下采样特征图可充分感知图像上下文信息,故采用该尺度特征进行调优输出。
上下文路径输出特征图的尺寸为输入图像的1/16,特征通道数仅为256。最终输出特征图由两部分特征相加获得:(1)通过全局平均池化后上采样的全局上下文信息特征;(2)通过注意力优化模块得到的优化特征。注意力优化模块详细构成由图1(b)所示,其通过平均池化获取全局上下文信息,并计算一个注意力向量来指导特征学习。该模块能方便地集成全局上下文信息,不需要任何上采样操作,可降低计算成本。
3.1.3 上采样模块
上采样模块的作用是融合高维非线性特征和低维空间特征,预测海陆分割结果,其结构如图1所示。模块的输入为空间路径和上下文路径输出的低维空间特征和高维非线性语义特征。具体结构为:通过双线性插值对高维非线性特征进行4倍上采样,使其尺度与低维空间特征保持一致。而后经通道并联结合两路特征,并使用1×1卷积对融合特征进行通道降维,后经sigmoid激活函数映射到区间[0,1],最后通过双线性插值将其尺寸调整到原图大小,得到最终分割结果。
3.2 网络损失函数
海陆交界区域内像素点附近的场景信息较为复杂,分类难度要远大于其他区域,同时海陆交界区域在SAR图像中所占百分比较低,模型在训练过程中对该区域的学习程度较少,因而网络对海陆交界区域的分割准确度较低。针对网络在训练时对SAR图像海陆交界区域学习比重较低的问题,提出边缘区域增强的损失函数,该方法通过对SAR图像海陆交界区域附加额外损失进而增强网络对海陆交界区域的学习程度。所提损失函数主要由两部分组成:(1)对于训练图像中全部区域的交叉熵损失函数;(2)对于训练图像中海陆交界区域的绝对值损失函数。网络使用sigmoid激活函数将网络输出映射到区间[0,1]以表示像素为陆地区域的置信度,激活函数如式(1)所示
式中,outputm,n是图像(m,n)处的输出值,pm,n为该处像素预测成为陆地的概率。设单批训练中使用的图像数量为K,输入图像大小为M和N,损失函数定义如式(2)所示
4 实验结果及分析
本部分基于高分三号SAR图像数据,就网络结构改进有效性、边缘增强损失函数有效性、与现有典型网络分割性能对比以及网络泛化性能4个方面进行实验。下面给出实验设置及结果分析。
4.1 数据准备
采用高分三号SAR图像数据进行实验。高分三号是我国首颗自主研制的C频段多极化SAR卫星,具有高分辨率、大成像幅宽、高辐射精度、多成像模式和长时工作等特点[20]。实验所选用图像数据的工作模式及对应的主要指标如表1所示。
表1 选用数据的工作模式Tab.1 The imaging modes of data
收集了13幅超精细条带模式图像用于模型训练和测试,图像内容涵盖港口、岛屿和开阔海域多种类型数据。由于SAR图像尺寸较大,直接在该尺度下进行预测会导致图像分割速度大幅降低,因此对原始图像和对应的标签进行3倍线性下采样处理。此外,卷积神经网络的输入图像尺寸有限,不能直接将大尺寸SAR图像送入网络进行训练,因此将其裁剪为尺寸为1024×1024像素的切片图像作为网络输入。实验选取9幅超精细条带模式SAR图像用于训练数据集制作,其中5000张切片图像作为训练数据集,1000张切片图片作为验证数据集,其余4幅超精细条带模式SAR图像用于实验测试。根据前期海陆分割实验结果,海陆交界边缘的误分类像素集中于距离海陆交界曲线小于6个像素的区域内,故设定上述范围作为海陆交界区域用以网络训练和实验结果分析。此外,为进一步验证模型的泛化性能,选取高分三号聚束模式、精细条带模式1、精细条带模式2、标准条带模式各1幅图像用以实验测试。
4.2 实验环境及参数设置
下面给出实验平台配置及网络训练相关参数设置。
4.2.1 实验平台配置
CPU为Intel i7-8700K,内存大小为32 GB,GPU为NVIDIA GTX Geforce 1080 Ti,操作系统为windows 7,代码运行环境为python3.7,深度学习环境配置为CUDA9.2,cudnn7,torch 1.3.1。
4.2.2 网络参数设置
所有实验都在相同的实验环境中进行。综合考虑现有实验平台配置以及网络能稳定收敛的要求,实验设置batch_size=5控制单次网络训练选取的样本数,learning_rate=0.001控制网络学习速率。epoch=50控制网络的迭代次数。超参数λ=7控制绝对值损失函数的权重。采用随机梯度下降法作为优化器对网络参数进行优化调整。
4.3 评价标准
为定量分析算法的分割效果,采用陆地预测精度(Land Precision,LP)、陆地预测召回率(Land Recall,LR)、海域预测精度(Sea Precision,SP)、海域预测召回率(Sea Recall,SR)、海陆交界区域预测精度(Edge Precision,EP),整体预测精度(Overall Precision,OP)、F1分数(F1Score)来评价算法的分割性能。上述评价标准的计算方法所示为
其中TPland,FPland,FNland分别为预测结果中陆地区域的真正例、假正例、假负例。TPsea,FPsea,FNsea分别为预测结果中海域的真正例、假正例、假负例。TPedge,FPedge分别为预测结果中海陆交界区域的真正例、假正例。F1分数定义为
4.4 对比实验
对比实验部分首先验证网络结构改进及边缘增强损失函数的有效性,其次对比分析所提方法与现有典型分割网络的分割性能,最后测试分析基于高分三号超精细条带模式数据进行训练的网络模型对高分三号其他工作模式图像数据的泛化性能。
4.4.1 网络结构改进的性能验证
为验证所做结构改进对网络分割性能的影响,进行对照实验。实验选取测试数据集大图1中的区域1用以展示,输入图像如图2(a)所示。对应的海陆标签和海陆交界区域如图2(b)、图2(e)所示,其中黑色区域代表海域,白色区域表示陆地区域。图2(c)和图2(d)展示了BiSeNet和所提方法在同一实验条件训练后对输入测试图像的分割结果。
由分割结果可见,BiSeNet和所提方法在陆地和海域的内部均有着较好的分割效果。但在海陆交界区域,由于BiSeNet是在原图尺寸1/8大小的特征图上进行预测,特征图中海域和陆地边界信息较少,因此分割结果中海域和陆地交界轮廓模糊,错分类像素点个数较多。而所提方法改进了两路特征提取模块,使网络能有效提取高维非线性语义特征和低维空间特征,保留丰富的海域和陆地边界信息,并在原图尺寸1/4大小的特征图上进行预测,因而在海陆交界区域有着更优的表现。
表2统计了两类方法对测试数据集(4幅超精细条带模式大图)分割结果的各项评价指标。由表2可见,BiSeNet的海陆交界区域预测精度为0.6612,整体预测精度为0.9827,F1分数为0.9868,对测试数据集的总分割时间为54.32 s。而所做改进使海陆交界区域预测精度、整体预测精度和F1分数分别提高了0.0919,0.0056和0.0043,总分割时间缩减到26.73 s,分割速率提升1倍左右。上述结果证明所提方法能有效且快速地提取SAR图像海陆特征,具有更优的分割准确度和分割速率。
4.4.2 边缘增强损失函数的性能验证
为验证所提损失函数的有效性,选用常用于图像分割的交叉熵损失函数和所提损失函数进行对比实验。实验选取测试数据集大图2中的码头区域用以展示,输入图像和海陆标签由图3(a)和图3(b)所示。使用交叉熵损失函数进行训练的BiSeNet和所提网络的分割结果如图3(c)和图3(d)所示,使用边缘增强损失函数进行训练的BiSeNet和所提网络的分割结果如图3(e)和图3(f)所示。为更清晰地观察分割结果,选取输入图像两个子区域进行放大展示,结果如图4所示。
由分割结果可见,使用交叉熵损失的网络在海陆交界区域的分割结果并不理想,且BiSeNet的分割结果的陆地区域出现部分孔洞。而使用边缘增强损失函数后,网络对海陆交界区域这类复杂场景的学习程度增加,两类方法对海域和陆地的分割结果更为精确,且能更好地提取图中陆地和海域边界的轮廓。表3统计了上述实验在测试数据集(4幅超精细条带模式大图)上的分割结果的各项评价指标。由表3可见,边缘增强损失函数提升了两类方法的分割性能,并使改进后网络的海陆交界区域预测精度、整体预测精度和F1分数分别提升到0.7657,0.9889和0.9915。上述结果证明所提边缘增强损失函数可增大网络在训练过程中对于海陆交界区域的学习比重,有效增强网络对海陆交界区域的分割能力,提升网络分割性能。
4.4.3 与现有典型网络的对比分析
为更加充分验证所提方法的分割性能,选取UNet[11],BiSeNet[13],DeepLabv3+[19]和DFANet[21]轻量化模型架构同所提方法进行对比。实验选取测试数据集大图3中群岛区域用以展示,输入图像、海陆标签和交界区域如图5(a)、图5(g)和图5(h)所示。各方法的分割结果如图5(b)到图5(f)所示。为了更清晰地观察分割结果,选取输入图像两个子区域进行放大展示,结果如图6所示。
(1) 网络分割准确度及分割速率对比分析。由分割结果可见,U-Net方法和DeepLabv3+方法分割结果中陆地区域均出现孔洞现象,而DFANet方法的模型过于轻量化,网络未能有效提取SAR图像特征,因而分割结果中陆地区域和海域均出现大量的误分类像素。此外,BiSeNet方法和DeepLabv3+方法对海陆边界的分割并不精确,与真实的海陆边界存在较大误差,而U-Net方法的分割结果通过逐像素预测得到,因此对海陆边界的分割效果最优。与之相比,所提方法通过两条路径分别提取SAR图像空间特征和上下文特征,网络兼备丰富空间特征提取能力和较广阔的感受野,分割结果中陆地区域无明显孔洞,海陆边界分割效果较理想,具有良好的分割性能。表4统计了同一实验环境下不同方法在测试数据集上的分割结果的各项评价指标。由表4可见,所提方法的全局预测准确度、F1分数分别达到了0.9889,0.9915,均优于所列其它方法。在海陆交界区域预测准确度方面,所提方法的分割结果由4倍双线性插值上采样获得,分割准确度为0.7657,仅低于U-Net的0.7745。在处理速率方面,所提方法对于尺寸大小为1024×1024的输入图像,处理速率为0.079 s,即12.7 frames/s,在包含4张像素大小约为8000×6000的测试数据集上分割花费的总时间为26.38 s,较其它方法有显著的优势。
图2 两类方法的分割结果对比Fig.2 Comparison of segmentation results of two methods
表2 两类方法在测试数据集上的分割结果对比Tab.2 Comparison of segmentation results of two methods on the test dataset
图3 使用不同损失函数进行训练的两类方法分割结果对比Fig.3 Comparison of segmentation results of two methods using different loss function
图4 实验4.4.2海陆分割结果细节Fig.4 The detailed view of the segmentation results of test 4.4.2
表3 使用不同损失函数的两类方法在测试数据集上的分割结果对比Tab.3 Comparison of segmentation results of two methods using different loss function on the test dataset
图5 不同方法分割结果对比Fig.5 Comparison of segmentation results of different methods
图6 实验4.4.3海陆分割结果细节Fig.6 The detailed view of the segmentation results of test 4.4.3
表4 不同方法在测试数据集上的分割结果对比Tab.4 Comparison of segmentation results of different methods
(2) 网络模型大小对比分析。图7展示了不同网络架构模型的大小。由图可见所提模型大小为46.3 MB,较BiSeNet减少50%以上,并小于轻量级的U-Net架构。而与模型大小仅为8.3 MB的DFANet方法相比,所提模型具有更优的分割性能。综合上述实验结果可得,所提方法具有更优的综合性能,其能兼顾高分割准确度和高分割速率,在网络规模方面也具有相当优势,具备智能前置的可能[22]。
4.4.4 网络泛化性能分析
为验证所提方法的泛化性能,选取了高分三号聚束模式、精细条带模式1、精细条带模式2、标准条带模式各1幅图像进行实验测试。由于被测模式数据与模型训练使用的超精细条带模式数据的分辨率不同,因此对各模式图像数据按相应的比率进行升降采样处理。实验采用在高分三号超精细条带模式数据上进行训练的网络模型对上述4种模式数据进行测试,实验结果如图8—图11所示。
图7 不同网络架构模型大小对比Fig.7 Comparison of the size of different models
由分割结果可见,所提方法在高分三号的不同工作模式下,均取得了较好的分割结果。表5统计了不同模式数据分割结果的各项评价指标,由表5可见,所提方法对各模式图像数据的分割精度均在0.9939以上。需要注意的是,实验所选数据场景分布较为简单,包含大量空阔海域和大块岛屿,图像内海陆边界区域占比较UFS模式测试数据集更少。而所提方法对于整块海域和陆地区域的分割性能稳定,陆地区域内孔洞区域极少(对比其他模型),因而可发现在一些模式(如SL,SS)数据分割结果的部分评价指标比UFS模式测试数据上的表现更好。上述实验结果充分说明所提网络模型能够学习到SAR图像海陆场景的普遍特征,具有较好的泛化性。此外,上述实验基于高分三号卫星数据开展,后续可进一步研究所提模型对哨兵1号(Sentinel-1),TerraSAR-X等其他SAR卫星图像数据海陆分割的泛化性能。
图8 聚束模式(SL)成像模式分割结果Fig.8 Segmentation result of SL mode
图9 精细条带模式1(FSI)成像模式分割结果Fig.9 Segmentation result of FSI mode
图10 精细条带模式2(FSII)成像模式分割结果Fig.10 Segmentation result of FSII mode
图11 标准条带模式(SS)成像模式分割结果Fig.11 Segmentation result of SS mode
表5 本文方法对各工作模式图像数据的分割结果(%)Tab.5 Segmentation result under multi-mode by the proposed method (%)
5 结束语
本文提出一种基于改进双边网络的SAR图像海陆分割方法。该方法通过空间路径和上下文路径分别快速提取SAR图像空间位置特征和上下文语义特征信息,而后融合两路特征进行SAR图像像素级分类,同时使用边缘增强损失函数策略增强网络对于边界区域的学习程度,提升模型的分割能力。基于高分三号卫星图像数据进行实验,与当前主流的分割网络框架性能进行对比,验证该方法的有效性。实验结果表明,该方法的分割准确度和F1分数分别达到了0.9889和0.9915,对尺寸大小为1024×1024的SAR图像切片处理速率为12.7 frames/秒。同时网络规模较小,占用计算资源少,具有较强的泛化性。研究内容和成果可推广应用于舰船目标检测等相关任务,具有较高的实际应用价值。