结合上下文编码与特征融合的SAR图像分割

2022-08-09范艺华董张玉杨学志

中国图象图形学报 2022年8期

范艺华，董张玉,3*，杨学志

1. 合肥工业大学计算机与信息学院，合肥 230031； 2. 工业安全与应急技术安徽省重点实验室，合肥 230031；3. 智能互联系统安徽省实验室，合肥 230031； 4. 合肥工业大学软件学院，合肥 230031

0 引言

合成孔径雷达(synthetic aperture radar，SAR)具有全天时、全天候的特点，在对地观测、土地利用和灾害监测等领域具有独特优势(Moreira等，2013)。因此，SAR图像解译越来越受到重视，包括图像分类、图像分割和目标检测等。而SAR图像分割是后续解译任务的重要步骤，目的是为每个像素点分配语义标签(Ma等，2011)。图像特征的提取是图像分割的关键。最初使用基于阈值、边缘检测的算法进行图像分割，但这些方法大多只获得了图像的灰度特征。之后，提出了许多基于图像纹理分析的方法，包括灰度共生矩阵(gray-level co-occurrence matrix，GLCM)、Gabor小波、树结构小波和差直方图等(Soh和Tsatsoulis，1999)。此外，相继提出了一些基于图模型的算法，以学习相邻像素之间的空间上下文信息。如马尔科夫随机场(Markov random filed，MRF)(Song等，2017)和条件随机场(conditional random fields，CRF)(Wang等，2017)。上述这些传统方法采用人工特征提取的方法获得图像特征，而SAR图像由于斑点噪声等因素干扰，常常难以获取满足鲁棒性与判别性的特征。

近年来，深度学习成为计算机视觉的焦点，在图像分割领域得到了广泛应用。其中，卷积神经网络(convolutional neural networks，CNN)因具有强大的特征提取能力受到广泛关注。Zhou等人(2016)研究了深度CNN在极化SAR图像监督分类中的适用性及潜力。Zhang等人(2017)提出了可利用极化SAR图像中相位信息的网络。但CNN只接受固定的输入尺寸，且一次只能预测每个区域的单类标签，即基于像素块的分类。Long等人(2015)认为全连接层可看做是一种内核为整个输入区域大小的特殊卷积，提出全卷积神经网络(fully convolutional networks，FCN)，将全连接层替换为卷积层，可以接受任意尺寸的图像作为输入且完成了像素级的预测。

全卷积神经网络提出的编解码结构是很多分割算法的基本结构。基于此相继提出了SegNet(Badrinarayanan等，2017)和U-Net(Ronneberger等，2015)，它们都是端到端的网络架构，但是捕获上下文信息的能力不足，限制了分割精度。为了获取更加丰富的上下文信息，Yu和Koltun(2016)使用空洞卷积进行多尺度聚合，融合多尺度的上下文信息。Zhao等人(2017)提出金字塔场景解析网络(pyramid scene parsing network，PSPNet)，使用金字塔池化操作整合上下文。然而，这些算法仅考虑从少数周围像素收集的局部空间上下文信息，缺少全局空间上下文信息。Hu等人(2018)认为卷积神经网络的核心构建模块是卷积核，通常看做是在局部感受野上，将空间上的信息和通道上的信息进行聚合的信息聚合体，因此除了空间信息，通道信息同样不可忽视。然而，神经网络前期的低层特征富含空间信息而缺乏语义信息，而后期的高级特征富含语义信息而缺乏空间信息，但二者相互隔离难以充分利用(Zhang等，2019)。现有的编解码网络解决方法多为简单地将低层特征与高层特征逐像素相加或连接起来，但这样的方式收效甚微。

针对以上SAR图像分割的问题，本文提出一种改进的全卷积分割网络。该网络在编码阶段提取图像的局部上下文、通道上下文和全局上下文信息，并使用新的特征融合方式，提高低层特征的语义表示，且不丢失其空间细节，极大提升了高层和低层特征融合的有效性。

1 网络结构

1.1 整体网络结构

整体网络遵循编解码结构，即U型结构，受空洞卷积、残差网络(He等，2016)和注意力机制的启发，网络由上下文编码模块与特征融合模块组成，如图1所示。输入为SAR图像，输出为同尺寸的分类图。在编码阶段，堆叠了4个上下文编码模块获取图像特征，如多尺度特征、局部上下文信息、通道信息、空间特征和语义信息等。之后，将高层特征与低层特征分别连接特征融合模块的两个输入端，获得全局上下文信息，并将高层特征中的语义信息嵌入低层特征中，使得低层特征在不损失空间特征的情况下富含语义信息。最后，将增强的低层特征连接入解码阶段，使解码器更高效且准确。

图1 整体网络结构示意图Fig.1 Schematic diagram of the overall network

1.2 上下文编码模块

SAR图像中的斑点噪声阻碍空间上下文特征的提取。另外，卷积核作为CNN的核心，使网络能够通过在每一层的局部感受野内融合空间和通道信息来构造特征。但现有算法在提高空间信息编码能力的同时，忽略了通道上下文关系。针对这些问题，本文提出上下文编码模块，以增强提取特征中上下文信息的聚合。该模块具体设计如图2所示。

图2 上下文编码模块示意图Fig.2 Detail structure of context encoder module

上下文编码模块由1个残差连接、1个标准卷积、2个不同空洞率的空洞卷积和通道注意力机制组成。残差的核心思想是连接卷积层的输入和输出，以避免出现网络退化问题。具体定义为

ya=h(xa)+F(xa,Wa)
xa+1=f(ya)

(1)

式中，xa与xa+1是第a个单元的输入与输出，x0为输入图像。Wa为第a层的滤波器参数，F(·)是残差函数，h(xa)=xa是恒等映射。f(ya)为激活函数，例如ReLU，可实现单侧抑制，防止梯度爆炸，定义为

(2)

式中，x为输入神经元。

为了获取局部特征，首先使用一个卷积核大小为3×3的标准卷积，后接批量归一化和激活函数ReLU，以防止出现过拟合。同时，要挖掘周围的上下文信息，需要进一步扩大感受野，为此，连续使用空洞率分别为2和3的空洞卷积。图3是标准卷积与空洞卷积的比较图。图3(b)是一个空洞卷积示例，它可以保持与标准卷积一致的分辨率，并在不增加额外参数的情况下扩大感受野。其感受野具体计算为

k′=k+(k-1)×(d-1)

(3)

式中，k为空洞卷积的卷积核大小，d是空洞率，k′是其等效卷积核大小，i为层数，st表示步长，RFi+1表示当前层的感受野，RFi表示上一层的感受野。从式(3)可以看出，不同的空洞率会获取不同大小的感受野，即得到了多尺度信息。

图3 标准卷积与空洞卷积比较图Fig.3 Comparison of standard convolution and dilated convolution ((a) 3×3 standard convolution; (b) 3×3 dilated convolution (rate = 2))

为获得通道上下文信息，本文采用通道注意力机制来建模通道之间的依赖关系。具体地说，通过获取每个特征通道的重要程度，并依据这个重要程度增强有用的特征，抑制对当前任务用处不大的特征(翟鹏博等，2020)。

首先，将最后一个空洞卷积得到的特征图u经过全局平均池化(global average pooling，GAP)(Lin等，2014)处理，其中u∈RW×H×C。全局平均池化后的结果zc具体计算为

(4)

式中，W与H分别为特征图的宽和高，uc(i,j)表示第c维通道的像素点，z∈R1×1×C。

为了减少计算量，全局平均池化操作获取的特征通过全连接(fully connected，FC)层以缩小维度至原来的1/16。之后由另一个全连接层扩展到原始维度。计算过程为

s=σ(W2δ(W1z))

(5)

式中，σ与δ分别为sigmoid和ReLU，W1是降维层参数，W2是升维层参数。

最后，将特征图u与s相乘，即实现了对通道的加权。

1.3 特征融合模块

神经网络中，低级特征与高级特征在空间分布和物理意义上都存在差异(Ding等，2019)，所富含的信息类型也不同。为了更好地利用这些特征，提出了一个新的特征融合方式，在不牺牲低层特征空间细节信息的前提下，弥合了高层特征和低层特征间的差距。该模块设计如图4所示。

图4 特征融合模块示意图Fig.4 Detail structure of feature fusion module

首先，使用全局平均池化将每幅特征图压缩为一个实数，这个实数在某种程度上具有全局的感受野。由式(4)可知，输出的维度与输入特征图的维度一致，它表示在特征通道上响应的全局分布，即完成了对高层特征全局上下文信息的提取。接着，通过1×1的卷积以修改维度，达到与低级特征一致。假设高层特征为uh∈RWh×Hh×Ch，经全局平均池化后是Ug∈R1×1×Ch，低层特征为Ul∈RWl×Hl×Cl，然后使用1×1的卷积将Ug的维度修改为Cl，即U′g∈R1×1×Cl。同时，对低层特征进行3×3的卷积保持其空间特征。然后，将其与U′g相乘，完成向低层特征嵌入全局上下文信息，丰富了低层特征的语义信息。最后，将增强的低层特征送入解码网络，提高解码器准确率。

1.4 解码网络

特征解码网络用于恢复高级语义特征，生成与输入数据尺寸相同的密集标签图。网络选择双线性插值法进行上采样操作，以恢复特征的分辨率。与编码网络的下采样数量一致，进行了3次上采样操作，在后两次上采样之前，将经过特征融合模块的增强的特征图与前端解码过的特征图级联起来。通过引入上述的跳过连接，补救连续下采样操作造成的空间信息丢失和上采样过程中的语义信息丢失。上采样之后，使用3个卷积核为3×3的卷积依次将特征图的维度减少至原来的1/4，以提高计算效率。每个卷积层后连接批量归一化和非线性激活函数ReLU。整个分割网络每个模块的输出大小与维度如表1所示。

表1 网络的输出参数Table 1 Output parameters of the network

2 实验结果与分析

实验环境如下：CUDA版本为8.0，CUDNN版本为6.0.21，处理器是Intel(R) Xeon(R) CPU E5- 2620 v4 @ 2.10 GHz，显卡是Quadro M2000。采用的框架为Keras2.0.8，以Tensorflow1.4为后端。优化函数采用随机梯度下降算法(stochastic gradient descent，SGD)，设置初始学习率为0.01，动量为0.9，训练进行100个回合。

2.1 实验设置

为避免单一地物对实验结果的影响，实验采用两幅包含了植被、水体以及不同类型建筑物等丰富场景信息的真实SAR图像进行验证，分别是RS2-Flevoland(Radarsat-2 Flevoland)和RS2-SF-Bay(Radarsat-2 San-Francisco-Bay)(许开炜等，2019)，分辨率均为12 m×8 m(距离向×方位向)。图像RS2-Flevoland的尺寸是1 000×1 400像素，包括5类地物，分别为森林、农作物1、农作物2、城市和水体。原始图像与标签图如图5(a)(b)所示。数据集制作过程如下：首先使用滑动窗口在整幅图上切割128×128像素的子图像，滑动窗口步长为50。然后在子图像中为每类地物选取5幅图像，其中4幅作为训练数据，1幅作为验证数据。接着使用数据增强对图像进行扩充，例如旋转、对称和加噪等。图像RS2-SF-Bay的尺寸为1 010×1 160像素，同样包括5类地物，分别为水体、植被、建筑物1、建筑物2和建筑物3。原始图与标签图如图6(a)(b)所示。数据集制作与图像RS2-Flevoland一致。

2.2 评价标准

使用总体精度(overall accuracy，OA)、平均精度(average accuracy，AA)和Kappa系数作为评价指标。

OA表示预测正确的像素个数占总像素个数的比例，具体计算为

(6)

式中，K和N分别表示地物类别数与总像素个数。pii表示混淆矩阵中坐标(i,i)处的元素。

AA的计算包括两步。首先计算每类预测正确的与真实情况下属于该类像素之间的比值，之后再取每一类的精度的平均值。具体计算为

(7)

Kappa系数具体计算为

(8)

式中，p0=fOA，pe具体计算为

(9)

2.3 特征可视化与分析

为解释所提网络的内部机制，本文将特征图可视化。考虑到清晰度与简单性，选择一幅128×128像素的图像块作为输入，如图5(a)如示。本节分别展示CEM与FFM的可视化结果。

2.3.1 CEM编码可视化

为展示编码网络提取图像特征的过程，选取每个CEM输出特征图中的某一维度并缩放至同一尺寸，以便于查看，如图5(b)—(e)所示。从图5(b)—(e)可以看出，浅层编码器专注于提取详细的结构信息，随着网络的加深，编码器越来越关注于更抽象的语义轮廓特征。图5(a)中的斑点噪声造成图5(b)中存在许多独立的小区域，同一地物类别之间非匀质，如红框内所示，其亮度与黑框内地物极为相似，像素级分类时易错分其类别。经过后续的编码，获取红色区域周围更广泛的信息以及不同类别间的相互作用，即上下文信息，从而提供更高的置信度来引导中心像素的分类。如图5(e)中红框内所示，该区域更加同质化。充分表明了上下文信息的重要性以及CEM捕获上下文信息的能力。

图5 编码网络的可视化结果Fig.5 Visualization of the coding network ((a) input patch; (b) CEM_1; (c) CEM_2; (d) CEM_3; (e) CEM_4)

2.3.2 FFM融合可视化

传统应用于编解码网络的融合方式是将编码与解码阶段尺寸一致的特征图逐像素相加或级联。为提高融合效果，FFM先增强编码阶段的低层特征，再进行级联。图6(a)—(c)分别为逐像素相加、低层特征以及增强的低层特征中某一维度的特征效果图。逐像素相加会导致错误像素点增多，如图6(a)红圈内所示。级联使参与上采样的特征图维度增加，有助于将上下文信息传播至更高分辨率的层。对比图6(b)(c)，后者比前者类间区别度更高、类内相似度更高，是增强的低层特征中全局上下文信息引导的结果。

图6 特征融合对比图Fig.6 Comparison of different feature fusion algorithms ((a) element-wise add; (b) ordinary concatenation; (c) FFM)

2.4 分割结果与分析

为了证明所提算法的有效性，对CEM与CEM-FFM分别进行实验，并与几种相关方法进行比较，分别为SegNet、U-Net、PSPNet、FCN-DK3(Mullissa等，2018)和CAEN(context-aware encoder network)(Liang等，2020)。

2.4.1 RS2-Flevoland的实验结果

表2列出了对比方法和所提方法的各类别的准确度、OA、AA和Kappa系数。可以看出，CAEN在对比方法中效果最优。在不加入FFM的情况下，所提网络在OA和Kappa系数上都得到了比CAEN高约1%的准确度，但在AA指标上，弱了约0.6%。加入FFM之后，3个评价指标皆达到最优结果，均比CAEN结果提高了3%以上，获得了最佳的分割性能。从类别来看，CEM-FFM在农作物2这一类别上提升效果最为显著，相较FCN-DK3和CAEN高出10%以上。所有算法对水体的分割准确率都在99%左右，这得益于水体与其他类别的类间差距最大，根本原因在于SAR特殊的成像方式，水体的后向散射系数相对较低，因此在图像上表现为黑色，更容易区别于其他类别。

表2 不同方法在RS2-Flevoland图像上的分割性能Table 2 Segmentation performance of different methods on RS2-Flevoland image

图7显示了各类方法的分割效果图。可以直观地看出，SegNet和U-Net对农作物2的区域分割较为粗糙，PSPNet、FCN-DK3和CEM有所改善，但精确度仍有所不足，而CEM-FFM的分割性能达到最优。并且，在5类地物中，CEM-FFM相较于其他方法，分割图在区域内更加平滑。可以看出，改进的方法的分割图与标签图最为相似，有效减少了错误分类的像素数量。

图7 不同方法在RS2-Flevoland图像上的分割图Fig.7 Segmentation maps of different methods on RS2-Flevoland image((a) original image; (b) ground truth; (c) SegNet; (d) U-Net; (e) PSPNet; (f) FCN-DK3; (g) CAEN; (h) CEM; (i) CEM + FFM)

2.4.2 RS2-SF-Bay的实验结果

不同方法在RS2-SF-Bay图像上的分割性能如表3所示。CAEN在对比方法中效果仍是最优。在不加入FFM的情况下，CEM在OA、AA和Kappa系数这3个指标方面均高出CAEN约1%。加入FFM后，这3项数据又比CEM提升约3%。另外，在水体这一类别上，CEM的表现比SegNet、U-Net和PSPNet略逊一筹，CEM-FFM超过SegNet和U-Net，但低于U-Net。

分割效果图如图8所示。其中，建筑物3的类内相似度较低，易出现分类结果不一且有斑驳，如图8(c)所示。由图8(c)—(i)可知，随着算法对特征提取能力的增强，建筑物3这一类别的分类结果越来越同质化。另外，SegNet、U-Net、PSPNet和FCN-DK3模型的分割结果中存在许多错误分类的像素，尤其是建筑物2区域内，大量像素错误分类为建筑物1和建筑物3，而所提网络极大改善了这种情况。

3 结论

本文设计了一种基于全卷积神经网络的语义分割网络，提出了上下文编码模块和特征融合模块，并将两个模块并入编解码结构。具体结论如下：1)上下文编码模块具有强大的特征提取能力。该模块从空间与通道两个维度上提取上下文特征，实验表明，CEM取得了显著改进的分割结果。2)特征融合模块进一步增强了网络的特征表征能力。低层与高层特征的融合使得已提取的特征最大限度地被网络使用，且CEM-FFM达到了最优分割效果。

图8 不同方法在RS2-SF-Bay图像上的分割图Fig.8 Segmentation maps of different methods on RS2-SF-Bay image((a) original image; (b) ground truth; (c) SegNet; (d) U-Net; (e) PSPNet; (f) FCN-DK3; (g) CAEN; (h) CEM; (i) CEM + FFM)

然而，特征的编码和融合仍有改进的空间，且本文方法是基于像素级的分割，如何将像素级与区域级结合融入网络结构是接下来的研究重点。