一种基于深度学习的SAR城市建筑区域叠掩精确检测方法

2023-05-05丁赤飚张福博石民安中国科学院空天信息创新研究院微波成像技术国家级重点实验室北京100190中国科学院空天信息创新研究院北京100190中国科学院大学电子电气与通信工程学院北京100049

雷达学报 2023年2期

田野丁赤飚张福博* 石民安(中国科学院空天信息创新研究院微波成像技术国家级重点实验室北京 100190) (中国科学院空天信息创新研究院北京 100190) (中国科学院大学电子电气与通信工程学院北京 100049)

1 引言

建筑叠掩检测在多通道合成孔径雷达(Synthetic Aperture Radar,SAR)城市区域三维成像过程中扮演着关键角色，直接决定了后续流程的选择。如图1所示，城市区域三维成像流程中的建筑叠掩检测环节位于关键位置。在进行多通道数据的图像配准和相位补偿后，需要对叠掩区域进行检测，根据检测结果的不同，针对性地使用不同的处理方法，对叠掩区域使用超分辨算法，对非叠掩区域使用干涉算法，综合两部分区域的结果得到SAR三维成像。

图1 城市区域SAR三维成像流程图Fig.1 The flowchart of 3D SAR reconstruction of the urban area

然而，一旦叠掩区域的误识别发生，将会极大地影响SAR三维成像结果的质量。如果将干涉算法错误地应用于叠掩区域，会导致目标信息的丢失，使得应检测到的目标漏检。相反，如果错误地应用超分辨算法于非叠掩区域，则会引入额外的噪声，使成像结果失真，同时还将消耗更多的计算资源，影响SAR三维成像的效率。因此，城市建筑区域的叠掩检测对于城市区域的三维SAR成像具有重要意义。

城市建筑区域的叠掩检测一直是雷达图像识别领域内的重点[1–7]。为此，相关专家设计了一系列基于城市建筑叠掩特征的检测方法。例如，叠掩是由多个信号混叠而成的，叠掩区域的幅度值较高，Soergel等人[8]根据这一特征，设计了基于幅度的叠掩检测方法。Prati等人[9]根据叠掩区域相位梯度为负的特点对叠掩区域进行识别。Wilkinson[10]通过分析叠掩区域的统计特性，以叠掩区域相干性较差为特征对叠掩进行检测。随着多通道SAR的发展，Chen等人[11]和Wu等人[12]通过特征值分解等方法，根据通道间的信号特征对叠掩区域进行分割检测。传统叠掩检测算法的问题在于其需要大量的专家知识和人工设计的特征。随着深度学习的发展，学者设计了许多基于深度学习的检测方法，该类方法多数都是基于卷积神经网络(Convolutional Neural Networks,CNN)，通过从数据中学习特征表示和分类器，来更好地应对SAR图像中目标的多样性和复杂性，并表现出比传统算法更好的自适应性和鲁棒性。Wu等人[13,14]通过设计多尺度神经网络和基于注意力机制的神经网络来提高模型对于叠掩的检测精度。Chen等人[15]设计了针对InSAR数据的叠掩分割网络。

然而，上述方法仍存在不足之处：一方面，随着多通道SAR的发展，多维度数据中蕴含的丰富特征对建筑叠掩区域的特征挖掘提供了更多的选择，但现有方法没有及时将这些特征结合到建筑叠掩检测的网络结构中；另一方面，现有基于CNN的检测方法由于卷积操作的感受野检测范围受限的性质，在提取图像中的远距离依赖特征时，无法充分挖掘大尺度的全局特征，因此无法获得更加精准的分割结果。近年来，Transformer模型的崛起正着力于解决这一问题，越来越多的研究者开始考虑在视觉任务中应用Transformer模型[16–21]。Vision Transformer (ViT)模型在光学图像领域已经取得了巨大的成功[22]，但ViT模型在SAR叠掩检测问题上还未得到应用。在叠掩检测问题上局部特征通常会被SAR图像固有的相干斑噪声干扰甚至破坏，相比之下，建筑叠掩区域所具有的丰富的全局特征则更具有鲁棒性。因此，ViT模型在建筑叠掩识别问题上具有更大的研究潜力。

综上，现有的城市建筑区域叠掩检测方法在多通道SAR数据上未能有效挖掘叠掩的多维度特征，而以CNN为骨架的识别方法虽能有效提取局部特征，但未能充分挖掘叠掩的大尺度空间结构性特征，这导致现有算法的检测识别精度较低。针对这一问题，本文拟通过结合ViT的全局上下文信息感知和CNN的局部特征提取能力，并结合专家知识，提出一种新的基于深度学习的叠掩检测方法。该方法具有以下创新点：首先，它首次将ViT架构应用于SAR图像建筑区域叠掩检测，并与CNN模型框架相结合，利用前者的全局特征提取能力和后者蕴含的局部相似性和平移不变性来挖掘建筑叠掩区域更优的特征表达。这同时保证了模型在小样本情况下对全局和局部特征都具有较强的提取能力。其次，该方法充分利用相关的专家知识，设计了通道间特征模块和干涉相位反偏特征模块，以增强叠掩特征检测的鲁棒性，同时可以在小样本数据集上降低训练难度，提高检测精度。

2 Vision Transformer模型

Transformer模型最早是由Google在2017年提出的一种自然语言处理模型[23]。其提出之初旨在通过自注意力机制来实现对序列信息的全局建模。Transformer模型推出之后，极大地改进了自然语言处理领域中的语言建模问题，取得了很好的效果。Transformer模型的成功引起了计算机视觉领域研究人员的关注。Dosovitskiy等人[20]为了实现对图像全局信息的更好挖掘首次提出了ViT模型，证明了其在图像分类任务中的有效性。此后，有学者以ViT模型为基础提出了Swin-ViT等网络，其分类性能超过了同类的CNN模型[22,24]。为了更好地说明如何将ViT模型融入到叠掩检测模型中，下面对ViT模型的算法流程进行简述，ViT模型流程图如图2。

图2 Transformer模块结构图Fig.2 The structure of Transformer module

(1) 嵌入层

对于输入大小为h×w×c的图像，ViT模型首先将数据分成n个长宽为p的图像块，其中，n=hw/p2，然后将每个图像块展平为1×d的特征向量。这n个向量组成一个n×d的输入矩阵，记为X。经过嵌入层(Embedding Layer)将输入X转换为n×d嵌入矩阵Z，可表示如下：

其中，WE和bE是可学习参数，嵌入层本质上是一个将输入数据映射到目标特征空间的线性变换。

(2) 多头自注意力机制

多头自注意力机制(Multi-head Self-Attention)旨在通过获取不同子空间的特征编码信息来增强模型的表达能力[23]。具体流程为：将输入的嵌入矩阵Z分为h个头，每个头的嵌入向量长度为dh=d/h，对每个头进行独立的自注意力机制计算，最后将各个头的结果拼接起来作为输出。自注意力机制的计算过程包括3个步骤：查询(Query)、键(Key)、值(Value)。3个步骤的公式如下：

其中，WQ,WK,WV都是可学习的参数矩阵，得到3个特征矩阵后，以缩放点积注意力(Scaled Dot-Product Attention)的方式，得到最终的输出：

其中，(·)T表示矩阵转置，softmax 函数的作用是将查询矩阵Q与键矩阵K的点积转化为注意力矩阵，来表征不同区域的重要性大小，再将其与值矩阵V相乘即可得到自注意力模块的输出。是缩放因子，其作用是避免softmax输出的值过大或过小。

(3) 多层线性感知机

经过多头注意力模块后，执行如图2所示的“加&层规范化”模块：对输出的特征张量做层规范化处理，以保证数据的分布易于训练，再将多头注意力模块处理得到的特征张量以元素对应的方式与未被处理的原始特征张量相加。之后的多层感知机模块(Multilayer Perceptron,MLP)由输入层、隐藏层和输出层构成。相邻层所包含的神经元之间使用“全连接”的方式进行连接。该设计可以保证图像中不同区域的特征向量都能以最短路径相互连接。该层也是ViT方法能高效提取全局特征的关键模块，可表示如下：

其中，W1,b1将输入的特征矩阵映射到高维的隐藏层，经过激活函数后，W2,b2将高维特征重新映射到原始特征空间。再经过一次“加&层规范化”模块处理后，得到ViT网络的输出结果如下：

由上述算法流程可知，ViT模型中，每个单元都可以通过自注意力后的MLP层连接到任意其他单元，任意单元间的最大路径距离计算复杂度仅有O(1)。在深度学习网络中，模型单元的最大路径距离会影响对远距离依赖关系的特征提取[25]。作为对比，以长度为l，输入输出的通道数都为c的序列为例，卷积核大小为k的卷积网络单元的计算复杂度为O(klc2)，最大路径长度为O(l/k)；循环神经网络单元的计算复杂度是O(lc2)，最大路径长度为O(l)。对比可知，ViT模型的最大路径长度最小，在提取远距离依赖特征时更有优势。该特性也为计算机视觉领域的图像分割问题提供了新的思路和解决方向。

ViT模型虽然在全局依赖特征提取任务上表现优秀，但它也存在一些不足。比较来说，CNN的结构本身蕴含了图像的局部相似性和平移不变性的先验信息，而ViT模型则缺乏这样先验的偏置归纳(Bias Induction)，这导致缺乏深度训练的ViT模型可能仅仅因为位置不同无法识别相同的局部特征。为此，ViT网络必须在大样本、高质量的训练集上进行深度训练，来构建出目标的局部特征，否则就会导致模型的泛化能力不足，在识别精度上低于蕴含局部先验信息的CNN网络。而缺乏海量标注真值的高质量数据集，正是目前多通道SAR建筑叠掩检测所面临的问题。另外，随着多通道SAR的发展，SAR数据中蕴含的叠掩特征也更加丰富。更多地将基于多通道SAR叠掩特征的专家知识融入到网络模型中，理论上能降低网络的训练难度，帮助网络更好地在小样本数据集上实现收敛。综上，为了在现有的小样本SAR数据集上应用ViT模型取得更好的检测结果，本文结合有效的专家知识，提出了一种新型的建筑叠掩精确检测方法。

3 结合ViT和CNN的叠掩检测网络

3.1 网络总体框架

本文提出的深度学习模型框架如图3所示。总体架构采用的是图像分割领域经典的“解码-编码”模型。网络结构上，主要的创新是采用了CNN结构和ViT结构交替排布，并引入了基于专家知识的特征模块，这些设计使得该模型既能提取数据中的深层特征，也不会丢失浅层网络中叠掩边界信息。

图3 本文提出的叠掩检测网络的结构示意图Fig.3 The architecture diagram of layover detection network proposed in this paper

具体而言，网络训练的正向传播可以分为编码路径和解码路径两个阶段。在编码路径中，多通道复数数据(Multi-channel data)共经过4个编码块(Encoder block)，每个编码块的尺寸逐层减半，维度逐层加倍得到复数特征图(complex-valued map,cv map)。在单独的一个编码块中，复数数据先通过两层复数残差卷积层(complex-valued convolution,cv-conv)得到复数特征图。复数特征图一方面通过降采样作为下一级编码块的输入，另一方面通过3个专门的叠掩特征模块得到3层并联的实数叠掩特征图。这3个特征模块分别是：提取建筑叠掩大尺度空间结构特征的ViT空间结构特征模块(ViT Spatial Structure Feature Module,ViT-SSFM)、提取通道间叠掩特征的多通道特征模块(Multi-Channel Feature Module,MCFM)和提取叠掩相位反偏特征的干涉相位特征模块(Interference Phase Feature Module,IPFM)。由3个特征模块得到的实数叠掩特征图通过卷积层(rv-conv)和下采样(down sample)后，作为输入与下一级编码块中获取的实数特征图并联得到新的实数特征图。经过4个这样的编码模块得到编码器的复数特征图和实数特征图，此时通过位于中间的瓶颈层(bottleneck)对复数特征图进行实数化，两个特征图联合作为解码器的输入。在解码器中，通过卷积块(real-valued convolution,rv-conv)与上采样操作(up sample)，将编码得到的特征解码到更大尺寸的特征图上。解码过程中每个解码块(Decoder block)都会通过跳接融合浅层网络保留的叠掩边界特征，最大限度地提取被相干斑噪声严重干扰的边界信息[26]。

在网络的反向传播中，为了缓解正负样本不平衡问题并将学习权重更多地聚焦到难样本检测任务上，模型采用了二元聚焦损失函数(Binary Focal Loss,BFL)计算预测输出与真值间的损失值(Loss)。损失值会延着图3中黑色箭头的反方向进行传播。在每个模块中，自适应矩估计优化器(Adam)根据损失值与学习率进行梯度学习与权重更新。

本文方法旨在实现两个目标：(1)将Vision transformer结构和CNN结构相结合，以此来更好地挖掘叠掩的局部特征和远距离依赖特征；(2)根据专家知识，利用叠掩区域通道间的特征和干涉相位反偏特征在小样本数据集上实现更加高效、精准的识别。本章将具体介绍相关的模块和模型的损失函数。

3.2 ViT空间结构特征模块(ViT-SSFM)

建筑叠掩区域拥有丰富的空间结构特征。这一方面是因为建筑本身具有一定的空间结构，使得建筑叠掩在SAR图像中表现为平行四边形；其次，由于阵列SAR一般为侧视成像，在距离向上，叠掩之后就会出现阴影，叠掩和阴影在SAR图像上呈现相互伴生空间特征；最后，由于建筑物上普遍具有窗户等二面角结构，因此在建筑叠掩中会出现晶格状的亮斑。这些共同组成了建筑叠掩的空间结构特征。

建筑叠掩的空间结构特征与其他局部特征相比，其特征尺度往往更大。CNN中神经单元的最大路径距离过长，使其提取大尺度空间结构特征的能力有限。因此CNN在SAR建筑叠掩特征提取任务上的表现还有待提高。与CNN模型相比，ViT模型在多头自注意力模块的编码下，可以通过MLP在任意两个神经元之间建立依赖关系，进而高效地提取建筑叠掩的大尺度空间结构特征。所以，ViT模型相比于CNN更适合提取建筑叠掩的空间结构特征。

因此，本文采用ViT模型来设计了专门的模块，称之为ViT空间结构特征模块(ViT-SSFM)，其结构如图4所示。输入到ViT-SSFM的特征图，首先通过卷积分块编码得到特征向量序列，然后将特征向量序列输入到多个串联的Transformer block中。Transformer block中的多头自注意力层可以从多个子空间中分别推断像素之间的空间相关性，从全局视角中挖掘空间结构特征。随后的MLP模块会在挖掘出的特征中提取远距离的依赖关系。这二者共同作用，确保有效地挖掘叠掩的大尺度空间结构特征。最后，经过Transformer block的特征向量会在转置卷积(Transpose convolution)解码后重新转化为特征图。

图4 ViT空间特征模块(ViT-SSFM)网络结构示意图Fig.4 The network structure of the ViT-Spatial Structure Feature Module (ViT-SSFM)

与ViT模型相比，ViT-SSFM在经过特征向量编码和Transformer block挖掘特征后，增加了从特征向量还原到特征图的解码模块，用于连接后续的CNN模型。如图3所示，前一个编码块中的ViTSSFM模块输出的特征图会在降采样后由下一个编码块的CNN结构即图3中的实数卷积层继续处理，输出的特征图又会传入再下一个编码块的ViT-SSFM模块。ViT-SSFM模块挖掘出了CNN模块难以挖掘的大尺度空间结构特征，而CNN模块包含的局部相似性和平移不变性为ViT-SSFM提供了局部特征的先验信息。本文提出的这种ViT-SSFM模块和CNN模块交替挖掘特征的结构有机地结合了两类模型的优势，在对叠掩的全局和局部特征挖掘上相互补充，可以提高模型对叠掩的检测能力，降低了整体网络的训练难度。

3.3 多通道特征模块(MCFM)

多通道SAR数据有着丰富的叠掩特征。对于叠掩区域中的任一点像素P(m,n)，其中混叠了多个不同高度地物目标的回波信息，而这些不同的地物目标回波之间的干涉相位是不同的，并且与它们的高程相关[27]，可表示如下：

总结以上的专家知识，本文中将该特征提取流程设计为专门的叠掩多通道特征模块，如图5所示，该模块中的输入是每个编码模块中的多通道复数特征图。首先，模块会在复数特征图上做通道间的FFT，得到频域上的目标分布。然后，通过各分量幅值的大小来获取主要的信号分量。接着把除主要信号分量外其余分量置0后，将频域特征层做IFFT反演回时域。最后，把反演的特征层与原特征层做共轭相乘，并再次对结果进行FFT，将直流分量置0后，求取剩余分量的能量总和，作为最后提取的实数特征图进行输出。该模块可以一定程度上减少噪声对于识别的干扰，提高叠掩检测的置信度，增加检测精度。

图5 多通道特征模块流程示意图Fig.5 The flowchart of multi-channel feature extraction module

该特征模块基于专家知识设计，并没有引入额外需要训练的参数。根据第2节所述，ViT模型在小样本数据集上提取特征难度较大，因此本文中引入这一模块旨在通过领域中的专家知识降低模型的训练难度，进一步提高模型在小样本集上的表现。

3.4 干涉相位特征模块(IPFM)

除了通道间的特征，多通道数据在干涉相位上也有着丰富的叠掩特征。以双通道的InSAR模型为例，在如图6所示的几何条件下，Wilkinson等人[10]计算出干涉相位的表达式如下：

图6 InSAR几何地理模型Fig.6 The InSAR geometry model of layover

其中，rp是地物目标点P1和P2的斜距；B是InSAR系统的基线长度；θ是InSAR的下视角；β是点P1与点P2之间的坡度；α是InSAR系统的基线倾角。分析式(8)可知，在非叠掩区域，β <θ，此时干涉相位梯度为正；而在叠掩区域，β >θ，此时干涉相位梯度为负。由此可知，叠掩区域的干涉相位具有相位反偏的特征。

单幅干涉相位图可能由于信噪比低等多种原因而导致某些叠掩区域的相位反偏特征不明显，而使用多通道数据可以得到多个干涉相位图，更有利于特征的提取，防止遗漏。根据叠掩的相位反偏特征，本文设计了干涉相位特征模块(IPFM)，如图7所示。干涉相位特征模块首先使用编码块中的多通道复数数据计算出不同通道间的共轭相乘矩阵，矩阵中的值即为干涉相位，可以适当增加共轭矩阵的个数来提高检测的鲁棒性。之后在距离方向做多个尺度的FFT，得到了多个通道间干涉相位的频率特征图，特征图中的正负表示相位是否反偏。将多个频率特征图进行卷积得到最终的叠掩干涉相位特征图。该模块只有最后一层用到了简单的1 × 1卷积层，因此引入的参数数量很少，减轻了模型在小样本数据集上的训练压力，并且可以与其他特征模块形成互补，进一步提高叠掩检测的鲁棒性和准确率。

图7 干涉相位特征模块Fig.7 Interference phase feature module

3.5 损失函数

交叉熵(Binary Cross Entropy,BCE)损失函数是解决二分类图像分割问题时常用的损失函数，其表示如下：

其中，log表示以2为底取对数；pm是一个训练批次中预测第m个像素为正样本的概率；M是该批次中总共包含的像素总和；y是该像素的标签真值。

在建筑区叠掩检测问题中使用交叉熵损失函数存在一些问题。因为叠掩检测的训练集存在较严重的正负样本不平衡问题。这种不平衡表现在两个方面：(1)在整个场景中，非叠掩区域可能远大于叠掩区域，因为建筑区域一般在场景中所占比例较小。(2)叠掩或非叠掩区域在图像中一般是连续的，在局部的训练切片中，单一种类的区域会占据切片的大部分。这两方面的不平衡会使训练过程中的梯度剧烈变化，从而增加训练的难度，甚至使训练中的模型性能退化。

聚焦(Focal)损失函数是多分类任务中常采用的损失函数，一般可以有效地减轻样本不平衡对训练的负面影响[32]。为了提高模型的训练效果，本文对聚焦损失函数做了二元化处理得到二元聚焦(Binary Focal,BF)损失函数。二元聚焦损失函数由平衡因子αt和调制因子(1−pt)γ相乘得到，表示如下：

其中，pt是根据模型的估计概率p计算得到的，pt定义如下：

在损失函数中，αt因子平衡了叠掩与非叠掩样本的权重。在非叠掩样本上，αt设定的值要小于叠掩样本，由此减轻负样本对模型学习影响。(1−pt)γ因子使模型训练更专注于困难样本而非简单样本。例如，当一个困难样本被错误分类时，pt相对较小，调制因子接近于1，此时损失值几乎不受影响。反之，简单样本下被错误分类时，调制因子接近于0，以此来地降低简单样本对损失值和梯度更新的影响。通过采用该损失函数，可以使模型在正负不平衡样本集下的训练更专注于相对困难的叠掩区域而不是非叠掩区域，从而提高梯度反向传播的更新效率和检测的准确性。

在本文所提方法中，以64个像素为步长，在原始数据中滑动截取出256像素×256像素大小的训练切片。切片输入到模型后得到输出，则模型输出相对于真值的二元聚焦损失值可表示为

其中，yj为切片中第j个像素的真值，yj为1时表示该像素为叠掩目标；yj为0时表示为非叠掩目标，yˆj为模型对切片中第j个像素的预测输出；m为切片包含的像素总数，即缓解正负样本不平衡问题的平衡因子；α在本模型中取值为0.75，即将叠掩区域与非叠掩区域对损失值的贡献权重调整为0 .75:0.25，以保证更稀疏的叠掩区域的损失值不会被非叠掩区域的稀释。经多次比较实验，在本模型中取γ值为2，即调制因子为

无论是叠掩目标还是非叠掩目标，调制因子会使输出与真值差值较大的目标，即难样本，获得相对简单样本来说更大的损失值权重，促进对难样本的训练优化。

4 实验与分析

为了验证本文提出的结合ViT和CNN的叠掩检测网络的有效性，本节选取多个现有流行网络，包括UNet,Unet++,DeepLabV3,DeepLabV3+和ViT，与本文模型进行对比实验。实验的数据集为真实场景中采集的多通道SAR数据，通过人工标注的方式来确定真值。以上所有实验进行多次，取实验结果的平均值作为最终结果。

4.1 实验设置

实验的硬件配置采用了Intel Core i7处理器，48 GB内部存储器，GPU处理器为NVIDIA GTX 2070Ti。实验平台为Windows 10，软件环境为Python 3.8,CUDA 11.1,CuDNN 8.7。实验以pytorch 1.11为主要的深度学习框架。训练过程中，最大训练epoch设置为200，使用Adam优化器进行参数更新，实验设置的初始学习率为0.004，50个epoch后降为0.001，100个epoch后降为3×10−4。训练的批处理大小选为8。

4.2 数据集介绍

本次实验使用了真实场景数据集，能够测试模型在真实环境下的抗干扰能力与检测能力。测试数据为机载阵列InSAR系统于2022年8月在四川省峨眉山市采集的10通道阵列干涉SAR数据。实测数据的详细参数如表1所示，叠掩的真值图由人工标注得到。图8所示为一个场景的完整SAR图像。从图8可以直观地感受到建筑叠掩在幅度、干涉相位、空间结构方面的一些特征。为了便于模型训练，对SAR图像以64像素步长的滑窗截取方式裁减为256像素×256像素大小的10通道的复数数据，以256像素×256像素大小的真值图作为标签，得到了200张标注数据集。最后以 7:3的比例进行分割，得到训练集和验证集。如图9所示，列出了数据集中的切片示意图。

表1 机载SAR参数Tab.1 The parameters of airborne SAR

图8 数据集场景示意图Fig.8 The illustration of a scene in the dataset

图9 数据集切片示意图Fig.9 Image slices of dataset

4.3 评价标准

实验中采用了准确率(Accuracy)、精准度(Precision)、召回率(Recall)、虚警率(False Alarming)和漏警率(Missing Alarming) 5个指标来评价模型性能。

准确率是检测正确的叠掩与非叠掩区域占总体的比率，其表达式为

精准度表示的是检测为真的叠掩中实际也为真的叠掩区域的比率，其表达式为

召回率表示的是检测为真的叠掩区域占实际为真的叠掩区域的比率，其表达式为

虚警率表示的是实际为非叠掩却被误识别为叠掩的区域占所有检测为真的叠掩区域的比率

漏警率表示的是实际为叠掩却没有被检测出来的区域占所有叠掩区域的比率，其表达式为

式(13)—式(17)中，TP表示的是检测与实际都为叠掩的区域中像素点的个数；TN表示的是检测为非叠掩而实际为叠掩的区域中像素点的个数；FP表示的是检测为叠掩但实际为非叠掩的区域中像素点的个数；FN表示的是检测与实际都为非叠掩的区域中像素点的个数。

4.4 对比实验分析

(1) 与传统方法的对比实验

在上述数据集和评价标准下，本节对比了本文方法与其他传统方法的异同。实验主要选取了3种应用广泛具有代表性的传统方法：幅度法、通道间FFT、干涉相位法，结果如表2所示。幅度法是最经典的传统叠掩检测方法，其利用了叠掩区域混叠多个信号而使得幅度较高的特征，所需要的信息量最少，单幅SAR图像即可进行检测。但该方法易受干扰使得其检测精度不高。从如图10所示的检测结果来看，幅度法的检测结果受到了较强的干扰，充满了大量杂点，并且大量误检了城市区域中树木等非建筑地物。通道间FFT方法的原理是通过判断是否混叠了多个目标回波，进而对叠掩进行检测，其具体流程在3.3节进行了介绍。虽然该方法所需要的信息最多，但通道间的叠掩特征具有更强的抗干扰能力，在检测指标上均超过了幅度法。从图10来看，其检测结果有着相对幅度法更少的杂点，并能检出幅度相对较弱的叠掩目标如图10中红圈所示，大幅提高了叠掩检测的召回率。干涉相位法是利用叠掩区域干涉相位反偏的特征进行检测，具体流程如3.4节描述。从表2结果指标来看，该方法性能较差，但从图10可以观察得到，该方法检测的建筑边缘相比其他方法而言更加清晰，适合与其他方法联合起来对叠掩进行多方面特征的提取与识别。总体而言，传统的叠掩检测方法虽然检测性能相对不足，但是其包含了关于叠掩特征的专家知识，无需数据集支撑，可以将其检测的原理融入到深度学习网络中，增加模型的先验信息，降低模型的训练难度，提高检测性能。

图10 本文方法与传统方法的叠掩检测图Fig.10 Layover detection of the proposed method and traditional methods

表2 本文方法与传统方法对比实验结果Tab.2 Comparison experiment results between the proposed method and traditional methods

(2) 与其他深度学习方法的对比实验

本节将本文模型与多个流行的图像分割网络进行性能对比。实验结果如表3所示。通过观察可以发现，本文模型在准确率、精准度和召回率等指标上均超过了其他深度学习算法，证明了本文模型有效地通过ViT和CNN结构挖掘了叠掩的全局和局部特征，同时基于专家知识设计的专有特征模块也成功地降低了模型在小样本集上的训练难度，提高了模型的性能。注意到UNet和UNet++网络获得了次优的识别效果，超过了DeepLabV3和DeepLabV3+网络的表现，这说明在建筑叠掩检测问题上，有助于提取浅层网络中叠掩边界特征的跳接操作更有利于叠掩的检测。相比之下，在DeepLabV3和Deep-LabV3+中常用的插值上采样方法则会严重丢失边界特征。这也证明了本文采用跳接连接的正确性。另一方面原因可能在于本数据集中的建筑叠掩区域之间的尺度差异较小，DeepLabV3中提取多尺度特征的空洞空间卷积池化金字塔结构(Atrous Spatial Pyramid Pooling,ASPP)并没有发挥较大作用。比较UNet网络与UNet++网络在性能上并没有太大差距，说明在叠掩的小样本集上，单纯增加网络的稠密连接并不会对网络的性能有较大提升。ViT网络由于小样本集的缘故，无法对其进行深入有效的训练，所以其检测效果与CNN有较大差距，说明在没有海量数据支撑的前提下单纯使用ViT效果并不理想。

表3 本文方法与其他深度学习算法对比实验结果Tab.3 Comparison experiment results between the proposed method and other deep learning methods

深度学习模型使用256像素×256像素大小的数据切片进行预测，为了更直观地感受不同方法之间检测结果的异同，将测试集中的切片重新拼接成原场景大小，如图11所示。从图11的识别结果来看，DeepLabV3由于缺乏解码模块，在有相干斑噪声影响叠掩检测中表现不佳，叠掩边界的检出率较低，极端情况下可能会造成叠掩区域的完全漏检。DeepLabV3+网络添加了解码模块，这使得其边界检测结果得到了很大改善，叠掩区域中的漏检现象也有所减少。UNet和UNet++网络对于叠掩边界的识别相对较好，但存在部分区域漏检的现象。在非叠掩区域也存在较明显的误识别问题。可以看出上述这两类CNN网络凭借卷积单元的先验信息对叠掩区域进行了有效的识别，但其对于叠掩特征的挖掘还不够充分，尤其遇到易混淆的叠掩区域时，检测效果往往不理想。ViT网络在小样本数据集下明显未得到充分训练，对于局部特征的识别效果不佳，检测结果中空洞较多，较为离散，但识别结果的轮廓信息比较明显，体现了ViT网络能有效提取建筑叠掩的大尺度结构特征。通过比较，本文方法较其他方法取得了更好的检测效果，同时较好地控制了模型的复杂度，与其他模型相比，待训练的参数量没有明显增加，甚至少于DeepLabV3和Deep-LabV3+算法的参数量。如图11所示，本文方法对大部分叠掩区域都进行了有效识别，但在叠掩边界处还存在着一定的误差。在非叠掩区域中，由于综合了多方面的特征，有效避免了其他方法中出现的较严重的检测虚警。但也由于专用的特征提取模块，本文方法仅针对多通道SAR叠掩检测问题。对比其他深度学习方法，本文方法以降低模型的通用性为代价，提高了模型在多通道叠掩检测问题上的性能表现。

图11 不同深度学习方法的叠掩检测图Fig.11 Layover detection of different deep learning methods

4.5 消融实验

为了进一步说明各模块对于检测的贡献，本节对模型中的不同模块进行消融实验，结果如表4所示。没有特征提取模块的网络本质上是一个复数UNet网络，但复数网络一般在样本不足的情况下训练难度较大，所以其检测性能略低于UNet网络。添加ViT-SSFM模块后，模型检测的精准度得到了较大的提升，召回率同样得到了改善。由4.4节的实验结果可知，单独的ViT模型检测结果并不理想，说明相对于单独的ViT或者CNN结构，ViT与CNN交替组合后可以挖掘出新的叠掩特征，很好地提升了模型的性能。为了使比较更加清晰，将同样基于专家知识的MCFM模块和IPFM模块作为一组同时添加到模型中。从结果可以看出，仅添加MCFM和IPFM模块也能较好地提升检测性能，说明对模型融入专家知识可以有效地降低模型训练的难度，提升模型的检测精度。本文方法在融合3个特征提取模块后，可以最大限度地挖掘建筑叠掩不同方面的特征，获得了更好的检测效果。

表4 消融实验结果Tab.4 Results of ablation experiments

理论上，为模型引入先验的专家知识可以帮助模型在小样本数据集上取得更好的训练效果。不同于自然光学领域的识别与分割，SAR多通道叠掩检测中一个比较突出的问题就是缺少高质量标注的样本数据。为了对少样本情况下模型的表现做进一步分析，将训练数据减少到不同百分比后观察模型性能的衰减情况。实验结果如图12所示，总体上复杂度越高的模型受到少样本的影响越大。而由于本文方法融入了基于专家知识的特征模块，模型性能受到样本减少的影响相对较小，在极限情况下，模型将退化到接近传统方法的水平，依然有可观的检测性能。所以，相较于其他方法，本文方法随着样本规模变小而衰退的程度会越来越小，证明在小样本条件下拥有更好的检测性能。

图12 不同训练数据量下的准确率Fig.12 Accuracy with different proportion of training data

5 结语

面对城市建筑区域叠掩检测问题，本文综合了ViT和CNN两种网络的优点，提出了一种基于深度学习的叠掩检测方法。该方法设计了多个专门的叠掩特征模块，对叠掩的局部纹理特征、全局大尺度空间结构特征、通道间特征以及相位反偏特征进行了综合提取，以实现对于建筑叠掩的高精度检测。通过真实小样本数据集上的对比实验，说明该方法能有效地挖掘多通道SAR数据中叠掩的多方面特征。本文方法实现了优于现有的传统算法和其他深度学习分割网络的表现，将建筑叠掩的检测精度由80%～89%提高到了94%，有助于提高城市区域的3D SAR成像效率与质量。