基于卷积神经网络的SAR图像目标检测综述

2021-04-09朱卫纲

兵器装备工程学报 2021年3期

刘畅，朱卫纲

(航天工程大学电子与光学工程系，北京 101416)

合成孔径雷达(Synthetic Aperture Radar，SAR)作为一种主动式微波成像传感器，相比于光学遥感手段，不受气候、天气、光照等因素的制约，可以实现全天候、全天时的对地观测。

SAR图像目标检测旨在从复杂的场景中快速有效地提取感兴趣的目标位置，是SAR自动目标识别(SAR-automatic target recognition，SAR-ATR)的重要组成部分。

随着SAR的迅速发展，现有的SAR图像检测技术难以满足实际数据处理的需求。一方面，SAR系统的广泛应用以及成像分辨率的提高，对SAR图像目标的检测效率提出了更高的要求；另一方面，SAR在不同工作模式下具有不同的极化方式、分辨率以及照射角度，导致目标图像特征变化较大，这也给SAR图像目标的检测带来了更大的挑战。因此如何从海量数据中挖掘有用信息，准确、高效、智能地完成SAR图像目标检测任务，是当前亟待解决的问题。近年来，随着人工智能技术的迅速发展，深度学习的方法开始应用于SAR图像检测任务。卷积神经网络(convolutional neural network，CNN)可以实现对图像高层特征的主动提取，避免了人工选取特征的复杂工作，具有良好的分类准确度和鲁棒性，为SAR图像目标的检测提供了新的途径。

本文在总结SAR图像目标检测算法基础上，梳理了基于CNN的目标检测框架及其在SAR图像检测中的应用，分析了SAR图像目标检测的难点问题与下一步研究趋势。

1 传统检测算法的研究现状

传统的SAR图像目标检测算法主要有基于背景杂波统计分布的恒虚警率(constant false-alarm rate，CFAR)检测算法和人工提取图像纹理特征的检测算法。

1.1 恒虚警率检测算法

CFAR检测算法利用目标周围的背景单元，选择恒定的虚警概率确定检测阈值。利用CFAR算法检测SAR图像目标的一般流程如图1所示[1]。

图1 CFAR算法的检测流程框图

CFAR算法需要预先确定背景杂波分布的统计模型，由于传统双参数CFAR与基于K分布的CFAR检测算法在处理宽幅图像时，对所有滑窗内的杂波都使用同一种统计模型，这种处理方式容易导致统计模型在不适应区失配。针对这个问题，林旭等[2]提出了一种基于自适应背景杂波模型的CFAR宽幅SAR图像舰船检测算法。通过背景窗口的多尺度统计方差判断目标所处的杂波环境，自适应选择对应的背景杂波分布模型。

导致CFAR检测效果差的另一原因是算法没有充分利用图像中的特征信息，仅仅利用了图像灰度的统计分布特征。Huang Y[3]提出了一种结合目标语义特征的CFAR算法，在检测高分辨率SAR图像目标时具有更低的虚警率。艾加秋[4-5]利用SAR图像目标内部相邻像素的强相关性特征，提出了基于灰度相关性的联合CFAR的检测算法。曲岳晗[6]利用似物性判断方法，使用二值化赋范梯度特征来提取CFAR检测窗口。

CFAR算法容易实现，计算量相对较小，在简单背景杂波下具有较好的检测效果。但是算法只考虑灰度对比度，忽略了目标的结构信息，鲁棒性与抗干扰能力差，在复杂背景杂波下检测性能较差。

1.2 基于图像纹理特征的检测算法

纹理是一种反映图像中同质现象的视觉特征，通常可分为四类：统计型纹理特征(如灰度共生矩阵、灰度—梯度共生矩阵)，模型型纹理特征(如分形模型、随机场模型)，信号处理型纹理特征(如小波变换)，结构型纹理特征(如局部二值模式)。

目前在SAR图像目标检测的研究中，分形特征的应用最为广泛。L M Kaplan[7]利用扩展分形(Extended Fractal，EF)特征检测SAR图像中的车辆目标，该特征不仅对目标背景的对比度敏感，同时也对目标尺寸敏感，与CFAR算法相比，降低了检测虚警率。D Charalampidis[8-9]提出了小波分形(Wavelet Fractal，WF)特征，可以有效地对图像中的不同纹理进行分割与分类。刘冬等[10]利用指数小波分形特征检测SAR图像目标，该方法对目标对比度和尺寸敏感，且考虑了目标边缘特征与区域内部平滑性特征。袁湛等[11]提出了改进扩展分形特征，在强杂波、多目标环境下具有更好的检测性能。

相比于CFAR检测算法，基于纹理特征的算法利用了更多的图像信息，具有更高的检测精度。但是纹理特征需要人工设计提取，设计过程复杂耗时，难以保证检测的时效性。

2 基于卷积神经网络的检测算法

近年来，随着深度学习方法的迅速发展，深度学习模型开始应用于图像检测任务。

深度学习方法的突出优势在于：① 可以实现对高层特征的主动提取，避免了人工选取特征的复杂工作；② 利用深层的网络结构逐层进行非线性变换，对复杂函数有良好的逼近效果，具有较高的分类准确度；③ 在训练数据集较为完善的情况下，深度学习方法具有较强的鲁棒性和泛化性，能够适应复杂多变的应用环境。

卷积神经网络(convolutional neural network，CNN)是一种针对二维图像数据特征提取而设计的深度学习模型，通过多个卷积层拟合复杂函数，每个卷积层的特征都由前一层的局部特征通过共享的权重得到，有效地减少了网络的参数个数，缓解了模型的过拟合问题，是目标检测、识别等图像处理领域广泛采用的深度学习模型。

2.1 基于CNN的目标检测框架

基于CNN的图像目标检测框架主要有两类，分别是基于候选区域的目标检测框架和基于回归的目标检测框架。

2.1.1基于候选区域的目标检测算法

如图2所示，基于候选区域的目标检测框架先通过算法产生目标候选框，再对候选框内的区域做目标分类与边框回归，由于需要分为两阶段进行检测，因此也称为双阶段(two-stage)检测算法。此类算法的特点是检测精度高，但速度较慢，代表性算法有R-CNN[12]、SPP-net[13]、Fast R-CNN[14]、Faster R-CNN[15]、R-FCN[16]等。

图2 双阶段算法的检测框架示意图

R-CNN算法通过selective search从输入图像中提取约2 000个候选区域，并将每个候选区域缩放为固定大小送入CNN网络进行特征提取，然后将得到的特征向量用线性SVM分类器预测出候选区域中所含每个类别的概率值。最后为了提升定位的准确性，采用边界框回归(bounding box regression)对预测边框进行调整。

SPP-net在产生候选区域之后将整张图片送入CNN网络，再将候选区域映射到特征图得到对应的特征区域，从而避免了R-CNN中对每个候选区域单独提取特征。在卷积层和全连接层之间加入空间金字塔池化(Spatial Pyramid Pooling，SPP)结构用于将不同大小的特征区域转换为固定维度的特征向量，代替了R-CNN算法在输入卷积神经网络前对各个候选区域进行剪裁、缩放操作，使其图像子块尺寸一致的做法，避免了因此产生的目标变形。

Fast R-CNN借鉴了SPP-net的思想，对于每个候选区域，使用感兴趣区域池化(ROI pooling)层来从CNN特征图中提取固定长度的特征向量，通过全连接层之后，特征向量进入2个输出层，分别进行分类和边界框回归。

Faster R-CNN采用RPN (Region Proposal Network)直接产生候选区域，取代了R-CNN以及Fast R-CNN中选择性搜索(selective search)过程，提高了检测速度。产生的候选区域送入Fast R-CNN网络进行分类以及边界框回归。

R-FCN将Faster R-CNN最后的全连接层换成了位置敏感的卷积网络，从而让所有计算可以共享。

2.1.2基于回归的目标检测算法

基于回归的目标检测框架将检测任务作为回归问题，无需产生先验框，直接利用神经网络进行端到端的检测，因此也称为单阶段(one-stage)检测算法。此类算法的特点是速度很快，同时具有较高的检测精度。其代表算法有YOLO[17-19]、SSD[20]、Retina-net[21]、RFB-net[22]等。

YOLO[17]算法将图像缩放为固定大小并划分为S×S的网格，每个网格预测B个边界框以及边界框置信度。YOLOv2[18]采用锚框(anchor boxes)进行边界框预测，并通过K-means聚类对锚框进行初始化。YOLOv3[19]通过引入特征金字塔网络(feature pyramid networks，FPN)，将不同分辨率和不同语义强度的特征进行融合，解决了多尺度目标检测的问题。

SSD算法结合Faster R-CNN的锚框机制和YOLO的回归思想进行目标检测，相比于早期版本的YOLO，提高了定位精度与分类精度。

Retina-net算法提出了聚焦损失(focal loss)函数，解决了训练过程中正负样本类别不平衡的问题，这也是制约单阶段算法检测效果的核心问题。

RFB-net算法在SSD网络中引入感受野模块(receptive field block，RFB)，通过模拟人类视觉的感受野，加强网络的特征提取能力。相比于SSD算法具有更高的检测精度。

2.1.3主要检测算法的性能对比

各主要算法的性能参数如表1所示。从表1可以看出，双阶段检测算法的检测精度普遍较高，但检测速度很慢；单阶段算法的检测速度较快，且检测精度接近双阶段算法，实时性强，效率高。

表1 主要目标检测算法的检测性能参数

2.2 CNN在SAR图像目标检测中的应用

SAR图像与光学图像相比，在包含信息、分辨率、成像机制方面都有较大区别：① 从包含信息方面来看，光学图像通常含有多个颜色通道的灰度信息，而SAR图像只记录单一波段的回波信息，以二进制复数形式记录下来，但基于每个像素的复数数据可变换提取相应的振幅和相位信息；② 从分辨率方面看，SAR图像的分辨率相对较低，由于存在斑点噪声，信噪比也较低；③ 从成像机制方面看，光学图像采用中心投影或推帚式扫描的方式进行成像，而SAR的成像方式是主动发射与接收电磁波，成像几何为斜距投影，会产生叠掩、透视收缩、多路径假目标等几何畸变，目标特征具有姿态敏感性。上述的差异性为SAR图像目标检测带来了新的难题。

将CNN应用于SAR图像目标检测中，目前的研究主要集中在以下几个方面：① 在复杂场景下检测目标，降低虚警率；② 多尺度小目标检测；③ 小样本学习的方法；④ 结合传统算法提高算法检测性能。

下面介绍CNN应用于SAR图像目标检测的研究进展。

2.2.1复杂场景下的目标检测

在复杂背景环境下，由于训练数据不足或者网络提取特征的性能不强，背景杂波中可能存在与目标相似的特征，导致网络误检。

目标周围的背景通常可以提供有用的上下文信息，例如检测海面航行的舰船，若周围背景为海杂波，则目标为舰船的可能性较大，若周围背景为陆地，则可将待检测目标排除。文献[23]提出了结合上下文的检测方法检测SAR图像舰船目标，利用目标周围的背景信息提高检测结果的可靠性，减少了虚警。

目标检测网络在给出最终的边界框和分类分数之后，得分高于阈值的边界框被直接视为目标。但对于复杂场景下的目标检测，基于该准则的检测结果往往存在较多的错误。文献[24]使用最大稳定极值区域(maximum stability extremal region，MSER)准则进一步约束目标区域的判定。目标得分需要高于检测阈值的条件下，只有目标区域为稳定的高灰度值，区域面积与长宽比符合条件时，才能最终判定为目标。

由于目前基于神经网络的图像检测任务通常采用矩形框来标记目标位置，这种方式在框选目标时通常也会将一部分背景杂波引入，这样提取的目标特征与背景特征的差异就会弱化，导致检测性能下降。文献[25]用DRBox-v2(一种旋转边界框)取代传统矩形框标记目标，使得标记选框可以适应不同的目标朝向。这种标记方法在框选目标时几乎不会引入背景杂波，提高了网络在复杂环境下的检测效果。文献[26]将目标检测任务转化为像素分类问题，利用全卷积神经网络(fully convolutional neural network，FCN)对图像进行像素级的分类，有效避免了背景杂波的干扰，降低了虚警率。同时提出目标及阴影区域联合检测的方法，提高了检测率。文献[27]认为简单样本与困难样本的不平衡是复杂背景下检测效果较差的主要原因。因此，文献[27]借鉴了focal loss[21]的思想，使用新的二分类损失函数，解决简单样本与困难样本的不平衡问题，使训练出的模型更好地区分目标与复杂背景。

2.2.2多尺度条件下小目标的检测

在目标检测中，由于分辨率较低或者自身真实尺寸较小，可能会出现目标在图像中所占像素较少而导致漏检的情况，这一类目标通常称为“小目标”。

小目标在检测中易漏检的原因在于：① 目标图像的像素过少，网络难以提取特征；② 为了分类准确，检测网络利用高层特征生成区域与分类得分，而小目标在高层网络中特征图较小，丧失了较多信息。

目前的研究中，大多采用多尺度特征融合的方法解决小目标在高层特征中信息丢失的问题。由于低层特征具有较多的位置信息，适合小目标的检测，因此将底层特征与高层特征进行融合，既能充分利用高层特征的语义信息，也能利用低层特征的位置信息，从而使得检测网络具有多尺度检测的能力。多尺度特征融合的两种方法如图3所示。

图3 多尺度特征融合的两种方法示意图

特征金字塔网络(feature pyramid networks，FPN) 是具有代表性的一种多尺度特征融合方法，如图3(a)所示，FPN的方法自顶向下，将高层特征上采样与低层特征进行融合，再在不同尺度上分别预测结果。文献[28-30]都采用了FPN的特征融合方式，提高了对小目标的检测能力。文献[31]采用了另一种融合方法，如图3(b)所示，在各层特征之间采用密集连接的方式进行融合，相比于FPN的非密集连接方式，漏警率明显降低。文献[32]采用一种改进的高分辨率特征金字塔网络(HRFPN)，充分利用高分辨率和低分辨率卷积的特征图来进行SAR图像舰船检测，其不仅可并行连接高至低分辨率子网，还可以保持图像高分辨率。

文献[29]不仅对多尺度特征进行了融合，还在损失函数中引入了目标尺寸的平衡项，使小目标具有更低的损失函数值，从而更容易被检测到。

在检测网络中，较多的下采样次数会减小特征图分辨率，这对小目标的检测是不利的。因此文献[33]在网络设计中仅采用2次下采样操作，保证了输出特征图的高分辨率。但是减少下采样操作会引起特征的感受野变小的问题，因此在网络中加入空洞卷积，扩大特征感受野。

文献[34]基于inception模块和空洞卷积扩大感受野的原理，在网络中加入了浅层特征增强结构，增强了模型对小尺寸目标的适应能力。

2.2.3小样本学习方法

深度学习方法需要大量训练数据作为驱动，训练数据集是否完备直接影响训练出的模型的泛化能力，而收集数据、制作标签的过程则需要消耗大量的人力物力。因此如何充分利用有限的样本训练出较好的模型是值得研究的问题。

文献[35]采用迁移学习中微调(fine-tuning)的方法，不仅调整预训练网络模型以适应数据集，而且通过反向传播调整网络参数。文献[36]利用了迁移学习的思想解决SAR目标分类问题中各类别数据不平衡的问题。采用批内平衡采样和模型微调两阶段的迁移学习，提高了少数类目标的识别精度。

通过数据增强扩充数据集，可以一定程度上提高模型的泛化性。文献[29，37-39]均通过平移、旋转、加噪等方式进行数据增强。但由于SAR图像具有姿态敏感性，简单地对图像进行旋转变换并不能反映目标姿态角的变化特征。文献[40]利用区域生长算法对切片数据进行图像分割，并按照一定分布规律替换目标背景中的部分像素点，扩充的图像背景具有多样性，但没有引入新的目标图像。

生成式对抗网络(generative adversarial network，GAN)是另一种扩充数据集的有效手段，其网络结构如图4所示，在训练过程中，生成网络的目标是尽量生成真实的图像去欺骗判别网络，而判别网络的目标就是尽量把生成的图像与真实图像区分开来，这样就构成了一个动态的博弈过程。相比于传统方法，利用GAN扩充数据能够更好地模拟真实数据的分布特征。文献[41]使用WGAN (wasserstain GAN)对MSTAR数据集进行扩充，并利用扩充后的数据集训练识别网络。实验结果将识别的准确率从79%提升到91.6%，证明了这种数据扩充方法的有效性。文献[42]基于GAN与空间变换网络(STN)的思想引入了对抗空间变换网络，同时在随机梯度下降过程中引入线上难例挖掘(OHEM)。对抗空间变换网络在特征图上产生新的训练样本，并且能够适应目标各种角度变化和尺度变换。在网络后向传播过程中引入OHEM技术，能够自动选择损失函数较大的难例样本进行回传梯度，使检测器能够更充分地利用难例样本。

图4 生成式对抗网络的模型结构框图

对SAR图像进行切片标记需要耗费大量人力，文献[43]利用少数切片级标记的样本和多数图像级标记的样本，提出了一种半监督学习的训练方法。图像级标记的样本仅需标记图像中是否含有目标，能够减少图像标注所需的时间人力。实验表明，该方法的性能与全监督方法的性能相差不大。

2.2.4CNN与传统算法的结合

作为最早出现的SAR图像检测算法，CFAR检测算法发展成熟，且计算量相比于深度学习方法较少，文献[38]利用CFAR提取ROI对图像区域进行预筛选，再利用CNN对筛选出的区域进行精细检测，提高了检测精度和效率。文献[39]利用范数梯度图(norm gradient map)提取图像显著区域，再利用CNN进一步对区域内目标定位。

人工提取的特征可以作为CNN特征图的补充，将两种特征进行融合，可以提高检测模型的可靠性。文献[44]通过支持向量机(SVM)融合了SAR图像目标电磁特征和几何特征，最后与卷积神经网络的特征图进行融合，实验表明了该方法的有效性和可行性。文献[45]提出了联合使用强度和边缘信息的目标识别框架，分别从强度图像与梯度幅值图像中提取两类特征，并将两种特征进行融合，同时保持对应的空间关系。此方法对于小数据集高分辨率SAR图像的检测效果较好，尤其在复杂场景下，也有较好的性能。

3 下一步的研究方向

结合研究现状，对CNN在SAR图像目标检测算法研究的发展方向进行展望：

1) 复杂背景下的干扰以及不同分辨率、入射角等参数的影响，都对模型的泛化性提出了更高的要求，目前检测算法的精度仍然难以达到实际应用的需求。针对检测任务特点进一步改进网络结构与训练策略，将有助于提高算法的鲁棒性与检测精度。

2) 目前研究的CNN检测框架是一种有监督学习的方式，需要制作训练数据标签，通常耗费较多时间和人力。随着深度学习技术的不断发展，可以将卷积神经网络应用到强化学习、无监督学习、生成对抗模型等学习模型中，减少对标签数据的依赖。

3) 由于深度学习方法需要大量的训练数据作为驱动，目前用于目标检测的公开数据集有SSDD[46]、OpenSAR[47]、Air-SARShip[48]等，但未来对检测算法的深入研究仍需要大量数据作为研究支撑。生成式对抗网络作为一种生成模型，具有很强的数据扩充能力，研究基于生成式对抗网络的数据增强方法，能够提高数据集的完备性，使模型具有更好的泛化性。

4) 传统的检测算法可以作为深度学习方法的补充，综合利用人工提取的特征以及网络自动提取的特征有助于更准确地检测目标，多种算法的融合将为SAR图像目标检测提供更多的渠道。

4 结论

深度学习方法在SAR图像目标检测领域的应用具有巨大的价值和潜力。本文在对SAR图像目标检测方法综述基础上，结合了基于卷积神经网络的目标检测方法的应用，为下一步的研究指明了方向。卷积神经网络方法为SAR图像的特征提取提供了自动化、智能化途径，随着对深度学习方法的研究更加深入，SAR图像目标检测技术也将取得更大的突破。