基于深度学习的SAR 图像目标检测实验*

2019-11-19林志龙王长龙胡永江

火力与指挥控制 2019年10期

林志龙，王长龙，胡永江

（陆军工程大学无人机工程系，石家庄 050003）

0 引言

合成孔径雷达（Synthetic Aperture Radar，SAR）可以提供全天候对地观测的高分辨率的图像，广泛用于环境监测、地球资源测绘和军事系统。随着SAR 图像数据源的增加，人工解译无法满足实时性的要求［1］。并且SAR 图像会因为目标姿态、俯仰角度、周围环境的微小变化而发生较大的变化，人工解译的准确率无法保证。所以，迫切需要发展SAR图像的自动目标检测。

对于SAR 图像目标检测，已经发展了许多针对SAR 图像特点的目标检测方法，主要可以分为以下3 类：第1，基于统计模型的恒虚警率（Constant False-Alarm Rate，CFAR）目标检测算法［2-5］，这类算法简单快速、实时性较强，但是要求已知背景杂波模型的分布。第2，基于图像特征的目标检测算法，图像特征可以是人为设计的特征，如扩展分形特征［6］、SIFT［7-8］等，也可以是通过算法学习得到，如神经网络［9-10］、稀疏表示［11-12］等。第3，基于相干性的目标检测法［13］，这类算法利用SAR 相干成像系统的特点，但是相干图的获取较为复杂。目前SAR 图像目标检测亟待解决的问题主要有两个：第1，检测算法的虚警率和漏警率都比较高。第2，只能对单一的目标进行检测，无法进一步区分目标的类别。

近几年来，基于深度学习的目标检测算法在光学图像和视频的检测领域中表现出了优异的性能。基于深度学习的目标检测算法主要分为两类，一类是以Faster-RCNN［14］为代表的区域建议的目标检测框架；另一类是以SSD［15］为代表的将目标检测问题转化为回归问题的目标检测框架。将基于深度学习的目标检测框架用于SAR 图像的目标检测对于提高SAR 图像目标检测的精度和实现多种目标检测具有重要的意义。

本文首先比较了基于区域建议的目标检测框架Faster-RCNN 和无需区域建议的目标检测框架SSD 对SAR 图像的目标检测精度和速度；然后通过实验说明预训练模型对于目标检测框架的影响；最后研究了零均值规整化目标提升检测性能。

1 基于深度学习的目标检测框架

1.1 Faster-RCNN 目标检测框架

为了进一步提高目标检测算法的速度和精度，Ren Shaoqing 等在R-CNN 和Fast RCNN 的基础上提出了Faster-RCNN 目标检测框架，将基于区域建议的目标检测的4 个基本步骤（候选区域生成、特征提取、分类和Bounding Box 回归）统一到一个深度网络框架之内。相较于Fast R-CNN，Faster-RCNN的准确率略有提高，但是检测速度却提高了10 倍。Faster-RCNN 目标检测网络结构如图1 所示。

Faster-RCNN 候选区域的生成使用了区域生成网络（Region Proposal Network，RPN）代替了之前Fast R-CNN 的选择性搜索（Selective Search，SS）。创造性地采用RPN 产生建议区域，并且和目标检测网络共享卷积网络，使得Faster-RCNN 的候选区域由Fast R-CNN 的2 000 个减少至300 个，并且候选区域的质量也有着本质的提高。其具体算法流程如下：

步骤1 输入图像通过共享卷积层，得到共享的特征图。

步骤2 将共享特征图分别输入到RPN 网络和特有卷积层。

步骤3 共享特征图通过RPN 网络产生区域位置和该区域分属于前景和背景的概率，并且对概率采用非极大值抑制，将概率最高的300 个区域位置建议给RoI 池化层。

步骤4 共享卷积层通过特有卷积层得到更高维的特征图后输入RoI 池化层。

步骤5 RoI 池化层结合步骤3 生成的建议区域和步骤4 生成的高维特征图，提取对应建议区域的高维特征。

步骤6 将提取的高维特征送入全连接层，最后输出该区域的目标分类以及回归后的边界框位置。

图1 Faster-RCNN 框架示意图

1.2 SSD 目标检测框架

无需区域建议的深度学习目标检测框架主要代表有YOLO［16］和SSD，这些方法将目标分类和边界框回归合二为一，所以检测速度得到了较大的提升。为了克服YOLO 精度低的问题，Liu Wei 提出Single Shot Detector（SSD）目标检测框架，实现了实时的目标检测。相较于Faster-RCNN，精度相当，而速度提升了约6 倍。SSD 的网络结构如图2 所示。

图2 SSD 框架示意图

SSD 由两部分组成，一部分是基础网络，用来提取输入图像的特征图；另一部分是附加网络，在对基础网络所提取的特征图进行卷积提取更高级的特征的同时在不同尺度的特征图上进行目标的分类和边界框位置的回归。不同尺度的特征图上的感受也不同，有利于不同大小目标的检测。不同尺度特征图所体现目标特征不同，有利于目标的精确分类。SSD 目标检测框架的算法流程如下：

步骤1 首先使用常用的卷积神经网络结构，如VGG-16 作为基础网络来提取输入图像的特征图。

步骤2 在基础网络所提取特征图的基础上通过附加网络得到不同尺度的特征图。

步骤3 在不同尺度的特征图上逐个像素使用不同长宽比的方框进行目标位置和特征的提取。

步骤4 对所有不同尺度特征图的的每个像素位置所提取的位置信息和目标特征分别通过卷积神经网络进行边界框的回归和目标的分类。

2 针对SAR 图像的检测框架研究

2.1 预训练模型

在机器学习领域，迁移学习是指将从一个环境中学到的知识用来帮助新环境中的学习任务，也就是将已经训练好的模型参数迁移到新的数据集。目前多数的基于深度学习的目标检测框架都是用迁移学习确保网络训练的收敛或避免数据量过小而引起的过拟合。Faster-RCNN 和SSD 目标检测框架都使用在ImageNet 数据库上训练好的模型参数来初始化新的数据集上的模型参数。

但使用预训练模型也带来了一定的局限性：第1，模型的结构设计不灵活，模型结构必须要与预训练模型结构一致；第2，预训练模型是进行分类任务训练得到的模型，分类和目标检测有着不同的目标函数，这会导致与最佳检测的结果有所偏差；第3，运用领域的局限性，由于预训练模型是在光学图像上训练得到的，将其运用到SAR 图像或者医学图像无法取得理想的结果。

2.2 零均值规整化操作

图像的像素值位于0～255 之间，但是神经网络权重的初始化策略都是随机的，最常见的神经元表示为

式中，ReLU 表示的是整流线性单元（Rectified Linear Units，ReLU）激活函数，W 为权重参数，b 为偏置。

该神经元的操作是对的两侧的数据采取不同的操作方式。在二维的情况下Wx+b 简化为直线y=ax+b，高维情况下表现为超平面。假设在二维的情况下，图像只表示在第1 象限，而随机初始化的ax+b不对图像进行分割的情况下就没有意义，需要多次迭代调整才能对图像进行有效的分割。维数越高，不进行零均值规整化的图像数据所占据的数据空间区域越小，随机初始化的Wx+b 对图像数据分割的概率越小。

针对SAR 图像的特点，在MSTAR 数据库的训练集上求取了像素的均值，输入图像进行减去均值的操作后，再进行框架的训练或检测。实验结果表明减去图像均值的预处理操作有助于框架提高收敛速度和精度。

3 实验

3.1 实验设置

3.1.1 实验平台参数

计算机配置：处理器为英特尔 Xeon E5-2620v3，主频2.4 GHz，显卡为NVIDIA GeForce GTX1080Ti，显存为12 GB，系统为Ubuntu 16.04。

3.1.2 数据集的制作

实验采用美国国防研究规划局和空军研究实验室联合资助的运动和静止目标获取与识别数据库进行实验，SAR 图片大小为128×128 像素点，图像的分辨率为0.3 m×0.3 m。选取在15°和17°俯仰角下10 类目标的SAR 图像数据，共5 652 张，包含了2S1、BMP2、BRDM2、BTR60、BTR70、D7、T62、T72、ZIL131 和ZSU234。

对每张目标切片内的目标进行位置和类别的标注，随机抽取2 826 张作为训练集，其余的图像作为测试集。

3.1.3 评价指标

目标检测的评价指标主要是评价目标检测框架的检测速度和精度。检测速度由每秒可以检测的图片数来衡量目标检测框架的实时性。检测精度由平均准确率（Average Precision，AP）来衡量，平均准确率的计算公式如下。

式中，AP 就是平均准确率，P（R）是目标检测框架对某个目标的准确率-召回率曲线，P 表示准确率，R代表召回率。

3.1.4 实验过程

首先，在VGG-16 网络结构预训练模型的基础上分别使用Faster-RCNN 框架和SSD 框架，在SAR图像数据集上进行训练，对比训练的结果。其次，舍弃预训练模型，对比Faster-RCNN 框架和SSD 框架在SAR 图像数据集上进行训练结果。最后，在不使用预训练模型的基础上，研究零均值规整化对于SAR 图像目标检测结果的影响。

3.2 实验结果分析

3.2.1 Faster-RCNN 框架与SSD 框架的比较

在使用预训练模型的情况下，Faster-RCNN 和SSD 目标检测框架在MSTAR 数据库所制作的数据集上训练后的检测结果如表1 所示。

表1 Faster-RCNN 和SSD 检测精度对比

实验结果显示，Faster-RCNN 目标检测的精度要高于SSD。但是Faster-RCNN 的检测速度为16 张/s，而SSD 的检测速度为31 张/s，约为Faster-RCNN目标检测框架速度的两倍。但两者的检测精度相较于其在光学目标的检测精度都有待提高。检测效果图如图3、图4 所示。

图3 Faster-RCNN 目标检测效果图

3.2.2 预训练模型对于目标检测框架的影响

由于在光学图像上训练得到的预训练模型会限制SAR 图像目标检测的精度。在不使用预训练模型进行框架的训练时，实验结果表明基于区域建议的Faster-RCNN 目标检测框架无法收敛，SSD 目标检测框架使用预训练模型前后的检测精度见表2。

由实验可得，不使用预训练模型时，Faster-RCNN 因为RoI 池化层阻碍了梯度的反向传播而导致参数无法有效地更新，所以无法收敛。对于SSD，舍弃预训练模型可以少量提高SAR 图像目标检测的精度。舍弃预训练模型更重要的意义在于没有预训练模型的约束，扩展了目标检测框架运用领域的同时，也使得网络结构更具灵活性。

图4 SSD 目标检测效果图

表2 预训练模型对SSD 检测精度的影响

3.2.3 零均值规整化对于目标检测框架的影响

在不使用预训练模型的条件下，零均值规整化对于SAR 图像目标检测精度和速度的影响如下页表3 和图5 所示。

图5 的横坐标是迭代次数，纵坐标为目标检测框架在训练集上的损失函数的值，红色曲线表示的是零均值规整化后的损失曲线，蓝色表示的是没有零均值规整化操作的损失曲线。零均值规整化操作前后，SSD 目标检测框架都能快速收敛，通过将迭代次数0～300 次的过程放大后可以发现进行零均值规整化操作可以提高收敛速度和检测的精度。