基于改进SSD 框架的遥感影像飞机目标检测方法*

2021-02-03张怀念

火力与指挥控制 2021年1期

王冰，周焰，张怀念，赵凯

（空军预警学院预警情报系，武汉 430019）

0 引言

遥感影像飞机目标检测能够通过获取地面飞机动态信息，为后续的空中目标识别提供情报，在军事与民用领域有广泛应用。近年来，深度学习依靠强大的自动提取特征能力，成为处理飞机目标检测问题的重要途径。文献［1-3］基于深度卷积神经网络完成图像特征的自动提取与目标检测，能够较为准确地检测到飞机目标。

目前基于深度学习的飞机目标检测方法主要有两类。第1 类方法的代表为Faster R-CNN［4］、SPP-Net［5］等，这类方法的检测精度较高，但必须将候选框输入CNN 中再检测，导致检测速度较慢。第2 类方法的代表为YOLO［6］（You Only Look Once）、单一目标多尺度检测框架［7］（Single Shot MultiBox Detector，SSD）等，它的思想是利用深度卷积神经网络提取图像特征后，将特征图均匀分割成网格，在网格上使用候选框检测目标。由于减少了输入候选框到CNN 中再检测的环节，SSD 方法的检测速度相对较高，是飞机目标检测的首选框架，但存在的问题是对不同目标的特征提取无差异，未针对飞机目标的特征与尺寸设计网络。

针对以上的问题，设计并构建了飞机目标Inception 网络（AFInceptionNet）以及飞机目标候选框生成网络（Aircraft Target Region Proposal Network，AFRPN）。用以上网络改进SSD 检测框架，提出了AFSSD 飞机目标检测方法。

1 SSD 检测框架

SSD 检测框架是一种可以一次检测多个目标的检测模型，主要由特征提取网络、候选框生成网络这两部分组成。在模型的训练与检测时，将图像输入到模型中，特征提取网络提取图像的特征图并传递给候选框生成网络，后者直接在特征图上完成候选框的训练与检测，舍弃了再将候选框输入到CNN中训练与检测的过程。所以SSD 框架大大提升了检测的速度。

SSD 框架获取大于IOU 阈值的候选框，通过非极大值抑制，得到可信度分数最高的候选框作为检测结果。

在训练阶段，需依据交并比与人工标注的真值框进行匹配，并将候选框划分为正样本与负样本两类，为训练检测框架做准备。匹配过程包括3 个阶段：1）依次判断与每个真值框具有最大交并比的候选框，即是否大于SSD 检测框架所设定的IOU 阈值。若满足此判断条件，则划分到正样本类别中，并将其与该真值框匹配；2）将阶段1）中未匹配的候选框，通过阶段1）的再次筛选，直到剩余的候选框全部小于IOU 阈值；3）将未匹配的候选框划分到负样本的类别中。

在得到正、负样本后，SSD 检测框架依据最小化损失函数的原则，训练候选框。在综合了可信度分数损失函数与候选框位置的损失函数后，总损失函数为：

图1 SSD 检测框架的结构

2 AFSSD 检测方法

2.1 检测方法的结构

图2 AFSSD 检测方法的结构示意图

2.2 飞机目标特征提取网络

视觉模式是计算机视觉领域中图像所表达的场景或者具体对象，不同的卷积神经网络的特征图对应不同的视觉模式。本文将梯度下降应用于卷积神经网络（CNN）输入图像的值，然后利用VGG16［8］与InceptionV3 网络［9］对卷积神经网络的过滤器进行可视化［10］，得到使卷积层特征图具有最大响应的视觉模式。

图3 使卷积神经网络不同卷积层的特征图得到最大响应的视觉模式

图3 给出了使不同卷积层的特征图得到最大响应的视觉模式。分析图3 可以看出：CNN 的1-4层卷积层对应颜色特征、简单的边缘纹理特征，如自然图像中的条纹、波浪、斑点、裂痕等；紧随连接LeNet-5 结构的卷积层对应的是眼睛、羽毛、鳞片、树枝、叶片、稻田、耕地等特征；在之后连接Inception结构对应的是具有对称性的目标，且目标周围是与其形成反差的背景，如地面、机场跑道等。

虽然飞机目标的外形轮廓较为复杂，但组成飞机的各个部分的几何特点较为简单。飞机以机身为对称轴，左右两翼对称地分布于机身两侧，具有较好的对称性。

依据CNN 卷积层特征图具有最大响应的视觉模式以及飞机目标的几何特征，设计AFInception-Net 飞机目标特征提取网络，专门提取遥感影像中飞机目标的特征。该AFInceptionNet 网络由C1～C3层、C4～C6 层、P1～P2 层和5 个Inception 层I1～I5 组成。其中，C1～C3、C4～C6 层主要提取机场场景中的颜色与纹理特征，P1～P2 层起到降维的作用，I1～I5层用来提取在机场的多种边缘、纹理特征中具有对称性的飞机目标的特征。AFInceptionNet 网络的结构及具体参数如下页图4 所示，参数为该层特征图的长、宽、通道数。

2.3 飞机目标候选框生成网络

首先基于K-均值方法［11］对飞机尺寸聚类，将得到的聚类中心作为代表性的飞机尺寸，然后优化SSD 检测框架中候选框长宽比的设定，并将代表性的飞机尺寸作为优化后的候选框，建立AFRPN 飞机目标候选框生成网络。

图4 AFInceptionNet 网络的结构

2.3.1 K-均值对飞机尺寸聚类

图5 原始飞机目标尺寸分布

图6 K-均值聚类后飞机目标尺寸分布

表1 具有代表性的飞机目标尺寸与比例

2.3.2 优化候选框

图7、图8 分别给出了真值框与AFRPN 候选框生成网络生成候选框的过程。如图8 所示，在训练与检测阶段，AFRPN 在图像上遍历地产生5 种候选框，实现对不同尺寸飞机目标的有效检测。

图7 标注了真值框的飞机目标

图8 生成不同尺寸候选框的示意图

3 仿真实验

实验选取了DOTA 数据集［12］与NWPU VHR-10数据集［13］中包含飞机的影像，经过裁剪与旋转后构建了用于训练的飞机目标检测数据集。数据集共包含遥感影像1 000 张、飞机对象2 967 个。RSODDataset 数据集［14］作为测试数据。训练和测试所用的硬件为NVIDIA GEFORCE GTX 1 050 GPU，内存为12.0 GB，深度学习框架为TensorFlow。训练的优化方式为随机梯度下降法，学习率为0.004，动量为0.95，权值衰减为0.000 04，每次处理2 幅影像，最大迭代次数为10 000 次。

为考察AFSSD 的检测性能，设被正确分类的飞机目标为TP，未被正确分类的飞机目标为FP，被误分为飞机目标的背景为FN，被正确分类的背景为TN。则召回率与准确率之间关系的计算公式为

图9、图10 给出运用AFSSD 与其他4 种检测方法得到的“准确率-召回率”曲线、“虚警率-召回率”曲线。由图9、图10 可知，在相同的召回率的条件下，AFSSD 飞机检测方法具有更高准确率以及更低的虚警率。

图9 5 种检测方法的“准确率-召回率”曲线

图10 5 种检测方法的“虚警率-召回率”曲线

表2 候选框设计对检测精度的影响

4 结论

为了解决SSD 检测框架对不同目标的特征提取无差异的问题，本文首先基于使卷积神经网络的特征图得到最大响应的视觉模式，结合遥感影像中飞机目标的几何特征，建立了AFInceptionNet 飞机目标特征提取网络；然后使用K-均值方法对飞机尺寸聚类，将聚类中心作为代表性的飞机目标尺寸，构建了AFRPN 飞机目标候候选框生成网络；用AFInceptionNet 与AFRPN 改进SSD 检测框架，提出了AFSSD 飞机目标检测方法。针对该方法的检测性能开展对比实验，仿真结果表明，该候选框生成网络能够有效检测不同尺寸的飞机目标；该检测方法可以准确地检测出遥感影像中的飞机目标，并且相比于SSD 检测框架提高了检测精度，为下一步的飞机目标类型识别提供了解决思路。