基于改进SSD 框架的遥感影像飞机目标检测方法*
2021-02-03张怀念
王 冰,周 焰,张怀念,赵 凯
(空军预警学院预警情报系,武汉 430019)
0 引言
遥感影像飞机目标检测能够通过获取地面飞机动态信息,为后续的空中目标识别提供情报,在军事与民用领域有广泛应用。近年来,深度学习依靠强大的自动提取特征能力,成为处理飞机目标检测问题的重要途径。文献[1-3]基于深度卷积神经网络完成图像特征的自动提取与目标检测,能够较为准确地检测到飞机目标。
目前基于深度学习的飞机目标检测方法主要有两类。第1 类方法的代表为Faster R-CNN[4]、SPP-Net[5]等,这类方法的检测精度较高,但必须将候选框输入CNN 中再检测,导致检测速度较慢。第2 类方法的代表为YOLO[6](You Only Look Once)、单一目标多尺度检测框架[7](Single Shot MultiBox Detector,SSD)等,它的思想是利用深度卷积神经网络提取图像特征后,将特征图均匀分割成网格,在网格上使用候选框检测目标。由于减少了输入候选框到CNN 中再检测的环节,SSD 方法的检测速度相对较高,是飞机目标检测的首选框架,但存在的问题是对不同目标的特征提取无差异,未针对飞机目标的特征与尺寸设计网络。
针对以上的问题,设计并构建了飞机目标Inception 网络(AFInceptionNet)以及飞机目标候选框生成网络(Aircraft Target Region Proposal Network,AFRPN)。用以上网络改进SSD 检测框架,提出了AFSSD 飞机目标检测方法。
1 SSD 检测框架
SSD 检测框架是一种可以一次检测多个目标的检测模型,主要由特征提取网络、候选框生成网络这两部分组成。在模型的训练与检测时,将图像输入到模型中,特征提取网络提取图像的特征图并传递给候选框生成网络,后者直接在特征图上完成候选框的训练与检测,舍弃了再将候选框输入到CNN中训练与检测的过程。所以SSD 框架大大提升了检测的速度。
SSD 框架获取大于IOU 阈值的候选框,通过非极大值抑制,得到可信度分数最高的候选框作为检测结果。
在训练阶段,需依据交并比与人工标注的真值框进行匹配,并将候选框划分为正样本与负样本两类,为训练检测框架做准备。匹配过程包括3 个阶段:1)依次判断与每个真值框具有最大交并比的候选框,即是否大于SSD 检测框架所设定的IOU 阈值。若满足此判断条件,则划分到正样本类别中,并将其与该真值框匹配;2)将阶段1)中未匹配的候选框,通过阶段1)的再次筛选,直到剩余的候选框全部小于IOU 阈值;3)将未匹配的候选框划分到负样本的类别中。
在得到正、负样本后,SSD 检测框架依据最小化损失函数的原则,训练候选框。在综合了可信度分数损失函数与候选框位置的损失函数后,总损失函数为:
图1 SSD 检测框架的结构
2 AFSSD 检测方法
2.1 检测方法的结构
图2 AFSSD 检测方法的结构示意图
2.2 飞机目标特征提取网络
视觉模式是计算机视觉领域中图像所表达的场景或者具体对象,不同的卷积神经网络的特征图对应不同的视觉模式。本文将梯度下降应用于卷积神经网络(CNN)输入图像的值,然后利用VGG16[8]与InceptionV3 网络[9]对卷积神经网络的过滤器进行可视化[10],得到使卷积层特征图具有最大响应的视觉模式。
图3 使卷积神经网络不同卷积层的特征图得到最大响应的视觉模式
图3 给出了使不同卷积层的特征图得到最大响应的视觉模式。分析图3 可以看出:CNN 的1-4层卷积层对应颜色特征、简单的边缘纹理特征,如自然图像中的条纹、波浪、斑点、裂痕等;紧随连接LeNet-5 结构的卷积层对应的是眼睛、羽毛、鳞片、树枝、叶片、稻田、耕地等特征;在之后连接Inception结构对应的是具有对称性的目标,且目标周围是与其形成反差的背景,如地面、机场跑道等。
虽然飞机目标的外形轮廓较为复杂,但组成飞机的各个部分的几何特点较为简单。飞机以机身为对称轴,左右两翼对称地分布于机身两侧,具有较好的对称性。
依据CNN 卷积层特征图具有最大响应的视觉模式以及飞机目标的几何特征,设计AFInception-Net 飞机目标特征提取网络,专门提取遥感影像中飞机目标的特征。该AFInceptionNet 网络由C1~C3层、C4~C6 层、P1~P2 层和5 个Inception 层I1~I5 组成。其中,C1~C3、C4~C6 层主要提取机场场景中的颜色与纹理特征,P1~P2 层起到降维的作用,I1~I5层用来提取在机场的多种边缘、纹理特征中具有对称性的飞机目标的特征。AFInceptionNet 网络的结构及具体参数如下页图4 所示,参数为该层特征图的长、宽、通道数。
2.3 飞机目标候选框生成网络
首先基于K-均值方法[11]对飞机尺寸聚类,将得到的聚类中心作为代表性的飞机尺寸,然后优化SSD 检测框架中候选框长宽比的设定,并将代表性的飞机尺寸作为优化后的候选框,建立AFRPN 飞机目标候选框生成网络。
图4 AFInceptionNet 网络的结构
2.3.1 K-均值对飞机尺寸聚类
图5 原始飞机目标尺寸分布
图6 K-均值聚类后飞机目标尺寸分布
表1 具有代表性的飞机目标尺寸与比例
2.3.2 优化候选框
图7、图8 分别给出了真值框与AFRPN 候选框生成网络生成候选框的过程。如图8 所示,在训练与检测阶段,AFRPN 在图像上遍历地产生5 种候选框,实现对不同尺寸飞机目标的有效检测。
图7 标注了真值框的飞机目标
图8 生成不同尺寸候选框的示意图
3 仿真实验
实验选取了DOTA 数据集[12]与NWPU VHR-10数据集[13]中包含飞机的影像,经过裁剪与旋转后构建了用于训练的飞机目标检测数据集。数据集共包含遥感影像1 000 张、飞机对象2 967 个。RSODDataset 数据集[14]作为测试数据。训练和测试所用的硬件为NVIDIA GEFORCE GTX 1 050 GPU,内存为12.0 GB,深度学习框架为TensorFlow。训练的优化方式为随机梯度下降法,学习率为0.004,动量为0.95,权值衰减为0.000 04,每次处理2 幅影像,最大迭代次数为10 000 次。
为考察AFSSD 的检测性能,设被正确分类的飞机目标为TP,未被正确分类的飞机目标为FP,被误分为飞机目标的背景为FN,被正确分类的背景为TN。则召回率与准确率之间关系的计算公式为
图9、图10 给出运用AFSSD 与其他4 种检测方法得到的“准确率-召回率”曲线、“虚警率-召回率”曲线。由图9、图10 可知,在相同的召回率的条件下,AFSSD 飞机检测方法具有更高准确率以及更低的虚警率。
图9 5 种检测方法的“准确率-召回率”曲线
图10 5 种检测方法的“虚警率-召回率”曲线
表2 候选框设计对检测精度的影响
4 结论
为了解决SSD 检测框架对不同目标的特征提取无差异的问题,本文首先基于使卷积神经网络的特征图得到最大响应的视觉模式,结合遥感影像中飞机目标的几何特征,建立了AFInceptionNet 飞机目标特征提取网络;然后使用K-均值方法对飞机尺寸聚类,将聚类中心作为代表性的飞机目标尺寸,构建了AFRPN 飞机目标候候选框生成网络;用AFInceptionNet 与AFRPN 改进SSD 检测框架,提出了AFSSD 飞机目标检测方法。针对该方法的检测性能开展对比实验,仿真结果表明,该候选框生成网络能够有效检测不同尺寸的飞机目标;该检测方法可以准确地检测出遥感影像中的飞机目标,并且相比于SSD 检测框架提高了检测精度,为下一步的飞机目标类型识别提供了解决思路。
图11 5 种检测方法的检测结果