APP下载

基于红外图像的低空无人机检测识别方法*

2020-11-11孙晓军姜雨辰

弹箭与制导学报 2020年3期
关键词:残差红外卷积

马 旗,孙晓军,张 杨,姜雨辰

(国防科技大学电子对抗学院, 合肥 230037)

0 引言

近年来,随着电子科技的发展,带动了无人机行业的兴起,并以迅猛的姿态融入了社会生活中的各个方面。与此同时,无人机也对社会安全与军事安全构成了严重威胁。例如,英媒报道2015年上半年有至少9架无人机试图越过围墙潜入监狱,并给囚犯投递药物和电子设备等。此外,无人机扰航、恐怖袭击等事件也时有发生。因此,快速准确地检测识别未知的无人机变得非常重要。由于无人机目标的热辐射特性,在红外探测器中能够较为容易的突显,因此采用成本较低的红外探测手段对低空无人机进行检测识别具有良好的应用前景。

空中无人机检测识别任务主要有如下几种方法。文献[1]提出了一种基于视频回归的无人机检测方法,利用回归器来稳定运动,并采用固定大小的立方体框来检测目标。当无人机缓慢飞行时,检测性能较好,但实际效果表现较差。之后,王靖宇等人[2]提出了一种基于神经网络的低空弱小无人机目标检测方法,对不同背景噪声下无人机能够较好地检测,但没有考虑无人机类型与检测速度。因此,对未知无人机进行快速准确地定位识别仍面临许多挑战。

随着深度学习技术的迅速发展,利用卷积神经网络训练的模型在目标检测领域具有广泛的应用,能更快更好地满足当今社会图像视频大数据的要求,并涌现出许多典型的方法,如Faster R-CNN[3]、SSD[4]以及YOLO[5]等方法。对空中的无人机进行定位识别,速度是十分重要的。而其中SSD与YOLO这两类方法在检测速度上都能达到实时的检测。

因此,根据无人机的特征及实际情况,文中提出了一种基于红外图像的低空无人机检测识别方法。该方法通过深度残差网络和预测网络构建深度卷积神经网络,再结合多尺度模型对空中不同大小的无人机进行类别的判断和目标的定位。最后利用实际采集的红外数据集对不同网络进行训练和测试,结果表明,文中方法在检测速度损失较小的情况下,检测识别性能优于其他方法。

1 检测识别方法框架

对于低空红外无人机目标,文中设计了基于深度学习的整体框架图,主要分为训练和测试两个部分。训练阶段,主要是利用监督学习的方法,将带有标签的红外无人机图像输入到深度残差网络中进行特征提取,然后将深度特征输入到预测网络中进行目标的位置回归和类型识别,经过多个周期的迭代,使得损失值不断降低至不再变化,最终得到检测识别模型。测试阶段,将未训练的无人机图片输入到模型中,重新加载训练得到的网络权重,对新的图片进行特征提取及结果预测,最终得到目标的类别、置信度及边界框信息。该方法训练测试的整体框架如图1所示。

图1 无人机目标检测识别方法框架图

2 网络结构及损失函数

2.1 网络结构

如图2所示为用于低空无人机检测识别的卷积神经网络,分为残差网络和预测网络。深度残差网络用两层残差的方式来提取红外图片中无人机目标的特征,而预测网络则采用金字塔型的多尺度模型用于无人机目标的检测识别。最后添加非极大值抑制NMS层剔除多次预测的结果,得到最终的检测识别结果。

1)残差网络。图2中第一个虚线框内表示的是残差网络的结构及参数设置。

图中主要组成为Conv块与RES BLOCK块。前者表示卷积过程,输入层以512×512×3的红外图像为例,第一层用16个大小为3×3的卷积核进行卷积操作得到512×512×16的特征图;然后将其输入到第二层,用32个大小为3×3的卷积核进行步长为2的卷积,替代池化操作。后者表示残差结构[6],主要由两层卷积(1×1卷积层和3×3卷积层)与跳跃连接构成,输出特征图大小保持不变。具体结构示意图如图3所示,跳跃连接由带加号的实线圆圈表示,其相应的公式如式(1)所示。

xl+1=xl+F(xl,Wl)

(1)

式中:xl和xl+1表示第l个残差块的输入向量与输出向量,F(xl,Wl)表示残差结构中的转换函数。

图2 残差网络与预测网络结构图

之后的网络结构由2、8、4、4和4组不同的残差块组成,并分别输出128×128×64,64×64×128,32×32×256,16×16×512与8×8×1024大小的特征图。这5组残差块都按上述结构组成,只有卷积核与特征图的大小不同。除此之外,为加速训练,在所有卷积层上添加了批归一化层[7]与leakyReLu层。

图3 残差块结构示意图

2)预测网络。预测网络采用了金子塔型的多尺度模型,利用不同尺寸大小的特征图对不同大小的无人机目标进行预测,使得结果更加准确,网络结构由图2中第二个虚线框内所示。多尺度模型结构由4种不同分辨的分支构成(8×8,16×16,32×32与64×64),每一个分支单独对一类尺度的目标进行预测。且每个分支由3层对应分辨率的卷积层构成。为了提升模型对特征的表达,对于分辨率为16×16,32×32与64×64的分支,执行2倍大小的最近邻上采样。此外,为了提升检测能力,结合上下文的语义信息,实现特征共享,将深度残差网络中对应大小的特征图与这3个分支进行连接,图中用加号表示。

在结果预测阶段,将每幅红外图像划分为4种不同大小的S×S(8,16,32与64)的单元格,每个单元预测3个大小不同的边界框,每个边界框对应3个目标类别、1个置信度及4个边界框的偏移量,对应的张量可以表示为S×S×[3×(4+1+3)]。通过NMS后,将会得到一个模型预测结果。预测结果中目标置信度的计算如式(2)所示。

(2)

2.2 损失函数

在对网络进行训练时,需要设置损失函数来进行不断的优化。随着训练周期的加深,损失值越来越小,得到的模型性能逐渐增强。文中借鉴YOLO的损失函数,采用预测张量与图像标签的误差值和均方值进行训练的优化。由于没有目标的单元格占大多数,因此设置不同的比例系数平衡有无目标存在的预测框之间差异性。同时,还引入类别判断与边界框偏移的损失系数,让含有目标的边界框损失系数具有较高的比例。具体的表达式如式(3)所示。

(3)

3 实验及结果

3.1 红外目标数据集

通常数据集多是可见光图像,红外源的数据集较少,且应用于无人机方面没有大型公开的数据集。因此文中利用红外探测器与3型民用无人机进行了红外数据集的采集与构建。

1)数据的采集。设备选择:红外探测器选择和普威视的红外安防监控设备。无人机选择常见的大疆系列无人机共3型,分别为大疆-精灵3、大疆-御PRO与大疆-S900。采集环境:考虑到安全性等因素,选择白天不同时间段的学校操场、郊区工地等开阔地进行数据采集。同时,为进一步丰富数据样本,采集了无人机飞行时的各种姿态,包括平稳飞行、急速升降、远近飞行等。最终得到5 824张红外图像。

2)数据标注及扩增。对于采集的红外图像,需要进行标注标签信息,3型无人机的标签分别为:DJ-3、DJ-Pro和DJ-S900,标注方式采用手工标注。为确保采集样本的有效性,对不完整的目标不进行标注。最终筛选出5 500张红外图像中的无人机目标,并对其进行边界框及类别信息的标注。按4∶1的比例将带有标签的数据分为训练集和测试集。

由于数据扩增有助于提升模型的检测识别性能,因此对训练数据进行随机的数据增强操作以扩充样本量。采用的方式包括亮度、对比度调整,图像翻转及±1°~20°的旋转操作。如果经过处理后的图像中有目标残缺或完全丢失情况,则剔除该样本。

3)红外数据集构建。通过采集、处理及数据扩增后,红外数据集中训练集图像包含30 000张图像,测试集包含1 100张图像。训练集用于网络的训练,测试集用于训练后模型性能的验证。

3.2 训练环境及参数设置

实验选择SSD、YOLOv2、YOLOv3方法与文中方法进行效果比较。实验的环境如下:深度学习框架选择Caffe与Darknet;服务器工作站配置为Ubuntu 18.04操作系统,Intel(R) Xeon(R) CPU E5-2673 v3 @ 2.40 GHz,搭载GeForce GTX 1080Ti/PCIe/SSE2显卡,32 GB内存。

训练过程中,每种方法的训练参数设置相同。具体设置如表1所示。

表1 训练参数设置

根据网络的配置,需要设置4种尺度12个锚点进行匹配。通过K-means聚类方法[8]对红外训练集自动生成对应尺度的锚点,分别为:(20×12),(27×16),(34×22),(48×23),(53×32),(72×38),(98×54),(123×69),(152×81),(203×114),(256×156),(301×184),并且与真实框的平均重叠率为88.12%。

3.3 实验结果与分析

通过利用测试集对不同的方法进行测试实验,重点比较对不同类别低空无人机的检测识别能力,并对结果进行评估分析。

在利用测试集进行实验时,将红外测试集图像输入训练好的模型,进行结果预测。当目标的预测框与真实边界框的IOU(交并比)≥0.5且目标类别判断正确时,则结果正确,否则错误。同时,采用AP(average precision)值(单位:%)、mAP(mean average precision)值(单位:%)和检测速度(单位:张/s)作为评价指标。该评价指标能较好地反映模型的召回率、准确率和实时性。最终,实验结果如表2及图4所示。

通过表2可以看出,文中方法在AP值与mAP值上都优于其他方法,mAP值达到了78.21%。因此,通过加深网络结构,构建多尺度模型预测结果能够提升检测识别性能。随着网络深度的加深,参数量也有所增加,导致在检测速度上有所下降,达到约28张/s,但仍具有实时检测的水平。图4展示了文中方法的部分测试结果。绿色方框为DJ-Pro,蓝色方框为DJ-3,红色方框为DJ-S900,类别右边的数字为置信度。

表2 不同方法在不同测试集上的评价结果

图4 文中方法的部分测试结果

4 结论

为降低无人机的低空威胁,提升对无人机的检测识别能力,文中利用深度学习框架,构建了残差网络和预测网络对红外数据集进行训练,并与其他常用的方法进行比较分析。通过残差网络提取无人机目标的深度特征使得网络对无人机的表征能力得到了提升,同时预测网络的多尺度模型结构与上下文语义信息相结合能够较好地匹配不同尺寸的无人机目标,这样使得训练得到的模型在检测性能上有较大的提升。虽然网络深度的加深使得参数量增加,导致检测速度上有所损失,但模型的整体检测速度依然能够维持较快水平。

此外,文中方法还存在一些未验证的部分。例如,无人机类别数的增加对检测识别会造成怎样的影响;在夜间或光线昏暗环境下,无人机的红外特性更加明显,性能是否会提升,这些都是将来继续深入研究的内容。

猜你喜欢

残差红外卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于残差-注意力和LSTM的心律失常心拍分类方法研究
网红外卖
“资源一号”02卫星可见近红外相机、宽幅红外相机在轨顺利开机成像
融合上下文的残差门卷积实体抽取
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
闪亮的中国红外『芯』
基于残差学习的自适应无人机目标跟踪算法