基于YOLOv3的复杂环境红外弱小目标检测
2019-02-13赵凌君
赵 琰,刘 荻,赵凌君*
(1.国防科技大学 CEMEE国家重点实验室,长沙 410073;2.国防科技大学 ATR重点实验室,长沙 410073)
0 引 言
红外热成像设备作为一种被动式传感器,具有隐蔽性好、机动性强、可全天候工作的特点,被广泛应用于战场监视、精确制导等方面。作为红外图像处理的关键技术,红外目标的检测与跟踪(Infrared search and track, IRST)是现代预警系统的关键支撑,也是国家空天安全的重要保障,是各国军事部门研究的重点和热点问题。红外目标的检测与跟踪,是根据红外传感器的成像特性与目标的先验性信息,从复杂的背景中提取并筛选目标可能存在的感兴趣区域,并对目标进行动态跟踪的过程。传统的红外目标检测与跟踪算法可分为单帧检测法与多帧检测法。单帧检测法通过对红外图像序列中的某一帧进行处理,对目标进行检测与跟踪,为提高检测准确性,单帧检测算法大多需要对红外图像进行预处理,使目标与背景分离,增强目标特征,抑制背景噪声干扰。常用的预处理算法有最大类间方差法[1]、极小值点阈值法[2]、最优阈值法[3]等。相比较单帧检测法,多帧检测法充分结合前后帧之间目标的时间与空间等多维信息,对其进行检测与跟踪,代表算法有先检测后追踪(DBT)算法[4-6]和先跟踪后检测(TBD)[7-8]算法,传统的算法依赖于对红外图像中目标与背景的精确分离与信息的准确提取,计算难度大。同时,算法的适应能力较差,在后处理中无法针对虚警进行有效去除。近年来,随着深度学习技术的不断发展,基于卷积神经网络的目标检测算法在光学近景检测任务中已经表现出巨大的优势,目标检测的算法层出不穷[9-11]。
受限于红外目标检测数据集获取困难,基于深度学习的红外目标检测的研究也较为有限。吴双忱[10]等人将弱小目标的检测问题转化为对小目标的位置分布的分类问题,通过构建全卷积网络与分类网络并引入了SENet模块,对红外目标特征进行强化,并抑制背景噪声的影响,对低信噪比条件下的红外目标具有较好的检测效果。然而,由于其预处理过程较为复杂,难以实现特征的共享,且其采用的网络层数有限,对红外目标的特征提取能力较低,依旧存在较多的虚警。陈铁明[11]等人针对红外末端制导在局部信息缺失等问题,结合Adam算法与动量法的优势,对YOLOv3的损失函数进行加权,采用联合训练的方法在红外目标数据集上进行了验证。然而,由于其所采用的数据中目标的尺寸依旧较大,且目标与背景的区别较为明显,因而无法验证网络对弱小的红外目标的特征提取能力,网络对红外弱小目标的检测能力有待进一步验证。在实际应用中,受到红外传感器平台、目标成像距离、目标几何形状以及地形地物等多种因素的影响,复杂环境下的红外弱小目标检测依旧困难重重。当前红外目标检测算法存在流程复杂、检测率低、虚警多、实时性差等问题。针对以上问题,本文通过对红外弱小目标的几何特性进行深入分析,以YOLOv3目标检测网络为基础,通过设计多种不同尺度的目标框,对复杂环境中的红外弱小目标进行检测。算法处理流程简单,且对红外弱小目标检测的准确率提升显著,在多种红外弱小目标数据集的测试中均取得较好的检测效果,具备较强的泛化能力与应用前景。
1 红外图像特性
相较于可见光图像,红外图像的信噪比较低,图像中目标的几何轮廓较为模糊,且与真实形态可能存在较大差异。对其成像特征进行分析,可提升检测网络对目标的适配能力,提升网络的特征提取能力。在红外探测中,首先由于传感器等因素的制约,目标成像存在纹理细节信息弱化、几何结构性较差等问题。相比光学图像,红外图像的分辨率普遍较低,为网络对目标特征的提取带来困难。红外传感器的空间分辨率计算公式如下:
(1)
式中:Ps为像间距;Lfl为镜头焦距;R为空间分辨率。比较可见光成像系统,红外传感器主要对物体的热辐射特征进行表征。然而,由于热辐射的峰值大多集中于目标的中心,在目标周边部件分布较少。因此,红外图像中的目标轮廓不仅不能代表目标真实的几何结构特征,且可能存在较大的差异,为传统的基于几何模板相似度匹配的检测算法带来了困难。在净空背景中,红外图像与可见光图像条件下,同一目标的成像效果对比,如图1所示。红外图像中目标细节性信息较差(发动机,机身流线型变化无法可见),光学图像中的目标轮廓则更加清晰。
图1 红外与光学中的飞机目标图像
Fig.1 Infrared and optical airplane images
在实际应用中,红外成像设备与目标距离较远,这导致目标在红外图像中仅占据少量的像素位置。在军事应用中,红外传感器的空间分辨率多为0.1 mrad,意味着即便是体积庞大的飞机、舰船等,其成像尺寸也较小,为目标的准确检测带来了巨大的困难。其次,目标自身的尺寸也存在较大差异,传统算法依赖于设计多种不同尺寸的滑动框或构建图像金字塔来实现多尺度的目标检测,这种方法检测精度差,检测速度也较为缓慢。图2展示了红外弱小目标的多尺度像素特征。在图2(a)中,目标的长宽所占像素分别为(14,9)与(9,3),核心目标仅仅占据4个像素左右。在图2(b)中,目标的长宽分别为(10,10),核心目标为15个像素左右。
图2 红外弱小目标像素特征
Fig.2 Pixel characters of infrared weak targets
2 红外背景特征
F(x,y)=fobject(x,y)+fbkg(x,y)+fnoise(x,y)
(2)
其中:F(x,y)为红外目标点的探测值;fobject(x,y)为目标点的真实值;fbkg(x,y)为目标点的背景值;fnoise(x,y)为目标点的噪声值。图3展示了在复杂环境条件下,目标的红外成像效果图。图3(a)为净空背景,图3(b)~(d)为林地背景,其中图3(d)中存在多个与目标红外特性相似的点。
图3 复杂环境红外目标成像
Fig.3 Infrared targets in complex environments
在红外目标的检测方面,传统方法的检测效果依赖于对目标特性的准确建模。一旦模型失配,其检测效果将会大大降低。此外,传统算法流程复杂,算法需要针对不同的场景分别进行建模处理,泛化能力弱,为红外算法的工程化快速应用造成了巨大困难。借鉴深度卷积神经网络(DCNN)在光学近景目标检测中的广泛应用,通过对当前经典单阶段目标检测网络进行分析,采用YOLOv3对红外弱小目标进行检测,可有效提升模型的检测准确率与算法的泛化能力。
3 基于YOLOv3红外弱小目标检测网络
为了对复杂环境下红外弱小目标进行快速、准确的检测,需要对多层特征进行融合,以提升网络对不同尺度红外目标的特征表示能力。通过对当前目标检测网络进行分析,结合两阶段目标检测网络的高准确率与单阶段目标检测网络的高速度两大优势,本文以YOLOv3目标检测网络为基础,对红外弱小目标进行检测。整体目标检测流程如图4所示。
图4 红外弱小目标检测流程图
Fig.4 Flowchart of infrared weak target detection
整体网络可分为三大模块,待检测的红外图像作为输入,首先通过特征提取网络获得多层级的语义特征;第二个模块为多尺度特征融合,通过特征重采样与卷积相叠加,获得精细化的语义特征表示;第三个模块为分类与回归输出模块,其主要在尺度的语义特征图中对目标进行预测,获得最终的输出表示。
3.1 特征提取网络
作为YOLO系列目标检测网络之一,YOLOv3采用了与YOLOv1相似的基础特征提取网络Darknet。为了提升网络对高层语义特征的表示能力,其层数从原始的24层加深到53层,如图5所示。其可包含有5个残差与卷积模块,通过卷积操作,特征图的尺度进一步降低,而包含的语义信息也更加丰富。
图5 特征提取网络
Fig.5 Feature extraction network
借鉴ResNet网络的结构,Darknet-53中采用了多个跳跃链接(Skip-connection),嵌入了多个残差模块,有效加速了网络的收敛能力并解决了梯度消失问题。残差模块的设计如图6所示。
残差连接包含两个卷积层,第一个卷积层的卷积核尺寸为1,第二个卷积层的卷积核尺寸为3,网络将输入的x与经过两层卷积后的输出F(x)相加,并采用ReLU激活函数作为最终模块的输出。
3.2 特征融合网络
YOLOv1采用特征提取网络的最后一层对目标进行预测,由于在网络前向传播中,小尺寸的目标经过多层卷积后细节信息丢失严重,为了提升对弱小尺寸目标的表示能力,YOLOv3在基础特征网络(Darknet-53)后,对高层特征图进行反卷积操作,上采样为较大的特征图以强化小尺寸目标的特征表示。利用得到的多尺度特征图分别对目标进行预测,改善了网络对弱小目标的特征表示能力。图7为YOLOv3的特征融合示意图。
图6 残差模块
图7 特征融合网络
Fig.7 Feature fusion network
经过Conv2d Top输出后,由于其输出的特征图尺寸较小,具备高层语义信息,被用来检测较大尺寸的目标。为了检测中等尺寸的目标,Conv2d Top输出的特征图,经过上采样与卷积操作后,获得与ResBlock 8×512 具有相同尺寸的特征图,通过特征图之间的拼接,可获得原图下采样16倍大小的精细化特征图。为了强化网络对弱小尺寸目标的检测能力,中间层的特征经过再一次上采样与卷积,与ResBlock 8×256输出的特征拼接,从而获得原图下采样8倍大小的特征图。在网络的训练与测试中,分别在三个特征图上对目标进行预测,强化网络对多尺度目标的特征提取能力。
4 实验与分析
4.1 红外目标数据集
实验中所使用的数据为五段在多种复杂环境下所采集的包含有无人机的红外视频序列。训练集的标签为目标的中心点坐标,图像的尺寸均为256×256像素。数据集概况如表1所示,图1(a)、图2~3展示了数据集的部分成像效果图。
表1 红外数据集概况
数据集划分时,从每组数据中随机抽取70%作为训练数据,选用20%作为验证数据,剩余的10%则作为测试数据。经过划分后,训练集、验证集以及测试集的数据划分如表2。
表2 实验数据集分布
实验中对训练数据集进行随机水平镜像对称,扩增数据集容量,提升模型的泛化能力。
4.2 点扩展目标框
由于红外目标几何尺寸较小,为提升网络对弱小目标特征的学习能力,需要将其进行扩展,强化目标与背景之间的联系。通过对数据集进行分析,针对不同尺寸的无人机目标,其目标整体所占像素数被划分为四个等级。根据所划分的等级,设计基于中心点扩展的多种目标框尺寸,如表3所示。
表3 点扩展目标尺寸
4.3 网络参数设置
网络每次迭代输入24张图片,一共训练了100轮次,实验中每隔20个轮次对训练模型进行记录。所有实验在配备了CUDA的Ubuntu 18.04电脑上进行训练与测试,采用Adam优化器对网络进行迭代优化,学习速率设置为2e-5,动量设置为0.9,权重衰减值设置为5e-4。
4.4 实验结果与分析
为了获得每个网络最佳性能,选取在验证集上AP值最高的网络模型进行测试。实验对比了SSD300, RFBNet和RefineDet,采用AP(Average Precision)值作为评价指标,并记录了算法运算的速度FPS,测试结果如表4所示。
表4 测试结果
由表4可以看出,YOLOv3的AP值达到了0.995 73%,相比较RefineDet,RFBNet和SSD300分别提升了9.084%,20.235%,20.698%。SSD300仅采用了多层特征图作为预测输出,随着网络加深,导致弱小目标的特征进一步弱化,网络无法对其进行有效表征。RFBNet虽然引入了空洞卷积,但由于目标尺度过小,有可能导致空洞卷积后,红外弱小目标特征丢失较为严重,并未提升对其的检测能力。RefineDet构建了特征金字塔,相比较SSD300与RFBNet有效地提升了对红外弱小目标的检测能力,然而由于其处理基础网络较为简单,相比较YOLOv3所采用的DarkNet-53网络依旧缺乏对红外目标的特征提取。
不同算法检测结果对比如图8所示。其中每一列对应不同的测试红外数据,每一行分别对应每种算法的测试效果。
可以看出,在第一列净空环境的对比测试中,四种算法均能够对目标进行有效检测。然而,对比目标的精细化位置,YOLOv3对于弱小目标的定位更加准确,其他三种方法预测目标框与真实目标中心点偏差较大;在第二列净空环境中,由于SSD300与RFBNet为缺乏更有效的多尺度的特征提取,因而均无法针对更弱小的目标进行有效的检测,存在漏检情况。RefineDet所预测的目标框偏移较大;在第三列林地背景对比中,SSD300,RFBNet,RefineDet无法对红外目标进行有效检测,而YOLOv3对目标可准确的检测。在第四列林地背景中,由于林地背景的不均匀性,导致其存在较多的假目标,对检测算法可能造成较多干扰。对比的三种方法均存在虚警情况发生,而YOLOv3则可以将目标准确地检测。实验表明基于红外目标特性的YOLOv3可有效对红外弱小目标进行检测。
图8 不同模型检测效果
Fig.8 Detection results of different models
5 结 论
本文结合红外弱小目标的几何特性,以及目标与环境信息,提出了基于YOLOv3的红外弱小目标检测算法,与其他基于深度学习的算法相比较,该算法在不过多降低检测速度的同时,大幅度提升了对红外弱小目标的检测能力。同时,算法处理流程简单,工程化应用性强,为基于深度学习的红外弱小目标检测算法提供了新的思路。在下一步的工作中,将对网络的结构以及红外弱小目标在网络中的特征进行研究,对网络参量进行压缩,进一步提升对红外弱小目标的检测效率。