基于深度学习的红外弱小目标检测算法研究综述
2022-09-25王恒慧
王恒慧,曹 东,赵 杨,杨 阳
(中国空气动力研究与发展中心计算空气动力研究所,四川 绵阳 621000)
1 引 言
准确且高效地定位出图像中目标所在位置,是目标检测的核心任务,同时也是图像识别、目标分割、目标跟踪等任务的关键基础。作为计算机视觉的研究重点和热点,目标检测技术在智能导航、智能驾驶、检测监视系统、航空航天、军事国防等[1~4]诸多领域取得了显著的成果,且其技术发展的成熟度决定了这些领域未来的发展方向。
当前,可见光图像以其丰富的颜色、纹理等特征占据目标检测领域的绝大部分,随着计算机视觉的迅猛发展,基于可见光图像的目标检测算法性能越来越高,应用也越发广泛。但可见光设备存在的成像距离有限、穿透能力差、夜间无法拍摄等问题极大的制约了检测领域的发展。相比而言,被动接受物体发射的红外波段电磁波成像的红外探测系统,其被动接收、隐蔽性强等特点有效的解决了夜间监视及远距离探测问题。然而,当前红外图像的目标检测技术还存在着巨大的技术短板,传统检测算法如基于滤波[5]的红外弱小目标检测算法思路简单、计算量小,但只能在一定程度上起到抑制均匀背景的作用,无法不能解决复杂背景的问题且检测率低、鲁棒性差;基于人类视觉系统的检测方法简单易于实现,但是局限性大,检测效果差;基于低秩稀疏恢复[6]的方法可以适应信噪比较低的图像,且对于比较复杂的异构背景具有较高的可靠性,是目前使用最多效果最好的一类算法,但其对于背景复杂且目标较暗的红外图像处理时虚警率高且计算繁杂耗时长。传统算法作用有限但基于深度学习的红外弱小目标图像检测算法寥寥无几,在人工智能飞速发展的今天,基于可见光图像的深度学习目标检测算法取得越来越耀眼的成果,因此,借鉴基于可见光图像的深度学习目标检测算法应用于红外图像目标检测中,对于红外图像目标检测算法的发展极具发展前景。
文章首先介绍红外弱小目标的图像特征,然后以可见光的目标检测算法为参考,依据网络结构以及设计思想的不同,将基于深度学习的目标检测算法分为候选框系列、回归系列以及GAN系列网络四种类型进行详细介绍。
2 红外弱小目标图像特征分析
红外线是波长介于750 nm~1 mm之间的电磁波[7],任何高于绝对零度的物体都会主动发射红外波段的电磁波。红外热成像通过被动的收集目标发射的红外辐射,将其绘制成图像获取信息,是一种不辐射电磁波的被动式目标探测跟踪设备,具有全天侯工作、穿透云雾等恶劣天气影响的能力,同时具有较强的抗干扰能力和隐蔽性,在目标探测领域具有不可替代的作用,广泛应用于智能监控、自动驾驶、电力设施智能检测、医疗生物、导弹制导、战场侦察等领域[8]。
2.1 背景特性
(1)为了尽早检测到目标的出现,红外探测系统在分辨率一定的情况下受视场选取、云层变化、多重背景叠加等各种因素的影响,背景极其复杂多变;
(2)红外图像中大部分的背景相关性极强,呈现连续分布状态,中间不会出现过大的起伏,除了背景边缘信息频率较高以外,其他均属于图像中的低频部分;
(3)红外图像中背景占据了绝大多部分像素,整个红外图像的灰度值主要集中在背景部分。
2.2 弱小目标特性
(1)由于成像距离远,目标所具有的能量会随着距离的增大显著降低,导致最后在图像上显示非常暗淡,因此,红外弱小目标非常容易淹没在背景杂波和传感器噪声中,与背景没有明显的边界,对比度较低;
(2)由于成像距离远,探测的相对广度就有所扩大,小目标非常稀疏,而背景则会占据图像的绝大部分,导致了目标区域和背景区域分布之间的严重不平衡。
(3)由于作用距离的限制,目标往往所占的有效像素只有几个或几十个,相比于如今分辨率越来越大的图像而言,目标有效像素比极小,通常表现为点状或者斑点状[9]。
相对于可见光图像而言,红外图像不具备丰富的颜色信息,甚至于由于成像距离远,纹理和结构信息都不具备,对于背景复杂的红外图像,目标的边缘信息亦是难以清晰描述的,种种特质无疑大大增加了红外目标的检测难度,但也因此,红外弱小目标检测方向拥有巨大的研究潜力,也必将是后续研究应用的热点之一。
3 基于深度学习的弱小目标检测算法
3.1 基于候选框的弱小目标检测方法
候选框系列目标检测算法又称为Two-Stage网络算法,是指将输入图像通过相应算法生成一定量的可能包含目标位置的候选框图像,然后将候选框图像送入到检测网络中实现分类与定位的网络结构,在降低搜索计算量的同时显著提高了检测的准确率。
R-CNN[10]首先将候选框和卷积神经网络有效结合,使得深度学习在目标检测领域取得重大突破,开启了目标检测算法新思路,为神经网络的发展奠定了基石,其网络结构如图1所示。网络通过预先使用Selective Search[11]算法选取候选框图像缩小了检测范围,提升了目标的检测精度。但作为先驱,候选框数量过多、固定尺寸的要求易导致图像扭曲甚至丢失目标、训练步骤复杂、检测速度慢等缺陷使得R-CNN拥有巨大的提升空间。2016年,Faster R-CNN[12]网络提出RPN(Region Proposal Network)生成候选框并引入具有多尺度和平移不变性的anchor机制、共享卷积特征等一系列的改进措施既提升了候选框的质量又降低了候选框的数量,同时还解决了目标形变问题,有效的提高了网络的检测性能,达到了17 f/s的准实时检测速度,并且成为首个真正意义上的端到端深度学习算法。
图1 R-CNN网络结构
对于红外图像而言,由于成像距离远且存在多场景多跨度等问题影响,导致目标呈现弱、小状态,并且像素分辨率占比极少。而前述候选框算法设计了深卷积网络结构,导致输出特征图分辨率低、信息流失严重,无法有效检测小目标。2016年,HyperNet[13]网络考虑到浅层网络特征图分辨率高、细节完整但语义特征较少且深层网络具有语义特征丰富但分辨率小、细节流失严重、定位性能较差等特点,将浅层与深层网络特征结合起来压缩放至Hyper Feature空间中,保证了小目标的信息完整性,随后紧跟一个与非极大值抑制算法相结合的小型区域生成模块,输出定位更加准确且相互重合度较低的候选框组合,最后送入检测模块中进行最后的分类与目标精确定位,在高IOU的情况下小目标检测的mAP提高了3.1 %。其网络结构如图2所示。
图2 HyperNet网络结构图
基于候选框系列算法在目标检测中以高检测率而闻名,在候选框系列算法不发展完善中,发现网络特征所包含的信息量与网络层数关联性较强,其中浅层网络特征图分辨率高、细节完整但语义特征较少;而深层网络则相反,具有语义特征丰富但分辨率小、细节流失严重、定位性能较差等特点。因此,将浅层与深层特征图结合起来,利用多尺度特征补充弱小的细节特征信息,可以有效提升弱小目标检测准确率。
3.2 基于回归系列的目标检测算法
回归系列目标检测算法也称为One-stage检测算法,是指将图像输入到网络架构中直接判断目标类别和位置的一类网络。这种一步即成的架构极大地简化了算法的实现过程,同时运算速度也得到了成倍的提升。
3.2.1 YOLO系列
2016年,针对候选框系列算法步骤复杂、训练速度慢等问题,Joseph Redmon等人提出了YOLO[14]算法结构,如图3所示。该算法直接划分输入图像,省去了搜索图像、生成候选框的过程,真正意义上实现了端到端的目标检测算法,检测速度可以达到实时处理的标准。但是也正是由于减少了候选框的搜索过程,该算法不能够精确地定位目标所在,检测的准确率和召回率有很大的提升空间。YOLOv2[15]模型增加了Batch Normalization、anchor box结构提升了网络检测精度。在其基础上,林旭鹏[16]以红外图像中的移动目标为检测对象,使用维度聚类分析目标所在的边界框位置,提升了目标定位的精确度,使边界框更加贴合目标边界,并且也在一定程度上减少了误检漏检情况,提升了检测的准确度。更为经典的YOLOv3[17]结构结合残差思想获取目标特征,采用类FPN结构融合不同卷积层的特征图,极大的保留了特征图所包含的细节信息,提高了网络对于小目标的检测精度,且由于其出色的检测精度和速度,在多个领域中应用广泛。网络结构所图4所示。2020年,文献[18]、[19]在YOLOv3卷积神经网络的基础上,加深网络结构,通过密集连接和扩大小目标检测特征图尺寸、增加特征检测的尺度数量等手段使得小目标的检测性能提高了约2个百分点。黄乐弘[20]使用K-means算法对初始目标框进行聚类分析,并且针对空中红外目标的边缘检测算法进行改进,有效的降低了虚警率,提升了小目标的检测效果。宫婷[21]结合K-means算法和核函数与抽样,提高了初始目标框的准确性,通过增加一个尺度和三个anchor数量提高了小目标识别的精确性。徐金逗[22]结合更深的残差网络进行特征提取,借鉴特征金字塔网络的思想,使用特征融合的方法增强特征国土所包含的信息量,提升了网络对多尺度目标的预测能力。
图3 YOLO网络结构
图4 YOLOv3网络结构图
从YOLO系列算法的演变过程中,引入残差结构、增加反卷积与上采样操作与原特征图相结合、对初始目标框聚类分析等操作,均丰富了待检测的特征细节,改善了弱小目标的检测准确率。
3.2.2 SSD系列
2016年,LIU W等人提出了另一类回归系列目标检测算法SSD[23],考虑到深、浅层网络特征图中所包含目标信息量的不同,算法对不同尺度的特征图进行特征提取,有效提升了小目标的检测率。而且与候选框系列相比,SSD将所有的计算都整合到一个网络中,同时删除候选框以及特征重采样部分,使得整个网络结构简单且易于训练。与YOLO算法相比,检测效率提高了14 f/s且检测精确度提升了近11 %;且在与Faster R-CNN相当的检测精确度情况下,检测速度提升了9倍。DSSD[24]网络引用残差思想,通过反卷积操作和上采样与原卷积特征图融合,增加了特征图所包含的细节信息,进一步提高小目标的检测精度。RSSD[25]网络使用rainbow concatenation(pooling+deconvolution)融合不同网络层的特征图,有效增加了特征图的数量和加强了特征图之间的联系,提升了小目标检测性能。FSSD[26]网络增加高效的轻量级特征融合模块,加强了深、浅层网络之间的信息交互,提高了小目标检测的鲁棒性,其结构如图5所示。多级特征金字塔网络[27](Multi-level Feature Pyramid Network,MLFPN)融合主干网络特征,提取更具代表性的多级多尺度特征并融合得到多级特征金字塔的操作,使得M2Det网络成为一个高效的端到端回归系列检测算法,提高了目标的检测性能。华夏[28]在SSD的基础上设计了基于增强学习的动态区域放大网络框架(DRZN),将低分辨率下的弱小目标区域放大至高分辨率再进行检测,对于小目标的检测效果提升显著。
图5 FSSD网络结构
SSD系列算法发展中考虑到弱小目标的检测问题,增加了多尺度检测框架,用来提升小目标的检测率。表1中列举了YOLOv2、SSD、DSSD及FSSD在MS COCO数据集上的检测结果,可以发现DSSD及FSSD网络中采用的残差思想、增加反卷积、上采样以及放大小分辨率特征图等操作有效的改进了SSD网络结构,提升了弱小目标的检测准确率。
表1 MS COCO2015数据集的检测结果
3.3 GAN系列目标检测算法
2014年,Ian J.Goodfellow等人提出了对抗生成网络GAN[29],提出生成—判别双模块结构,采用零和博弈思想促使生成模型尽可能学习真实样本的特性并将随机输入伪装为真实目标迷惑判别模型,判别模型则尽可能识别输入的数据是真实样本还是生成模型输出的虚假样本,通过相互博弈的过程逐步提高生成模块和判别模块的性能。2019年,MDvsFA-cGAN[30]网络根据红外图像中弱小目标特性提出使用双生成器+单判别器的网络结构来平衡降低漏检(MD)和虚警率(FA),其结构如图6所示,其中,生成器G1用于减小MD,G2用于降低FA,每个生成器将输入图像映射到图像S上用于显示分割结果,将判别器D视为介质连接G1和G2,加强它们之间的信息流动并回馈给生成器,尽可能降低MD和FA。在网络实现过程中,两个生成器更加紧密的绑定在一起,产生一致的分割效果,取其平均值作为最终的分割结果。从像素级别上很好的平衡了MD和FA,并且在合理的召回率范围内达到了最高的目标检测精度,性能优于现有的ISOS(Infrared Small Object Segmentation)方法。文献[31]基于Neyman-Pearson准则在上下文聚合网络(CAN)的基础上,将检测模型划分为全局和局部两个分网络,分别用于全局观察红外图像和聚焦图像中一个小的局部区域,简化了端到端的映射任务,使单帧目标检测的模型训练更容易实践,明显的提高系统的整体性能。
图6 MDvsFA-cGAN网络结构
在GAN系列网络中,通过生成器与判别器的博弈完成真实目标特征的提取,将红外弱小目标检测分解为抑制误检率和降低虚警率两个子任务,引用对抗式学习实现两者之间的最佳平衡,使得同时降低MD和FA成为可能,为后续的ISOS研究提供了一个全新的视角,对方法的创新有参考性意义。
4 总结与展望
目前,基于深度学习的红外弱小图像检测算法还仍处于新兴阶段,数据集严重匮乏,并且针对红外弱小目标的检测性能还有巨大的提升空间,而立足于见光图像的目标检测算法再创新,对于红外图像目标检测算法有事半功倍之效。作为一种被动式、全天候的目标探测跟踪设备,红外探测系统可使用的场景多样且性能优越,在目标探测领域具有不可替代的优越性。因此,基于深度学习的红外弱小目标检测算法必将掀起一股研究热潮,设计出性能更高、速度更快、体积更小的检测网络结构并应用到实时系统中将会成为未来重要的研究方向。