采用空间注意力机制的红外弱小目标检测网络
2021-07-03鞠默然罗海波刘广琦刘云鹏
鞠默然,罗海波,刘广琦,刘云鹏
(1.中国科学院 沈阳自动化研究所,辽宁 沈阳110016;2.中国科学院机器人与智能制造创新研究院,辽宁 沈阳110016;3.中国科学院大学,北京100049;4.中国科学院光电信息处理重点实验室,辽宁 沈阳110016;5.辽宁省图像理解与视觉计算重点实验室,辽宁 沈阳110016)
1 引言
随着图像处理技术的不断发展,目标检测已经广泛应用到了军事和民用等多个领域。作为目标检测中的一个关键技术,红外弱小目标检测已经成为研究的热点。由于红外弱小目标占有像素少、缺少形状特征和纹理特征,且红外弱小目标常处在复杂背景和低信噪比的条件下,因此,红外弱小目标检测仍然是一个具有挑战性的课题。根据国际光学工程学会(SPIE)的定义,红外弱小目标的像素数量一般不超过整幅图像的0.15%。即对于一个尺寸为256×256的图像来说,红外弱小目标的尺寸通常不超过9×9[1]。
传统的红外弱小目标检测算法包括基于数学形态学的算法[2],利用Top-Hat算子来抑制背景噪声,进而对红外弱小目标进行检测。最大中值滤波器[3]利用差分运算来抑制背景信号和图片中边缘纹理信息,来提高对红外弱小目标的检测率。Chen等人[4]在多个尺度下通过寻找局部对比度(LCM)最大值来检测红外弱小目标,此方法对背景抑制的效果不明显。Zhang等人[5]将目标检测任务转化成对非凸张量鲁棒主成分分析模型的求解,提出了基于张量核范数部分和的鲁棒红外面片张量模型(Partial Sum of Tensor Nucle⁃ar Norm,PSTNN)。Wang等人[6]提出了一种基于图像块邻域对比特性的红外弱小目标检测算法,该方法利用大尺度图像块邻域对比特性自适应的分割感兴趣区域,通过自适应阈值来精确的检测小目标。Gu等人[7]基于地毯覆盖法的分型位数提出了一种改进多尺度分形特征的红外弱小目标检测算法。
随着计算机技术的发展,许多基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法[8]被提出,例如Fast RCNN[9],Faster RCNN[10],SSD[11],YOLO[12],YOLO V 2[13],YO⁃LO V 3[14],RFBnet[15]等。与 传 统 的 目 标 检 测 算法相比,基于CNN的目标检测算法具有强大的泛化能力,不仅可以自动提取目标深层次的语义特征,还可以将不同任务,如:特征提取、特征选择和特征分类融合在同一个网络中[16]。通过对网络的训练,来优化网络,实现网络对目标的检测。虽然,基于CNN的目标检测算法已经取得了不错的检测效果。然而,以上基于CNN的目标检测算法都用于日常目标的检测,目前基于CNN的红外弱小目标检测算法还比较少。Yang等人[17]将红外弱小目标检测任务与语义分割联系起来,为解决弱小目标检测提高了新的思想。Chen[18]等人提出了基于YOLOV 3的红外末制导典型目标检测算法。通过优化损失权重,提高了网络的定位和分类能力。虽然该算法将CNN应用到红外目标检测,由于是末制导,检测的目标相对较大,并不适用于红外弱小目标检测。
本文针对红外弱小目标检测,提出了一个简单高效的实时红外弱小目标检测网络。检测网络利用自适应感受野融合模块来增加小目标周围的上下文信息,并通过引入空间注意力机制来建立不同区域之间的关系模型,使不同区域之间的相关性和紧凑性得到强化。为了提高网络对目标的定位和正负样本的判别能力,利用GIOU loss[19]和Focal loss[20]来设计损失函数。在3个红外弱小目标序列和单帧红外图像上进行实验,实验结果表明,该红外弱小目标检测网络对复杂背景和低信噪比条件下的红外弱小目标具有较好的检测效果。
2 基于CNN的目标检测算法
基于CNN的目标检测算法可以分为:双阶段(two-stage)目标检测算法和单阶段(onestage)目标检测算法。基于双阶段目标检测算法,如Fast RCNN,Faster RCNN,将目标检测分为两个阶段,首先提取候选区域的特征信息,将图像分成前景区域和背景区域。然后再经过检测网络进一步完成对候选目标的位置和类别的预测和识别;基于单阶段目标检测算法,如SSD,YOLO,YOLOV 2,YOLOV 3,直接利用检测网络来预测目标的位置和类别,是一种端到端的目标检测算法。因此,单阶段目标检测算法具有更快的检测速度,而双阶段目标检测算法具有更高的检测精度。
作为双阶段目标检测算法的代表,Fast RCNN在网络中增加了感兴趣区域池化层(Re⁃gion of Interest Pooling,ROI Pooling),ROI Pooling可以对不同的输入图片输出相同大小的特征图。并且,Fast RCNN利用Softmax分类器对目标进行分类,通过引入类内竞争来提升目标检测的精度。Faster RCNN引入锚点框(anchor box)来初始化候选框,然后利用区域候选网络(Region Proposal Network,RPN)来生成候选区域,使得目标的检测精度和速度得到进一步的提高。
作为单阶段目标检测算法的代表,YOLO V 3借鉴残差网络[21]的思想通过建立Darknet53网络来提取目标特征,并利用FPN(Feature Pyra⁃mid Network)[22]完成对大、中、小3个尺度目标的检测,使其对各尺度的目标都有较高的检测精度。Zhou等人[23]提出了CenterNet,利用目标中心点来呈现目标,然后在中心点位置回归出目标的一些属性,如:尺寸、方向和姿态等。将目标检测问题变成了一个标准的关键点估计问题。RFBnet通过模仿人类视觉系统中感受野的结构设计了一个高效的目标检测器。
3 基于注意力机制的红外弱小目标检测网络
3.1 网络结构
检测网络的结构如图1所示。首先,利用基于Darknet53[14]的主干网络来提取红外弱小目标的特征。然后,利用自适应感受野融合模块来增加红外弱小目标周围的上下文信息,将融合的特征输入到空间注意力机制模块中,通过引入空间注意力机制模块来强化不同区域之间的相关性和紧凑性。最后利用1个1×1卷积来预测红外弱小目标的位置和类别信息。
图1 红外弱小目标检测网络的结构图Fig.1 Structure of network for infrared small target detection
采用Darknet53作为提取特征的主干网络,Darknet53借鉴了残差神经网络的思想,使得网络深度可以更深,有效地避免了梯度消失,同时使浅层的特征得到了复用。Darknet53是由多个残差单元所构成,每个残差单元是由1×1卷积和3×3卷积构成的,如图2所示。
图2 残差单元Fig.2 Residual unit
YOLO V 3采用了3个尺度对不同大小的目标进行检测,分别采用8倍、16倍和32倍下采样特征图对小、中和大目标进行检测。本文针对红外弱小目标进行检测,所以删掉16倍和32倍下采样特征图,采用8倍下采样的特征图对红外弱小目标进行检测,如图3所示。
图3 网络主干Fig.3 Backbone of the network
Hu等人[24]证明了增加小目标周围的上下文信息可以有效的提高网络对小目标的检测率。受Scale-aware trident network[25]的 启 发,采 用3个膨胀系数为1,2,4的膨胀卷积组成自适应感受野融合模块来扩大感受野,通过融合不同感受野的特征来增加小目标周围的上下文信息。自适应感受野融合模块,如图1所示。由于不同感受野的特征对输出的贡献是不同的,为了能够使网络自适应的融合具有不同感受野的特征,在该模块中增加一个可以自动学习的参数W来自适应地改变各膨胀卷积的权重。用W i来表示分配给具有不同感受野特征的权重,用F i来表示具有不同感受野的特征,则融合后特征可以用式(1)来表示。
为了使网络训练的过程更加稳定,利用(2)式将不同感受野特征的权重系数限制在0到1之间:
3.2 空间注意力机制
在红外弱小目标图像中,由于成像系统作用距离远,导致红外图像中的小目标信号往往很弱,图像的信噪比低。受Zhang等人[26]的启发,空间注意力机制可以通过对图像中不同区域之间的相关性进行建模,来增强不同区域之间的紧凑性,使红外弱小目标的特征响应得到加强。空间注意力机制的结构如图4所示。
图4 空间注意力机制Fig.4 Spatial attention mechanism
首先,把自适应感受野融合模块输出的特征F∈R C×H×W输入到3个1×1卷积,将第1个1×1卷积输出的特征经过维度变换和转置变换为F1∈R(H×W)×C,将第2个1×1卷积输出的特征经过维度变换为F2∈R C×(H×W)。然后对F1和F2进行矩阵乘法,并用softmax函数来获得空间注意力机制矩阵H∈R(H×W)×(H×W),H反映了特征图上各个像素点之间的相关性。最后,将第3个1×1卷积输出的特征与H进行矩阵乘法和维度变换,得到基于空间注意力机制的输出特征Fout∈R C×H×W。通过与空间注意力矩阵H相乘,使输出特征Fout不同区域之间的相关性得到增强。
3.3 loss函数
为了进一步提高模型的检测精度,利用GIOU loss和Focal loss来设计红外弱小目标检测网络的损失函数。与通用目标相比,小目标检测中对位置预测的要求更高。本文采用GIOUloss对目标进行位置回归,GIOU loss可以反映出预测框与目标框之间的远近关系。并且,GIOU loss可以有效避免因为预测框与ground truth不相交而导致损失函数梯度为0的问题。GIOU可以表示为:
其中:BGT表示目标框的ground truth,BP表示预测框,B表示包围BGT和BP最小的矩形框。则GIOU loss可以表示为:
由于训练样本中包含了大量容易分辨的负样本,会导致这些简单负样本对loss函数起主要作用。为了增强网络对困难样本的预测,本文采用Focal loss来对目标的置信度进行回归,缓解正负样本不均衡的问题:其中:yGT表示目标置信度的ground truth,y P表示预测目标的置信度,α和γ分别设为0.25和2。
对于分类损失,采用二进制交叉熵,如式(6)所示:式中:CGT表示目标类别的ground truth,CP表示预测目标的类别。
则总loss可以表示为:
4 实验结果与分析
在本节中,分别介绍实验数据集和度量指标,并分别从定性和定量两个方面对提出的红外弱小目标检测网络检测性能进行了验证。
实验条件:操作系统为Ubuntu 14.04,深度学习框架为Pytorch 0.4.1,CPU为i7-5930K,内存为64G,GPU为NVIDIA GeForce GTX TI⁃TAN X,CUDA 8.0。
训练细节:所有的模型均在1个NVIDIA GeForce GTX TITAN X显卡上采用随机梯度下降法(Stochastic Gradient Descent,SGD)进行训练。利用图像旋转,随机裁剪等方法来进行图像增 强。采 用cosine learning rate[27]策 略 来 调 节 学习率的变化。权值衰减和冲量分别设为0.0005和0.9。网络训练过程中,每次输入32张图片,一共训练100轮次,每10次迭代保存一次损失值,每隔5个轮次保存一次训练权重。为了进一步缓解训练过程中正负样本不均衡的问题,选择目标框与锚点框之间IOU≥0.3的锚点框作为正样本,来增加正样本的数量。网络训练的损失曲线如图5所示。
图5 Loss曲线Fig.5 The loss curve
4.1 实验数据集
本文所使用的数据集是来自Hui[28]等人通过外场实地拍摄和数据准备加工,提供的一套以一架和多架固定机翼无人机目标为探测对象的红外弱小目标数据集。本文选取3个具有代表性的红外弱小目标序列来测试所提出的红外弱小目标检测网络的性能。另外,为了验证红外弱小目标检测网络在不同背景下的检测结果,我们采用单帧红外图像进行了测试。3个红外弱小目标序列和单帧红外图像的样本如图6所示(彩图见期刊电子版),红色框代表目标的位置,详细信息如表1所示。
表1 数据集的详细信息Tab.1 Detailed information of dataset
图6 红外弱小目标图像(a)序列1,(b)序列2,(c)序列3,(d-f)单帧红外图像Fig.6 Infrared small target image(a)Sequence 1,(b)Sequence 2,(c)Sequence 3,(d-f)single frame image set
4.2 度量指标
采用平均精准度(Average Precision,AP)和准确率与召回率曲线(Precision-Recall curve,PR curve)来测量每一类目标的检测精度。平均精准度是从召回率和准确率两个角度来衡量检测算法的准确性,是评价检测模型准确性的直观评价标准,可以用来分析单个类别的检测效果。利用每秒帧数(Frame per Second,FPS)来衡量目标检测器的检测速度。以预测的目标框和目标的标签框之间的交并比(Intersection Over Union,IOU)是否大于0.5来确定检测结果是正样本还是负样本。
4.3 检测结果与性能分析
为了评估提出的基于空间注意力机制的红外弱小目标检测网络的性能,分别从定量和定性两个方面对实验结果进行分析。
4.3.1 定量分析
表2~表4和表5分别为红外弱小目标检测网络在序列1、序列2、序列3和单帧红外图像上的检测结果,其中YOLOV 3和RFBnet是基于CNN目标检测算法中的代表。并且,YOLOV 3和RFBnet都具有专门检测小目标的尺度。表中的Baseline代表没有增加空间注意力机制的红外弱小目标检测网络,Input代表输入网络的图像的分辨率。图7为各算法在3个序列和单帧红外图像上的PR曲线。
图7 PR曲线Fig.7 PR curve
表2 序列1实验结果Tab.2 Experimental results for Sequence 1
表4 序列3实验结果Tab.4 Experimental results for Sequence 3
表5 单帧红外图像实验结果Tab.5 Experimental results for single frame image set
表3 序列2实验结果Tab.3 Experimental results for Sequence 2
在序列1中,红外弱小目标检测网络取得了91.62%的AP值,通过引入空间注意力机制,AP值进一步提高了1.22%,检测速度仍然保持在167.29 FPS。与YOLO V 3相比,AP值提高了19.11%,由于删掉了Darknet的16倍和32倍下采样特征图,检测速度几乎是YOLO V 3的3倍。与RFBnet相比,AP值提高了15.28个百分点。
在序列2中,红外弱小目标检测网络取得了71.54%的AP值,通过引入空间注意力机制,AP值进一步提高了4.52%,检测速度仍然保持在162.75 FPS。与YOLO V 3相比,AP值提高了6.99%,检测速度同样几乎是YOLO V 3的3倍。与RFBnet相比,AP值提高了9.34个百分点。
在序列3中,红外弱小目标检测网络取得了81.77%的AP值,通过引入空间注意力机制,AP值进一步提高了1.44%,检测速度仍然保持在164.16 FPS。与YOLO V 3相比,AP值提高了5.11%,检测速度几乎是YOLO V 3的3倍。与RFBnet相比,AP值提高了3.40%。
在单帧红外图像上,红外弱小目标检测网络取得了90.67%的AP值,通过引入空间注意力机制,AP值进一步提高了2.54%,检测速度仍然保持在167.93 FPS。与YOLO V 3相比,AP值提高了9.06%,检测速度几乎是YOLO V 3的3倍。与RFBnet相比,AP值提高了7.09%。
红外弱小目标检测网络在序列1上取得了最高的AP值,因为序列1是一个长序列,共有3000张样本,网络可以得到充分训练。红外弱小目标检测网络在序列2上的AP值较序列1和3低,这是由于序列2的目标小且微弱,并且小目标呈现出由远到近的变化过程。通过引入空间注意力机制,可以增强不同区域之间的相关性和紧凑性,使网络对红外弱小目标的检测性能进一步提高。本文提出的红外弱小目标检测网络无论在精度和速度方面都要高于YOLO V 3和RFBnet。实验结果证明了所提出的基于注意力机制的红外弱小目标检测网络对红外弱小目标具有较好的检测性能,并且保持了较快的检测速度。
4.3.2 定性分析
图8~图10和图11分别显示了红外弱小目标检测网络在序列1、序列2、序列3和单帧红外图像上的可视化结果。大图为红外弱小目标的检测结果,小图是检测到目标附近区域的放大图。可视化结果表明,所提出的红外弱小目标检测网络可以有效的检测出不同复杂环境下的红外弱小目标。
图8 红外弱小目标检测网络在序列1上的可视化结果Fig.8 Visual detection results of infrared small target de⁃tection network on Sequence 1
图9 红外弱小目标检测网络在序列2上的可视化结果Fig.9 Visual detection results of infrared small target de⁃tection network on Sequence 2
图10 红外弱小目标检测网络在序列3上的可视化结果Fig.10 Visual detection results of infrared small target detection network on Sequence 3
图11 红外弱小目标检测网络在单帧红外图像上的可视化结果Fig.11 Visual detection results of infrared small target detection network on single frame image set
为了说明空间注意力机制的作用,对增加空间注意力机制前后的特征图进行可视化对比,如图12所示(彩图见期刊电子版)。其中:图12(a)为红外弱小目标图像,其中红框表示红外弱小目标的位置,图12(b)为未增加空间注意力机制的可视化特征图,图12(c)为增加空间注意力机制的可视化特征图。由图12可以看出,增加空间注意力机制的红外弱小目标响应更强,这是由于引入空间注意力机制模块后,不同区域之间的相关性和紧凑性得到加强,有利于红外弱小目标的检测。
图12 增加空间注意力机制前后的特征图可视化结果对比Fig.12 Comparison of visual results of feature map be⁃fore and after increasing spatial attention mecha⁃nism
5 结论
针对红外弱小目标检测问题,提出了基于卷积神经网络的实时红外弱小目标检测网络。检测网络利用自适应感受野融合模块来增加小目标周围的上下文信息,为了强化不同区域之间的相关性和紧凑性,利用空间注意力机制来优化检测网络。为了提高网络对目标的定位能力,利用GIOU loss来回归目标的位置。并采用Focal loss来设计置信度损失,让网络更关注于困难样本。在3个红外弱小目标序列和单帧红外图像上进行实验,来验证所提出的红外弱小目标检测网络的性能。检测网络分别取得了91.62%,71.54%,81.77%和90.67%的AP值,且检测速度接近165 FPS。实验结果表明,该红外弱小目标检测网络对复杂背景和低信噪比的红外弱小目标具有较好的检测效果。目前,基于深度学习的红外弱小目标检测算法还很少,希望本文可以为红外弱小目标检测提供一个新的思路。
未来与展望:基于深度学习的红外弱小目标检测算法,依赖于红外目标数据集,而目前公开的红外目标数据集非常少。制作开发更多的红外数据集将有利于基于深度学习的红外目标检测算法的发展。
红外弱小目标图像中,大部分都是背景,红外弱小目标只占很少像素,且小目标信号一般都很弱,设计合适的网络来增强目标,抑制背景和噪声,将会进一步提高基于深度学习红外弱小目标检测算法的检测能力。