APP下载

复杂背景下对空红外弱小目标检测方法*

2023-10-25刘晓娟郭鑫宇王立珂郝月龙杨文静

火力与指挥控制 2023年8期
关键词:候选框弱小红外

刘晓娟,郭鑫宇,王立珂,郝月龙,杨文静

(北方自动控制技术研究所,太原 030006)

0 引言

红外成像系统具有全天时全天候的工作特点,随着武器系统的发展和武器装备的不断升级,红外成像系统已被广泛应用于各类预警系统、精确制导/反导、目标跟踪、火控系统、战场侦察和空间远距离目标探测等军事领域[1]。在预警武器系统中,提高预警能力、反击能力以及在未来战争中的制空能力,成为精确拦截来袭目标的关键[2]。红外制导技术经历了从单元到多元,再到成像制导的发展过程,尽早检测、跟踪目标对精确制导起着至关重要的作用[3]。红外成像在武器系统中展现出巨大优势。

红外搜索与跟踪系统(infrared search and track,IRST)是现代化战争至关重要的部分,在没有先验知识的前提条件下,从远距离及复杂背景下快速定位、检测弱小目标,提高装备系统的响应能力[4]。在现代高技术战争中,快速、精准地对目标进行检测识别,并实施精准打击,是战场制胜的关键。从海湾战争来看,制空权对战争态势发展起着重要作用,制空权决定战争的主动权[5]。

红外成像机制在刑侦,森林防火和消防、交通管理、医学成像、遥感、机器人、自动驾驶、小天体探测,搜索、跟踪流星、卫星或其他运动目标,海面人员搜救和卫星大气红外云图分析等民用领域也发挥着重要作用[6-9]。

1 红外弱小目标检测技术

在红外远距离成像中,目标体现为十几个甚至是几个像素,学术界将其归为弱小目标的检测、跟踪问题[10]。弱小目标的检测、跟踪技术已成为武器系统精确打击的核心技术。随着应用领域的发展,该类技术已受到学术界的广泛关注,国内外研究者也已展开深入研究。

按照检测过程中处理的帧数,现有检测算法可分为单帧检测和多帧检测两类。单帧检测有基于滤波策略和基于稀疏表示的方法。基于滤波策略的有顶帽变换(Top-Hat)、最大均值滤波器(Max-Mean/Max-Median Filters)、K 均值聚类,背景预测、局部极大值、相关滤波器等[11-16],这类方法一定程度上能够起到抑制背景、增强目标的作用。但对信噪比低的弱小目标检测效果不佳,虚警率较高。在稀疏表示方法中,红外图像块(IPI)模型能够将目标-背景分离问题转化为低秩和稀疏矩阵分解的问题[17];非凸秩逼近最小化和加权L1 范数的红外弱小目标检测方法(NRAM),能够保留边缘特征并抑制背景[18]。该类算法准确率高,但检测效率低。多帧检测算法主要有帧差法、混合高斯模型法、光流估计法等[19-21]。多帧检测算法对静态背景里的目标鲁棒性较强,检测运动背景中的目标效果较差。

按照目标检测与跟踪过程的执行次序,多帧检测算法可分为跟踪前检测(detect before track,DBT)和检测前跟踪(track before detect,DBT)。跟踪前检测的基本思路是先在单帧图像中增强目标、抑制背景,依据多帧图像的关联性,从而抑制噪声剔除虚假目标。检测前跟踪的基本思路是根据目标的运动规律,先在多帧图像中找到目标可能的所有轨迹,根据规则判断轨迹的可能性,筛选概率最大的轨迹,并确定目标[22]。DBT 和TBD 检测流程如图1 所示。

图1 DBT 和TBD 检测流程Fig.1 Detection flow chart of DBT and TBD

跟踪前检测算法能够充分利用图像中目标的空间特性,但忽略了目标与背景的时间特性。检测前跟踪算法能够将目标的时空特性都并入到多帧的目标检测过程。

人类视觉系统(HVS,human visual system)中基于视觉机制的目标检测方法也受到广泛关注[23],目标较领域像素有较大的灰度差,能够引起视觉的注意而不受到复杂背景的干扰。典型算法有局部对比度测量方法(local contrast measure,LCM)[24],多尺度块对比度测量方法(multiscale patch-based contrast measure,MPCM)[25],尺度自适应的小目标检测方法[26]。但该类算法无法有效抑制高亮度边缘,对不同尺度的目标需要不同大小的窗口遍历,算法实时性欠佳,检测效果不理想。

红外图像背景复杂多变,红外弱小目标像素占比少且灰度值不稳定,目标缺乏特征和纹理特性。由于受到成像距离远,大气干扰,云层辐射和成像噪声等因素影响,或者其他干扰物的短时遮挡,红外弱小目标易淹没于其中,给检测带来困难。单帧检测会带来较高的虚警率和漏警率。复杂背景下,人造光源和建筑物发亮边缘等高疑似目标,导致目标检测算法虚警率高。目前,红外弱小目标检测算法性能提升还面临着巨大挑战。

近些年,深度学习方法也被用于红外弱小目标的检测,文献[27]提出一种基于DenseNet 和YOLO检测框架的红外目标检测算法,该算法的检出率很高,但是红外弱小目标的局部信杂比高,文献中所展示的测试目标具有比较明显的轮廓,因此,该算法不适合红外弱小目标的检测。文献[28]提出一种基于深度学习的弱小目标检测方法,通过全卷积递归网络学习复杂背景下弱小目标的特征,该方法基于语义分割任务,将每个像素归类为背景和目标。该方法对干扰物的鲁棒性较差,且对逐像素进行分类,为后续处理带来相当大的计算量。由于红外弱小目标缺乏明显特征,通用模型框架难以发挥作用,有待进行深入研究。

2 本文方法

空中红外目标信噪比低,成像尺寸小,目标信号弱,且受大量杂波干扰,准确检测、稳定跟踪是本领域中的技术难题。同时,无人机影像目标小、视场大,由于其飞行高度较低,目标背景复杂,将受到复杂的地物干扰。本文对上述问题进行了深入的分析和研究,提出基于多尺度特征提取和多层特征融合,结合特征金字塔网络,以ResNet-101 为主干网络的faster RCNN 网络结构,通过迁移学习的方法解决小样本数据集泛化性差的问题,提高复杂背景中红外弱小目标的检测率、降低虚警率、漏警率,提升弱小目标在武器装备系统中检测的精确性、稳定性、实时性,从而在新一代武器装备系统中发挥重要作用。

2.1 深度学习目标检测方法

深度学习目标检测是一种端到端的策略,较传统目标检测方法准确度高、实时性好。当前基于深度学习的目标检测算法大体可分为两类,一类是基于候选框的检测方法,典型有Faster-RCNN 等系列方法;另一种是基于深度学习的回归方法,生成目标对应的类别、位置信息,代表方法有YOLO、SSD、DenseBox 等。基于候选框的检测方法,采用Anchor机制并充分考虑不同尺度的区域特征,对多尺度特征图进行预测,通过共享计算量的方式减少模型大小,防止模型过拟合。该方法较基于深度学习的回归方法对小型物体具有更高的精度。

2.1.1 Faster RCNN

Faster RCNN 模型是基于候选区域的目标检测,主要包括3 部分:CNN 共享卷积层、RPN 网络和ROI Pooling。共享卷积网络是RPN 的前端网络,通过深度卷积提取特征图;RPN 网络根据特征图生成候选框;ROI Pooling 将候选区域特征处理为相同尺度。Faster RCNN 网络训练流程如图2 所示。

图2 Faster RCNN 网络训练流程Fig.2 Training flow chart of faster RCNN network

本文目标检测的宏观流程如图3 所示。

图3 目标检测算法流程描述Fig.3 The description of flow chart of target detection algorithm

首先通过共享神经网络提取特征,结合Anchor机制生成目标候选框,采用分类器判定候选框区域是目标/背景,最后通过非极大值抑制(nonmaximun suppression,NMS)依据候选框对应类别的概率值,去除多余候选框,将置信度高的候选框作为目标检测结果,输出目标类别及位置信息。

2.1.2 残差网络(ResNet)

随着卷积神经网络层数的加深,模型学习能力加强,但较难训练。ResNet 依据残差原理,通过激活函数跳跃连接并反馈到其他网络层,解决网络层数加深引起的参数增多、梯度弥散的问题。残差单元模块的基本结构如下页图4 所示。

图4 残差单元模块的基本结构Fig.4 Basic structure of residual unit module

将残差网络作为主干网提取特征,相较于传统的神经网络能够保留更多的浅层特征。

2.1.3 迁移学习

迁移学习,作为一种新的机器学习范式,能够对相关场景的大规模数据集进行相似性学习,从而提升目标域场景的学习性能,其不仅能减少对数据量的要求,同时放宽了独立同分布的假设,为目标的精准检测提供了新的解决思路。

依据学习方式的不同,迁移学习可分为3 种,分别是基于实例的迁移学习、基于特征的迁移学习和基于模型的迁移学习。本文采用基于特征的迁移学习,通过挖掘源域数据中能够覆盖目标域数据的部分,实现不同特征空间之间的知识迁移。将ImageNet数据作为源域数据,红外弱小目标图像数据作为目标域数据,通过光学飞机图像训练模型,并应用于无人机影像。实现不同领域之间的知识迁移,其源域和目标域数据具有相关性,学习任务相仿,从而提高小样本条件下无人机目标的检测精度。

2.2 基于多尺度特征提取和多层特征融合的候选区域提取

不同尺度特征都包含丰富的语义信息。对于多尺度的卷积层,低网络层具有较小的感受野,包含更多位置、细节信息,能够获取到低层信息,更利于小目标的检测与识别;高网络层具有更强的语义信息。无人机随着飞行高度的升高,在图像中像元比例也会降低,极小目标在经过多次下采样,会出现消失的情况。充分利用多尺度信息,能够提升小目标检测性能。

特征金字塔网络(feature pyramid networks,FPN)是用于检测不同尺度对象的基本组件,结合低层高分辨率和高层特征的强语义信息,特征层横向连接,通过融合不同层的特征达到预测效果,具体结构如图5 所示。

图5 特征金字塔网络(FPN)结构Fig.5 Structure of feature pyramid network(FPN)

图5 区域a 是自底向上的金字塔结构,区域b是自顶向下的结构。区域a 各层与区域b 经过1*1卷积核的方式横向连接。区域a 底层图像经过多次下采样到达顶层,即深层网络对应的特征图;区域a中深层网络特征图,经过多次上采样得到区域b 中的特征图层,使用残差结构的深度卷积,融合底层和高层特征。FPN 在不同尺度的特征层独立预测,将高、低层网络信息相结合,发挥特征互补优势,从而改进小目标检测性能。

Faster RCNN 原始模型在逐层卷积的过程中,小目标在高层特征图中会被压缩至极小的像素点,甚至会出现目标消失的情况。采用高层网络特征图做预测,低层语义信息少,缺少多层特征信息的利用,导致小目标的检测结果不准确。将FPN 与Faster RCNN 相结合,采用多尺度信息融合的方式,利用融合后的信息做预测。从而强化网络对小目标物体的敏感度。Faster RCNN 结合FPN 的网络部分结构如图6 所示:

图6 Faster RCNN 结合FPN 的网络部分结构Fig.6 Partial network structure of faster rcnn combining FPN

在Faster RCNN 特征提取的主干网络中,顶层特征图经过上采样,将上采样结果与逐层特征图信息融合,在融合之后采用3*3 的卷积核对融合结果进行卷积,消除上采样的混叠效应。针对不同尺度的融合结果进行对应层的Anchor 操作,生成候选框。该过程充分融合了高、低层网络的目标信息,更利于小目标的检测。

2.3 基于ResNet101 主干网的Faster RCNN 改进网络

通过对微小目标检测方法的探索,以及对数据集中无人机目标的分析,提出基于faster RCNN 的改进网络,实现红外小目标的精准检测。本文依据目标的外形结构,将外形结构清晰的目标样本归为简单例,其余为复杂例。目标形态的部分示例如下页图7~图8 所示。

图7 部分简单例目标形态示例图Fig.7 Some simple examples of target morphology

图8 部分复杂例目标形态示例图Fig.8 Some complex examples of target morphology

特征提取的共享卷积网络是目标检测模型的关键部分,选择合适的主干网络至关重要。针对主干 网 络,本 文 采 用VGG16、Alexnet、ResNet50 和ResNet101 进行实验对比。将Faster RCNN 作为目标检测模型,且模型超参数配置一致,将相同的红外小目标数据集做模型训练和验证,对比结果如表1所示。

表1 采用不同特征提取网络对应小目标检测结果Table 1 Detection results of abstracting the small targets relative to network with different features

经过理论和实验对比分析,ResNet101 性能较优。故本文采用基于ResNet101 主干网作为共享卷积网络提取特征。由表1 数据可知,基于ResNet101主干网的Faster RCNN 原始网络模型对红外无人机目标的检测性能有待提升。

通过对数据集的分析,依据样本的表征性,采用基于迁移学习的红外弱小目标检测模型结构,如图9 所示。

图9 基于迁移学习的红外无人机目标检测模型结构Fig.9 Target detection model structure of infrared uav based on transfer learning

在ImageNet 数据集上通过ResNet101 主干网提取特征,并预训练RPN,根据RPN 产生的区域proposals 训练Fast R-CNN 模型,用包含11 种场景的红外图像微调网络,更新RPN 网络参数,防止模型过拟合。目标检测的具体流程如图10 所示。

图10 基于迁移学习精准目标检测流程Fig.10 Accurate target detection process based on transfer learning

其中,conv 表示特征提取的共享卷积主干网络,R 表示候选框提取,C 表示分类结果,B 表示目标位置信息,F 表示全连接层,pool 表示ROI Pooling。将训练集经过共享卷积神经网络提取特征,通过简单例指导学习走向,对简单例提取候选框,经过ROI Pooling 做样本后处理,得到精准的类别概率和位置信息。之后基于特征的迁移学习方式,对难例作进一步学习与调整,利用RPN 共享权重和用难例更新之后的RPN 对Faster RCNN 网络进行再训练,使得模型能够更快、更高效地完成学习。

将Faster RCNN 模型融合FPN 结构,并将Res-Net101 作为主干网,形成加强版小目标检测网络,如图11 所示。

图11 基于Resnet101 主干网的无人机目标检测网络结构Fig.11 Target detection network structure of uav based on resnet 101 backbone network

图12 目标候选框过滤精简结果Fig.12 Filtering and simplified results of candidate frame

其中,RPN网络模型默认使用anchor为16,32,64,aspect_ratio 为0.5,1.0,2.0,即k=9 的组合方式,每个像素点有9 种anchor。基于Resnet101 主干网的无人机目标检测网络结构工作流程如下:

Step1 特征提取,将ResNet-101 作为共享网络提取特征图;

Step2 融合FPN,在共享卷积网络中,针对不同尺度的特征图提取区域候选框,每层只处理单一的

尺度信息。结果进入ROI Pooling 层统一处理;

Step3 初始化anchors,计算有效的目标anch-ors,并获取anchors 的置信度和平移缩放系数;

Step4 RPN 提取,特征图通过RPN 模型预测,生成的候选框存在大量重叠,对anchor 进行NMS操作,将重叠的候选框做过滤精简。精简结果如图12 所示。计算预测框与真实框的IOU,如果值大于0.8 则为正样本,如果小于0.3 则为负样本。从正样本中随机挑选128 个样本,如果不够则使用负样本补齐,负样本128,比例为1∶1,并得到类别置信度和预测框的坐标系数。

Step 5 计算RPN loss,依据目标anchors 参数(置信度与平移缩放系数),计算预测值与目标值的损失;

Step 6 根据anchors 的置信度与平移缩放系数预测值,计算预测框和预测框坐标系数,并确定预测框所属类别。通过bounding box regression 获得每个候选框的位置偏移量bbox_pred,用于回归更加精准的目标检测框;

Step 7 ROI Pooling,根据特征图和预测框获取固定尺寸的目标特征图,经过ROI Pooling 尺度一致化处理,得到7*7 的特征图。便于目标分类和预测框的修正处理;

Step 8 分类预测,通过全连接层计算候选框类别及位置偏移量,得到更加精准的目标检测框;

Step 9 计算分类损失。

采用交叉熵损失函数计算预测值和真实值的损失,损失分为分类loss 和边框回归loss。对于边框回归使用Smooth L1 loss,计算方式如式(1)所示:

3 实验结果与分析

3.1 实验数据分析说明

本文重点针对空中弱小飞机目标进行检测。由于红外小目标图像数据的特殊性,公开数据量较少。通过多方开源数据集的获取,用于本实验的数据集共有4 719 张[29-30]。实验数据根据目标大小,场景复杂程度分类,数据集共分为11 组。在数据集图像中,高空目标背景干净,但也存在云层干扰的情况;低空目标背景较复杂,目标检测会受到山脉、建筑物等复杂地物的干扰,由于成像距离较远,目标尺寸较小、信号微弱,在图像中体现为几十个甚至是几个像元。表1 列出11 组待测图像序列的详细描述,具体信息如表2 所示,其中,部分样本目标形态描述如图13 所示。

图13 部分目标形态描述图Fig.13 Partial test data and detection results of each scene

如图13 所示,有些目标外型轮廓清晰,易学习;有些目标形态模糊,所占像元比例少。该种呈亮点分布的图像将给目标的有效检测带来挑战。

3.2 实验结果定性分析

实验运行于3.7 GHz Intel Core i9 处理器,32 G内存的64 位计算机,运行环境为Matlab R2019a。本文实验采用随机梯度下降法(SGDM)训练网络,初始学习率为1e-5,训练期间降低整体学习率的方法为piecewise,动量因子为0.9,学习率下降系数为0.1,最大循环次数为100,每次学习的最小样本数量设为1。

为评估本文算法的有效性,选取5 种算法与本文算法进行对比,并检测11 组图像序列的弱小目标。实验中选择了典型的传统检测方法、深度学习检测方法以及二者结合的方法,对比算法分别为Tophat、MPCM、WSLCM、基于视觉注意机制的检测方法、Faster RCNN。下页图14 给出11 组图像序列及对应各场景部分测试数据及检测结果。

图14 各场景部分测试数据及检测结果的示例图像Fig.14 Sample images of test data and detection results for each scenario

使用本文算法和对照组算法对各组图像序列进行检测,图14 中,第1 列是原始图像,第2 列~第6 列是对比算法检测结果,最后一列是本文算法检测结果。经实验结果对比分析,传统检测方法对背景干净、形态较鲜明的目标检测效果较好,如MPCM 方法对应前4 组场景的检测效果所示;传统方法无法检测出复杂背景下的目标。文献[29]中所提方法对两目标距离较近的场景,无法区分出多目标,如组2 检测结果所示。同时,对于复杂地物干扰的场景,无法检测出目标,如组5、组7 所示。本文所提方法的检测结果较文献[29]所述方法,能够有效检测出复杂地物干扰的目标,对近距离的多目标鲁棒性强。Faster RCNN 算法对红外弱小目标的检测存在误检、漏检现象。经对比分析,本文算法精准度高,鲁棒性强。

3.3 实验结果定量分析

本文采用精确率P、召回率R、虚警率FA、漏警率MA 评估基于ResNet101 主干网的Faster RCNN改进网络对红外弱小目标检测的性能,并与上述5种算法作对比。评估指标的定义如下所示:

精确率P(precision):正确检测的目标占被检测总目标的比例。定义如下:

召回率R(recall):正确检测的目标占真实目标的比例。定义如下:

虚警率FA(false alarm):被检测出的虚假目标占被检测总目标的比例(越小越好)。定义如下:

漏警率MA(missing alarm):被漏检的弱小目标与所有真实目标的占比(越小越好)。定义如下:

式中,TP 为弱小目标被检测出的个数;FN 为弱小目标未被检测出的个数;FP 为非弱小目标被检测出的个数。

使用本文方法和对比方法对1 322 幅图像进行评估测试。在复杂背景下,单目标、多目标检测的评估结果如表3 所示,精确率较传统方法的最优值提升14%,较Faster RCNN 提升7%;召回率较传统方法最优值提升3%,较Faster RCNN 提升5%;虚警率较传统方法最优值降低13%,较Faster RCNN 降低6%;漏警率较传统方法最优值降低3%,较Faster RCNN 降低5%。经过对比分析,本文所提算法检测精度最高,虚警、漏警率最低。

表3 本文方法和对比方法的评估指标值Table 3 Evaluation index value of the proposed method and correlation method

4 结论

针对空中红外目标信噪比低、成像尺寸小、受到复杂地物干扰的问题,本文提出基于ResNet101 主干网的Faster RCNN 改进网络,通过将多尺度特征和多层特征融合,结合低层高分辨率和高层特征的强语义信息,准确获取目标的候选区域;利用残差结构简化深层网络的训练,优化模型结构;基于候选框的检测方法,采用Anchor 机制并充分考虑不同尺度的区域特征;通过迁移学习的方法解决小样本数据集泛化性差的问题,提升复杂背景下红外弱小目标的检测效果。经过实验的定性、定量分析,对于背景中存在复杂地物、云层等高亮背景干扰的弱小目标,本文所述方法检测精度最高,综合效果最好。

猜你喜欢

候选框弱小红外
啊!水手,上岸吧
重定位非极大值抑制算法
网红外卖
面向自然场景文本检测的改进NMS算法
闪亮的中国红外『芯』
基于Soft-NMS的候选框去冗余加速器设计*
TS系列红外传感器在嵌入式控制系统中的应用
一种针对特定目标的提议算法
基于快速递推模糊2-划分熵图割的红外图像分割
我有特别的喝水技巧