基于注意力和自适应特征融合的SAR图像飞机目标检测*

2024-03-26夏一帆赵凤军王樱洁王春乐

电讯技术 2024年3期

夏一帆,赵凤军,王樱洁,王春乐

(1.中国科学院空天信息创新研究院,北京 100190;2.中国科学院大学电子电气与通信工程学院,北京 100049)

0 引言

合成孔径雷达(Synthetic Aperture Radar,SAR)以其全天候、全天时、高分辨率和穿透云雾和植被的能力,具有光学传感器无法比拟的优势,在目标检测中逐步得到应用。飞机目标具有高价值和时敏性的特点[1],对检测的自动化、有效性和实时性提出了较高的要求,因而精确、鲁棒、快速的飞机目标检测算法成为当前研究的热点。

以恒虚警率(Constant False Alarm Rate,CFAR)等为代表的传统SAR目标检测算法,主要思想是将目标从背景中分割出来后,根据目标的特性建立模型进行检测和识别。传统的算法[2-5]检测往往依赖人工设计特征,实现过程效率低且泛化能力差,对强噪声的抑制能力较弱,在复杂场景下受周围强反射地物干扰难以准确建模。

随着计算机算力的提升和深度学习的发展,基于神经网络的目标检测算法开始兴起。Girshick等人[6]提出了二阶段目标检测算法R-CNN(Region Convolution Neural Network),通过选择性搜索算法获得候选区域,并使用CNN提取特征,然后将提取的特征输入分类器进行分类,最后利用全连接网络进行边框回归。此后的Faster R-CNN[7]和Cascade R-CNN[8]等都是基于该思想加以改进。Redmon等人[9]提出了一阶段目标检测算法YOLO(You Only Look Once),其思想就是将图像划分成多个网格,然后为每一个网格同时预测边界框并给出相应概率。YOLO系列发展迅速,迄今已有多个版本,受到了研究者们广泛认可[10-12]。

虽然许多研究者都注意到了飞机目标在SAR图像中多呈现出小目标密集分布的情况,但是却往往忽视了SAR图像中飞机目标的多尺度的问题。过于专注于小尺度飞机的检测效果会影响模型对于大尺度飞机的整体特征的提取。此外,在飞机检测过程中,背景地物的强散射点(如航站楼、塔台等)分布在飞机附近会弱化飞机目标的散射,且飞机部件的散射会和地物的散射点混淆,使得飞机难以判别和准确定位。为此,本文着眼于SAR图像飞机检测中目标多尺度和背景强散射干扰的两大挑战,试图提出一种基于坐标注意力和自适应特征融合的SAR图像飞机目标检测方法。算法首先在YOLOv4的主干网络中引入坐标注意力机制(Coordinate Attention,CA),有效改善了对于图像边缘目标检测效果,增强了对于飞机散射点集合的聚焦能力。同时,在特征融合网络中将路径聚合网络(Path Aggregation Network,PANet)和自适应特征融合(Adaptively Spatial Feature Fusion,ASFF)网络结合,优化网络对飞机多层特征的提取与融合,抑制特征图中噪声叠加。此外,为了先验框能够更好地检测目标,利用基于交并比(Intersection over Union,IOU)距离改进的K-means算法对真实框进行重新聚合获取先验框。改进后的YOLOv4召回率达到91.01%,精确率达到90.09%,AP0.5达到92.34%,显著优于原算法。

1 算法描述

1.1 YOLOv4算法简介

YOLOv4[13]作为一种单阶段目标检测算法,核心思想是利用整张图片作为网络的输入,直接输出检测框的位置和类别。YOLOv4通过对前人的研究成果进行整理组合,加以创新,实现了速度和精度的平衡。在预处理阶段,YOLOv4采用Mosaic数据增强方式,将4张图片进行随机变换组成一张图片,达到扩充数据集的目的。YOLOv4改进自YOLOv3,主干网络相较于YOLOv3,在原主干网络Darknet53的基础上引入跨阶段局部网络(Cross Stage Partial Network,CSP)和Mish激活函数,最终获得CSPDarknet53网络。为了更好地利用特征信息,YOLOv4在颈部网络引入空间金字塔池化[14](Spatial Pyramid Pooling,SPP)和路径聚合网络来增强感受野的作用,获取更全面的细节特征。

1.2 坐标注意力机制

在SAR图像飞机检测的过程中,一方面,在SAR图像存在大量的噪声,这些噪声会影响模型对于目标特征的提取[15];另一方面,飞机所在的机场中往往会有建筑物、车辆等具有强反射点的物体,这些会对飞机的检测造成干扰。为了抑制背景噪声,提高模型对于飞机目标特征表达能力,本文在主干网络中集成了坐标注意力机制[16]。

受到人类视觉机制的启发,注意力机制倾向于通过快速扫描全局图像,关注图像中有利于判断的部分信息,并忽略掉不相关的信息。注意力机制具有“即插即用”的特点,对于通道数为C,高度为H,宽度为W的张量X进行转化后能够输出同尺寸张量Y,不影响输入后续的网络结构,即

X=[x1,x2,…,xc]∈H×W×C→Y=
[y1,y2,…,yc]∈H×W×C

(1)

图1为坐标注意力机制的结构图。坐标注意力机制分为位置信息嵌入和注意力生成两部分。

图1 坐标注意力结构Fig.1 Structure of coordinate attention

对于输入的特征图X∈H×W×C,首先利用沿水平方向的全局池化和沿垂直方向的全局池化对每个通道进行编码,获得一对嵌入位置信息的方向感知特征图。其中,高度为h的第c通道的输出特征图和宽度为w的第c通道的输出特征图可以分别表示为

(2)

(3)

之后在注意力生成阶段,对上面变换拼接成大小为C×1×(H+W)的特征图。为了降低模型的复杂性和计算的开销,采用1×1的卷积变换将其压缩至C/r维(在实验中取r=16),之后使用激活函数(在本文使用GELU激活函数)进行非线性激活。即

f=δ(F1(concat(zh,zw)))

(4)

式中:f表示获得的特征图;δ表示非线性激活函数;F1表示1×1的卷积变换;concat表示拼接操作。

将获取到的特征图f沿空间维分解为张量fh∈C/r×H和fw∈C/r×W。利用1×1的卷积变换将两张量恢复至C维,并利用sigmiod激活函数进行非线性激活,获得注意力图:

gh=σ(Fh(fh))

(5)

gw=σ(Fw(fw))

(6)

最后,将注意力图gw和gh和输入特征图x相乘获得输出:

(7)

如图2所示,本文在YOLOv4的主干网络CSP-Darknet53后3个残差块中集成坐标注意力模块,使不同尺度的特征图能够充分利用全局信息,同时侧重于提升对飞机散射点集合的特征的提取能力。

图2 集成坐标注意力模块的主干网络CA-CSPDarknet53Fig.2 Backbone CA-CSPDarknet53 with integrated coordinate attention module

对样本进行热力图实验验证,结果如图3所示。对比图3(b)和图3(c)的红色区域可见,引入注意力机制后,网络对于飞机散射结构的聚焦能力得到增强,目标检测效果得到有效改善。

图3 热力图对比Fig.3 Comparison of heatmaps

1.3 自适应特征融合技术

在特征提取与融合阶段,YOLOv4的目标检测采用PANet[17]结构。PANet对于不同尺度的特征图通过卷积、上下采样变换成相同尺寸后进行堆叠。当数据集中包含不同大小的目标时,会出现在某一层特征图中一个对象被判定为正,在其他层次中被判定负的矛盾。为了提高对不同大小飞机的特征提取能力,同时降低不同特征图中的噪声叠加的影响,本文在特征融合网络PANet和YOLO检测头之间引入自适应特征融合机制ASFF[18],结构如图4所示。

图4 ASFF结构Fig.4 Structure of ASFF

(8)

(9)

(10)

(11)

PANet获得的3个不同尺度的特征图经过ASFF处理后,获得的3个特征图尺寸仍与输入一致,方便输入检测头结构获得最终的分类和坐标信息。结合前文改进骨干网络CA-CSPDarknet53,最终改进的YOLOv4网络结构如图5所示。

图5 改进YOLOv4结构Fig.5 Structure of improved YOLOv4

1.4 利用改进K-means聚类方法获得先验框

对于YOLO等基于锚框的算法,锚框的设置将最终影响检测的性能。原始的YOLO锚框主要是针对COCO数据集聚类得到的,适用于检测多类别目标,对于本文要识别的对象并不适用,因此本文利用K-mean聚类方法获得先验框。为了避免大尺寸框在欧氏距离中分布过于离散导致获得的先验框不能覆盖到不同尺寸的目标的情况,实验中用IoU的距离替换欧氏距离。IoU距离表示为

D=1-IoU(box,centriod)

(12)

(13)

式中:IoU表示交并比运算;box为标记框面积;centriod为类簇中心面积。最终的聚类获得的9个先验框为(18,18),(20,31),(29,22),(26,26),(29,31),(37,37),(53,65),(66,53),(107,107)。

2 分析与验证

2.1 实验数据集

本实验采用华中科技大学公开的SAR图像飞机目标检测数据集[19](SAR Aircraft Detection Dataset,SADD)。该数据集获取自TerraSAR-X卫星,图像分辨率在0.5～3 m不等,部分数据集如图6所示。

图6 数据集展示Fig.6 Examples of SADD dataset

数据集共有2 966个大小为224×224的切片,包括7 835个飞机目标。本次实验将数据集按照6∶2∶2的比例随机划分为训练集、验证集和测试集,如表1所示。

表1 数据集划分Tab.1 Dataset splitting

2.2 评价指标

本次实验使用精确率(Precision)、召回率(Recall)和类别平均精度(Average Precision,AP)[20]3项指标对模型的检测效果进行量化评价,并采用采用输入张量大小为(224,224,3)时的算法10亿次浮点运算次数(Giga Floating Point Operations,GFLOPs)[21]和生成参数文件大小来衡量计算效率与存储占用量。

精确率表征为在所有被检测为飞机目标的结果中实际为飞机目标的概率,召回率表征为实际飞机目标中被预测为正样本的概率,两者公式如下:

(14)

(15)

式中:TP表示被正确检测到的飞机目标数量;FP表示被算法错误识别出的飞机目标数量;FN表示没有被识别出的真正的飞机目标数量。

AP能够反映单目标检测算法的全局性能,公式为

(16)

式中:Precision(Recall)表示精确率-召回率曲线;IOU为交并比阈值。本次实验采用AP0.5作为评价指标。

由于在实际应用中算法的计算效率与算法复杂度、硬件环境甚至深度学习框架的版本有关,而软硬件环境往往是不同的,我们从算法的复杂度对算法的计算效率进行刻画,故采用输入张量大小为(224,224,3)时的算法浮点运算次数(Floating Point Operations,FLOPs)来评价计算效率,公式表示为

(17)

式中:D,Ml,Kl,Cl-1和Cl分别代表网络总层数、第一层输出特征图尺寸、卷积核尺寸、第l-1层与l层通道数。

2.3 实验环境及训练参数

本次实验环境GPU为RTX A4000,显存16 GB;CPU为12核Intel(R) Xeon(R) Gold 5320;内存为32 GB;操作系统为Ubuntu 20.04。深度学习环境配置为TensorFlow v2.5+Cuda v11.2 + cuDNN v8.1.1。

为公平比较,实验训练过程统一采用SGD算法进行优化,初始学习率设置为0.05,并采用cos退火算法进行学习率衰退,学习率最低可降低到5×10-5,动量参数momentum设置为0.937,权值参数设置为5×10-4,batch设置为32,训练epochs为800,并取最好实验结果。

2.4 与其他目标检测算法对比

表2为本文改进算法与主流的一阶段检测算法SSD、EfficientDet[22]、YOLOv3[23]、YOLOv4、YOLOv5-x的比较,并结合图7进行部分测试集的可视化对比。

表2 SAR飞机识别网络综合性能比较Tab.2 Comprehensive performance comparison of SAR aircraft detection networks

图7 不同算法结果可视化对比Fig.7 Visual comparison of the results of different algorithms

通过对表2结果进行分析可以看出,本文的改进算法与原YOLOv4算法相比,引入CA和ASFF机制后网络层数增加,改进算法的FLOPs和参数文件大小分别增加了4×106和11 MB,但是召回率、精确率和AP值分别提高2.49%,6.56%和3.62%,做到了在尽可能少地引入额外参数量的情况下实现精确率、召回率和AP值的提升。轻量化算法EfficientDet虽然有较高的精确率和较低算法复杂度,但是82.46%的召回率无法满足算法对于检测性能的总体需求。与YOLO系列进行比较,改进算法除了具有最高的召回率和精确率之外,在精确率上也有了显著的提升,达到了90.09%,较次高的YOLOv5-x提升了4.86%,改善了YOLO系列算法在SAR飞机目标检测中存在的精度低下的问题。

图7中组1、组2和组3展示了6种算法在强散射干扰图像中的检测效果。3组图像中,飞机呈现出以小尺寸规则分布于建筑物一侧的特点,而飞机目标附近航站楼等建筑物存在的强散射点会弱化飞机头部、机翼等部件的散射。此外,部分地物散射点也会有与飞机相近的散射特征,这使得算法容易产生漏检和虚检。如组2中航站楼的某处强散射点被YOLOv5判定为飞机,组3中除改进算法外其他算法都有不同程度的漏检。前3组图表明在背景地物强散射点干扰环境下,改进算法的检测表现要明显优于其他算法。

组4和组5中飞机呈现出小尺寸、紧密排列的特征,同时结合组1、组2、组3中小目标的检测表现,发现YOLO系列对于小目标具有更好的检测性能。但是对于图6这种大尺寸目标,YOLOv3和YOLOv4的检测效果却不如SSD和EfficientDet的检测效果。组7展示了不同大小的飞机目标出现在同一样本图片中的检测效果,各种算法对于小尺寸飞机目标都有不同程度的漏检,其中YOLOv5未检测出左侧的小目标,而EfficientDet将多个小目标视作一个整体进行检测,改进算法则仅漏检一个目标。组4～7的实验表明,改进算法对于多尺寸的SAR图像飞机目标检测具有更显著的效果,说明针对SAR图像飞机尺寸多的特点引入CA和ASFF机制是有效的。

2.5 消融实验结果分析

为证明算法各种改进的有效性,在YOLOv4的基础上对不同改进及改进组合进行消融实验,结果如表3所示。

表3 消融实验对比Tab.3 Ablation experiments

实验2对比实验1,精确率提高2.40%,表明改进K-means聚类方法获得的先验框能够更好覆盖不同尺寸的飞机目标,提高定位精度。

为了验证CA机制相较于其他注意力机制的优势,实验3、实验4以及实验5在实验2的基础上比较了CA机制与常用的BAM[1,24]以及GAM[25-26]的性能。实验显示3种注意力机制都有助于提升目标检测算法的检测性能。引入CA和BAM两种机制较实验2在召回率上分别提高了0.51%和0.95%,而引入GAM后召回率反而降低了1.61%。对于精确率和AP0.5值,引入3种注意力机制后相较于实验2都有所提升,其中实验3引入CA机制提升最高,精确率提高2.69%,AP0.5提高1.54%。结合图3的热力图,表明CA机制较BAM和GAM能够更有效地提高检测算法性能,增强网络对于飞机结构的提取能力。

实验6虽然在结果上较实验2召回率降低了1.83%,但是精确率和AP0.5值分别提高了1.64%和0.36%,召回率与精确率相近,实验结果表明ASFF机制对于实验模型的精确率和召回率起到平衡作用。

实验7在综合改进机制后,召回率、精确率和AP0.5达到了91.01%,90.09%和92.34%,相较实验1分别提高2.49%,6.56%和3.62%,改进效果显著。实验表明CA和ASFF机制结合改进算法能够满足SAR图像飞机目标检测的任务的需要。

3 结束语

本文着眼于SAR图像飞机检测中存在的目标尺度多样性和背景强散射干扰的问题,提出了一种基于注意力和自适应特征融合的YOLOV4 SAR图像目标检测算法ASFF,能够缓解精确率和召回率之间不平衡的问题。此外,为了确保先验框能够更好地检测目标,本文利用基于交并比距离改进的K-means算法对数据集的真实框进行重新聚合获取先验框。与其他算法的对比结果表明,本文的改进算法满足了在不同条件下对飞机目标进行识别的需求。随后进行的消融实验进一步证明了本文算法各种改进的有效性。未来的工作将重点优化网络结构,实现高检测效率、低算法资源消耗。