APP下载

基于轻量级多尺度注意力U-Net的遥感图像飞机检测方法

2022-12-16张善文齐国红徐新华

弹箭与制导学报 2022年5期
关键词:尺度注意力卷积

张善文,齐国红,徐新华

(郑州西亚斯学院电子信息工程学院, 郑州 451150)

0 引言

基于遥感图像(RSI)的飞机自动检测在动态监测和军事监视中具有很高的应用价值,但由于飞机图像在RSI中所占比例相对较小,且飞机图像的个数、大小、姿态、阴影、光照和背景等多变,使得遥感图像飞机检测成为一项具有挑战性的课题。

随着遥感技术、成像平台、大数据等技术的不断发展,涌现出了一些基于卷积神经网络(CNN)和全卷积神经网络(FCN)的RSI飞机检测方法,且取得了显著检测准确率。Zhang等[1]构建了一种基于CNN的有效飞机检测框架,用于检测超大复杂场景中的多尺度目标,能够快速、准确地生成数量适中的目标候选对象,用于检测多尺度飞机。Zhong等[2]利用数据增强、迁移学习、DCNN和有限的训练样本,提出了一种端到端的飞机检测方法。Li等[3]提出了基于改进卷积神经网络的RSI飞机检测,实现了飞机的自动识别与定位。Yan等[4]设计了一种基于中心建议区域和不变特征的飞机检测方法。从RSI中提取建议区域,然后提取不变性特征训练集成学习分类器,利用训练好的分类器从RSI中检测识别飞机。Fu等[5]提出了一种特征融合算法,用于多尺度飞机检测特征表示,取得了较高的检测准确率。兰旭婷等[6]提出了一种基于注意力与特征融合的RSI飞机目标检测方法。该方法结合了注意力模块和特征融合模块,对RSI飞机检测,取得了较高的检测精度和速度。

U-Net是一种比较简单的、广泛应用的图像语义分割模型,在图像分割方面表现出了显著的性能[7]。张翠军等[8]提出了一种基于改进U-Net的RSI建筑物分割方法,对建筑物进行检测。杨丹等[9]在U-Net中融合Inception模块,提出了一种多尺度卷积核U-Net(MSU-Net)并应用于视网膜血管分割任务,在视网膜血管分割中取得了较高的准确率。Tarasiewicz等[10]提出了一个轻量级U-Net(LWU-Net)并应用于多模态磁共振脑肿瘤图像分割中,得到了精确的脑肿瘤轮廓。Xiong等[11]针对工业部件缺陷图像的背景噪声大、环境不可预测、缺陷形状大小不一等因素导致缺陷检测准确率降低问题,提出了一种多尺度特征融合注意力U-Net (AU-Net),该模型将注意力U-Net与多尺度特征融合模块相结合,有效检测噪声低质量图像中的缺陷。Yuan等[12]提出了一种改进的AU-Net,能够就深度丰富的语义信息和浅层细节信息相融合,进行大尺寸差异的磁共振血管造影动脉瘤图像进行自适应精确分割。

针对RSI飞机检测难题,在MSU-Net,LWU-Net和AU-Net启发下,构建一种轻量级多尺度注意力U-Net (LWMSAU-Net),并应用于RSI飞机检测任务。

1 轻量级多尺度注意力U-Net

U-Net是一种全卷积U型对称网络,由相互对称的编码过程、解码过程和连接过程组成,其基本架构如图1(a)所示。传统U-Net对于每个邻域需要运行一次,且对于邻域重叠部分需要重复运算,其运算效率较低。针对RSI和包含的飞机图像的复杂性,在MSU-Net,LWU-Net和AU-Net的基础上,利用多尺度卷积、模型轻量化、残差连接、注意力机制等优点,从U-Net的模型参数个数、编码、解码和连接方式多个角度,对模型进行改进,构建一个轻量级多尺度注意力U-Net (LWMSAU-Net),其基本架构如图1(b)所示。残差连接能够避免提到消失问题,在U-Net编码和解码部分,提高网络的性能。得到编码模块和解码模块如图1(c)和图1(d)所示。

图1 U-Net和LWMSAU-Net结构

在图1(b)中,LWMSAU-Net的编码过程有4个模块,每个模块包含3个卷积和1个最大池化操作,每次池化下采样后,特征图的个数乘以2,其维数变小;解码过程有4个模块,在每个模块操作前,反褶积将特征图的维数乘以2,特征图的数量减半,再与左边对称的编码过程的特征图相结合。由于编码特征图与解码特征图的维数不同,所以需要通过裁剪操作使得对应的特征图的维数相同,便于特征图融合;连接过程采用跳跃连接方式,将U-Net得到的浅层和深层的特征进行融合;最后采用SoftMax分类器进行像素级分类。

模块中由3种不同尺度特征的卷积核进行特征提取:1×1、3×3和5×5,并在卷积后使用3×3最大池化层进行眼底视网膜血管特征信息融合。经过池化层融合后的特征信息输入到1×1卷积层进行尺度压缩,解决了不同尺度信息提取过程中网络参数和特征量冗余的问题。

在编码和解码部分使用一个残差注意力门连接加强特征重用,将编码中提取的低级特征和解码中高级语义特征进行整合,提高模型的检测性能,从而得到更多不同尺度飞机图像的细节,其结构如图1(e)所示。

底层卷积特征能够保留飞机的细节信息,为了最大限度地提取不同尺度大小的飞机图像特征,将多尺度卷积模块Inception引入U-Net编码部分,如图1(f)所示。其主要过程为:将多个不同的浅层和深层网络特征级联,并对不同的卷积层赋予不同的权重,通过模型训练自动学习残差注意力模块中的参数,使得残差注意力模块能够同时关注多个编码得到的特征,使模型更好地关注飞机的局部特征。在每一个注意力门结构中,从解码器的前一层提取的特征被用作门控特征,由此调整并行的残差输出xi的权重;再将经过权重调整后的xi与G进行拼接整合;注意力门函数可表示为:

αi=fatt(αi,G;θatt)

(1)

式中:fatt通过一组参数θatt定义xi与G的运算。运算包含使用通道方向1×1卷积的线性变换以及利用激活函数Relu和Sigmoid的非线性变换。注意力门操作不改变输入xi的维数,所以可以灵活地用于各种U-Net结构中。

模型性能可以通过计算检测的飞机图像与标注的飞机图像之间的差异估计,利用交叉熵值来评定网络的训练效果,当交叉熵值越小,表明网络的训练效果越好。在LWMSAU-Net的训练过程中,计算标注的飞机图像与检测的飞机图像的每个像素点的交叉熵,然后取平均值,再利用平均像素交叉熵损失函数评估评定LWMSAU-Net的训练效果,平均交叉熵损失可表示为:

(2)

式中:p(x)和q(x)分别为标注图像和检测图像的像素分类向量;N为图像的总像素数;X为输入图像的特征向量;x为输入图像每个像素的特征向量。

得到损失值后,再利用反向传播算法将损失值回传到网络的每个卷积层,对卷积层的权重参数进行更新,进行多次迭代直到损失值稳定时训练结束。

2 实验与分析

采用公开RSI数据集EORSSD(https://github. com/rmcong/EORSSD-dataset)中的包含飞机图像的RSI子集进行实验,验证所提出的飞机检测方法LWMSAU-Net。该子集包含258幅飞机RSI图像,不同图像包含一个或多个小尺寸、不同位置和角度、不同分辨率和背景的飞机。由于原始飞机RSI的分辨率不同,从973像素×760像素到242像素×239像素,为了模型方便训练,将每张图像的大小调整为128像素×128像素。利用图像数据集扩展方法将每幅图像扩展为10幅图像,得到共包含2 580幅飞机RSI数据集。在扩展数据集中每幅图像都包含飞机,以保证所提出检测方法可对飞机自动检测。在该数据集上按照5折交差验证法进行实验,并与U-Net,MSU-Net,LWU-Net和AU-Net方法进行比较。迭代次数设为3 000,学习率为0.01,批大小为32,Adam为模型优化算法。所有实验的软件配置为PyCharm,Keras,TensorFlow,Python;硬件配置为64位操作系统Win10,Intel(R)CoreTM i7-9700KCPU@3.6 GHz,64.0 GB内存,NVIDIA GeForce GTX1070Ti。

检测准确率表示正确分类的飞机像素占真实飞机像素的比值P:

(3)

式中:TP为经过网络得到的飞机检测结果与原始飞机区域的重合部分;FP为分割结果中不属于飞机区域的部分。

图2为基于LWMSAU-Net和经典U-Net的飞机检测方法在训练集上关于迭代次数的损失值。

图2 LWMSAU-Net和经典U-Net的损失值

从图2看出,随着迭代次数增加,2个模型的损失值在1 000次之前下降很快,当次数不断增加时损失值趋于稳定;经典U-Net的损失值变化曲线波动较大;当迭代次数大于2 500次时两个模型都基本收敛,表明模型达到了较好的训练效果。为了公平起见,下面实验中,选择所有训练好的模型都为迭代次数为3 000次时的模型,由此在测试集上进行飞机检测。

图3(c)~图3(g)为基于U-Net,MSU-Net,LWU-Net,AU-Net和LWMSAU-Net的检测方法对一幅简单RSI的飞机分割图像。为了充分展现U-Net的优势,将LWMSAU-Net与传统的3种图像分割算法进行比较: K-均值聚类算法(KMC)、改进的均值聚类算法(MKMC)和模糊C-均值聚类算法 (FCM)分割结果如图3(h)~图3(j)所示。

图3 基于飞机分割结果

从图3可以看出:5种U-Net及其改进模型都能实现飞机图像的准确定位和完整分割;LWMSAU-Net的分割效果最好,增强了对细节部分的分割效果,分割图像最接近标注图像;U-Net的分割效果比较差,飞机轮廓模糊,与标注图像差异最大;MSU-Net和AU-Net的分割效果优于LWU-Net;MSU-Net的分割效果优于AU-Net。基于U-Net系列的图像分割方法明显优于传统的图像分割方法的主要原因是:5种基于U-Net类的图像分割方法能够将多层编码部分的低级特征和对应的解码中高级语义特征进行充分融合,再通过分类器Softmax进行像素级分类,可得到完整的飞机图像。

为了表明所提出模型LWMSAU-Net的鲁棒性,分别使用5种U-Net类方法对5幅复杂RSI进行鲁棒性对比实验。复杂图像指RSI的背景且包含的飞机图像模糊、飞机较小,如图4(a)所示,分割效果如图4(b)~图4(f)所示。

图4 由5种U-Net类方法分割的飞机图像

由图4可以看出:5种U-Net类方法均能够将5幅复杂背景下多个模糊的飞机图像分割出来,但LWMSAU-Net几乎不受环境的影响,稳定性较高,能够有效的分割出飞机区域,分割的飞机图像与标注图像最相似;U-Net的分割结果最差,能够定位飞机,但分割的飞机图像的边缘比较模糊;LWU-Net丢失小目标,不能对较小飞机图像进行分割;MSU-Net和AU-Net能够分割出完整的飞机,但分割的飞机图像有明显的噪声。

在2 580幅的扩展数据集上利用5折交差验证方法进行实验。表1为5种U-Net类方法的飞机分割结果。

表1 5种U-Net类方法的飞机检测的平均准确率和 模型的训练时间

由图3和图4可以看出:5种U-Net类方法明显比3种传统方法好。由表1可以看出:提出的LWMSAU-Net优于其他4种U-Net类方法,准确率达94.22%,其次是MSU-Net,其检测性能较好,准确率为92.13%,主要原因是MSU-Net 和LWMSAU-Net均具有多尺度特征提取能力,能够同时对不同尺度的飞机图像进行分割;SCNN和M-FCN不适合提取多尺度飞机检测;LWU-Net和LWMSAU-Net的训练时间较少,其原因是他们的模型为轻量级、层数少、训练参数少;LWMSAU-Net的训练时间最少的原因是,它利用了多尺度卷积模块和残差连接模块,加速了模型收敛。

3 结论

针对传统的飞机检测方法对背景复杂且包含不同尺度飞机的检测效果不理想问题,构建了一种轻量级多尺度注意力U-Net模型(LWMSAU-Net)。该模型充分利用了轻量级、多尺度卷积、残差连接、注意力和U-Net的优势,通过多尺度U-Net提取不同尺度特征图,再通过残差级联,将编码特征与对应的解码特征相融合,从而增加飞机检测的细节信息,提高对较小飞机的检测准确率。在公开的飞机遥感图像集上进行实验验证,结果表明:LWMSAU-Net能够有效分割遥感图像的飞机,准确率为94.22%。未来工作为对遥感图像的密集飞机目标检测进行深入研究,设计参数优化方案,进一步提升本模型的鲁棒性和泛化能力。

猜你喜欢

尺度注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
宇宙的尺度
9