APP下载

可变形残差卷积与特征融合金字塔的SAR图像船舶识别

2022-03-26王博任庆慧周慧

电子元器件与信息技术 2022年1期
关键词:特征提取卷积船舶

王博,任庆慧,周慧★

(1.大连东软信息学院软件工程系,辽宁 大连 116023;2.大连东软信息学院大数据科学与技术系,辽宁 大连 116023)

0 引言

合成孔径雷达(synthetic aperture radar, SAR)技术作为一种主动式频率分析成像传感器,利用小尺度真实天线孔径雷达沿长线阵轨迹等速运动辐射,并结合对相参信号数据处理形成全时候高分辨率遥感影像,从而对包含伪装遮挡性的物体具备全时观测能力[1]。随着SAR成像技术不断进步,对SAR图像中船舶目标识别的准确性与时效性提出了更高的要求。

经典SAR图像船舶目标检测方法[2]根据数据及特征类型不同,设定不同的门限参数区分图像内部像素点,以完成目标及背景的分割实现目标检测[3]。然而此类方法区分设定相对单一,面对不同场景需制定具体的解决方案,在实际使用过程中经常发生船舶识别泛化能力差、虚警率高的问题。

随着人工智能计算机视觉技术的发展,基于深度学习图像识别算法在目标检测、语义分割等多个领域取得了相比传统算法更高效的应用效果,深度学习算法以其端到端的检测思想,根据不同识别目标构建训练样本,几乎无需人工干预完全应用一套网络结构训练,就可实现不同场景特定目标的识别。深度学习技术在应用SAR图像船舶识别时无需区分近岸远海目标,网络通过自主学习便完成深度语义特征提取[4]。

如今已涌现的应用于自然光学影像中的目标检测算法为基于深度学习的SAR图像船舶识别提供了良好的理论基础。按照目标检测分类原理可以将现存算法分为两种类别,其一为基于候选框卷积的RCNN系列(包含Fast RCNN[5]和Faster RCNN[6])构建的Two-stage检测算法,另一种为基于回归卷积的Yolo系列(包含Yolo3[7]、Yolo4[8])构建的One-stage检测算法。Two-stage算法核心在于候选框的选择其运行步骤为候选框选取、特征提取、分类及回归算法,模型结构决定其特点为检测精度高但检测速度慢,One-stage算法核心在于仅运用一次卷积即实现全特征提取,模型结构决定其特点为检测速度快但检测精度较低。

鉴于Faster RCNN的高检测精度,较多研究学者将其应用至SAR图像船舶识别任务中。李广帅等人[9]基于Faster RCNN通过设计多路不同尺寸卷积核加强对浅层特征的提取,采用增加特征提取网络深度以增加模型复杂度换取检测精度的提升。2021年,曹磊等人[10]基于Faster RCNN通过特征提取对网络中最深3个特征层进行特征提取及正则化处理,并与区域建议网络RPN进行信息融合,但依旧是从增加特征提取网络深度出发,增加模型复杂度。阮晨等人[11]通过将注意力机制和特征金字塔与原Faster RCNN特征提取网络相结合,以一种加权融合的方式拓宽网络宽度以提取丰富的语义信息,实验验证了其有效性与可行性。同时,基于检测速度的提升,樊海玮等人[12]提出采用新的二分类损失函数并使用软化非极大值抑制算法(Soft-NMS)进行优化,有效提升了检测速度,但检测精度有所损耗。

对于提升复杂场景下的SAR图像目标检测精度及检测速度,降低模型复杂度及训练代价,仍然是当前大多数算法亟需解决的问题。本文基于Faster RCNN算法进行优化。首先,在特征提取网络中引入可变形残差ResNeXt101_vd卷积网络,使用一种平行堆叠相同拓扑结构的组卷积模块,使模型层数加深情况下依然降低超参数计算代价,同时添加DCN[13]可变形卷积模块以提高特征提取中对几何目标形变的适应能力。其次,将特征融合金字塔FPN[14]网络嵌入传统RPN中以映射为新的特征空间用于检测目标,同时利用Kmeans算法对初始先验框进行优化以增加多尺度目标检测精度。

1 改进的Faster RCNN模型

对于解决复杂场景下的SAR图像船舶目标检测任务,传统Faster RCNN会因结构本身造成对多尺度的船舶目标检测性能不鲁棒、沿海区域复杂场景船舶虚警漏警率高等问题,针对此问题,本文提出一种改进的Faster RCNN模型。其网络结构如图1所示,主要有以下2方面改进。

图1 本文算法网络结构

为了提高小目标检测精度,解决Faster RCNN在特征提取最大池化操作中特征图分辨率低下造成的小目标细节信息丢失问题,及多尺度目标旋转角度多变造成的虚警率高问题,替换原VGG16网络为ResNeXt101_vd网络,并引入DCN网络构成可变形残差卷积ResNeXt101_vd-DCN网络。

为了高效利用尺度不同的特征图,解决使用Anchor boxes生成机制引起的边框回归收敛较慢问题,融合原区域建议网络RPN为特征融合金字塔FPN网络,并利用Kmeans算法优化锚点框,使其更符合SAR图像中船舶形状特征。

1.1 可变形残差卷积模块

传统Faster RCNN在初始特征提取中将VGG16作为主体网络,其网络结构较大产生训练参数太多,易出现训练冗余且过拟合现象。虽然VGG16每2~3次卷积后就会使用一次最大池化操作用以减小网络复杂度,但随着网络加深多次池化后的特征图分辨率会大幅下降,造成小目标细节信息丢失问题。因此,本文尝试替换为ResneXt作为主体网络,ResneXt网络结合了VGG网络堆叠的结构及Inception网络拆分-转换-合并的思想,基于Resnet设计出一种高度残差模块以解决加深网络层引起的退化问题,同时引入cardinality基数在减少超参数复杂度的同时提高准确度,借鉴Resnet-D型网络对于下采样块的改进,在ResneXt网络每组残差卷积中平行添加1个平均池化avgpool,以避免卷积过程出现的信息流失。图2为最终融合成的ResneXt101_vd网络中一个基本模块,可在每个低维构建中执行一系列变换,最终通过将输出相加的方式聚合。

图2 ResneXt101_vd 的一个基本模块

SAR图像中船舶目标大小比例不一且旋转角度多变,对于此类目标传统的卷积神经网络检测效果不是很好,DCN方法将其卷积核在每一个元素点中增加一个偏移参数,使得经可变形卷积后的感受野不再是单一矩形,而与实际目标形状相匹配,进而使感受野更加精确覆盖在形变的目标周围,普通卷积与可变形卷积的对比如图3所示。可变形卷积核在模型训练过程中可以自觉调整卷积的感受野,从而更加精准地提取目标特征以提高检测精度,但一定程度上也会引入额外的计算代价,因此本文只在ResneXt101_vd的最后一个stage(C5)上引入可变形卷积,以实现增加极少计算量高效提升模型精度的目的。

图3 普通卷积与可变形卷积对比示意图

1.2 特征融合金字塔模块

传统Faster RCNN利用RPN结合主体网络输出的顶层特征图进行后续的目标分类及边框回归操作。顶层特征图是由深层卷积网络多次下采样而得的,虽然具有比较丰富的语义特征信息,但是会大量损失细节信息,并且由于SAR图像成像范围大,内部船舶目标相对较小,导致本身较小的像素信息在多次下采样过程中极易丢失,最终导致船舶漏检。为了解决这一问题,本文引入FPN特征融合金字塔模块并与前主体网络可变形残差卷积模块互联,结构如图4所示。图中C2-C5是ResneXt101_vd网络自下而上的特征映射;C2-C5再通过自上而下路径进行上采样得到较高金字塔分层的特征映射;P2-P6是C2-C5通过1x1卷积核(通道数256)与上采样特征横向连接形成的新的特征映射;P7为P6再进行一次3x3卷积得到,以消除上采样出现的混叠效应,最终即为构建的特征融合金字塔模块。

图4 可变形残差卷积模块与特征融合金字塔模块互联示意图

在P2-P6特征映射层上分别搭配像素面积为{32,64,128},长宽比为{1:1,1:2,2:1}的组合锚点框(anchor boxes),在不同的特征映射层上以每个锚点为中心,每个Anchor框为固定范围进行窗口滑动生成候选框,这些候选框一方面进入全连接层进行分类训练,另一方面计算候选框与真实框的交并比(IoU)选取最佳候选框作为感兴趣区域(region of interest,RoI)用于回归训练。但是由于SAR图像中船舶目标尺度差异较大,使用FPN中Anchor boxes生成机制会发生边界框回归收敛较慢的问题。因此,本文尝试利用Kmeans聚类算法优化锚点框,使其更符合SAR图像中船舶形状特征,首先,将训练集中真实标注框的长宽参数作为Kmeans聚类算法的输入,然后结合Kmeans算法的相似性原则,将K作为锚点框个数划分相似度高的真实框为同簇,尺寸差异度过大的真实框划分为不同簇,取不同簇间的中心框作为锚点框,同时计算不同簇中真实框的高宽平均值,进而取得锚点框的最佳尺寸,Kmeans算法保证了初始聚类中心各自距离尽可能远,同时选用候选框与真实框的交并比(IoU)作为距离指标,计算公式如式(1)所示。

d(box,centroid)=1-IoU(box,centroid) (1)

式中,box代表训练样本的真实框坐标,centroid代表聚类的中心框坐标,d(box,centroid)代表真实框与聚类中心框间的距离,IoU(box,centroid)代表真实框与聚类中心框间的交并比。

2 实验过程与分析

2.1 数据集与实验过程

本文所用数据集为我国国产高分三号SAR图像数据和Sentinel-1SAR图像共同组合数据集[15](43819张SAR船舶图像切片),其成像模式采用Full Polarization1(QPSI)、Full Polarization2(QPSII)等,包含3m、5m、8m、10m多源分辨率SAR船舶图像,数据集如图5所示,利用labelImg标注图像内船舶的类别及位置(共计59534个船舶目标),并按照7:2:1的比例划分为训练集、验证集及测试集。

图5 多尺度复杂场景下SAR 图像船舶数据集

实验平台为Windows server 2012,GPU为NVIDIA Tesla V100,实验开发语言为Python3.6,模型基于Tensorflow实现可变形残差卷积网络模型对船舶目标进行检测。模型训练参数如下:最大迭代次数为180000,学习率采用Adam优化策略,NMS的交互比阈值为0.5,当模型训练loss损失经过数次震荡后变为平稳则完成训练。

2.2 评价指标

本文采用查准率(precision)、查全率(recall)、平均准确率(average precision,AP)、每秒帧数(frame per second,FPS)作为算法的评价指标。

查准率(precision,P):表示算法识别检测全目标中真实正样本的比例,计算公式如下,TP代表真正例,FP代表假正例。

2.3 实验分析

训练完成后利用测试集对模型进行评估,计算各改进模块加入后模型AP值的对比如表1所示,可见替换原VGG16网络为ResNeXt101_vd网络,并引入DCN网络,使模型精度提升了2.91%;同时融合原RPN为特征融合金字塔FPN网络,并利用Kmeans算法优化锚点框,使模型精度再次提升4.28%,该实验表明各改进模块对于SAR图像船舶目标检测精度提升均有明显效果。

表1 引入不同改进模块的检测结果对比

利用数量、尺度均完全一致的SAR图像船舶测试集(4382个)对改进前后的算法进行图像效果识别及相关参数评估,检测结果性能对比如表2所示。可见本文算法的Precision为91.79%,Recall为91.2%,F1_score为91.49%,总体而言,改进后的算法相较于传统Faster RCNN网络上检测精度提升7.19%,检测速度提升3.91,该结果表明改进后算法能实现检测精度及速度双高的SAR图像船舶识别,具有一定的实际意义。

表2 改进前后性能对比指标表

同时在不同复杂场景下检测结果如图6所示,传统Faster RCNN算法虽然可以识别出SAR图像中大部分船舶目标,但对于多尺度复杂场景下(如图6近海建筑)识别检测会出现误警率高的问题,并且对于目标与背景融合度高的场景(如图6岛屿)会出现识别错误的问题,同时对于边缘化目标场景(如图6海域、近海港口)会出现漏检的问题,这些误警、漏检、识别错误的问题,主要由于VGG16网络提取特征不深、RPN网络只从最后一层卷积上提取特征,造成提取的特征没有深层次语义,小尺度目标细节丢失导致。针对上述问题,本文算法通过可变形残差卷积模块、特征融合金字塔模块两种改进综合提升传统Faster RCNN算法检测精度,更加适用于当下多尺度复杂场景下的SAR图像船舶目标识别任务。

图6 改进前后算法识别效果对比示意图

3 结语

本文提出一种基于可变形残差卷积与特征融合金字塔的Faster RCNN目标检测算法,用于SAR图像船舶目标检测研究中。经实验数据集检测结果表明,相较于传统Faster RCNN,本文算法针对在复杂场景下近岸船舶、港口停靠船舶,远海多尺度小目标船舶具有更优的检测精度。在检测时间方面,本文算法相较于传统Faster RCNN也有小幅度提升,能够适应高精度近实时的检测任务。接下来的工作将主要针对算法效率优化方向进行研究,进一步提升检测速度。

猜你喜欢

特征提取卷积船舶
基于3D-Winograd的快速卷积算法设计及FPGA实现
《船舶》2022 年度征订启事
卷积神经网络的分析与设计
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
BOG压缩机在小型LNG船舶上的应用
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法