基于Rsnet框架和Mobilenet迁移网络的遥感机场目标识别

2021-07-14王晟全

重庆理工大学学报(自然科学) 2021年6期

李昂，王晟全，张晨

（1.南京邮电大学通信学院，南京 210003；2.南京理工大学紫金学院，南京 210003）

机场目标的识别是一种常见的遥感图像目标提取，具有重要的战略意义，并且因为识别难度较大，一直是研究人员关注的重点［1－4］。常用的机场目标检测算法，如Darknet，是整体求解特殊场景的目标检测［5－6］，它对遥感卫星图片的小特征目标不是很有效。其次，卫星图像中的目标大小和方向各不相同，因为卫星地图是从空中角度拍摄，所以角度不固定，变化较大，目标方向可能并不相同［7－8］，因此，传统的目标检测算法很难准确检测到目标。肖志坚等［9］提出了一种遥感图像中机场跑道的自动识别方法。在分析机场结构特征的基础上，首先采用形态学方法提取图像的线结构；然后通过非监督聚类方法将直线段动态分组；最后进行直线段修复和跑道配对，实现对机场的识别定位。王鑫等［10］提出了基于图像显著性区域的遥感图像机场检测。朱丹等［11］提出了基于直线邻近平行性和GBVS显著性的遥感图像机场目标检测。国外的研究人员也对此进行了相关的研究［12］。工程上常用的解决方法是对数据进行规模转换、旋转等数据增强操作，这就造成了很多有效时间的浪费，效率不高［13］。本文提出应用Rsnet目标检测框架来实现对遥感机场目标的识别。该框架最重要的改进是使用了Global Maxpooling，并且将迁移网络Mobilenet的思想用于主干网络上，主要用于解决全连接问题只对最后一层的特征图进行池化，形成特征点。所以使用Rsnet可以较好地规避特征不明确的问题，使得小型目标识别更加准确。

1 相关工作

表1列举了近年来常见的目标检测算法框架和测试结果，可以发现使用了Darknet为框架的Yolo系列框架取得了较好的成绩，但是这些只是对于相同的公开数据集VOCdevikt的测试，研究发现，现有的网络对于细小目标检测的鲁棒性和准确率不是很好。

表1 近年来的各种目标检测框架的对比（均使用相同数据集和批次）

在Rsnet网络框架中，Global Maxpooling对有可能的特征进行特征选择，选出具有更好分类识别效果的特征，并减小非线性的误差。根据相关理论，特征提取的误差主要来自于2个方面：

1）受限邻域大小增加引起的估计方差。

2）卷积层的参数误差导致估计平均值的偏移。

局部池化主要还是为了增大卷积核的感受野，需要把一块区域内的信息集中起来，相当于对图像做了一个下采样。这个时候有2种保留原来图像信息的方式，一种是取均值、一种是取最大值。对于这种小范围的局部池化有最大池化保留纹理信息，平均池化保留总体信息这种概念。使用全局池化之后，特征图每个channel都被压缩到了一个点，这实际上是对每个channel做了一个信息压缩。这样就对特征不明显的目标的特征提取提供了方便，可以对每个channal进行一次筛选，避免了Darknet对全图整体进行计算的误差。

Moblienet作为迁移网络，具有体积小、易训练、算法空间复杂度小的特点，因此Rsnet和Mobilenet结合的网络框架具有高采样率和对设备性能的低依赖性。

2 目标算法的实现

Rsnet框架主要目的是提高对细微目标的整体感知质量，而迁移网络Mobilenet的作用是为了提高模型的可移植性和可训练性。这部分首先描述了研究提出的网络体系结构，然后讲解为何这样做，最后对该算法进行整体的客观评价指标的测试，使用的数据集是武汉大学开源的Dota数据集里的机场目标。

2.1 框架结构

Rsnet的框架结构如图1所示，该网络将原先的Maxpooling改成了GlobalMaxpooling层，因为这个是基于Darknet-19框架的，所以仍然使用了3×3和1×1的卷积层，其网络框架的连接图如图2所示，较好地表示出该网络的运作机制。

图1 Rsnet的框架

图2 网络框架的连接层

Mobilenet的网络结构如图3所示，MobileNet的结构过于简单，是类似于VGG的直筒结构，导致此网络的性能并不高。但是如果和Darknet、Rsnet等结构结合（复用图像特征，添加Shortcuts）可以大幅提升网络的性能。

图3 Mobilenet的网络结构

统一取80%的数据作为训练集，20%的数据作为测试集。

2.2 算法细节

Rsnet与Mobilenet的结合方案如图4所示，将Rsnet的最后一层卷积层与Mobilenet的BN和Re-LU连接，这就是与迁移网络的结合方案，与BN层连接的目的有以下4点：

图4 Rsnet与迁移网络Mobilenet结合的网络结构

1）加快训练速度，这样就可以使用较大的学习率来训练网络。

2）提高网络的泛化能力。

3）BN层本质上是一个归一化网络层，可以替代局部响应归一化层（LRN层）。

4）可以打乱样本训练顺序从而提高精度。

而ReLU的作用是增加了神经网络各层之间的非线性关系，如果没有激活函数，层与层之间是简单的线性关系，每层都相当于矩阵相乘，神经网络完成的复杂任务是非常困难的。

传统的卷积操作下，计算量为DF*DF*DK*DK*M*N，而Mobilenet使用了深度卷积，其计算量为DK*DK*M*DF*DF＋1*1*M*N*DF*DF通过深度可分离卷积，计算量下降了1／N＋。将Rsnet的最后一个4组层用迁移网络Mobilenet连接，可以同时兼顾精度和速度，也降低了对硬件性能的需求。同时Rsnet使用的Focal loss如图5所示，在表2中展示了Focal loss和常用的Center loss在相同测试环境下的Map。

图5 Focal loss

表2 Focal loss和常用的Center loss在相同测试环境下的Map

遵循YOLO预测边界框，使用维度簇作为锚盒。该网络预测每个边界框的4个坐标，tx，ty，tw，th。如果单元格从左上角偏移，则图像的NER由（Cx，Cy）和先验框的宽度和高度由（pw，ph）表示，然后进行分类预测。式（1）为目标检测框的工作原理方程，和YOLO一致。

3 实验验证

3.1 主观结果验证

本文采取的主观验证方法是只改变单一变量的对比试验，使用的实验设备是GPU：RTX2060s（8G）、CPU：i5－9400F、RAM：16G的个人计算机平台，在实验中采用使用了Averagepool、Maxpool、GlobalMaxpool以及结合迁移网络的样本进行训练，数据集是武汉大学的航拍数据集Dota，最后测试得到了相应的结果，如图6所示。

从图6可以看出，GlobalMaxpool＋Mobilenet在识别的实际效果上要好于其余的方法，错检的结果较少，并且Ground truth和Anthor Box的吻合程度较高，也就是图中的蓝色框和绿色框的重合率，这表明使用GlobalMaxpool的Rsnet和Mobilenet的结合在实际效果上是良好的，为此，做出了图7展示Map，本文所提方法的Map较高。

图6 使用了Averagepool、Maxpool、GlobalMaxpool以及结合迁移网络对遥感机场目标检测的结果示意图

图7 使用了Averagepool、Maxpool、GlobalMaxpool以及结合迁移网络对遥感机场目标检测的结果示意图

3.2 评价指标验证

由表3可以看出，当实验中统一取80%的数据作为训练集，20%的数据作为测试集时，Rsnet＋Mobilenet在VOC数据集上具有较好的Map，并且由于是基于Darknet改造的，所以识别速度和YOLO相近。

表3 本方法与各种目标检测框架的检测结果（使用相同的通用数据集和批次）

统一取80%的数据作为训练集，20%的数据作为测试集，选用较为典型的框架在Batchsize＝5的情况下测试GPU和CPU的内存占用率，得出的结果如表4所示。

表4 不同算法内存占用率测试结果

4 结论

在同样的测试条件下，传统Darknet-19的Map是76.9／AP50，而通过将Mobilenet和Rsnet结合的方法，得到了Map值，并且提高了10%的下采样效率，在提高目标识别性能的同时，有效减少了时间开销；同时，每批训练数量Batch Size也可以提高到原来的5～6倍，有效降低了对于高配置、高性能运算设备的依赖，有助于扩大受众面。