基于深度学习的遥感图像目标检测方法

2021-01-22刘媛

科学技术创新 2021年3期

刘媛

（北京建筑大学测绘与城市空间信息学院，北京100044）

遥感数据日益多元化，数据获取的速度加快，更新周期缩短，时效性越来越强[1]，极大的促进了遥感影像相关的应用研究。传统的遥感影像目标识别主要是基于人工提取特征的方法，但遥感图像中丰富多样的细节信息使得人工描述的单一特征不足以全面表达目标地物，且多依赖于专家经验。此外，建立在概率统计基础上的机器学习通常需要复杂的特征描述，并且基于其浅层的网络结构学到的特征表达在处理复杂的目标检测问题时表现性能及泛化能力有明显不足。

2000 年以后随着计算资源大规模提高，基于人工神经网络的深度学习方法蓬勃发展。深度神经网络能够通过大量的训练数据及具有隐藏层的深度学习模型学习高维特征，提高了目标检测的分类精度。深度学习的深层结构及特征学习能力在图像处理领域取得了巨大的成功，大量学者也将其运用到遥感目标检测与识别领域。本文对当前深度学习应用于遥感图像处理的方法进行对比分析，有助于追赶深度学习的发展步伐，帮助研究人员更好的了解这一研究领域。

1 基于深度学习的遥感图像目标检测方法

遥感图像目标检测方法包括基于区域提议方法和基于回归的方法，基于区域提议的方法先生成一系列目标候选框，然后再利用卷积神经网络对目标进行分类与边框回归，具有高精度的优点。本文主要对基于区域提议的目标检测进行分析与对比。

1.1 R-CNN。2014 年，Girshick[2]使用“区域提议+卷积神经网络”的方法代替传统目标检测使用的“滑动窗口+手工设计特征”方法，设计了R-CNN框架，使得目标检测技术取得了巨大突破。R-CNN利用选择性搜索算法在输入图像中提取约2000 个候选区域；然后将每个候选区域缩放为固定大小后送入模型中提取特征向量；最后把特征向量输入一组多类别支持向量机对每个候选区域进行分类与候选框精修。R-CNN的处理过程如图1 所示。虽然R-CNN方法相较于传统方法进步巨大，但其重复计算提取特征造成了效率低下。

图1 R-CNN 检测流程

1.2 Fast R-CNN。为了提高目标检测的效率及精度，SPP-net[3]去掉了R-CNN 缩放候选区域以统一图片尺寸的处理方式，在CNN结构中加入了空间金字塔池化层使得任意尺寸的图像输入网络可以输出固定维数的特征向量。Fast R-CNN[4]采纳了类似方法，增加了类似空间金字塔池化层的RoI 池化层，对输入全连接层的特征向量尺寸进行归一化处理。另外，SPP-net 与Fast R-CNN 对输入图像只进行一次卷积特征提取也大大缩短了计算时间。Fast R-CNN的处理过程如图2 所示。虽然这一改进提高了速度，但是仍然沿用选择性搜索算法获得目标候选框的方式也严重制约其效率。

图2 Fast R-CNN 检测流程

1.3 Faster R-CNN。2017 年，Ren 等人在Fast R-CNN的基础上提出了Faster R-CNN[5]，采用区域提议网络取代选择性搜索算法生成目标候选框，并与Fast R-CNN结合形成了一个端到端的卷积神经网络目标检测模型。其中区域提议网络仅需通过一次卷积操作提取目标候选框及特征图，并且进行了两次候选框精修与分类，在效率与精度方面都得到了很大的提升。Faster R-CNN的处理过程如图3 所示。

图3 Faster R-CNN 检测流程

1.4 Mask R-CNN。Mask R-CNN[6]算法是在Faster R-CNN的基础上添加了一个额外的掩码分支与现有分支并行来预测用于包围框检测的目标掩码。Mask R-CNN采用“ResNet+FPN”的主干网络结构，将低层次特征与高层次特征结合，适用于多尺度目标的检测。此外还将RoI 池化层替换为RoIAlign 层，在下采样时对齐特征以减少多量化引起的误差对回归定位产生的影响。Mask R-CNN的处理过程如图4 所示。