深度学习在多标签遥感影像分类中应用的研究现状
2020-01-04华远盛
华远盛
(武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉430000)
1 背景介绍
影像分类在遥感应用中是一项非常重要的任务。该任务的目的是通过对目标影像纹理,空间,光谱等特征进行分析并判断目标影像的语义标签。通常情况下人们所讨论的影像分类是指单标签影像分类,即一张遥感影像仅会被赋予一个语义标签,例如场景类型。然而值得注意的是,在现实世界中,一张影像通常会和多个标签,例如图像中包含的所有物体类别,有联系。这种情况在复杂的影像中由为明显。因此,多标签的遥感影像分类现在正逐渐成为备受关注的话题。相比较于单一标签分类,多标签影像分类可以更好地帮助人们理解图像中包含的语义信息。除此之外,相比较于语义分割和目标检测这两个任务,多标签影像分类的优势在于数据库获取更为容易。前者往往需要标注任务繁重的像素级标签和边框级标签,而后者仅需要图像级的标签。显而易见,训练一个用于多标签影像分类的模型所需要的数据的获取难度要远低于另外两个视觉任务。因此,多标签遥感影像分类正受到越来越多研究者的关注。
尽管遥感影像分类具有非常重要的意义,传统的视觉算法通常难以获得令人满意的结果。这是因为他们都依赖于人为设计的特征提取方法,故而较难获取到有益于图像识别的高级语义信息。然而近年来,随着计算机性能的提高与影像数据越来越容易的获取,深度学习这一技术得到了极大的发展并且正在被广泛地应用在各种视觉识别任务中。通过调研近年来的诸多工作,我们发现深度学习在诸如分类,分割,目标检测等任务中都取得了令人瞩目的成绩。相较于依赖人为设计特征提取的传统算法,深度学习有着强大的自主学习能力,并能够通过在训练集上的反复训练学会提取影像中的语义信息。在现有的许多工作,深度学习算法的效果都被证明远优于传统算法的效果。
伴随着这样的趋势,深度学习也正在被越来越多地应用于多标签遥感影像分类任务。因此,本文旨在综述现有的基于深度学习的多标签遥感影像分类算法。此外,作为训多标签分类算法不可或缺的数据库也将在本文中被介绍。
2 文献调研
近年来伴随着深度学习算法的兴起,越来越多的研究者将该算法应用于多标签遥感影像分类的任务中并且取得了一定的成果。Zeggada 等人[1]提出了首先将深度学习算法应用于多标签的无人机影像分类。在这篇工作中,他们使用了一个标准的GoogLeNet 作为分类器的主干,并将原网络中最后一个全连接层后跟随的Softmax 激活函数替换成了Sigmoid 激活函数用以进行多标签分类。这是因为Softmax 激活函数通常被用在单标签分类任务中,且仅适用于输出为one-hot 编码的情况。与之相反,Sigmoid 激活函数可以适用于输出为multi-hot 的情况,因此可以被用作多标签分类的任务。在这篇工作中,作者没有直接设定阈值,例如0.5,对Sigmoid 激活后的输出进行二值化得到预测的多标签,而是采用了RBFNN(Radialbasisfunction neural network)通过学习得到合适的阈值。此外,Koda 等人[2]以及Zeggada[3]等人相继使用了一个标准神经网络加一个SVM(supportvectormachine)或者CRF(conditionalrandomfield)组合的方式进行多标签分类。然而尽管这些工作均取得了一定的成功,但是标签之间的内在关系并没有被充分利用。这是因为在这些分类器中,每个标签被独立预测。
为了能够充分利用标签之间的联系,Hua 等人在[5]中讨论并尝试利用一个双向的LSTM(Longshort-termmemory)网络来预测多标签。在这篇工作中,Hua 等人发现标签之间存在着明显的共现现象,例如车和路面或者船和水体经常同时出现在影像中。这个发现非常符合人们的日常认知,例如车通常在路面上行驶或者停靠,而船大概率在河流或者海洋上航行。基于这样的发现,Hua 等人利用了双向的LSTM来进行多标签分类。LSTM由于其强大的构建前后语义关系的能力而被广泛地应用在自然语言处理的任务中。在多标签分类任务中,双向LSTM的每个时间节点都会预测当前标签的存在与否,并将该预测结果输入到下一个时间节点的预测环节中。通过这样的结构,每个时间节点的预测结果都会受到或者给予前后节点预测的影响。此外,Hua 等人[6]还尝试着利用关系网络进行标签关系的建模并利用其进行标签的预测。
3 常用的多标签遥感影像数据库
在该章节中,本文将注重介绍三个遥感领域中常用的多标签数据库:UC-Merced 多标签数据库,DFC15 多标签数据库,以及AID 多标签数据库。
3.1 UC-Merced 多标签数据库
UC-Merced 多标签数据库是由Chaudhuri 等人[4]在2018 年发布的一个第一个应用于遥感影像多标签分类的数据库。该数据库中共有2100 张来自UC-Merced 单标签场景数据库且分辨率为0.3 米的256x256 遥感影像。其中每张影像均被赋予了图像中所包含的不同物体的类别标签。例如场景中若含有车辆和建筑,则该图对应的标签为“车辆,建筑”。据统计,该数据库中标签类别共计17 类,且分别是飞机,沙子,路面,建筑,车辆,灌木丛,运动场,树,码头,存储罐,水体,草地,房车,船,裸地,海,以及田地。
3.2 AID 多标签数据库
AID 多标签数据库是一个由3000 张高分辨率影像构成的数据库。该数据是Hua 等人[5]在AID 单标签场景数据库的基础上进行重新标注得到的。AID 单标签场景数据库中包含有10000 张裁剪自谷歌地球卫星数据的600x600 的影像,且分辨率浮动在0.5 米到8 米之间。这些影像覆盖了中国,美国,英国,法国,意大利,日本以及德国。由此可见,该数据库的样本十分丰富且具有多样性。因此,Hua 等人在此数据库的基础上对其中3000 张影像进行重新标注并最终生产了包含3000 个图像样本且共计17 个类的多标签数据库。该数据库中的17 个类与UC-Merced 多标签数据库中的类别定义一致。
4 结论
通过对现有工作的介绍,我们可以发现深度学习算法在多标签遥感影像分类这一应用中已取得了一定的进展。相较于传统算法,深度学习模型能够自动提取到具有丰富语义信息的特征从而做出更为准确的标签预测。在后续的发展中,如何更加有效的利用标签间的关联性来进行多标签的分类将是具有价值的研究。