遥感图像分类方法综述

2018-12-13杨海涛袁春慧

兵器装备工程学报 2018年8期

张裕，杨海涛，袁春慧

(航天工程大学 a.研究生管理大队； b.航天遥感室，北京 101416)

航天遥感技术是一种通过卫星对地观测获取遥感图像信息数据的技术，这些图像数据在各领域都发挥着不可或缺的作用。遥感图像分类主要是根据地面物体电磁波辐射在遥感图像上的特征，判断识别地面物体的属性，进而为目标检测与识别等其他应用提供辅助信息，也可以作为最终结果提供基础地理信息用于地图绘测、抢险救灾、军事侦察等领域。遥感图像分类是遥感技术应用的一个重要环节。

在过去的几十年里，各方面学者对遥感图像的分类有着诸多研究，提出了许多分类方法，按是否需要选取标记样本可将分类方法分为监督分类和非监督分类。根据最小分类单元可将分类方法分为基于像元的分类、基于对象的分类，以及基于混合像元分解的分类。此外，不同类型的遥感图像(多光谱遥感图像、高光谱遥感图像、合成孔径雷达图像)分类方法也不尽相同。本文主要从特征空间的角度对各分类方法进行归类介绍。由于目标分类通常是在特征空间中进行的，因此特征的表达与学习是实现目标分类的关键。根据表达和学习特征的方式，可将现有的遥感图像分类方法大致分为三类：基于人工特征描述的分类方法、基于机器学习的分类方法和基于深度学习的分类方法。需要注意的是，这三类方法并没有严格的区分界线，相互之间互有重叠和借鉴。

1 基于人工特征描述的分类方法

早期的图像分类主要是基于人工提取的图像特征进行分类。这些方法主要是依靠有大量专业领域知识和实践经验的专家来设计各种图像特征，例如颜色、形状、纹理、光谱信息等等，这些特征包含了大量可用于目标分类的有用信息。几个最具代表性的人工描述特征包括颜色直方图、纹理特征、方向梯度直方图和尺度不变特征变换。

1) 颜色直方图

颜色直方图(Color histograms)[1]能简单描述一幅图像中颜色的分布，即不同颜色在整个图像中所占的比例，是图像检索和图像分类中常用的视觉特征[2]。颜色直方图易于计算，且具有很好的平移和旋转不变性。其缺点在于无法描述图像中颜色的分布及每种色彩所处的空间位置，即不能传达空间信息。此外，颜色直方图对光照变化和量化误差也很敏感。

2) 纹理特征

纹理特征(Texture features)也是一种全局特征，它描述了图像或图像区域所对应目标的表面性质。其中灰度共生矩阵(GLCM)，Gabor特征和局部二值模式(Local binary patterns LBP)等被广泛应用于遥感图像分类[2]。纹理特征对于识别具有明显纹理特征的目标图像非常有用。其主要缺点在于当图像的分辨率、目标光照情况发生变化时，目标图像纹理可能会产生较大偏差，影响分类效果。

3) 方向梯度直方图

方向梯度直方图(Histogram of Oriented Gradient,HOG)是一种图像局部纹理特征。它通过计算和统计图像局部区域的方向梯度直方图构成图像特征，由于HOG是在图像的局部区域操作，因此它对图像几何形变和光照变化能保持较好的不变性，它已经在许多图像分类任务中取得了巨大的成功[3]。其缺点在于计算过程冗长，对噪点特别敏感。

4) 尺度不变特征变换

尺度不变特征变换(Scale-invariant feature transform,SIFT)[4]，是一种局部特征描述子，它通过确定关键点周围的梯度信息描述子区域。SIFT特征检测的主要步骤是：a尺度空间极值检测，通过微分函数识别图中兴趣点；b关键点定位，在候选位置上确定模型和尺度；c方向确定，根据图像的局部梯度，为每个关键点分配一个或多个方向；d关键点描述，在关键点的邻域内测量图像的局部梯度，进而生成相应特征描述。提取的特征将用于目标分类与识别。SIFT所提取的图像特征是局部特征，具有尺度和旋转不变性，对亮度变化、视角变化、仿射变化及噪声也有一定程度的稳定性。当特征点不多时，算法处理速度也相对较快，适于在海量特征数据中进行快速、准确的匹配。但SIFT是一种只利用到灰度性质的算法，无法识别图像的色彩信息。当目标图像形状相似时，分类错误率较高。

基于人工特征描述的分类方法具有直观、易于理解的优点。颜色直方图和纹理特征描述了整个目标图像在特定方面的统计学特性，因而可以直接输入分类器用于目标分类。而HOG特征和SIFT描述子通常用来作为构建全局图像特征的构建块，例如视觉词袋(Bag-of-Visual-Words,BoVW)模型[5]和基于HOG特征块的模型[6]。以上方法在一定程度上解决了遥感图像分类问题。随着遥感技术的迅速发展，遥感图像分辨率越来越高，图像中大量细节的出现使得单一特征难以全面表达目标对象，多特征融合的方法开始用于遥感图像分类。多特征融合的方法对改善分类效果有所帮助，但如何有效组合特征以使分类效果最优仍未解决。此外，基于人工特征描述的分类方法特征的设计依赖于相关专业知识和经验，在面对复杂图像时，这些特征的描述能力十分有限。

2 基于机器学习的遥感图像分类方法

近年来，建立在概率统计基础上的机器学习为遥感图像分类提供了许多可行方法。典型的机器学习方法包括支持向量机、决策树、主成分分析法、k均值聚类和稀疏表示等。

1) 支持向量机

支持向量机(Support Vector Machine,SVM)是一种监督学习方法，它通过引入核函数的概念在高维特征空间解算最优化问题，进而寻找最优分类超平面，解决复杂数据分类问题。近年来在遥感图像识别分类问题中有着较多的应用。文献[7]研究了SVM在建筑物分类中的应用，分类精度达到了90%。文献[8]用Canny边缘检测算子，去除短线和曲线，用Hough变换检测长直线，最后利用SVM实现了机场跑道的识别。此外还有许多基于SVM的改进方法，文献[9]构造一个半监督SVM分类器的集合来解决遥感图像分类问题。文献[10]利用最小二乘支持向量机对目标区地质岩性进行分类。在实际应用中，SVM具有稳定、易用等特点，但其在解决多类目标分类问题中表现较差，如何正确选择核函数也没有相关的理论依据。

2) 决策树

决策树(Decision Tree)是一种归纳推理的分类方法，通过对图像光谱、颜色、空间等信息定义规则，从中心节点出发，对图像各类信息值进行比较，得出新的分支，通过更新规则得到新的决策树，直到满足分类要求，最终的节点即为分类结果。近年来有基于决策树算法改进的随机森林模型[11]以及CART决策树[12]陆续用于遥感图像分类。决策树算法易于理解，可操作性高，能够处理多输出问题。其缺点在于泛化能力太差，在处理高维数据时表现不佳。

3) 主成分分析法

主成分分析法(Principal Components Analysis，PCA)通过一个线性变化把目标数据变换转成另一组不相关的变量，并将新的变量按照方差依次递减的顺序排列。主成分分析法通过保留低阶主成分，忽略高阶主成分做到减少数据的维数，保存了数据中对方差贡献最大的特征。该算法是一种无监督训练的简单模型，能够学习到用于多类图像分类任务的不变特征进而进行目标分类[13-14]。其缺点在于PCA是线性运算，无法获得更多的抽象表示，因而其特征的描述能力是有限的。

4)k均值聚类

k均值聚类(K-means)是一种矢量化方法，旨在将一组数据项划分为k个集群，并将相似的对象归到同一个集群中。该算法运算步骤如下：a随机生成k个初始点作为质心；b将数据集中的数据按照距离质心的远近分到各个群集中；c将各个集群中的数据求平均值，作为新的质心，重复上一步，直到所有的集群不再改变时终止。由于其简单性，K-means被广泛用于无监督的遥感图像分类。典型的例子是基于BoVW的方法[15-16]，其中视觉字典(码本)是通过在一组本地特征上执行k均值聚类运算得到的。K-means算法易于理解，复杂度低，能够在短时间内处理海量的数据，聚类效果尚可。缺点在于对噪声和离群点敏感，在算法运行前需要先确认K值，但目前并没有明确理论指导确定K值，而且其分类结果不一定是全局最优值。

5) 稀疏表示

稀疏表示(Sparse representation)[17]是一种无监督学习方法，其目的是在给定的超完备字典中用尽可能少的原子表示图像信号，从而获得图像更为简洁的特征表示，方便对图像进行分类处理。最近，许多学者将稀疏编码方法用于遥感图像的目标分类。文献[18]介绍了一种基于稀疏表示的改进分类方法并讨论了使用稀疏矢量重建图像进行分类；文献[19]采用稀疏表达来进行特征描述，结合支持向量机对目标进行检测。在实际应用中，稀疏表示具有计算速度快、自适应性强以及能高性能表示结果等优点。其主要难点在于如何构建完备字典。

在实际应用中，上述基于机器学习的分类方法在遥感图像分类任务中取得了良好的效果，尤其是与基于人工特征描述的分类方法相比。但随着遥感技术的进步，遥感图像信息呈现海量增长的趋势，目标样本的数量和多样性也急剧增加，上述机器学习的分类方法属于浅层学习网络，很难建立复杂的函数表示，不能适应复杂样本的遥感图像分类。

3 基于深度学习的遥感图像分类方法

深度学习(deep learning)作为机器学习算法中的一个新兴技术，其动机在于建立模拟人脑进行分析学习的神经网络，它能通过海量的训练数据和具有很多隐藏层的深度模型学习更有用的特征，最终提升分类的准确性。近年来深度学习在图像分类应用中取得了令人瞩目的成绩，越来越多的学者开始将深度学习应用于遥感图像处理中。几种常用的深度学习方法包括自动编码器、卷积神经网络、深度信念网络和针对小训练样本的迁移学习。

1) 自动编码器

自动编码器(AutoEncoder,AE)[20]是一种无监督的学习算法，主要用于数据的降维或者特征的提取。这种算法的思想是将神经网络的隐藏层看成是编码器和解码器。编码器将图像数据映射到特征空间，解码器将数据映射回数据空间，从而对输入数据进行重构。自动编码器非常适合处理高维数据，在样本数较多的情况下，分类效果明显高于SVM等传统分类方法。近年来已成功应用于图像分类[21]，特别是基于自动编码器改进的去噪自编码器 (DAE)[22]和栈式自编码器SAE，在遥感图像分类任务中取得了良好的分类效果。自动编码器的缺点在于模型的泛化能力较差，即当测试样本和训练样本不符合同一分布时，分类效果欠佳。

2) 卷积神经网络

卷积神经网络(Convolutional Neural Network,CNN)[23]是模仿人类视觉大脑皮层机理建立的网络。一个典型的CNN由输入层、卷积层(Convolutional Layer)、池化层(Pooling Layer)和全连接层(Full Connected Layer)、输出层构成，CNN的下层通常学习基本特征，随着网络深度的增加，特征变得更加复杂并且被分层构建。全连接层在CNN网络的末端，从前层的分层输出中学习复杂的非线性函数提取抽象特征，最终通过一个分类器进行分类。近年来，CNN在图像分类处理领域取得了巨大的成功。比较成熟的CNN模型包括AlexNet、VGG、GoogleNet、ResNet等。CNN在遥感图像分类中也有着广泛的应用[24-25]。CNN的主要缺点在于需要大数据量的训练集来学习确定各层网络参数。同时，随着网络层数的增加，容易出现局部最优及过拟合。

3) 深度信念网络

深度信念网络(Deep Belief Network,DBN)由Hinton等人提出[26]。它由多个受限玻尔兹曼机(Restricted Boltzman Machine,RBM一种可以用来对各种数据进行建模的概率生成模型，基本功能与AE类似)和反向传播(BP)网络组成。DBN通过训练其神经元间的权重，可以让整个神经网络按照最大概率生成训练数据。其训练过程是采用非监督方式自下而上通过每层的RBM学习无标签样本提取图像特征，在DBN的最后一层连接一个分类器，接收 RBM 的输出特征向量作为它的输入特征向量，有监督地训练分类器，最后用反向传播算法微调整个DBN，以达到一个较好的分类水平。DBN通过对各RBM层进行单独训练完成整个网络的训练，提升了网络的训练速度，使系统对复杂数据分类问题的处理能力有较大提升，并且克服了直接对深度神经网络进行训练时容易出现局部最优等问题。DBN在多项遥感图像分类实验中分类精度达到80%以上[27-28]。DBN的缺点在于模型不能明确不同类别之间的最优分类面，所以在分类任务中，分类精度可能没有判别模型高，此外DNB还要求输入数据具有平移不变性，并且不适当的参数选择会导致学习收敛于局部最优解。

4) 迁移学习

迁移学习是指将一个分类问题上训练好的模型经过调整和优化使其能适用于另一个分类问题。深度学习网络的训练需要大量的训练样本，目前常见的几个遥感图像数据集包括Indian pines、kennedy Space Center、 Pavia City Center 、Salinas等。随着网络的加深加宽，这些数据集的分类精度趋于饱和，逐渐不能满足训练要求。迁移学习旨在解决训练数据不足的问题，近年来，有学者利用迁移学习解决遥感图像数据集不足的问题[29]。但当传感器类型发生变化或者成像区域不同时，分类效果极差[30]。

深度学习的出现，显著地提升了遥感图像分类的效果。一方面，与需要大量专业知识和经验的人工特征描述的分类方法相比，深度学能通过深层架构自动学习数据特征，这是深度学习方法的关键优势；另一方面，与常用的浅层机器学习模型相比，由多个处理层组成的深度学习模型可以学习到更强大的具有多个抽象层次的数据特征，这些抽象的深层特征更适用于语义级别的目标分类。随着计算机计算能力的进步，深度学习网络结构往更深、更宽方向发展，但如何选择合适的网络结构和参数以达到最优的分类效果仍是亟待解决的问题，对各隐藏层提取的抽象特征的物理含义也缺乏明确的解释，同时，缺乏有效的训练数据集也是制约分类精度提升的瓶颈。

4 展望

基于人工特征描述的分类方法在早期为遥感图像的分类提供了解决方案，随后建立在概率统计基础上的机器学习进一步提高了分类精度。深度学习出现，使人们不再需要完全依赖人类专家去设计特征，并且使分类精度有了质的飞跃，但深度网络建模可视化困难和数据集的缺乏制约了分类精度的进一步提高。未来将更加快速准确地确定深度学习的网络结构和参数。在实际应用中，深度学习系统的深度和宽度对分类效果有明显的影响，更深更宽的网络可以挖掘出数据中更为抽象的特征表示，提高分类效能，但过大的网络模型又会增大训练消耗，降低训练效率，还可能会降低网络的泛化性，出现过拟合的现象。如何在保证分类效果的同时有效地缩减网络的复杂度，也是当前研究的热点之一。随着科技的进步，各类型数据呈现海量增长的趋势，也可以考虑将多类型传感器、智能终端、社交网站等多源异构数据融合进行遥感图像分类处理。多源异构数据能够能从不同的方面提供目标图像特征和信息。不同特征和信息的融合，既保留了参与融合的多特征的有效鉴别信息，又在一定程度上避免了单一数据的不确定性，令分类结果更加可靠，使遥感图像目标分类的结果更加全面准确。