APP下载

小样本学习在高分遥感影像分类与识别中的应用

2022-07-02杨厚群杜欣然王汉洋

关键词:样本分类特征

胡 娟,杨厚群,杜欣然,王汉洋

(海南大学 计算机科学与技术学院,海口 570228)

0 引 言

遥感影像应用在测绘地理信息[1]、监测环境质量[2]、识别地物特征与分类[3]等方面具有重大意义,成为近年来地球影像识别研究的热点。随着深度学习算法的不断发展与完善,遥感影像的分类与识别也越来越精确。但是,深度学习基于大量数据[4],而遥感影像的许多应用领域缺乏足够的样本数据,这使得遥感影像的分类与识别极易出现过拟合、模型泛化性能差等问题。关于小样本学习的鲁棒性和可扩展性[5]研究较多,将小样本学习跟遥感影像分类与识别结合起来,通过学习一定类别的大量数据后,模型只需少量样本就能快速学习出新类别,在一定程度上减少过拟合。

本文通过研究对比小样本学习的发展现状和遥感影像应用需求,给出系统性的总结。首先介绍小样本学习的方法和现状,以及小样本学习的应用领域;其次通过分析遥感影像处理存在的问题,说明结合小样本学习处理遥感影像问题的优势,最后展望了该领域的未来研究方向。本文的主要贡献如下:

1)总结归纳小样本学习方法,按模型从整体上分成生成模型和对抗模型两大类分别进行梳理;

2)指出遥感影像处理的特殊性,分析小样本学习应用到遥感影像分类与识别上的突出特点;

3)对小样本学习方法处理遥感影像分类与识别研究作出展望。

1 小样本学习

自2000年数字图像测试[6]首次被提出以来,图像识别逐渐发展为深度学习的一个重要分支。目前,其成果在人脸识别、基因分析数据、作物病害识别、医疗图像、真伪鉴定等研究中使用较多。这些领域实际积累的数据样本量远不能满足深度学习对训练数据的要求。小样本学习目的是在样本量较少时学习出泛化能力强的分类器,以更小的内存占用率得出与最新基准测试一样好的性能[7]。当训练和测试数据来自相同的分布时,区分学习方法的分类效果固然很好,但以源域标记训练数据,学习出一种在具有不同分布的目标域上表现良好的分类器[8]也同样重要。例如,基于大量源域图像集合的半监督设置来支持标签传播[9-13]、训练分类器。

在没有足够数据的情况下,训练出能够提取相对准确的特征提取器往往很困难[14-18]。小样本学习涉及数据处理和样本识别[19-23],在处理小样本问题时常见思路有两种:一是改进算法以适应小样本环境,通常这种方式需要具有对研究领域的专业知识和经验,存在较大的局限性;二是对已有数据样本进行处理,通过某种方式进行数据增强——对已有数据集做微小调整,如压缩、裁剪或翻转等操作来扩充数据。基于模型所用计算方法的不同,针对小样本学习的模型可归结为生成模型和判别模型两种。

生成模型是根据数据学习输入和输出联合概率分布P(x,y)之后求出后验概率分布P(y|x)[24]。作为预测的模型,生成模型通常收敛速度较快,因为联合分布能够提供更多的信息;但同时意味着更多的样本量和计算量。判别模型由数据直接学习决策函数f(x) 或者条件概率分布P(y|x)。作为预测的模型,判别方法只关注给定输入x应得到什么样的输出y。因此能够节省计算资源并有效分辨类间差异特征,准确率比生成模型高,但往往无法反映训练数据本身的特性。小样本学习的模型分类见表1。

表1 小样本学习的模型分类Tab.1 Model classification for fewshot learning

1.1 小样本学习方法

深度学习在诸多领域中成功应用的基础是丰富的标记样本数据和计算资源,反衬出小样本学习研究进展缓慢。小样本问题是深度学习研究方法实际应用时的关键性难题之一。小样本学习在文本分析的应用较为成熟,如基于记忆的嵌入学习方法[25-30]、用于多标签文本分类的小样本和零标注方法[31]以及短文本分类框架[32]等,甚至在法律助理系统中小样本学习也发挥出至关重要的作用[33];此外,如行人重识别[34],用无标记轨迹的方法提高卷积神经网络(convolutional neural network, CNN)特征表示识别能力的单标注学习行人重识别[35]等,也是基于小样本的方法。文本和语音信息在日常生活中往往具有上下文联系,有助于小样本学习模型的训练。

小样本学习中基于生成的方法,是通过生成数据来改变数据量,从而将小样本问题转化为一般分类问题。不同于在原图像基础上做简单旋转、平移、对称等操作的传统数据扩充方式,也不同于通过对比度变换、添加噪声等简单图像处理手段,生成对抗网络(generative adversarial nets,GAN)可通过博弈生成语义相同但具备不同姿态、属性的新样本。GAN主要分为数据扩充生成对抗网络和元生成对抗网络。利用GAN[36-40]可以帮助小样本分类器学习更清晰的决策边界,即使用生成数据填充特征空间。此外,相应的研究还包括了采取自动扩充和搜索改进的数据扩充策略[41]、EDA(easy data augmentation, EDA)数据增强技术[17]、利用已有的图像去生成新的图像[42]来做数据扩充等,通过不同形式数据变换达到数据增强目的。文献[43]总结了几种类型的方法实现数据增强:利用半监督学习和transductive learning等流信息学习one-shot模型;利用预训练模型借用近似类别的数据来增强训练数据集,合成新标签训练数据;通过GAN来学习合成模型等。一些研究提出对称编解码结构把视觉特征映射到语义空间,利用属性引导增强。这些方法重点体现在适时加入迁移学习和数据增强方法进行引导、解决小样本的分类决策边界的问题。

判别模型中基于度量学习[44]的方法以及基于元学习的方法[28,29,45-55]发展较快。图1为度量学习网络框架,通过样本特征嵌入、获取表示特征和特征度量最终实现分类。其原理是基于距离对样本分布进行建模:缩减相同类别样本距离,增大不同类别样本距离,将特征嵌入一定的度量空间。度量学习网络主要分为三种:原型网络[56]、孪生网络[57]和关系网络[58]。在产生原型时使用未标记的例子来增强网络[59]、将网络中一个分类器推广到训练集中测试新类[60]、针对新数据排列输入之间的相似性和来自未知分布全新类的学习暹罗神经网络方法[61]以及将未标记的样本映射到已标记的支持集中标记[62],上述方法促进了度量学习的发展。然而,度量学习的研究已经处于瓶颈期,原因在于实验设置方面存在多种缺陷:实验比较不合理、测试集标签存在问题以及评价指标不合理等。

图1 度量网络Fig.1 Metric network

判别模型中基于元学习可以有效地针对数据分布进行灵活调整来适应模型训练。使用元网络[63]来学习跨任务知识并通过快速参数化来转移其归纳偏差以实现快速泛化。基于长短时记忆(long-short term memory, LSTM)的元学习模型[59]用于训练分类器的精确优化算法,允许快速收敛。此后的扩展模型不可知元学习[64](model-agnostic meta-learning, MAML)用于在无标注数据存在的情况下快速适应新的分类任务。MAML既可以适应没有任何标注示例的新任务,也可扩展到半监督的小样本学习场景。导向传播网络[65](transductive propagation network, TPN)能利用数据中流形结构的图构造模块,学习将标签从有标注的实例传播到没有标注的测试实例。元学习方法在不断的改进优化中逐步克服已有问题,从各个方面有效缓解数据规模小的问题。

图2 关系网络Fig.2 Relation network

1.2 小样本数据的特征提取

特征提取阶段是进行影像识别时最为关键的一环,由于可用数据相对较少,特征提取对小样本而言尤为重要。基于类间距离的条件GAN方法[66]运用最大期望算法对原始样本中的缺失值进行填充,并在生成网络中加入类间区分度信息,克服类内和类间生成样本难以区分的问题;端到端学习框架提取更健壮的跨域多模态表示[67]能将自动编码器与跨领域学习标准(即最大平均差异损失)相结合,学习语义和视觉特征的联合(包括标注和非标注数据)嵌入,应用于单样本学习和小样本图像识别和检索。

小样本数据的特征维数相对于其样本数量而言较多带来特征降维问题。特征选择对样本数据中的不相关和冗余性特征起过滤作用,提高数据集中可用数据的质量,可最大限度减少训练过程中使用的计算资源,达到加快数据挖掘的效果。基于互信息的过滤型特征选择方法[68]和采用MIFS(MI-haled feature selection)算法计算选出最大相关性的特征以降低数据集维度的方法[69]是两种较为经典的方法,前者同时考虑相关性与冗余性,后者通过计算筛选出最大相关性特征。此外,在分析小样本数据时,结合贝叶斯模型[27,70-79]同样能从单一训练例子中学习新类别,将先验知识从先前学习的类别迁移到新的类别,可更好地对所提取特征进行关联分析。

1.3 小样本图像分类

深度学习的小样本分类与识别模型的优化主要基于数据增强和模型泛化。数据增强技术能在一定程度上增加样本数量,提高模型泛化性。但过拟合现象依旧存在,甚至某些数据增强手段可能会污染样本。尽管结合生成模型和迁移学习的训练可提高准确率,但基于词袋模型[38,39,80](bag-of-words, BoW)的小样本图像分类不具备通用性。传统的基于梯度的非线性优化技术应用于小样本数据通常会出现问题[40],基于梯度[42,43]的元学习方法可利用梯度下降来学习各种任务之间的共性。残差网络[81]在图像分类上取得很好的效果,是因为其核心残差块既能减轻网络层数负担,又能在网络的任何位置插入,缓解梯度爆炸等问题。

由于小样本学习往往只关注目标的分类问题,一旦学习到的模型对源数据类别不适用,将带来灾难性遗忘的后果。使用特定的损失函数来缓解该问题,如EWC(elastic weight consolidation)模型[82]将当前任务的重要性权重引入其中,或者添加到蒸馏神经网络[83],用来保证网络更新前后不过多影响新任务输出的特征来克服灾难性遗忘。使用关系网络[84](relation network, RN)通过计算查询图像和每个新类的少数例子之间的关系分数来对新类进行图像分类,无需进一步更新网络。采取对数据集的操作如使用LSTM控制器和注意机制来保证写入到抽象内存的数据与查询示例相关联[85],引入基于属性的分类来解决训练类和测试类不相交时的目标分类问题[86],以及直接训练示例嵌入层激活的适当比例获取印记权重向量[87]等方法解决灾难性遗忘,会带来计算量的增加。

视频影像的分类涉及到动态图像的捕捉和识别,某一个对象或者某种状态都可看成是单样本,对网络结构的要求相对较高,这一应用的进步也带动小样本图像分类的发展。例如,将可变长度的视频序列编码为固定大小的矩阵表示形式的多显著性嵌入算法[88];基于注意力的小样本分类权重生成器的对象识别系统[89];基于全卷积神经网络架构的单样本视频对象分割(one-shot video object segmentation, OSVOS)[90]方法;采用匹配网络的单样本学习技术提出基于示例的动作检测方法[91]等,视频分类主要方向是对于样本数据的扩充。此外, 共现分析(co-occurrence statistics, COSTA)[92]结合知识迁移并使用共现矩阵来定义权重,指出零标注分类器可以用作小样本学习的先验条件。类似的方法还包括:在零标注学习场景中引入图像和标签嵌入兼容性[75]、从单个示例学习对象分类器[93]、利用语义嵌入和分类关系来预测分类器的图卷积网络(graph convolutional network, GCN)[94]、使用源数据构建大量模型库[95]后通过分类器来使目标数据回归到模型库中。若作为小样本学习的先验条件,移植到小样本下作为参考,或能在一定程度上降低学习新类别的训练难度。

2 小样本学习方法应用于遥感影像分类与识别

遥感影像分类与识别领域存在普遍性与特殊性。其普遍性在于遥感影像是一类图像,对图像的处理已有相对成熟的方法和体系,如深度信念网络、卷积神经网络等;其特殊性在于遥感影像是一种特殊的图像,影像信息量大但细节针对性不强,因为在影像背后留有大量信息,如地理坐标、矢量数据,并且很可能涉及一些敏感信息。因此,遥感影像数据必然需要经过预处理。与此同时,对于某些地物特征或者识别物的识别,必然存在小样本问题。综合小样本学习在各领域的应用,可以确定小样本学习应用于遥感影像领域极有研究价值。

无论是基于ImageNet、CIFAR10/100、AFW等数据集的计算机视觉研究,还是基于MSAR、CNMER、CAIL2018等数据集的自然语言处理研究,深度学习的方法、模型之所以迅速发展缘于类别多样、数据规模庞大的样本集合。对于遥感影像,公开且便于模型训练的数据集相当匮乏。这导致研究者使用的都是从不同渠道获得的非开源数据库,其他研究人员既无从复现结果也很难作为实际研究参考,造成研究理论和实验方法对比困难,这在很大程度上减缓了深度学习应用于遥感影像处理的进展。

2.1 高分遥感影像分类与识别

遥感影像的分类与识别存在较多问题[96]。其一,遥感影像数据集存在数量不足及质量不高等问题:一是数据集样本少,由于研究者获取数据来源不足以及处理数据成本高,收集实验数据需花费大量精力;二是数据尺度不同,不同数据获取方式所得遥感影像数据尺度有差别,如不同地物特征尺度不同,而常见的机器学习模型多难以处理多尺度数据;三是数据因远距离获取而包含噪声,且包含大范围复杂场景,使得区分度不明显,进行多场景分类时导致精度降低;四是数据分布不均衡,类间不均衡,类内也不均衡。其二,遥感影像不同于常规图像,使用现有模型多无法处理到影像本身包含的多层信息,导致关键的细节信息被忽略,故深度学习通用模型很难直接用于遥感影像处理。

深度学习理论针对激活函数、参数初始化、过拟合问题等多方面的研究越来越完善,结合深度学习模型的影像分类取得越来越多的成果。但随着网络模型深度的增加,梯度弥散问题也越来越严重。深度残差网络(deep residual network, ResNet)用残差块代替深度神经网络中的网络层,使得网络深度可跨越性地增加到上千层,同时还能在一定程度上改善深度网络梯度弥散的问题。小样本数据的梯度弥散问题与过拟合存在联系[97],若仅考虑改善梯度弥散问题,并不一定能同时减少过拟合。此外,与中、低分辨率影像相比,高分辨率遥感影像表现出明显的分辨率差异、复杂的失真和可重复的纹理等特点。因此,通过多级相似模型[98]解决关键点错误匹配的问题,基于尺度可变区域合并的分割算法[99]解决不同地理对象大小相差较大的问题,可为高分遥感影像处理提供思路[100]。

2.2 结合小样本学习的高分遥感影像分类与识别

遥感影像分类与识别是生产实践中的重要环节,特别是影像的分类精度,是进行其他统计分析的必要前提和条件。分类精度与分类过程中的数据预处理、样本选择、波段选择、分类算法等诸多因素密切相关。在多种因素的影响下,模型分类精度最终表现具有不确定性。目前,能够兼顾整个分类过程的影响,提高模型整体分类精度的方法和技术很少[101]。

针对遥感影像数据的特点,特征提取可考虑“多源数据+空间特征+时序特征”相结合,充分利用影像数据的特殊性及时间关联性。常规影像分类模型设计方法,如支持向量机与最近邻算法都能较好地区分传统影像。若基于深度学习模型进行特征提取,通过训练模型提取所需特征,则是由模型区分最佳模型得到最终分类[102]。基于孪生网络的时空注意神经网络[103],加入自注意力机制来对时空关系进行建模,自我注意模块计算任意两个像素在不同时间和位置之间的注意权重,并使用它们来生成更具区别性的特征。通过“通道注意”[104]选择最具判别性的滤波器(特征),并引入“领域特定迁移学习”,利用不同分辨率的遥感数据进行预训练来缓解数据稀缺问题。这些研究表明,通过加入注意力机制可获得更具区分性的特征。

样本及波段选择决定了影像处理的粒度。遥感影像分类包括基于底层特征如形状大小、颜色、纹理的场景分类方法,基于中层特征如视觉词袋模型、概率模型的场景分类方法,以及基于高层特征如语义信息的场景分类方法。一些研究方法的主要思路从利用已有模型和已公开数据集两个方面展开:其一是通过已获取的遥感影像数据训练得出深度卷积神经网络模型模型,经过微调后或直接应用在遥感影像的场景分类中;其二是基于目前已公开遥感影像场景数据集自主设计和训练出不同于已有模型的新卷积神经网络[100]。例如,将CNN和高分遥感影像的纹理特征集成在一起[31]的灰度共生矩阵纹理特征提取方法可减少训练样本和参数;差分增强密集注意卷积神经网络[105]则是结合空间上下文,利用类别信息丰富的高层特征来指导低层特征的选择;基于稀疏编码的空间金字塔最大池化模型的零样本学习算法[106]可获取尺度不变特征完成图像的属性预测,基于多尺度特征和集成迁移学习的细粒度图像分类算法[107-108]可以分别提取不同尺度的特征图并训练得到较高的分类准确率;通过各自的卷积神经网络来达到减少训练数据的目的[109-111],利用GAN来解决生成图像建模,从复杂的数据集(例如ImageNet)中生成高分辨率、多样本的问题。

由于遥感影像的特殊性,分类算法选择涉及诸多因素。对高分、高光谱影像分类而言,普遍存在数据维度高、数据样本少的问题。相关研究包括:对高光谱的光谱通道降维,通过波段选择和特征变换提取光谱特征,并选择针对小样本的分类器用于分类;融合高光谱影像的空间信息增加样本的稳定性,减少数据中的噪声影响,结合地物的空间特征和光谱特征信息缓解“维数灾难”;设计激活函数PRetanh用于循环神经网络(recurrent neural network, RNN)中的高光谱数据处理[108];通过主成分变换方法消除光谱冗余信息[109];通过三维卷积计算进行高光谱影像的三维空间特征和光谱特征的提取[110];采用全卷积层和无池化层的网络有效提取小样本光谱特征,获得较高的影像分类性能[111]。而结合残差网络的思想加入残差块对高光谱影像进行分类,也可缓解影像数据高维、小样本所带来的问题。这些特征提取的研究思路与方法,可以借鉴到高分遥感影像上。对于高分(very high resolution, VHR)遥感影像而言,结合语义分割模型DeepLabv3与基于对象的图像分析(object-based image analysis, OBIA)相结合的VHR影像语义分割方法[112]可增强影像解释能力,结合YOLO v4和随机森林算法[113]与改进条件随机场[114]的方法可用于缩短对所分类影像的提取时间。密集残差神经网络[115](dense residual neural network, DR-Net)明显提升建筑物提取准确率;金字塔自注意网络[116](pyramid self-attention network, PISANet)利用局部特征、全局特征和综合特征降低网络复杂度。这些研究方法表明,特征提取方式和提取时间是高分遥感影像分类面临的主要挑战。

2.3 小样本学习在高分遥感影像分类与识别的发展

应用注意力机制和迁移学习,小样本学习在遥感影像识别与分类研究中有较大的提升空间和推广价值。小样本学习由于训练样本量较少,模型从训练集中提取信息相对有限;而注意力机制通过权重分配可有针对性地提取所需的必要信息。因此在有限的训练样本下可以通过注意力机制来提取对影像具有更强表示性的特征,即对分类效果产生明显影响的关键特征。小样本学习的目标是希望通过神经网络等模型让机器去模拟甚至学会跟人类相近的学习方式和泛化能力。人类之所以能在识别过程中无须大量样本就对物体、影像等具备很强的识别能力,关键之一就是利用视觉注意力——一旦获取主体特征就能迅速识别。注意力机制之所以被普遍使用,其原因之一是其能够提高神经网络的可解释性[95]。在各类不同应用场景下,研究者提出的软、硬注意力机制[96]、自注意力机制[97]以及相互注意力机制[98]等注意力模型,因其直观性、通用性以及可解释性对小样本影像分类任务作出了诸多贡献。

给定源域与对应学习任务、目标域与对应学习任务,通过迁移学习获取源域及其学习任务中的知识提升目标域中预测函数的性能。迁移学习的应用不限于特定领域,只要所研究问题满足迁移学习场景即可。迁移学习不仅可以借助预训练模型进一步学习,还可以基于样本迁移、特征迁移和关系迁移达到同样目的。当源域与目标域重叠、特征众多时可基于样本实现迁移;只有一部分重叠时可实现基于特征迁移,最终通过特征变换的方式互相迁移以减少源域和目标域之间的差距。最常用的基于模型的迁移则是源域和目标域共享学习方法的参数或超参数。基于关系的迁移是因为在域或者任务之间样本之间的某些关系是相似的。结合迁移学习思想与元学习的策略进行小样本数据的训练,可得到表示性更强的迁移特征。

综上,小样本学习方法在遥感影像处理时相对其他方法有较好的效果。

3 未来研究展望

针对当前高分遥感影像分类与识别存在的问题,未来研究工作可考虑从以下4方面着手:

1)建设公共遥感实验数据集和统一的评估标准。当使用不同的数据采集方式或者不同的遥感信息源时,制作出来的遥感数据集规格和数据尺寸存在较大差异,使得数据预处理更加困难。因此制定统一的遥感公共数据集标准对遥感影像研究和应用至关重要。

2)提高算法的泛化能力。首先,由于受到成像时间、位置和平台的差异而导致的域偏移的影响,模型的学习性能需要在小样本条件下足够稳健。其次,寻找可行的单样本学习不仅可以运用于具有固定类型的特定对象类别,而且能以快速的适应能力推广到多个对象的学习任务中。

3)增强算法的鲁棒性以提高承受标签噪声能力。针对数据尺度不同问题,采取多尺度融合方式提取获得适合影像处理需要的特征尺度图;针对噪声问题采取对训练集数据同步添加噪声来抑制噪声对影像处理结果的影响;至于数据分布不均衡问题,考虑模型集成结合使用多个模型方法,在影像处理不同阶段分别使用不同的模型而非一个模型贯穿到底。

4)使用GAN和感知损失生成细节丰富的影像。利用GAN扩充和加强遥感影像数据的细节,通过对抗训练挖掘影像数据的更多信息,能够避免高分辨率影像缺乏纹理细节信息的问题。

猜你喜欢

样本分类特征
抓特征解方程组
不忠诚的四个特征
规划·样本
按需分类
教你一招:数的分类
说说分类那些事
随机微分方程的样本Lyapunov二次型估计
给塑料分分类吧
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
“官员写作”的四个样本