遥感影像样本数据集研究综述
2022-05-12冯权泷陈泊安李国庆姚晓闯高秉博张连翀
冯权泷,陈泊安,李国庆,姚晓闯,2,高秉博,2,张连翀
1.中国农业大学土地科学与技术学院,北京 100083;
2.农业部农业灾害遥感重点实验室,北京 100083;
3.资源与环境信息系统国家重点实验室,北京 100101;
4.中国科学院空天信息创新研究院,北京 100094
1 引 言
传统意义上,遥感影像样本数据一般包含遥感影像实例及其对应的地面辅助照片(张丽娜和周强,2014),常常应用于遥感影像解译过程。随着大数据时代的到来,遥感影像样本数据更多指针对某一研究需求、基于遥感数据获取的一系列特定地物影像及其属性信息(如地物类别等)的“影像属性”数据对(张兵,2018;魏东升和周晓光,2019),是进行模型训练、算法测试的重要前提,具体涉及到遥感场景识别、土地覆被/利用分类、地面目标检测等多个研究领域。
在深度学习兴起以前,上述影像样本数据规模较小,这主要因为传统机器学习算法(如支持向量机、随机森林等)并不需要海量样本进行模型参数的训练。随着大数据时代的到来,以卷积神经网络为代表的深度学习模型在遥感领域得到了广泛应用,而深度学习需要海量样本进行模型驱动,导致出现了许多大规模遥感影像样本数据集。而大数据存储、并行计算等的不断发展也加速了这一趋势。近年来,国内外研究机构相继制作发布了UC Merced(Yang 和Newsam,2010)、WHU-RS19(Dai 和Yang,2011)、AID(Xia 等,2017)、RSSCN7(Zou 等,2015)等大型遥感影像样本数据集,为模型结构优化、算法策略改进等提供了数据支撑。
随着遥感影像样本数据集的不断增加,其多样性的特点也日益显现,在尺度、传感器、时相等方面存在较大差异(表1)。
表1 遥感影像样本数据集的多样性Table 1 Diversity of remote sensing image sample datasets
由于遥感影像样本数据集种类繁多、来源复杂,数据质量各有参差,因此需要对其进行归纳、总结、分析,才能为科研人员提供有价值的数据参考。在前人的研究中,于灵雪等(2013)从数据源角度出发,对雪数据集进行了整理与综述研究;曾也鲁等(2012)讨论了LAI验证数据集,为定量遥感的相关研究提供了数据参考。然而当前研究往往集中于某一应用领域进行算法、模型的综述,缺乏遥感影像样本数据集的系统性、综合性的归纳与分析。在深度学习等人工智能技术蓬勃发展的今天,样本数据集无疑在这些数据驱动的模型中占据了十分重要的地位,因此有必要对公开发布的遥感影像样本数据集进行综述研究,从而为遥感领域的广大科研工作者提供样本数据参考。
本文首先收集、整理了2001年—2020年数据质量较高、影响力较大的遥感影像样本数据集,并对其元数据进行了分析,并从分辨率和深度学习模型的角度展开了分析讨论,同时以应用领域为依据将其划分为场景识别、土地覆被/利用分类、专题要素提取、变化检测、目标检测、语义分割、定量遥感等8个类别,对其中典型数据集的组成和相关研究进展进行了详细论述,并探讨了样本时空迁移、样本主动发现、小样本和零样本学习等在遥感影像智能分析中的应用前景,旨在对遥感影像样本数据集提供一个综合全面的概述。
2 元数据分析
遥感影像样本数据集的元数据描述了数据集的大小、应用领域、数据来源等信息。本文检索统计了2001年—2020年具有明确发布时间的较大影响力的遥感影像样本数据集的发布情况(图1)。不难看出,从2012年开始,发布的样本数据集的数量呈现显著上升趋势。同时,2012年是人工智能发展历程中的一个重要年份,在2012年的ImageNet图像识别比赛中,以AlexNet (Krizhevsky 等,2012)为代表的卷积神经网络第一次超过了传统机器学习算法,并引发了计算机视觉领域和遥感领域对深度学习的持续关注。而深度学习的发展又促进了遥感影像样本数据集的制作与发布。下面将通过数据来源、应用领域、关键词热度等对遥感影像样本数据集的研究趋势进行综合分析。
图1 遥感影像样本数据集近年发展情况Fig.1 Develop trend of remote sensing image sample datasets in recent years
2.1 遥感影像样本数据来源分析
本文以样本数据集的发布渠道为分类标准,将其分为国家官方数据、赛事数据、学校数据、研究团队与科研机构数据4类。通过对元数据的分析,共得到124条发布来源明确的数据集,其分布占比如图2所示。
图2 遥感影像样本数据集来源分布Fig.2 Source distribution of remote sensing image sample datasets
可以看出,遥感影像样本数据集的主要来源为研究团队和科研机构,占比为62.9%,具体包括GRSS、SpaceNet 团队等较为权威的研究组织与团队,具有较高的数据完整性、准确性与影响力。
数据来源为学校的占比为20.16%,具体包括武汉大学、北京大学、斯坦福大学等高等院校。这类数据集往往聚焦于某一具体应用,多用于学校课题组自身研究,同时具有较高的数据完整性和研究目的性。
国家官方数据集共12 个,占比为9.68%。主要发布者为中国、美国、欧盟等国家或国家联合组织。这类数据通常聚焦于大尺度应用,数据集能够很好地表现出区域宏观特征,具有较高的权威性和影响力,但在小尺度内的细节较为缺乏。
赛事数据共9 条,占比为7.26%,主要为kaggle、MAFAT 等机构发布,通过赛事来发展某一领域的算法、模型等技术。这类数据集在算法创新、论文产出等方面贡献突出,且常作为各种研究横向对比的数据集。
2.2 遥感影像样本应用领域分析
如图3所示,本文根据应用领域将遥感影像样本数据集划分为8 类,分别为场景识别、土地覆被/利用分类、专题要素提取、变化检测、目标检测、语义分割和其他。
图3 遥感影像样本应用领域分布Fig.3 Application fields distribution of remote sensing image sample datasets
其中,土地覆被/利用分类数据集占比最大,为17.04%,其次为语义分割样本数据集,为14.82%,而变化检测、目标检测、专题要素提取数据集的占比都在10%以上。可以看出,各应用领域所发布的样本数据集占比较为接近,本文将在后续章节中对各领域典型样本数据集进行详细分析。
2.3 遥感影像样本关键词分析
本文基于样本数据集的元数据进行了关键词分析,通过人工合并同类型关键词、过滤不相关的关键词等方法,利用Excel 的数据透视表进行关键词共引分析,其中,行设置为元数据创建时间,值设置为关键词,并按照词频大小进行统计。根据关键词聚集与词频排序,可以将遥感影像样本数据集的发展历程分为以下几个阶段:
(1)2001年—2006年,关键词:航空摄影测量、地物分类。通过分析可知,2001年—2006年期间公开发表的遥感影像样本数据集多来自航空摄影测量,其用途多为地物分类。
(2)2006年—2012年,关键词:土地利用、土地覆被、农业、城市遥感影像。该时段的关键词类型多与土地覆被/利用分类有关,这主要由于遥感具有大范围同步观测的能力,在土地资源调查中显示出明显的优势,在国内外得到了广泛应用。
(3)2013年—2016年,关键词:点云、航空高光谱影像、分类。该时段的研究热点为点云和高光谱数据,作为地理空间三维信息获取的一种全新技术手段,点云数据从2013年起受到了广泛关注;同时随着高光谱遥感的发展,开源的高光谱样本数据集也成为了一个关注焦点。
(4)2017年—2020年,关键词:深度学习、SAR、目标检测。该时段,随着卷积神经网络等深度学习模型的快速发展,其在遥感诸多领域得到了广泛应用,成为了研究热点问题。而目标检测作为图像理解中的重要一环,其任务是找出图像中所有感兴趣的目标,确定它们的位置和大小,也引起了遥感领域研究人员的重视。同时,随着哨兵1号雷达卫星的发射,SAR 的研究也越来越活跃,同样出现了许多样本数据集。
2.4 遥感影像样本规模分析
本节以土地覆被/利用分类和变化检测类数据集为例,通过统计其数据量大小、样本数量,对2001年—2020年数据集在规模上的发展趋势进行分析。
土地覆被/利用分类数据集样本一般是由一景或多景遥感影像组成,如KSC(鲍江峰,2014)、Houston(Debes等,2014)等数据集,分类系统由发布者自行设定,数据量在几十到几百兆之间。而近两年数据集的规模呈增加态势,如2020年发布的GID 数据集(Tong等,2020)包含了30000多张样本,数据量达到了43 G 左右;而bigearthnet数据集(Sumbul 等,2019)样本数量更是达到了59万张左右,数据量大小达66 G。
在变化检测类数据集中,早年发布的如SZTAKI (Benedek 和Szirányi,2009)、PROBA-V(Dierckx 等,2014)数据集往往影像样本对较少,仅为13 对和24 对,数据量较小,约为几十到几百兆之间,应用更多聚焦于特定类别或特定场景的变化。近年发布的数据集出现了如ABCD(Fujita等,2017)、xBD(Weber 和Kané,2020)等大型数据集,影像样本分别达到8500 张和22000 张,数据量最高可达30 GB,变化检测的类型也呈多样化趋势。
除上述数据集外,其他领域数据集均呈现出规模更大、样本更丰富、分类系统更完善、应用更广泛的发展态势,从而可以符合深度学习等人工智能技术快速发展下的应用需求。
3 分辨率分析
本节从遥感影像分辨率角度出发,通过归纳、统计数据集的空间、光谱、时间分辨率,对其特点和差异进行分析。
3.1 空间分辨率
在空间分辨率上,不同应用领域数据集存在着较为显著的差异。其中,场景识别、专题要素提取、语义分割领域的影像样本往往具有较高的空间分辨率,大部分在0.3—1 m,可以提供较为精细的地物细节和场景上下文信息,如UC Merced(Yang 和Newsam,2010)、Evlab-SS (Zhang 等,2017)、雄安新区航空高光谱遥感影像分类数据集(岑奕等,2020)等,上述影像样本数据主要来自于Google Earth 卫星影像、 QuickBird 卫星、WorldView 系列卫星等。此外航空影像数据集的空间分辨率更高,可达0.075 m,如用于进行语义分割的AIRS Datasets(Chen等,2019)。而土地覆被/利用分类、变化检测领域的样本数据集具有较低的空间分辨率。此外,目标检测数据集的影像分辨率则与地物的尺寸具体相关。
3.2 时间分辨率
时间分辨率上,除变化检测数据集外,其余应用领域的遥感影像样本来大都来源于单时相影像。而变化检测数据集至少包含两个时相,如用于灾害变化检测的xBD 数据集(Weber 和Kané,2020)、ABCD 数据集(Fujita 等,2017);而诸如The Urban Atlas 数据集(Petrişor,2015)则包含多个时相(2006年、2012年、2018年)。
3.3 光谱分辨率
在光谱分辨率上,土地覆被/利用分类与专题要素提取领域的影像样本往往具有较高的光谱分辨率,相关研究多聚焦于通过样本学习目标地物的光谱特征来实现遥感分类,具体来源于Sentinel-2、AVIRIS 等多光谱卫星,如EuroSAT(Helber等,2019)、bigearthnet(Sumbul等,2019)、KSC(鲍江峰,2014)等数据集。
而其他应用领域如场景识别、目标检测等,数据集影像样本光谱分辨率较低,一般只包括红绿蓝3 个波段,少数会增加近红外波段,如MtSWH数据集(Wu等,2016,2017)。
4 遥感影像样本数据集算法模型分析
本节以卷积神经网络CNN (Convolutional Neural Networks)、全卷积神经网络FCN (Fully Convolutional Networks)、 循环神经网络RNN(Recurrent Neural Networks)与生成对抗网络GAN(Generative Adversarial Networks)等遥感领域常用的深度学习模型为例,对相关模型、算法在遥感影像样本数据集上的应用与研究进行分析。
CNN 是遥感领域内最为广泛应用的深度学习模型之一,因其强大的特征提取和学习能力,CNN被应用于场景识别(余东行等,2020)、土地覆被/利用分类(Helber 等,2019)、专题要素提取(Mnih,2013)、变化检测(Weber 和Kané,2020)等研究中,并在模型精度、泛化能力等方面超过了经典机器学习模型(如随机森林等)。
FCN 则主要应用于遥感影像语义分割领域,通过一系列卷积与反卷积操作,从而生成与输入影像相同尺寸的分类结果(Kaiser等,2017;Yuan等,2013)。相比于CNN 模型,FCN 在遥感影像分类中的计算效率更高,更加适合大范围的遥感制图,然而由于需要全要素的标注,因此其标注成本较高。
RNN可以对序列数据(如高光谱影像、时序遥感影像等)之间的相互依赖关系进行建模,其结构包括LSTM(Long Short-Term Memory)(Hochreiter和Schmidhuber,1997)和GRU(Gated Recurrent Unit)(Cho 等,2014)等,常被用于土地覆被/利用分类、变化检测等研究。Sharma 等(2018)利用RNN 和时间序列遥感影像进行土地覆被分类,精度可达97.21%;Mou 等(2019)则利用RNN 和多时相影像进行变化检测,精度可达98.73%。
GAN 的优势在于样本生成,实现样本扩充。虽然其遥感应用较少,但在变化检测、目标检测、场景识别等领域均有涉及,如Lebedev 等(2018)基于条件GAN 进行了变化检测研究,精度可达91%;Rabbi 等(2020)基于GAN 实现遥感影像质量的增强,并结合改进的FR-CNN 模型提升了小目标检测的性能,在COWC 数据集上精度可达95.5%;鄢佩瑶(2019)基于GAN生成高质量的场景影像样本,并在UC Merced 数据集上精度可达92.4%。
5 应用领域分析
本节从应用领域出发,将遥感影像样本数据集分为了遥感场景识别、土地覆被/利用分类等8 个领域,对其中的典型数据集和相关研究进展进行了综述。同时筛选出53 条各领域常用数据集,并给出其大小、下载链接等信息(表2)。
表2 常用遥感样本数据集Table 2 Common remote sensing sample datasets
续表
续表
续表
5.1 遥感场景识别
遥感场景识别是指给定一幅遥感影像,对其包含的场景(如操场、桥梁等)进行分类和识别。经典的场景识别数据集包括UC Merced (Yang和Newsam,2010)和WHU-RS19 (Dai 和Yang,2011)等。
其中,UC Merced 是加州大学默塞德分校Newsam 等于2010年提出的经典遥感场景识别数据集,用于对城市地区的土地利用场景进行分类。该数据集的空间分辨率约为0.3 m,图像尺度为256像素×256 像素,包含21 类场景,每类100 张,共计2100 张影像(图4)。在该数据集的研究方面,余东行等(2020)基于迁移学习和集成学习的思想,首先通过多个预训练的卷积神经网络进行特征提取,再基于分类器的集成获取预测结果,并在少量样本参与训练的情况下取得了90.74%的分类精度。
图4 UC Merced数据集样例Fig.4 Samples of UC Merced datasets
5.2 土地覆被/利用分类
20 世纪90年代以来,土地覆被/利用(LULC)作为全球变化的重要组成部分,成为全球变化研究的重要领域(张新荣等,2014;Yin等,2018),许多遥感影像样本数据集也相继公开发表,包括EuroSAT(Helber 等,2019)、Urban Land Cover Datasets(Johnson 和Xie,2013)、Gaofen Image Datasets(Tong等,2020)等。
其中,EuroSAT 是由德国凯泽斯劳滕大学人工智能研究中心的Helber 团队于2018年制作发布的新型土地覆被分类数据集,遥感数据来自于Sentinel-2 卫星,由27000 个带有标签和地理参考的影像组成,每张影像包含13 个光谱波段,共计10 类土地覆被类型(图5)。Helber 等(2019)基于GoogLeNet 和ResNet-50 对数据集进行了分类试验,总体精度可达98.57%。
图5 EuroSAT数据集示例Fig.5 Samples of EuroSAT datasets
5.3 专题要素提取
专题要素通常是研究人员感兴趣的特性目标,如建筑、道路、水体等。相比于土地覆被/利用分类,专题要素提取的对象较为单一,典型数据集包括SpaceNet(CosmiQworks 等,2018)、Road and Building Detection Datasets(Mnih,2013)、Salinas Valley Datasets(GIC等,2020)等。
Road and Building Detection Datasets 是多伦多大学的Volodymyr Mnih 于2013年发布的美国马萨诸塞州建筑物与道路提取的航空影像数据集。其中建筑物数据集包括151 张航空影像(137 张训练集、10 张测试集、4 张验证集),标签来自于Open Street Map。每张影像大小为1500 像素×1500 像素,空间分辨率为1 m(图6),主要覆盖城市和郊区不同尺度的建筑物。道路数据集包括1171 张航拍影像(1108 张训练集、14 张验证集、49 张测试集)。Mnih(2013)基于该数据集探索了条件随机场和联合结构噪声模型对卷积神经网络的影响,在道路与建筑物数据集上的精度可达89.04%和92.11%。
图6 Road and Building Detection 数据集样例Fig.6 Samples of Road and Building Detection datasets
5.4 遥感变化检测
变化检测是根据对同一物体或现象在不同时间的观测来确定变化区域的方法(Singh,1989),是更新地理数据、评估灾害、地理现象探测等应用的重要基础,典型数据集包括xBD(Weber 和Kané,2020)、Multi-temp Scene Wuhan (Wu 等,2016)、ABCD(Fujita等2017)等。
Multi-temp Scene Wuhan (MtS-WH)数据集由武汉大学SIGMA 团队于2019-03 发布,主要包括两张由IKONOS 传感器获得的7200×6000 的高分辨率影像(图7),其覆盖区域为中国武汉市汉阳区。两个时相分别为2002-02 和2009-06,空间分辨率为1 m,包含近红外、红、绿、蓝共4个波段。每个时相训练集包含190 张影像,测试集包含1920 张影像,场景共划分为9 类。Wu 等(2016)提出一种用于场景变化检测的模型DCCA-Net,在MtS-WH上的总体精度可达88.2%。
图7 MtS-WH数据集样例Fig.7 Samples of MtS-WH datasets
5.5 目标检测
目标检测的核心任务是判断遥感影像中是否存在某一特定目标(如飞机、舰船、车辆、储油罐等),并对其进行定位和分类识别(李文斌和何冉,2020)。其数据中的目标一般以边框的形式进行标注。典型遥感目标检测数据集包括DOTA(Xia 等,2018)、DIOR(Li 等,2020)等。
DIOR数据集是西北工业大学程塨团队于2019年发布的基于大规模光学遥感影像的新型目标检测数据集。数据集影像来源于中国资源卫星数据和应用中心提供的Google Earth、高分二号和吉林一号及CycloMedia B.V.航拍影像,该数据集包含20类目标,共计23463张影像与190288个实例,每个类别约含有1200张影像。图8为该数据集的示例图像。Li 等(2020)选取了R-CNN、YOLOv3、SSD、CornerNet 等12 种主流目标检测方法对数据集进行了基准测试,为未来研究提供了性能基准。
图8 DIOR数据集样例Fig.8 Samples of DIOR datasets
5.6 遥感语义分割
语义分割是计算机视觉领域的概念,其目标是对图像中每个像素进行语义分类,其与经典的遥感影像分类都属于逐像素分类任务,具有相通性。典型的遥感语义分割数据集包括Aerial Image Segmentation Datasets(Yuan 等,2013)、Evlab-SS Datasets(Zhang等,2017)等。
其中,Aerial Image Segmentation Datasets 是美国橡树岭国家实验室于2017年发布的用于语义分割的航空影像数据集,包含80 张空间分辨率在0.3—1 m 的航空影像,数据源为Google Earth 的红绿蓝3 波段航空影像和Open Street Map 的包含建筑、道路和背景的标签数据(图9),覆盖区域包括芝加哥、苏黎世、柏林、巴黎和波茨坦。Kaiser等(2017)基于一种增加跳层连接的全卷积神经网络对该数据进行了测试,分类精度为可达89.8%,F1-Score达0.844。
图9 Aerial Image Segmentation 数据集样例Fig.9 Samples of Aerial Image Segmentation datasets
5.7 定量遥感
定量遥感属于遥感领域重要发展方向之一,其原理是利用遥感传感器获取地表地物的电磁波信息,在先验知识和计算机系统支持下,定量获取观测目标参量或特性的方法与技术(李小文,2005)。与地物分类和目标检测等遥感影像数据集不同的是,定量遥感样本数据集多建立在区域乃至全球尺度上,其影像样本多为单个点位上的地物光谱,属性信息为待反演的参数(如叶面积指数、土壤湿度等),主要由科研机构发布,典型数据集包括黑河流域综合遥感联合实验数据集(李新等,2012)、中国东北森林遥感监测物候期分布数据集(于信芳等,2014)、怀来遥感站地面观测数据集(柏军青等,2020)等。
其中,黑河流域综合遥感联合实验数据集是由原中国科学院遥感应用研究所、北京师范大学地理学与遥感科学学院等多个研究机构于2010-07对外发布。该数据集为超大型综合数据集,截至2012年包括航空遥感、卫星遥感、气象水文、定量检测等多达701 个子数据集,数据总大小可达7000 Gb 左右,图10 为1998年—2002年黑河流域NPP 数据集样例。基于该数据集开展的定量遥感研究众多,如杨永民(2010)通过气象数据、通量观测数据等基于SEBS 模型对黑河流域的蒸散发进行了估算,并探究了区域内植被物候特征、水分收支情况等。
图10 黑河流域NPP数据集样例图(Lu等,2009)Fig.10 Samples of NPP Datasets of Heihe River Basin(Lu et al.,2009)
5.8 其他数据集
除了上述数据集,还有一些影像样本数据集,由于其数量不多,因此在这里以典型代表进行介绍。
SEN1-2(Schmitt等,2018)是由慕尼黑工业大学地球观测信号处理中心的M.Schmitt 等于2018年制作发布的用于研究雷达与光学影像融合算法的数据集,由282384 对Sentinel-1 雷达影像与Sentinel-2 光学影像的图斑组成,其数据覆盖全球且包含各个季节(图11)。Schmitt等(2018)基于该数据集探索了SAR 影像着色、基于SAR 影像的光学影像检索等应用,影像匹配精度可达93.9%。
图11 SEN1-2数据集样例Fig.11 Samples of Aerial Image Segmentation datasets
VisDrone2018 数据集(Zhu 等,2020)是由天津大学机器学习与数据挖掘实验室的AISKYEYE团队制作并发布的无人机遥感数据集。数据集覆盖中国14 个不同城市,由263 个视频片段组成,共计179264 帧与10209 张影像,同时提供了超过250 万的行人、车辆等目标的标注信息(图12)。Zhu 等(2020)基于目标跟踪、视频内目标检测等任务对该数据集进行了测试,验证了数据集的质量与挑战性,为未来的研究提供了算法参考。
图12 VisDrone2018数据集样例Fig.12 Samples of VisDrone2018 datasets
6 影响力分析
本节以数据集文献的引用量为影响力指标制作词云图(图13),进一步揭示不同样本数据集在科研中的影响力。由图13 可以直观看出,各应用领域均包含影响力较高的数据集,而以UC Merced和AID 为代表的场景识别类数据集和以DOTA、NWPU VHR-10为代表的目标检测类数据集无疑具有更高的影响力。在深度学习研究中,模型结构和算法策略上的创新都需要进行验证,而上述数据集因其影响力、数据质量等因素常被引用,一定程度上能解决统一标准缺乏的问题,使得深度学习在遥感领域的相关研究更加系统、规范。
图13 数据集影响力词云图Fig.13 Word cloud of datasets influence
相比之下,语义分割等其他4类数据集的关注度较低。诚然,数据集的影响力一方面受到领域热度的影响,另一方面受到数据集的质量影响。一些近几年出现的新型数据集(如xBD、DIOR)由于数据质量较高、数据新颖、标注质量高或定量遥感领域的数据集由于深度学习的引入而受到更多关注等原因,逐渐成为研究热点,可以预见其影响力将在未来进一步增加。
7 讨 论
经过文献分析可知,在当前遥感影像的信息提取研究中,以卷积神经网络为代表的深度学习已经得到了广泛应用。然而深度学习本质上属于数据驱动模型,其精度和泛化能力取决于样本数据的规模、标注质量以及是否具有代表性等因素。当前大部分研究的思路仍是针对某一应用场景,通过样本数据的采集及标注,对深度学习模型进行监督训练。不可忽略的是,遥感、地学领域的样本采集及标注的成本相比计算机视觉领域要高,因此如何充分利用已有样本、并充分挖掘未标记样本共同进行模型训练,就成为了一个重要的研究方向。针对这一问题,本文从样本的时空迁移、小样本与零样本学习、样本的主动发现以及样本生成等角度,对相关研究方法进行讨论。
7.1 样本时空迁移
在当前的遥感应用研究中,多采用某一特定区域和某一特定时相的样本进行模型的训练或标定,当更换研究区和时相后,模型精度往往下降,因此如何提高样本和模型的时空可迁移性,就成为了一个亟需解决的关键问题。
之所以会存在样本时空迁移问题,主要由于不同时相、不同区域的样本可能在形状、纹理、光谱、物候特性、成像质量等方面存在差异,从而导致样本分布的不一致。一种解决方法是在新的时空下重新制作样本数据集,以满足模型训练或标定的条件,然而高质量样本数据集的制作需要耗费大量人力成本与时间成本。
相比于重新采样,样本数据集的时空迁移可以将某一地的样本用于另一地,将历史样本用于当前影像以及将当前样本用于历史影像,从而大大减少额外采样带来的工作量。而深度迁移学习(包括模型微调finet-uning、域适应domain adaptation 等)的研究为解决样本的时空迁移问题提供了一种可行的途径和手段。以历史影像分类为例,可以采用域适应方法,将当前采集的样本视为源域,将待分类的历史影像作为目标域,通过源域和目标域之间的匹配、对齐等操作,可以将源域的分类模型作用于目标域,以提高历史影像的分类精度。
7.2 小样本学习与零样本学习
深度学习本质上是一个数据驱动模型,其训练需要海量样本数据才能获得较好的效果。如果样本数量较少、甚至没有标签样本,则深度学习模型将容易陷入过拟合,在预测新的数据时精度较差。然而在遥感应用研究中,已有数据集往往仅包含少量样本,因此如何利用有限的样本数据、抽取其先验知识、并推广应用到新数据中,也是一个亟需解决的关键问题。
小样本学习和零样本学习为解决上述问题提供了思路(Wang 等,2020)。当前的小样本学习一般是基于元学习的思想,方法包括基于度量的元学习、基于优化的元学习和基于模型的元学习等。而零样本学习则考虑在模型没有见过该类样本的情况下,也能做出正确分类和识别,其方法多以构建鲁棒性强的语义特征空间为主,尽量缩小见过与未见过样本之间的特征分布差异。
在未来研究中,如何构建合适的样本分布假设、并提高特征空间的代表性和可分性,是提高稀疏样本条件下模型泛化能力的一条重要途径。
7.3 样本主动发现
样本主动发现是指如何基于有限的标签样本,对未标记的样本进行标注的过程。当前热门的样本主动发现方法包括主动学习(Settles,2009)和半监督学习等。其中主动学习一般对最不确定和最具代表性的样本进行查询,并将其交由专家进行标注,并利用最新的标注样本对模型进行更新。然而当未标注数据过多时,主动学习的交互标注过程仍然会耗费大量成本。同时,半监督学习是一种不依赖专家交互、同时利用少量标注样本和大量未标注样本进行模型共同训练的一种学习策略(韩嵩和韩秋弘,2020)。而遥感影像作为天然的未标注样本池,可以为半监督学习提供海量的未标注样本数据。在遥感影像分类中,一种常见的半监督学习方法是首先利用有限的标签样本进行模型训练,并用该模型对未标记的样本进行分类从而得到伪标签并加入标签样本集,下一轮再同时利用标签和伪标签样本共同优化分类模型。
7.4 样本生成
相比于从遥感影像中主动发现样本,样本生成则关注于如何从无到有进行样本生产,从而提高样本的规模,避免深度学习模型的过拟合。
在样本生成方面,生成对抗网络GAN 是当下的研究热点,尤其在计算机视觉样本生成领域取得了巨大成功。GAN 通过学习真实样本的分布,可以生成与之类似的伪样本以进行数据增强,从而提高深度学习模型的泛化能力。然而GAN 的训练本身就需要海量样本数据,而在遥感领域,样本数据集规模较小,难以完全反映样本的真实分布情况,从而导致GAN 生成的伪样本效果欠佳。因此对于小样本数据集,如何将GAN 融入到小样本学习中,是遥感影像智能分析领域未来的一个重要研究方向。
8 结 语
随着深度学习等人工智能技术的不断更新和发展,新型遥感影像样本数据集也在相继发布,促进了人工智能在遥感领域的应用和推广。本文首先针对2001年—2020年近20 a 遥感领域中的典型样本数据集,从数据来源、应用领域、关键词热度分布等3个方面进行了元数据分析,并以应用方向为依据将其划分为场景识别等8个子集,对其中具有典型性、代表性的样本数据集以及相关研究进行了归纳和综述。此外,本文针对遥感领域内数据驱动模型所面临的稀疏样本问题,详细探讨了样本时空迁移、小样本和零样本学习、样本主动发现、样本生成等算法策略的适用性和研究前景。综上,本文首次对遥感影像样本数据进行了详细的综述分析,可为相关领域科研人员提供数据支撑和算法参考。