多时相遥感影像的变化检测研究现状与展望
2022-08-12张祖勋姜慧伟庞世燕胡翔云
张祖勋,姜慧伟,庞世燕,胡翔云,4
1. 武汉大学遥感信息工程学院,湖北 武汉 430079; 2. 国家基础地理信息中心,北京 100830; 3. 华中师范大学人工智能教育学部,湖北 武汉 430079; 4. 湖北珞珈实验室,湖北 武汉 430079
随着世界人口的持续增长和全球经济的快速发展,日益增加的人类活动不断驱动土地利用覆盖变化动态及变化模式更新[1]。及时准确掌握地表覆盖变化对国家经济建设、社会发展和生态保护至关重要。土地利用的遥感监测是用遥感影像,对土地利用状况及其动态变化信息进行的监测,已被国内外广泛认定为一项重要的科学目标,如美国国家航空航天局(NASA)的土地覆盖/土地利用变化计划(land-cover/land-use change program,LCLUC)[2],美国地质调查局(USGS)推出的新一代土地覆盖制图与变化监测产品—土地变化监测、评估和预测(land change monitoring,assessment,and projection,LCMAP)计划[3]等。21世纪以来,党中央和国务院相继提出“基本农田特殊保护制度”“18亿亩耕地红线”“非农化、非粮化”等相关政策,严格监控非法占地问题。自然资源部连年开展国土变更调查,要求全面掌握土地利用变化情况。利用多时相遥感影像进行地表覆盖(语义信息)的变化检测,对重要地理要素变化情况开展常态化监测,及时准确地掌握自然资源利用现状,持续监测更新全国土地调查成果,保持基础地理信息的准确性和现势性,迫切需要发展智能化的方法实现土地调查实时变更,对自然资源管理工作和经济社会发展具有重要意义。此外,利用遥感技术及时发现和查处违法建筑(几何和语义信息),有利于完善城市治理机制,增强城市可持续发展能力,实现城市综合治理水平的有效提升。
相片判读是测绘与遥感的主要任务之一,早期主要是结合人工目视解译与野外复核来完成,发展至今,可以通过计算机算法自动提取、判别目标。随着观测手段的进步和各类地理信息采集项目的开展,例如地形图测绘、地理国情普查、全球地表覆盖图(如30 m地表覆盖[4]、10 m地表覆盖[5])、开源地理信息(如天地图[6]、谷歌地图、OSM[7]),地球上任一处都存在不同尺度、不同时相、不同准确度的地理信息,如何利用新的影像快速、自动地发现变化,成为一个重要问题。借助摄影测量与遥感技术从获取和重建被摄对象的三维几何信息,发展到从时序数据中进行变化信息的提取,可以看作是加上时间维的第四维度的拓展。自2008年Landsat计划提供免费数据以来[8],基于时间序列(多期观测)的土地覆盖变化分析方法为变化检测提供了新的途径,相比依靠一对(两个时相)影像的监测变化,基于时间序列的方法以更连续的方式监测土地变化。然而,当前研究还是主要集中于双时相影像变化检测,时序影像的研究也局限于仅仅对双时相的扩展,并没有充分发挥时间序列的优势。随着视频卫星(SkySat系列、UrtheCast、吉林一号等)的发射升空,未来基于时序影像的目标动态监测与跟踪技术将具有较高的研究价值与广阔的应用前景。
遥感大数据、互联网、人工智能、云计算等现代信息技术正在蓬勃发展,驱动遥感监测技术模式快速转型升级。统筹利用现有数据与计算资源,开展地表常态化、智能化监测,及时高效地获取地物变化信息,已成为当前遥感领域的研究热点之一。利用遥感影像进行变化检测主要包含三大类任务:是否发生变化;变化类型(土地利用类型变化);以及变化分布和趋势。三者之间逐层递进,检测任务和难度逐步增加。然而遥感数据多源化、多时相、多尺度等方面的复杂性给自动化变化检测方法的通用性带来一定的挑战。实际应用中,通常根据应用需求(感兴趣目标的不同)结合现有可获取资源,选择相应的方法。
变化检测问题本质上依然属于模式识别与分类问题,发现定位变化区域并分析相关变化属性,其中变化属性主要包含土地利用类型变化(如耕地变为建设用地)和维度变化(如几何高度)。当前用于变化检测的数据源类型主要包括卫星影像、航空影像和三维点云数据,三者在适用情况、光谱信息、结构信息等方面具有较大的不同(表1)。
表1 不同数据源特征
不同传感器类型具有自身的特点,可实现在不同时间和天气条件、监测场景、覆盖范围、更新频率、监测粒度等方面发挥各种优势,因此适用不同的应用需求。卫星影像可实现任意区域定期监测,不受天气、飞行等条件影响,提供信息丰富的长时序影像,但易受到重访周期等因素的限制。航空影像获取较为灵活,可根据情况对局部地区快速提供无云的高分辨率影像,但受飞行安全、航空控制及天气条件等因素的限制。三维点云数据主要来自一幅或多幅立体影像通过密集匹配(计算机视觉中称为立体匹配)生成的同名点在物方空间中的坐标集合,但由于拍摄条件、拍摄设备等因素的影响,单纯利用影像信息(纹理、几何结构等)获取高精度密集匹配的空间三维信息依旧是极具挑战性的任务。随着激光雷达技术的逐步成熟,三维激光扫描技术可以快速获取地面高精度三维坐标,并且具有一定的植被穿透能力,但是不能获取目标的颜色纹理等信息,难以进行后续优化,更重要的是相比密集匹配点云获取费用较高。三维点云数据存在空间密度分布不均,不规则、不连续的特点以及噪声都给变化检测带来了困难。
为了全面回顾近些年遥感影像变化检测的研究进展,区别于现有变化检测综述,本文主要从几何信息(高度)与语义信息(是否变化、土地利用类型变化)两方面对多时相遥感影像常用的变化检测方法进行梳理,对相关方法体系进行归纳总结,重点对基于深度学习的方法进行了阐述,最后对当前方法存在的问题进行了剖析,提出未来发展方向。此外还列举了当前通用的公开变化检测数据集。
1 几何信息的变化检测
几何信息的变化检测可用于更新地形和地物信息。通过对比影像匹配或激光雷达等获取的不同时相三维数据,实现树木生长监测、地震损害评估、地形和建筑物变化检测等。直接获取的三维数据包含建筑、树木等非地形信息,进行地形变化检测前通常需要依赖地形滤波技术去除非地形信息,这种情况下其精度和准确性受限于滤波结果。相对于地形变化,建筑物或其他人工构筑物的变化检测较为复杂,尤其是可靠性相对较差的密集匹配点云数据,直接进行变化检测精度有限,通常需要结合光谱等信息进一步提升精度。根据是否结合光谱信息,几何信息的变化检测可划分为基于单一几何信息的变化检测方法和融合几何与光谱信息融合的变化检测方法,见表2。
表2 几何信息的变化检测方法
1.1 基于单一几何信息的变化检测方法
基于单一几何信息的变化检测在计算指标上有高度差和欧氏距离两种常见方式。高度差通常应用于内插成规则格网的DEM/DSM数据,又可细分为基于像素的高度差方法和基于窗口/对象的高度差方法。基于像素的高度差方法以单个格网点为单元来发现变化,用于树木生长监测[9]、滑坡体积分析[10]、城市区域三维变化检测[11-12]、建筑物变化分析[13-16],以及地震和损害评估[17-18]等,通过对高度差分的直接推导来发现潜在变化。例如文献[14]使用由ALOS(高级陆地观测卫星)生成的DSM在城市区域进行高度差值来发现建筑物的变化,文献[18]使用从震前和震后立体航拍图像生成的DSM来检测倒塌的建筑物。由于配准误差和DSM精度的影响,基于像素的高度差方法检测得到的伪变化较多,为了解决这一问题,一些研究者提出了基于窗口/对象的方法。文献[19]在移动窗口上采用最小的高差来减少对象边界处产生的DSM噪声。在他们后来的工作中[20],使用全色图像得到的对象作为高度差分单元,进一步减少了误检测。
高度差方法的另一个问题是它对配准和匹配错误较为敏感,而理论上更为严谨的曲面间欧氏距离可以一定程度上弥补此类缺陷。曲面间的欧氏距离最早在配准[21]中提出,通过最小化两个三维曲面的欧氏距离差实现配准,此后文献[22]将它应用于两个图像匹配获得的DSM来估计森林体积变化,变化指标为两个三维曲面的欧氏距离。这类基于曲面间欧氏距离的方法对顶视三维数据中的配准误差稳健性强,可应用于全三维数据中,但它通常需要密集的法线方向估计和对应点搜索,计算复杂,耗时长。因此,虽然理论上曲面间欧氏距离比高度差更严格,但在顶视三维数据处理中,高度差仍然是最方便有效的方法,适合于第一步尝试使用[23]。
1.2 融合几何与光谱信息的变化检测方法
几何信息作为变化检测的一种重要信息源,可以有效提升变化检测的精度。但由于几何信息中几何误差的存在,很多情况下使用单一的几何信息难以得到理想的变化检测结果。同时,几何信息通常带有光谱信息,例如多光谱/高光谱正射影像和图像纹理等,使用额外的光谱信息有助于补偿由单一来源引起的错误,进一步增强变化检测稳定性。根据几何和光谱信息的不同结合方式,融合几何与光谱信息的变化检测主要包括:①后精化;②直接特征融合;③分类后处理三种。
后精化方法是指使用几何与(和/或)光谱信息来精化由几何比较产生的初始变化结果,这是一种两步法,即几何比较产生变化候选并通过几何与(和/或)光谱信息对上述几何比较得到的初始变化结果进行后精化。例如,针对不同期航空立体像对,文献[13]通过比较两个数字表面模型定位变化的区域,并采用决策树分类这些区域来进行建筑物变化检测。文献[24]提出了一种基于数字表面模型和原始影像的建筑物变化检测方法。在该方法中,首先采用图割优化算法提取地物变化区域,然后结合原始影像数据排除其中树木的影响,最终获得新建、增高、拆除以及降低四个建筑物变化类别。文献[25]提出了一种基于无人机影像密集匹配点云多层次分割的变化检测方法,通过色度异质性实现多层次分割与变化提取。这类后精化的方法相对较为灵活有效,参数易于理解和调整。但这类方法的初始变化结果严重依赖于几何比较的结果,漏检测的情况在后续精化过程中无法找回。
直接特征融合方法同时考虑了几何和光谱信息,通过特征融合方法实现最终的变化检测,特征融合可以在特征级也可以在决策级。例如,文献[26]直接融合高程和辐射差异到一个变化矢量分析框架中,几何和辐射信息的权重由经验获得,只需调整一个单一变化指标即可得到最终的变化检测结果。此后,文献[20]采用Dempster-Shafer融合理论结合DSM高程变化和原始影像导出的KL散度相似性度量来提取建筑物变化。文献[27]提出了一种基于高分辨率立体影像及LoD2模型检测建筑物变化的方法。在该方法中,非监督自组织图(SOM)被用于融合DSM和光谱特征组成的多通道指标来实现不同类别的分类。文献[28]提出了一种基于联合超像素图割优化的三维建筑物变化检测方法。该方法将建筑物变化检测问题建模为二值分类问题,首先采用SLIC超像素分割方法获得联合超像素对象,并以超像素对象作为处理单元提取多维度变化特征,采用图割优化框架获得全局最优解。文献[29]提出了一种多源多特征遥感数据变化检测框架W-Net,该框架可分别用于同质和异构遥感数据的建筑物变化检测,也可以依靠其双向对称端到端网络架构输入2D或3D建筑物变化检测的同质和异构遥感数据。还有的文献采用了基于规则的分类[30-33]、SVM[34-36]、决策树[27]、图割[37]和随机森林[38]等来融合多个特征以实现建筑物变化检测。这类方法同时考虑了几何和光谱信息,且算法框架易于结合其他信息源来进行变化检测。但这类方法中融合算法的参数设置要求严格,不正确的参数设置会对最终的变化检测结果造成错误。
此外,考虑到拍摄时间不同、数据来源不同等原因,不同期数据间特征差异过大,严重影响了两个数据集之间的几何和纹理的直接比较。为此,有学者提出了一种分类后处理的方法。这类方法首先对两个数据集进行分类或检测感兴趣的对象,然后比较这些结果标签实现变化检测。例如,文献[23,39]提出了一种基于对象的多期立体影像三维建筑物变化检测方法。在该方法中,对于每一期数据,首先采用Meanshift进行分割获得对象,特征提取后结合决策树和SVM进行监督分类,最后进行比较分析。在这类方法中,DSMs通常作为一个额外的通道集合到分类或检测方法中,采用的分类方法包括SVM、决策树等。增加三维信息可以有效提高分类和目标检测的精度,每个数据集单独建立训练数据集/规则,避免了未经校正的几何和光谱信息的直接比较,对于不同数据来源、不同获取条件(不同季节、光照等)造成的干扰更加稳健。但这类方法的变化检测结果通常受分类精度影响较大,单期的分类错误有时会累积到最后的变化检测结果中。
2 语义信息的变化检测
2.1 方法体系
由于遥感影像空间分辨率不同,覆盖场景多样,许多学者相继提出多种变化检测方法,体系框架如图1所示。针对遥感影像变化检测的研究对象涵盖多种人工(如建筑物、道路、堆掘地等)和非人工地物(耕地、植被、河流、湖泊、湿地、河岸线等)等土地利用类型,以及船只、岛屿等特定目标类型,数据的多源化、研究对象的多样化及应用场景的差异性都为变化检测带来了一定的挑战。由于变化对象的特殊性和广泛性,根据应用需求的急迫性以及方法模型的通用性,当前针对遥感影像的变化检测研究从研究对象的角度可分为针对特定目标的二值变化检测(建筑物、道路及植被等)和一般变化检测(土地利用地表覆盖),二者区别在于前者针对特定目标的研究,相当于预先引入了先验知识,只需要定位变化区域;而后者需要判定地物类型,即同时完成变化的定位和分类任务,较前者更为复杂,因此此类方法大多需要利用专家知识辅助语义信息的变化检测。结合以上分析,考虑到算法的普适性和通用性,本文主要从信息层次(像素级、特征级和对象级)和建模方法(是否机器学习)两方面对主流变化检测方法进行总结。
图1 遥感图像语义变化检测体系框架
随着遥感图像空间分辨率的提升(高分辨率甚至超高分辨率图像的出现),地物目标呈现的纹理结构信息更加丰富,目标解析层次从像素级提取(像素强度比较或者转换)、图块级识别(图像块是否发生变化)到对象级定位自动发现变化方法得到有效应用。变化检测分析单元从“像素—图块—对象—场景”过渡,像素间关系实现“孤立—局部—邻近—感受野”,信息利用层次实现“像素—特征—对象—高维”的发展过程[40]。从特征模型角度可分为人工特征建模方法和基于深度特征学习方法两类。前者利用专家知识规则对目标区域进行特征建模表达(大量的底层、中层特征),随后通过阈值分析或者机器学习方法实现变化区域发现定位。后者依托于人工智能技术,利用深度神经网络学习目标的不同层次特征(高层特征)进行变化区域发现定位,相对前者更加简洁通用,目前在遥感影像变化检测中得到越来越广泛的应用。
20世纪80年代以来的变化检测方法是从数据源、像素分析单元、信息利用层次及年代历程等维度的归纳。如图2所示,分为4个典型的发展阶段:①基于中低分辨率影像的像素统计分析时期;②基于高分辨率影像的特征建模时期;③基于高分辨率影像的面向对象分析时期;④基于深度学习的高分辨率影像变化检测时期。
图2 遥感图像语义变化检测发展历程
2.2 方法归纳
2.2.1 非机器学习方法
非机器学习方法是针对特征进行建模,然后根据分析单元或者分析目标的特征差异完成变化检测的一类方法。
像素级的变化检测是最简单的变化检测方法,它以独立像素作为检测单元,通过逐像素的减法或除法等算术运算分析像元光谱差异提取变化信息[41],主要包括算术计算类方法、图像变换类方法和分类后比较法等。算术计算类方法是通过对两幅精确配准的图像对应点像素的灰度值做差值[42]、比值[43]或回归分析等,如果该值满足选定的阈值,则视为该像素发生变化。该方法的局限性包括:首先,检测结果是二值化的,不能生成完整的变化信息矩阵;其次,最佳阈值难以选择。图像变换类方法是按照一定规则把图像转换到特征空间,对变换结果进行分析得到变化像素。最常用的方法包括与遥感相关的植被指数法、缨帽变换法及特征相关的主成分分析法(PCA)[44-45]、多元变化检测(MAD)[46]、变化向量分析(CVA)[47-48]、慢特征分析(SFA)[49],以及一系列衍生方法。像素级方法对高分辨率遥感影像中的高频信息敏感,且易受到影像几何校正和辐射校正误差的影响,适用性受到制约,因此主要适用于中低分辨率影像。
在特征级方面,由于纹理、边缘和空间结构等特征与地物的表现密切相关,并且这些特征较为稳定,不易受传感器类型的影响,因此,通过比较多时相影像的特征信息可以用于变化检测。它主要包括基于纹理特征[50-54]、基于边缘特征[55-57]和基于形状结构[58-61]的变化检测等。特征级的变化主要依赖于特征选取和设计,在不同的应用场景和不同的影像数据中,很难获得统一的特征选择准则或指导,普适性是其最大的挑战。
随着高分辨率甚至超高分辨率影像的出现,地物目标细节越来越丰富,变化检测方法逐渐由初始的像素级分析过渡到对象级。与人类识别机制相似,面向对象的变化检测通过分析对象的不同属性和空间分布来理解语义[61-62]。它可集成局部区域丰富的边缘、纹理、形状和邻域目标的空间关系等相关特征[22,63-69]。对象级的变化检测方法主要包括:直接比较对象[70-72]、分类后比较对象[73-76]、多时相分割[77-79]等。这类方法的研究主要针对特征较为明显的目标,如建筑物。鉴于建筑物基底矢量数据与屋顶轮廓的一致性假设,通过先验形状约束可实现不同结构源数据的变化检测[80]。面向对象的变化检测在应用中具有一定的优势,但也存在一些问题。作为面向对象方法的关键过程,图像分割技术能够将相邻像素聚合成对象以进行比较,因此分割方法的优劣会直接影响变化检测精度。
2.2.2 机器学习方法
作为人工智能的核心方法,机器学习正在迅速成为数据驱动型世界的一个必备模块。随着机器学习方法不断发展壮大并广泛应用于遥感影像中,分类器性能得到极大提升。基于机器学习的遥感影像变化检测本质是通过双/多时相遥感影像特征的提取,挖掘变化样本的特征信息,将变化检测问题转换为机器学习的分类问题。决策树[81-82]、随机森林[83-87]、支持向量机[88-92]、单分类器[93-94]、人工神经网络[95-97]等经典机器学习理论被广泛应用到遥感影像中发现变化信息,在一定程度上缓解了传统变化检测的压力,但是依然存在一些缺陷。由于遥感影像具有幅宽大、覆盖面积广等特点,即使在地物类型简单的区域,在不同气象、季节等采集条件下影像的差异也给该场景下精细化变化检测带来了一定的难度。如耕地、河流等较为简单的地物纹理分布可能均匀,也可能丰富多样(田埂、播种、河滩、结冰等),这些因素都严重影响了变化检测工作。因此通过专家知识手工设计的底层或中层特征往往很难满足算法需求,导致检测结果较差。此外,经典机器学习方法通常形式较为复杂,并且分阶段(特征提取和分类器学习)优化,这给算法设计的可操作性和一致性带来了一定的影响。
深度学习方法是机器学习领域的一个新分支。2006年,文献[98]提出的“深度信念网络”掀起了深度神经网络研究的新浪潮。得益于大数据、云计算及人工智能等技术的快速发展,2012年,由Khrizhevsky提出的AlexNet[99]在ImageNet比赛(ILSVRC-2012)中,凭借15.4%的Top-5分类错误率以近10%的优势打败了第二名[100](SFT+FVs)而取得冠军。深度学习方法对人工智能特别是模式识别领域产生了重大影响,同时也为变化检测研究开创了一个新的里程碑。以下主要对基于深度学习的变化检测方法进行简要述评。
区别于常规机器学习方法,深度学习是具有多隐层的人工神经网络,能够从海量标注数据中发现和学习影像中地物目标的几何结构和上下文关系,并将特征模型从传统的人工设计特征转变为机器自动学习深度抽象特征,结合分类器通过多层非线性网络实现地物的自动化识别和推理[101],进而完成变化检测,见图3。原有机器学习方法多在中小规模的数据上追求精度和效率,需要研究数据的先验特性,并把它添加到特征学习中学习得到可判别性的典型特征,包含特征学习和分类器/回归器设计两个重要环节。深度学习则是在大规模的数据上尽可能采用统一的端到端的设计方式,直接获得从数据到标签(如是否变化)的映射。在摄影测量应用中,近年来人们构建大量遥感影像样本库,利用深度学习技术服务于变化检测、土地覆盖等任务,显著提高了遥感影像特征利用效率。本文根据检测粒度按照场景级、像素级和对象级[102]对当前基于深度学习的变化检测方法进行介绍。
图3 深度学习地物识别过程
2.2.2.1 场景级变化检测方法
遥感图像空间分辨率的提升丰富了地表景观和纹理信息描述。场景级的土地利用分析(如场景分类[103-105]、场景分割[106-108]和场景变化检测[109-111])得到了广泛的研究。这里所谓的场景是指大尺度遥感图像中具有清晰语义属性信息表达(侧重于社会功能,如商业区、居民区、运动场等)的局部或者全局图像块[105,112-113]。利用多时相遥感影像在场景级识别土地利用变化是城市发展分析和监测的一个新领域[114]。例如,住宅区和商业区的出现表明城市的发展情况[111]。由于场景中的目标,例如植被生长或个别建筑物的拆除/建造,不会直接影响土地利用类别,即它们在场景中的变化不会改变区域土地利用情况,因此相对像素级和对象级变化检测方法,场景级变化方法在土地利用变化分析应用中更有优势。
有别于自然或街景图像场景级变化检测(像素级二值分类任务)(arXiv:1810.09111,2018)[115],遥感影像场景级变化检测方法的基本思想是比较多时相影像的特征差异,判断变化情况,是一种区域级分类任务。与常规计算机视觉任务类似,早期场景级变化检测方法主要解决两大问题,即有效的特征提取方法和最优的特征变换空间分析特征相似性。基本处理流程为选择特征提取方法(如BoWM[116])结合分类器(SVM[117])完成场景变化检测过程[109,111]。文献[110]首次提出利用端到端的卷积神经网络,通过融合时相关性进行场景级变化检测。在此基础上,文献[118]提出了一种深度典型相关分析方法,进一步提高多时相影像的特征相关性描述,场景级变化检测精度也得到显著提高。
2.2.2.2 像素级变化检测方法
通过对大量数据的学习,深度神经网络可以挖掘影像更深层次、更稳健的抽象特征。试验表明,在较大的自然场景数据集上训练的网络特征也可以用于遥感领域[119],如VGG[120]和ResNet[121]等,所以大量的预训练网络特征被用来作变化检测。这种方法与传统方法中基于图像转换类的方法相似,首先利用卷积神经网络提取图像的深度特征,然后对提取到的特征进行像素级比较以获得差异图,最后通过阈值选择方法获得变化图[39,122-124]。试验表明,这种基于预训练特征实现变化检测在很多情况下适用性较差,因为它实际上是一种无监督的学习方法,它的提出主要是基于不变区域间的像素差异相对变化区域间差异一定是更小的[125]这一假设然而光学图像不同类别间的特征统计往往存在多峰或者高度重叠[126],导致该方法在应用时容易混淆。此外,在这种方法中,特征表达及相似度度量的各个阶段都会不可避免地引入误差,并且会逐步累积。
随着全卷积神经网络的发展,尤其是在语义分割任务中逐像素分类性能的提升,不少学者将孪生神经网络用在逐像素分类中,逐个像素分类判断是否发生变化。由于涉及多个输入影像,这类方法包括三种类型,即输入多个独立的分支、数据端组合[127-128]和网络内部融合[129-131]。由于独立分支方法会丢失多时相特征相关性信息,因此大多数研究主要集中在后两种方法。像素级分类方法不仅局限于解决二值分类问题(是否变化问题),同时也便于进行多任务学习,完成多类型预测(如土地利用类型变化)。文献[132]提出了一种端到端的建筑物多任务变化检测方法,包含两个语义分割网络和一个变化网络,图像按照两个分支输入并分别提取特征,然后每个分支分别进行语义分割,结果融合后用于检测变化。文献[133]则使用全卷积网络开展语义级变化检测,同时预测土地利用类型变化及变化区域。文献[134]为缓解多任务学习中的类别不平衡问题,利用一个非对称的孪生网络同时定位和识别语义变化。
2.2.2.3 对象级变化检测方法
这类方法以图像块(patch)或者超像素(superpixel)为基本输入单元,根据训练所处阶段的不同可以划分为两种方式:一种是通过图块或者超像素计算特征差异产生差异图作为伪标签进行学习[135-137],这种一般属于半监督或无监督学习方法;另一种则是采用孪生神经网络的方式对图块训练学习再进行分类。自LeCun首次提出孪生神经网络[138]以来,目前已成为用来衡量两个输入相似程度的一种经典特征表达方法,并在遥感影像的变化检测中得到了深入研究和广泛应用。基于孪生神经网络计算特征相似度的方法可以分成3种方式[139]:代价函数判断[140-142]、网络内部融合[143-145]和数据端组合[146]。对象级的变化检测方法在异源数据变化检测[147]和多模态应用(arXiv:1807.09562,2018)等方面具有一定的优势,但是这种方法也存在一些局限性。第一种方法与传统像素级方法类似,在进行阈值分割时,变化与不变像素的个数依然需要满足一定的分布关系。对象级方法对象单元大小通常也很难确定,这将对后续模型性能产生极大影响,并且随机裁切的图块中含有过多的冗余信息,不仅会导致严重过拟合问题,也会增加计算负担[148]。除此以外,这类方法还可以通过深度学习直接检测变化对象的包围盒,例如对偶相关注意力的变化检测算法[149]。
2.3 变化检测数据集
针对变化检测问题,为提高机器学习模型性能并且验证不同方法的有效性,通常需要选取一定规模的数据集,通过计算各种算法在数据集上的性能指标,从而做出详细的定量评价。为此本文收集了截至目前在研究中较为常用的若干数据集,见表3,其中专题在本文中特指针对特定目标(如建筑物)或者全要素。
表3 变化检测相关数据集信息
目前,利用现有公开数据集结合深度学习技术进行高分辨率遥感影像的变化检测虽然取得了明显成效,但是总体来说,在复杂场景中进行变化检测依然存在一些问题。这些数据集除了数据标注的标准不一致、类别不统一外,数据量也不大,且大多数只针对某类地物进行标注,并没有考虑实际需求中多种地物的组合变化。在缺乏广泛的地理场景覆盖、季节与物候、不同传感器的大规模变化检测样本数据集条件下,无法有效支撑遥感变化检测的应用需求。深度学习对海量样本数据依赖性与实际可用数据的匮乏性使得当前基于深度学习方法在大区域、复杂场景下的变化检测任务面临诸多挑战[157]。
3 关键问题与发展趋势
当前针对变化检测的研究主要集中在机器学习方法,关键研究问题大致可分为数据准备和预处理、机器学习模型设计、遥感影像特性与地学相关知识的应用,以及模型性能优化等多个方面。数据准备和预处理包括针对多传感器、多源、多时相的大规模样本库构建方法、多源数据特征融合等问题。机器学习模型的设计重点关注缺少大规模高精度样本条件下的模型构建问题,可探索的方法包括迁移学习、蒸馏学习及终身学习/增量学习等。此外,由于遥感影像与日常空间获取的数字图像存在巨大差异,在模型中如何顾及和利用遥感影像的特性和相关地学知识(包含已有的地理信息),是增强模型的稳健性和可用性的重要手段。因此,多时相遥感影像的变化检测研究进展与传感器的发展、相关数据处理技术的进步密切相关。总体而言,该领域的研究呈现出数据-信息-知识的融合增强和方法的综合互补等总体趋势。以下就几何信息和语义信息的变化检测两方面进行分析。
几何信息变化检测方面,得益于近年来激光扫描硬件的发展和影像密集匹配技术的突破,几何信息获取的便捷性,进一步推动了利用几何信息进行变化检测的相关研究。虽然不少学者证明了几何信息可以有效提升变化检测的可靠性,但依然存在诸多难题。首先,无论是LiDAR还是密集匹配点云,几何信息获取成本均高于单纯利用遥感影像数据,几何信息变化检测技术普及难度大。其次,需求较大的建筑物等几何信息变化检测对DSM质量、地形滤波技术等要求高,因此变化检测几何精度严重受限于DSM质量、地形滤波结果。此外,深度学习技术多用于影像特征表达,融合几何和光谱等多源信息的端到端几何变化检测研究较少,这也制约了几何信息变化检测的进一步发展。
在语义信息变化检测方面,目前,虽然凭借深度神经网络的强大特征抽取能力,针对变化检测研究的变化目标定位能力(变化位置)取得了一定的进展,但是在实际应用中,如果只利用二值变化标签开展变化检测研究,依然存在诸多无法逾越的难题,这是由于如果仅仅采用深度学习提取遥感影像视觉特征,而较少地考虑地学空间语义信息和相关知识,会使得模型的可解释性和可靠性较差。此外,在大多数场景中,变化的区域相对总体地表覆盖来说,一般仅仅占据极小部分,由此导致从前后两个时期影像获取的变化样本数量往往并不太多,而且根据地域发展特性,变化区域也具有一定的地域偏好性,造成样本分布严重不均衡,从而利用深度学习抽取的特征对变化区域识别的泛化能力受到很大限制。除此之外,仅仅提取变化图斑在诸多应用中都会受到较大限制,如城市绿化面积变化要求提供林木变化类型信息、城市规划过程中需要研究土地利用变化情况等。虽然目前出现了一些采用多任务的方式融合语义信息可以实现同时提供变化区域定位和类型识别的研究,但是依然存在很大的局限性。一方面,由于地物信息复杂多样,智能化解译方法的精度并不能满足常规业务化需求,仅仅输出端的结合导致二者彼此孤立,并不能做到相互融合,正向促进;另一方面,在模型端融合需求的样本数据具有一定的条件限制,即需要训练数据同时存在变化标签和语义标签,目前此类大规模样本数据集极少。此外,在某些应用中,样本数据极其难以收集(如矿山等)。因此未来探索数据驱动与知识驱动的结合方式,是深度学习时代增强变化检测能力的重要研究方向。
4 结 语
需要指出的是,由于篇幅所限,笔者对基于SAR和高光谱等影像的变化检测方法并未做广泛深入的探讨。总体而言,由于变化检测是两个或多个时相信息的比较问题,深度卷积神经网络由于其强大的特征抽取和特征表达能力,在变化检测研究中取得了一定的效果。基于对已有方法的总结和分析,归纳出未来值得注意的若干研究方向。①大规模变化检测专用样本集的构建与应用:大规模样本集有望训练出泛化能力强、普适性好的变化检测模型,为了避免过大的人力标注投入,其中应重点研究“时-空-谱-类”的多层次、多模态遥感影像变化检测样本的自适应生成、自动精化以及样本转换方法。②跨越“语义鸿沟”:变化检测本质上也是模式识别问题,如何利用遥感影像的时-空-谱等特性、地理信息先验与其他地学相关知识,来进行高精度的语义信息提取和变化检测,是实现模型可解释性和稳健性的必由之路。③多源数据的信息挖掘:多种来源的地理信息和其他多种模态的相关数据(如互联网信息、视频、音频等)可以辅助进行变化的发现,提升方法的稳定性和可靠性。④小样本学习:小样本学习在实际应用中将大大减少模型对样本的需求,实现弱监督甚至无监督条件下的自动变化检测,需要与②和③的联合研究来实现。