基于深度学习与矢-栅数据的图斑变化检测系统
2022-03-13单浩宇王春晓尹鹏程李二珠张连蓬史嘉诚
单浩宇,王春晓,尹鹏程,李二珠,张连蓬,史嘉诚,刘 伟
(1.江苏师范大学地理测绘与城乡规划学院,江苏 徐州 221116;2.自然资源部海南基础地理信息中心,海南 海口 570203;3.徐州市自然资源与规划局,江苏 徐州 221018)
0 引 言
长期以来,我国国土监管部门主要采用遥感影像内业人工解译及外业人工辅助配合调查的方式提取地物信息,调查周期长,时效性差,需要投入大量人力物力,难以满足当前土地监管的需求[1]。近年来,随着卫星遥感技术的快速发展,利用高分辨率遥感影像进行变化检测的应用场景愈加广泛。深度学习技术不断发展,以其高精度、高效率的方法在遥感影像变化检测领域受到追捧[2-3],为解决土地监管问题提供了新的方案。
传统的图斑变化检测方法大多围绕高分遥感影像多元化特征提取或融合以提高检测精度[4],在一定程度上提升了生产效率,但需要大量先验知识和参数调整,应用中仍呈现人工干预多、自动化程度较低,检测结果的可靠性和准确性仍有较大提升空间等特点[5-6]。现阶段基于矢量数据的地类图斑变化检测研究较少,并不能很好地发挥已有矢量数据成果的价值以及满足智能化地类图斑变化检测的需求[7]。近年来,深度学习在图像分类与识别中表现出显著的应用潜力[8]。在深度学习中,地类图斑变化检测任务可转化为对目标对象的识别和分类问题,通过深度学习方法在遥感影像中提取复杂特征,从而识别出变化区域[9-10]。
本文针对图斑变化的快速准确发现,提出一套基于深度学习和矢-栅数据的图斑变化检测自动化处理系统。基于矢量成果数据,以高分遥感影像为参照,构建样本自动生成和纯化方法;针对精细化图斑识别问题,融合多种深度学习分类模型,提高精细化图斑的识别效果;基于深度学习平台框架,开发一套满足图斑变化检测需求的软件系统,并以洋溪河湿地为研究区域进行变化检测任务。
1 变化检测系统实现
系统主要通过3个模块实现变化检测流程管理,包括样本自动生成与优化、深度学习模型训练与预测和变化检测后处理。流程的技术路线具体如下:首先将两期影像依据矢量数据分别制成带有不同标签的纯化训练样本集和预测数据集,然后对训练样本集进行模型训练并使用验证集数据对训练结果作精度评定,接着载入生成的训练结果对预测数据集进行模型预测,最后将预测结果根据制定的判别规则进行后处理分析,得到最终的变化矢量图斑。技术路线如图1所示。
图1 技术路线
1.1 样本自动生成与优化模块
1.1.1 顾及矢量边界的样本自动生成
传统方法通常采用人工标注方法建立样本库,但面对高分遥感海量数据以及深度学习所需要的海量训练样本,受限于先验知识和样本标注低效的不足导致其难以满足实际业务生产的需求,对此,本模块实现了一种顾及已有矢量成果数据边界的样本自动生成方法,此方法利用地类标注信息,将已有的矢量图斑与栅格样本进行关联,对相应的影像数据进行自适应切割和样本自标注,分割出具有单一类型的样本,从而生成初始的数据集,以提高生成样本的效率。
1.1.2 样本自动纯化
纯化即对初始样本集进行分类和提纯。对比于传统变化检测方法泛化能力弱的问题,深度学习所产生的权重文件不仅可以用于预测数据集,对样本集的纯化也有较好的效果,且深度学习所需样本量远超传统方法,人工提纯方法耗时费力无法满足需求。为此本模块构建一种基于深度学习预训练权重的样本自动纯化方法。首先加载进训练预权重对待提纯的样本库进行预测,并将样本库按照预测结果放入各自归属的地类名称文件夹,部分预测类别与标注类别不一致的样本将被舍弃。此外,由于矢量边界的不规则分布,导致样本生成的过程中不可避免地产生边角区域为NoData的样本,为此本模块还实现一种基于NoData像素比例模型的黑斑剔除功能,通过输入阈值筛除NoData占比过大的样本。经如上操作实现样本数据集的提纯,以期得到更好的训练效果。
1.2 深度学习训练与预测模块
1.2.1 模型训练
面对海量多尺度样本数据集,需要配套多种与之适配的深度卷积神经网络模型进行训练,本模块集成了多种常见分类模型,如ResNet、EfficientNet等,同时结合了多种已开发改进的深度学习训练框架,如ME-Net[11]、PRCUnet[12]、IB-CNN[13]等,系统将根据输入样本尺寸大小匹配合适的训练模型。
本模块结合实际用户需求,提出两种训练方法:① 常规训练,根据输入样本和参数设置进行模型训练,训练后生成模型文件和类别文件;② 迁移训练,考虑到部分用户需要加载预权重,在常规训练的基础上添加迁移学习功能——解封率,针对输入的预训练模型进行顶层解冻,默认为10%,即解冻预训练模型顶层10%进行权重更新,剩余90%不进行训练。随着解冻模型层数的增多,迭代次数增加,训练时间变缓,最终形成稳定模型。此外常规训练包含两种训练模式——正常训练和快速训练,两者各自集成了不同的网络模型。正常训练的精度高但耗时长、占用资源多;快速训练在正常训练的基础上对模型进行优化,让模型更精炼、效率更高,但精度通常要低1%左右。
1.2.2 模型预测
模型预测即根据训练的模型文件、类别文件以及相应的参数设置,对输入影像进行预测判别,并把预测结果存放到DBF表。系统会根据概率阈值,对输入的预测图像斑块进行判断,即如果该斑块被预测为某种地类的概率不小于阈值,将被写入DBF表中,否则舍弃该斑块。
预测后的DBF表结构表1所示。其中“预测类别”为模型预测类别;“预测概率”为预测的可靠性评估;“标注类别”为预测图斑的原标注类别,即在矢量图斑中的标注类别;“标注序号”为该影像图斑映射到矢量图斑中的FID;“图像名称”为该图像斑块名称,其中h、w为该图像斑块的像素坐标,F为该图像斑块映射到矢量图斑的FID,dataset为该图像斑块原始图像的名称。系统可根据上述信息定位到变化图斑。
1.3 变化检测后处理模块
本模块通过对预测结果后处理来定位变化矢量图斑。由于一个矢量图斑中可能存在多种地类,单一阈值分割方法难以准确判定矢量图斑是否发生变化。针对该问题,本模块基于数据集的分类情况,将各地类分为“敏感类”“易混类”和“非敏感类”,并限定各地类允许存在的最大图斑比例,以此来制定判别规则,增加其科学性与合理性。
表1 预测结果表
本模块面向用户多样的需求提出两种后处理方法。第一种后处理方法通过多重阈值联合决策和图斑比例结合的方法来定位,生成以原始矢量为基础单元的变化矢量图斑;第二种后处理方法根据预测数据集的h、w等坐标信息来定位,生成以预测数据集单个图片为基础单元的变化矢量图斑。第二种后处理方法作为第一种方法的补充手段,可以更为直观地对预测结果进行观察评估。
2 试验与分析
2.1 试验数据及运行环境
试验数据,来自江苏无锡洋溪河湿地两期0.05 m分辨率的RGB无人机影像以及与一期影像对应的矢量数据,采集时间分别为2019年和2020年6月份,试验数据集有多样的地物类别,包括草地、道路、耕地、建筑、水体、林地,如图2所示。
图2 试验区域数据
试验软硬件环境方面采用Windows10操作系统、使用的计算机配置为Inter(R) Xeon(R) Silver 4114 CPU(64 GB 内存)、GTX 1080 TI GPU(48 GB 显存)。
2.2 试验参数设置
为了尽可能确保分割单元中地物的完整性,本试验设置第二期影像切割的重叠率为50%,两期影像自适应裁剪尺寸均在100~300像素之间,得到一期原始样本9 009张,二期原始样本12 346张。在对样本集进行黑斑剔除操作时,NoData值最小阈值为30%,即黑斑占比小于30%的样本会被舍弃,共计删除118张含有黑斑的样本。为减轻地类间数据不平衡导致训练出现过拟合的问题,本试验在训练前按样本数最多地类的数量对其他地类进行硬拷贝。将一期影像70%的样本中用来训练、30%的样本用来验证,二期影像全部样本用来预测,三个数据集数量分别为6 225张、2 666张和12 346张。训练批次设置为50批,取最优训练结果作为最后权重。预测时设置概率阈值为95%,即预测地类与标注地类不低于95%相似度时才写入DBF表,共计10 768张二期预测数据写入DBF表。
2.3 试验结果分析
部分试验结果如图3所示。由于对二期影像进行重叠切割,使用第二种后处理方法所产生的变化矢量图斑会有部分重叠,因此仅作辅助手段不纳入精度计算。通过目视解译验证变化图斑检测的正确性,最终本系统在洋溪河湿地0.05 m空间分辨率的遥感影像上,变化检测的精确率(Precision)、召回率(Recall)分别为82.4%、95.7%。试验证明,本系统各模块流程畅通,满足变化检测过程中各项任务的业务需求,并在降低了使用门槛的同时能够有效检测出变化图斑。
图3 洋溪河湿地图斑变化检测结果
3 结 语
本文通过对无锡洋溪河湿地图斑变化情况的试验分析,验证了系统进行精细地物变化检测的有效性和可行性。在试验过程中,系统的样本自动生成与优化模块大幅减轻了人工工作量,模型训练与预测模块提升了地物分类精度,后处理模块实现了变化图斑的快速准确定位,满足了国土资源变化监管的需求,为耕地“非粮化”“非农化”以及违法用地的快速发现提供了有力的技术支持。但在试验过程中发现本系统对训练样本集的要求较高,在样本纯化功能的辅助下仍需要人工进行挑选;同时对于耕地、草地和林地等地貌特征相似的地类图斑,系统容易混淆,造成预测精度下降。由此进一步加强对样本的提纯优化和高效管理,并提高深度学习模型的分类能力,是本系统下一阶段的研究重点。