基于深度学习方法的耕地违建自动提取
2022-04-01雷丽珍胡睿飏杨钰灵
耿 欣,雷丽珍,花 卉,胡睿飏,杨钰灵
(1.广东省国土资源技术中心,广东 广州 510075;2.武汉汉达瑞科技有限公司,湖北 武汉 430073)
随着城镇化、工业化的加速发展,我国越来越多的地区面临着人多地少、土地质量退化、耕地资源稀缺等一系列土地资源问题。随着农村违法用地行为的出现,在今后相当长的时间内,一些区域特别是靠近城市的农村地区,人增地减的趋势难以逆转,人地失衡问题将会越来越突出,因此遏制农村违法用地行为势在必行。近年来,快速发展的航空航天技术和传感器技术为获取丰富多源的高分辨率遥感影像提供了有效途径;而计算机科学技术在人工智能领域的不断突破带动了深度学习技术在遥感领域的研发与应用,这也为快速获取遥感影像地表信息,及时监测农村土地利用动态提供了有效手段。
高分辨率影像在提供丰富纹理信息的同时,其数据量大、目标分布不均衡、色彩对比度低等问题也给目标地类解译带来了困难[1]。随着深度学习相关算法研究的深入,一些问题也得到了解决,如在改善分割效果上,ZHONG Z L[2]等利用跳跃连接将中间层特征图与高层特征图进行逐像素相加融合,提出了全卷积网络FCN-4s;Chaurasia A[3]等在解码阶段采用像素相加的方式融合编码阶段的特征信息,提出了基于编码—解码结构的LinkNet网络,可获得更精细的分割结果;WANG P[4]等通过优化上采样方式和空洞卷积,以及采用密集上采样卷积减少了信息的丢失量;ZHANG Z X[5]等结合残差思想对编码—解码结构网络进行了优化,在遥感图像道路分割中取得了良好的效果,但上采样过程中融合了细节信息,导致网络参数量增加、训练时间延长;ZHANG F[6]等研究了U-Net网络结构与批量归一化层相结合的方法,可综合考虑分割效果和训练时间。相对于自然场景图像,高分遥感影像的背景更复杂,而基于注意力机制的目标分割方法可通过投入更多的注意力在目标地类上来减少对非目标地类的检测,得到越来越多学者的青睐,如WANG F[7]等采用残差链接的方式实现了注意力机制;FU J[8]等采用两种并联的注意力机制对特征信息进行融合,实现了特征图的加权操作;HUANG Z[9]等通过计算各像素与其十字型区域内像素之间的相关性,研究了简化的位置注意力机制;LI H[10]等采用不同大小的卷积核获取多尺度特征信息,并通过融合多种特征信息与特征图逐像素点乘,提出了金字塔注意力网络,可增强目标的特征信息。
在城乡建成环境中,建筑物的增加与减少是其建设发展的重要标志[11],采用遥感技术和地理信息技术进行农村建筑物自动提取并监测乱占耕地问题,具有速度快、覆盖范围广、效率高的优势。本文将利用深度学习技术实现建筑物的自动提取,并借助于空间分析技术探索快速监测农村乱占耕地的方法。
1 基于深度学习方法的建筑物提取和违建图斑检测
农村乱占耕地违建在遥感影像上表现为耕地转移为建筑物,而在已有耕地矢量的前提下,仅需完成当前遥感影像的建筑物提取即可。本文基于深度学习的农村违建自动提取方法主要包括样本制作、模型训练、建筑物提取与矢量优化以及基于前期耕地矢量的变化检测等步骤。总体技术流程如图1所示,主要包括:①建筑物样本库制作,基于已有的2018年地理国情普查矢量和对应影像,选择建筑物类型的矢量作为标记数据进行样本库制作;②样本训练与测试,对样本进行训练并测试模型的提取效果,测试数据需涉及不同区域特征的影像,将提取的建筑物结果与同一区域人工提取的建筑物进行比对并计算查全率和准确率,指标均达到设定阈值方可停止模型训练,若指标总是达不到设定阈值,则需核查样本库,通过剔除错误样本或增加样本的方式更新样本库并继续训练,直至指标达到设定阈值为止;③建筑物识别,利用像素之间特征的相似性对影像进行超像素分割是图像识别等领域普遍采用的数据预处理方法,本文首先需对待解译影像进行超像素分割,再基于已训练好的模型进行建筑物识别;④二值分割,由于基于深度学习模型的解译结果为概率图,因此需借助二值分割算法对预测结果进行二值分割;⑤建筑物图斑矢量化,由于乱占耕地建筑物检测需要与前期耕地矢量进行空间叠置分析,因此需对二值分割结果进行矢量化;⑥基于前期耕地矢量的新增建筑物提取,将得到的建筑物图斑与前期耕地矢量进行叠置分析得到最终结果。
图1 总体技术路线
1.1 建筑物样本库制作
不同传感器、不同分辨率的遥感影像具有不同场景,建筑物随之具有极其复杂的场景特征,因此一个模型不能解决复杂场景的影像解译。为了提高解译模型的泛化能力,本文对建筑物样本进行分类,进而训练得到多种模型以适应不同场景。
局部二值模式(LBP)在度量和提取纹理信息方面具有灰度和旋转不变性的特点,首先本文对建筑物样本集进行LBP特征提取,采用3×3大小的窗口,比较中心像素的8邻域第p个点的像素灰度值Gp与中心像素灰度值Gc,若Gp>Gc,则标记该像素的编码为1;若Gp<Gc,则标记该像素的编码为0。逐个比较8邻域中的像素,算法过程描述为:
式中,P为LBP计算的范围大小(取值为3×3);R为邻域范围(取值为3)。
然后,本文采用K-means聚类方法将所有影像块的特征向量聚类,并提取100个视觉单词向量,构建词袋模型。最后,根据场景信息将样本集分为N类,并对N类子集进行训练,得出复杂场景下的N个子模型。具体流程如图2所示。对样本库中的所有样本进行聚类后,可对样本库进行统计分析,剔除含有云的样本,并对分布较少的样本进行一定的扩充,确保样本的分布均匀。
图2 建筑物样本库制作流程图
1.2 U-Net网络
U-Net网络延用了FCN“浅层定位、深层分割”的特点,可保证像素位置信息不丢失,最开始用于解决医学上的图形分割问题,后来被广泛应用于图像分割领域。U-Net网络是一个对称的编码器—解码器结构的语义分割网络模型,将在收缩路径上获取的特征图在上采样时与新的特征图进行堆叠,以实现图像特征的组合,因此能极大地保留收缩路径中下采样的特征信息[12]。然而,建筑物存在多尺度特征,大到数千平方米的厂房、小到几平方米的棚子,如果一味使用池化运算,很容易导致影像上细节信息的丢失。
空洞卷积(图3)以标准卷积核为基础,通过在卷积核中插入0值来实现卷积扩张,在避免采用池化层损失信息的同时,增大了感受野,卷积计算后仍可保留较大范围的信息,可获取多个尺度上的卷积特征。根据WANG P[4]等提出的标准模式,空洞卷积的设计需要遵守3个特征:①多卷积叠加时,空洞比率必须为素数或1,否则会出现栅格效应,损失信息的连续性;②空洞比率设计成锯齿状结构,如[1,2,5,1,2,5]循环结构;③空洞比率满足Mi=max{Mi+1-2ri,Mi+1-2(Mi+1-ri),ri},其中ri为第i层的空洞比率,Mi为第i层的最大空洞比率,假设共有n层,则Mn=rn。
图3 空洞卷积
本文保持参考文献[13]U-Net网络结构,在各网络之间采用空洞卷积代替原有池化操作。
1.3 遥感影像预处理
遥感影像分辨率的不断提高和数据规模的愈发庞大,不仅带来了大量的冗余信息,也大大提高了对计算机处理技术的要求以及影像解译的难度。利用相邻像素之间特征的相似程度进行聚类的超像素块来代替原有的以像素为单位的处理单元,既可降低图像后处理的复杂度,又可较好地保留分割边界的完整度[13-14],是图像分割、目标识别等领域广泛应用的图像预处理方法。基于分水岭的过分割方法是常用的超像素分割方法之一,本文采用经典分水岭分割方法对遥感影像进行预处理。
以影像各像素点的灰度值作为该点的高程,局部低点和周围区域形成集水盆,局部高点形成山峰,集水盆之间的边界即为分水岭。经典分水岭分割方法包括排序和淹没两个步骤:首先将像素按照灰度级从低到高排序,然后利用先进先出(FIFO)结构在高度为h阶的影响域对每个局部极小值进行判断和标注,实现淹没过程。为了得到分水岭,即图像的边缘信息,需要计算图像的梯度信息,计算公式为:
式中,x、y分别为图像的横、纵坐标;f( )x,y为图像坐标点与灰度值构成的映射函数;grad(f(x,y))为梯度函数。
对梯度图像进行阈值限制,可消除噪声和灰度的微小变化导致的过分割,从而获得适量的区域;再对这些区域边缘点的灰度级进行从低到高的排序;最后实现从低到高的淹没过程。对梯度图像进行阈值限制的公式为:
式中,gmin为图像梯度阈值。
本文采用经典分水岭分割算法对某区域高分一号影像进行超像素分割,结果如图4所示,可以看出,建筑物与周边地类的超像素斑块特征明显不同,且建筑物的超像素斑块边界准确性很高,为提取更高精度的建筑物图斑做好了准备。
图4 基于经典分水岭分割算法的超像素分割效果
1.4 建筑物图斑提取
1)二值分割。对预处理后的影像进行深度学习解译,得到的建筑物识别结果是一张概率图(图5b),因此需要对预测结果进行二值分割。最大类间方差法(Otsu)是由日本学者大津提出的,可根据图像自动生成最佳分割阈值。对于含有建筑物概率的图像I(x,y),设前景(建筑物)和背景的分割阈值为T,像素点占整幅图像的比例分别为w0、w1,平均灰度值分别为μ0、μ1,图像总平均灰度为μ,类间方差为g,采用式(5)、(6)进行遍历,得到使g最大的T值,即可得到含有建筑物和背景的栅格图,如图5c所示,黑色为背景,白色为前景,即建筑物。
图5 建筑物图斑提取
2)建筑物矢量化。在得到建筑物分割结果后,为了便于与耕地矢量进行空间分析,需将其进行矢量化。一般的栅格二值图矢量化算法没有考虑原始影像边缘、角点等特征信息,仅根据二值图进行矢量化,因此得到的建筑物矢量结果与实际边缘和角点偏差较大。Snake算法结合了高层知识和底层特征,通过迭代求取最佳轮廓位置[15]。为了得到更规整的建筑物矢量轮廓,本文采用基于Snake算法的矢量提取算法。在矢量提取过程中,首先对分割图进行矢量化,得到初始的矢量提取结果(图6a);然后利用Snake算法对建筑物矢量轮廓进行处理,得到的建筑物矢量轮廓与建筑物本身边界更贴合,如图6b所示。
图6 基于Snake算法的建筑物矢量提取效果
1.5 新增建筑物变化检测
空间叠置分析可实现两个或两个以上矢量数据的叠置计算,并得到新的矢量。其属性包括原来两个或多个层面要素的所有属性。本文采用空间叠置分析中的交集操作来提取耕地矢量中新增的建筑物,如图7所示。
图7 空间叠置分析(相交)示意图
由于提取的建筑物轮廓与实际边界总会存在偏差,与耕地矢量相交处理后得到的图斑形状各异,而建筑物本身的轮廓具有特定形状,因此本文借助圆形度对提取结果进行筛选。其计算公式为:
式中,Ba为提取建筑物图斑的面积;Bl为周长。c越接近1,图斑越接近圆形,c越接近0,图斑形状越不规则。根据建筑物本身的形状特征,本文中c的取值范围为0.50~0.90。
2 实验与结果分析
本文实验是在Inter Core i5-8500 3.0GHz CPU、64GB RAM的台式机上编程实现的,显卡为英伟达GTX 1080(8 GB)。
2.1 样本准备
根据实验区2018年地理国情矢量数据以及对应的成果影像,挑选建筑物类型矢量进行样本裁切(图8)。样本库中包括多传感器(国内外主流光学卫星、航摄仪、数码相机等)、多分辨率(0.5 m、0.8 m、1 m、2 m)多源遥感影像样本数据,如图9所示。通过对原始影像和标签数据进行裁切,总共得到23 101对512×512大小的影像数据和标签数据。
图8 样本集制作流程
图9 多传感器、多分辨率样本数据
2.2 解译精度评价
为了保证乱占耕地违建图斑提取的正确率,需定量评价建筑物的提取效果。本文采用准确率和查全率两个指标进行定量分析,计算公式为:
经过若干次训练后,本文选取农村地区6景含有不同建筑物特征的非样本数据影像进行测试。测试结果如表1所示,可以看出,经过大范围和大数据量的训练后,模型的建筑物提取结果较好;整体来看,各分辨率影像中建筑物提取的查全率大于90%,准确率大于74%,可用于农村地区的乱占耕地建筑物提取。
表1 建筑物提取查全率与准确率统计
将人工勾画的建筑物真值与提取结果进行对比展示,如图10所示,可以看出,影像上的建筑物基本被提取出来,真值中未勾绘的建筑物在本文方法中也被提取出来(黄色框出部分),说明本文方法在一定程度上比人工作业更具优势。
图10 建筑物提取局部效果
2.3 乱占耕地违建监测
测试区域面积约为2 458 km2,分辨率为0.5 m。实验影像和前期耕地矢量如图11所示。利用训练好的模型对测试区域进行建筑物提取,耗时不到1 h。建筑物提取的局部效果如图12所示。
图11 测区建筑物提取结果
图12 局部效果展示
将提取的建筑物矢量与测试区域的耕地矢量进行叠置分析,并将建筑物矢量落在耕地矢量的部分提取出来;再根据圆形度0.50~0.90的阈值进行筛选,去掉面积小于20 m2的图斑,最终得到2 935个乱占耕地建筑图斑,如图13所示。
图13 耕地矢量与建筑物矢量叠置分析整体结果
由提取的耕地变化为建筑物的图斑分布可知,耕地违建分布主要包括两种情况:①靠近居住地附近的耕地,主要为耕地建房(图14a);②远离居民地较偏远的耕地,主要为耕地建厂(图14b~14f)。
图14 耕地变化为建筑物的图斑
耕地违建问题伴随着经济发展普遍存在,单靠人工野外监查费时费力,本文提供的基于深度学习的耕地违建自动检测方法不仅能保证建筑物提取的准确度、减少人工漏检,而且能用于大范围的耕地违建监测,为节省人工作业时间、降低耕地违建监测难度提供了有效手段。
3 结语
由于遥感影像的复杂性、地物的多样性以及违建监测的时效性,传统目视解译方法难以满足农村违法热点监测需求,因此需要融合各种方法的优势,充分利用已有的多期多源遥感影像和历史矢量数据,结合深度学习对遥感图像特征的强大抽取表征能力,解决农村违法热点的大范围监测问题。
本文主要完成了以下内容:
1)建筑物样本集制作与训练。结合已有高分辨率影像与地理国情普查等数据,本文共制作了23 101对512×512大小的建筑物检测样本,并根据样本特征训练了适应不同传感器的农村建筑物提取模型。
2)针对建筑物轮廓提取不完整的问题,本文采用Otsu二值化方法和Snake算法对建筑物提取轮廓进行了优化,使之更符合实际生产需要。
3)建筑物提取。利用本文训练的建筑物提取模型,分别对0.5 m、0.8 m、1 m和2 m分辨率影像进行测试,整体查全率大于90%,准确率大于74%,可用于农村地区乱占耕地建筑物提取。与真值进行比较发现,本文方法能提取出人工漏检的建筑物图斑,比人工作业更具优势。
4)利用本文训练的建筑物提取模型进行了大范围的耕地违建自动提取测试。结果表明,本文方法能在1 h内提取出约2 458 km2范围内的建筑物;再结合历史耕地矢量数据,能快速发现2 935个占用耕地建筑物图斑。该方法为减少人工作业量、降低耕地违建监测难度提供了有效手段。