APP下载

基于Elan-UNet的遥感影像建筑物提取方法

2023-08-01李松宇

现代信息科技 2023年11期
关键词:深度学习

摘  要:为了克服传统的U-Net网络高分辨率遥感影像建筑物提取可能出现的漏检,以及边缘细节损失的问题,以U-Net网络作为基础模型,提出一种多尺度采样模块(residuals elan block)以及多分支组合下采样模块结合的语义分割算法。通过重新设计网络模型的编码器,使网络编码获取更多语义信息;通过采用卷积与池化结合的方法改善池化带来的空间信息丢失问题。在WHU Building Dataset公开数据集上的实验结果表明,该算法的精准度为85.01%,交并比为80.88%,比基础模型算法分别提高了4.73%和10.6%。

关键词:U-net;多尺度采样;感受野;深度学习

中图分类号:TP183;TP751 文献标识码:A 文章编号:2096-4706(2023)11-0089-05

Remote Sensing Image Building Extraction Method Based on Elan-UNet

LI Songyu

(College of Information Science and Technology, Bohai University, Jinzhou  121013, China)

Abstract: In order to overcome the possible problems of missing detection and edge detail loss in building extraction of high-resolution remote sensing images using the traditional U-Net network, a semantic segmentation algorithm combining the multi-scale sampling module (residuals elan block) and the multi-branch sub-sampling module is proposed based on the U-Net network as the basic model. By redesigning the encoder of the network model, the network coding can obtain more semantic information. By combining convolution and pooling, the spatial information loss caused by pooling can be improved. The experimental results on the open data set of WHU Building Dataset show that the algorithm's precision is 85.01% and the IoU is 80.88%, which is 4.73% and 10.6% higher than the basic model algorithm, respectively.

Keywords: U-net; multi-scale sampling; receptive field; deep learning

0  引  言

城市高分辨率遥感影像的绝大多数的人工建筑为建筑物,遥感影像的建筑物自动识别对城市建设规划、自然灾害等应用具有重要的意义[1-3]。

从高分辨率光学遥感图像中自动提取建筑物也是计算机视觉和遥感领域中热点课题,并取得了实质性的进展。近年来,由于深度卷积神经网络(DCNN)在目标检测[4-6]、图像分类[7,8]和语义分割[9-12]中的成功应用,深度学习逐渐应用于入遥感领域的地物分类等问题[13-15]。例如,Saito等人[16]应用单个卷积神经网络直接从原始VHR遥感图像中提取包括建筑物在内的多种地物;Bittner等人提出了由三个并行FCN4s网络组成的Fused-FCN4s模型,从三波段(红、绿、蓝)、全色和归一化数字表面模型(nDSM)图像中学习空间和光谱构建特征;刘尚旺等人[17]提出一种基于U-net网络多任务学习的建筑地物语义分割方法;张春森等人[18]在SegNet网络基础上提出了基于稀疏约束SegNet的高分辨率遥感影像建筑物提取方法;于明洋等人[19]提出了一种基于DeepLab V3的高分辨率遥感影像建筑物自动提取方法;武花等人[20]提出了融合多特征的PSPNet模型实现复杂场景下的建筑物提取。基于深度学习的建筑物提取方法,在精度和稳健性上有了明显的改善。但是,目前,主流的编码解码语义分割算法的特征提取仍然存在忽略上下文信息且空间信息损失的问题,使得一些高分辨率的小建筑物存在漏检现象或者边缘精度较差的现象。针对上述问题,本文改进了传统的编解码网络U-net算法:1)改进U-net编码:改进其特征提取的局部性和单一性问题,引入Elan网络结构,通过控制最短和最长的梯度路径,使网络能够学习到更多的特征,并且具有更强的鲁棒性;2)改进U-net在池化过程中存在空间信息的丢失现象,采用卷积与池化結合的方法改善池化带来的空间信息丢失问题。

1  传统的Elan网络结构和U-Net网络结构

1.1  Elan模块

Elan模块(多尺度采样模块)主要功能是特征提取,主要由两条分支组成。Elan模块的第1条分支做了1×1卷积处理,其主要功能是改变特征图通道数;第2条分支进行了4次不同感受野的特征提取操作,特征提取单元主要进行卷积、归一化(Batch Normalization)、激活函数(Silu)操作,最后将分支1与分支2所有特征,通过短接操作进行特征融合,其结构如图1所示。

1.2  U-Net网络

U-Net网络是经典的语义分割网,如图2所示,主要分为两个模块。其中第一个模块是编码部分,该模块通过卷积操作和最大池化操作缩小图片的尺寸,利用编码部分能够生成5个有效的特征层。第二个模块是解码部分,利用该模块将生成的5个特征层进行上采样,恢复特征图至原图大小的尺寸。编码器和解码器之间通过跳跃连接(skip connection),将得到的所有有效特征层进行特征融合。最终利用最后一层的有效特征层,通过Softmax对每一个特征点进行分类。

2  Elan-UNet网络语义分割网路

本文保留了U-Net网络基本的网络结构,提出了一种Elan-UNet网络结构。其整体结构分为编码、解码两部分。编码部分由特征提取模块、降采样模块组成;解码部分由上采样模块组成,结构与编码部分对称。算法整体的结构图,如图3所示。

2.1  编码器

Elan-UNet基本框架如图3所示。编码阶段通过5次Elan模块对遥感图像特征提取,以及5次下采样模块,最后将特征图尺寸变为原来的1/2。

与目前主流编码器使用池化操作不同,本文的降采样模块是多分支组合降采样模块,由2个分支组成,分支1采用最大池化,然后进行1×1的卷积;分支2先进行1×1的卷积改变通道数,然后进行步长为2的3×3卷积来进行降采样,最后将分支1与分支2的结果加起来,得到增强后的降采样特征,結构图如图4所示。

2.2  解码器

解码器的主要功能是将编码器提取的浅层语义信息进行处理,进一步提取出更高级的语义特征,并通过反卷积操作进行上采样,将提取的高级语义特征扩展到输入影像的尺寸,最后利用分类器对高级语义特征逐像素分类完成分类任务。

本文解码器是由Elan模块和上采样模块组成,Elan模块用于提取高级语义特征,上采样用于扩展特征图尺寸。上采样模块是采用反卷积操作完成的。反卷积是一种特殊的正向卷积,先按照一定的比例通过填充0来扩大输入图像的尺寸,接着旋转卷积核,再进行正向卷积,具体操作如图5所示。

3  实验分析

3.1  实验环境与数据集简介

本文所有算法是在Win 10系统,Python 3.8环境下进行对比实验。本文对算法验证是在WHU Building Dataset上进行的,WHU Building Dataset主要分为训练集、验证集、测试集三部分,其中训练集有4 736张512×512尺寸的建筑影像,验证集有1 036张512×512尺寸的影像,测试集有2 416张512×512尺寸的影像。训练集主要用于训练模型,验证集用于挑选训练性能最优的模型,测试集用于评价训练出来模型的性能。

3.2  实验过程及结果分析

为证明算法的有效性,本文将Elan-UNet、U-Net、DeepLab V3、SegNet四个算法在WHU Building Dataset进行训练并对各项指标进行模型性能测评,例如交并比(IoU)、精确度(Precision)、召回率(Recall)、F1_Score值等。

为了验证算法公平性,本文的对比实验是在相同epoch次数、损失函数、优化器进行;其中epoch都设置100次,优化器为Adam算法,Loss为交叉熵函数。为了保证参数初始化带来的影像,本文的所有的模型编码器都没有使用大型公共数据预训练模型。

为了验证算法在训练时的收敛情况以及算法模型的精确度,本文记录了各模型Loss情况以及每一轮模型在测试集上精确度,如图6所示。

从图6显示的Loss/Precision折线图可得出,Elan-UNet算法的收敛存在波动,但在整提上精确度完全优于其他算法。

本文还对各模型的交并比(IoU)、精确度(Precision)、召回率(Recall)、F1_Score值进行了测评,各模型在测试集上所表现的最优效果如表1所示,从表1测试结果中可得出Elan-UNet在IoU、Precision、F1_Score三项指标要明显有其他算法。

为了进一步对算法模型性能验证,本文对各算法的分割结果进行了可视化,如图7所示。其中,图7(a)为原图,(b)为标签图,(c~f)分别为SegNet、DeepLab V3、U-Net、Elan-UNet网络的测试结果。

从图7中结果明显可以看到,本文提出的Elan-UNet对遥感影像建筑物提取整体视觉效果明显好于U-Net网络提取结果。在小目标,误检,漏检等方面要优于其他对比算法,有效验证Elan-UNet遥感建筑提取的优越性。

4  结  论

为了使U-Net网络在提取遥感影像建筑物时能够更加精准,对细小物体轮廓提取更加清晰,本文以U-Net网络作为基础框架,通过引入Elan模块以及多分支组合下采样模块,提出了Elan-UNet算法,该算法可以通过控制最短和最长的梯度路径,使网络能够学习到更多的特征。使用WHU Building Dataset作为实验数据,经过实验验证,算法改进后的性能有明显提高,在交并比、精确度等性能上明显优于其他三个比较有代表性的分割算法,证明了该算法的有效性和可行性。

参考文献:

[1] GRINIAS I,PANAGIOTAKIS C,TZIRITAS G. MRF-based segmentation and unsupervised classification for building and road detection in peri-urban areas of high-resolution satellite images [J].ISPRS journal of photogrammetry and remote sensing,2016,122:145-166.

[2] MONTOYA-ZEGARRA A J,WEGNER J D,LADICKY L,et al. Semantic segmentation of aerial images in urban areas with class-specific higher-order cliques [J].ISPRS Annals of Photogrammetry,Remote Sensing and Spatial Information Sciences,2015(1):127-133.

[3] ERENER A. Classification method,spectral diversity,band combination and accuracy assessment evaluation for urban feature detection [J].International Journal of Applied Earth Observations and Geoinformation,2013,21:397-408.

[4] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago:IEEE,2015:1440-1448.

[5] SZEGEDY C,TOSHEV A,ERHAN D. Deep Neural Networks for Object Detection [C]//The 27th Annual Conference on Neural Information Processing Systems (NIPS).Montreal:[s.n.],2013:2553-2561.

[6] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single Shot MultiBox Detector [C]//The 14th European Conference on Computer Vision,Amsterdam:Springer,2016:21-37.

[7] SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston:IEEE,2015:1-9.

[8] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet classification with deep convolutional neural networks [J].Communications of the ACM,2017,60(6):84-90.

[9] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Semantic Segmentation [J] IEEE Transactions on Pattern Analysis and Machine Intelligence,2017:39(4):640-651.

[10] BADRINARAYANAN V,KENDALL A,CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation [J].IEEE transactions on pattern analysis and machine intelligence,2017,39(12):2481-2495.

[11] RONNEBERGER O,FISCHER P,BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation [C]//The 18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI).Munich:CoRR,2015:234-241.

[12] NOH H,HONG S,HAN B. Learning Deconvolution Network for Semantic Segmentation [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago:IEEE,2015:1520-1528.

[13] PAN X,YANG F,GAO L,et al. Building extraction from high-resolution aerial imagery using a generative adversarial network with spatial and channel attention mechanisms [J/OL].Remote Sensing,2019,11(8):[2023-02-03]. https://doi.org/10.3390/rs11080917.

[14] YUAN J. Learning building extraction in aerial scenes with convolutional networks [J].IEEE transactions on pattern analysis and machine intelligence,2017,40(11):2793-2798.

[15] JI S,WEI S,LU M. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set [J].IEEE Transactions on Geoscience and Remote Sensing,2018,57(1):574-586.

[16] SAITO S,YAMASHITA T,AOKI Y. Multiple object extraction from aerial imagery with convolutional neural networks [J].Electronic Imaging,2016,2016(10):1-9.

[17] 劉尚旺,崔智勇,李道义.基于Unet网络多任务学习的遥感图像建筑地物语义分割 [J].国土资源遥感,2020,32(4):74-83.

[18] 张春森,葛英伟,蒋萧.基于稀疏约束SegNet的高分辨率遥感影像建筑物提取 [J].西安科技大学学报,2020,40(3):441-448.

[19] 于明洋,张文焯,陈肖娴,等.基于DeepLabv3+的高分辨率遥感影像建筑物自动提取 [J].测绘工程,2022,31(4):1-10+17.

[20] 武花,张新长,孙颖,等.融合多特征改进型PSPNet模型应用于复杂场景下的建筑物提取 [J].测绘通报,2021(6):21-27.

作者简介:李松宇(1998—),男,汉族,辽宁营口人,硕士研究生在读,研究方向:深度学习计算机视觉。

收稿日期:2023-03-03

猜你喜欢

深度学习
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现