多尺度特征融合空洞卷积ResNet遥感图像建筑物分割
2020-08-05徐胜军欧阳朴衍郭学源TahaMutharKhan段中兴
徐胜军,欧阳朴衍*,郭学源,Taha Muthar Khan,段中兴
(1.西安建筑科技大学 信息与控制工程学院,陕西 西安 710055;2.清华大学建筑设计院有限公司,北京 100084)
1 引 言
建筑物作为城市区域的重要特征,是占主体地位的地物目标,遥感图像建筑物的分割在重要目标的识别及定位、国防安全和掌握建筑物实时位置等方面都有着重要研究意义和应用价值。但是由于不同时相遥感图像受角度、光照、季节等因素的影响,同时也会受到建筑物周围背景,如道路、树木及其他地物阴影等的干扰,使得遥感图像建筑物的分割成为高分辨率遥感图像分割中最具挑战性的任务之一。
在遥感图像建筑物语义分割中,传统方法通过人工或机器学习方法[1-4]获取梯度、灰度值、纹理信息等图像特征实现对特定目标的分割,主要包括基于阈值基于边缘和基于区域的分割方法。ANDRES 等[1]提出一种基于K-means算法的阈值确定方法对遥感图像进行分割,利用K-means分类来指导遥感图像的分割过程。Wang等[2]在遥感图像阈值分割的基础上,融合边缘提取的方法得到遥感图像分割物的边缘信息,最终对目标区域实现分割。Deng等[3]引入区域合并的方法来解决遥感图像过分割问题,运用基于区域面积加权的区域相似度准则解决区域合并中过分割的问题实现对遥感图像的分割。Zhao等[4]提出了一种基于灰度共生矩阵丰富边缘区域提取的图像去模糊方法,将区域特征信息与图像边缘信息结合,从模糊图像中提取高频信从而提升图像分割精度。这些传统方法在提取遥感图像建筑物特征信息时受到空间相关性弱、多阈值选择限制和边缘信息不连续等因素影响较大,分割结果欠佳[5]。
近年来,利用深度学习[6-20]实现遥感图像建筑物语义分割得到了广泛关注。相比传统方法,基于深度学习的方法可以针对具体的遥感图像建筑物分割问题自动学习合适的特征表示,其分割的实质是建立图像到分割目标之间的复杂映射模型。Krizhevsky等[6]提出AlexNet模型,利用深度神经网络对图像进行分类。Simonyan等[7]基于VGG模型,通过反复堆叠 3×3的卷积核和2×2最大池化层,不断加深网络结构来提升性能。但是随着网络的加深,出现训练集准确率下降,错误率上升的现象。He等[8]提出深度残差网络ResNet(Residual Neural Network,ResNet),解决了网络模型的退化问题,利用更深层的网络提取更复杂的特征。在卷积神经网络中,很多经典网络被应用于遥感图像的语义分割。YE等[9]使用一种基于卷积神经网络的融合算法网络[10]对传统融合方法中人工制定融合规则的缺点加以改进,利用网络模型将出入图像输出具有端到端特性的融合图像,通过训练数据自适应学习强鲁棒融合函数从而加强分割效果。ZHU等[11]利用SegNet[12]与图像形态学结合来消除遥感图像噪声,减少误判从而提升遥感图像的分割精度。Yang等[13]在SegNet基础上利用解码器模块将低分辨率映射特征传递到高分辨率映射特征,对高维特征进行低维提取,达到对遥感图像提取和分割的目的。Piramanayagam[14]等采用完全卷积神经网络(Fully Convolutional Networks,FCN)框架对多传感器图像进行像素级分类,将提取的特征经过全卷积后进行融合实现遥感图像的分类。Saito等[15]结合卷积层与全连接层组合成的深度神经网络模型实现遥感图像建筑物与道路的分割。Bittner等[16]利用VGG深度神经网络训练建筑物边缘距离特征信息,建立能量损失函数模型来分割遥感图像建筑物。Jiao等[17]提出一种基于全连接条件随机场深度多尺度模型来实现高光谱遥感图像的分割。Xu等[18]提出一种全卷积网络模型FCN,去掉下采样层,将多元信息在输入端进行融合来实现遥感图像小目标的分割。但是上述方法在遥感图像的建筑物分割中,提取的固定大小的建筑物特征信息对一些较小尺寸的建筑物经常无法实现精细化分割,甚至出现漏检的问题。另外遥感图像建筑物的分割常受到复杂场景中道路、树木及建筑物之间距离等因素的影响,建筑物的分割边界容易与其他物体边界融合使得难以提取并精确分割。
针对上述问题,提出了一种基于多尺度特征融合的空洞卷积ResNet(Multiscale-feature fusion Dilated Convolution ResNet,MFDC-ResNet)模型,提出模型选用ResNet模型作为基础网络,引入空洞卷积方法提取更大范围的建筑物特征,然后利用4邻域加权特征算子增强空洞卷积中心点对特征的提取能力,最终将不同尺度的多个遥感图像建筑物特征融合来提升及分割精度。
2 Resnet深度残差网络
2.1 ResNet基本结构
令X={x1,x2,…,xN}表示遥感图像,其中xi表示任意像素,N为像素总数;Z={z1,z2,…,zN}表示遥感图像建筑物分割结果。基于深度学习方法对遥感建筑物图像分割的实质是建立遥感图像与分割结果之间的映射关系f(·):
Z=f(X,ω),
(1)
式中ω为神经网络中的权重。
遥感图像具有高维性、强背景干扰以及建筑物复杂多变等特征,浅层网络难以有效建立起遥感图像与分割结果之间的映射关系f(·)。深度残差神经网络ResNet在深度神经网络中增加残差网络,通过学习多个网络层输入、输出之间的残差,简化学习目标同时保护信息的完整性,解决了网络层数增多时由于误差增高、梯度消失而导致训练结果变差的现象。ResNet101基础模型分别用1×1,3×3,1×1的卷积堆叠,其网络整体模型如图1所示。
图1 ResNet101网络结构Fig.1 ResNet101 network structure
2.2 ResNet基础残差模块
ResNet基础残差模块主要有2种,图2(a)是常规模块,由两个64×64通道的3×3卷积组成,输入和输出均为64通道。图2(b)是瓶颈模块,通过一个1×1卷积将256维通道降维到64维通道,最后再通过一个1×1卷积恢复到256维通道。残差模块输入输出映射关系fc(·)为:
fc(X,ω)=H(X)-X,
(2)
式中:H(X)表示网络输入X的期望输出;H(X)-X表示网络输出和输入的残差。
(a)常规模块(a)Residual block
(b)瓶颈模块(b)Bottleneck图2 基础残差模块Fig.2 Basic residual module
由残差模块框架可知,在训练模型输出端引入样本的前馈通道构成闭环,把网络的恒等映射函数H(X)=X训练转换为一个残差函数fc(X,ω)=H(X)-X的训练,从而使得深度神经网络的权值收敛更加有效。
3 多尺度特征融合的空洞卷积Resnet
模型
由于遥感图像中建筑物尺寸大小不一,利用固定大小的建筑物特征常无法对一些较小尺寸的建筑物实现精细化分割,甚至出现漏检的问题,另外遥感图像建筑物的分割常受到复杂场景中道路、树木及建筑物之间距离等因素的影响,导致建筑物与其他物体边界相互混淆。针对此问题,本文提出了一种基于多尺度特征融合的空洞卷积Resnet模型(MFDC-ResNet)。提出的MFDC-ResNet模型由空洞卷积特征提取、多尺度特征融合和特征解码3个模块组成。基础网络为ResNet101,分别运用不同扩张率的空洞卷积自动提取遥感图像中建筑物X的特征信息,在不损失所提取图像特征信息的基础上增加特征提取的感受野,获取比ResNet基础网络更大范围的建筑物特征信息;其次将提取的不同层次特征信息Y送入多尺度特征提取模块输出,将多层次的特征信息Y(m)和对应的多个上下文信息C(m)由深到浅从多个层次融合并逐层输出特征A(m),融合时保持输出步幅下采样的倍数不变;最终由ResNet101模块的特征解码恢复图像原始分辨率,输出遥感图像建筑物分割结果Z。提出MFDC-ResNet模型框架如图3所示。
图3 MFDC-ResNet模型框架Fig.3 MFDC-ResNet model frame
3.1 改进的ResNet基础模块
为了避免卷积输出可能存在的负值对ReLU激活层输出的弱化,增强深层网络训练过程中的图像特征信息,在ResNet101基础残差模块的基础上,将BN(Batch Normalization)层和ReLU(Rectified Linear Unit)激活层放置于卷积层之前,改进后ResNet基本模块结构如图4所示。
图4 改进的ResNet基本模块Fig.4 Improved ResNet basic module
BN层通过规范化的方式,使激活函数输入在可以激活的区域,输入的变化可以反应损失函数的变化,产生较大梯度以避免梯度消失,从而加快训练中网络收敛速度和学习速率。BN层的实现过程如算法1所示:
算法1 批量规范化(BN)Step1: 获取容量为m的当前批次训练样本:X={x1,x2,…,xm};Step2:计算均值μδ:μδ←1m∑mi=1xi;Step3: 计算方差σ2δ:σ2δ←1m∑mi=1(xi- μδ)2;Step4: 样本规范化:^x←xi- μδσ2δ+ε;Step5: 尺度变换规范化输出:yi←γ^xi+β≡BNγ,β(xi),其中^xi为标注化参数,γ和β为需要学习的参数,δ为小批量数据的值。
ReLU激活函数的作用是拟合训练数据,单侧抑制的特点可以使得ResNet基本模块具有稀疏激活的作用。ReLU激活函数定义如式(3):
f(x)=max(0,x),
(3)
式中max(·)表示在输入为负值时输出为0,神经元不会被激活。
3.2 空洞卷积结构
在将遥感图像输入深度神经网络过程中,对图像进行连续卷积和池化或者其他下采样操作整合多尺度上下文信息,这样在降低图像尺寸的同时增大感受野,会损失一些分辨率,使得一些图像细节信息无法重建。针对以上问题,在ResNet中利用空洞卷积在不做池化操作损失特征信息的情况下增大感受野,每个卷积输出包含比普通卷积更大范围的特征信息,利于获取遥感图像中建筑物特征的全局信息。
空洞卷积向卷积层引入了一个“扩张率(Dilation Rate,DR)”的新参数,该参数定义了卷积核处理数据时各值的间距。设置不同扩张率时,感受野会不同,从而能够获取遥感图像多尺度特征信息。实验中,根据遥感图像的原始尺寸来相应设定深度神经网络中空洞卷积所提取的特征图的大小,进而设定空洞卷积扩张率。本文设定扩张率参数分别为Rate=6,Rate=12,Rate=18,通过不同扩张率的卷积获取多个尺度的建筑物特征信息,卷积内剩余点的权重均为0。空洞卷积结构如图5所示。
图5 空洞卷积结构Fig.5 Dilated convolution structure
在遥感图像中,建筑物往往随机分布在图像任意位置,且其形状变化大,利用空洞卷积提取特征时扩张率逐渐增大,而卷积中心点的特征权重会逐渐减弱。因此在利用空洞卷积提取建筑物特征时,在增强感受野的同时需要增强卷积核中心点的对图像特征信息的描述能力。为解决这一问题,本文提出一种融合局部空间特征信息卷积核中心点提取方法来加强扩张率Rate=18时空洞卷积中心点对特征信息的描述能力。提出方法是在提取特征时将卷积核中心点及其4邻域点作为有效点一同提取特征。对于一个3×3卷积核,输出特征时将卷积核4个顶角的特征参数用0取代,将卷积输出作为中心点的特征信息。提出的卷积核中心点提取方法如图6所示。
图6 卷积核中心点改进后提取方式Fig.6 Improved extraction method of convolution kernel center point
在中心点C0及其4邻域点Cn(n=1,2,3,4)构成的3×3卷积中,利用局部区域空间特征信息提取新的中心点权重特征Y。中心点及邻域的卷积过程如图7所示。
其中输入图像向量为X={x1,x2,…,xN},输出特征Y={y1,y2,…,y9},卷积过程表示为:
X*C=Y,
(4)
图7 中心点及邻域卷积过程
3.3 多尺度特征融合结构
利用深度神经网络分割建筑物时,池化和其下采样会导致建筑物边缘信息丢失现象。空间金字塔池化对不同分辨率的特征图进行池化,而不同尺度的上下文信息有助于获得完整的建筑物边界信息。因此基于空间金字塔池化在深度神经网络模型中建立多尺度特征融合结构,去掉传统深度神经网络中的池化或者其他下采样步骤,在不丢失分辨率的条件下更容易对建筑物目标定位。
表1 多尺度特征融合输出Tab.1 Multiscale-feature fusion output
提出的多尺度特征融合结构分别采用3种不同采样率的3×3卷积核获取多尺度特征信息。但是当采样率接近映射特征时,3×3的卷积核不能有效捕捉局部细节信息,因而采用1×1的卷积滤波器,利用滤波器中心点来提取遥感图像建筑物边缘较小的细节信息。多尺度特征融合结构如图8所示。
图8 多尺度特征融合结构Fig.8 Multiscale feature fusion structure
空间金字塔结构包含1×1和采样率分别为6,12,18的空洞卷积,输出通道的数量为256,最后包含一个BN层。在遥感图像建筑物的多尺度信息融合时,采用不同采样率的空洞卷积保持输出步幅下采样的倍数为8,将空洞卷积提取的多层次特征信息经过空间金字塔模块处理的信息进行融合。提取特征时第m层的输出为:
Y(m)=W(m)×X(m)+b(m),
(5)
式中:第m层的卷积输入为X(m),输出为Y(m),权重参数为b(m)。空洞卷积输出的各级特征Y(m)和对应的上下文特征C(m)经空间金字塔模块由深到浅从多个层次融合各级特征A(m),最终运用ResNet101中特征解码模块恢复图像原有分辨率,输出分割结果Z。多尺度特征融合的输出如表1所示。
4 实验结果及分析
4.1 实验数据集及实验平台参数设置
实验平台搭载Inter Xeon E5 2650处理器,32 G内存,2个NVIDIA TitanV Volta 12 G显卡(GPU处理单元);深度学习框架采用pytorch-1.0.2,以及Nvidia公司CUDA8.0的GPU运算平台以及cuDNN6.0深度学习GPU加速库。实验数据集采用WHU Building change detection dataset数据集。数据集样本来自新西兰土地信息服务网站,数据集有约22 000个独立建筑。图像的原始分辨率为0.075 m。为了便于训练,将大部分的建筑物航空影像地面分辨率减低至0.3 m,并将原始图片裁剪成像素大小为512×512的8 189张遥感图像建筑物图片,其中4 736张作为训练集,1 036张作为验证集,2 416张作为测试集。
为了验证提出MFDC-ResNet模型的有效性,在实验中将VGG[7],ResNet[8],ResNetCRF[21]与提出模型进行定性与定量对比评价。对比模型VGG,ResNet,ResNetCRF和MFDC-ResNet等网络模型的初始化权值均来自在ImageNet数据集上的预训练模型。其他参数初始值为0。MFDC-ResNet模型通过随机梯度下降法对模型训练,基准学习率为0.002 0,总迭代次数为250 000,每迭代5 000次学习率减少0.1倍,训练过程中每次训练包括1次前向传播和1次反向传播,前向传播过程预测结果,反向传播过程更新权重参数。
4.2 分割性能指标
为了量化分析分割结果,采用平均交并比(mean Intersection over Union, mIoU)和召回率(Recall Rate,Recall)对结果进行评价分割。本实验中在建筑物类别上计算mIoU,可以准确地评价建筑物的分割精度,其计算方法如式(6)表示:
(6)
式中:k表示分割类别数目,nii表示实际类别为i而预测结果为j的像素点数,ti表示第i类的像素点总数,pi表示第i类预测结果的总像素数。
将Recall作为评价指标可以评价分割为建筑物的像素点与真实标注的建筑物像素点的比率,表征在不考虑遥感图像背景的前提下建筑物的分割精度,其计算方法如下表示:
(7)
式中:Bseg表示遥感图像分割中建筑物与标注结果相比分割正确的像素点数,Iunseg表示遥感图像分割中建筑物与标注结果相比未正确分割的像素点数。
为了对比提出模型的有效性,分别采用基于VGG[6],ResNet[7],ResNetCRF[21]等方法对遥感图像建筑物进行分割实验。不同模型mIoU训练过程和Recall训对比分别如图9和图10(下图横坐标为迭代次数,单位:千次;纵坐标分别为评价指标mIoU和Recall精度)。由4种对比模型训练过程可以看出,提出MFDC-ResNet 模型的平均交并比(mIoU)和召回率(Recall)曲线均高于VGG,ResNet,ResNetCRF的mIoU,Recall曲线。提出模型的mIoU,Recall随着训练数据集的增加精度逐渐增高,分别收敛在0.820和0.882附近,不同模型分割性能评价指标对比如表2所示。由表2可知,和VGG,ResNet及ResNetCRF3种模型相比,提出的MFDC-ResNet模型的mIoU、Recall性能评价指标有明显提升,可以有效提升遥感图像建筑物的分割精度。
图9 mIoU训练过程Fig.9 mIoU training process
图10 Recall训练过程Fig.10 Recall rate training process
表2 分割性能评价指标Tab.2 Segmentation performance evaluation index
4.3 不同模型分割结果分析
不同模型的分割结果对比如图11所示,其中(a)列为分辨率512×512的遥感图像,(b)列为建筑物标记真实值图像,(c)列为VGG模型分割结果,(d)列为ResNet模型分割结果。(e)列为ResNetCRF模型分割结果,(f)列为MFDC-ResNet模型分割结果。
(a)Input
(b)Ground truth
(c)VGG
(d)ResNet
由实验结果可以发现,基于VGG模型的分割方法存在明显误分割现象,特别是对于相邻的建筑物出现许多建筑物粘连的情况,基于ResNet模型的分割结果与VGG模型相比有了一定提升,粘连现象不明显,但是分割结果仍然欠佳;基于ResNetCRF模型,由于CRF层有效利用了多特征和上下文信息提升了建筑物分割结果,但在建筑物边缘信息上分割准确性不高;提出的MFDC-ResNet与其它几种对比模型相比建筑物边缘清晰平滑,明显减少对树木道路等干扰物误分割的情况,对于不规则建筑物也有较好的分割效果,有效减少因建筑物距离较近而导致分割边界模糊的情况,分割结果明显优于VGG,ResNet,ResNetCRF模型。
4.4 干扰因素对比实验结果分析
对比实验所用的遥感图像数据集中包含了不同尺寸大小的建筑物和复杂场景下含有道路、树木等干扰的建筑物以及距离相距较近的建筑物等,为了验证提出MFDC-ResNet模型对不同干扰因素的抗干扰能力,分别对不同场景下遥感图像进行分割实验,并对实验结果进行对比分析。
4.4.1 复杂道路条件下分割结果分析
图12为包含复杂道路信息的遥感图像分割结果对比。由4种深度神经网络模型分割结果可知,4种模型均可以实现建筑物的分割,其中VGG模型受道路影响较大,存在一些道路误分割情况,ResNet可以确定建筑物的大致位置,但建筑物边缘信息不够准确,在遥感图像中对较窄道路有误分割情况,与ResNet相比,ResNetCRF对建筑物边界提取效果有所提升,但仍存在对道路误分割情况;提出MFDC-ResNet 模型受到遥感图像中道路的干扰较小,能够较好提取建筑物的完整边缘信息。由表3定量分析对比可知,提出MFDC-ResNet 模型分割精度高于其他3种模型。
(a)Input
(b)Ground truth
(c)VGG
(d)ResNet
(e)ResNetCRF
(f)MFDC-ResNet图12 复杂道路条件下建筑物分割Fig.12 Building segmentation under complex road conditions
表3 复杂道路条件下分割性能对比Tab.3 Comparison of segmentation performance under complex road conditions
4.4.2 建筑物距离较近条件下分割结果分析
图13为包含着多个距离较近建筑物的遥感图像分割对比。由分割结果可以看出,VGG模型受建筑物之间距离相近的干扰较大,分割结果中许多距离较近的建筑物未能得到清晰分割,ResNet和ResNetCRF分割结果有一定提升,但是仍存在多处相邻建筑物相粘连的情况,无法从中完整提取单个的建筑物边界信息。提出MFDC-ResNet 模型分割精度高,可以有效克服建筑物之间距离相近的干扰,实现对建筑物边缘的完整提取。由表4定量分析对比可知,提出MFDC-ResNet 模型分割精度高于其他3种模型。
(a)Input
(b)Ground truth
(c)VGG
(d)ResNet
(e)ResNetCRF
(f)MFDC-ResNet图13 建筑物距离相隔较近条件下建筑物分割
表4 建筑物距离相隔较近条件下分割性能对比
4.4.3 树木及建筑物阴影较多条件下分割结果分析
图14为包含树木和建筑物的阴影干扰的遥感图像建筑物分割对比。由对比分割结果可知,VGG模型在提取建筑物边缘信息时与真值差别较,ResNet和ResNetCRF在对建筑物的边缘特征提取时受阴影的影响较大,所提取的建筑物边缘与所标记的建筑物相比对阴影部分存在明显的误分割现象,且存在将遥感图像中的树木误识为建筑物进行分割的现象。提出MFDC-ResNet 模型可以克服建筑物阴影的干扰对建筑物边缘提取,且有效克服树木和建筑物阴影等干扰源的影响,能有效提取遥感图像中的建筑物边缘信息,特别是在对遥感图像中不规则建筑物的边缘特征的提取结果明显优于ResNet和ResNetCRF的分割结果。由表5定量分析对比可知,提出MFDC-ResNet 模型分割精度高于其他3种模型。
(a)Input
(b)Ground truth
(c)VGG
(d)ResNet
(e)ResNetCRF
(f)MFDC-ResNet图14 树木及建筑物阴影较多条件下建筑物分割Fig.14 Building segmentation under the condition of more trees and building shadows
表5 树木及建筑物阴影较多条件下分割性能对比Tab.5 Comparison of segmentation performance of trees and buildings with more shadows
5 结 论
针对传统建筑物提取方法难以有效描述遥感图像细节特征而导致复杂场景下道路、树木及建筑物之间分割边界不清晰等问题,提出一种基于多尺度特征融合空洞卷积ResNet(MFDC-ResNet)遥感图像建筑物分割模型。提出的MFDC-ResNet 模型包括空洞卷积特征提取、多尺度特征融合和特征解码3个模块。空洞卷积特征提取模块改进了空洞卷积中心点特征的提取方式,增强感受野的同时增强了卷积核中心点的对遥感图像特征信息的描述能力。多尺度特征融合模块在多个层次的特征图上获取的更大范围的遥感图像建筑物上下文信息,可以有效克服遥感图像中道路、树木、建筑物阴影,建筑物不规则及建筑物距离相隔较近等因素的干扰,提升遥感图像中建筑物的分割精度。在WHU Building change detection dataset遥感图像建筑物数据集的分割实验中,提出MFDC-ResNet 模型的平均交并比mIoU达到0.820,召回率Recall达到0.882,与ResNet相比,分别提升了0.066 和0.063,验证了提出模型的有效性。