APP下载

结合密集注意力和并行上采样的遥感图像道路分割

2021-11-22李小霞李永龙吕念祖王皓冉顾书豪王学渊

小型微型计算机系统 2021年11期
关键词:解码器密集注意力

张 颖,李小霞,2,李永龙,吕念祖,王皓冉,顾书豪,王学渊,2

1(西南科技大学 信息工程学院,四川 绵阳 621010)

2(特殊环境机器人技术四川省重点实验室,四川 绵阳 621010)

3(清华四川能源互联网研究院,成都 610042)

1 引 言

道路信息作为测绘遥感领域中不可分割的一部分,在地图绘制、灾后救助、军事应用等方向具有重要的应用价值[1].由于遥感技术的快速发展,遥感图像的分辨率不断提高,噪声对图像的干扰也随之增加,如何从遥感图像中自动提取出高精度的道路信息已成为近年来研究的热点与难点.目前基于卷积神经网络(Convolutional Neural Network,CNN)的遥感图像分割方法表现尤为突出,相较于传统的半自动提取方法,该方法能有效抑制道路信息提取过程中产生的噪声以及减少道路细节信息的丢失,使得提取效果大幅提升.然而,自动提取遥感图像道路信息主要存在以下难点:1)输入图像分辨率高,数据量大,需要足够大的感受野;2)遥感图像中的道路细长且复杂,占整幅图像比重较少;3)由于地理限制,部分道路被阴影、云、建筑物或树木等物体覆盖,图像色彩对比度低,感兴趣区域的提取难度较大[2];4)道路具有自然连通性,即具有图像的拓扑特点[3].

近年来,针对如何从高分辨率遥感图像中自动提取道路信息的问题,国内外已经提出了多种方法.比较常见的传统遥感图像道路信息提取方法有基于像素[4,5]、基于对象[6,7]、基于知识[8]以及基于机器学习的方法.Das等人[9]提出利用光谱的显著对比特征和局部线性轨迹来设计一个多级框架,同时结合概率化的支持向量机来补充缺失的道路信息,以获得潜在的道路目标.Chen等人[10]通过融合光谱特征和纹理特征提取遥感图像中大棚覆盖物的信息,并使用混淆矩阵对分类结果进行了验证,提升了大棚覆盖物的识别精度.随着深度学习的快速发展,Long等人[11]提出了全卷积网络(Fully Convolutional Network,FCN),利用跳跃连接结构融合浅层和高层的表征信息以此获得准确精细的分割结果.Zhang等人[12]结合残差学习和U-Net网络结构构建了一种用于道路区域提取的算法,通过残差单元简化深层网络的训练,网络中丰富的跳连接可促进信息的传播,逐步恢复图像中的道路细节特征.Chen等人[13]在Deeplab系列中结合多尺度信息和扩张卷积(Dilated Convolution)提出了空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块,将不同扩张率的扩张卷积进行特征融合,保证在不牺牲特征空间分辨率的同时扩大特征感受野.受自编码器的启发,Chaurasia 等人[14]提出LinkNet网络结构,通过直接将编码器与解码器连接起来提高道路分割准确性,在保留编码部分信息不丢失的同时并未增加额外参数,提高了学习效率.由于ASPP模块在尺度轴上特征分辨率还不够密集,获取的感受野不够充分,因此Yang等人[15]将Deeplab系列中ASPP和DenseNet[16]中的密集连接相结合,构成了DenseASPP.为了更好的关注重点区域和抑制无用特征,Zhao等人[17]提出的PSANet通过学习所有位置的自注意力特征图来获取上下文信息,但引入参数量过多且内存消耗大,应用范围较小.Fu等人[18]提出层叠反卷积网络(Stacked Decovolutional Network,SDN),旨在利用逐步堆叠的网络捕获更多的背景信息并逐渐恢复高分辨率预测.虽然这些方法在分割性能上取得了长足的进步,但仍无法解决道路由于遮挡出现的信息丢失问题.同时,由于背景噪声信息的存在,提取过程中会产生大量难以处理的细碎边界特征.

基于上述问题,本文提出了一种结合密集注意力和并行上采样的遥感图像道路分割模型.该模型主要由编码器-解码器结构组成,在编码器和解码器的中间部分设计了密集空洞空间金字塔注意力模块,在解码器部分设计了多路并行上采样模块.密集空洞空间金字塔注意力模块利用空间注意力分支中的多个扩张卷积和密集连接结构来扩大网络感受野,获取局部和全局的多尺度层次特征,通道注意力分支通过建立通道间的相互依赖关系重新调整各通道特征的重要性,将通道注意力分支和空间注意力分支进行自适应融合有利于提取丰富的全局上下文信息,筛选出有用的目标特征,抑制无关特征的干扰.多路并行上采样模块不同于简单的采用双线性插值或反卷积的上采样方式来恢复特征图的分辨率,而是在解码器融合多路特征图以获得具有精细位置信息的预测结果,提升模型的细节特征保持能力.最后将本文提出的算法与当前先进的算法在DeepGlobe遥感图像道路提取数据集[19]上进行对比,其中精度、F1-score、召回率以及精确率均有较大的提升.

2 方 法

2.1 遥感图像道路分割网络

为了提高模型对感兴趣目标的分割精度以及道路细节特征的保持能力,本文提出的结合密集注意力和并行上采样的遥感图像道路分割网络如图1所示.

图1 遥感图像道路分割网络结构

该网络的编码器部分采用ResNet34作为预训练模型,首先使用64个大小为7×7、步长为2的卷积核提取原始输入图像的粗略特征,按照卷积神经网络的特征图计算公式输出大小N=(W-F+2P)/S+1,其中W代表输入大小为1024,F代表卷积核大小为7,P代表填充数为3,S代表步长为2,将这些参数带入公式后N向下取整后值为512.由于本文所提出的网络结构是以Resnet34为基本架构的,因此经过第1个卷积层的通道数和Resnet34的第1个卷积层通道数个数相等都为64.最后经过第1个卷积层特征图的大小变为512×512×64.经过4个下采样层后提取到精细的图像边缘信息和位置信息.由于挑战任务是从高分辨率的遥感图像中分割道路,考虑到道路的狭窄性、易被遮挡性以及复杂性,本文将提出的密集空洞空间金字塔注意力结构作为编码器和解码器的中心块.该模块首先采用密集连接的方式将不同扩张率的扩张卷积进行连接,增加网络最高层的感受野,实现所有中间特征的融合,其次通过学习权重来抑制多尺度图像不相关和易混淆的像素信息,最后结合网络的抽象空间信息和通道信息来捕获丰富的局部和全局特征,为掩码分割提供足够精确的像素级预测.由于自下而上的解码器在逐步上采样的过程中丢失了大量的细节特征,因此本文提出的多路并行上采样结构有效地将不同尺度层的特征结合起来,有助于增强目标特征的响应能力.同时为了减少特征通道融合的参数数量,该结构首先减少通道数再通过上采样来恢复图像分辨率,并将上采样后的特征图堆叠起来整体作为输入产生分割结果.

2.2 密集空洞空间金字塔注意力模块(Dense Atrous Spatial Pyramid Attention,DASPA)

密集空洞空间金字塔注意力模块(DASPA)如图2所示,由空间注意力和通道注意力两个并行的分支组成,其中空间注意力分支包括一个1×1的卷积和一个扩张率(Dilated Rate)为1,2,4,8的密集空洞空间金字塔结构.扩张卷积与普通卷积相比,除了卷积核大小以外,还使用一个扩张率参数控制卷积核插入扩张的间隔,在不增加额外计算量的同时扩大网络感受野,当设置的扩张率不同时则获取到的感受野就不一样,即捕获到多尺度上下文信息.扩张卷积感受野计算方式为:

图2 密集空洞空间金字塔注意力模块

K=k+(k-1)(r-1)

(1)

式中K为实际卷积核大小,k为原始卷积核大小,r为扩张卷积扩张率大小.但由于扩张卷积相邻像素之间缺乏相关性,易造成局部信息丢失和网格效应,因此该模块中的密集空洞空间金字塔结构从提取的高级特征中获得密集的多尺度空间信息,增大感受野并有效地分割道路目标.但这种结构无法捕捉到通道间的相关特征,因此引出通道注意力分支用于提取全局上下文的先验信息,实现通道特征的自适应选择,增强特征的通道相关性.最后将并行的空间信息和通道信息相结合,重新调整特征重要性,在保留图像细节信息的同时消除背景特征的干扰,从而获得更为精确的分割结果.

为了更好地提取不同尺度下金字塔特征的密集上下文信息,该模块首先使用密集连接的方式将扩张率为1,2,4,8的扩张卷积的输出结合到一起,接着将从输入特征图A学习到的密集特征信息与1×1卷积所提取的原始特征进行逐像素加权,最后将通道注意力分支与密集空洞空间注意力分支进行特征融合得到输出特征图A′,其中A∈RH×W×C,A′∈RH′×W′×C′.此外,通道注意力分支是将卷积得到的特征图通过全局平均池化(Global Average Pooling,GAP)得到一个1×1×c的特征向量,然后通过两个全连接层来建立通道间的相关性,第1次全连接(Fully Connected,FC)操作将特征维度降低到输入图像的1/16,经过ReLu激活后通过第2次全连接恢复到原来的维度,最后将通过Sigmoid函数获得的归一化后的权重加权到输入图像的每个通道的特征上.DASPA模块的计算过程如公式(2)所示.

A′=S′+L′

(2)

式中S′代表输入图像A通过空间注意力分支得到的特征图,L′代表输入图像通过通道注意力分支得到的特征图.

S′=Conv(A)⊗Concat(y1,y2,y3,y4)

(3)

式中yi(1≤i≤4)代表密集空洞空间金字塔结构中第i层的输出特征图,Conv代表1×1卷积,Concat代表将扩张率为1,2,4,8的扩张卷积层的输出特征图进行特征融合,其中yi可以公式化为:

yi=HK,di([yi-1,yi-2,…,y0])

(4)

式中HK,di代表扩张卷积操作,di代表第i层的扩张率,K为滤波器大小,[…]表示密集连接操作,[yi-1,yi-2,…,y0]代表通过连接所有先前层的输出形成的特征图.公式(2)中的通道注意力分支L′的计算过程为:

L′=A⊗U

(5)

式中U代表输入特征图A通过通道注意力分支加权之后得到的权重输出,令U=[u1,u2,…,uC],权重U的计算过程为:

U=δ2{FC2{δ1[FC1[GL(A)]]}}

(6)

式中GL代表全局平均池化操作,FC1代表第1次全连接操作,FC2代表第2次全连接操作,δ1代表ReLU激活函数,δ2代表Sigmoid激活函数.

2.3 多路并行上采样结构(Multi-channel Parallel Upsampling,MPUpsample)

在传统U形网络中,高级抽象语义信息从解码器的高层逐步传递到低层,较深层捕获的边缘信息会被逐渐稀释,不利于遥感图像道路分割.因此针对自上而下路径中道路边缘细节信息易丢失的问题,本文进一步提出多路并行上采样结构,其网络结构如图3所示.该结构与主流架构相比,不只是使用解码器的最后一层来预测分割掩码,而是将来自解码器的所有上采样特征映射堆叠起来,以获取不同尺度下的上下文信息,并将它们一起作为最后一层的输入来进行图像预测,保证精确定位的同时捕获丰富的细节信息,使网络模型更好地聚合多尺度特征.在特征图并行上采样的过程中,考虑到显存消耗的影响,本结构首先使用大小为1×1的卷积核减少每个层次的特征图通道数,再分别进行2倍、4倍、8倍、16倍上采样来恢复图像分辨率,以确保在上采样过程中不会损失过多细节特征,最后将多分支的上采样特征图进行堆叠,并依次通过3×3和1×1卷积层,从而实现图像的分割.

图3 多路并行上采样模块

3 实验结果与分析

3.1 数据集

本文采用DeepGlobe遥感图像道路提取数据集来验证算法的性能,该数据集包含6226张训练图像及其对应的标签,将6226张图片按7∶2∶1随机分成4358张训练图片、1245张测试图片和623张验证图片.其中标签是与输入图像具有相同高度和宽度的灰度二值图像,道路和非道路像素分别设置为255和0.所有图像大小均为1024×1024,每幅图像都是由DigitalGlobe卫星采集的地面分辨率为0.5m/pixel的RGB图像.数据集包括东南亚多个国家的荒郊、城市、乡村和雨林等复杂场景.

3.2 评价指标

为了准确地评估遥感图像道路分割模型的分割精度,本文采用语义分割中常用的指标来进行评价,即召回率(Pr)、准确率(Pa)、精准率(Pp)和F1-score.Pr即预测正确的道路像素点数量占所有道路像素点数量的比例,Pa即预测正确的道路和背景像素点数量占整幅遥感图像中像素点数量的比例,Pp即预测正确的道路像素点数量占预测为正确的道路像素点数量的比例,F1-score即召回率和精准率的综合评价指标,F1-score越高,说明模型分割性能越稳健.Pr、Pa、Pp和F1-score计算公式为:

(7)

(8)

(9)

(10)

公式中:TP为道路预测正确的像素数目;TN为背景预测正确的像素数目;FN为提取错误的背景信息的像素数目;FP为提取错误的道路信息的像素数目.

同时作为评价算法模型的重要指标之一的时间复杂度,通常以浮点运算次数(floating-point oprations,FLOPs)来衡量,以此决定了模型训练/预测需要运算的次数[20].其中单个卷积层的时间复杂度为:

FLOPs=2H×W×(CinK2+1)×Cout

(11)

式中K代表卷积层的卷积核大小,Cout代表卷积核的通道数,H、W和Cin分别代表输入卷积层的高度、宽度和通道数.

3.3 训练过程

本文实验是在GPU型号为NVIDIA GTX1080Ti的计算平台下进行的,所用深度学习框架为Pytorch1.2.0.在训练阶段,本文采用了平移、缩放、旋转和翻转的数据增强的方式,以二分类交叉熵和骰子系数损失作为损失函数,Adam作为优化器.初始学习率设定为3e-4,训练批次大小为4,共训练300轮,输入图像大小为1024×1024,在测试阶段采用水平旋转和[1.25,1.5,1.75]缩放比例进行多尺度测试.

3.4 消融实验

表1为本文网络结构中的密集空洞空间金字塔注意力模块和多路并行上采样模块在DeepGlobe测试集上的消融实验测试结果.由表1可知,本文网络结构中的DASPA模块和MPUpsample模块均能提升模型的分割性能,且将两个模块融合在一起的分割指标显著优于基础网络LinkNet,其中Pr、Pa、Pp和F1-score分别比基础网络高0.009、0.010、0.018和0.015,提升了网络模型的分割效果.

表1 各模块之间的消融实验

图4为本文设计的模块在DeepGlobe遥感图像道路提取数据集上的道路图像分割性能对比图.由图4可知,LinkNet缺乏筛选有益特征以及保持图像细节信息的能力,分割性能较差;在基础模型上加入DASPA模块后,能有效去除图像的冗余噪声信息,增大网络感受野;在LinkNet上加入MPUpsample模块后,能最大限度地保证道路结构的完整性,减少边缘特征信息的丢失.

图4 不同网络结构在DeepGlobe测试集实验结果对比

3.5 实验结果

表2为不同算法在DeepGlobe数据集上的道路图像分割指标对比,实验结果表明,本文方法模型训练时间需要84.89小时,各项分割性能指标均优于目前的主流算法,对于时间复杂度和平均每张图片测试时间这两项指标而言,本文提出的模型确保在精度最高的情况下,这两项指标较其他算法获得了相对折中的效果,有利于实际场景的应用与实现.主流算法中文献[15]虽然获得密集的多尺度特征,但是很难在扩张率大小的选择和尺度变化之间取得平衡,时间复杂度较高且图片测试时间较长.文献[12]是典型的U型结构,网络使用跳连接结合低级特征图的空间信息,虽然最终特征图实现了不同尺度下的特征融合,但是由于遥感图像存在较多干扰因素,该网络无法抑制噪声干扰并筛选出有用的特征.同时,高分辨率遥感图像数据集数据量大,文献[12]模型与文献[14]相比模型训练产生的参数量更多、精度更低且时间复杂度更高,预测时间更长.文献[21]虽然将不同下采样层输出的特征进行融合,但是分割结果中的道路细节表征不明显且精度不高,存在道路结构缺失的现象,模型复杂度最高,测试消耗时间过大.本文方法有效提取了网络最高层的密集多尺度空间特征,并融合空间注意力分支和通道注意力分支筛选出包含道路的图像信息,避免了无用特征的干扰,在解码器部分利用多路特征图进行通道叠加,解决了由于道路结构中断导致的细节信息丢失问题,单张图片的平均预测时间达到2.71s.

表2 不同算法在DeepGlobe数据集上的分割指标对比

图5显示了不同算法在DeepGlobe遥感图像道路提取数据集上的分割效果对比图,由图5可知,本文在抑制冗余特征的干扰以及处理细节信息丢失方面明显优于其他算法.U-Net虽然比LinkNet分割的图像完整性更高,但是易引入大量无用信息且存在错分漏分的情况.FCN-16s的道路关键细节信息丢失严重,图像特征提取由于其他遮挡物影响容易产生虚假信息,导致分割性能更低.DenseASPP相较于其他算法分割效果最差,部分复杂图像的道路结构存在大块缺失的现象,边界信息损失严重.本文方法与上述算法相比,更好地保留了道路结构特征的完整性,有效地抑制了噪声对影像提取的干扰,分割效果图更接近于真实图像标签.

图5 不同算法在DeepGlobe测试集的实验结果对比

4 结 论

由于遥感图像中道路信息存在遮挡严重和色彩对比度低等问题,导致大量道路细节信息缺失以及产生许多难以处理的细碎边界特征,因此本文提出了结合密集注意力和并行上采样的遥感图像道路分割网络,用于提高道路图像分割的精度.本文提出一个密集空洞空间注意力结构,将密集空间信息和通道信息相结合,在保留细节信息的同时,通过扩大网络感受野和提取全局多尺度特征,提升模型剔除冗余特征的能力;设计多路并行上采样结构,通过将解码器中不同尺度的特征图进行通道衰减和上采样后依次堆叠起来,更有利于道路细节信息的保持且增强了网络融合多层次特征的能力.本文算法在DeepGlobe遥感图像道路提取数据集上获了显著的效果提升,在遥感图像信息领域具有广泛的应用价值.

猜你喜欢

解码器密集注意力
让注意力“飞”回来
科学解码器(一)
耕地保护政策密集出台
密集恐惧症
科学解码器(二)
科学解码器(三)
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
欧盟等一大波家电新标准密集来袭