APP下载

基于注意力门残差网络的遥感影像道路提取

2022-11-05李文书李绅皓

智能计算机与应用 2022年10期
关键词:残差编码器卷积

李文书,李绅皓,赵 朋

(浙江理工大学 信息学院,杭州 310018)

0 引言

随着卫星遥感技术迅猛发展,遥感影像的获取也日益便捷。遥感技术直接或间接运用于军事侦察、地球资源监测、城市道路规划、农业灾害预警、应急救灾等多个领域。遥感图像具有分辨率高、覆盖广、获取便捷的优势,已经成为目前更新地理信息数据的主要来源。道路是地理信息系统的重要组成部分,在政治、经济、地理、军事等领域发挥着重大作用。在数字地图时代,研究地图更新技术以保证地图内容的即时性、准确性和可靠性有着十分重要的意义。而遥感图像中道路信息易受建筑物阴影、车辆、植被等非道路信息干扰,导致人工提取遥感图像中的道路费时费力。每天产生海量卫星遥感数据,完全依靠人力进行道路提取显然是不可行的。因此,亟需研究一种能自动便捷地从遥感影像中获取道路的方法。

当前的道路提取方法主要包括模板匹配、知识驱动、面向对象和深度学习等4类。Pudaruth开发了一种多形状、多角度的模板匹配算法,从4个方向提取道路,最终将4幅独立的图像融合成一幅图像,从而得到路网。Cao等人设计了一种基于均值漂移的道路中心匹配算法,可以较好地提取道路中心线。Treash等人利用边缘检测器提取道路边缘,认为平行的边缘极有可能为道路,而后采用边缘链接算法提取道路。Guo等人使用美国地理调查局(USGS)的地理数据来消除与道路不相关的杂波,继而使用均值-偏移聚类方法,对卫星图像的道路进行分割。Zhu等人先用灰度形态学特征监测路网轮廓,然后利用线段匹配法监测基本路网,最后基于形态学方法对检测的基本路网进行处理。金静等人对遥感影像进行双边滤波,平滑细节信息并保留道路边缘信息,然后使用模糊C均值算法分割图像以得到独立的地物对象,最终提取出遥感影像中的道路。Mnih等人首次将深度学习应用于遥感影像道路提取任务,并通过实验证明了深度学习对解决卫星图像道路提取任务的可行性。张永宏等人提出基于全卷积神经网络的多源高分辨率遥感道路提取算法,将遥感图像的Canny特征信息、RGB、Gray和标签图放入全卷积神经网络(FCN)进行训练,在遥感影像道路提取这一任务上取得了不错的效果。Chen等人提出SegNet语义分割网络,SegNet网络首次采用编解码器架构,在解码器上采样时可以更好地保留图像的轮廓细节,在遥感影像道路分割上取得了较好效果。总之,模板匹配方法易受几何变换影响,参数也很敏感,对于复杂图像提取过后仍需要大量的人工处理,仅适用于场景简单的遥感图像。知识驱动的方法对所提知识和道路的匹配性有较高要求,不适合大范围推广。面向对象的道路提取方法虽然涌现出很多成果,但在其分割准确性上却面临严峻挑战。研究可知,深度学习通过在数据中学习模型,近年来已展现出在道路分割领域中的独特优势。

综合前述分析,研究提出了一种基于注意力门残差网络的遥感影像道路提取网络模型RAU-Net(Residual Attention U-Net)。研究把残差块传递原始特征引入编码器,在保证网络深度的同时,也确保了梯度的有效传递。使用多尺度空洞卷积特征提取(Multiscale dilated convolution extraction,MDCE)模块,多尺度地挖掘图像中的特征信息。最后,用注意力门将浅层网络信息和反卷积信息融合实现解码,将浅层信息有选择地融入深层网络,抑制浅层噪声特征,进一步提高了道路分割的精确性。

1 网络结构

U-Net网络模型分为编码器、解码器、链接器三部分。其中,编码器通过卷积神经网络提取特征,通过链接器传递给解码器,解码器通过卷积特征和浅层跳跃连接特征融合并上采样进行语义分割。对于道路提取任务,道路的狭长特性导致这样的方法仍无法解决道路细节丢失问题,同时跳跃连接会给提取结果带来与道路无关的噪点。本文网络模型主体框架受U-Net模型启发,但对U-Net的构成做了大量调整,将U-Net编码器改为ResNet34编码器,加入了MDCE模块和融合注意力门的跳跃连接解码器,在此基础上进一步提出了RAU-Net。RAU-Net的组成如图1所示,这是一种端到端的网络结构,输入高分辨率卫星图像,最终输出道路提取的结果。

图1 RAU-Net Fig.1 RAU-Net

1.1 ResNet34编码器

RAU-Net编码器部分不再采用U-Net卷积编码器,而是用ResNet34作为编码器。理论上,网络模型越深,能提取的语义信息越多。为了尽可能提取出更多的道路细节,就需要加深U-Net的编码器部分网络。但一味地加深网络不仅会使模型参数过多、难以训练,还会造成梯度不稳定、出现梯度消失或者梯度爆炸问题。针对这种情况,He等人首次提出了残差网络。残差网络是由一系列残差块组成。一个残差块的设计如图2所示。

图2 残差块示意图Fig.2 Residual block diagram

单独一个残差块可以表示为:

其中,(·)表示直接映射;(·)是激活函数;x为原始输入;x为残差块输出,也是下一个残差块的输入。本文使用ResNet34网络作为模型的编码器结构,替换掉原来U-Net的普通卷积编码器。

1.2 MDCE模块

为了适应道路提取任务的特殊性,使网络能学习到不同尺度的道路特征信息,文中在模型连接层引入多尺度卷积提取模块MDCE(Multiscale dilated convolution extraction)。多尺度卷积提取模块的设计结构如图3所示。由图3可知,MDCE采用4个扩张率不同的空洞卷积模块,空洞卷积膨胀率分别设置为1、2、4、8。不同的膨胀率,可以保证充分提取多尺度的特征信息。最终4种膨胀率空洞卷积提取的结果并联入3*3的融合卷积层,提升了网络捕捉多尺度语义信息的能力。

图3 多尺度卷积提取模块Fig.3 Multiscale dilated convolution extraction model

1.3 融合注意力门的跳跃连接解码器

随着编码器编码、语义信息增多,特征图尺寸会不断减少,但是本文的提取任务却需要得到一张与原分辨率相同的图像。由图1可知,本文的网络输入图像是1024*1024*3,经过编码器和MDCE模块后,数据维度变为32*32*512。为了达到提取效果,研究提出了一种结合注意力门的解码器结构,能够将编码器浅层的语义信息,与MDCE反卷积后的结果相融合,同时将特征图加以扩张,从而将图像转换为1024*1024*1维度。

由于道路提取任务的特殊性,研究的目标结果是细长的道路,而在经过编码器编码后和道路相关的一些语义信息已经缺失,后续无法复原,导致最终解码后的提取图片道路出现断裂情况。而浅层特征图中并非所有的信息对提取都有帮助,浅层特征图中非道路信息的噪声数据过多,如果类似U-Net直接做跳跃链接,提取到的道路图像会出现很多非道路信息。本次研究在跳跃连接之前,加入了注意力门(Attention Gate)。注意力门会抑制浅层特征图中的无关特征响应,在增加极少的额外计算量的同时,带来模型准确性的显著提高。注意力门结构如图4所示。

图4 注意力门Fig.4 Attention gate

由图4可知,是来自浅层网络的特征图,x是网络上一层上采样后的特征图,其运算结果与进行融合。

2 实验数据与损失函数

为了验证提出模型的有效性和泛化能力,实验采用了马萨诸塞州道路公开数据集(Massachusetts Roads Dataset)和CVPR DeepGlobe 2018数据集。在深度学习中,训练样本数量不足很容易导致过拟合,并不能真实反映网络的有效提取能力,现对数据集进行增强。

实验最初道路数据集共有1172组卫星影像,每组影像含有一张卫星影像和一张道路标签,每个像素对应的真实地理空间大小为1 m。单张图像尺寸为1500像素*1500像素。实验中,分析发现此数据集的一些影像标注并不准确,经过筛选后剔除了标注不准确的图像。选出标注准确的图像后,共有826组。显而易见,本数据集中的826组影像并不足以进行训练,为了增加数据集中的数据量,还要对数据集进行扩充。本文采用镜像翻转、旋转翻转等方法,变换后共得到3200组影像。最终,将数据集中的2900组影像用于训练,300组影像用于测试,300组影像用于验证。数据扩充示例如图5所示。

图5 数据扩充示例Fig.5 Data expansion examples

CVPR DeepGlobe 2018道路提取挑战赛数据集共6226组卫星影像,单张图像尺寸为1024像素*1024像素,每个像素对应的真实地理空间大小为0.5 m。同时提供了验证集和测试集,共计2344张卫星图像,这些图像并未提供道路标签。为验证本算法的有效性,将包含道路标签的6226组卫星影像重新划分出测试集和验证集。至此,数据集中有5000组影像用于训练,613组影像用于测试,613组影像用于验证。

系数是一种集合相似度度量函数,用于计算2个样本的相似度,取值范围是0~1。数值越大,说明2个集合相交元素越多,彼此之间越相似。损失由Milletari等人引入图像分割领域,在样本不均衡时表现优于传统的交叉熵损失。系数表示和损失的数学定义分别如下:

3 实验与分析

3.1 实验环境

为验证提出RAU-Net网络在道路提取任务中的有效性,基于Tensorflow2.3.0平台,采用Ubuntu 18.04LTS 64位操作系统,搭载Intel E5-2620 CPU,NVIDIA GTX2080Ti GPU,显存11 G。相关参数见表1。

表1 参数设置表Tab.1 Parameters setting table

3.2 评价指标

卫星影像道路任务是语义分割任务的一种,本实验采用语义分割通用的评估方法,即准确率()、召回率()以及。其中,准确率和召回率分别反映正确提取道路占预测样本比例和道路提取完整度,为准确率和召回率的调和均值。对应数值可由如下公式计算得出:

3.3 实验结果分析

基于本文所增强的实验数据集,分别训练UNet、MultiResUNet、RAU-Net,并通过准确率、召回率、进行定量分析。分析结果见表2和表3。由表2得知,在同等实验条件和数据集的情况下,RAU-Net在各项指标上均有一定提升,在道路提取研究上也有着优异表现。

表2 不同模型在Massachusetts Roads Datase的结果Tab.2 Results of different models at Massachusetts Roads Dataset

表3 不同模型在CVPR DeepGlobe 2018 Roads Dataset的结果Tab.3 Results of different models at CVPR DeepGlobe 2018 Roads Dataset

图6展示了各模型在Massachusetts Roads Dataset和CVPR DeepGlobe 2018的道路提取结果。图6中,前3张为Massachusetts Roads Dataset中的图片,后2张为CVPR DeepGlobe 2018中的图片。由图6可以看出,虽然遥感影像地表复杂,受建筑物、河流、车辆影响,但是RAU-Net都较好地提取出了主干道路。U-Net由于直接将浅层网络提取信息融合到后层网络,导致生成结果中有很多不连通的噪点。虽然MultiResUNet采用res-path取代了U-Net中的跳跃链接,但其预测结果却仍然存在错位和缺失的问题。RAU-Net通过添加MDCE模块充分利用不同维度信息,并且加入了融合注意力的跳跃连接解码器,消除提取结果中道路易出现断裂问题,同时抑制了结果中易出现的噪声问题,提高了模型精度。

图6 可视化结果Fig.6 Viewable results

4 结束语

将遥感影像分割为道路和非道路,属图像解译问题,随着深度学习的流行,图像解译任务也取得了长足进步。本文提出了一种RAU-Net网络进行语义分割的方法,在3项关键的分割效果量化指标,即准确率(),召回率()以及上均优于经典提取算法,取得先进结果。RAU-Net受到Unet网络架构和残差网络、注意力机制、空洞卷积等多种网络结构启发,在卫星图像道路提取任务中具有重要的理论和实用意义。后续研究中,尝试将单纯的道路提取任务拓展为更多地物,多种地物同时提取,相辅相成,以进一步提升该方法准确性。

猜你喜欢

残差编码器卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于ResNet18特征编码器的水稻病虫害图像描述生成
多级计分测验中基于残差统计量的被试拟合研究*
基于图像处理与卷积神经网络的零件识别
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
基于深度卷积网络与空洞卷积融合的人群计数
卷积神经网络概述
基于TMS320F28335的绝对式光电编码器驱动设计
测量数据的残差分析法
连续型过程的二元残差T2控制图