APP下载

基于条件随机场和U型网络的遥感图像道路提取

2020-07-13赵学军包壮壮吴华兴董玉浩李智伟

探测与控制学报 2020年3期
关键词:空洞语义卷积

赵学军,包壮壮,吴华兴,董玉浩,李智伟

(1.空军工程大学基础部,陕西 西安 710051;2.空军工程大学管理工程与无人机工程学院,陕西 西安 710051)

0 引言

随着对地观测技术的发展,人类获取遥感数据的途径和方式也越来越多,遥感数据表现出多源、多尺度、结构复杂、格式多样、体量大等特点[1-3]。基于遥感数据提取道路信息具有高效率、低成本的优势,而如何从海量的遥感数据中及时提取有效信息,是世界各国普遍研究的热点。目前,对于遥感图像的道路提取方法主要有基于像元、面向对象和深度学习[4-6]。

深度学习由Hiton[7]等人于2006年提出,由于现代计算机计算力的大幅发展,自2012年AlexNet[8]出现以来,在计算机视觉领域占据了主导地位。基于深度学习的方法通过卷积网络自动提取和学习道路的特征从而获得语义信息以分割道路,具有较高的精确度和鲁棒性。Long[9]等人提出的全卷积神经网络(fully convolutional networks,FCN)将端到端的卷积神经网络运用于像素级的图像分割中,使用反卷积层进行上采样,运用跳跃架构融合深层的粗糙的语义信息和浅层的精细的表面信息。此后基于FCN又出现了许多的改进网络,主要分为两种优化设计:以U-net[10],Refine-Net[11],FC-DenseNets[12]等为代表的U型网络(充分利用深浅层的语义信息)和以PSPNet[13],DeepLap系列[14]等的膨胀卷积方法(增强单个卷积的效率)。上述方法在遥感图像数据集上提取道路时对物体细节分割效果不佳[14],对双向车道、立交桥等处不能完好分辨。本文针对此问题提出了基于条件随机场和U型网络的遥感图像道路提取方法。

1 U型网络和条件随机场

1.1 特征提取

卷积神经网络经过卷积与下采样层,逐层提取特征,最终通过若干个全连接层完整分类识别。这种网络结构完全抛弃图像的空间结构特征,不能知道目标的位置、大小、形态等信息,即丢失了图像语义。下面介绍本文中运用于图像语义分割的三种深度学习方法。

1.1.1反卷积

反卷积(conv transpose),等价于狭义的上采样,是卷积的逆过程。用于将经过下采样信息提取后,分辨率降低、尺寸变小的特征图像扩大为和原图等大的分割图,如图1所示。

图1 反卷积Fig.1 Conv transpose

1.1.2跳跃连接

Long等人在文献[9]中指出若将全卷积后的结果直接上采样得到的将是非常粗糙的信息,所以将某些中间卷积结果直接与上采样的信息融合,建立低层与高层信息之间的“捷径”,使用跳跃连接将浅的、具有空间特征的数据赋予经过多层信息蒸馏后的图像,通过向网络高层提供低层特征来辅助重构图像。在网络结构上,形成了跳跃式的连接(skip connect),如图2所示。

图2 跳跃连接Fig.2 Skip connect

1.1.3空洞卷积

Chen等人[14]提出空洞卷积(atrous convolution),发现当卷积核为3×3,采样率r=12时,模型与CRF结合后效果最优。假设卷积核大小用k表示,空洞卷积的感受野可如下表示:

F=[(r-1)(k+1)+k]2

(1)

由式(1)得:感受野从3×3扩大为47×47,其中填充的就是所谓的“空洞”,如图3所示,这些空洞不参与卷积运算,但可以提高卷积层的感受野。所以空洞卷积没有增加计算量,且简单直接地控制了卷积神经网络的空间分辨率,从而实现了更多的特征提取。

图3 不同感受野对比Fig.3 Comparision of different accept field

1.2 网络结构

U-Net是从FCN发展而来,同样省略了全连接层,使用跳跃连接融合信息,因其优美的网络结构和在小样本数据集上的优异表现而广受好评[15]。原始U-Net 包含18个3×3的卷积层,1个1×1的卷积层,4个2×2的下采样层,4个2×2的上采样层,使用 ReLU 作为激活函数,如图4所示。

池化操作会损失图像中的高频成分,产生钝化模糊的图像块,并丢失位置信息。为了恢复原始图像结构特征,U-Net使用了 4 次跳跃连接方式(图4中灰色箭头)来连接低层与高层的特征信息。使用较浅层的空间信息来解决像素定位问题,经过多次卷积后的较深特征用来解决像素分类问题。

图4 原始U型网络结构Fig.4 Original structure of U-net

高分辨率遥感图像语义分割需要处理非常丰富的细节特征,我们改造了原始 U-Net,实现了更精确的像素级标注效果。

1.3 后端优化

条件随机场(conditional random field,CRF)模型作为一种判别式模型,被广泛用于图像分类和标记任务[16]。CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,由CRF可以在给定观测场的条件下,对标记场的后验概率直接建模。若输入由一系列随机变量X={x1,x2,…,xN}组成,表示给定的遥感图像,Xi为像素i的向量; 随机场Y由一系列随机变量Y={y1,y2,…,yN}组成,表示对应的观测值,Yi为像素i的标签,其取值范围为L={l1,l2,…,lN}。那么,crf(Y|X)可以通过Gibbs分布给出概率函数:

(2)

式(2)中,c为像素组成的概率无向图G上的最大团。Z是规范化因子:

(3)

式(3)中,函数Ψc(Yc)称为势函数,通常定义为指数函数:

Ψc(Yc)=exp{-E(Yc)}

(4)

因此,分类问题的目标在于找到一个标签y*,使得后验概率P(Y|X) 最大,Gibbs 能量E(Yc) 最小。本文在全图的条件下定义Gibbs能量函数为:

(5)

式(5)中,Ψu(xi)为一元能量分量,本例中即前段深度卷积网络的分割图像。

Ψp(xi,xj)为成对能量分量,依赖于图像的平滑参数,描述像素点之间的关系,鼓励类似标签分配给具有类似属性的像素,反之相差较大的像素分配不同的标签,而这个“距离”由颜色值和实际相对距离定义。

针对二维图像的特点,每个像素都具有类别标签(xi),还有对应的观测值(yi),这样以每个像素点作为节点,像素与像素间的关系作为边,即构成了一个条件随机场。

神经网络的工作就是为复杂的、高度折叠的信息流形找到简洁的表示。在语义分割领域,FCN等使用反卷积和跳跃连接实现了一种端到端的网络结构,以保证输出图像应与输入图像有相同的尺度大小,赋予图像中每个像素一个种类标签。DeepLap系列则使用空洞卷积,在不增加参数量的前提下,提高对图像空间特征的提取。

2 遥感图像道路提取方法

针对本文任务前景与背景差异巨大的特点,选用在Kaggle图像分类及语义分割竞赛中广泛运用的U-net网络作为前端信息提取,在后端选用条件随机场对图像进行精细化调整。

2.1 优化网络

在原始U-Net中,卷积层深度从64逐层增加至1 024,本文网络把过滤器的深度统一设置为64。这是因为实验采用的数据集仅包含道路信息,其特征组合数远少于CIFAR-10、Pascal VOC 等数据集中样本的特征组合数,如果参照原始 U-Net中的过滤器深度,网络不易收敛,分割准确率较低。

出于以下三个方面的原因:1) Massachusetts roads datasets中类别数和待识别特征数较少,正样本平均比例不足5%,如图5所示;2) 池化操作中丢失的信息可以通过“反卷积”和“跳跃连接”重新获取,另外在遥感图像中,不需要去理解和识别高层次 3D 物体的概念,在较高网络层中增加过滤器的数量,并不影响模型的实际预测性能;3) 原始网络结构设置对硬件设备较高,不便于向边缘设备移植,我们设计统一的过滤器数量为64实质上是一种降低时间和空间复杂度的考虑。

图5 原始彩色图像与其掩膜Fig.5 Original RBG image and its mask

2.2 损失函数的选择

考虑语义图像分割的任务的特性,给定图像的每个像素i都必须归入一个对象类c∈C。而传统基于深度网络的分割方法大多依赖于逻辑回归或者是优化cross_entropy loss,针对本文前景背景差异化大的特点,引入Lovasz-softmax[17]。

CE loss如下:

(6)

(7)

式(6)中的loss产生逻辑损失并引起平滑优化。这样,验证集上的交叉熵损失的度量通常不能很好地指示分割质量。一种更好的性能指标是Jaccard指数,通常用于评估分割任务,也称为IoU。给定ground truth标签向量y*和预测标签向量y~,那么类别c的Jaccard指数定义如下:

(8)

它给出了ground truth掩膜和被评估掩膜之间的并集的交的比率为[0,1],在此约定0/0=1。相应的在经验风险最小化中采用的损失函数为:

ΔJC(y*,y~)=1-JC(y*,y~)

(9)

对于多标签数据集,Jaccard指数通常是通过跨类别平均,从而得出平均IoU。

在上述基础上,可以针对Jaccard指数,优化经过区别训练的细分系统的性能。通过Jaccard指数测量得到的预测分割掩膜,以及基于子模块集函数的Lovasz扩展的Jaccard损失的分段线性替代方案,性能得到了较大的改善。

为了在连续优化框架中优化Jaccard指数,考虑到这种离散损失的平滑扩展。扩展基于集合函数的子模分析,其中集合函数从一组错误预测映射到一组实数,见式(7)。

对于预测输出y~和ground truth真值y*,我们将类别c的一组错误预测像素定义为:

MC(y*,y~)={y*=c,y~≠c}∪
{y*≠c,y~=c}

(10)

对于固定的背景真值y*,Jaccard损失在式(5)中根据一组错误预测可以重写为:

ΔJC:MC∈{0,1}P

(11)

Jaccard loss满足子模函数的性质,所以可以对其进行Lovasz extension将原子模函数的输出值作为基进行插值。计算这些差值的基就是在ground truth中取一部分作为预测结果,以此来提高训练效果。

3 实验结果分析及性能对比

本实验在Ubuntu 18.04系统下,采用基于Tensorflow v1.13的Keras v2.2.4作为计算架构,计算机硬件配置为NVIDIA GTX 1080TI(11G),32 GB RAM。数据集为美国马塞诸萨州部分地区高分辨率遥感图像[18],包括像素均为1 500×1 500的原始三通道卫星图片和单通道掩膜图像,每像素点表示实际地面1 m2范围,掩膜图片由OpenStreetMap提供的数据生成,验证集和测试集的目标图片都进行过手工标记以提高准确率。

训练集1 108张图片,验证集14张图片, 测试集49张图片。在训练过程中,为提取更多特征信息,将每张图片分割为3×3的小图片,像素为500×500。

训练超参数如下:resize图片大小为256×256,设置batch大小为16,优化器使用AdamOptimizer,初始学习率设置为10-4。

3.1 评价指标

在语义分割及信息检索、自然语言处理等任务中,主要用到准确率(precision,P)、召回率(re-call,R)、F-Score和交并比(intersection-over-union,IoU)四种评价指标。

表1 真值表

由表1得,precision和recall分别如下:

(12)

precision和recall在有些时候是矛盾的,所以将两者加权平均,引入F-Score:

(13)

特别的,当a=1时,为F1-Score。

交并比是输出的候选框与原标记框的交叠率,如图6所示。

(14)

图6 交并比(白色为人工标定框,黑色为模型预测框)Fig.6 IoU(white is manual, black is model predicted)

3.2 实验结果对比及分析

将本文方法与文献[19]中的结果对比,在3.1节四种评价指标下分别比较Unet、RSRCNN[20]、ELU-SegNet-R[21]、DCED[19]和本文方法的结果及运行时间结果对比见表2。

表2 不同方法的结果对比

实验证明,在本文方法模型参数量只有1 MB,相较其他模型减少数十倍的基础下,准确率并没有大幅下降,且在速度上存在优势,可运用于无人机、移动机器人、智能手机等小型化终端设备。

表3中,是我们开展消融实验的结果,可以看到空洞卷积、Lovasz loss以及CRF的介入均是在增加一定运算量的基础上提高了预测精度,但最后的运行速度也要比原始的U-net网络快一个数量级。

表3 消融实验

可视化对比结果如图7所示。在图7(a)、(d)中(Unet网络滤波器数目为64个),由于加入空洞卷积而出现不同程度的白块,且提取精度下降,所以引入Lovasz-Softmax损失函数进行微调以提高网络分割准确率。对于增大感受野而导致的背景对分割目标的侵蚀而产生的白块,在网络输出后端增加CRF层,进一步联系上下文语义信息。相较于对照方法,本文方法分辨率高,较好地保存了道路的结构信息,在出现树木、房屋阴影遮挡处依然能准确提取道路。在立交桥的道路交叉口及并行多车道处表现出更精确的分割效果。在图7(b)中,原始遥感图像中的道路末端的停车场,其他方法均未正确识别或是直接忽略,但本文方法均有效分割。

对于不同场景的提取效果,本文方法也优于其他方法,并且能体现道路的粗细程度,可以为后续工作提供更多的有效信息。而通过本文引入的空洞卷积和针对道路特点改变过滤器个数,模型参数只有约1 MB,相较于其他方法是巨大优势,使得模型可以被运用于移动平台等边缘设备。

图7 可视化对比Fig.7 Visual comparison

4 结论

本文提出了基于条件随机场和U型网络的遥感图像道路提取方法。该方法首先针对遥感图像中道路局部细节特征丰富、语义特征简单的特性,调整了滤波器个数,并使用空洞卷积增大感受野,提高了网络特征提取能力。其次,针对道路目标在遥感图像中占比小,易被背景侵蚀的特性,选择Lovasz-Softmax损失函数,并在后端引入条件随机场,进一步利用了全局上下文信息的联系,优化了分割结果。实验结果表明,本方法在召回率、精度和F1-score达到82.8%,80.9%,81.8%的同时,交并比及运行速度为85%和10FPS,基本满足视频分割的要求,可运用于边缘设备。

猜你喜欢

空洞语义卷积
基于全卷积神经网络的猪背膘厚快速准确测定
真实场景水下语义分割方法及数据集
番茄出现空洞果的原因及防治措施
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
如何避免想象作文空洞无“精神”
空洞的眼神
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴