APP下载

River-Net:面向河道提取的Refined-Lee Kernel深度神经网络模型

2022-07-01郭志顺赵建辉

雷达学报 2022年3期
关键词:卷积河道语义

李 宁 郭志顺 毋 琳* 赵建辉

①(河南大学计算机与信息工程学院 开封 475004)

②(河南省智能技术与应用工程技术研究中心 开封 475004)

③(河南省大数据分析与处理重点实验室 开封 475004)

1 引言

大型河流稳定行河对人民安居乐业有着举足轻重的作用。近年来,国内水患频发,准确、及时地检测河流健康状况对洪涝预警、灾后评估有重要意义。随着遥感技术的迅猛发展,卫星遥感技术已成为研究人员对自然环境的日常检测和对灾害的及时感知的重要手段[1,2]。相比实地勘察,遥感手段在节省大量人力物力的同时,还避免了实地调研过程中的各种风险。因此,基于卫星遥感技术开发相应的河流检测方法具有重要的应用价值。

与光学影像不同,合成孔径雷达(Synthetic Aperture Radar,SAR)能够提供全天时全天候的观测数据[3,4]。其主动发射的微波可穿透云与雾,已在道路提取[5]、舰船检测[6]等方面大放异彩。同时SAR发出的微波对于水和陆地散射特性有差异,可以为湖泊水域分割、海岸线提取等任务提供较好的数据资源[7,8]。基于SAR这一特点,对现代河流和湖泊的诸多研究工作颇有成效[9,10]。传统水域分割方法有阈值分割法、主动轮廓模型法、聚类分割法等。自适应阈值分割算法[11,12]通过图像不同区域的灰度值分布来自动生成阈值,该类方法运算效率高,但易受SAR图像中相干斑噪声的影响;主动轮廓模型法[13,14]一般先对水域进行粗分割,再根据梯度信息对粗分割结果多次迭代,最终得到更加精确的分割结果,但该类算法运算量较大且易受粗分割精度的影响;聚类算法[15]根据数据的分布按照某种距离(欧氏距离、曼哈顿距离等)来评估当前像素与类别中心之间的相似程度,如K-means,Wishart分类器,该类方法可实现较为高效的无监督分类,但仍易受相干斑噪声的影响。

以上传统算法的本质是人工设计一种映射或判据,并以此判定图像中像素点的类别。对于存在大量相干斑噪声的SAR图像来说,这些映射很难适应整幅SAR图像中所有的像素。而神经网络技术通过不停迭代模型中的共享权值,最终构建出能够适应所有像素的映射模型。近年来,深度神经网络技术在遥感领域大放异彩[16,17]。越来越多的学者开始对相关模型进行一定的改进,使其更适合SAR遥感影像的分类、目标检测、语义分割等任务。2012年,文献[18]提出脉冲耦合神经网络(Pulse Coupled Neural Networks,PCNN),并探讨了该模型在C波段和X波段SAR图像中提取海岸线的能力。2015年,文献[19]提出了全卷积神经网络(Fully Convolution Networks,FCN)模型,随着该模型的出现,神经网络技术开始具备实现像素级端到端语义分割任务的能力,如文献[20]曾利用 FCN 模型在印度沿海地区 SAR 影像中成功分割出了当地河流。然而,尽管 FCN中有多层上采样操作,但是其对于浅层网络所提取的图像特征信息没有充足的利用。2015年,随着U型神经网络(U-Net)的提出[21],浅层网络的特征信息通过跳跃连接传递到深层网络与对应的特征信息融合起来,如文献[22]以迁移学习的方式将U-Net应用于SAR图像水域分割;文献[23]利用U-Net和DeepLab对印度沿海地区部分河流进行识别,但存在边界信息缺失现象。2019年,文献[24]结合可分离式卷积和扩张卷积搭建网络模型进行SAR图像水域分割,使得网络能够参考更多的语义信息,从而达到更好的分割表现。

然而,上述方法更多关注模型设计,而忽略了河流本身几何特性与网络模型之间的联系。本文针对河道的精确提取问题,提出一种改进的卷积核(Refined-Lee Kernel,RLK)。进而提出一种更加精确地提取河道的语义分割模型River-Net,用于提取SAR图像中的河道。最后以黄河为实施例,基于黄河语义分割结果来判断黄河在7·20暴雨后的行河情况。本文的主要贡献总结如下:

(1) 提出了一种新型卷积核RLK,可以根据目标几何特点来强化自身特征提取能力。

(2) 设计了一种新型的水域分割网络River-Net,可以对SAR图像中的河流执行更加精细的语义分割任务。

(3) 利用所提网络模型,以检测黄河河道为实施例,分析了黄河在7·20暴雨后的行河情况。

2 相关方法与模型

2.1 DeepLab

DeepLab模型[25]以空洞卷积(Dilated convolution)的形式增加卷积层感受野,从而获得更多的上下文语义信息。在深度卷积神经网络模型中,下采样过程往往伴随着分辨率的丢失,而空洞卷积可实现不增加参数量的前提下提高感受野。

如图1所示,在正常卷积中引入“扩张率”作为超参数,该参数定义了卷积核处理数据时权值之间的间距。该方法能有效提高模型的感受野,使得模型能学习更多的上下文信息。然而,Kernel的不连续可能导致输入图像的一些像素点不参与计算,模型输出结果中类别边界“锯齿”效应严重。因此在DeepLab模型末端通常引入条件随机场(Conditional Random Field,CRF),通过二元势函数描述像素点与像素点之间的关系,鼓励“距离”相近的像素分配相同的标签,而相差较大的像素分配不同标签,而这个“距离”的定义与像素值和实际相对距离有关。CRF能够使空洞卷积在分割边界导致的锯齿效应得到较大的改善。

图1 一般卷积与空洞卷积对比图Fig.1 Comparison diagram of convolution and dilated convolution

2.2 PSPNet

在神经网络执行语义分割任务中,一些特殊场景很容易使得网络模型产生错误的判断,如汽车在岸边可能被网络判定为船,电脑显示器与电视机显示器容易存在类别混淆。此时需要引入更多的上下文语义信息来解决问题。当判定层能够考虑更多的全局语义信息时,出现误判的可能性就会低很多。与DeepLab网络模型采用空洞卷积增加感受野的方式不同,PSPNet[26]通过金字塔池化(Spatial Pyramid Pooling,SPP)模块来增加感受野,从而使得网络模型能兼顾更多的上下文信息。

如图2所示,SPP模块融合了几种不同尺度下的特征。SPP模块中不同层级输出不同尺度的特征图,为了保持全局特征的权重,在每个金字塔层级后使用1×1的卷积核,当某个层级维数为n时,即可将语境特征的维数降到原始特征的1/n。然后,通过双线性插值直接对低维特征图进行上采样,使其与原始特征图尺度相同。最后,将不同层级的特征图拼接为最终的金字塔池化全局特征。

图2 金字塔池化操作示意图Fig.2 The schematic diagram of spatial pyramid pooling

3 自适应卷积核

以上神经网络模型中卷积核被认为是感知图像特征的“眼睛”,其机制类似于人眼的感受野。从数学的角度看,卷积核本质上是一种参数可训练的滤波算子。和其他滤波方式类似,其运算方式具有很关键的特点——线性且具有平移不变性。同时它还有一般滤波器所不具备的特点,即权值共享特性。

现有的研究[24]更多地关注卷积核的感受野,以求获取更多有效的上下文信息,然而却忽略了卷积核的线性平移不变性。另外,由于河流在SAR图像中多为连续的细长曲线,对于河流相关的语义分割任务来说,河流边界信息是首要的。而且SAR图像中相干斑噪声随处可见,精致Lee滤波也常常被用来过滤该噪声、保留SAR图像中目标的边界信息。

于是,借用精致Lee滤波的思想,本文提出了RLK模块,基于卷积核的滤波器特性来更有效地提取图像特征,保留目标更多的边界信息。

3.1 RLK模块原理

精致Lee滤波通过定义8种非正方形局部窗口,将均匀区域像素值等于其平均值,将非均匀区域近似于局部窗口中心像素值。基于精致Lee滤波的思想改进卷积核,增强其边界特征提取能力。定义8种非正方形局部窗口,如图3所示,通过定义中心像素的邻域来提高边界估计的准确性。

图3 精致 Lee 滤波 8 种模板示意图Fig.3 Schematic diagram of refined Lee filter template

滤波后的卷积核权值可以写为

图4 RLK 模块Fig.4 RLK module

其中,L代表滤波运算,c onv代 表卷积运算,F代表滤波器,k ernel 代表卷积核,Iinput为输入图像。

对于滤波运算,有

其中,w为输入图像I的宽度,h为输入图像I的高度,k为卷积核的长度,I(i,j)为 以第i行、第j列个像素点为中心,k×k大小的图像切片。

由于L(*)为线性运算,则式(2)可写为

3.2 River-Net深度神经网络模型

在河道提取任务中,如何充分发掘河道在SAR图像中的几何特性是所提深度神经网络模型的关键。另外,河道周围的水池、鱼塘等独立水域在SAR图像中往往与河道特性相似,对分割结果有一定的干扰作用。因此,要求分割网络能够参考更多的上下文语义信息。于是本文提出了基于RLK模块的River-Net模型,其网络结构如图5所示。

图5 River-Net 结构示意图Fig.5 River-Net structure

River-Net模型主要由4个模块构成,即1个RLK模块,2个连续的Resnet Block (RB)模块和1个SPP模块。

在RLK模块中,卷积核尺寸为 7×7,个数为64,精致Lee滤波窗口也为7×7,这使得精致Lee滤波可以直接作用于该卷积核。另外,网络浅层位置的卷积核所提取的图像特征多为轮廓、纹理等浅层特征,这意味着将精致Lee滤波作用于浅层卷积核能够发挥其更大的作用。

然后是两个连续的RB模块,每个RB模块包含两个残差块,每个残差块由卷积、正则化(Batch Normalization,BN)、激活函数ReLU、卷积、BN操作构成。其中第1个RB模块中,两个残差块中卷积层分别有64和128个 3×3卷积核,为了使得网络模型中各层参数在量级上无太大差别,避免训练过程中出现梯度消失或过拟合现象,在数据传入下一层之前,要进行BN处理,使得数据均值为0,方差为1。该操作可以表示为

重蔬食:“吾谓饮食之道,脍不如肉,肉不如蔬,亦以其渐近自然也。”李渔认为“重蔬食”有益人体健康,应该发扬上古“重蔬食,远肥腻”的遗风,方能崇俭以养生。

其中,X为输入向量,为输入向量均值,为输入向量方差,ε为足够小的接近于0的常数,γ和β均为可训练参数。

同样为了避免过拟合,BN操作后采用ReLU单侧抑制神经元,使得网络模型保持一定的稀疏性。ReLU定义为

单个RB模块中的两个残差块后都有一个跳跃连接,使得该层网络能够参考更多浅层的语义信息。该连接可定义为

其中,x为浅层特征,F(x)为 当前层特征,H(x)为融合后的特征。

需要注意的是,第2个RB模块中,两个残差块中卷积层分别有256和512个3×3卷积核。每个残差块的两个卷积层后都伴随BN层进行正则化处理,且第1个卷积层后伴随ReLU操作。

在上述3个模块后,紧接着是SPP模块。SPP模块融合了4种不同尺度的图像特征,4种尺度分别将特征图划分为1个、4个、9个、36个子区域。对每个区域进行全局池化操作。然后对池化后的结果执行卷积操作,卷积核大小为1 × 1。由于同时采用了4层池化层,所以需要该卷积操作将通道数减少到原来的1/4。接着,对上一步的每一个特征图利用双线性插值上采样得到原特征图相同的尺寸,然后利用跳跃连接将原特征图和上采样得到的特征图进行Concat,得到的通道数是SPP模块之前的两倍。

最后再执行卷积操作,卷积核大小为1 × 1,得到语义分割结果。

4 研究区域和数据

4.1 研究区域

如图6所示,在2021年郑州7·20特大暴雨背景下,为检测郑州以北暴雨前后黄河径流情况,本文将所研究黄河河段定为郑州市荥阳市以北桃花峪黄河大桥至开封黄河渡口浮桥。该河段总长约110 km。研究区域范围为113°26′10′′E—114°22′35′′E,34°50′56′′N—35°1′40′′N。黄河以桃花峪为界,往东为下游游荡式河段。自古以来该河段水患无穷,由于大量泥沙淤积,河道逐年抬高,部分河段河床高出地面10 m,是世界上著名的“地上悬河”。郑州特大暴雨事件,在17~20日3天过程降雨量617.1 mm。彼时,与郑州毗邻的黄河下游游荡式河段曾一度“河悬一线”。

图6 研究区域示意图Fig.6 Region of interest

4.2 数据来源

本文所用SAR数据来源于欧洲航天局在2014年4月3日发射的C波段Sentinel-1卫星。采用数据的工作模式为干涉宽扫描带(Interferometric Wideswath,IW)模式,分辨率为5 m × 20 m,幅宽为250 km。Sentinel-1卫星能够提供重访周期为12天的地球观测数据,其周期重访能力有利于及时跟踪自然灾害,适用于此次黄河径流检测实例。本文采用了两景Sentinel-1卫星Level 1-GRD产品SAR影像,获取时间分别是2021年7月15日10点21分和2021年7月27日10点21分。两景影像均能有效覆盖研究区域。

在执行语义分割任务前对所获取的两景SAR数据进行预处理操作,主要步骤为:轨道矫正、辐射定标、相干斑滤波和地形矫正。其中,为了平滑相干斑噪声的同时不对实验造成干扰,所用滤波方法为 均值滤波,窗口大小为3×3。

5 实验验证

5.1 数据集制作

在所获取的两景Sentinel-1影像中可以看出,除河道外,还存在大量冗余场景,河道仅在其中占很小一部分。因此,本文截取了影像中包含研究区域的部分来制作数据集。

对于7月15日SAR影像,感兴趣区域ROI能够直接提供的样本数量较少。为了解决上述问题,本文首先对SAR图像中研究区域进行无重叠图像切片操作,切片尺寸为2 56×256,得到包含河道的图像为71张,不含河道图像175张。目标样本占总样本比例为28.86%,样本集存在不平衡现象。为解决这一问题,本文又选取研究区域中5个包含河道的位置进行滑窗切片操作,如图7红色正方形所示,窗口大小为2 56×256,滑窗水平和垂直步长均为16个像素。并在此基础上进一步做数据增强,对所截取的所有图像切片进行0°,90°,180°,270°旋转、水平翻转、垂直翻转。然后为所有的训练样本和测试样本制作标签图。最终数据集中共包含1131个样本,其中608个样本包含河道,523个样本不包含河道,目标样本占总样本比例升至53.76%。选择其中5个位置(如图7黄色窗口)作为验证模型性能的图片。为保证结果的独立性,验证图片与训练集样本没有像 素交集。

图7 数据集制作示意图Fig.7 Schematic diagram of generating data set

5.2 评价指标

本文采取神经网络语义分割任务中常见的4种评价指标来评估所提模型的表现。分别是精度Precision,召回率Recall,F1度量值F1-score,以及交并比IoU。对于神经网络测试结果来说,每个像素点都存在如表1所示的混淆矩阵。

如表1所示,TP (True Positives)为模型预测正确河道所占的像素个数,FN (False Negative)为模型预测错误河道所占的像素个数,FP (False Positive)为模型预测错误背景所占的像素个数,TN (True Negative)为模型预测正确背景所占的像素个数。

表1 混淆矩阵Tab.1 Confusion matrix

以此为基础,河道提取的Precision定义为

5.3 实验结果

基于Sentinel-1影像数据,本文训练了River-Net模型,用于提取黄河河道。为了验证RLK模块的特征强化效果,本文在图8中展示了图像经过RLK模块之后得到的特征图,并以传统的卷积操后的特征图作为对比实验。对River-Net结构中第1层卷积层来说,64个7×7的卷积核生成的特征图如图8(d)所示。本文对比了两个特征图组的第2,6,16和37张特征图,其中红色标注为传统卷积操作得到的结果,而青色标注表示RLK模块得到的特征图。从图8(e)可以看出,与传统卷积操作得到的特征图相比,RLK模块提取的特征边界更加清晰,且目标特征更加明显。

图8 不同网络的特征图提取与对比Fig.8 Feature map extraction and comparison of different networks

为了进一步验证基于RLK模块搭建的深度模型River-Net的有效性。本文采用了多种水域分割方法作为对比实验,选取图7中包含河流和陆地的5个黄色窗口对应的图像切片进行语义分割。分割结果图中白色区域代表陆地,黑色区域代表河道。对于传统水域分割方法,本文选用OTSU,ACM,K-means算法作为对比实验,对于神经网络水域分割方法,本文选取U-Net,DeepLab,PSPNet模型作为对比实验。此外,为了验证RLK模块对网络模型特征提取的增强作用,本文以U-Net,PSPNet作为基础模型,将这两个模型中首个特征提取层替换为RLK模块来验证该模块的适用性。由于Deep-Lab模型所用卷积核为空洞卷积,RLK模块对其不适配,因此不对该模型植入RLK模块。

上述各个对比模型的河道提取效果图如图9所示。传统的分割方法中,OTSU和K-means聚类算法对应的结果图中有许多孤立的误判点,表明这两类算法受SAR图像相干斑噪声影像较大;ACM算法对噪声不敏感,然而在测试图像T5中,河道内滩整体被误判为水域,这种误判对于河内浅滩较多的黄河来说是不能接受的。7种深度学习水域分割方法表现良好,这是由于该类方法可训练共享权值的特点,可以构建出适应所有像素点的映射模型,即便像素点被噪声覆盖,也可以根据该像素本身特点和像素间的空间信息来对噪声像素构建映射。在SAR图像中,黄河周围小面积孤立水域与河道特征较为相似,在测试图像T3中,U-Net和DeepLab模型将其误判为河道的一部分。而PSPNet和River-Net相关的模型可以有效地区分周围池塘与黄河河道,这是由于这些模型都包含SPP模块,使得更多的空间信息被引入,有效解决了图像中容易产生语义歧义的场景。

图9 不同网络分割结果对比Fig.9 Comparison with segmentation results of different networks

原始U-Net,PSPNet和不含RLK模块的River-Net在验证图像T5中识别纤细的黄河支流有缺陷,在T4中无法识别黄河支流。U-Net+RLK,PSPNet+RLK以及River-Net模型与不含RLK模块的对应模型相比,对于纤细弯曲的河道更加敏感,分割效果更好。而River-Net借助RLK模块所提取的特征图轮廓更加清晰,因此对纤细河道的提取表现更好。

为了定量分析所提方法的有效性,本文基于5.2节介绍的评价指标,对所提方法进行评估,同时对比了3种传统水域分割方法和6种神经网络模型,所得结果为5幅图像对应计算结果的均值,结果如表2所示。在传统方法中,K-means算法表现最好,准确率高达95.1%,但各项指标均不如深度学习算法。而在深度学习算法中,RLK模块分别使U-Net,PSPNet精度增加了0.52%和1.11%,召回率增加了2.15%和0.51%。基于RLK模块搭建的River-Net分割精度最高,达到97.32%。另外,River-Net模型参数量为16.7M,单幅图像平均处理时间为3.571s,所用设备CPU型号为Intel(R)Xeon(R) Gold 6126 CPU @ 2.60GHz,128GB内存,显卡为NVIDIA TITAN V。

表2 分割结果评价Tab.2 Evaluation of segmentation results

基于上述已训练的River-Net模型,本文提取了黄河7·20暴雨前后的河道情况。如图10所示,对比郑州市辖范围内黄河在暴雨前后SAR影像中的分割结果来看,该段黄河在7月27日基本恢复至暴雨前行河状态。桃花峪、桃花岛、花园口和陡门乡附近有部分水域扩张。黄河在桃花峪分流入沁河,7月21日9时,桃花峪至花园口区间降特大暴雨,沁河河道流量不断上涨,沁河河口村水库超汛限水位,黄河水利委员会启动黄河中下游水旱灾害防御Ⅲ级应急响应。根据河南水文水资源局公布的数据,7月23日凌晨3时12分沁河武陟水文站流量涨至1510 m3/s,达到1982年以来最大洪水流量。根据River-Net对黄河河道提取结果,黄河7月27日较7·20暴雨前水域扩张多在桃花峪至花园口区间,与官方公布结果相符。

图10 郑州 7·20 暴雨前后部分黄河提取结果Fig.10 Part extraction results of the Yellow River before and after the Zhengzhou 7·20 rainstorm

6 结论

针对传统深度模型提取特征能力不足的问题,面向河道提取、水域分割等应用。本文提出了RLK模块,它具备根据目标几何特点来强化自身特征提取的能力。然后,本文根据该模块搭建了深度神经网络River-Net,它具有更强的特征提取能力和上下文信息融合能力。本文以检测郑州7·20暴雨前后部分黄河的行河情况为实施例,验证了所提模型的有效性。因此,所提模型具有高精度提取SAR图像中的河流边界的应用潜力。

猜你喜欢

卷积河道语义
基于全卷积神经网络的猪背膘厚快速准确测定
真实场景水下语义分割方法及数据集
基于FPGA的卷积神经网络加速优化方法
基于图像处理与卷积神经网络的零件识别
弯道之妙
基于深度卷积网络与空洞卷积融合的人群计数
撮粮之术(下)
河道里的垃圾
小型农田水利工程中河道的治理与对策分析
汉语依凭介词的语义范畴