APP下载

基于U-Net的葡萄种植区遥感识别方法

2022-05-12张宏鸣张国良朱珊娜孙志同

农业机械学报 2022年4期
关键词:种植区卷积像素

张宏鸣 张国良 朱珊娜 陈 欢 梁 会 孙志同

(1.西北农林科技大学信息工程学院,陕西杨凌 712100;2.宁夏智慧农业产业技术协同创新中心,银川 750004)

0 引言

中国是葡萄生产大国,葡萄种植规模不断扩大,准确地获取葡萄种植区的空间分布,可以为葡萄种植区的精细化管理提供技术支撑,对促进经济发展具有重要意义[1]。随着遥感技术的发展,遥感已成为精准农业中农田信息获取的重要手段,也是地块面积量算、作物种类识别、长势分析等工作的重要数据来源[2]。农业遥感信息获取的方式主要有卫星遥感和无人机遥感等技术[3]。与无人机遥感相比,卫星遥感的成像覆盖更广,更适用于大范围的作物种植区信息监测。

遥感图像分类可分为像素级、对象级和场景级3个不同层次[4]。作物遥感识别属于像素级遥感图像分类,其最终目标是给遥感图像中的每一个像素赋以唯一的作物类别标识[5]。目前国内作物遥感识别研究多关注小麦[6]、玉米[7]、水稻[8]等农作物,专门针对葡萄种植区的遥感识别研究相对较少。目前对农作物的遥感识别大多采用监督分类方法,常用的传统监督分类算法有支持向量机(Support vector machine,SVM)[9-11]、随机森林[12-14]、决策树[15-16]等。在具体应用中,刘纯等[9]将支持向量机与遥感影像的光谱特征、形状特征和多尺度区域特征等相结合,以提高分类精度。宋荣杰等[14]提出一种基于小波纹理和随机森林算法的猕猴桃果园自动提取方法。王利军等[15]在波谱特征和植被指数的基础上,采用决策树和SVM相结合的方法对秋季复杂作物进行有效识别,以提高农作物分类提取精度。虽然这些方法都有良好的分类精度,但是需要依靠人工设计不同的算法来提取适合的特征以解决不同的问题,使得作物特征信息尚未得到充分利用。

深度学习中的卷积神经网络(Convolutional neural network,CNN)通过对训练样本的学习来自动提取样本特征,不需要大量的专家知识,被广泛用于自然图像分类、图像分割等领域。LONG等[17]在CNN基础上设计一种兼容任意尺寸图像、端到端、像素到像素的全卷积神经网络(Fully convolutional networks,FCN),把图像级别的分类进一步延伸到像素级别的分类,成功地将原本用于图像分类的网络转变为用于图像分割的网络[18]。U-Net[19]基于FCN改进而成,首先被广泛应用于医学影像分割[20-21]。U-Net因其具有融合高低级语义信息、所需训练数据集少、训练速度快等特点,也被广泛应用于遥感影像分割。JI等[22]在U-Net基础上提出一种适用于多源建筑数据集的全卷积神经网络,可实现遥感图像建筑物实例分割、变化检测等多种用途。李旭青等[23]在U-Net模型基础上,引入可变形卷积的思想,以提高冬小麦自动解译精度。徐知宇等[24]利用高分二号卫星多光谱遥感影像,将一种改进的U-Net卷积神经网络首次应用于城市绿地自动分类。注意力模块可以增强相关特征,抑制无关特征,从海量信息中筛选出高价值信息。已有各种各样的注意力模块被应用于U-Net网络,以充分发挥两者的优势,提高网络的分割精度。PAN等[25]提出一种具有空间和通道注意力机制的生成式对抗网络,并使用U-Net作为生成器,显著提升了高分辨遥感影像建筑物分割精度。MAFU-Net[26]结合U-Net、位置注意力模块和通道注意力模块,在不显著增加参数量的情况下,提升遥感影像地物分类的精度。扩张卷积可以灵活调整卷积核感受野尺寸,提供丰富的空间上下文信息,也被应用于遥感影像领域。例如,FU等[27]在FCN中加入扩张卷积和多尺度网络结构,并使用条件随机场细化结果预测图,显著提高了多分辨率遥感影像的分类精度。张祥东等[28]在三维卷积和二维卷积串联模型的基础上,通过引入扩张卷积与注意力机制,分别构建多尺度特征融合模块和注意力模块,有效提升了高光谱图像的分类精度。

为提高葡萄种植区的遥感识别精度,本文提出一种基于高分二号卫星遥感影像的深度语义分割模型。在U-Net网络基础上,使用空间与通道注意力模块提取有效的遥感影像空间信息,以提升边缘分割效果;减少下采样次数,使用混合扩张卷积代替常规的卷积操作来扩大卷积核感受野,以适应不同尺寸的地物。并与FCN-8s、U-Net网络进行比较,验证本文方法的有效性,以期为其他农作物的精确识别提供参考。

1 研究区概况

本文研究区域位于东经105°58′~106°8′,北纬38°28′~38°44′,地处宁夏回族自治区贺兰山东麓葡萄酒产区,是国际酿酒葡萄最佳产区之一,图1为研究区域位置示意图。该地日照时间长,昼夜温差大,属于典型的大陆性气候,地形为山前扇形冲积平原。根据实际地面调查,研究区主要植被包括葡萄、苜蓿、水稻、玉米、小麦、枸杞等;非植被包括裸地、建筑用地、水体、沟渠、山脉等。

图1 研究区域位置示意图Fig.1 Illustration of location of study area

选用2019年7月25日获取的研究区高分二号(GF-2)卫星影像,影像包括同期获取的空间分辨率为1 m的全色波段(0.45~0.90 μm)和空间分辨率为4 m的4个多光谱波段(Band1(0.45~0.52 μm)、Band2(0.52~0.59 μm)、Band3(0.63~0.69 μm)、Band4(0.77~0.89 μm))。本研究区域图像尺寸为14 351像素×29 124像素,覆盖面积约为41 796 hm2。

2 数据处理与研究方法

本文旨在使用改进的U-Net模型对葡萄种植区进行遥感识别,主要步骤包括数据预处理、数据集构建、模型改进和实验。方法流程如图2所示。

图2 方法流程图Fig.2 Flow chart of method

2.1 数据预处理

首先利用影像有理多项式系数(Rational polynomial coefficients,RPC)参数文件和数字高程模型数据,在ENVI 5.3中对原始GF-2卫星影像进行辐射校正、几何校正等预处理;然后将多光谱影像与全色影像自动配准并使用图像融合算法进行影像融合,生成空间分辨率为1 m的融合影像。参照人工调查数据,在融合影像中对已标明地物类型的地块进行感兴趣区域裁剪。

2.2 数据集构建

将感兴趣区域分割成2 560像素×2 560像素的影像。使用LabelMe软件对分割后的影像逐像素点标注,然后进行颜色填充,背景类为黑色,其像素值为0,葡萄类为白色,其像素值为255。考虑到实验训练时间和网络结构所支持的图像尺寸等因素,将标注后的标签图像以及相对应的原始图像分割成若干幅256像素×256像素的图像,如图3所示。

图3 原始影像和标签图像示例Fig.3 Example of original and labeled image

数据量越大,模型越容易学习到具有代表性的特征。为扩充数据集,本文将原始图像与标签图像进行同步旋转、镜像翻转。具体地,将图像分别逆时针旋转90°、180°和270°;将图像分别以水平、垂直、主对角线和副对角线镜像翻转。最后按照比例5∶1随机划分为训练集和测试集,其中训练集图像2 369幅用于模型训练,测试集图像439幅用于模型评价,数据集有效类别数为2。

2.3 模型改进

U-Net在FCN基础上进行修改和扩充,由捕获上下文的收缩路径和实现精确定位的对称扩展路径组成,形成一个“U”型结构,是典型的编码-解码结构。U-Net可以用很少的训练数据产生精确的分割效果且训练速度快。U-Net的最大特点在于:每次下采样时,将特征图的通道数量加倍,以便让更多的特征信息(如边界、颜色、形状等)在各个卷积层间传播;每次上采样时,将特征图的通道数量减半,并进行跳跃连接(Skip connection),通过维度拼接(Concatenation)操作融合不同尺度的特征图,保留更多高分辨率细节信息,以帮助恢复输出图像的空间分辨率,提高分割精度。

直接将自然图像语义分割模型应用于遥感影像,难以达到预期的效果和精度。为保证卷积操作前后的影像尺寸不变,本文在模型的卷积层中加入卷积填充。此外,针对遥感影像中葡萄种植区的特点,本文主要对U-Net进行以下改进:

(1)自适应校准特征映射

葡萄种植区域内多有主道路和支道路纵横交叉,且部分种植区临近交通要道,给葡萄种植区的遥感识别造成干扰。注意力机制可以从不同维度动态调整特征值的权重降低噪声干扰,提升对有效资源的利用率。

为此本文引入scSE(Spatial and channel squeeze &excitation)模块[29],分别从空间和通道2个维度自适应地重新校准特征映射。scSE模块由cSE模块和sSE模块组成,其结构如图4所示,其中“1×1卷积层”表示卷积核大小为1×1的卷积层。

图4 scSE模块结构示意图Fig.4 Illustration of scSE block

图4中,U为输入特征图,U∈RC×H×W(C表示特征图通道数,H表示特征图空间方向上的高度,W表示特征图空间方向上的宽度)。在cSE模块中,定义U=[u1u2…ui…uC],表示通道ui∈RH×W。首先对特征图U进行全局平均池化,得到向量z∈R1×1×C,具体操作为

(1)

式中zk——第k个通道的全局平均池化结果

uk——U的第k个通道分量

U′cSE=[σ(z′1)u1σ(z′2)u2…σ(z′i)ui…σ(z′C)uC]

(2)

式中σ(z′i)——向量z′第i个分量的归一化结果

随着网络的学习,通道的重要性被适应性地调整,以增强特定语义信息的表达。

在sSE模块中,定义U=[u1,1u1,2…ui,j…uH,W],其中ui,j∈R1×1×C对应于U在空间位置(i,j)的子空间的特征值,i∈{1,2,…,H}且j∈{1,2,…,W}。先对特征图U进行卷积,生成投影向量q=Wsq*U,其中q∈RH×W,Wsq∈R1×1×C×1为卷积层的权重向量。再用Sigmoid函数将向量q的值归一化到区间[0,1],并与特征图U进行矩阵相乘,得到空间注意力特征图U′sSE为

U′sSE=[σ(q1,1)u1,1…σ(qi,j)ui,j…σ(qH,W)uH,W]

(3)

式中qi,j——q在空间位置(i,j)的子空间

每个σ(qi,j)值对应于给定特征图的空间信息在空间位置(i,j)的相对重要性。通过重新校准,使得不重要的空间信息特征值越来越小,而重要的空间信息基本不会损失。

在对特征图进行处理的过程中,cSE和sSE并行操作,将生成的通道注意力特征图U′cSE和空间注意力特征图U′sSE进行加和运算,得到最终的注意力特征图(图4)。

为突出遥感影像中葡萄种植区的边缘特征信息,在U-Net编码和解码路径的每2个3×3卷积层后添加scSE模块,本文提出的注意力模块如图5所示,在每次卷积之后添加批标准化(Batch normalization,BN)和修正线性单元(Rectified linear unit,ReLU)激活函数。

图5 注意力模块Fig.5 Attention block

(2)减少下采样次数,扩大网络感受野尺寸

研究区内的葡萄种植面积不一,种植区域分布零散,容易出现漏识别现象。可通过灵活调整卷积核感受野,来捕获多尺度信息。卷积神经网络通过一系列下采样操作来扩大感受野。在U-Net中,会进行4次1/2下采样和4次2倍上采样。特征图经过具有1/2下采样的4个最大池化层后,其空间分辨率减少到原来的1/16。对于高分辨率遥感图像分割任务,下采样操作会导致图像空间信息的严重丢失。扩张卷积(Dilated convolution)可以在不降低图像空间分辨率的同时扩大感受野,且不需要引入额外参数[30]。

在一维情况下,扩张卷积定义为

(4)

式中g[i]——输出信号

f[i+rl]——输入信号

h[l]——长度为l的滤波器

L——滤波器的最大长度

r——扩张率,对应于用来采样输入信号f[i]的步幅

在标准卷积中,r=1。在语义分割领域中,二维扩张卷积是通过在卷积核的每个像素之间插入r-1个“零”来实现,可以有效地将卷积核的内核从k×k扩大到kd×kd,其中kd=k+(k-1)(r-1),如图6所示,随着扩张率的增大,卷积核感受野也不断扩大。

图6 扩张卷积示意图Fig.6 Illustration of dilated convolution

将扩张卷积应用于网络的每个卷积层时,会增加网络的计算量,降低计算效率。为实现合理的效率和精度,通常把扩张卷积应用于已经下采样的特征图[31]。本文去掉U-Net中的最后一次下采样操作和第1次上采样操作,并借鉴文献[31]的思想,在U-Net第3次下采样之后,对每个卷积层使用不同的扩张率,而不是对所有层使用相同或指数增长的扩张率。本文提出的混合扩张卷积(Hybrid dilated convolution,HDC)模块如图7a所示,卷积层扩张率分别为1、2、5。

图7 扩张卷积变体Fig.7 Variants of dilated convolution

结合以上改进,在不降低网络分割精度的前提下,为减少模型整体的的参数量和计算量,本文在混合扩张卷积模块的卷积层之间插入带有1×1卷积核的卷积层进行降维,如图7b所示,并将加入1×1卷积层的混合扩张卷积模块称为“HDC-1”模块。

综合上述分析,本文将U-Net作为骨干网络,使用卷积填充确保输入与输出影像的尺寸相同;通过注意力模块进行特征自适应和细化;通过混合扩张卷积及1×1卷积层,实现不同尺度特征的捕获和聚集。本文模型示意图如图8所示。

图8 本文模型示意图Fig.8 Illustration of the proposed network architecture

2.4 分割精度评价指标

使用像素准确率(Pixel accuracy,PA)、平均交并比(Mean intersection over union,MIoU)和频权交并比(Frequency weighted intersection over union,FWIoU)作为精度评价指标,指标越大,表示模型的分割效果越好。

使用模型参数量作为模型的复杂度评估指标,参数量越少,表示模型所需的计算资源越少,越有利于模型部署。模型的参数量通过开源深度学习框架Keras中的model.summary()方法进行统计得到。

3 实验与结果分析

3.1 实验环境与模型训练

实验采用Python作为实现语言,基于Keras开源深度学习框架搭建实验环境并进行训练、调参和测试,使用NVIDIA GeForce RTX 2080 Ti显卡加速。模型训练阶段采用动量为0.9的随机梯度下降算法进行优化,初始学习率(Learning rate)为0.1,批大小为32,训练180轮次,总迭代次数为13 320次,损失函数使用多分类交叉熵损失函数,并采用早停法进行模型终止判断,以防止过拟合,早停法监测数据为训练集损失值,用He_normal进行权重初始化,使用Same卷积进行边缘像素填充。

学习率是神经网络训练中最重要的超参数,为找到合适的学习率,本实验在固定批大小和其他超参数的前提下,分别使用不同的学习率(1、0.1、0.01、0.001)训练模型。不同学习率对应的训练集准确率变化曲线如图9a所示,不同学习率在测试集上的评价指标如图9b所示。

图9 不同学习率下模型的效果对比Fig.9 Comparison of effects of model at different learning rates

由图9a可知,学习率为1时,梯度下降方向不准确、振荡较大,出现梯度发散。学习率为0.01和0.1在网络训练初始阶段的收敛速度接近,没有出现振荡,但学习率0.1在测试集上的评价指标明显优于学习率0.01(图9b),故本实验的初始学习率设置为0.1,且当训练集的准确率停止提高时,将学习率衰减为原来的1/10。

为确定合适的批量大小,本实验在固定学习率和其他超参数的前提下,分别使用不同的批量大小(4、8、16、32)训练模型,受限于实验硬件环境的GPU内存、数据集的容量以及网络输入图像尺寸等因素,本实验所支持的批量大小的最大值为32。不同批量大小在测试集上的评价指标如图10所示。当批量大小为8和32时,各项评价指标都比较接近,又因为在合理范围内,批量大小越大,其确定的下降方向越准,引起的训练震荡越小,同时可以提高内存的利用率,故本实验的批量大小设置为32。

图10 不同批量大小的模型结果对比Fig.10 Comparison of effects of model under different batch sizes

3.2 实验结果分析

通过消融实验和特征可视化来探究注意力模块和混合扩张卷积对本文模型的影响;为验证本文模型的有效性,将其与FCN-8s、U-Net进行对比,定性、定量分析对比结果;为验证本文模型的实用性,从遥感影像中选取2个大范围葡萄种植区场景进行分析。

3.2.1消融实验及特征可视化分析

将scSE模块和HDC模块分别单独嵌入U-Net网络中进行实验。从测试集中选取两幅场景进行分析,分别记为场景1、2,图11中上方图像为场景1,下方图像为场景2。其原始图像的标签如图11a所示,scSE模块和HDC模块分别单独作用于U-Net得到的识别结果如图11b、11c所示,图11d为scSE模块和HDC模块共同作用于U-Net得到的识别结果,结合scSE模块和HDC模块的优势,达到了更好的识别结果。

图11 消融实验识别结果对比Fig.11 Comparison of recognition results of ablation experiment

相对于单独使用U-Net网络,scSE模块作用于U-Net网络的PA、MIoU和FWIoU分别提升1.72、3.27、3.13个百分点,参数量有所增加(表1)。对识别结果进行对比发现,scSE模块作用得到的结果轮廓较为清晰,例如场景1的方形框区域,明显优于HDC模块作用得到的结果,说明scSE模块对地物的边缘识别效果更佳。

相对于单独使用U-Net网络,HDC模块作用于U-Net网络的PA、MIoU和FWIoU分别提升2.06、3.94、3.77个百分点,且没有引入过多额外的参数(表1)。对于场景2中的圆形框区域,HDC模块作用得到的结果较为完整,无过多漏识别,而scSE模块作用得到的结果漏识别率较高,说明HDC模块更适用于不同大小地物的识别。

表1 不同组成模块在测试集上的实验结果Tab.1 Experiment results of different components on test dataset

为进一步分析两者的作用机制,分别对scSE模块和HDC模块单独作用于U-Net生成的特征图进行可视化分析。

图12b、12c分别为scSE模块、HDC模块处理后得到的前16维特征图,图中颜色越亮(黄色)表示网络越注意该区域的特征,通过对比可以发现scSE模块对葡萄种植区边缘的响应更加集中,可以将道路和葡萄完全区分开;HDC模块对边缘特征的响应较弱,但对整块葡萄种植区的响应更加明显。

图12 scSE模块和HDC模块处理特征可视化Fig.12 Visualization of processed feature by scSE block and HDC block

通过分析可知,scSE模块可以强化葡萄种植区的边缘语义信息;HDC模块可以捕获不同尺度的上下文语义信息,使葡萄种植区的识别结果更加完整。

3.2.2模型对比结果分析

U-Net、FCN-8s和本文模型对测试集中3个典型场景的预测结果及细节如图13所示,从上到下依次为场景3~5。

对于场景3,FCN-8s存在明显的漏识别现象,例如红色圆形框区域;FCN-8s将道路误识别为葡萄种植区,例如红色方形框区域,而U-Net和本文模型可以有效地识别出细线状道路,说明高低级语义信息的融合对细节特征的识别具有重要指导作用。

对于场景4,本文模型的识别效果明显优于U-Net和FCN-8s,主要是因为本文模型使用注意力模块,注意力模块能够剔除冗余信息,找到强相关性的地物特征,适用于小尺寸地物的识别,而且地物的边缘识别更为平滑。

对于场景5,U-Net和FCN-8s的识别结果非常零散,而本文模型的识别结果较为完整,例如红色方形框区域,说明混合扩张卷积可以保证目标地物的连续性,提高大尺寸地物的识别精度。该场景中道路两侧的葡萄种植区的颜色和纹理略有不同,U-Net和FCN-8s均未成功识别,本文模型能够较为完整的识别出来。

综合上述分析,与U-Net、FCN-8s相比,本文模型的整体识别能力更加稳健,识别效果图较为完整清晰。

U-Net、FCN-8s模型和本文模型在测试集上的评价指标如表2所示。

表2 不同模型在测试集上的实验结果Tab.2 Experiment results of different models on test dataset

U-Net模型在测试集上的PA为94.17%,MIoU为88.52%,FWIoU为88.96%,明显优于FCN-8s模型。本文模型在测试集上的PA、MIoU和FWIoU分别为96.56%、93.11%、93.35%,相比U-Net模型,PA、MIoU和FWIoU分别提升了2.39、4.59、4.39个百分点,参数量减少了39.75%,相比FCN-8s模型,分别提升了5.17、9.57、9.17个百分点,同等条件下可以利用少量的计算资源达到更高的精度,更具实用性。

3.2.3大范围葡萄种植区识别结果分析

本文模型对两个大范围葡萄种植区场景的预测结果如图14b所示,其中红色区域表示葡萄种植区。图14上图为场景6、下图为场景7。两个场景的尺寸均为2 560像素×2 560像素,覆盖面积约为656 hm2。

图14 本文模型识别结果Fig.14 Detection results of proposed model

场景6主要包含有葡萄、荒地、林地、果园和建筑物等,用来检测网络对易混淆地物的区分能力。本文模型对场景6识别结果的PA、MIoU和FWIoU分别为98.75%、95.32%、97.56%。从本文模型对场景6的预测图和人工标注图对比来看,本文模型对不同大小地物的识别效果较好,但也存在一些误识别现象,例如蓝色圆形框区域,其放大细节如图15a中圆形框所示,将部分果园误识别为葡萄,主要原因是部分果园的纹理、颜色和葡萄种植区极其相似;也存在明显的漏识别现象,例如蓝色方形框区域,其放大细节如图15a中的方形框所示,从放大细节可以发现,主要原因是有一条沟渠流经此处,且部分位置的纹理亮度突然变强,使得特征变化不连续,特征波动强烈,导致漏识别的出现。

图15 场景6和场景7中的局部放大细节图Fig.15 Local magnification details in scene 6 and scene 7

场景7主要包含有葡萄、玉米、树林、果园、建筑物和通信基站等,用来检测网络对不同尺寸地物的识别能力。本文模型对场景7识别结果的PA、MIoU和FWIoU分别99.52%、97.14%、99.06%。从人工标注图和本文模型预测图对比来看,两者结果基本一致,而且本文模型对此区域的果园没有出现误识别情况。本文模型对小尺寸地物的识别具有明显的优势,例如蓝色圆形框区域,其放大细节如图15b所示,能够较完整地剔除葡萄种植区中的通信基站轮廓。

4 结束语

以U-Net模型为基础,利用有限的样本数据,提出一种高分辨率遥感影像葡萄种植区像素级精确识别方法。通过空间与通道注意力模块进行特征自适应,改善了葡萄种植区的边缘分割效果;通过减少下采样次数,使用混合扩张卷积有效地聚合不同感受野和空间上下文的信息,提高了对不同尺寸葡萄种植区的分割精度。此外,通过消融实验和特征可视化分析可知,scSE模块和混合扩张卷积分别对作物的边缘信息与多尺度上下文信息进行强化,从而改善分割效果。本模型的像素准确率、平均交并比和频权交并比均优于经典语义分割模型FCN-8s、U-Net,且参数量较少,适用于大范围的葡萄种植区识别,具有较高的准确性和实用性。

猜你喜欢

种植区卷积像素
基于全卷积神经网络的猪背膘厚快速准确测定
基于Landsat-8遥感数据的冬小麦种植区地表蒸散量时空分布研究
基于波段增强的DeepLabv3+多光谱影像葡萄种植区识别
像素前线之“幻影”2000
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
“像素”仙人掌
高像素不是全部
您的像素,饱和吗?[上]