APP下载

基于深度语义分割的无人机多光谱遥感作物分类方法

2021-04-13杨蜀秦宋志双尹瀚平张智韬宁纪锋

农业机械学报 2021年3期
关键词:植被指数光谱作物

杨蜀秦 宋志双 尹瀚平 张智韬 宁纪锋,5

(1.西北农林科技大学机械与电子工程学院,陕西杨凌 712100; 2.农业农村部农业物联网重点实验室,陕西杨凌 712100;3.西北农林科技大学信息工程学院,陕西杨凌 712100; 4.西北农林科技大学水利与建筑工程学院,陕西杨凌 712100;5.陕西省农业信息感知与智能服务重点实验室,陕西杨凌 712100)

0 引言

随着精准农业的发展,利用遥感信息对农田作物进行快速准确的分类以获取其种植面积及空间分布信息的需求越来越大。作为长势监测、墒情调查、产量预估和灾害评估等[1-5]工作的基本前提,遥感监测对农业生产分析、管理和决策具有十分重要的意义。

目前,利用遥感技术监测作物主要包括卫星和无人机两种方式[6-7]。高空卫星遥感覆盖面积大、探测周期短,是大范围农情信息监测的重要技术手段[8-9]。相关应用主要包括提取地表植被指数[10]、光谱、纹理和地形特征[11],以及融合雷达与光学影像等数据[12]识别地物。低空无人机遥感具有机动灵活、时效性强和分辨率高等特点,已被广泛用于农田级区域的农情信息获取,特别是田地种植分布信息的提取[13-17]。韩文霆等[15]基于可见光遥感影像,结合支持向量机和决策树分类模型,对土地利用和覆被分类进行研究。戴建国等[16]从无人机遥感影像中提取纹理和低通滤波特征,采用支持向量机方法实现了对农田作物的分类。WU等[17]利用农作物收获后和作物生长期的数字表面模型(Digital surface model, DSM),采用基于对象的分类方法和最大似然方法,结合遥感图像和作物高度信息识别作物类型。

目前,对农田作物种植分布的研究主要基于人工选择特征,采用支持向量机等传统机器学习方法,其分类结果具有一定局限性[18]。近年来,深度学习语义分割方法在图像分类领域取得了较大突破[19-20],已在地膜识别[21-22]和温室大棚分类[23]等农业领域取得良好的效果,相对基于人工特征的分类方法优势明显[24]。但在农田作物种植分布监测研究方面却鲜见报道。

为精准获取农田作物的种植信息,本文提出一种基于无人机多光谱农田遥感影像的深度语义分割模型。通过改进输入层结构以适应多光谱图像和农田植被先验特征融合,修改激活函数以优化DeepLab V3+模型,克服其在农业遥感解译领域的限制。为验证模型的泛化性能,基于研究区域2018—2019年的遥感影像,在2018年数据集上训练建模,在2019年数据集上测试模型性能。并与支持向量机(Support vector machine, SVM)方法、SegNet网络和DeepLab V3+网络进行比较,以验证本文方法的有效性和优越性。

1 研究区域与数据

1.1 研究区域概况

试验地点位于内蒙古河套灌区西部的沙壕渠灌域(北纬40°52′~41°1′,东经107°5′~107°12′),地处我国干旱与半干旱、荒漠与草原的过渡地带,具备中温带高原的大陆性气候特征,气候干燥,蒸发量大,属于无灌溉即无农业地区。如图1所示,研究区域包括2块土壤条件和作物种类不尽相同的试验田,每块试验田拍摄面积在20~30 hm2之间。1号试验田盐碱化较严重,主要作物包括向日葵(81.16%)和玉米(5.03%)。2号试验田盐分相对较低,主要种植玉米(5.06%)、向日葵(5.27%)、西葫芦(4.56%)等作物。

1.2 数据采集

采用大疆经纬M600型多旋翼无人机,搭载Micro-MCA型高分辨率多光谱相机(分辨率为1 280像素×1 024像素),于2018年8月中旬和2019年8月中旬连续两年的同一时期采集试验区域在6个不同波长下的遥感影像,包括490 nm(B)、550 nm(G)、680 nm(R)3个可见光波长和720、800、900 nm 3个近红外波长。无人机飞行高度150 m,遥感图像地面采样距离(Ground sampling distances, GSD)为81 mm,航向重叠率85%,旁向重叠率70%,按预定飞行轨迹点进行拍摄。为减少太阳高度角的影响,拍摄时间设在13:00。无人机航拍的原始单通道图像首先由PixelWrench2软件配准合成,再通过Pix4Dmapper软件拼接,拼接后每块试验田遥感影像平均分辨率约为10 000像素×10 000像素。

1.3 数据集构建

采用2018年遥感影像数据作为分类模型的训练集和验证集,2019年数据作为测试集。其中,训练集用来训练模型,验证集随训练集一起输入模型但不参与训练,用于调整模型的超参数和评估模型,测试集用于检验模型的泛化性能。首先,结合实地调查和目视解译,利用LabelMe工具人工标注正射遥感影像,得到两块试验田的地面实况(Ground truth, GT);其次,从2018年拍摄的2幅图像中随机裁切出4 000幅256像素×256像素的样本图像;再通过加噪、旋转、缩放和镜像等处理进行图像扩充,并按3∶1的比例将扩充后的图像划分成训练集和验证集,其样本数量分别为12 000幅和4 000幅。

2 研究方法

2.1 基于深度学习的语义分割方法

全卷积神经网络(Fully convolutional networks, FCN)是由SHELHAMER等[25]于2014年提出的一种端到端的语义分割网络,是深度学习语义分割领域的开创性工作。它将全连接层转换为卷积层,在实现像素级预测的同时保留了原始图像的空间信息,其后的语义分割网络都是在其基础上发展改进的。SegNet深度语义分割模型[26]在编码及解码方面进行了改进。编码器采用VGG16网络,用于提取图像的深层特征。解码器是与编码结构对称的上采样结构,每一个编码层都对应一个解码层,解码操作是不断从编码器中释放出存储的位置信息,从而完成上采样操作,解码层最终的特征图经过Softmax分类器对每个像素进行分类。

DeepLab V3+网络是在DeepLab V3的基础上进一步改进得来[27]。在DeepLab V3中,最终的输出图像是直接对特征图像16倍上采样得到,不足以重构物体分割细节,导致最终分割结果的边界细节较差。DeepLab V3+采用空洞卷积,使其在级联模块(采用50层或101层的ResNet网络)和空洞空间金字塔池化(Atrous spatial pyramid pooling, ASPP)的框架下,能够获得更多的尺度信息[28]。在编码-解码结构方面,采用低维特征逐步对高维特征上采样,以便更好地恢复边界细节。在提高网络尺寸适应性方面,DeepLab V3+为带孔空间金字塔池化模块增加了不同尺度范围内语义信息的区分和提取,利用多种比例和有效感受野的不同分辨率特征,挖掘多尺度的上下文内容信息,以实现对不同尺寸目标的识别。此外,DeepLab V3+运用Xception模块,将带孔空间金字塔池化模块改为深度可分离卷积结构,有效地降低了计算复杂度。

2.2 改进的DeepLab V3+分类方法

将现有深度语义分割模型直接用于农田多光谱遥感影像会存在一些限制。例如,不能直接处理多波段图像、没有有效利用农业遥感影像先验知识、常用的ReLU激活函数对负值无响应易导致性能下降等[29-30]。因此,针对这些不足,本文基于DeepLab V3+模型从先验信息融合、输入层结构修改和激活函数选择3方面提出相应改进,构建适用于多波段农田遥感影像的深度语义分割网络,以获得更优的多光谱遥感作物分类模型,其结构如图2所示。

模型的主要改进包括:首先,构建融合各类植被指数的特征模块,以充分利用多光谱遥感影像的光谱信息。该模块通过对遥感影像相应通道进行波段运算,得到一系列植被指数,剔除奇异值后,对所有指数做归一化处理,并以特征图的形式合并到输入通道。其次,由于DeepLab V3+的研究主要集中在可见光图像处理领域,无法直接处理更多通道图像,本文按照波段数和植被指数特征图增加输入通道,使模型适用于输入融合农田先验知识的多光谱遥感影像。另外,针对众多的植被指数和光谱特征导致信息冗余和模型不易收敛问题,运用SENet[31]中提出的方法建模特征通道间的相关性,采用全局池化生成每个特征通道的权重,以提取最重要的分类特征。最后,考虑到当前广泛使用的ReLU激活函数对负值无响应,将其修改为最近提出的Swish激活函数[32],使得网络在具备ReLU优点的同时,当输入为负值时,仍能进行反向传播,从而训练出更鲁棒的分类模型。

2.3 实验方案

为了验证提出算法的有效性,本文将其与传统的SVM机器学习算法以及SegNet和DeepLab V3+两种常用的深度语义分割模型进行比较。

对于SVM[33]机器学习算法,根据文献[16]提出的方法,将遥感影像的可见光波段图像转换到HSI颜色空间中,并通过纹理滤波处理得到H-CLP、H-Ent、I-Cor、I-CLP、I-Ent、S-CLP和I-Var等7个输入特征,对农田作物进行分类。

对于SegNet、DeepLab V3+和本文方法3种深度学习模型,首先将数据集转换为标准数据集格式,然后下载公共数据集上训练好的开源预训练模型以增加深度学习的泛化性能和训练速度[34]。训练时根据模型损失及时调整超参数,并找到较优的初始值。最后,以训练好的模型预测测试集图像并计算准确率。

在本文改进算法中,选取NDVI、EVI、DVI、NDWI、ARVI 5种植被指数构建先验特征图模块,利用开源下载的ResNet 101模型作为预训练模型,并采用与DeepLab V3+相同的超参数进行训练,以加快训练速度。NDVI为归一化植被指数,EVI为增强植被指数,DVI为差值植被指数,NDWI为归一化水指数,ARVI为大气阻抗植被指数。

2.4 模型训练

本文深度学习运行硬件环境为Lenovo SystemX 3650 M5服务器,搭载NVIDIA Tesla P100显卡。操作系统为Ubuntu 16.04,采用Tensorflow深度学习框架构建网络;SVM运行硬件环境为Dell Precision Tower 7810服务器,软件环境为Matlab 2016b。

SVM类型选择为C-SVC,核函数类型为RBF函数。SegNet、DeepLab V3+及改进的DeepLab V3+模型采用分段常数下降法控制学习率,迭代次数为50 000次。其中SegNet初始学习率为0.001,批尺寸为6;DeepLab V3+以及改进的DeepLab V3+初始学习率为0.1,批尺寸为6,矩为0.9,权值退化率为0.000 4。

采用平均像素精度(Mean pixel accuracy, mPA)和平均交并比(Mean intersection over union, mIoU)作为分类结果评价指标[35]。

3 结果与讨论

3.1 试验结果

SVM方法和3种深度学习方法的试验结果指标如表1所示。其中,SVM、SegNet和DeepLab V3+的结果是针对3通道的可见光图像,而改进的DeepLab V3+的分类结果是针对融合5种植被特征的6波段多光谱图像。图3为4种算法在2019年无人机遥感影像预测集上的分类结果。

3.1.1人工特征与深度学习的比较

表1和图3的分类结果说明SVM的分类精度不高,分类效果呈现不连续的块状。而SegNet、DeepLab V3+和改进的DeepLab V3+等3种深度学习方法则表现出更高的分类精度及更为精细的分类效果。其中,SegNet和DeepLab V3+网络平均像素精度分别比SVM高12.41、15.19个百分点,本文方法则高SVM 17.75个百分点,获得了93.06%的最优分类效果。在运行速度方面,SVM能快速拟合适量样本数据,但预测速度较低。深度学习虽然训练模型时间较长,但其像素级的分类方法可直接输入整幅图像,因此预测效率更高。

表1 无人机遥感影像作物分类结果比较Tab.1 Comparison of crop classification results based on UAV remote sensing images

3.1.2深度语义分割模型比较

对比图3中3种深度学习方法的分类效果可以看出,SegNet和DeepLab V3+的预测结果均有较为明显的拼接痕迹,虽然农田覆盖整体分类正确,但仍存在较多细节错误。例如,1号试验田容易对玉米区域误检测,2号试验田对于稀疏的西葫芦地块识别准确度相对较低,并对部分向日葵地块识别错误。而改进的DeepLab V3+分类效果最优,mPA和mIoU指标均最高,误分类区域相对较少,且具有更少的噪声点,其混淆矩阵如图4所示,对3种作物和背景的像素精度均超过90%。这表明本文提出的融合植被指数的深度学习方法能够提高模型的特征提取能力和作物分类精度,并具有较好的泛化性能。从运行时间上来看,由于改进的DeepLab V3+模型输入除可见光信息外还包含近红外光谱数据和植被指数特征图,因此训练时间最长,但对预测集的运行时间却与DeepLab V3+接近。

3.2 讨论

3.2.1深度学习与传统方法的比较

本文采用的无人机多光谱遥感影像的时间及空间跨度较大、作物种类复杂,分类目标中包括了高冠层密度作物(玉米)、中等冠层密度作物(向日葵)以及低冠层密度作物(西葫芦)。研究区域盐碱化严重且程度分布不均衡造成植被长势复杂。2019年向日葵受多种因素影响,其长势与2018年同时期的向日葵差异明显。另外,从图3b中可看出,该时期的西葫芦和向日葵颜色特征差异较小,这些因素都对分类模型的泛化性能提出了更高的要求。

基于滑动窗口以及人工特征的SVM采用人工设计特征,是一种基于块的分类方法,受主观设计经验、特征分类能力以及实际作物空间分布等因素限制,适用于检测具有明显光谱特征差异的简单目标。对于低冠层密度或粗纹理特征的作物,固定的滑动窗口限制了SVM的感受野,使其更易受到背景影响。试验结果也表明SVM对冠层密度高的玉米分类效果相对较好,而对更为稀疏或冠层密度较低的向日葵和西葫芦,误分类则明显增加。特别是图3a中的向日葵长势更为稀疏,由分类结果可见,这对具有小感受野的SVM的预测精度影响更大。

深度学习感受野较大,并具备像素级的分类能力。大感受野使得深度学习模型既能识别简单目标,也能对稀疏特征目标很好地分类[36]。更深的层数能够提取高层语义特征,因而比单纯的人工特征能更好地表示目标。另外,在运行速度方面,虽然深度学习在构建模型时需要大量时间,但均以更少的预测时间获得了更高的分类精度,这使得训练好的深度学习网络更适合用于实际场景中。

3.2.2植被指数特征图模块对分类性能的影响

改进的DeepLab V3+模型根据波段运算绘制归一化的像素级植被指数分布图,并通过计算波段间权重自动选择对特定植被更有效的农田先验特征。由图5可见,DVI[37]对土壤背景变化较为敏感,对不同类型的作物区域都能较好地拟合植被覆盖度,因而适合区分土壤背景和农田作物;另外,在近红外波段,相对于向日葵,玉米的反射值较低,导致了后者的NDVI值比前者更低,说明NDVI能够较好地区分向日葵种植区、玉米种植区与背景区域。而对于其他区分度较低的植被指数,提出的算法则通过SE模块自动赋予较低的权重,减少其对分类性能的干扰。因此,模型中加入这些计算简便、特性稳定的植被指数特征图模块,对于基于深层特征提取的深度学习将起到一定补充作用。

3.2.3光谱特征对分类性能的影响

相对于可见光影像,6波段的多光谱影像提供了更丰富的信息。除用于构建植被指数外,近红外光谱信息对深度学习模型的性能也会产生影响。在不考虑植被指数特征图模块的前提下,利用本文方法测试不同近红外波段组合的遥感影像分类性能,结果如表2所示,其中,N1为波长720 nm的近红外通道,N2为波长800 nm的近红外通道,N3为波长900 nm的近红外通道。RGB与NIR试验组都只包含3个波段信息,其分类精度接近。为RGB影像增加1个近红外通道,分类精度会略有提升。而6通道的RGB_NIR试验组的mPA和mIoU指标分别达到92.12%和86.46%,略低于表1中加入植被指数特征图模块的最佳分类精度。因此,可认为影响模型分类性能的主要因素在于RGB通道与近红外通道所共有的纹理特征,通过增加光谱通道能够有效提高分类性能。

表2 不同波段组合的分类结果Tab.2 Classification results of experimental groups with different band combinations

从图5中可以看出,向日葵和西葫芦的光谱特征在冠层颜色和植被指数方面较为接近,因此增加波段对向日葵和西葫芦的分类效果提升有限。西葫芦与向日葵在纹理特征上具有较大的差异,如西葫芦相对更为稀疏且果实明显,因此纹理特征对向日葵和西葫芦分类影响最大。

4 结论

(1)针对包含不同作物和不同土壤环境的农田多光谱无人机遥感影像,将深度语义分割模型应用于农田作物分类。利用卷积神经网络端到端强大的特征学习能力,基于DeepLab V3+模型,通过修改输入层、融合多光谱信息和植被指数先验信息、并修改激活函数来优化模型,提出了一种改进的作物分类方法。与SVM分类方法和SegNet、DeepLab V3+两种代表性的深度学习方法相比,改进的DeepLab V3+模型获得了最优的分类结果,同时具有实时性。

(2)通过对比分析不同波段组合的多光谱遥感影像分类性能,发现三通道的可见光图像和近红外图像的性能相近,且具有更多通道数量的输入图像,能够得到更好的分类结果。试验结果表明,由于无人机遥感影像高分辨率的特点,农田作物的纹理特征是分类的主要依据,融合更多光谱信息和植被指数特征有助于提高分类性能。

猜你喜欢

植被指数光谱作物
覆盖作物及其作用的研究进展
基于三维Saab变换的高光谱图像压缩方法
基于3D-CNN的高光谱遥感图像分类算法
基于无人机图像的草地植被盖度估算方法比较
吉林省省级作物种质资源保护单位名单(第一批)
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
专题性作物博物馆的兴起与发展
地下作物
植被指数监测绿洲农区风沙灾害的适宜性分析
苦味酸与牛血清蛋白相互作用的光谱研究