APP下载

基于卷积网络的沙漠腹地绿洲植物群落自动分类方法

2019-02-15尼加提卡斯木师庆东刘素红比拉力依明

农业机械学报 2019年1期
关键词:训练样本卷积精度

尼加提·卡斯木 师庆东 刘素红 比拉力·依明 李 浩

(1.新疆大学干旱生态环境研究所, 乌鲁木齐 830046; 2.新疆大学绿洲生态教育部重点实验室, 乌鲁木齐 830046; 3.新疆大学资源与环境科学学院, 乌鲁木齐 830046; 4.北京师范大学环境遥感与数字城市北京市重点实验室, 北京 100875)

0 引言

植物群落是土地基本属性的综合指标:特定的气候、土壤和地形条件发育了不同的植物群落,植物群落则综合反映了土地的基本属性[1]。因此,植物群落的整体状况综合体现了国家的生态本底,是生态恢复和生态建设以及制定土地利用政策的重要依据。充分认识植物群落的重要性和它的价值是开发、利用和保护生物资源的前提,也是生态学、环境科学和地理学等相关学科发展的需要[2]。

植物群落分布区域的获取手段主要包括地面实际测量和遥感技术。其中利用遥感技术获取植物群落的方法通常是基于光谱特征,主要利用红光波段(吸收特征)和近红外波段(反射特征)及中红外波段(水吸收特征)等。肖海燕等[3]在光谱特征分析和地面调查的基础上,采用决策树和高光谱分析组合,进行了红树林群落信息提取研究。杜欣等[4]在植物群落野外调查的基础上,利用高分辨率Pléiades影像,结合光谱、地形及纹理信息,通过投影寻踪学习网络的方法,实现了植物分类。而高空间分辨率遥感影像的地物几何结构和纹理信息明显,便于认知地物目标的属性特征,在提取地面信息、植被信息等方面,具有较强的识别能力,可提供更多有效的空间数据信息,实现高空间分辨率遥感影像植物群落的识别研究[5]。

随着无人机技术的发展,其在植被覆盖度研究中也得到了充分应用。但在无人机遥感数据中,包括了大量的RGB三通道图像,受限于光谱信息不够充足,使得利用该类数据进行图像分类的精度提升困难[6]。特别是植物群落在可见光波长范围内的光谱特征较为相似,加大了不同植物群落目标区域的提取难度,采用传统的、基于像素的、只利用光谱信息的遥感图像处理方法很难有效提取不同植物群落目标区域[7]。卷积神经网络(CNN)是一种具有深度学习能力的人工神经网络系统[8]。与传统的图像分类方式不同,卷积神经网络不需要针对特定的任务对图像提取具体的手工特征,而是模拟人类的视觉系统对原始图像进行层次化的抽象处理来产生分类结果。该方法采用局部感受野、权值共享和空间采样技术,使得网络训练参数相比于神经网络大大减少,具有适用性强、特征提取与分类同时进行、泛化能力强、全局优化训练参数少等优点[9]。

由于无人机影像数据往往具有较高的空间分辨率,从计算机视觉角度出发,利用图像理解与识别方法,对目标区域进行提取,将其从背景中分离出来,是另一种行之有效的方法。目标的特征是区分目标与背景的重要依据[10]。目标特征来源于图像信息,包括光谱信息、形状信息、纹理信息和上下文信息等。因此,根据图像信息结合目标本身特点选择合理的提取方法是目标提取的关键所在[11]。

研究区柽柳目标区域具有成片分布特点,胡杨具有一定的高度且存在阴影部分,枯枝光谱与沙漠光谱在可见光波长范围内具有较高的相似性,是典型的面状地物目标提取易混淆问题。针对研究区不同地物类内特征复杂、类间边界模糊的特点,以连续分布区域为研究对象,本文提出一种利用卷积神经网络(CNN)自动获取图像块状特征来提取不同植物群落分布区域的方法。

1 数据与方法

1.1 研究区概况

研究区位于世界第二大沙漠塔克拉玛干大沙漠腹地的达理雅博依乡,是一块被中外考古探险家称为“世外桃源”的绿洲,因其与世隔绝、交通不便而保留了绿洲原始状态[12]。达理雅博依是克里雅河下游流域的统称,汉语译作“大河沿”,该地区纵伸塔克拉玛干大沙漠腹地250 km,南北长365 km,东西宽96 km,总面积2 326.98 km2,地理位置为38°16′~38°37′N,81°05′~81°46′E,海拔为1 100~1 300 m,气候十分干燥,风沙频繁,年降水量14 mm,蒸发量约1 600 mm[13]。常见的植被为胡杨(PopuluseuphraticaOliv.)、柽柳(TamarixchinensisLour.)、芦苇(Phragmitescommunis)等,主要靠地表水及地下水生存。研究区地理位置及无人机航拍区域见图1。

图1 研究区地理位置及UAV航拍区域Fig.1 Study area location and UAV aerial photography area

1.2 数据来源

实验所用数据为无人机影像数据,无人机类型为SV360型固定翼无人机,搭载Sony A7R型相机,拍摄时间为2018年8月24日,地点为达理雅博依绿洲内部,研究区内植被类型为林地,地势较为平坦,研究区UAV影像分辨率0.05 m,飞行高度100 m。无人机参数与相机参数如表1所示。

图2 VGGNet网络结构示意图Fig.2 VGGNet network structure diagram

1.3 深度卷积神经网络

卷积神经网络基本结构可分为4部分:输入层、卷积层、全连接层和输出层。其中卷积层包括卷积层和池化层(下采样层)两部分[14]。对于小样本数据,相比较于初始化训练网络,以预训练网络为基础进行参数训练与网络优化,在效率与效果方面都会有很大改善。VGGNet网络是在AlexNet网络的基础上发展而来的,其主要贡献在于使用非常小的3×3卷积核进行网络设计(图2),并且将网络深度增加到16~19层[15]。

表1 无人机及相机参数Tab.1 Detailed parameters of UAV and camera

VGGNet模型不仅在大规模数据集上的分类效果较好,其在其他数据集上的推广能力也出色。ResNet50是在ImgeNet数据集上取到较好分类效果的CNN网络,采用预训练网络作为本文的方法模型。ResNet50是在现有训练深度网络基础上,提出的一种减轻网络训练负担的残差学习框架,其更容易被优化,并且可以在深度增加的情况下让精度也增加[16]。ResNet50中包含了49个卷积层和1个全连接层(图3)[17]。

1.4 研究方法

本文通过对无人机影像的规则切分获取小图像块并构建实验数据集,分别为训练/验证样本集和测试数据集,包括胡杨、柽柳、沙漠、阴影、枯枝等目标样本(图4);利用基于CNN的VGGNet模型与ResNet模型对训练/验证样本集中的小图像块的图像特征进行抽象与学习,以自动获取图像块深层特征,并得到优化后的网络模型;本研究的深度卷积网络选用ResNet50和VGG19两种深度算法,总体分类流程如图5所示。之后对测试数据集进行分类,得到目标提取结果,并利用抽样法进行精度验证。

图3 ResNet50网络模型的整体结构Fig.3 Overall structure of ResNet50 network model

图4 研究区无人机影像及景观图Fig.4 UAV image and field photos in study area

图5 深度卷积网络自动分类流程图Fig.5 Flow chart of automatic classification of deep convolution network

1.4.1数据集构建

对影像进行规则切分获取小图像块的方法有别于面向对象的分割方法。由于地物类内特征复杂、类间边界模糊,若以自然地物边界进行分割需要较大的计算量,分割效果也受到一定限制。考虑到目标成片分布的面状特征,根据影像空间分辨率与地物目标大小,选择合适尺度对影像进行规则切分,以反映连续分布区域的小图像块为研究对象。将切分得到的小图像块作为实验数据集,以待学习与提取图像深层特征。从中随机选择一定数量的数据作为训练/验证样本集,剩余数据作为测试数据集。通过对小图像块特征的提取来进行识别,以识别得到的图像块组合达到对目标区域的提取。

1.4.2分类精度验证

在得到提取结果后,采用抽样法进行精度验证。为保证抽样点在图像上均匀分布,利用系统抽样法进行样本抽样,即确定抽样间隔后,在第一间隔内随机选择一个样本,再依次加上抽样间隔后得到后续样本。通过人工解译目视判读、判断抽样样本的类别正确性,得到提取结果精度。

2 结果与分析

2.1 植物群落数据切分

结合无人机影像的分辨率及不同地物目标区域特点,为了保证规则小图像块的均一性并提高方法效率,对影像的切分尺度固定在10像素,即切分获得的小图像块尺寸为10像素×10像素,实际地面尺寸为50 cm×50 cm。通过块提取软件(Extract-Interface V1.0)按固定尺度规则切分,每幅影像均可获得10 000幅小图像块数据。本研究主要目标类为胡杨、柽柳、阴影、枯枝、沙漠,结合地物不同纹理特征与结构,本文提供了UAV影像数据集各地物类别示例(表2)。

2.2 分类结果分析

利用不同训练样本数量的4种方案,结合基于CNN的VGGNet与ResNet模型将研究区典型植物群落及其他地物进行自动分类。图6和图7分别展示了2种深度算法(ResNet50和VGG19)以不同方案对无人机影像上典型植物及其他地物区域的提取结果。从提取结果看,不同数量的训练样本在提取效果上具有一定的差异,随训练样本增多模型对数据的泛化能力有明显增强。选取不同的训练样本作为VGGNet和ResNet模型的数据集,深度学习过程对地物的识别差异较大。对分类结果以目视判读分析发现,训练样本为50个时,胡杨、柽柳和沙漠的识别程度比较好,而对阴影区域的分类偏多,识别程度较低(图6a、7a)。选取200个训练样本作为模型的数据集,深度学习的过程中对地物的识别精度明显提高(图6d、7d)。由此可得,随着训练数据集的增多,枯枝目标区域明显降低,能更好地识别目标区域。通过2种模型的比较,基于CNN的ResNet50模型充分发挥了其性能,能更好地克服地物类别复杂性,该模型具有较好的植物群落提取效果。

2.3 基于不同训练样本的地物提取面积变化

根据本研究设定的不同训练样本数量(50、100、150、200),基于CNN的2种模型(ResNet50和VGG19)随着训练样本数量的变化,提取的地物面积也会不同(图8)。训练样本数量从50变到200时,沙漠面积总体为上升趋势,ResNet50模型提取结果在44.71%~59.01%范围内,VGG19模型提取结果在47.89%~52.57%范围内。枯枝、阴影面积总体呈下降趋势,ResNet50模型提取结果分别在12.43%~26.63%、12.41%~19.15%之间,VGG19模型提取结果分别在10.86%~19.98%、14.41%~19.35%之间。结合建模精度分析发现,随着训练样本的增多,深度学习方法对地物的自动分类精度不断提升,能够准确地提取地物面积。

2.4 分类精度验证

通过深度学习得到自动分类结果后,利用系统抽样法对分类结果进行精度验证。利用随机切割软件(Extract-Interface V1.0)对分类后图像进行均匀采样,共抽样400×9个块图(图9)。选择样本后通过人工解译目视判断确定其分类的正确性,最终统计得到分类结果精度。

从精度验证结果可以看出,基于CNN的自动提取图像特征的方法在细致分类方面具有一定的潜能,特别是在测试阶段,可以反映出CNN方法对数据具有较强的泛化能力。结合不同训练样本数量分析发现,基于CNN的VGGNet模型精度随着训练样本数量增多而不断提升,ResNet50模型与VGG19模型的建模精度从86.00%、83.33%分别提升到92.56%、90.29%,ResNet50模型分类精度为83.53%~91.83%,而VGG19模型分类精度为80.97%~89.56%,如表3所示。从而得知,模型的分类精度与适当的训练样本数量之间具有一定依赖性。

表2无人机影像数据集各地物类别示例
Tab.2UAVimagedatasetexamplesofvariousgroundobjects

图6 基于不同训练样本数的ResNet50模型自动分类结果Fig.6 Automatic classification results of ResNet50 model based on different training samples

图7 基于不同训练样本数的VGG19模型自动分类结果Fig.7 Automatic classification results of VGG19 model based on different training samples

图8 不同训练样本数提取的地物面积Fig.8 Ground object area obtained from different training samples

对分类结果分析发现,训练样本数量不低于200时,基于CNN的ResNet50模型表现出最佳的分类结果,对研究区不同地物的训练样本选取200个,则可达到研究区不同地物的高精度分类结果。

图9 自动分类结果精度验证Fig.9 Automatic classification accuracy verification

模型训练集数量建模精度/%验证集准确量分类精度/%ResNet505086.0010085.6015087.4320092.56400×9308585.69300783.53309585.97330691.83VGG195083.3310082.8015088.2020090.29400×9295181.97291580.97316787.97322489.56

3 讨论

本研究以沙漠腹地绿洲植物群落为研究对象,利用深度卷积网络方法对不同植物群落进行高精度分类。为提高不同植物群落提取面积及分类精度,通过改变训练样本的数量逐渐完善基于CNN的VGGNet和ResNet模型的稳健性,为后期沙漠腹地绿洲植物群落区域尺度高精度分类及快速提取选取了有效的模型。同时为了体现深度卷积网络方法在植物分类中的应用,将本研究分类结果与传统的6种监督分类方法进行了对比,监督分类精度及结果如图10所示。结合监督分类方法精度及提取面积分析发现,监督分类最高精度可以达到84.3%,Kappa系数达到0.78;与深度学习方法相比,支持向量机模型对胡杨的提取面积相对较少,而对柽柳提取面积偏多,导致不同植物群落的边界较模糊。不同的监督分类方法提取的不同地物结果具有一定的差异,其中支持向量机分类结果更接近于深度学习分类结果(图11)。

图10 传统的方法提取地物面积及精度统计Fig.10 Ground object area and overall accuracy obtained based on traditional methods

图11 基于传统方法提取不同地物结果Fig.11 Results of extracting plant communities areas based on traditional mathods

基于CNN分类方法存在监督学习问题,需要大量的标记数据作为训练样本参与模型训练与特征学习。而遥感影像分类处理过程中,由于数据采集的有限性和人工标记的“高成本”,使得有标签的训练样本数量较为有限,是一个典型的小样本学习问题[18]。对于深度较深的CNN网络模型在海量数据集(ImageNet)上有优异的表现。但在针对特定类型遥感数据进行处理时,由于有限的样本不能很好地刻画数据的总体分布特征,导致训练所得到的网络模型分类性能会受到不同程度的影响,降低其泛化能力[19-20]。本文采用预训练模型(ResNet和VGGNet),设置不同数量的训练数据集,通过比较基于不同数量的训练样本对模型的泛化能力,使得网络模型参数的训练更合理,解决了由于训练样本数量少导致模型训练不充分的问题。本文考虑了因图像切分尺度导致地物类别混淆的问题,不同切分尺度下的目标区域提取精度和面积有一定的差异,随着切分尺度增大,规则小图像块地物类别混淆过多,分类精度降低,提取目标区域面积过大;然而切分尺度过小,实验效率较低,人工解译目视判读不易识别各规则小图像块类别。因此,选择规则小图像块的切分尺度为10像素较为合理可行。

4 结论

(1)影像规则切分尺度需考虑影像分辨率与待提取目标地物大小,本文为保证规则小图像块均一性和方法效率,选择切分尺度为10像素。

(2)基于CNN的ResNet50模型表现了最佳性能,训练/验证数据集建模精度最高,达92.56%,测试数据集分类精度最高,达91.83%,分类结果较好,为利用无人机数据进行区域内植物群落目标区域提取提供了一种有效的方法,为植被覆盖度估算方法研究、水土保持和土壤理化性质研究以及森林火灾和生态环境研究提供了有力支持。

(3)通过对比传统的人工选取图像特征的方法和基于CNN自动提取图像特征的方法,可以看出CNN方法在提取结果的精度和对数据的泛化能力方面均有较大的优势,同时在地物复杂性问题上,CNN方法仍表现出较好的提取结果。

猜你喜欢

训练样本卷积精度
热连轧机组粗轧机精度控制
基于3D-Winograd的快速卷积算法设计及FPGA实现
人工智能
卷积神经网络的分析与设计
从滤波器理解卷积
基于DSPIC33F微处理器的采集精度的提高
基于傅里叶域卷积表示的目标跟踪算法
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
以工匠精神凸显“中国精度”