APP下载

基于FC-DenseNet的低空航拍光学图像树种识别

2019-09-12林志玮涂伟豪黄嘉航丁启禄周铮雯刘金福

自然资源遥感 2019年3期
关键词:航拍树种植被

林志玮, 涂伟豪, 黄嘉航, 丁启禄, 周铮雯, 刘金福,4

(1.福建农林大学计算机与信息学院,福州 350002; 2.福建农林大学林学院,福州 350002; 3.福建农林大学林学博士后流动站,福州 350002; 4.福建省高校生态与资源统计重点实验室,福州 350002)

0 引言

为实现森林资源的可持续利用,必须对森林资源进行管理。森林资源调查是森林资源管理的重要内容。传统森林资源调查方式主要为人工实地调查,需耗费大量人力物力与时间。自动化树种识别技术的提出,提高了森林资源调查的速度及精度,并有效降低了调查成本。20世纪70年代,卫星遥感技术开始被引用于林业领域,使得准确、便捷地实现树种识别成为可能,但由于卫星图像的空间分辨率较低,无法精确识别小区域范围内各植被的分布,无法满足森林资源高精度调查的需求; 随着无人机技术的发展,低空航拍获取的无人机图像被引入了林业调查中[1-3]。由于森林结构是动态变化的,群落结构复杂多变,学者多利用无人机搭载高光谱成像设备获得树种的高光谱图像信息,进行树种识别[4-9],提高了树种识别精度。但高光谱图像包含众多光谱波段,导致数据冗余,使用时需要做降维和去噪处理,增加了数据处理的复杂度,因此,有学者利用无人机搭载高清数码相机,获取可见光遥感图像进行研究[10-11]。相较于高光谱图像,可见光图像仅含有红、绿、蓝3种波段,数据维度较少,对植被波段进行组合运算较为简单,使得波段信息预测不易造成信息冗余。

神经网络模型能够自适应地提取分类特征,有学者将其应用于可见光图像的植物叶片纹理与颜色特征的提取,进行树种识别[12-16],取得了较高的精度。但神经网络模型存在收敛速度慢的问题。除此之外,有学者基于面向对象分类方法提取树种类型,面向对象分类算法通过图像的光谱及质地纹理特征进行图像分割,增强分类对象的空间信息,缓解了传统基于像素分类存在椒盐现象的问题[17-18],但面向对象的植被分类算法难以应用于低空高空间分辨率的可见光图像: 一方面,在高空间分辨率可见光图像中,不同树种的树枝错综交错,背景混杂,纹理特征相似,而同种树种亮度不一致,基于纹理、亮度等特征分割的面向对象分类方法难以准确地分割每一树种并加以识别; 另一方面,面向对象分类算法的分类精度依赖于所选择的分割尺度,但分割尺度的难以确定使其在植被识别中存在明显的局限性。上述的分类方法不管是传统的基于像素分类还是基于面向对象分类,均在小数据集上得到了较好的分类效果,但不适用于大数据集的植被识别。卷积神经网络模型(convolutional neural network, CNN)是适用于大数据集的图像识别方法[19-22]。随着深度神经网络方法在图像识别领域取得重大发展,它开始被应用于树种的图像识别[23-27],提高了植物叶片的识别效果。CNN模型接受输入的每张图像仅能包含一类树种,但无人机航拍图像中每张图片一般包含多类树种,需经过大量人工处理才能输入网络进行训练,故CNN模型存在一定局限性,采用基于像素级分类的全卷积网络模型(fully convolutional networks, FCN)更为合适。

FCN[28]模型是围绕感受野进行设计的。感受野是指神经网络每一层网络层输出的特征图上的像素点在原图上映射的区域大小,因此FCN在基于像素分类的同时,还考虑到了图像的空间信息,在一定程度上克服了传统像素分类出现椒盐现象的难题。FCN网络没有全连接层,通过反卷积直接输出分割结果,随着网络结构加深,深层网络的局部信息逐渐减少,很难从深层网络直接反卷积得到精确的分类结果。DenseNet模型[29]可视为是CNN模型的拓展,其除了比CNN能使用更深的网络层之外,更通过对先前产生的特征图进行叠加,减少图像局部信息的损失,能较好维持深层网络的局部信息。因此,本文基于DenseNet模型和FCN模型,构建FC-DenseNet模型,设计Dense模块结构,融合及利用网络提取的浅层纹理特征、光谱特征,减少计算参数,并以福建省安溪县崩岗区为研究区,基于可见光图像进行树种识别,为林业资源调查提供新的思路。

1 研究区概况与数据源

安溪县位于福建省东南沿海区域,县域范围为E117°36′~118°17′,N24°50′~25°26′,属于中南亚热带海洋性季风气候区,年平均降水量为1 300~2 000 mm。该县地处闽东南花岗岩分布区,由于人为活动的影响,安溪县水土流失严重,其中崩岗区内侵蚀现象发育,亟须进行植被恢复[30]。

本文利用大疆INSPIRE 1 RAW 型号无人机搭载高清相机对安溪地区进行了航拍。相机型号为ZENMUSE X5R,尺寸为17.3 mm ×13.0 mm (高宽比4∶3 ),有效像素为1 600万,ISO范围为100~25 600,照片分辨率为4 608×3 456,航拍高度为离地20 m,为测得航拍图像的解析度,以A4纸在图像上的像素点数,测得的航拍图像解析度及测试图如表1和图1所示。

表1 航拍图像分辨率分析Tab.1 Tab.e of Aerial video resolution

图1 20 m高度航拍图像解析度测试图Fig.1 Test map of 20 m aerial image resolution

本文主要采用左右、上下镜像和逆时针旋转60°,120°,180°,240°,300°等方法,对航拍所得的图像进行增强,共计获得了6 336张图像。其中,训练集和验证集分别包含4 608张和1 728张图像,图像大小为864像素×576像素。图像增强示意如图2所示。根据《中国植被》[31]所提出的植被生活型将本次航拍树种类别划分为乔木、草本、灌木、蕨类、禾本植物和苔藓,考虑到当地同种植被的形态结构特征存在明显差异,且部分植被由于自然因素或人为因素导致枯萎,与正常植被在纹理和颜色上都存在明显差异,同时研究区内有较大面积的裸露地面,故又将类别细分为13类,即裸露地面、马尾松、枯萎马尾松、柠檬桉、幼年柠檬桉、芒萁、枯萎芒萁、石楠、孔雀豆、东方乌毛蕨、金银花、芒和苔藓。以图像每一像素点为分类单元,通过FC-DenseNet模型对每一像素点进行分类,各类别的训练数据量如图3所示,其中马尾松、柠檬桉和芒萁为研究区内优势树种。

(a) 原始图像(b) 左右镜像(c) 上下镜像 (d) 旋转60°(e) 旋转120° (f) 旋转180°(g) 旋转240°(h) 旋转300°

图2 图像增强示意图

Fig.2Imageenhancementschematic

图3 训练数据各类别像素点占比Fig.3 Proportion of pixels in each category of training data

2 研究方法

FCN用卷积层代替CNN模型的全连接层,通过反卷积操作还原至与原始图像大小一致的预测图像。Dense模块能重复利用先前产生的特征图信息,丰富深层网络的信息,因此,在FCN中嵌入Dense模块构建FC-DenseNet模型。FC-DenseNet模型网络主要包括Dense 模块、concatenation、上采样模块和下采样模块。FC-DenseNet通过Dense模块对树种图像进行卷积运算,运用concatenation结合Dense模块中各网络层的结果,采用下采样模块缩小数据维度,降低参数计算,通过上采样模块和Dense模块将多尺度融合的特征图扩大为原始图像大小,并采用Softmax分类进行分类,以此达到对图像各像素进行分类的效果。其框架如图4所示。

图4 FC-DenseNet模型框架Fig.4 Frames of FC-DenseNet

2.1 Dense 模块

Dense模块具有多层网络层,每层网络层均由批标准化(batch normalization,BN)、激活函数、3像素×3像素(以下省略“像素”)卷积核和Dropout组成,由于Dense模块将之前所有层的输出作为输入,计算参数大,因此在Dense模块中各网络层采用concatenation作为输入从而减少计算参数,concatenation是将Dense模块一层网络层的输出结果与前一层的网络输出结果进行融合,以concatenation来代替多层网络层的输出,其示意图如图5所示,图中c为concatenation。

图5 Dense模块示意图Fig.5 Sketch map of the Dense module

由于每一层的输出值都会随着网络运算发生变化,输出数据的分布发生偏差,因此可以通过BN[32]进行特征标准化,平衡神经网络层输出的分布,解决CNN层数太多导致无法有效前向传递的问题。ReLU激活函数收敛速度快,计算参数少,为网络模型引入了非线性因素,从而提升了神经网络模型的表达能力。其函数定义为输入值大于0时,输出原值; 否则为0。激活函数运算后进行3×3的卷积运算,即利用卷积核对图像特定区域进行矩阵运算,提取图像的纹理特征和光谱特征。 为防止模型过拟合,在Dense模块中加入Dropout。Dropout是指在深度学习网络训练过程中,对于某些神经元,以一定概率抑制其激活,被抑制神经元可在测试时重新激活,增强模型的泛化能力。

2.2 下采样模块

下采样模块由BN,ReLU,1×1卷积核,Dropout和2×2的最大池化层组成,其中最核心的部分为最大池化层,即以图像一个区域上的某个特定特征的最大值来代表这个区域的特征,归纳了一个区域内的特征输出,在减小图像维度的同时,避免了维度下降所导致的信息损失,增强了网络提取的特征信息。

2.3 上采样模块

上采样模块是由3×3的反卷积组成。反卷积是卷积的逆过程。由于图像经过下采样运算,图像维度变小,为实现像素级的语义分割,需经过反卷积将缩小的特征图还原至与原始图像大小一致的预测图。与非线性插值不同,反卷积中引入了学习参数,进而提高了反卷积的性能。

2.4 多尺度融合结构

FC-DenseNet通过上采样特征图,并且与浅层Dense模块提取的特征串联,生成新的Dense模块的输入。为避免参数量过大,仅采用Dense模块中最后一个concatenation的结果,再与上采样特征图进行融合,融合后经过Dense模块运算,继续融合其他浅层特征信息进行上采样,最后经过Dense模块和卷积运算获取与原图大小一致的预测图。其示意图如图4所示。

2.5 感受野

可见光图像经过卷积和下采样后产生维度缩小的特征图像,每一特征图像的像素点均为原始图像某一区域的映射,感受野即衡量特征图像上的一个像素点到原始图像的映射大小,其示意图如图6所示 。 2×2卷积层、3×3卷积层和原始图像间均存在着信息映射关系,通过多层卷积和下采样后,FCN最后一层特征图上的每一个像素高度映射着原始图像的区域信息,增强了空间信息,有效克服了基于像素分类存在的椒盐现象的难题。

图6 感受野示意图Fig.6 Sketch map of receptive field

2.6 整体架构

在FC-DenseNet模型中,可设置成多个Dense模块、下采样模块和上采样模块,因此不同个数的Dense模块、下采样模块和上采样模块,使得FC-DenseNet模型具有不同的网络深度。以FC-DenseNet-56和FC-DenseNet-103为例[33],其网络设置如表2所示。在FC-DenseNet-56模型中,每一个Dense模块均有4层网络,共计有56层网络层; 而FC-DenseNet-103模型其Dense模块的网络层数更大,其总层数也更大,总计有103层网络层。

表2 FC-DenseNet网络结构Tab.2 Tab.e of FC-DenseNet network structure

注: DB为Dense模块; TD为下采样模块; TU为上采样模块。

2.7 分析指标

常见的语义分割的精度评估主要采用4种度量指标,分别为: ①像素点正确率(pixel accuracy, PA),指分类正确的像素占总像素的比例; ②平均正确率(mean pixel accuracy, MPA),指平均所有类别中被正确分类的像素比例; ③平均IU指数(mean intersection over union, mIoU),指正样本被分为正样本的像素点数与被分类成其他类别像素点数之比; ④加权IU指数(frequency weighted intersection over union, fIoU),在平均IU指数上考虑各类别出现的频率,以每一类出现频率作为每一类别的权重计算平均IU指数。令nij为类别i的被预测为类别j的像素数量,ncl为类别数,ti为第i类像素数量,则各度量指标的计算公式分别为

(1)

(2)

(3)

(4)

(5)

3 结果及分析

为了分析不同网络深度对模型的影响,基于研究区无人机航拍光学图像,分析FC-DenseNet-56和FC-DenseNet-103植物识别精度差异,确定最优模型,并基于最优模型探讨数据种类增多对识别准确率的影响。实验采用tensorflow深度学习平台,基于CPU为Intel i7-7700K 4.2 GHZ、GPU为GeForce GTX1070、内存为32 G的ubuntu系统运行。实验的模型学习率设置为10-4,即每次迭代调整神经网络权重的速度为10-4,每次输入4张图像更新一次权重,设置迭代次数为115 200,每张图像训练次数为100次,即epoch为100,同时将图像大小缩小为224×224。

3.1 不同模型的分类

为分析不同网络深度的FC-DenseNet模型的分类效果,讨论FC-DenseNet-56和FC-DenseNet-103识别植物和非植物的结果。分别基于研究区航拍图像数据集建立FC-DenseNet-56和FC-DenseNet-103模型,并采用adam优化算法在数据训练过程中更新神经网络的权重。在训练中,通过降低交叉熵(loss)使模型训练收敛,2个模型训练过程中的loss值见图7。

图7 模型训练loss值Fig.7 Graph of training loss

FC-DenseNet-103和FC-DenseNet-56的loss均在epoch=2时下降最快,达到0.25左右,但2个模型的收敛速度有所不同,FC-DenseNet-56模型的训练速度在epoch=2时趋于收敛,而FC-DenseNet-103模型在epoch=90时逐渐收敛,收敛速度相对较慢,loss值不再发生变化。2个模型均能在epoch=100时收敛,其分类效果如图8和表3所示。

(a) 原始图像 (b) FC-DenseNet-56模型 (c) FC-DenseNet-103模型分类结果分类结果

图8 不同模型分类结果示例

Fig.8Graphofdifferentmodelsclassification

表3 不同模型的分类结果评估


Tab.3Classificationresultsfordifferentmodels(%)

模型PAMPAmIoUfIoUFC-DenseNet-5691.762.641.688.1FC-DenseNet-10392.163.744.988.7

由表3中统计结果可知,在各项指标上,FC-DenseNet-103模型的PA高达92.1%,MPA为63.7%,mIoU为44.9%,fIoU为88.7%,FC-DenseNet-103模型的识别效果均优于FC-DenseNet-56模型。由此可见,网络深度的增加会提高模型的识别效果。这是因为网络深度的增加使得模型提取的纹理特征和光谱特征更为泛化; 同时,由于FC-DenseNet模型中的Dense模块会不断结合浅层的信息,并且在反卷积的融合结构中加入了Dense模块进行训练,使得模型在反卷积时可以通过Dense模块进行增强,提高了模型反卷积的精度,解决了随着网络深度加深而导致局部信息量减少的问题。因此,本文选择FC-DenseNet-103模型进行实验。

3.2 优势树种的识别

在林业应用中,信息调查不仅仅是需要植物与非植物的分布信息,更需要优势树种的分布信息。因此,将研究区内的植物与非植物细化为13类; 其中主要优势树种有马尾松、柠檬桉和芒萁,3种植被均在植被恢复中起到了重要作用,识别并探测其覆盖强度有助于植被恢复。在数据集中,3种优势树种的面积占比分别高达40.58%,20.73%和18.86%,合计占数据集总面积的80.17%。基于研究区无人机20 m航拍高度图像所建立的FC-DenseNet-103模型的分类正确率和分类效果如图9和图10所示。

图9 FC-DenseNet-103优势树种的分类正确率Fig.9 Classification of FC-DenseNet-103 dominant species

(a) 原始图像1 (b) 标准图1 (c) FC-DenseNet预测图1(d) 面向对象算法预测图1

(e) 原始图像2 (f) 标准图2 (g) FC-DenseNet预测图2(h) 面向对象算法预测图2

(i) 原始图像3 (j) 标准图3 (k) FC-DenseNet预测图3 (l) 面向对象算法预测图3

图10 优势树种的分类效果

Fig.10Schematicdiagramofclassificationeffectofdominanttreespecies

随着类别细化,图像更为复杂,影响着模型的识别效果; 在数据集中,由于优势数种数据占比大,其他类别的数据占比极小,模型很难从中提取足够的有效分类特征。因此,本文重点分析优势树种的识别效果。从图9中可以看出图像中大部分优势树种均能被正确分类。马尾松、柠檬桉和芒萁的MPA分别高达到79%,70%和78%。但从总体上看,将类别细化后,FC-DenseNet-103模型分类效果低于植被与非植被的识别效果,这是由于随着类别的细化,其数据信息更为复杂,当类别分为植被与非植被时,其纹理特征和光谱特征区分度较高,当类别细分为13类时,植被与植被间的纹理特征和光谱特征区分度降低,各植被相互交错,很难界定各植被的界线; 并且,树种种类的增加提高了数据的复杂度,增加了模型的分类难度,分类效果也会随之下降。但在类别细化的情况下,FC-DenseNet-103模型均能准确地识别优势树种的空间分布信息。

3.3 不同模型的比较分析

基于面向对象的分类算法广泛应用于遥感图像植被识别,并取得较高的分类精度,为验证FC-DenseNet-103模型在可见光遥感图像的分类效果,将其与面向对象植被分类模型进行比较。面向对象分类实验,利用ENVI 5.3并选择最优分割参数,测试最优分类算法为K-最邻近算法,随机抽取20张验证集进行验证,其MPA如图11所示。

图11 基于面向对象算法优势树种的分类精度Fig.11 Classification accuracies of the object-basedalgorithm for dominant tree species

基于面向对象分类算法对于马尾松、柠檬桉和芒萁的MPA分别为78%,66%和63%,基本能够准确识别优势树种。但在高空间分辨率的可见光遥感图像中,由于背景复杂,存在裸地、裸石、苔藓等,且各类树枝纵横交错,导致同种树种在可见光图像下的亮度和纹理不尽相同,采用分割算法难以对整个树种进行准确分割,在植被识别结果中存在严重的椒盐现象。因此,在高空间分辨率的可见光图像上,FC-DenseNet-103模型的分类效果优于基于面向对象分类算法。

4 结论

基于福建省安溪县崩岗区无人机航拍光学图像建立FC-DenseNet模型,探测各植被类别与空间分布信息。实验表明: FC-DenseNet-103在研究区优势树种分类任务中识别精度很高,马尾松、柠檬桉和芒萁这3类优势树种精度分别为79%,70%和78%,为低空航拍高空间分辨率光学图像的树种识别提供了新的思路。基于本次研究尚存在的不足,今后将在以下方面对模型进行改进:

1)在本实验中,模型训练采用的是尺寸为224×224的输入图像,且通过图像增强使图像总数量达到6 336张,但数据量仍不足。未来将增加数据集的数量,基于更多的数据,更大的图片尺寸,来提升分割效果。

2)FC-DenseNet模型分割结果在边缘存在一些噪声,树种的边界难以准确界定,未来将通过降低噪声来进一步提高FC-DenseNet模型的预测精度。

猜你喜欢

航拍树种植被
基于植被复绿技术的孔植试验及应用
航拍下的苗圃与农场
难忘的航拍
常绿树种在新疆的应用现状
绿色植被在溯溪旅游中的应用
《航拍中国》美得让人想哭
陕西画报航拍
城市绿化树种选择,只顾眼前你就输了
一个树种的国家战略
基于原生植被的长山群岛植被退化分析