基于神经网络的叶片等效水厚度高光谱反演
2023-03-16南宁师范大学计算机与信息工程学院曾远鹏钟雅婷
南宁师范大学计算机与信息工程学院 曾远鹏 钟雅婷
叶片等效水厚度(EWT)对植物水分状态评价具有重要意义,因此如何快速、准确、无损地检测叶片等效水厚度也具有重要的意义。高光谱数据可为检测植物中的叶片等效水厚度提供重要的手段。现有的研究主要集中使用各种机器学习方法来对叶片等效水厚度进行反演,这些方法往往需要对原始光谱进行光谱变换、特征选择、降维等一系列操作。本文采用神经网络的方法来建立叶片等效水厚度的反演模型。实验结果表明:在LOPEX93数据集中,使用神经网络的方法R2值与RMSE值分别达到了0.945与0.0012优于机器学习方法。
高光谱遥感又称成像光谱遥感,是将成像技术和光谱技术相结合的多维信息获取技术。高光谱遥感数据中包含了丰富的空间、辐射和光谱三重信息,具有重要的综合应用价值。近年来,随着成像光谱技术在航空遥感领域的快速发展,这项技术成为各个领域的重要监测方法,涵盖大气圈、海洋研究、植被生态、矿产地质、水体研究、军事侦察和考古研究等领域,其应用正在步入成熟期。特别的是,高光谱遥感[1]对植被的变化非常敏感,并能相当准确地反映这些变化,这为在大范围内估计植被的生理和生化参数提供了可能。基于植被反射高光谱的细微光谱差异分析在植被遥感研究领域显示出强大的优势,并已被广泛应用于农业生产监测中。虽然高光谱数据具有丰富的信息,但它有多个波段,且这些波段之间存在较高的相关性,这导致光谱信息冗余增加,导致反演结果失真,精度降低。因此,如何降低高光谱数据的维度,同时最大限度地保留光谱信息,已成为利用高光谱数据反演植被生理和生化参数的一个重要问题[2]。
目前主流的反演模型都是基于机器学习的,如决策树[3]、线性回归[4]、KNN[5]等。虽然它们在反演植被生理和生化参数方面取得了一定的成功,但是往往还需要进行光谱变换、去噪、降维等一系列预处理操作。数据的质量将对机器学习算法模型的质量好坏产生很大的影响。为了达到最好的性能,传统的机器学习算法流程中,很大一部分工作就是在对数据进行分析和处理。
深度学习是近年来一种先进的面向数据的分析方法,它可以被描述为一个表示由多层人工神经网络组成的非线性处理的模型,并使用了多个神经元。近年来,由于神经网络其强大的特征抽象能力,许多基于神经网络的方法在许多应用中取得了巨大的进展,如计算机视觉和人工智能。基于神经网络的方法可以允许多层次化、有效地学习目标数据的复杂、微妙、非线性和抽象表示[6]。因此,我们将神经网络应用到反演应用中,它可以自动的选择特征并得到好的输出表示以克服一系列预处理问题。虽然现有的研究大多集中在分类领域,但近年来神经网络模型在回归问题中的应用有所增加。
1 方法
本节主要介绍本文所使用的的数据集以及对其可视化分析。除此之外,我们还描述了本文所建立的神经网络结构。
1.1 数据集介绍
叶片光学特性体验93(LOPEX93)数据库是由欧洲委员会联合研究中心(JRC)于1993年建立的[7]。该数据集提供了各种植物的生化成分,其中包括木质素、叶绿素和叶酸、纤维素和淀粉等含量。我们使用其中45种不同的植物,共331个样本的反射光谱进行反演。其中,训练集与测试集我们划分为8:2。
1.2 数据可视化
为了更好地对数据进行可视化,我们对反射光谱中的所有样本的每个波段求平均值,然后进行数据的可视化最终得到如图1所示的光谱曲线。
其中,横坐标为光谱的波长,纵坐标为对光谱的反射率。由图1可以看出,当波长400~500nm波段之间的光谱曲线所包含的有用信息较少时,对植被光谱学的研究意义不大。同时,为了便于后续的数据处理,本研究删除了这部分的光谱数据,并对剩余的光谱数据进行了处理和分析。
图1 平均光谱曲线Fig.1 Average spectral curve
1.3 神经网络构建
神经网络模型通常由一个输入层、一个输出层和多个放置在它们之间的隐藏层组成,每一层都包含多个神经元。具体来说,我们的网络具有以下架构:一个输入层和三个隐藏层,分别包含2000、256、256和128个神经元,以及一个输出层,节点完全连接。使用Relu激活函数作为神经元的激活函数。所选择的损失函数和优化函数分别为MSELoss和Adam优化器,网络被训练为1000个Epoch。此外,Dropout[8]是一种正则化技术,在每个训练步骤中随机、暂时地去除固定比例的不同神经元及其各自的连接,也被用来避免训练数据上复杂的协同适应,从而减少过拟合。我们构建神经网络使用的环境为Windows系统下的Python+Pytorch,内存32G,显卡为2080TI。
2 实验
本节主要介绍我们进行对比实验的3种机器学习方法设置以及它们之间的性能对比,并作出了总结。
2.1 评价指标
本文以决定系数R2和均方根误差RMSE作为指标,评价各模型的预测能力。计算公式如式(1)、式(2)所示:
其中,n为样本数,yi和yj分别表示实测值和预测值。y-i和y-j分别表示实测值和预测值的平均值。其中,R2该值越高表示该模型的预测能力越强。RMSE数值越小,表示模型的实测值与预测值之间的偏差越小。
2.2 实验设置
我们实验比较的方法有线性回归、决策树以及随机森林[9]3个经典的机器学习模型,它们常被用于各种反演任务当中。为了防止训练出来的模型过拟合[10],我们在使用这3个模型时预先做了降维处理。我们使用PCA[10]算法对原始光谱数据进行降维。PCA是一种常用的数据分析方法,它通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。其中我们选取的主成分数为5,每个主成分都是原始变量的线性组合,彼此相互独立,这些主成分保留了原始变量中的绝大部分信息。这样将2000维的原始数据维度降至为5。各主成分的累计方差贡献率(Cumulative Variance Contribution Rate)如图2所示,横坐标代表着主成分,纵坐标代表着方差贡献率。
图2 PCA方差贡献率图Fig.2 PCA variance contribution rate
2.3 实验结果
我们使用LOPEX93数据集进行了对比实验,结果如表1所示。其中线性回归、决策树、随机森林的R2值分别为0.897、0.829、0.881,低于神经网络的0.945,而RMSE值分别为0.0023、0.0029、0.0024,高于神经网络的0.0012。由此我们可以得知,使用神经网络进行叶片等效水厚度反演与机器学习模型相比,具有较好的性能表现。
表1 对比实验Tab.1 Comparison experiment
3 结论
地面高光谱数据提供了数千个波段的详细植被反射率信息,这导致了在进行回归拟合出现维度灾难的问题。如何在保存有效的光谱信息的同时,提高预测模型的准确性是一个具有挑战性的问题。为了解决这个问题,本文使用神经网络进行叶片等效水厚度高光谱反演实验。与传统的机器学习的方法相比,神经网络不单可以省略降维步骤,还拥有优越的性能。在样本数量足够的情况下,使用神经网络进行植物生化参数的反演能实现很小的误差,对植物的动态管理具有重要的意义。
虽然本研究证实了神经网络技术的可行性,但不幸的是,由于神经网络的“黑箱”性质以及参与训练的网络模型有大量的层和神经元,预测模型的固有生物学机制难以理解。为了验证该模型在不同环境条件下预测叶片等效水厚度的有效性,本实验还需应用于更多的研究领域。
引用
[1]樊丽,黄云,张敏,等.高光谱遥感技术在果树研究中的应用[J].中国果树,2022(10):67-71.
[2]苏红军.高光谱遥感影像降维:进展、挑战与展望[J].遥感学报,2022,26(8):1504-1529.
[3]李怡静,孙晓敏,郭玉银,等.基于梯度提升决策树算法的鄱阳湖水环境参数遥感反演[J].航天返回与遥感,2020,41(6):90-102.
[4]王宏博,赵梓淇,林毅,等.基于线性回归算法的春玉米叶面积指数的冠层高光谱反演研究[J].光谱学与光谱分析,2017,37(5):1489-1496.
[5]蒋馥根.植被叶面积指数kNN优化方法反演研究[D].长沙:中南林业科技大学,2020.
[6]王泽坤.基于深度学习的数据处理与密度反演方法研究[D].长春:吉林大学,2022.
[7]CHEN M,WENG F Z.Kramers-Kronig Analysis of Leaf Refractive Index with the PROSPECT Leaf Optical Property Model[J].Journal of Geophysical Research:Atmospheres,2012,117(D 18):D18106-1- D18106-9.
[8]韦卓,李稳稳,林敏,等.基于Dropout深度信念网络的棉和涤纶含量的近红外光谱检测[J].光学学报,2021,41(17):197-203.
[9]杨丽萍,苏志强,侯成磊,等.基于随机森林的干旱区全极化SAR土壤含水量反演[J].吉林大学学报(地球科学版),2022,52(4):1255-1264.
[10]李昌元,刘国栋,谭博.基于PCA和KPCA的高光谱遥感数据降维对比研究[J].地理空间信息,2022,20(7):89-93+103.