基于无人机遥感的湿地松花青素含量预测
2021-11-18陶学雨李彦杰栾启福姜景民
陶学雨,李彦杰,栾启福*,姜景民
(1.中国林业科学研究院 亚热带林业研究所,浙江 杭州 311400;2.南京林业大学 林学院,江苏 南京 210037)
【研究意义】植物色素,尤其是叶绿素、类胡萝卜素和花青素在生物圈中具有极其重要的作用[1]。其中,叶绿素和类胡萝卜素是脂溶性色素,而花青素(Anthocyanidin)属于植物次生代谢产生的黄酮类化合物,是植物体内的一种水溶性色素[2-3]。广泛存在于植物的果实、花、茎和叶中的液泡内,据初步统计,27 个科,73 个属植物中含花青素[1-4]。由于其结构中R1 和R2 碳位上的取代基不同,形成了各种各样的花青素,植物中常见的花青素有6 种,即天竺葵色素(Pg)、矢车菊色素(Cy)、飞燕草色素(DD)、芍药花色素(Pn)、牵牛花色素(Pt)和锦葵色素(Mv)[2-3]。花青素的颜色受许多因子的影响,如低温、缺氧和缺磷等不良环境也会促进花青素的形成和积累。花青素功能多样,抗氧化性较强,不仅有助于叶片损伤修复[5],而且可以通过吸收光能而减少叶绿素对光的吸收,调节光合作用,从而起到光保护的作用[6]。因此,了解花青素含量的动态信息,可以间接了解植物的营养健康状况,为植物培育管理提供一种可靠的参考指标。【前人研究进展】近年来,无人机遥感反演方法估计植被生理状态已经取得了很大的进步,利用多光谱无人机的遥感反演方法具有快速、准确、环境友好和无损测量等优点,并具有放大到整个冠层及地理区域尺度的潜力,因此在林业植物生理状态检测、经营管理措施制定中有着巨大的应用潜力。现阶段大部分的研究集中在对叶绿素含量的反演估计[7-8],而对花青素含量的反演研究相对较少[9-10]。已有的研究发现湿地松针叶中有较高含量的花青素,通过选择对花青素含量敏感的绿光波段及其对叶绿素含量敏感的红光波段和降低叶片及冠层结构影响的近红外波段组合构建不同的光谱指数,例如调整花青素含量指数[11]、花青素反射指数[12]、调整花青素反射指数[13]等,进行植物叶片花青素含量的反演。【本研究切入点】湿地松(Pinus elliottii)原产美国,在我国已近百年的引种历史,在我国南方15 个省区广泛栽植,是我国重要的造林树种。当湿地松处于环境胁迫时,比如缺氮、低温、病菌感染等,湿地松松针可能会在生长过程中由绿色变为红色,甚至枯萎、死亡。当松针由绿色向红色转变过程中,叶绿素含量下降,而花青素含量增加[14]。因此,适时测定湿地松针叶中花青素含量对于了解湿地松生长生理状态具有重要的意义。目前,许多传统的实验室方法被用来测量植物组织中的花青素含量,例如有机溶剂萃取法、水溶液提取法[15]、超临界流体萃取法[16]、微波提取法[17]和超声波提取法[18]等。这些实验室方法结果准确,但是耗费大量时间,对环境造成影响的同时对叶片或组织也具有破坏性。【拟解决的关键问题】本研究以浙江地区湿地松苗为试验对象,利用便携式紫外-可见光荧光仪获取花青素相对含量数据,基于多光谱数据分析湿地松针叶光谱特征,利用PLS、SVR、BP 神经网络构建模型,最终确定湿地松针叶花青素相对含量的最优预测模型。最终期望利用无人机遥感技术实时预测湿地松针叶花青素含量,及时了解植株营养生理或逆境生理状况,从而进行科学培育管理,也可为高花青素含量湿地松资源高通量选择提供技术基础。
1 材料与方法
1.1 试验地和试验材料
研究区位于浙江省杭州市富阳区(119°57′E,30°03′N)。该区域位于长江中下游平原,属亚热带季风气候,冬冷夏热,四季分明;降水充沛,日照充足,气候温和湿润,垂直变化明显。年平均气温约为16.3 ℃,年平均降水量约为1 479.3 mm,年平均日照时数约为1 759.2 h,无霜期约为238 d。无人机作业区域位于中国林业科学研究院亚热带林业研究所露天试验苗圃(图1)。
图1 试验地所在位置Fig.1 Location of test site
试验材料来源于2018年利用国产湿地松种子园混系种子培育裸根苗,2019年移栽到直径20 cm、高30 cm的育苗容器中,2020年开始测定,测定时平均苗高50 cm,平均地径2 cm。
1.2 数据获取
1.2.1 花青素相对含量测定 MULTIPLEX RESEARCH 便携式紫外-可见光荧光仪可以同时测量叶绿素指数、花青素指数、类黄酮指数和氮平衡指数。花青素指数可以反映花青素含量的变化,因而本研究采用MULTIPLEX RESEARCH 便携式紫外-可见光荧光仪进行空气校准及蓝箔校准后,非破坏性地测量湿地松苗针叶的花青素含量,在生长旺盛的8月,每棵湿地松针叶冠层不同地方随机测量3次,求平均值后作为该株湿地松苗的花青素含量,共计177个样本数据,表1是所有样本的统计值。
表1 湿地松样本的花青素含量统计数据Tab.1 Statistical data of anthocyanin content in Pinus elliottii samples
1.2.2 无人机影像数据获取 无人机影像数据获取时间为2020年8月31日,选择上午09:00—10:00采集图像,天气晴朗无风,视野良好。本研究采用大疆精灵4 多光谱版(P4 Multispectral)无人机,机身搭载6 个1/2.9 英寸CMOS(图2),集成了1个可见光相机及5个多光谱相机(蓝光,绿光,红光,红边和近红外),设定航速3 km/h。飞行前进行指南针校正,垂直地面飞行,设置飞行高度为5 m,获取正射影像图。无人机和相机参数如表2和表3所示。飞行结束后,将覆盖试验区的影像导入DJI Terra 软件后进行拼接,然后进行几何校正、辐射定标、裁剪等预处理。再将校正处理后的影像转换格式导入ENVI 5.3软件中进行解译。根据地面测量对应的样点位置构建兴趣区(region of interest,ROI),以ROI范围内地物的平均反射率光谱值作为该样点湿地松冠层反射率光谱,得到177个样点对应的多光谱数据。
图2 大疆精灵4多光谱版Fig.2 DJI P4 Multispectral
表2 无人机部分主要参数Tab.2 Main parameters of UAV
1.3 植被指数选取
遥感图像的植被信息,一般是由绿色植物叶片和植被冠层的光谱特性及其差异性来反映的[19]。植被指数(vegetation index,VI)能反映绿色植被相对丰度和活性的辐射量值,可通过对多光谱单波段数据的线性或非线性组合构造[20-21]。此外,植被指数也反映植被在可见光、近红外波段的光谱反射率与土壤背景间的差异,因此,在一定条件下,植被指数可通过加强植物与土壤、大气、光照、视场角等干扰信息的反差,减弱干扰信息的表达,从而定量表达植被生态生理参数[21]。
本文选取5 个光谱值(RED、GREEN、BLUE、NIR、REG)以及与湿地松花青素含量较密切的9 种植被指数GNDVI、LCI、NDRE、NDVI、OSAVI、R/G、MACI、ARI 和MARI(表4),用于构建湿地松针叶花青素含量的预测模型。
表4 植被指数Tab.4 Vegetation index
1.4 建模方法
基于R Studio 软件平台,选用BP、SVR 和PLS 3 种算法分别构建湿地松针叶冠层花青素含量监测模型,并对结果进行比较分析。
1.4.1 BP 神经网络 BP 神经网络(back propagation neural network,BP)又称做反向传播网络,该算法都是多层感知机(通常都会有一个输入层、一个隐藏层及一个输出层),误差从输出结点反向传播到输入结点。训练网络权值时,沿着减少误差的方向,从输出层经过中间各层逐层向前修正网络的链接权值,通常可以快速收敛到令人满意的极小值[22]。
1.4.2 支持向量机 支持向量机(support vector machine,SVR)是一组用于分类、回归和异常值检测的有监督学习方法[23-24]。SVR 算法能在保证数据逼近精度的同时降低逼近函数的复杂度,对解决大样本、高维空间问题等方面具有很多优势[25],已经成功应用于光谱分析研究[26-27]。
1.4.3 偏最小二乘法 偏最小二乘法(partial least squares,PLS)是一种与主成分分析有关的统计方法,它不是寻找响应与自变量之间方差最大的超平面,而是通过将预测变量和可观测变量投影到一个新的空间,找到一个线性回归模型。由于X和Y数据都被投影到新的空间,PLS方法被称为双线性因子模型,可以有效地解决多元回归分析中的变量多重相关性及噪声问题[28]。
1.5 数据处理
1.5.1 数据预处理 本研究借助R Studio软件,对采集的177个样本数据进行随机抽样分为训练集和验证集,80%为训练集,20%为验证集,固定训练集和验证集样本数据,进行分析建模。利用R Studio 软件对所有已有的177 个样本数据进行数据处理,共5 种,第1 种Original(OG)不做处理,还有4 种分别做Standard Normal Variate(SNV)、blockScale(BS)、blockNorm(BN)、Detrend(DET)处理。
1.5.2 重要变量选择 利用R Studio软件对5种经过数据处理后的数据进行重要变量选择,分为一组不处理组,和分别用遗传算法与PLS回归相结合[29](ga_pls)、逆向变量消除[30](bve_pls)、正则化消除[31](rep_pls)、和显著多元相关算法[32](smc)4种变量选择方式处理,5种方法分别记作raw、ga、rep、bve、smc。
1.5.3 模型精度检验 每种模型建好后运用R Studio软件编写程序,让每种模型分别运行100遍后再进行模型精度验证。采用决定系数(coefficient of determination,R2)和均方根误差(root mean square error,RMSE)2个指标来评价各模型的拟合和预测能力。R2越接近1,RMSE 越小,表示模型拟合能力和预测能力越好,模型精度越高。指标计算公式如下:
式(1)(2)中:yi为湿地松花青素含量模型预测值;为湿地松花青素含量实测值;为湿地松花青素含量模型预测值的平均值;n为模型检验样本个数。
2 结果与分析
2.1 湿地松花青素含量与多光谱植被指数相关性分析
通过多光谱原始反射率与构建的植被指数,与花青素含量进行相关性分析。如图3 所示,NDVI、GNDVI、MACI、MARI 与花青素含量相关系数在0.4~0.6(P<0.01),较良好。其他指标与花青素含量线性相关性较小,因此,如果单一采用线性模型来预测花青素含量准确度较低。
图3 湿地松光谱参数与花青素含量相关系数Fig.3 Correlation coefficient between spectral parameters and anthocyanin content of Pinus elliottii
2.2 湿地松花青素含量建模结果
每个建模方法下由5 种数据预处理方法和5 种重要变量选择方法共组成25 种结果。每种建模方法经过运行100次后,不同数据处理方法的建模及验证结果如表5至表7所示。PLS、SVR、BP这3种模型在训练集中的R2和RMSE 的平均值分别为0.41(范围:0.32~0.51)和1.38%(范围:1.26%~1.49%),0.6(范围:0.42~0.7)和1.15%(范围:0.98%~1.71%)、0.1(范围:0.005~0.27)和1.6%(范围:1.31%~1.98%),在验证集分别为0.53(范围:0.32~0.64)和1.52%(范围:1.26%~1.86%),0.5(范围:0.34~0.61)和1.61%(范围:1.42%~1.82%)、0.13(范围:0.001~0.37)和1.79%(范围:1.5%~2.08%)。
表5 PLS建模方法下基于不同数据处理方法花青素含量的预测与验证结果Tab.5 Prediction and validation results of anthocyanins content based on different data processing methods under PLS modeling method
表6 SVR建模方法下基于不同数据处理方法花青素含量的预测与验证结果Tab.6 Prediction and validation results of anthocyanins content based on different data processing methods under SVR modeling method
表7 BP建模方法下基于不同数据处理方法花青素含量的预测与验证结果Tab.7 Prediction and validation results of anthocyanins content based on different data processing methods under BP modeling method
PLS建模方法下的最佳数据处理方法是SNV-ga组合,验证集的R2为0.64,RMSE为1.34%,相比较原始数据OG-raw 组合的R2为0.62 有所提高,RMSE 为1.39%有所降低,SNV-ga 组合精度提高。SVR 建模方法下的最佳数据处理方法是DET-bve组合,验证集的R2为0.61,RMSE为1.42%,相比较原始数据OG-raw组合的R2为0.53 有所提高,RMSE 为1.56%有所降低,DET-bve 组合精度提高。BP 建模方法下的最佳数据处理方法是SNV-raw组合,验证集的R2为0.37,RMSE为1.5%,验证集的R2为0.61,RMSE为1.42%,相比较原始数据OG-raw组合的R2为0.09有所提高,RMSE为1.79%有所降低,SNV-raw组合精度提高。
2.3 湿地松花青素含量预测模型
选择PLS、SVR、BP 3 种建模方法的最佳组合进行进一步比较。图4 绘制了PLS、SVR、BP 3 种建模方法的最佳组合:PLS-SNV-ga 组合,SVR-DET-bve 组合和BP-SNV-raw 组合的实测值和预测值的相关性图,误差条表示每个样本100 次的预测误差。比较3 种最佳组合,虽然PLS-SNV-ga 组合验证集的R2为0.64,略高于SVR-DET-bve 组合的0.61,RMSE 为1.34%也略低于SVR-DET-bve 组合的1.42%,但是PLS-SNV-ga 组合训练集的R2仅为0.51,与验证集0.61 的R2略有差距,可能存在过拟合现象,而SVR-DET-bve 训练集R2为0.66,与验证集相差不大且高于PLS-SNV-ga 组合训练集0.51 的R2,所以基于SVR 建模方法的DET-bve 组合是湿地松花青素相对含量的最优建模组合,训练集R2为0.66,RMSE 为1.05%,验证集R2为0.61,RMSE 为1.42%。变量去趋势化(DET)处理有利剔除无关信息变量干扰,可以增强模型的预测能力和稳健性。逆向变量消除具有全变量快速搜索的优点,可建立稳定、简便和预测能力较强的模型。与未经过数据处理的模型相比,采用逆向变量消除的变量选择方法处理过的模型所需变量数为全变量建模的1/3,这表明DET 算法能较大程度地去除干扰信息,提高模型的性能。
图4 湿地松花青素含量3种建模方法最佳组合实测值与模型拟合预测值比较Fig.4 Comparison between the measured values and the predicted values of the best combination of three modeling methods for the content of anthocyanins in Pinus elliottii
图5 绘制了PLS、SVR、BP 3 种建模方法的最佳组合:PLS-SNV-ga 组合,SVR-DET-bve 组合和BPSNV-raw 组合的残差值的比较。如图所示,当测量值较小时,这3 种模型都有低估的趋势。随着测量值的升高,预测值有预测过高的趋势。PLS-SNV-ga,SVR-DET-bve 和BP-SNV-raw 模型的残差值几乎都在-0.025~0.025。
图5 湿地松花青素含量三种建模方法最佳组合残差值比较Fig.5 Comparison of residual values of the best combination of three modeling methods for the content of anthocyanins in Pinus elliottii
3 讨论与结论
本文利用多光谱无人机低空拍摄幼龄湿地松苗,对其松针花青素含量进行建模分析,同时比较了PLS 模型、SVR 模型和BP 模型3 种建模方法,以及运用5 种不同的数据预处理方法和5 种不同的变量选择方法组合处理,从中选择出适合预测湿地松针叶花青素含量最优的建模方法组合。
光谱指数由于组合了不同波段的信息,从而能够增强反射光谱数据包含的信息,并且最小化各种散射模式的影响及噪声来源[33],在进行植被色素含量及其他生化成分预测时优势突出。过去几十年,多光谱遥感反演方法估计植被生理状态已经有了很多研究,但是许多的研究集中于对叶绿素含量的反演,例如田军仓等[34]基于无人机多光谱影像的番茄冠层SPAD 预测,确定了SVR 模型为最优模型,与本文最终结果相似;毛智慧等[7]基于无人机多光谱遥感影像的玉米冠层叶绿素预测,研究不同的线性模型对结果的影响。
而关于花青素含量的反演研究相对较少。前人关于玉米叶片花青素叶片的研究[14]发现基于已有光谱指数ARI 和MARI 建立的一元二次模型反演玉米叶片花青素含量时效果相对较好,R2最大可达到0.78。本研究最佳模型的验证集R2为0.61,相较之下模型精度比较低,进一步分析原因,可能是前人研究的玉米叶片为阔叶,测定花青素含量的玉米叶片应与采集光谱的叶片相同,并且测量位置也应保持一致,精确度高,而湿地松叶片为针叶,单叶面积极小,无法精准定位,所以采用湿地松整个冠层为单个样本,在整个冠层取多个点测量花青素相对含量取平均值,从而精确度降低。此外,湿地松针叶中花青素含量相对较低,属于中、低水平,而叶片叶绿素含量相对较高。此前有研究发现[35],在绿光范围,叶绿素和花青素对绿光吸收的重叠是发展花青素含量无损估计算法的主要问题。
湿地松叶片花青素含量遥感反演尚没有统一的标准模型,本研究从3 种建模方法及25 种数据处理组合中,最终确定了变量经去趋势化数据预处理和逆向变量消除的基于SVR 方法建模方法所得到的模型为最优模型(SVR-DET-bve),但是同种植物的最佳反演模型会因树龄、长势、季节、使用的传感器、种植地点的不同而不同。由于受到时间、设备、技术等多方面影响和限制,暂时未能取得更多时期的多光谱影像数据,本文所得的反演估测模型也限于本次所得结果。目前对低空无人机多光谱成像遥感在湿地松生理状态监测中的应用研究还处于探索阶段,多光谱影像中光谱信息的提取和利用、高精度实时地理坐标获取与记录等方面都需要更深入的研究。
本研究以苗龄3年的湿地松苗为实验对象建立模型来预测湿地松花青素含量,并对不同的建模方法进行对比,从而确定了一个最优模型。所得的反演估测模型因受限于苗龄、长势、季节、使用的传感器等条件,暂时不能在湿地松林地推广使用。因此,接下来还需要进行大量试验,将模型反演结果与实验室测定结果进行分析比较和验证,进一步提高模型的反演精度及普适性,目的是日后推广至大田试验,为利用多光谱无人机高通量估测湿地松林的花青素含量奠定基础。