基于随机森林回归的油菜叶片SPAD值遥感估算
2019-03-05由明明常庆瑞田明璐班松涛余蛟洋张卓然
由明明,常庆瑞,田明璐,班松涛,余蛟洋,张卓然
(西北农林科技大学资源环境学院,陕西 杨凌 712100)
叶绿素是植物与外界进行能量交换的重要物质,由于叶绿素与叶片氮含量之间存在着较好的相关性,因此可以表征植物的营养状况[1-2]。高光谱技术具有光谱范围广、波段多和数据量大等优点,可以用来对农作物叶片和冠层生化组分进行监测[3]。近年来,国内外学者对利用高光谱数据监测植物叶绿素含量方面做了大量研究,Dash.J等[4]利用MERID数据提取出的对高叶绿素含量敏感的MTCI指数来反演叶绿素含量;Gitelson[5]选择玉米和大豆为研究对象,利用冠层反射率的倒数建立了冠层叶绿素含量的估测模型;Broge等[6]分析不同氮素水平下的小麦冠层光谱数据,提出比值植被指数(RVI)能够有效地预测冠层叶绿素的含量;姚付启等[7]综合分析了10种植被指数与法国梧桐叶绿素含量的相关性和预测性,利用主成分分析和BP神经网络进行了法国梧桐叶绿素含量的估算,认为归一化植被指数(NDVI)与叶绿素含量的关系最为密切;宫兆宁等[8]研究了植被叶绿素与“三边”参数及由光谱反射率组成的比值(SR)和归一化(ND)光谱指数之间的相关关系,建立了叶绿素含量的反演模型。
随机森林(RandomForest,RF)是一种统计学习理论,具有非常强的拟合能力,不会出现过度拟合现象,建模速度快,处理大数据集(高光谱数据)时非常高效,而且算法对于结果具有可解释性,在解决反演问题方面具有独特的优势[9],被誉为当前最好的算法之一。随着高光谱技术的发展,已有学者将随机森林算法应用到植被高光谱遥感上,Onisimo Mutanga等利用随机森林算法对高植被覆盖度的湿地生物量进行了遥感估测,并与传统的多元逐步回归模型进行了对比[10];Colin J .Gleason等利用偏最小二乘、随机森林、支持向量机和Cubist决策树算法对中等植被覆盖度的森林生物量进行了遥感估算[11];李粉玲等[12]提取了18种光谱指数,构建了基于随机森林和多元逐步回归的冬小麦叶片SPAD值高光谱估算模型;王丽爱等[13]使用随机森林回归算法构建小麦叶片SPAD值遥感反演模型,并以支持向量回归(SVR)和反向(BP)神经网络算法构建的冬小麦叶片SPAD值估算模型为比较模型;韩兆迎等[14]利用支持向量机(SVM)与随机森林回归(RF)方法构建了苹果树冠的LAI高光谱估算模型,结果表明RF回归模型估测效果要优于SVM。但以油菜为研究对象,利用随机森林算法构建叶片叶绿素高光谱反演模型的研究尚未见报道;同时由于地区不同,作物种类不同,叶片叶绿素的敏感波段会出现显著差异,光谱指数的适用性也有所不同,为此本研究以西北干旱、半干旱地区经济作物油菜为试验对象,分析油菜不同生育期叶片光谱与叶绿素相对含量SPAD值之间的相关关系,利用10种光谱指数构建基于随机森林(RF)算法的不同生育期及全生育期油菜叶片SPAD估算模型,并与传统的基于光谱指数的一元线性回归模型和多元逐步回归模型进行精度比较,实现高光谱技术无损、快速、准确地估算油菜各生育期叶片SPAD值,为西北干旱、半干旱地区油菜生长状况监测提供理论和技术支持。
1 材料与方法
1.1 研究区概况
研究区位于陕西省咸阳市乾县梁山镇齐南村(东经108°7′6″,北纬34°38′33″),该地区处于陕北黄土高原南缘与关中平原的过渡地带,温带半干旱大陆性季风气候,年降水量525 mm,年平均气温12.7℃,全年降雨分布不均,主要集中在6~9月,耕作制度基本为一年一熟,种植冬小麦、油菜、玉米等农作物。
1.2 试验设计与样品采集
2015年9月-2016年5月在研究区种植冬油菜,供试品种为甘杂1号。共设置30个试验小区,每个小区面积为48 m2,设置氮肥、磷肥和钾肥处理各3个水平(N: 120、240、360 kg·hm-2;P: 60、120、180 kg·hm-2,K: 90、180、270 kg·hm-2),每个处理重复3次,设有空白对照,田间管理按当地大田生产方式进行。冬油菜种植时间为2015年9月13日,播种方式为机播,油菜生长过程中无病虫害发生。分别于2016年3月25日(苗期),4月12日(蕾薹期),5月3日(开花期)和5月24日(成熟期)进行田间观测采样。每个小区随机采集6棵油菜植株冠层的共6片相同叶位(沿主茎自上而下第1叶)的叶片装入密封袋,放置在蓝冰保鲜盒中立即运回实验室,及时进行叶片光谱反射率及SPAD值同步测定。
1.3 测定项目与方法
1.3.1 光谱反射率测定 油菜叶片光谱反射率采用美国SVC HR-1024i型光谱仪进行测定,该仪器光谱探测范围为350~2 500 nm,在波段350~1 000 nm光谱分辨率3.5 nm,1 000~1 850 nm波段光谱分辨率9.5 nm,1 850~2 500 nm波段光谱分辨率6.5 nm。利用自带光源型手持叶片光谱探测器直接测定叶片光谱,光源为内置卤钨灯。每次测定前均利用漫反射参考版对仪器进行优化,之后将待测叶片直接置于探测器进行光谱测量。为了获得叶片具有代表性的光谱,每片叶子测量3个位置,每个位置测量两条光谱,取六条光谱的平均值作为该样本的最终光谱反射率。
1.3.2 SPAD值测定 使用日本KONICA MINOLTA公司生产的SPAD 502叶绿素仪同步测定油菜叶片的SPAD值。为减小误差,每片叶子测量10个点,然后取其平均值作为该叶片的SPAD值,测量时避开叶脉,同时根据所采油菜叶片面积的不同,适当增加某些叶片的SPAD采集点。
1.4 光谱指数选择
光谱指数是利用植被光谱数据的线性或非线性组合构建的参数,能够反映植被在可见光、近红外波段反射与环境背景之间的差异[15]。本研究在多种可用于估测叶绿素含量的光谱指数中选取了10种认可度较高、物理意义明确的光谱指数(表1)。
1.5 数据处理与模型构建
利用SVC HR-1024i PC、Excel 2013、Origin 2016及SPSS 22.0等软件对数据进行处理与计算,由于绿色植物光谱在可见光波段400~760 nm处主要受叶绿素影响,因此选择400~1 000 nm的波段范围进行研究,并将光谱重采样到1 nm。对每期采集的180个样本按SPAD值进行排序,采用分层抽样的方法抽取135个作为建模样本,剩余45个作为检验样本。
模型构建分别采用一元线性回归、多元逐步回归和随机森林回归算法。其中随机森林的基本原理是利用自助法重采样技术从原始样本中抽取多个自助样本集,对每个自助样本集进行决策树建模,树的每个节点变量在随机选出的多个预测变量中产生并进行节点分割,将所有决策树预测平均值作为最终预测结果[12]。一般情况下,随机森林会随机生成成百上千个分类树,再选择重复度最高的树作为最终结果[24]。RF通过构造不同的训练集增加分类模型的差异,从而提高组合分类模型的外推预测能力。其最终分类决策的计算见公式(1)[25]。
表1 光谱指数及其计算公式
注:Ri表示波长为inm处的光谱反射率。
Note:Rirepresents the spectral reflectance ofinm.
(1)
其中,H(x)表示组合分类模型,hi是单个决策树分类模型,Y表示输出变量,I为示性函数。
本文基于RandomForest软件包在R环境中进行RF回归模拟,在模型构建过程中,分类树的数量(ntree)和分割节点的随机变量数(mtry)是该模型中最为重要的两个参数,由图1可知,模型误差随着分类树的增加而趋于平稳,当分类树的数量达到2 600以后误差趋于稳定,经反复试验,在不影响计算效率的情况下,根据随机森林模型的预测误差及其决定系数(R2)确定本研究中分类树的数量为3 000;通过编程实现mtry的参数寻优,最终确定分割节点的随机变量数为3。
为验证模型的精度,利用检验样本将不同模型的预测SPAD值与实测SPAD值进行回归拟合,以决定系数(R2)、均方根误差(RMSE)和相对误差(RE)来评价模型的优劣。式(2)、式(3)和式(4)为决定系数、均方根误差和相对误差的计算公式。
(2)
(3)
(4)
图1 分类树与误差的关系Fig.1 Relationship diagram of trees and error
2 结果与分析
2.1 不同生育期油菜叶片SPAD值变化与高光谱特征
在油菜的不同生育期,叶片的SPAD值呈现出先上升后下降的抛物线趋势(图2)。从苗期到蕾薹期,油菜叶片SPAD值逐渐升高,蕾薹期达到整个生育期的最高点,平均值由苗期的48.98上升到了蕾薹期的52.17,蕾薹期后随着油菜的生长发育,叶片SPAD值逐渐变小。开花期后到成熟期,由于油菜角果开始成熟,叶片逐渐枯萎衰老,营养物质向角果转移,叶片变黄,油菜叶片的SPAD值急剧下降,成熟期SPAD值的平均值降至31.51。同时,随着油菜生育期的推进,各阶段的SPAD值变化幅度逐渐变大,开花期后标准差急剧增大,成熟期油菜叶片的SPAD值标准差达到整个生育期的最大值7.13。
油菜叶片各生育期反射光谱曲线如图3所示。不同生育期的油菜叶片光谱特征基本一致,在400~500 nm的蓝紫光波段和600~700 nm的红光波段由于叶绿素的强烈吸收形成两个吸收谷,同时使得在550 nm处形成一个相对较强的反射峰;在680~1 000 nm的近红外区域,由于受到油菜叶片内部结构的支配作用,光谱反射率急剧上升,形成高反射平台。从苗期到蕾薹期,油菜叶片光谱曲线的红边位置如图4所示向长波方向移动,从708 nm移动到了710 nm;蕾薹期后红边位置向短波方向移动,至成熟期移动到700 nm处,表现出“蓝移”的现象。
图2 不同生育期油菜叶片SPAD值变化Fig.2 Variation of SPAD values for rapeseed at different growth stages
图3 不同生育期油菜叶片光谱曲线特征Fig.3 Spectral reflectance of rapeseed in different growth stages
图4 不同生育期油菜叶片一阶微分光谱特征Fig.4 First derivative value of rapeseed in different growth stages
2.2 油菜叶片SPAD值与光谱相关性分析
2.2.1 油菜叶片原始光谱与SPAD值相关性分析 分别对油菜各生育期叶片的SPAD值与光谱反射率进行相关分析,结果见图5。从图5可以看出,苗期、蕾薹期和开花期油菜叶片SPAD值与原始光谱反射率的相关性趋势基本一致,波长500~730 nm之间呈极显著负相关,在蓝光波段520 nm附近和红光波段700 nm附近相关系数达到两个峰值,其中以700 nm附近的相关性最为显著;在700 nm之后,各生育期油菜叶片与原始光谱反射率的相关系数迅速降低,开花期为-0.1左右,其他生育期基本趋于0;成熟期油菜叶片SPAD值与原始光谱反射率之间的相关系数变化与前三个时期稍有不同,在551 nm处相关性较低,峰值出现在630 nm和696 nm处,其中696 nm处相关系数最大。
图5 不同生育期油菜叶片SPAD值与原始光谱相关性Fig.5 Correlation between SPAD and original spectrum at different growth stages of rapeseed leaves
2.2.2 油菜叶片SPAD值与光谱指数的相关性分析 分析各生育期实测SPAD值和光谱指数的相关性,结果如表3。由表3可以看出:油菜各生育期叶片SPAD值与光谱指数均达到显著相关,其中TCARI、GRVI和NPCI为负相关,其它光谱指数为显著正相关。苗期的10个光谱指数除NPCI外均与SPAD值呈极显著相关,其中相关性最好的为RVI,相关系数0.64;蕾薹期SPAD值与光谱指数的相关性都达到极显著相关,RVI、FDRVI和FDNDVI与SPAD值的相关系数达到了0.8以上;开花期SPAD值与光谱指数的相关性为油菜整个生育期内最好的,超过一半的光谱指数相关系数均在0.8以上,其中相关性最好的为FDNDVI,相关系数0.86,相关性相对较差的为NPCI,但也达到了0.70;成熟期油菜叶片的SPAD值与光谱指数的相关系数差异较大,其中RVI、NDVI、mNDVI、TCARI和MSR705的相关系数达到0.8以上,GRVI和NPCI的相关系数不到0.4。综合油菜生长过程中的4个生育期内的原始光谱数据和SPAD值,进行全生育期油菜叶片SPAD值与各光谱指数相关性分析,结果表明,全生育期内油菜叶片SPAD值与各光谱指数均呈极显著相关,其中RVI、NDVI、mNDVI与油菜叶片SPAD值的相关系数在0.9以上,DCNI、MSR705、FDRVI和FDNDVI与油菜叶片的SPAD值的相关系数也都在0.8以上。
2.3 各生育期油菜叶片SPAD值高光谱反演模型构建
按照以下方式构建油菜叶片SPAD值高光谱估算模型:①选取各生育期与油菜叶片SPAD值显著相关且相关系数最大的光谱指数为自变量,构建油菜各生育期的SPAD值一元线性回归模型(VI-LR);②选取各生育期与油菜叶片SPAD值在0.001水平极显著相关的光谱指数构建SPAD值多元逐步回归模型,记为VI-MSR;③选取各生育期所有光谱指数构建随机森林回归模型,所建模型记为VI-RF。结果如表3所示。
由表3可见,所有模型的拟合方程都达到了0.01的显著水平(P<0.01),在油菜的各个生育期中,基于单一光谱指数构建的一元线性回归模型的精度都是最低的;基于极显著相关的所有光谱指数构建的多元逐步回归模型和随机森林模型能够大幅度提高估算模型的精度,其中以随机森林模型的决定系数最高,在整个生育期内都能够达到0.9以上,最大为0.971。在不同生育期中,苗期SPAD值估算模型的精度要明显小于其他生育期;成熟期估算模型精度最高,各模型的决定系数R2都能够达到0.72以上,最大为VI-RF模型,决定系数0.946。全生育期的油菜叶片SPAD值估算模型要明显优于分生育期构建的估算模型,三种模型的决定系数R2都在0.83以上,VI-RF模型的估算精度仍为最高,决定系数R2达到了0.971。随着随机森林建模精度的提高,模型自变量(V)对于SPAD值的解释率也逐渐升高,其中苗期、蕾薹期、开花期和成熟期模型的解释变异百分率分别为38.16%、74.56%、66.34%和57.96%,而全生育期模型的解释变异百分率则达到了84.27%。综合建模结果可以得出,基于随机森林回归算法构建的油菜叶片SPAD值估算模型效果最好,能够广泛适用于油菜整个生育期的SPAD值估算。
2.4 模型精度比较
利用检验样本对不同模型的估测精度进行检验,结果如表4所示。 由表4可以看出,各生育期不同验证模型的R2都在0.46以上,达到了极显著水平(P<0.001),能够用于油菜SPAD值预测。其中苗期VI-RF模型的决定系数R2达到了0.81,RMSE和RE小于其他模型,分别为0.93和2.87%;蕾薹期VI-RF模型的R2,回归方程斜率、RMSE和RE均为该生育期最优;开花期VI-RF模型的决定系数及回归方程斜率为三个模型中最优的,但其RMSE和RE都要略大于VI-MSR模型;成熟期VI-RF模型同样优于其他模型,其决定系数R2达到了0.82,但各模型的RMSE和RE较其他生育期有大幅度上升,其均方根误差达到了5以上,相对误差达到了10%以上。在全生育期仍以VI-RF模型的预测精度最高,R2为0.89。综合来看,VI-RF模型在分生育期及全生育期都表现出最强的学习和预测能力,决定系数R2均在0.81以上。但结合建模与预测结果,相对于建模精度,VI-RF模型的预测能力相对较弱,决定系数R2较建模有较大幅度的下降,与王丽爱[13]等的研究结果是一致的。这是由于随机森林是适用于大样本量数据计算的,样本数偏小会导致模型决策树之间的相关性增强,预测误差增大,同时随机森林在生成决策树的时候也可能会生成很多差异度非常小的树,也会对最终生成正确的决策产生影响,导致预测精度降低。
表2 不同生育期油菜叶片SPAD值与光谱指数之间的相关系数
注:** 表示在0.001水平上显著相关;* 表示在0.01水平上显著相关。
Note:** indicates significant correlation at 0.001 level;* indicates significant correlation at 0.01 level.
表3 油菜不同生育期叶片SPAD值回归拟合模型
表4 不同估算模型验证结果
3 讨 论
通过高光谱遥感获得的农作物光谱信息可以较好地反映其理化参数,监测长势状况[26],但是植被光谱的获取易受到光谱仪本身的噪声、环境噪声和叶片内部生理结构等因素的影响。大量研究表明,叶片的SPAD值与其叶绿素总含量有着较强的相关性,能够在一定程度上反映作物叶片的养分及长势[27-29]。
1)在成熟期和全生育期,NDVI与油菜叶片SPAD值的相关性最高,而在叶绿素含量相对较高的苗期和蕾薹期,NDVI与SPAD值的相关性则较差,这可能是因为在叶绿素含量较高时,NDVI容易出现过饱和现象[30]。同时在各生育期及全生育期,SPAD值与GRVI和NPCI的相关性都相对较差,这主要是因为油菜叶片叶绿素最为敏感的波段主要集中在690~710 nm处,而这两种光谱指数的构建都没有该波段的参与。
2)使用光谱指数估测农作物SPAD值,虽然能够很好地消除背景噪声,提高估测精度,但是以往研究大都较少考虑光谱指数对于作物不同生育期的适用性,且多数研究仅基于单一光谱指数构建SPAD值估测模型[31-32]。而单一光谱指数往往只包含作物光谱的部分信息,易出现过饱和现象,且模型的精度和稳定性都难以得到保证[33]。本研究借鉴多个光谱指数的同时,针对油菜生长的不同生育期及全生育期,分别结合最小二乘算法、多元逐步回归算法和随机森林算法构建SPAD值估算模型,结果发现基于多个光谱指数构建的模型精度较单光谱指数模型精度均有较大提高,在不同生育期的适用性也更强,有效避免了因为叶片叶绿素含量偏高导致的光谱指数饱和现象对于模型的影响。
3)在植被叶片SPAD值估算模型的构建过程中,不同的建模方法对于模型的拟合精度影响也较大。随机森林模型在各生育期表现良好,模型精度均有较大提高,R2在0.90以上,其中苗期较线性模型精度提高达39%,蕾薹期提高了32%,开花期提高了14%,成熟期提高了27%,而全生育期则提高了13%,模型建模R2高达0.971 。随机森林算法较最小二乘算法及多元逐步回归算法具有很高的预测准确性,原因在于随机森林模型能够很好地容忍建模过程中出现的异常值和噪声,且不容易出现过度拟合[25],对多重共线性不敏感[34]。
4 结 论
本文以西北区经济作物油菜为研究对象,应用光谱指数构建叶片SPAD值的高光谱估算模型,并对各模型反演精度进行检验,得到以下结论:
1)在油菜不同生育期其叶片SPAD值存在着显著的差异,SPAD值呈现出先升高后下降的趋势,至蕾薹期达到最大值;叶绿素含量的差异导致叶片的光谱反射曲线有所不同,随着SPAD值的升高在可见光波段光谱反射率降低。
2)各光谱指数在不同生育期均与油菜叶片SPAD值呈显著相关,其中TCARI、GRVI和NPCI与油菜叶片SPAD值呈显著负相关,其余光谱指数与油菜叶片SPAD值呈显著正相关。
3)基于光谱指数构建的分生育期和全生育期油菜叶片SPAD值估算模型均通过显著性检验,其中随机森林回归模型在各生育期均表现出最好的建模及验证精度,其建模R2在0.90以上,验证R2达到0.81以上,是进行油菜叶片SPAD值估测的最优模型。