利用Stacking集成学习估算柑橘叶片氮含量
2021-09-16刘凌杰席顺忠任孟杰袁晓慧庄翠珍
吴 彤,李 勇,葛 莹,刘凌杰,席顺忠,任孟杰,袁晓慧,庄翠珍
利用Stacking集成学习估算柑橘叶片氮含量
吴 彤1,李 勇2※,葛 莹2,刘凌杰1,席顺忠2,任孟杰2,袁晓慧3,庄翠珍3
(1. 河海大学水文水资源学院,南京 210098;2. 河海大学地球科学与工程学院,南京 211100;3. 新平褚氏农业有限公司,新平 653407)
准确估算柑橘叶片氮含量对于科学合理的施肥具有重要的指导作用,该研究利用Landsat8 OLI卫星遥感影像和地面采样实测数据,以K-近邻(K-Nearest Neighbors,KNN),随机森林(Random Forest,RF)和自适应增强(Adaptive boosting,Adaboost)模型为基础,构建Stacking集成学习框架,实现对柑橘叶片氮含量(Leaf Nitrogen Content,LNC)的估算。首先分析不同氮含量下的光谱反射特征,构建植被指数(Vegetation Indices,VIs)并计算其与柑橘LNC的相关系数;接着利用格网搜索、交叉验证训练模型,最后将Stacking模型与包括Bagging(Bootstrap Aggregating,Bagging)、人工神经网络(Artificial Neural Network,ANN)在内的多个经典机器学习模型试验结果进行对比分析,并生成柑橘果园的氮含量分布图。结果表明:1)构建的光谱指数与LNC具有较好的相关性,大部分指数相关系数在0.55以上;2)相比KNN、RF、Adaboost等多个单一模型,Stacking模型的估算效果最佳,决定系数达到0.761,均方根误差为1.366 g/kg,平均绝对百分比误差为3.494%;同时,Stacking模型的赤池信息准则(Akaike Information Criterion,AIC)值最低,是观测期内LNC估算的最优模型;3)研究区内LNC值整体上处于30.5~31.5 g/kg左右,接近柑橘种植的理想区间,模型估算与实测值趋于一致。总体上,该研究采用的光谱特征能够有效表征柑橘冠层叶片氮含量,并证明Stacking集成学习能综合多个基模型的优点,提高模型的准确性,为利用卫星遥感展开作物参数估算提供新的思路。
卫星;遥感;模型;柑橘;氮;Stacking;植被指数
0 引 言
氮是果树生长过程中必需的营养元素,对果树的生理生化过程起着重要的调控作用[1],也影响着果实最终的品质和产量。在实际的农业生产中,氮肥的施用往往依靠人工经验,缺氮会影响果树的生长发育,而过量的氮则会导致果实的减产和环境的污染。快速准确地获取果树叶片氮含量(Leaf Nitrogen Content,LNC),科学合理地施用氮肥,能有效节约成本。以往获取LNC的方法主要是化学检测,这种方法需要到野外实地采样,还需经过长时间的样品处理和实验室分析,其结果虽然准确,但是成本高昂、对果树具有破坏性,此外还存在时效性差、结果不具代表性等弊端[2]。
随着光谱探测技术的快速发展,其以无损、便捷等优势成为了作物生长机理分析和定量化研究的热点。高光谱可以从生长机理上对作物光谱响应进行分析,但是存在着空间局限性,而且高光谱特征维数多,易产生信息冗余,对数据处理造成困难,而卫星遥感具有大范围、多时相、周期性观测等特点,克服了地面点状信息的空间局限[3],因此被广泛用于农作物生长的监测研究中。Clevers等[4]采用Sentinel-2/3卫星数据分析了红边叶绿素指数和中分辨率成像光谱仪(Medium Resolution Imaging Spectrometer,MERIS)陆地叶绿素指数等植被指数(Vegetation Indices,VIs)和大豆、玉米冠层氮含量之间的关系,证明了红边波段对于植物冠层/叶片氮含量估算的重要意义。王凌[5]基于Landsat5 TM和先进可见光与近红外辐射计-2(Advanced Visible and Near Infrared Radiometer Type 2,ALOS AVNIR-2)从苹果树冠层反射率出发,经地形辐射校正削弱了地形影响,结合地面高光谱数据构建并筛选出苹果叶、花、冠层的氮磷元素的敏感波段,建立了支持向量回归模型,实现了对盛花期苹果树氮磷的诊断。Delloye等[6]将人工神经网络和Sentinel-2卫星遥感数据结合起来实现了对冬小麦冠层叶绿素和氮含量的估算,并讨论了红边波段进行生化指标估算的潜力。Chemura等[7]同样利用Sentinel-2遥感数据对咖啡LNC进行估算,通过建立优化植被指数的随机森林模型得到了最好的拟合效果,决定系数达到了0.78。曹淑静[8]基于地面高光谱数据和模拟GF-1号卫星光谱数据,对苹果树冠层光谱指数进行了提取和筛选,建立并对比了二次多项式、支持向量回归等模型对苹果树冠层氮含量的反演效果,试验结果表明该研究区内的氮含量分布在24~32 g/kg的范围内,且西南和东北部氮含量较高,与实际情况较为一致。Brinkhoff等[9]利用连续四年的WorldView-2卫星影像对水稻不同生长时期的氮吸收率进行了估算,通过研究以NDRE2光谱指数为主的单变量模型和加入了气候、管理因素的多变量模型的估算精度,最终利用多变量模型对抽穗期水稻氮吸收率进行了有效估算。熊静玲[10]则对比了Landsat8、Sentinel-2和GF-6卫星影像及其模拟数据对不同生长时期的苹果树冠层氮含量的估算精度,结果表明Sentinel-2和GF-6卫星模拟数据的估算精度优于Landsat8,较全面地对比和分析了基于不同卫星遥感数据对苹果树冠层氮含量监测的优劣。Fabbri等[11]基于Rapid-Eye卫星影像建立以修正叶绿素吸收反射指数、增强型植被指数为变量的线性回归模型,实现氮营养指数的估算,进而为农民提供施氮的建议,经田间试验证明该模型十分可靠。
目前,利用卫星遥感开展作物生化组分研究的对象大都是受控试验下的大田作物,对于单体较大、冠层结构复杂的果树(尤其是柑橘树)的研究较少,而且大都是基于单一模型。集成多个不同类模型的Stacking学习能集成单一模型的效果,具有提高LNC估算精度的潜力,因此本文采用Landsat8 OLI卫星影像,结合已有的光谱指数计算方法得到光谱特征,分析柑橘LNC与卫星光谱特征间的相关性,构建该时期叶片氮含量Stacking估算模型,发挥Stacking综合多个模型估算结果的优点,实现对柑橘叶片氮含量的准确估算,并生成对应的氮含量空间分布图,为果园精细化种植和科学管理提供决策支持。
1 材料与方法
1.1 研究区概况
本研究区位于云南省中部的玉溪市(23°19′~24°53′N,101°16′~103°09'E),地势西北高、东南低,以山地、峡谷、盆地为主,多种地貌交错分布,属于亚热带气候,年平均气温在20 ℃左右,光照充足。该区内以弱酸性赤红壤为主,适合柑橘的种植和生长。研究区共分为3个种植区域,如图1所示。3个种植区平均树龄在10 a左右,果树根据地势变化呈阶梯状规则排列,由农户按地块进行管理和种植,平均行、列间距分别为3和2 m,平均冠层直径为3.1 m,平均树高为2.8~3.2 m。
1.2 数据获取与预处理
1.2.1 地面样本数据
在充分考虑研究区地理条件和果园种植情况的基础上,地面采样点布设的原则是:以农户种植地块为基本单元,在研究区内选择种植水平差异较大,且能反映附近区域种植情况的地块均匀布设采样点,并保证每个采样点落入一个农户种植地块内。2017-2019年3个种植区共布设20个采样点,由于区域2种植面积较大,且为该果园的主产区,所以2020年在该区域增设25个采样点,整个研究区采样点共计45个,如图1所示。
为了获得果树生长关键时期的LNC,对后续施肥进行指导,试验选择2017-2019年的7月中旬进行一次采样。由于2020年增加了采样点的数量,采样时间由当年的7月中旬开始至8月下旬结束,地面采样情况见表1。
表1 地面采样与Landsat8 OLI影像信息
采样时使用RTK-GPS测量系统记录采样点及其左右两棵树的坐标。柑橘果树较大,果树内部的氮含量容易转移,不同冠层高度、不同叶位的氮含量存在一定的差异,为使得采样点柑橘叶片氮含量具有代表性,选择每棵果树冠层中上部的四个方位及中心位置枝条的倒三、倒四叶位进行叶片采摘,如图2所示。
每个采样方位采集20片树叶,即一棵树采集100片树叶,一个采样点共获取300片树叶。采集的叶片装入干燥的牛皮纸袋并迅速送往实验室,先用去离子水清洗新鲜叶片,然后将叶片送入烘箱,在105 ℃的条件下杀青30 min,接着在75 ℃条件下将叶片烘干至质量恒定,最后将烘干的叶片研磨成粉,充分混匀后采用凯氏定氮法测定叶片全氮含量。将这300片树叶的氮含量平均值视作对应采样点的叶片氮含量,并以此值代表采样点所在农户种植地块的柑橘叶片氮含量水平。
1.2.2 Landsat8 OLI卫星影像
由于果园施肥时间在采样时间之后,采样时叶片已处于生长成熟、各项生化组分较为稳定的状态,因此使用与采样时间邻近日期的卫星影像进行周期性观测并估算叶片氮含量。卫星影像来源于美国地质调查局官网(https://earthexplorer.usgs.gov/),分别于2017-2020年每年下载一景与采样时间对应的Landsat8 OLI遥感影像,影像信息与地面采样时间见表1。所有影像数据均已经过几何精校正、辐射定标和大气校正。在对卫星遥感影像进行预处理后,利用采样点GPS位置提取对应像素的光谱反射率,以中心树和左右两棵树提取到的光谱反射率平均值作为该采样点最终的光谱反射率。
1.2.3 数据预处理
由于2018-2019年局部影像受到云雾遮挡,在提取采样点光谱反射率时剔除了光谱反射异常值和缺失值。归一化是机器学习中常常使用的数据预处理方法,对特征进行适当的归一化对于训练模型和提高运算效率十分重要[12]。试验中对所选择的模型特征进行归一化处理,将特征范围统一变换至[0,1]间,归一化公式如下:
new=(Xmin)/(maxmin) (1)
式中new表示归一化后的特征值,X表示原始特征,min和max分别表示的是该类特征中的最小值和最大值。
1.3 研究方法
1.3.1 集成学习
Stacking是一种通过元模型(Meta-model)将多个单一模型进行组合的集成策略,这些单一模型称作基模型(Base-model)。Stacking集成学习能有效提高模型的鲁棒性和泛化能力,但基模型性能的好坏影响着Stacking模型的最终效果,因此选择基模型时应充分考虑学习器的充分性和多样性[13],即基模型具有良好的学习能力,且各基模型之间相互独立,以此实现模型间信息的有效互补。
K-近邻模型(K-Nearest Neighbors,KNN)、自适应增强模型(Adaptive boosting,Adaboost)和随机森林模型(Random Forest,RF)在回归问题上具有出色的表现,并且有着较强的非线性拟合能力。KNN有成熟的理论作为支撑,数学原理易于理解,有广泛的应用;Adaboost能根据弱学习器的性能调整训练样本的分布,并对得到错误结果的样本赋予更大的权重,通过不断学习调整后的样本,对所有弱学习器进行加权组合得到最终的结果[14];RF不仅继承了Bagging模型(Bootstrap Aggregating)高度并行的优点,选择节点进行特征划分还使得RF能实现高效地训练[15]。这3种回归模型满足了选择基模型时的充分性和多样性原则,因此被广泛使用作为Stacking的基模型[16-19]。本研究使用上述3种模型,结合线性回归(Linear Regression,LR)构建Stacking模型对柑橘LNC进行估算,模型架构如图3所示。
Stacking模型的原理就是将基模型在数据集上得到的特征用元模型进一步拟合,实现对基模型特征提取能力的综合和特征的堆叠。利用Stacking模型进行柑橘LNC估算的步骤为:1)将卫星光谱特征数据集划分为训练集和测试集,在训练集上利用交叉验证和格网搜索实现对模型的训练;2)每个基模型训练后,在测试集上得到对应的估算值;3)将基模型交叉验证得到的特征输入到元模型中,并将基模型在测试集上的估算值取平均作为元模型的测试集;4)最后利用输入的新特征对元模型进行训练和测试,得到最终柑橘LNC的估算结果。此外,为了证明Stacking集成模型与其他研究中的单一模型相比估算效果更好,试验还对Bagging模型、多元线性回归模型(Multiple Linear Regression,MLR)、人工神经网络(Artificial Neural Network,ANN)和多核支持向量机(Multiple-kernel Support Vector Regression,MK-SVR)[20]进行训练,其中Adaboost和Bagging模型中所使用的基础学习器为决策树。
1.3.2 光谱特征分析与指数构建
植物叶片在营养元素含量变化的影响下,其内部生理代谢过程和生化组分会发生变化,导致叶片内部化学键的振动情况随之改变,最终表现为不同波段上光谱反射率的差异[21]。为了分析Landsat8 OLI卫星遥感数据对柑橘叶片LNC估算的可行性,首先要对不同LNC的光谱特征进行分析。经统计,样本实测LNC在26.40~37.6 g/kg之间,平均值为31.8 g/kg。由研究区生产经验可知,最理想的LNC值为30~32 g/kg,因此将样本按实测LNC值高低排序,并以“2 g/kg”为间隔划分为6组,计算每组样本的光谱反射率平均值,不同柑橘LNC与光谱反射率的关系如图4所示。
由图4可知,柑橘冠层的光谱反射率与典型植物相似。在可见光区间内(400~760 nm),由于氮能促进叶绿素合成,叶绿素对光谱的吸收导致此波段范围内光谱反射率随LNC增加而降低[22]。在近红外波段(760~1 250 nm),果树冠层多重反射导致反射率显著高于其他波段。在1 750和2 250 nm两个短波红外处随着LNC增加反射率逐渐降低,这是由于叶片存在水汽吸收特性,氮含量的增加使得叶片对水汽的吸收能力增强。综上,在可见光至近红外波段内(400~1 250 nm),柑橘冠层光谱反射率存在明显的差异,即LNC越高,光谱反射率越低,表明LNC的差异导致柑橘冠层叶片出现不同的光谱响应,因此可以利用Landsat8 OLI卫星影像光谱数据对柑橘冠层LNC进行估算。表2是对Landsat8卫星波段反射率与柑橘LNC的相关分析结果,由表可知柑橘LNC与原始光谱波段反射率具有较好的相关性。在440、480、560和650 nm处,柑橘LNC与光谱反射率呈显著相关(<0.01),与刘雪峰等[21]的研究结果相似。Min等[23]采用逐步多元回归和偏最小二乘回归发现柑橘叶片氮含量重要波段在448和669 nm左右,证明可以将对应的卫星原始波段作为构建VIs的基础。
表2 柑橘LNC与Landsat8波段反射率的相关性
注:“*”表示<0.01,下同。
Note: “*” indicates<0.01, same as below.
氮的光谱吸收波段主要集中在短波红外区,但是新鲜叶片在该区间内存在3个典型的水汽吸收波段(1 450、1 950和2 700 nm),削弱了该区间内氮的吸收特征,基于短波红外区的氮素特征指数难以构建[24]。氮素与叶绿素的合成密切相关,利用VIs反演得到作物叶绿素的方法也有较为广泛的应用[25],因此本研究除了将Landsat8遥感影像的7个原始光谱波段作为输入特征,还选择了其他在叶绿素反演和氮含量估算中有潜力的VIs作为模型的输入。
为了筛选出适合输入模型的特征指数,计算了VIs与柑橘LNC的Pearson相关系数。Pearson相关系数表达式如下:
=Σ(i−)·(i−)/[Σ(i−)2·Σ(i)2]1/2(2)
式中代表计算得到的Pearson相关系数,i和i分别代表各采样点的第个植被指数值和对应的实测LNC值,g/kg,和分别代表两者的平均值。取值范围通常为[−1,1],||>0.5表明两变量之间具有较强的相关性,因此将||≤0.5的VIs予以剔除。试验构建的光谱植被指数及与LNC相关分析结果见表3。
表3 研究中构建的光谱植被指数
1.4 模型建立与评价
研究采用Python 3.6中的Scikit-learn库进行模型的建立和训练。由于样本较少,使用随机抽样会导致训练集和测试集数据分布出现较大差异,影响模型估算精度,因此本研究采用系统抽样将数据集按照7:3划分为训练集和测试集,保证数据具有相同分布。试验采用格网搜索和5折交叉验证训练模型,从而确定最优模型参数,缓解由有限样本带来的过拟合问题。模型参数格网搜索结果见表4。
试验分别使用决定系数(Determination coefficient,2),均方根误差(Root Mean Square Error,RMSE),平均绝对误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean Absolute Percent Error,MAPE)对各模型的估算结果进行定量分析和评价。
模型复杂度也是用来评价模型性能的重要因素,因此,试验还选择赤池信息准则(Akakike Information Criteria,AIC)[26]作为更加综合、客观评价模型复杂度和拟合效果的指标。AIC提供了权衡模型复杂度和拟合数据优良性的标准,在特征优选、模型选择等方面有广泛的应用[27],其值越小,说明该模型拟合效果更好。AIC表达式如下:
AIC2(1)+ln(SSR/) (3)
式中为模型中的变量个数,为样本个数,SSR为残差平方和。
表4 各模型主要参数格网搜索结果
2 结果与分析
2.1 氮含量估算结果
各模型基于训练集和测试集的柑橘冠层LNC估算结果见表5。
表5 各模型估算结果
注:2为决定系数。RMSE、MAE分别是均方根误差、平均绝对误差,g·kg-1。MAPE是平均绝对百分比误差,%。AIC为赤池信息准则。
Note:2is coefficient of determination. RMSE and MAE are root mean square error, mean absolute error respectively, g·kg-1. MAPE is mean absolute percent error, %. AIC is Akaike Information Criterion.
由表5可知,在训练集中Adaboost模型2最高,达到了0.999,ANN表现最差,2为0.577。在测试集中,除了MLR和ANN,其余模型2均在0.6以上。Stacking模型在测试集上表现最佳,2达到0.761,RMSE和MAE分别为1.366、1.046 g/kg,MAPE为3.494%,表明该模型泛化能力较强。与单一模型中精度最高的Adaboost相比,Stacking模型测试集2提高0.025, RMSE和MAE分别降低0.07和0.109 g/kg,MAPE降低0.325个百分点。同时,Stacking模型的AIC值在所有模型中最小,为54.976,说明该模型是进行LNC估算的最优模型。各基模型和Stacking模型的实测值与估算值如图5所示,当实测LNC<32 g/kg时,所有模型的估算值高于或接近实测值,而当实测LNC>32 g/kg时,所有模型都在不同程度上低估了实测值,导致RMSE偏大。各模型在LNC平均值(31.8 g/kg)附近时,模型效果较好。综合来看,Stacking模型的柑橘LNC估算效果较好,能够综合基模型优点,提高模型估算精度,同时其AIC明显低于各单一模型,说明其能平衡模型复杂度和拟合精度,适合作为本研究观测时期的LNC最优估算模型。
2.2 氮含量分布图
KNN、RF、Adaboost和Stacking模型估算的柑橘果园氮含量空间分布如图6所示。由图6可知,KNN模型得到的LNC值总体偏低,RF和Adaboost模型得到的柑橘LNC空间分布相似。Stacking模型生成的柑橘LNC分布图显示,研究区整体LNC值处于30.5~31.5 g/kg左右。区域1内平均树龄在10 a以上,是果树生长状态最为稳定的区域,由于该区域样本较少,模型估算结果未表现出明显的分布规律。区域2平均树龄与区域1接近,是研究区内规模最大的种植区,该区域东部LNC值多处于30.5~31.5 g/kg内。区域3平均树龄为6~8 a,与区域1、2相比果树较为低矮,果树之间间隙较大,影像中包含的土壤背景对模型估算结果造成了影响,其LNC值几乎无差异。总体而言,Stacking模型得到LNC估算值与实测值基本相符,且处于较理想的LNC值区间内。
3 讨 论
从研究区实际情况来看,受到果树种植模式、冠层结构和生长阶段等因素的综合影响,采样点光谱反射率是树冠信息的综合反映,而土壤背景作为主要的噪声混杂在像元中,对采样点的光谱信息造成了干扰。土壤背景光谱反射率取决于表面粗糙度、含水率、有机质含量等特性,随着果树的生长,土壤背景也具有动态的光谱特征[28]。为了将土壤背景的影响降至最小,人们提出了土壤线的概念并广泛应用于遥感数据的解释中[29],即根据与土壤线的距离或角度尽可能避免土壤背景对树冠光谱反射率的影响。基于这一概念,大量用于克服土壤背景影响的VIs被提出,如EVI、EVI2、SAVI、OSAVI、TSAVI等,并在多个利用卫星遥感影像对作物生化参数进行估算的研究中使用[30-33]。同样地,试验中选择了这些VIs作为模型的输入以充分地反映柑橘树冠叶片的光谱特征,分析结果证明使用的光谱特征与LNC有较好的相关性,所以VIs作为构建估算模型的重要特征,需要具有一定的削弱土壤背景影响的能力。由于冠层结构造成的多重散射在近红外区域尤为明显,作为能够区分植物不同氮水平的特征波段,试验采用的VIs也大都是基于近红外波段计算的。此外,研究表明“光谱特征+纹理特征”对作物生化指标进行估算能获得更高的精度[34-35],而本研究仅利用光谱指数构建柑橘LNC估算模型,未能全面地提取柑橘果树的特征信息,因此后续将尝试综合多种特征构建估算模型。
很多研究证明集成模型在许多应用中的表现优于单一模型[14,16,36],试验结果也证明,与单一回归模型相比,Stacking能提高对柑橘LNC的估算精度。由试验结果发现Adaboost模型和多元线性回归模型存在较严重的过拟合,造成这一结果的原因有:样本数量的限制和模型参数的选择不充分。从样本数量来看,只针对果树单个生长时期进行观测和采样难以实现数据集的扩充;从模型参数的选择方法来看,格网搜索有所局限,导致模型陷入局部最优。试验中Stacking模型采用五折交叉验证进行训练,缓解了过拟合现象,在保证模型具有较强拟合能力的同时,提升了估算精度,增强了模型泛化能力。
4 结 论
柑橘产业是中国农业经济的重要组成部分,果树种植和生产迫切需要对柑橘氮肥的施用开展科学合理的定量化研究。本研究基于Landsat8 OLI遥感影像构建了以K-近邻(K-Nearest Neighbors,KNN),随机森林(Random Forest,RF)和自适应增强(Adaptive boosting,Adaboost)为基础的Stacking集成模型,实现了对柑橘叶片氮含量的准确估算,并得到了对应的氮含量分布图。研究结果表明:
1)受氮含量变化的影响,柑橘冠层叶片的光谱响应存在明显的差异,经光谱特征分析构建的光谱指数与叶片氮含量(Leaf Nitrogen Content,LNC)有良好的相关性,相关系数大都在0.55以上,蓝-绿波段归一化差值植被指数(Green-Blue Normalized Difference Vegetation Index,GBNDVI)和结构增强植被指数(Structure Intensive Pigment Index,SIPI)与氮含量相关性较强,相关系数分别为0.678和0.640;
2)相比于KNN、RF和Adaboost模型,Stacking模型能提高对柑橘LNC的估算精度,同时,Stacking模型的赤池信息准则(Akakike Information Criteria,AIC)值明显低于其他模型,是本研究观测期内估算LNC的优选模型。
3)估算的LNC空间分布图显示,研究区内LNC大都处于30.5~31.5 g/kg,与实际情况相符,估算结果可靠。
此外,加入影像纹理信息,增加对果树其他生长时期的观测是将要进一步开展的工作。总的来说,本研究证明了基于Landsat8 OLI遥感影像利用Stacking模型对柑橘叶片进行LNC估算的可行性和有效性,能够无损、快速获取大尺度的柑橘果园氮含量分布情况,为利用卫星遥感开展作物参数估算提供了新的思路。
[1] 黄成能,卢晓鹏,李静,等. 柑橘氮素营养生理研究进展[J]. 湖南农业科学,2013 (15):76-79.
Huang Chengneng, Lu Xiaopeng, Li Jing, et al. Advances in nitrogen physiology of citrus[J]. Hunan Agricultural Sciences, 2013 (15): 76-79. (in Chinese with English abstract)
[2] 范玲玲. 基于多源遥感数据的夏玉米冠层氮素遥感监测研究[D]. 合肥:安徽大学,2020.
Fan Lingling.Monitoring of Nitrogen on Summer Corn Canopy Based on Multi-Source Remote Sensing Data[D]. Hefei: Anhui University, 2020. (in Chinese with English abstract)
[3] 谭昌伟,王纪华,赵春江,等. 利用Landsat TM遥感数据监测冬小麦开花期主要长势参数[J]. 农业工程学报,2011,27(5):224-230.
Tan Changwei, Wang Jihua, Zhao Chunjiang, et al. Monitoring wheat main growth parameters at anthesis stage by Landsat TM[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(5): 224-230. (in Chinese with English abstract)
[4] Clevers J, Gitelson A. Remote estimation of crop and grass chlorophyll and nitrogen content using red-edge bands on Sentinel-2 and -3[J]. International Journal of Applied Earth Observations and Geoinformation, 2013, 23:344-351.
[5] 王凌. 苹果树花期叶/冠N、P营养状况的卫星遥感反演研究[D]. 泰安:山东农业大学,2012.
Wang Ling. Satellite Remote Sensing Retrieval of Nitrogen and Phosphorus Nutritional Status in Apple Tree Leaves/Canopies at Blossom Stage[D]. Tai'an: Shandong Agricultural University, 2012. (in Chinese with English abstract)
[6] Delloye C, Weiss M, Defourny P. Retrieval of the canopy chlorophyll content from Sentinel-2 spectral bands to estimate nitrogen uptake in intensive winter wheat cropping systems[J]. Remote Sensing of Environment, 2018, 216:245-261.
[7] Chemura A, Mutanga O, Odindi J, et al. Mapping spatial variability of foliar nitrogen in coffee (L.) plantations with multispectral Sentinel-2 MSI data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 138: 1-11.
[8] 曹淑静. 基于GF-1卫星影像的苹果树冠层氮素含量反演[D]. 泰安:山东农业大学,2019.
Cao Shujing. Inversion of Nitrogen Content in Apple Trees Canopy Based on GF-1 Satellite Image[D]. Tai’an: Shandong Agricultural University, 2019. (in Chinese with English abstract)
[9] Brinkhoff J, Dunn B W, Robson A J, et al. Modeling mid-season rice nitrogen uptake using multispectral satellite data[J]. Remote Sensing, 2019, 11(15): 1837.
[10] 熊静玲. 基于不同多光谱卫星遥感模拟数据的苹果树冠层氮素含量估测[D]. 泰安:山东农业大学,2020.
Xiong Jingling. Estimation of Apple Tree Canopy Nitrogen Content Based on Different Multispectral Satellite Remote Sensing Simulative Data[D]. Tai'an: Shandong Agricultural University, 2020. (in Chinese with English abstract)
[11] Fabbri C, Mancini M, Marta A D, et al. Integrating satellite data with a nitrogen nutrition curve for precision top-dress fertilization of durum wheat[J]. European Journal of Agronomy, 2020, 120: 126148.
[12] Sola J, Sevilla J. Importance of input data normalization for the application of neural networks to complex industrial problems[J]. IEEE Transactions on Nuclear Science, 1997, 44(3): 1464-1468.
[13] Feng L, Zhang Z, Ma Y, et al. Alfalfa yield prediction using UAV-based hyperspectral imagery and ensemble learning[J]. Remote Sensing, 2020, 12(12): 2028.
[14] Hu Z, Qiu H, Su Z, et al. A Stacking ensemble model to predict daily number of hospital admissions for cardiovascular diseases[J]. IEEE Access, 2020, 8: 138719-138729.
[15] Wu T, Zhang W, Jiao X, et al. Evaluation of stacking and blending ensemble learning methods for estimating daily reference evapotranspiration[J]. Computers and Electronics in Agriculture, 2021, 184: 106039.
[16] Jia W, Cheng J, Hu H. A cluster-stacking-based approach to forecasting seasonal chlorophyll-a concentration in coastal waters[J]. IEEE Access, 2020, 8: 99934-99947.
[17] Sun W, Li Z. Hourly PM2.5 concentration forecasting based on feature extraction and stacking-driven ensemble model for the winter of the Beijing-Tianjin-Hebei area[J]. Atmospheric Pollution Research, 2020, 11(6): 110-121.
[18] Dhanya R, Paul I, Akula S, et al. F-test feature selection in Stacking ensemble model for breast cancer prediction[J]. Procedia Computer Science, 2020, 171: 1561-1570.
[19] Tajik S, Ayoubi S, Zeraatpisheh M. Digital mapping of soil organic carbon using ensemble learning model in Mollisols of Hyrcanian forests, northern Iran[J]. Geoderma Regional, 2020, 20: e00256.
[20] Wang L, Zhou X, Zhu X, et al. Estimation of leaf nitrogen concentration in wheat using the MK-SVR algorithm and satellite remote sensing data[J]. Computers and Electronics in Agriculture, 2017, 140: 327-337.
[21] 刘雪峰,吕强,何绍兰,等. 柑橘植株冠层氮素和光合色素含量近地遥感估测[J]. 遥感学报,2015,19(6):1007-1018.
Liu Xuefeng, Lv Qiang, He Shaolan, et al. Estimation of nitrogen and pigments content in citrus canopy by low-altitude remote sensing[J]. Journal of Remote Sensing, 2015, 19(6): 1007-1018. (in Chinese with English abstract)
[22] Walshe D, Mcinerney D, Kerchove R,et al. Detecting nutrient deficiency in spruce forests using multispectral satellite imagery[J]. International Journal of Applied Earth Observations and Geoinformation, 2020, 86: 101975.
[23] Min M, Lee S. Determination of significant wavelengths and prediction of nitrogen content for citrus[J]. Transactions of the American Society of Agricultural Engineers (Transactions of the ASAE), 2005, 48(2): 455-461.
[24] 杨贵军. 作物氮素定量遥感与应用[M]. 北京:科学出版社,2019:50-64.
[25] 姜海玲,杨杭,陈小平,等. 利用光谱指数反演植被叶绿素含量的精度及稳定性研究[J]. 光谱学与光谱分析,2015,35(4):975-981.
Jiang Hailing, Yang Hang, Chen Xiaoping, et al. Research on accuracy and stability of inversing vegetation chlorophyll content by spectral index method[J]. Spectroscopy and Spectral Analysis, 2015, 35(4): 975-981. (in Chinese with English abstract)
[26] Akaike H. Information theory and an extension of the maximum likelihood principle[M]//Selected Papers of Hirotugu Akaike. Springer: 1998.
[27] 杨福芹,戴华阳,冯海宽,等. 基于赤池信息准则的冬小麦植株氮含量高光谱估算[J]. 农业工程学报,2016,32(23):161-167.
Yang Fuqin, Dai Huayang, Feng Haikaun, et al. Hyperspectral estimation of plant nitrogen content based on Akaike’s information criterion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 32(23): 161-167. (in Chinese with English abstract)
[28] Prudnikova E, Savin I, Vindeker G, et al. Influence of soil background on spectral reflectance of winter wheat crop canopy[J]. Remote Sensing, 2019, 11(16): 1932.
[29] Baret F, Jacquemoud S, Hanocq J F. Aboust the soil line concept in remote sensing[J]. Advances in Space Research, 1993, 13(5): 281-284.
[30] Liu J, Pattey E, Jégo G. Assessment of vegetation indices for regional crop green LAI estimation from Landsat images over multiple growing seasons[J]. Remote Sensing of Environment, 2012, 123: 347-358.
[31] 贾玉秋,李冰,程永政,等. 基于GF-1与Landsat-8多光谱遥感影像的玉米LAI反演比较[J]. 农业工程学报,2015,31(9):173-179.
Jia Yuqiu, Li Bing, Cheng Yongzheng, et al. Comparison between GF-1 images and Landsat-8 images in monitoring maize LAI[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(9): 173-179. (in Chinese with English abstract)
[32] 王来刚. 基于多源遥感信息融合的小麦生长监测研究[D]. 南京:南京农业大学,2012.
Wang Laigang. Study on Growth Monitoring Based on Fusing Multi-source Remote Sensing Information in Wheat[D]. Nanjing: Nanjing Agricultural University, 2012. (in Chinese with English abstract)
[33] Bao Y, Liu L, Wang J. Estimating biophysical and biochemical parameters and yield of winter wheat based on Landsat TM images[C]//2008 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2008). Boston, Massachusetts, U.S.A: IEEE Computer Society, 2008.
[34] 孟沌超,赵静,兰玉彬,等. 基于无人机可见光影像的玉米冠层SPAD反演模型研究[J]. 农业机械学报,2020,51(S2):366-374.
Meng Dunchao, Zhao Jing, Lan Yubin, et al. SPAD inversion model of corn canopy based on UAV visible light image[J]. Transactions of the Chinese Society for Agricultural Machinery (Transactions of the CSAM), 2020, 51(S2): 366-374. (in Chinese with English abstract)
[35] 陈鹏,冯海宽,李长春,等. 无人机影像光谱和纹理融合信息估算马铃薯叶片叶绿素含量[J]. 农业工程学报,2019,35(11):63-74.
Chen Peng, Feng Haikuan, Li Changchun, et al. Estimation of chlorophyll content in potato using fusion of texture and spectral features derived from UAV multispectral image[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(11): 63-74. (in Chinese with English abstract)
[36] 陈志君,朱振闯,孙仕军,等. Stacking集成模型模拟膜下滴灌玉米逐日蒸散量和作物系数[J]. 农业工程学报, 2021,37(5):95-104.
Chen Zhijun, Zhu Zhenchuang, Sun Shijun, et al. Estimation of daily evapotranspiration and crop coefficient of maize under mulched drip irrigation by Stacking ensemble learning model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 95-104. (in Chinese with English abstract)
Estimation of nitrogen contents in citrus leaves using Stacking ensemble learning
Wu Tong1, Li Yong2※, Ge Ying2, Liu Lingjie1, Xi Shunzhong2, Ren Mengjie2, Yuan Xiaohui3, Zhuang Cuizhen3
(1.210098,; 2.,211100,; 3..,,653407,)
Leaf Nitrogen Content (LNC) is an important indicator to evaluate the quality and yield of fruits, where nitrogen is an essential nutrient element for the growth of citrus. Satellite remote sensing has been widely used to rapidly and nondestructively capture nitrogen content data for the cultivation and production of citrus in recent years. In this study, a two-layer stacking ensemble learning framework was constructed using Landsat8 OLI satellite remote sensing images and ground sample data, thereby accurately estimating the nitrogen content of citrus leaves in critical growth periods. K-Nearest Neighbor (KNN), Random Forest (RF), and Adoptive boosting (Adaboost) were utilized as base models, whereas, Linear Regression (LR) was employed as the meta-model. The LNC values were sorted from high to low and then divided into 6 groups at equal intervals. A systematic analysis was also made to compare the spectral characteristics under different LNC. There were significant differences in the spectral reflectance in the visible light range (400-760 nm) and near-infrared band (760-1 250 nm), due mainly to the absorption of chlorophyll and the multiple reflections of the canopy. The trees with higher LNC commonly presented lower spectral reflectance. The correlation coefficient between vegetation indices (VIs) and LNC was calculated to optimize the spectral features. Grid search and 5-fold cross validation were utilized to train the model, where the LNC distribution map was generated for the study area. The results showed that the Stacking presented the best performance in the testing dataset, with coefficient of determination (2) of 0.761, Mean Absolute Error (MAE) of 1.046 g/kg, Root Mean Squared Error (RMSE) of 1.366 g/kg and Mean Absolute Percent Error (MAPE) of 3.494%.. Compared with Adaboost, the best performance was achieved using individual models, where the2increased by 0.025, whereas RMSE, MAE, and MAPE decreased by 0.07, 0.109 g/kg and 0.325 percentage point, respectively. It revealed that the Stacking was fully integrated into the base models for a higher estimation accuracy. However, there was an obviously underestimated phenomenon in the measured value from each model, particularly in the LNC estimated values of >32 g/kg. Meanwhile, by comparing the Akaike Information Criterion (AIC) of each model, the AIC value of Stacking was significantly lower than other individual model, indicating that Stacking was the best LNC estimation model in the observation period of this study. In addition, soil background and model performance were discussed. The spectral information was interfered by soil background. Based on the concept of soil line, many researchers proposed some VIs to reduce the influence, which were also adopted. In this study, only spectral features were used to build the model, which limited the capability of the model. It would be considered to increase the observation periods and add texture features to construct a more comprehensive estimation model. In summary, Stacking could accurately and effectively estimate citrus LNC, providing the potential to estimate the nitrogen content in citrus leaves using satellite remote sensing.
satellite;remote sensing; models; citrus; nitrogen; stacking; vegetation index
吴彤,李勇,葛莹,等. 利用Stacking集成学习估算柑橘叶片氮含量[J]. 农业工程学报,2021,37(13):163-171.
10.11975/j.issn.1002-6819.2021.13.019 http://www.tcsae.org
Wu Tong, Li Yong, Ge Ying, et al. Estimation of nitrogen contents in citrus leaves using Stacking ensemble learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(13): 163-171. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.13.019 http://www.tcsae.org
2021-01-22
2021-06-07
“十三五”国家重点研发计划项目(2016YFA0601504);国家自然科学基金(41977394);云南省重大科技专项计划项目资助(202002AE090010)
吴彤,研究方向为农作物品质遥感监测。Email:wutonghhu@hhu.edu.cn
李勇,副教授,研究方向为农业时空数据智能处理与分析。Email:liyong@hhu.edu.cn
10.11975/j.issn.1002-6819.2021.13.019
S127
A
1002-6819(2021)-13-0163-09