基于HJ-CCD数据和随机森林算法的小麦叶面积指数反演
2016-03-21王丽爱周旭东朱新开郭文善扬州大学江苏省作物遗传生理重点实验室扬州5009扬州大学信息工程学院扬州57
王丽爱,周旭东,朱新开,郭文善※(.扬州大学江苏省作物遗传生理重点实验室,扬州 5009; . 扬州大学信息工程学院,扬州 57)
基于HJ-CCD数据和随机森林算法的小麦叶面积指数反演
王丽爱1,周旭东2,朱新开1,郭文善1※
(1.扬州大学江苏省作物遗传生理重点实验室,扬州 225009;2. 扬州大学信息工程学院,扬州 225127)
摘要:为给小麦长势的遥感监测提供技术支持,该文运用随机森林回归(RF,random forest)算法建立小麦叶面积指数(LAI)遥感反演模型。首先基于2010-2013年江苏地区小麦环境减灾卫星HJ-CCD的影像数据,提取拔节、孕穗和开花3个生育期的卫星植被指数,进而根据各生育期植被指数和相应实测LAI数据,利用RF算法构建各期小麦LAI反演模型,并以人工神经网络(ANN,artificial neural network)模型为参比模型进行预测精度的比较。结果表明:RF算法模型在3个生育期的预测结果均好于同期的ANN模型。拔节、孕穗和开花3个生育期RF模型预测值与地面实测值的R2分别为0.79,0.67和0.59,对应的RMSE分别为0.57,0.90和0.78;ANN模型的R2分别为0.67,0.31和0.30,对应的RMSE分别为0.82,1.94和1.43。该研究结果为提高大田尺度下的小麦LAI遥感预测精度提供了技术和方法。
关键词:植被;神经网络;算法;随机森林;机器学习;叶面积指数;小麦
王丽爱,周旭东,朱新开,郭文善. 基于HJ-CCD数据和随机森林算法的小麦叶面积指数反演[J]. 农业工程学报,2016,32(3):149-154.doi:10.11975/j.issn.1002-6819.2016.03.021http://www.tcsae.org
Wang Liai, Zhou Xudong, Zhu Xinkai, Guo Wenshan. Inverting wheat leaf area index based on HJ-CCD remote sensing data and random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(3): 149-154. (in Chinese with English abstract)doi:10.11975/j.issn.1002-6819.2016.03.021http://www.tcsae.org
0 引 言
叶面积指数(LAI,leaf area index)能够反映植被长势个体特征和群体特征,是农作物长势监测的一个关键生态参数[1]。近年来,随着遥感技术在农业领域的应用,众多学者已对遥感反演农作物LAI展开深入研究[2-5]。其中基于植被指数反演LAI是非常重要的研究方向[5-10]。Tavakoli等[5]研究表明基于RGB的一些指数与小麦LAI有很好的相关性,可以使用数码相机估测作物LAI。赵娟等[6]研究表明由ASD光谱仪数据所提取的RVI(ratio vegetation index)适于反演所研究地区冬小麦生长中期(拔节到抽穗前)的LAI,NDVI(normalized difference vegetation index)适于反演生长后期(抽穗到成熟期)的LAI。植被指数可基于不同的遥感数据源提取,前人对基于卫星数据的植被指数遥感反演LAI也进行了研究:何亚娟等[7]利用SPOT数据,构建了基于NDVI的二次函数模型反演甘蔗全生育期的LAI;Liu等[8]分别提取小麦、玉米和大豆的4种Landsat5/7卫星植被指数,对比研究这些指数反演各作物LAI的精度,指出反演能力最好的指数是EVI(enhanced vegetation index);郭琳等[9]基于中国自主研发的环境减灾卫星HJ-CCD数据,通过支持向量机方法建立NDVI指数与LAI的关系反演甘蔗LAI值;陈雪洋等[10]比较了4种HJ-CCD植被指数与冬小麦LAI的关系,确定反演LAI的最优指数为RVI。已有研究多基于单个植被指数反演作物LAI,而单一植被指数存在不同程度的饱和性,且每种指数只能包含部分波段的信息。为此,鉴于人工神经网络(ANN,artificial neural network)算法能同时利用多个植被指数,并能很好地拟合非线性问题,近年来,该算法已被广泛应用于构建农学参数遥感反演模型[11-13]。虽然ANN模型有一定的预测精度,但其模型参数过多,构建模型复杂。
类似于ANN,新兴的随机森林(RF,random forest)也是一种多因子机器学习算法,可以利用多个植被指数。作为目前最精确预测方法之一,RF已广泛应用于遥感领域的分类问题[14-16],取得了优于ANN的性能,并且模型构建过程比ANN简单。但迄今为止,仅有少量文献报道该算法在遥感监测预报方面的应用[17-18],尤其据我们所知,尚无基于RF算法遥感反演小麦LAI的相关研究。鉴于上述,本文首次使用RF算法并结合多个植被指数构建小麦LAI遥感反演多因子模型,旨在为提高大田尺度下遥感定量反演小麦LAI的精度提供新技术。
结合长江中下游地区小麦栽培实际,本文基于2010 -2013年际间田间试验数据和HJ-CCD影像数据,提取拔节、孕穗和开花3生育期的小麦实测LAI和相应时期的15个遥感植被指数;进而以小麦LAI值为因变量,以植被指数为自变量,利用RF构建3个生育期各自的LAI值遥感反演模型。在试验中,将各期模型反演的LAI值与地面实测LAI值进行拟合,采用决定系数(R2)和均方根误差(RMSE)进行精度检验,并与ANN模型进行精度比较。
1 研究区及数据采集
1.1研究区
本研究2010-2013年试验在江苏省开展,表1所示为每年选择的试验区,其均为江苏省冬小麦主产区。
表1 本研究试验区Table 1 Test regions in this study
1.2LAI数据获取
试验区栽培的小麦品种为扬麦13号、扬麦15号、扬麦16号和扬辐麦2号。取样时期分别为小麦拔节、孕穗和开花期。在每县设置有代表性的样点15~20个,每个样点设定取样面积为50 cm×4行(行距15~20 cm),于小麦的各生育期取长势均匀的植株15株密封带回实验室用比叶重法测定LAI。同时采用美国Trimble公司生产的Juno ST 手持式GPS进行定位,获取每个采样点的经度值和纬度值。从中国资源卫星应用中心网站下载分别与小麦拔节、孕穗和开花期准同步的HJ-CCD 影像数据。
将各生育期4 a的数据集合起来,随机分成2部分(75%和25%),75%部分作为训练样本建立模型,25%部分作为测试样本评价模型。拔节、孕穗和开花期训练样本数分别为174、174和147个;3期的测试样本数则分别为58、58和49个。
1.3影像数据及预处理
本文使用的遥感数据来自于中国自主研制的环境和灾害监测预报小卫星系统,它包括HJ-A和HJ-B 2颗卫星,每颗星都装载了空间分辨率为30 m的CCD (charge-coupled device)相机,包括4个波段:蓝光B1(430~520 nm),绿光B2(520~600 nm),红光B3(630~690 nm)和近红外光B4(760~900 nm)。
所有影像都经过辐射定标、大气校正和几何校正。辐射定标是将所有影像通过利用HJ星CCD相机的辐射定标参数从DN值转化为辐亮度图像;大气校正是运用ENVI4.7软件的FLAASH模块进行;几何校正是先参照江苏地区1∶100 000地形图进行影像粗校正,再进一步利用地面实测的GPS控制点精校正,使影像的精度能够小于1个像元。
2 研究方法
2.1植被指数
农作物LAI值与植被光谱的可见/近红外波段存在很强的相关性[19]。在敏感反映LAI的同时,为了削弱环境因素的干扰,可利用这些特征波段构建的植被指数估测LAI。本研究基于HJ-CCD相机的4个波段构建了15个已得到广泛认可且能较好地反演LAI[3, 20-21]的遥感植被指数(表2)。
表2 遥感植被指数计算公式Table 2 Formulas of remote sensing vegetation index
2.2随机森林算法
RF是由Breiman于2001年[22]提出的一种集成学习方法,该算法组合多棵决策树以提高单棵分类树或回归树的性能。在RF回归中,一棵决策树代表一组约束条件,这些条件被分层组织并先后从树根应用到树叶。RF算法的主要思想是:通过自助法(bootstrap)从原始样本集采样得到构建ntree棵树所需的ntree个子集;生成每棵树时,从规模为p的自变量集合中随机选择mtry个变量(mtry
2.3人工神经网络算法
在各种机器学习算法中,ANN是最常用的开发非线性回归模型的算法[23]。训练一个ANN,需要选择网络结构(隐含层数和每层节点的数目)、权重、学习率和训练算法。在本研究中,使用交叉验证法优化得到基于Levenberg-Marquardt算法、隐层为tan-sigmoid函数、输出层为log-sigmoid函数的两层反向传播神经网络,信号在该网络上的传播过程包括正向和反向两部分。算法基本思想是:首先正向地将信号从输入层传播至隐含层进行处理得到中间信号,再将此中间信号传播至输出层得到实际输出结果;若该结果与期望输出不符,则将其与期望输出之间的误差由输出层沿原来的连接通路向输入层反向地传播并做相应处理;交替执行正向和反向传播,直到实际输出达到期望输出,或这种学习过程达到预先设定的次数为止。
3 结果与分析
3.1小麦LAI反演模型构建
分别利用小麦拔节、孕穗和开花期的训练集,使用RF和ANN算法构建小麦LAI遥感反演模型。在各生育期的每个模型中,表2中的15个植被指数作为自变量,小麦LAI作为因变量。在RF模型构建中,首先将此算法编制成计算机程序,然后分别确定回归树数目ntree及分割节点所需变量数目mtry的取值,最后运行该程序进行建模,得到的模型本身没有明确的数学公式。根据经验及多次试验,确定3个生育期RF算法的ntree均为2000,mtry均为3。RF模型基于袋外数据集(OOB,out-of-bag data),显示了模型中15个植被指数的重要性(图1),有助于帮助理解每个指数对模型的影响力,植被指数对应的RMSE数值越大表明此指数越重要。由图1所示,拔节期除EVI的其他14个指数对应的RMSE均在0.4左右,表明这14个指数对LAI具有相似的影响力;孕穗期NRI 和MTVI2指数对应的RMSE明显高于其他13个指数的RMSE,表明它们对LAI均具有较强的影响力;开花期NRI 和NLI指数较其他13个指数对LAI的影响力较弱。
图1 RF模型中估计LAI的植被指数重要性Fig.1 Importance of vegetation indices in RF models for estimating LAI
3.2模型评价
基于各生育期独立于训练集的测试集,将每个时期2个模型反演的LAI数据与相应时期的实测数据比较,分析不同模型的预测精度。本文将模型预测值与实测值进行回归分析,采用R2和RMSE作为模型的评价指标,并绘制了模型预测值与实测值的1:1关系图,结果见图2。3个生育期的RF算法模型预测结果与同期的ANN模型相比较均表现为最佳:R2比ANN模型依次高出0.12、0.36和0.29,相应的RMSE比ANN模型依次低0.25、1.04和0.65。上述比较结果表明RF算法构建小麦LAI反演模型,可行且有很高的监测精度。在本研究中,孕穗期的小麦可能由于幼穗在冠层中占有的比例增加,而开花期小麦的麦芒等在冠层中也已占有一定比例,导致这2个生育期的RF模型反演精度均低于拔节期的RF模型精度。
图2 小麦LAI实测值与模型预测值关系图Fig.2 Relational graph of measured and predicted wheat LAI
3.3讨论
遥感获得的作物冠层光谱反射率可提供作物生长状况信息,但易受背景土壤、作物冠层结构、大气条件等因素影响,因此前人提出使用植被指数估测作物农学参数。以往基于植被指数的作物LAI遥感监测:一方面,较少考虑不同物候期对作物的影响[8-9];另一方面,很少综合不同年际间的数据进行建模及验证;再者,多数研究基于单个植被指数进行遥感监测[24-25],仅利用单一植被指数,存在不同程度的饱和性且每种指数只能包含部分波段的信息,可能会影响模型外推能力[26-27]。本研究同时涉及到2010-2013年际间小麦的3个生育期,包括拔节、孕穗和开花期,针对每个生育期,结合RF算法分别构建了以15个植被指数为自变量的多因子模型。每个RF模型显示了对反演LAI呈现明显重要性的植被指数(图1):拔节期为EVI、孕穗期为MTVI2、开花期为MSR。该结论表明,在估计作物生理参数时,不同生长阶段会影响植被指数的性能,这与前人研究结果一致[28-29]。另外,文献[10]也基于HJ-CCD影像所提取的植被指数遥感反演了小麦LAI,但是该研究仅基于一个植被指数(RVI)反演了冬小麦一个生育期(抽穗期)的LAI,且建模与验证集均基于一个年度(2009年)的数据,模型在时间维的普适性有待进一步验证。
本研究的RF模型显示出比ANN模型更好的反演结果,原因在于RF算法是集成学习算法,有助于将弱学习器组合起来形成强学习器,且2个随机性的引入(采用bootstrap法随机生成多个子样本集;从整个自变量集合中随机选取部分自变量用于分割树的节点)使得RF具有很好的抗噪声能力,也不容易陷入过度拟合;而在训练ANN网络时,可能会因为学习能力过强,使得到的模型已反映不出样本所隐含的规律,最终减弱了模型的泛化能力。
事实上,本文使用的15个植被指数中大部分存在多重共线性,但RF对共线性不敏感[30],这一点对构建模型很有价值,特别是针对复杂和非线性系统,当两个或多个变量之间存在共线性时,通常很难确定舍去哪个变量。
这2种机器学习算法本身都有自身的参数,ANN需要设定多个参数(网络结构、结点个数、训练函数、学习函数、学习率等),RF算法只需要设定2个参数(ntree 和mtry),显然增加了应用RF的便利性。
建模算法的选择对遥感定量反演的精度有很大影响。基于前期RF反演小麦叶绿素的工作基础[31],本研究利用RF遥感反演了小麦LAI值,结果表明该算法显示出较好的预测性能。后续工作将进一步研究RF可否适用到小麦或其他作物的生物量和氮含量等作物苗情诊断关键农学参数的遥感反演,以提升RF算法在农作物长势遥感监测中的应用价值。
4 结 论
本研究基于环境HJ-CCD数据和RF算法遥感反演小麦的LAI,并与ANN的预测性能进行比较,得出如下结论:
1)可以利用RF算法反演小麦LAI值,而且模型的预测精度要高于前人已使用的ANN模型:拔节、孕穗和开花期的RF模型预测值与地面实测值的R2依次为0.79,0.67和0.59,相应的RMSE依次为0.57,0.90和0.78。
2)相对于建立ANN模型的过程,基于RF算法构建模型更为简单,通常只需要优化算法本身的2个参数(ntree和mtry)。这一优势有助于该回归算法被广泛应用于作物长势遥感监测预报;作为一种集成学习算法,RF将多个弱学习器组合起来构成强学习器,从而确保模型显示出好的预测性能。
环境HJ-CCD数据可免费提供给用户使用,且数据的时效性强,可以通过不同时期的HJ-CCD数据分析小麦LAI的差异和变化。
[参考文献]
[1] 王纪华,赵春江,黄文江. 农业定量遥感基础与应用[M].北京:科学出版社,2010.
[2] Wu Mingquan, Wu Chaoyang, Huang Wenjiang, et al. High-resolution leaf area index estimation from synthetic Landsat data generated by a spatial and temporal data fusion model[J]. Computers and Electronics in Agriculture, 2015, 115: 1-11.
[3] Kross A, McNairn H, Lapen D, et al. Assessment of RapidEye vegetation indices for estimation of leaf area index and biomass in corn and soybean crops[J]. International Journal of Applied Earth Observation and Geoinformation, 2015, 34: 235-248.
[4] Fontanelli G, Paloscia S, Zribi M, et al. Sensitivity analysis of X-band SAR to wheat and barley leaf area index in the Merguellil Basin[J]. Remote Sensing Letters, 2013, 4(11): 1107-1116.
[5] Tavakoli H, Mohtasebi S S, Alimardani R, et al. Evaluation of different sensing approaches concerning to nondestructive estimation of leaf area index for winter wheat[J]. International Journal on Smart Sensing and Intelligent Systems, 2014, 7(1): 337-359.
[6] 赵娟,黄文江,张耀鸿,等. 冬小麦不同生育时期叶面积指数反演方法[J]. 光谱学与光谱分析,2013,33(9):2546-2552. Zhao Juan, Huang Wenjiang, Zhang Yaohong, et al. Inversion of leaf area index during different growth stages in winter wheat[J]. Spectroscopy and Spectral Analysis, 2013, 33(9): 2546-2552. (in Chinese with English abstract)
[7] 何亚娟,潘学标,裴志远,等. 基于SPOT遥感数据的甘蔗叶面积指数反演和产量估算[J]. 农业机械学报,2013,44(5):226-231. He Yajuan, Pan Xuebiao, Pei Zhiyuan, et al. Estimation of LAI and yield of sugarcane based on SPOT remote sensing data[J]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(5): 226-231. (in Chinese with English abstract)
[8] Liu Jiangui, Pattey E, Jégo G. Assessment of vegetation indices for regional crop green LAI estimation from Landsat images over multiple growing seasons[J]. Remote Sensing of Environment, 2012, 123: 347-358.
[9] 郭琳,裴志远,张松龄,等. 基于环境星CCD 图像的甘蔗叶面积指数反演方法[J]. 农业工程学报,2010,26(10):201-205. Guo Lin, Pei Zhiyuan, Zhang Songling, et al. Estimationmethod of sugarcane leaf area index using HJ CCD images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(10): 201-205. (in Chinese with English abstract)
[10] 陈雪洋,蒙继华,杜鑫,等. 基于环境星CCD数据的冬小麦叶面积指数遥感监测模型研究[J]. 国土资源遥感,2010,22(2):55-62. Chen Xueyang, Meng Jihua, Du Xin, et al. The monitoring of the winter wheat leaf area index based on HJ-1 CCD data[J]. Remote Sensing for Land and Resources, 2010, 22(2): 55-62. (in Chinese with English abstract)
[11] Chen Bangqian, Wu Zhixiang, Wang Jikun, et al. Spatio-temporal prediction of leaf area index of rubber plantation using HJ-1A/1B CCD images and recurrent neural network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 102: 148-160.
[12] Verrelst J, Munoz J, Alonso L, et al. Machine learning regression algorithms for biophysical parameter retrieval: Opportunities for Sentinel-2 and -3[J]. Remote Sensing of Environment, 2012, 118(4): 127-139.
[13] 夏天,吴文斌,周清波,等. 冬小麦叶面积指数高光谱遥感反演方法对比[J]. 农业工程学报,2013,29(3):139-147. Xia Tian, Wu Wenbin, Zhou Qingbo, et al. Comparison of two inversion methods for winter wheat leaf area index based on hyperspectral remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(3): 139-147. (in Chinese with English abstract)
[14] Jhonnerie R, Siregar V P, Nababan B, et al. Random forest classification for mangrove land cover mapping using Landsat5 TM and Alos Palsar imageries[J]. Procedia Environmental Sciences, 2015, 24: 215-221.
[15] Nitze I, Barrett B, Cawkwell F. Temporal optimization of image acquisition for land cover classification with Random forest and MODIS time-series[J]. International Journal of Applied Earth Observation and Geoinformation, 2015, 34: 136-146.
[16] Gislason P O, Benediktsson J A, Sveinsson J R. Random Forests for land cover classification[J]. Pattern Recognition Letters, 2006, 27(4): 294-300.
[17] Liu Meiling, Liu Xiangnan, Liu Da, et al. Multivariable integration method for estimating sea surface salinity in coastal waters from in situ data and remotely sensed data using random forest algorithm[J]. Computers and Geosciences, 2015, 75: 44-56.
[18] Mutanga O, Adam E, Azong Cho M. High density biomass estimation for wetland vegetation using WorldView-2 imagery and random forest regression algorithm[J]. International Journal of Applied Earth Observation and Geoinformation, 2012, 18(1): 399-406.
[19] 延森. 遥感数字影像处理导论[M]. 北京:机械工业出版社,2007:288-296.
[20] Nguy-Robertson A, Gitelson A, Peng Y, et al. Green leaf area index estimation in maize and soybean: Combining vegetation indices to achieve maximal sensitivity[J]. Agronomy Journal, 2012, 104(5): 1336-1347.
[21] Liu Jiangui, Pattey E, Jego G. Assessment of vegetation indices for regional crop green LAI estimation from Landsat images over multiple growing seasons[J]. Remote Sensing of Environment, 2012, 123: 347-358.
[22] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[23] Haykin S. Neural Networks: A Comprehensive Foundation[M]. 2nd Ed. Prentice Hall, New Jersey, America, 1999.
[24] 夏天,周清波,陈仲新,等. 基于HJ-1卫星的冬小麦叶片SPAD遥感监测研究[J]. 中国农业资源与区划,2012,33(6):38-44. Xia Tian, Zhou Qingbo, Chen Zhongxin, et al. Monitoring winter wheat SPAD based on HJ-1 CCD[J]. Chinese Journal of Agricultural Resources and Regional Planning, 2012, 33(6): 38-44. (in Chinese with English abstract)
[25] 王来刚,王备战,冯伟,等. SOPT-5与HJ遥感影像用于冬小麦氮素监测的效果对比[J]. 麦类作物学报,2011,31(2):143-148. Wang Laigang, Wang Beizhan, Feng Wei, et al. Comparative analysis of monitoring winter wheat nitrogen with SPOT 5 and HJ image[J]. Journal of Triticeae Crops, 2011, 31(2): 143-148. (in Chinese with English abstract)
[26] 梁栋,管青松,黄文江,等. 基于支持向量机回归的冬小麦叶面积指数遥感反演[J]. 农业工程学报,2013,29(7):117-123. Liang Dong, Guan Qingsong, Huang Wenjiang, et al. Remote sensing inversion of leaf area index based on support vector machine regression in winter wheat[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(7): 117-123. (in Chinese with English abstract)
[27] 王大成,王纪华,靳宁,等. 用神经网络和高光谱植被指数估算小麦生物量[J]. 农业工程学报,2008,24(2):196-201. Wang Dacheng, Wang Jihua, Jin Ning, et al. ANN-based wheat biomass estimation using canopy hyperspectral vegetation indices[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2008, 24(2): 196-201.(in Chinese with English abstract)
[28] Li Fei, Mistele B, Hu Yuncai, et al. Remotely estimating aerial N status of phenologically differing winter wheat cultivars grown in contrasting climatic and geographic zones in China and Germany[J]. Field Crops Research, 2012, 138(3): 21-32.
[29] Hatfield J L, Prueger J H. Value of using different vegetative indices to quantify agricultural crop characteristics at different growth stages under varying management practices[J]. Remote Sensing, 2010, 2(2): 562-578.
[30] Cutler R D, Edwards T C, Beard K H, et al. Random forests for classification in ecology[J]. Ecology, 2007, 88(11): 2783-2792.
[31] 王丽爱,马昌,周旭东,等. 基于随机森林回归算法的小麦叶片SPAD值遥感估算[J]. 农业机械学报,2015,46(1):259-265. Wang Liai, Ma Chang, Zhou Xudong, et al. Estimation of wheat leaf SPAD value using RF algorithmic model and remote sensing data[J]. Transactions of the Chineses Society for Agricultural Machinery, 2015, 46(1): 259-265. (in Chinese with English abstract)
Inverting wheat leaf area index based on HJ-CCD remote sensing data and random forest algorithm
Wang Liai1, Zhou Xudong2, Zhu Xinkai1, Guo Wenshan1※
(1. Key Laboratory of Crop Genetics and Physiology of Jiangsu Province, Yangzhou University, Yangzhou 225009, China; 2. Information Engineering College of Yangzhou University, Yangzhou 225127, China)
Abstract:The leaf area index (LAI) of crops is an important parameter for crop monitoring. With the remote sensing application in agriculture, inverting LAI of crops from remote sensing data has been studied. Among these studies, vegetation indices are widely used because they can reduce effect background noise on the spectral reflectance of plant canopies. In addition to using vegetation indices, modeling algorithm also plays an important role in improving the remote estimation accuracy of crop LAI. Recently, the emerging Random Forest (RF) machine-learning algorithm is regarded as one of the most precise prediction methods for regression. In this paper, we conducted studies on wheat LAI estimations utilizing RF algorithm and vegetation indices. Firstly based on China’s environmental satellite charge-coupled device (HJ-CCD) image data of wheat (Triticum aestivum) from test sites in Jiangsu province of China during 2010-2013, fifteen vegetation indices from previously reported results and related LAI were respectively calculated at the jointing, booting, and anthesis stages. Then, through utilizing RF algorithm, the LAI inverting model for each stage was respectively established based on its vegetation indices and corresponding in situ wheat LAI measured during the HJ-CCD data acquisition. For each stage, the pooled data from 2010-2013 were randomly divided into a training dataset and an independent model validation dataset (75% and 25% of the pooled data, respectively). For the training dataset, the number of samples was 174 at jointing, 174 at booting, and 147 at anthesis. For the validation dataset, the number of samples was 58 at jointing, 58 at booting, and 49 at anthesis. The training dataset was used to establish models to predict wheat LAI during each growth stage, and the validation dataset was employed to test the quality of each prediction model. The RF model of each stage for estimating wheat LAI was then established in which the 15 vegetation indices were considered to be the independent variables and wheat LAI was the dependent variable. Additionally for each stage, the model based on artificial neural network (ANN) machine-learning algorithm was employed as a reference model, which had been successfully used to invert LAI of crops in previous studies. In order to evaluate each model’s estimation accuracy and to further compare the performances of the two models for each stage, the coefficients of determination (R2) and the corresponding root mean square errors (RMSE) for the estimated-versus-measured LAI were calculated respectively on the basis of the corresponding validation data. The results indicated that RF outperformed ANN at each stage. For RF models, the R2for the estimated-versus-measured LAI values for the three stages were 0.79, 0.67, and 0.59, respectively, in contrast to 0.57, 0.90, and 0.78 from RMSE. For ANN models, the R2for the three stages was 0.67, 0.31, and 0.30, respectively, and the corresponding RMSE was 0.82, 1.94, and 1.43. Furthermore, RF showed the vegetation index of model that noticeably contributed to the LAI estimation for each stage (i.e., EVI at jointing, MTVI2 at booting, and MSR at anthesis). Thus, the RF algorithm provides an effective way to improve the prediction accuracy of LAI in wheat on a large scale.
Keywords:vegetation; neural networks; algorithms; random forest; machine-learning; leaf area index; wheat
通信作者:※郭文善,男,博士生导师,江苏人,教授,研究方向为作物栽培生理与信息农业。扬州扬州大学江苏省作物遗传生理重点实验室,225009。Email:guows@yzu.edu.cn
作者简介:王丽爱,女,博士,山西人,研究方向为农业遥感应用研究。扬州扬州大学江苏省作物遗传生理重点实验室,225009。Email:wla001@163.com
基金项目:国家自然科学基金(31271642);江苏省高校自然科学基金(12KJB520018);省属高校国际科技合作聘专重点项目;"六大人才高峰"高层次人才项目(2011-NY039);江苏省高校优秀科技创新团队项目。
收稿日期:2015-07-28
修订日期:2015-12-23
中图分类号:S127;TP79
文献标志码:A
文章编号:1002-6819(2016)-03-0149-06
doi:10.11975/j.issn.1002-6819.2016.03.021