基于高光谱成像技术的辣椒叶片叶绿素含量估算
2021-09-11袁自然叶寅武际方凌陈晓芳杨欣
袁自然 叶寅 武际 方凌 陈晓芳 杨欣
摘要:叶绿素是植被光合作用的重要物质,能够间接反映植被的健康状况和光合能力。高光谱技术的发展为大面积、快速检测植被叶绿素含量变化提供了可能。选取150组不同生长期的辣椒叶片作为研究对象,分别采集辣椒叶片的高光谱图像和叶绿素含量。利用随机森林特征选择算法进行数据筛选,结合线性回归、偏最小二乘回归、梯度提升回归树、随机森林回归等4种模型分别构建回归模型。结果表明:(1)利用随机森林特征选择算法筛选后波段建立的模型决定系数(r2)均大于0.8,说明该方法具有较高的稳定性和预测精度;(2)利用随机森林特征选择算法筛选的波段结合随机森林回归,其验证集的r2为0.9、均方根误差(RMSE)为1.87、平均绝对误差(MAE)为1.43。可以较为准确地预测辣椒叶片叶绿素含量,为后期利用高光谱成像技术大面积检测辣椒的生长状况提供了理论依据。
关键词:高光谱成像;辣椒叶片;叶绿素含量;随机森林特征选择算法;回归模型
中图分类号:S127 文献标志码: A 文章编号:1002-1302(2021)16-0189-04
叶绿素含量与植被光合作用效率密切相关[1],因此快速、准确地检测叶片叶绿素含量在生态学、农学上都具有重要价值。传统检测植物叶片叶绿素含量的方法须要实地调查或取样送进实验室测定,难以做到实时检测,而利用便携式叶绿素仪虽然可以做到实时检测,但需要人工反复测量,人为干扰因素较大,精度无法保证,难以适用于大面积叶绿素含量检测。而高光谱遥感技术具有光谱波段多且连续的特点,包含着丰富的信息,为快速、大面积检测植被叶绿素含量的变化提供了可能[2]。
目前,国内外高光谱成像技术已被成功用于植被叶片无损检测中,Annala等利用卷积神经网络反演叶片叶绿素含量,结果表明利用高光谱技术可以有效估算植被叶绿素含量[3]。杨婧等通过采集油菜叶片为试验样品,计算其反射光谱及反射光谱的一阶导数与叶绿素含量的相关性,通过逐步回归模型挑选敏感波段,并计算光谱指数,结果表明在蕾薹期和幼苗期通过构建BP神经网络模型能够更好地对油菜叶片叶绿素含量进行反演[4]。刘燕德等利用遗传算法(GA)、连续投影算法(SPA)和正适应加权算法(CARS)结合偏最小二乘法(PLSR)分别对赣南脐橙叶片叶绿素、水分和氮素的含量进行定量反演,结果表明高光谱技术可以对赣南脐橙叶绿素、水分和氮素含量进行快速无损定量分析[5]。
随着辣椒栽培技术的发展,辣椒种植出现规模化、多样化、大面积种植趋势,而这些新趋势也亟待通过遥感技术进行快速无损检测其长势,从而为精准农业提供决策。因此,本研究利用高光谱成像技术研究辣椒叶片叶绿素含量与光谱之间的定量关系,利用随机森林特征选择算法进行数据筛选结合线性回归(linear regression,LR)[6]、偏最小二乘回归(partial least squares regression,PLSR)[7]、梯度提升回归树(gradient boosting regressor tree,GBRT)[8]、随机森林回归(random forest regression,RFR)[9]等4种模型分别构建回归模型,以期找到最佳反演模型,为今后大面积利用高光谱遥感技术檢测田间辣椒叶片叶绿素含量提供参考依据。
1 材料与方法
1.1 试验材料
研究区位于安徽省芜湖市鸠江区沈巷镇双坝村芜湖市德弘生态农业有限公司(118°12′E,31°26′N),属亚热带温润季风气候,光照和雨量充足。试验品种为皖椒177,种植时间为2020年7月20日,采集时间为2020年9月7日。
本研究随机采集辣椒植株不同叶位共150个辣椒叶片样本,利用光谱-理化值共生距离(sample set partitioning based on joint x-y distance,SPXY)分类法[10]将总样本按照2 ∶ 1划分为建模集和验证集,即100个样本用于建模,50个样本用于验证。
1.2 叶绿素含量测定
利用日本柯尼卡美能达公司SPAD-502 Plus叶绿素计测定叶绿素含量,获得的SPAD值可以直接作为表征叶绿素含量的相对值[11]。每张叶片分为6个小区,每个小区3次重复,取其均值作为该叶片叶绿素含量的最终结果。
1.3 高光谱数据采集
测定后的叶片,用超纯水清洗,然后用吸湿纸吸去表面水分,用高光谱成像系统(四川双利合谱科技有限公司,型号:GaiaSorter,图1)采集数据。
高光谱相机与位移平台的高度为60 cm,卤钨光源距位移平台的高度为40 cm。高光谱相机配置:22 mm 镀膜消色差镜头,光谱范围为400~1 000 nm,光谱分辨率为3.5 nm,像素数为1 456×1 936,相对孔径为8,狭缝长度为14.2 mm。在暗箱中进行试验,利用公式(1)对采集后的光谱图像进行图像校正。
Rref=DNraw-DNdarkDNwhite-DNdark。(1)
式中:Rref为校正后图像;DNraw为原始图像;DNwhite为白板图像;DNdark为黑板校正图像。
1.4 数据处理和分析
利用ENVI 5.3读取辣椒叶片高光谱影像,并在图像中选取6处具有代表性的矩形感兴趣区(避开叶脉,图2)作为样本的原始光谱,加权平均后的光谱值作为原始光谱数据。去掉383~399、950~1 000 nm边缘噪声较大的光谱数据,保留 400~949 nm处的光谱数据(图3)进行下一步研究。
1.5 随机森林特征选择算法
在随机森林算法中可以很容易测量每个特征对预测结果的相对重要性。特征的有效增加能提高分类精度,但高纬度的特征互相之间可能具有相似性,继而对模型能力贡献少,并且影响计算效率[12]。基尼(Gini)系数通常可以作为衡量输入特征对模型贡献度大小的评价标准,对样本中所有特征变量来说,基于Gini系数的变量重要性评分(variable importance measures,VIM)能直观量化各个特征对模型的贡献大小,值越高特征重要性越高[13]。将原始光谱作为输入集,利用随机森林特征选择算法进行数据筛选,减少光谱的冗余信息,为后期数据分析提高效率。参数设置:树的最大深度max_depth=20,随机种子random_state=100,树的个数n_estimators=90,最大特征树max_features=10。
2 结果与分析
2.1 随机森林特征选择
从图4可知,共选择特征重要性最高的前20个波段,占总体变量的12.57%,分别为697.1、932.1、941.9、693.6、857.4、930.8、543.4、927.1、803.3、550.1、806.9、785.4、704.1、890.1、916、530、533.1、556.8、771.1、536.7 nm,从上述所选波段分布来看,主要集中于可见光波段(390~780 nm),这可能与光合作用的波段主要是可见光波段有关[14]。
2.2 模型构建
将经随机森林特征选择算法筛选后的波段作为自变量,SPAD值作为因变量。利用线性回归(LR)、偏最小二乘回归(PLSR)、梯度提升回归树(GBRT)、随机森林回归(RFR)分别构建反演模型,研究中分别利用4种方法建立高光谱辣椒叶片叶绿素含量预测模型,结果(表1)表明,LR模型预测效果相对较差,其验证集决定系数(r2)为0.83、均方根误差(RMSE)为2.39、平均绝对误差(MAE)为1.89;而 RFR模型的反演精度表现最优,其验证集r2为0.90、RMSE为1.87、MAE为1.43,为大面积田间预测提供了参考依据。
2.3 回归预测
图5是4种回归建模方法估算模型散点图。从图5可知,就验证集样本方面来看,RFR模型中的实测值和预测值更较为均匀地分布在1 ∶ 1直线的两侧。而LR算法构建的模型拟合精度则相对较差,每个模型的R2都在0.8以上,说明该方法可以有效预测辣椒叶片的叶绿素含量。
3 讨论
本研究共选择特征重要性最高的前20个波段,占总体变量的12.57%,方慧等的研究表明利用红边(700 nm左右)、绿峰位置(500~600 nm)的变量构建模型能够良好地预测叶片叶绿素含量[15],这与本研究选取的特征波段具有一致性,说明该方法可以适用于辣椒叶片高光谱数据降维工作。
叶片叶绿素含量是植物氮素状况的重要指标。叶片叶绿素含量的变化导致叶片反射率和透射光谱的波段差异。但是,从叶片到冠层光谱的过渡非常复杂。叶绿素浓度的变化和其他因素(例如冠层结构、土壤背景和叶面积指数等)强烈影响冠层光谱反射率,使冠层水平的叶绿素检测变得复杂而具有挑战性[16]。高光谱数据提供了大量相邻的波段叶片反射率,但也存在数据冗余的情况,随机森林特征选择算法,可以有效剔除无关冗余信息,减少选取波段,使模型简单,大大提高效率。
利用随机森林特征选择对光谱数据进行遴选,由特征重要性高的波段构成优势光谱数据集,使用优势光谱数据集进行训练、预测。随机森林特征选择算法筛选的波段结合随机森林回归模型适用于多特征目标的预测,同时减少了无关光谱波段信息的影响,较常规模型具有优势[9],本研究的结论与之具有一致性。
4 結论
本研究利用高光谱成像技术研究辣椒叶片叶绿素含量与光谱之间的定量关系,利用随机森林特征选择算法进行数据筛选,结合4种回归模型分别
构建回归模型,并对结果进行比较分析,结果表明:(1)利用随机森林特征选择算法筛选后的波段构建的4种回归模型中,每个模型的r2都在0.8以上,说明该方法筛选后波段构建的模型精确度和可靠性较高,其中随机森林回归相对于其他回归方法,模型精度最高,其验证集的 r2为0.90、RMSE为1.87、MAE为1.43。说明模型具有较高的稳定性和预测精度,可以满足实际预测需求,其次利用随机森林特征选择算法很大程度上降低了模型的复杂度,从而提高了模型的预测精度和稳定度,达到简化模型的目的。(2)利用随机森林特征选择算法,结合4种回归模型(LR、PLSR、GBRT、RFR)建立叶绿素含量估算模型,结果表明利用随机森林特征选择算法筛选的波段结合随机森林回归可以较为稳定地预测辣椒叶片叶绿素含量,为后期大面积检测辣椒的生长状况提供了理论依据。(3)选用辣椒叶片为研究对象,但从特征波段的选择和模型构建来说,对于其他农作物也具有重要的参考性,今后的研究可以尝试将该方法应用到其他植被叶片中。
参考文献:
[1]Richardson A D,Duigan S P,Berlyn G P,et al. An evaluation of noninvasive methods to estimate foliar chlorophyll content[J]. New Phytologist,2002,153:185-194.
[2]Wei L F,Yuan Z R,Yu M,et al. Estimation of arsenic content in soil based on laboratory and field reflectance spectroscopy[J]. Sensors,2019,19(18):3904.
[3]Annala L,Honkavaara E,Tuominen S,et al. Chlorophyll concentration retrieval by training convolutional neural network for stochastic model of leaf optical properties(SLOP)inversion[J]. Remote Sensing,2020,12(2):283.
[4]杨 婧,廖桂平,刘 凡,等. 基于高光谱成像技术的油菜叶片叶绿素含量预测[J].中国农业科技导报,2020,22(5):86-96.
[5]刘燕德,姜小刚,周衍华,等. 基于高光谱成像技术对脐橙叶片的叶绿素、水分和氮素定量分析[J].中国农机化学报,2016,37(3):218-224.
[6]朱亚东,何鸿举,王 魏,等. 高光谱成像技术结合线性回归算法快速预测鸡肉掺假牛肉[J].食品工业科技,2020(4):184-189.
[7]王惠文. 偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999:208-210.
[8]沈夏炯,张俊涛,韩道军. 基于梯度提升回归树的短时交通流预测模型[J].计算机科学,2018,45(6):222-227,264.
[9]高 伟,杨可明,李孟倩,等. 铁矿粉中全铁含量的SFIM-RFR高光谱预测模型[J].光谱学与光谱分析,2020,40(8):2546-2551.
[10]Galv O H,Araujo M U,José G E,et al. A method for calibration and validation subset partitioning[J]. Talanta,2005,67(4):736-740.
[11]朱新开,盛海君,顾 晶,等. 应用SPAD值预测小麦叶片叶绿素和氮含量的初步研究[J].麦类作物学报,2005,25(2):46-50.
[12]Tian G,Xiao Z,Zhu J J,et al. Mapping spatial distribution of larch plantations from multi-seasonal landsat-8 OLI imagery and multi-scale textures using random forests[J]. Remote Sensing,2015,7(2):1702-1720.
[13]Rodriguez-Galiano V F,Chica-Olmo M,Abarca-Hernandez F,et al. Random forest classification of mediterranean land cover using multi-seasonal imagery and multi-seasonal texture[J]. Remote Sensing of Environment,2012,121:93-107.
[14]杨可明,孙阳阳,王林伟,等. 玉米叶片叶绿素含量的高光谱反演模型探究[J].湖北农业科学,2015,54(11):2744-2748.
[15]方 慧,宋海燕,曹 芳,等. 油菜叶片的光谱特征与叶绿素含量之间的关系研究[J].光譜学与光谱分析,2007,27(9):1731-1734.
[16]Qi H X,Zhu B Y,Kong L X,et al. Hyperspectral inversion model of chlorophyll content in peanut leaves[J]. Applied Sciences,2020,10(7):2259.