基于优化植被指数组合的多品种辣椒叶片叶绿素数值估测
2023-10-12肖玖军李可相张永亮张蓝月
王 宇,汪 泓,*,肖玖军,李可相,邢 丹,张永亮,陈 阳,张蓝月
(1.贵州大学 矿业学院,贵州 贵阳 550025; 2.贵州科学院 贵州省山地资源研究所,贵州 贵阳 550001; 3.贵州省土地绿色整治工程研究中心,贵州 贵阳 550001; 4.贵州省农业科学院 辣椒研究所,贵州 贵阳 550009)
叶绿素与植被的光合作用密切相关,是直接影响植被生长状况和健康状况的重要参数[1],实时、大面积地对其进行监测具有十分重要的意义。传统叶绿素测量方法多费时费力,且提取过程中易造成色素损失[2]。便携式叶绿素仪测量值(SPAD值)和叶绿素含量具有较好的相关性,作物SPAD值是反映叶片叶绿素含量的有效指标,SPAD值越大,表明叶片叶绿素含量越高[3],因此,便携式叶绿素仪被广泛运用到作物叶片叶绿素估算中。高光谱遥感技术因其图像分辨率高、波段连续性强、高效无损等特点成为了农作物生长状况快速监测的有效手段[4]。融合SPAD值与高光谱遥感技术可实现对作物叶片叶绿素快速、无损、高效反演[5],为开展精准农业提供了重要的科学依据。
贵州是中国乃至世界重要的辣椒种植基地,其辣椒种植面积和年产量均占全国的1/6,全球的1/10,品种丰富多样,但目前针对辣椒叶片叶绿素反演的研究还未见报道,因此有必要进行相关研究。近年来,叶绿素反演成为当下研究热点,洪帅等[6]、王鑫梅等[7]对同一作物不同生育期的叶绿素进行了反演研究;田军仓等[8]分析了同一植株不同层次的叶绿素含量差别;张东彦等[9]利用无人机对植株进行多角度拍摄以研究多角度成像对叶绿素含量反演的影响。目前,对同一作物不同品种寻求最佳反演模型的研究较少。变换光谱是光谱研究中常用的改变光谱特性的方法之一,它能有效降低周围噪声和放大光谱特征[10-12],利用变换光谱替换植被指数中的原始光谱,既可以有效降低周围噪声和放大光谱特征,又可以减少算法流程和数据量。目前已有学者在其他领域应用此方法并取得很好的效果,如张贤龙等[13]将高光谱数据进行了15种变换,突出了光谱的混合信息,其研究结果表明,在log(1/R)′光谱变换下归一化土壤指数(normalized differential soil index, NDSI)的土壤盐分估算模型精度最高;段丹丹等[14]提出用对数光谱替换经典植被指数的原始光谱扩大了光谱差异,有效突出了光谱特征,其搭建的多元线性回归模型是多生育期茶叶游离氨基酸含量估算的最佳模型。以上研究表明,光谱变换后的优化植被指数不仅可以提高模型的精度,还具有较高的普适性。前人针对辣椒叶绿素反演的研究少且内容单一[15-17],郭宏亮等[16]提出利用多元线性回归模型反演辣椒叶绿素含量,但此模型存在诸多问题:如变量间存在多重共线性问题、数据容易“过拟合”,模型的稳定性和普适性也都将受到影响[18]。机器学习算法可以有效处理多变量复杂的非线性模型,能有效地代表复杂的非线性关系,且光谱信息能被充分利用进而提高模型精度。其中,随机森林模型(random forest, RF)因建模结果较精确、不易对噪声和异常情况发生反应和出现“过拟合”现象,不需要检验变量的正态性和独立性等优势[19]被广泛地应用到农业参数的反演中。如武旭梅等[20]研究表明,基于多个植被指数组合的水稻冠层叶绿素含量反演最佳模型为随机森林模型。陈澜等[5]研究表明,随机森林模型具备可以平衡不同数据集之间的整体误差、模型运算性能高等优点。王庆等[21]对比分析了偏最小二乘回归和随机森林回归两种回归模型反演甜菜SPAD值、块根鲜重等参数的差异性,提出随机森林模型在精度上优于偏最小二乘回归。袁自然等[17]研究也表明,随机森林模型为检测辣椒叶片叶绿素含量的最佳模型。
本研究以贵州遵义地区主栽辣椒类型朝天椒(辣研101号,红全球)和线椒(黔椒8号和红辣18号)为研究对象,以辣椒SPAD值和高光谱数据为基础,利用变换光谱对经典植被指数进行优化,筛选优化植被指数组合,以随机森林回归算法为研究方法对辣椒SPAD值进行估测研究,重点解决以下问题:1)对比分析不同品种辣椒SPAD值和高光谱数据之间的关系;2)探究优化植被指数组合对辣椒SPAD值估测模型的影响;3)优选高普适性模型,实现适用于多品种辣椒SPAD值的快速反演,从而为实时监测辣椒生长发育状况提供理论基础和技术支持。
1 材料与方法
1.1 试验区概况与试验设计
试验区位于贵州省遵义市新蒲新区贵州省农业科学院辣椒研究所官庄示范基地(104°18′20″E、25°19′44″N)。该试验区属亚热带季风气候,年平均降水量为1 200 mm,日照充足,适宜种植辣椒。本实验于2021年9月在决定辣椒产量和品质的盛果期[22]进行样本采集,每个品种各48个,共采集192个样本。
小区试验采用两因素裂区设计,以4个品种辣椒为主区,分别是黔椒8号、红辣18号、辣研101号、红全球;以氮肥施用量为副区,施用4种不同氮肥用量,分别为0、200、350、500 kg·hm-2,基追肥比例1∶1。试验共16个水平组合,重复3次,共计48个小区,每小区面积28.8 m2。各处理磷肥、钾肥施肥量一致,磷肥施用量为150 kg·hm-2(以P2O5计,折纯),作基肥一次性施入;钾肥施用量为300 kg·hm-2(以K2O计,折纯),按基追肥1∶1进行,追肥在初花期施用。有机肥按照每667 m2100 kg一次性基施。其中,氮肥为尿素(N质量分数46.4%),磷肥为过磷酸钙(P2O5质量分数16%),钾肥为硫酸钾(K2O质量分数50%)。试验采用软盘基质育苗,于2021年4月9日播种,移栽前按照1.2 m厢宽起垄,在椒苗达到8片真叶时以株行距0.3 m×0.6 m进行定植。四周设保护行,留0.3 m过道便于田间调查,田间管理同大田生产。
1.2 数据采集与处理
1.2.1 数据采集
采用美国ASD FieldSpec4 Standard-Res便携式地物光谱仪采集辣椒冠层光谱,测量波长为350~2 500 nm,取样间距为1 nm。选择天气晴朗、无风时测定冠层光谱,测定时间为当地时间10:00—15:00,传感器探头选用25°视场角的裸光纤,裸光纤垂直向下,距离辣椒冠层叶片高度约20 cm。每测定5株植株进行一次白板优化,每株植株重复测量5次,取平均值作为该样本冠层光谱值。
采用日本生产的SPAD-502(soil plant analysis development)叶绿素仪测定样本SPAD值,SPAD值能作为指示作物叶片叶绿素含量的相对值,SPAD值测定与光谱测量同步进行。每株植株随机选取15~20片代表性叶片进行测量,每片叶片选取上、中、下部测定6~10次,测量时避开叶脉位置,取代表性叶片的平均值作为辣椒SPAD值
1.2.2 光谱变换方法
由于叶绿素的光谱相应波段位于可见光波段和红外波段[23],故本研究选取400~1 800 nm波段进行研究。为增强光谱反射率和叶绿素之间的相关性,消除周围噪声和土壤反射率等对辣椒光谱的影响,用MATLAB软件对辣椒光谱进行Savitzky-Golay(SG)平滑处理作为原始光谱FR,将原始光谱进行倒数、对数、倒数对数、一阶微分和二阶微分变换,其变换后光谱反射率分别记为F1/R、FlgR、Flg(1/R)、FR′、FR″。
1.3 植被指数选择与组合
在前人的基础上,筛选与叶绿素相关性较高的8个植被指数(vegetation index, VI)(表1):归一化植被指数(NDVI)[24]、修正型叶绿素吸收植被指数(MCARI)[25]、改进型叶绿素吸收植被指数(TCARI)[26]、土壤调节植被指数(OSAVI)[27]、陆地植被指数(MTCI)[28]、叶绿素吸收率指数(CARI)[27]、TCARI/OSAVI(T/O)[26]、红边叶绿素指数(CIrededge)[29]。由这8个植被指数构成反演辣椒SPAD值的经典植被指数组合,再分别用光谱变换生成5种优化植被指数组合,共6种植被指数组合,记为FR-VI、F1/R-VI、FlgR-VI、Flg(1/R)-VI、FR′-VI、FR″-VI。
表1 辣椒SPAD值统计性分析
INDV=(R800-R650)/(R800+R650);
(1)
IMCAR=[(R700-R670)-0.2(R700-R550)]/(R700/R670);
(2)
ITCAR=3[(R700-R670)-0.2(R700-R550)]/(R700/R670);
(3)
IOSAV=1.16(R800-R650)/(R800+R650+0.16);
(4)
IMTC=(R750-R710)/(R710-R680);
(5)
ITCARI/OSAVI={3[(R700-R670)-0.2(R700-R550)]/(R700/R670)}/1.16(R800-R650)/(R800+R650+0.16);
(6)
ICAR=(R700-R670)-0.2(R700+R670);
(7)
ICrededge=(R780-R800)/(R690-R720)-1。
(8)
式(1)~(8)中:IND表示NDVI的值,IMCAR表示MCARI的值,ITCAR表示TCARI的值,IOSAV表示OSAVI的值,IMTC表示MTCI的值,ITCARI/OSAVI表示TCARI/OSAVI的值,ICAR表示CARI的值,ICrededg表示CIrededge的值,R550表示波长为550 nm的原始波段,R650表示波长为650 nm的原始波段,R670表示波长为670 nm的原始波段,R680表示波长为680 nm的原始波段,R690表示波长为690 nm的原始波段,R700表示波长为700 nm的原始波段,R710表示波长为710 nm的原始波段,R720表示波长为720 nm的原始波段,R750表示波长为750 nm的原始波段,R780表示波长为780 nm的原始波段,R800表示波长为800 nm的原始波段。
1.4 模型构建与精度评价
将植被指数组合中的8个指数作为自变量,实测SPAD值作为因变量,采用MATLAB软件建立随机森林模型,样本集划分采用SPXY法,其中75%的样本作为建模集,25%的样品作为验证集。
1.4.1 模型构建方法
随机森林模型是当前最好的回归模型之一,在数据集上表现良好,训练时速度快,较为容易实现,是通过集成学习的思想将多棵树集成的一种算法,主要用于高维数据分类和回归,即随机森林包含了多个CART决策树,决策树是随机森林的基本单位,每棵决策树代表一个分类器,随机森林将集成所有的分类投票结果,选取投票次数最多的结果进行输出,其本质就是集成学习法[30]。本研究中最优树个数为100,最优叶子节点个数为3。输入的变量为由光谱数据组成的训练集转变到主成分空间所得到的数据,输出的因变量为由叶绿素实测值组成的训练集。
1.4.2 精度评价
评价指标选用决定系数(R2)和平均绝对误差(MAD),通过对比2个评价指标选出最佳模型。其中,预测模型分为3个等级,当决定系数R2≥0.75且MAD≥2.0时,说明模型预测效果非常好;当0.5≤R2≤0.75且1.4≤MAD≤2.0时,说明模型预测效果一般,可对模型进行改进;当R2<0.5且MAD<1.4时,说明模型预测效果较差[31]。具体见式(9)~式(10)。
(9)
VMAD=VSD/VRMSE。
(10)
2 结果与分析
2.1 不同品种辣椒SPAD值统计性分析
采用SPXY算法对样本进行划分,其中辣研101号、红全球、黔椒8号和红辣18号4个品种建模集36个,验证集12个;全样本建模集144个,验证集48个,划分结果如表1所示:辣研101号的SPAD值最低(29.4),红全球SPAD值居中,黔椒8号SPAD值的最大值和平均值均最高(79.9、60.65),变异系数最小的是红辣18号(0.09)。4个品种辣椒的SPAD值存在明显差异,不同品种和全样本变异系数均小于30%,说明样本划分合理。
2.2 不同品种的辣椒冠层光谱特性分析
由图1可以看出,不同品种辣椒光谱反射率存在明显差异。原始反射率大小表现为辣研101号>黔椒8号>红辣18号>红全球,一阶微分、二阶微分光谱反射率大小和原始光谱表现形式一致,且原始光谱和微分光谱反射率大小和不同品种辣椒的平均SPAD值表现一致;倒数光谱、对数光谱、倒数对数光谱反射率大小与原始光谱表现相反,表现均为红全球>红辣18号>辣研101号>黔椒8号。通过一阶微分光谱反射率可得,红边位置在720 nm处,绿峰位置在521 nm处,由不同品种520~560 nm一阶微分曲线位置变化规律可知,波长向短波方向移动[32],这一波段范围出现“蓝移”现象,且“蓝移”的变化规律与4个品种辣椒平均SPAD值的表现一致。
A代表黔椒8号;B代表红辣18号;C代表辣研101号;D代表红全球。FR表示原始光谱反射率,F1/R表示倒数光谱反射率,FlgR表示对数光谱反射率,Flg(1/R)表示倒数对数光谱反射率,FR′表示一阶微分光谱反射率,FR″表示二阶微分光谱反射率。A represents Qianjiao No.8, B represents Hongla 18, C represents Layan 101, D represents Red Global. FRrepresents the original spectral reflectance, F1/R represents the reciprocal spectral reflectance, FlgR represents the logarithmic spectral reflectance, Flg(1/R) represents the reciprocal logarithmic spectral reflectance, FR′ represents the first-order differential spectral reflectance, FR″ represents the second-order spectral reflectance.图1 不同品种辣椒变换光谱反射率Fig.1 Spectral reflectance of different pepper varieties
2.3 优化植被指数与SPAD值相关性分析
为探究不同品种的优化植被指数与SPAD值之间的相关性,将8个植被指数进行光谱替换,结果如图2所示。经典植被指数中,辣研101号除CARI、MTCI、CIrededge外,其余4个植被指数均与SPAD值呈极显著(P<0.01)相关,其中,植被指数NDVI与SPAD值相关性最高,相关系数绝对值为0.417;红全球的SPAD值和植被指数相关性较差,只与NDVI呈显著相关(P<0.05),相关系数绝对值为0.303;黔椒8号的SPAD值与植被指数相关性最好,与CARI、MCARI、TCARI、T/O均呈极显著(P<0.01)相关,相关系数绝对值分别为0.520、0.542、0.542、0.279;红辣18号中只有植被指数TCARI与SPAD值呈显著(P<0.05)相关关系、T/O与SPAD值呈极显著(P<0.01)相关关系,相关系数绝对值分别为0.288、0.364。优化植被指数中,辣研101号微分光谱搭建的植被指数CARI、MCARI、MTCI、TCARI、CIrededge相关系数相比于经典植被指数显著提升,MCARI、TCARI的所有替换形式均呈极显著(P<0.01)相关,相关系数最高的是FR″-MTARI和FR″-TCARI,相关系数均为0.451。红全球大部分优化植被指数相关性不高,只有FR-NDVI、FlgR-NDVI、Flg1/R-NDVI与SPAD值呈现显著(P<0.05)相关,其中FlgR-NDVI相关系数最高,相关系数绝对值为0.28。黔椒8号中基于1/R、lgR、lg1/R优化的植被指数与经典植被指数相比相关系数无显著变化,基于R、1/R、lgR、lg1/R搭建的CARI、MCARI、TCARI、T/O与SPAD值呈极显著(P<0.01)相关,其微分光谱优化植被指数效果差。红辣18号中基于R、lgR和lg1/R搭建的CARI、MCARI、TCARI和T/O与SPAD值呈显著(P<0.05)相关,其中FlgR-CARI、Flg1/R-CARI、FlgR-MCRAI和Flg1/R-MCRAI与SPAD值呈极显著(P<0.01)相关,相关系数最高的植被指数是FlgR-MCRAI和Flg1/R-MCRAI,其绝对值均为0.49。
CARI,叶绿素吸收率指数;MCARI,修正型叶绿素吸收植被指数;MTCI,陆地植被指数;NDVI,归一化植被指数;TCARI,改进型叶绿素吸收植被指数;OSVAI,土壤调节植被指数;CIrededge,红边叶绿素指数。CARI, Chlorophyll absorption ratio index; MCARI, Modified chlorophyll absorption ratio index; MTCI, MERIS terrestrial chlorophyll index; NDVI, Normalized difference vegetation index; TCARI, Transformed chlorophyll absorption in reflectance index; OSVAI, Optimized soil-adjusted vegetation index; CIrededge, Red edge chlorophyll index.图2 SPAD值与植被指数相关性分析热力图Fig.2 Heat map of correlation analysis between SPAD and vegetation index
全样本数据搭建的植被指数与SPAD值相关性如表2所示:经典植被指数中,只有CIrededge与SPAD显著相关;而基于倒数对数优化的植被指数,除了CARI和CIrededge,其他5个植被指数均呈现显著(P<0.05)相关,相关系数绝对值取值范围为0.14~0.22。基于倒数对数优化的植被指数除CIrededge外,其余植被指数的相关系数均高于经典植被指数,表明对光谱数据进行倒数对数变换能有效提高植被指数与SPAD值之间的相关性。
表2 全样本优化植被指数与SPAD值相关性分析
2.4 优化植被指数组合的SPAD值估测模型
由表3分析可知,辣研101号中基于F1/R-VI和Flg1/R-VI搭建的模型精度相较于经典植被指数有明显提升,其中基于F1/R-VI搭建模型的建模集R2、MAD分别为0.90、2.42,R2>0.75且MAD>2,验证集R2、MAD分别为0.90、2.45,R2>0.75且MAD>2,模型预测效果最好。红全球中基于Flg1/R-VI和FlgR-VI搭建的模型效果均较好,R2均大于0.75,MAD均大于1.4小于2,模型预测效果一般,其中基于Flg1/R-VI搭建的模型的验证集表现较优,R2、MAD分别为0.94、1.58,R2>0.75且2>MAD>1.4。黔椒8号中基于FlgR-VI和Flg1/R-VI搭建的模型精度高于经典植被指数,其中Flg1/R-VI搭建的模型的建模集R2、MAD分别为0.87、2.24,验证集的R2、MAD分别为0.83、2.07,建模集和验证集的R2均大于0.75,MAD值均大于2,模型预测效果好。红辣18号中FR-VI和FlgR-VI搭建的模型精度均较高,其中FR-VI模型的建模集精度最高,R2、MAD分别为0.83、1.95,R2>0.75,MAD>2,模型效果好;验证集精度最高的是基于FlgR-VI搭建的模型,其R2、MAD分别为0.66、1.40,模型预测效果一般。基于全样本经典植被指数搭建的模型精度明显低于4个样本的模型精度,其中基于Flg1/R-VI搭建的模型精度最优,建模集的R2、MAD分别为0.83、1.90,验证集的R2、MAD分别为0.45、1.26,R2<0.5,MAD<1.4,建模集预测效果一般。微分光谱搭建的植被指数模型效果最差,不能对SPAD进行预测。
表3 优化植被指数组合估算SPAD值的RF模型结果
综上所述,辣研101号的最佳预测模型为F1/R-VI-RF(倒数光谱优化的植被指数组合搭建的随机森林模型),其次是Flg1/R-VI-RF;红全球的最佳预测模型为Flg1/R-VI-RF,其次为FlgR-VI-RF;黔椒8号的最佳预测模型为Flg1/R-VI-RF,其次为FR-VI-RF;红辣18号的最佳预测模型为FlgR-VI-RF,其次为FR-VI-RF。基于总样本的最佳模型为Flg1/R-VI-RF。辣研101、红全球、黔椒8号、红辣18号和全样本SPAD值最优模型实测值和预测值关系如图3所示。
图3 不同品种辣椒的SPAD值最优估算模型实测值与预测值关系Fig.3 Relationship between the measured value and the predicted value of SPAD optimal estimation model of different varieties of pepper
3 讨论
不同品种辣椒建模集SPAD值由大到小为黔椒8号、红辣18号、红全球、辣研101号,验证集SPAD值由大到小为黔椒8号、红辣18号、辣研101号、红全球,不同品种辣椒SPAD值由大到小为黔椒8号、红辣18号、辣研101号、红全球。线椒SPAD值不论是建模集、验证集还是全样本都高于朝天椒,这是由于不同品种的辣椒外形不同,导致冠层叶片分布存在差异,线椒呈长线型,大多垂直悬挂于冠层叶片底部,而朝天椒果实较小且坚实,朝上生长。辣椒果实颜色不同会直接影响叶片叶绿素对光能的捕获特性,影响作物进行光合作用等一系列生命活动,从而导致不同品种作物之间的SPAD值存在差异。
不同品种辣椒光谱曲线变化规律基本一致,但不同品种辣椒的冠层光谱特性存在差异。辣椒品种不同,其叶片组织结构和冠形也会存在差异[33],导致辣椒的反射率大小存在差异,且光谱变换方式不同,这种差异的显著程度也不同。由原始光谱曲线可知,叶绿素对绿光吸收较低,所以在可见光区域(400~760 nm)辣椒叶绿素反射率较低;由于光合作用对红光的吸收作用,在670 nm处形成了吸收谷,在“红边位置”反射率陡然增加至反射率最高位置,即反射率达到45%左右,这是由于叶绿素在强烈吸收红光波段;在760~1 350 nm区域由于近红外波段叶片内部进行了多次散射,反射率呈现波浪形下降,其反射率在20%~45%。
基于倒数、对数与倒数对数光谱优化的植被指数搭建的模型精度表现较好,这与文献[14]结论一致,其中基于倒数对数变换波段优化的植被指数在不同品种和全样本搭建的模型具有较好的普适性,主要在于倒数对数光谱可以突出谱线波形变化特征,增强多组光谱数据之间的峰谷特征差异,从而有利于从多谱线间的分异表现中提取敏感波段,改善对光谱特征相近地物的识别精度[34],这与文献[35]的结论一致。经典的植被指数主要是为了放大红外和近红外光谱差异[36],倒数对数变换可进一步放大光谱差异,降低周围噪声,突出敏感波段[37]。研究表明,基于对数、倒数对数光谱优化的植被指数与SPAD值之间的相关性具有一致性;类似植被指数TCARI、MCARI、OSAVI和TCARI/OSAVI这样的表达式与SPAD值之间具有较好的相关性,且它们的优化植被指数普适性相比经典植被指数有一定程度的提升,这可能与植被指数表达式构建原理有关。
尽管使用随机森林模型有效解决了线性模型带来的一系列包括过拟合问题,但过拟合现象是机器算法中常见的关键障碍,无法彻底避免。模型建模集和验证集精度差异较为明显,存在过拟合现象,这是由于遵义属于典型的喀斯特地区,地形态势起伏不定,峰丛错综复杂[38],且采集光谱数据时对天气要求高,测量时间有限,导致数据采集困难,样本量采集过少,一定程度上影响了数据的泛化能力。
4 结论
不同品种辣椒叶片光谱反射率变化趋势基本一致,但不同品种辣椒冠层光谱特性存在差异。原始光谱和微分光谱反射率大小变化趋势与不同品种辣椒平均SPAD值表现一致;对数、倒数和倒数对数光谱反射率大小变化趋势和不同品种辣椒平均SPAD值表现相反。建模集和验证集SPAD值大小变化趋势均是朝天椒小于线椒,线椒中黔椒8号的SPAD值不论建模集还是验证集都高于其他品种。基于倒数对数光谱优化的植被指数除了CIrededge外,其余植被指数的相关系数均高于经典植被指数。以Flg1/R优化的植被指数组合建立的SPAD值预测模型,对不同品种和全样本辣椒建模集和验证集都具有较好的精度,适用于贵州遵义辣椒SPAD值的预测。
上述结果仅针对不同品种辣椒盛果期SPAD值进行研究,而不同生育期的冠层光谱和SPAD值都会存在差异,盛果期可能无法代替整个生育期的信息,该模型是否适用于其他生育期SPAD估算还有待进一步探索。