基于高光谱成像的棉花叶片氮素含量遥感估测
2021-12-09张文旭佟炫梦周天航杨振康孙嘉祺王金刚王海江
张文旭,佟炫梦,周天航,杨振康,孙嘉祺,王金刚,崔 静,王海江
(石河子大学 农学院,新疆石河子832000)
氮素作为棉花生长发育的必需元素之一,其丰缺度对棉花的品质与产量具有关键作用。传统氮素营养诊断技术在取样、测定、数据分析等方面耗费人力、物力,且时效性差,不利于推广应用[1]。随着光谱技术的快速发展,特别是基于高光谱成像技术的快速无损、图谱合一的监测技术应运而生[2],弥补了传统氮素检测方法的不足。因此,利用高光谱成像技术监测植株氮素营养状况,对大范围棉花养分的精准管理具有重要的指导意义。
目前,国内外已有大量学者利用高光谱成像技术对作物氮素估测展开研究,主要集中在水稻[3]、小麦[4]等粮食作物。近几年,该技术在农业相关领域应用越来越多,例如监测棉花氮素含量[5]、土壤墒情[6]以及检测果实品质[7-8]等。原始光谱往往会受到与待测样本性质无关的环境因素干扰,导致近红外光谱的基线漂移和光谱的不重复[9],通过对原始光谱进行多种光谱变换,可降低干扰影响,有效提高模型精度。JIN等[10]利用小波变换对不同病害程度的棉花叶片的高光谱反射率数据进行信息提取和降维处理。高颖等[11]研究发现微分变换后的光谱信息对土壤养分含量的预测能力明显提升。地物光谱特征是地物目标综合属性和环境因素共同作用的表征,但利用地物全波段光谱数据估测某一特定属性时往往造成数据冗余[12],研究发现通过连续投影算法(successive projections algorithm,SPA)[13]、竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)[14]和最佳指数法(optimal index factor,OIF)[15]等技术提取目标属性的特征波段,有助于建立精度较高的估测模型。余克强等[16]采集尖椒不同叶位的高光谱数据,针对选取的特征波段和全波段,分别建立偏最小二乘回归模型,对比得出利用特征波段建立的模型精度较高。
目前,基于高光谱成像技术估测地物目标属性切实可行,且建立的模型预测精度较高。已有的研究中光谱模型构建和模型检验大多使用的是同一年的样本数据[17-19],但作物在不同年际环境条件下其光谱反射特征均有所变化,对光谱估测模型的稳定性和普适性检验方面还略显不足。本研究通过采集2019年棉花叶片不同生育时期的光谱信息,对比分析多种光谱变换形式和生育时期的估测精度,利用连续投影算法(SPA)提取特征波段,采取主成分回归(PCR)和偏最小二乘回归(PLSR)两种方法建立高光谱棉花叶片氮素含量估测模型,并利用2020年的光谱数据对模型精度进行检验,以期为棉花叶片高光谱氮素含量实时监测、精确诊断和定量管理提供理论依据。
1 材料与方法
1.1 试验设计
试验于2019~2020年在新疆石河子大学农学试验站(45°19′N,86°3′E)进行,选取棉花品种为当地主栽品种新陆早75号,该品种紧凑且叶色偏深,对氮素敏感度较高。供试土壤为灰漠土,取自石河子大学农学试验站(45°19′N,86°3′E),土壤基本性质见表1。
表1 试验土壤基本性质Table 1 Basic properties of test soil
试验设置0,75,150,300kg·hm-2共4个氮肥水平,以N0、N1、N2、N3表示,每个处理重复6次,共24个小区。常规磷钾肥处理采用当地推荐养分量,即重过磷酸钙(P2O5,46%)105kg·hm-2,硫酸钾(K2O,50%)75kg·hm-2,磷钾肥播种前全部基施,氮肥(N,46%)40%基施,60%随水追施。棉花培养期间共灌水6次,均为滴施,使其田间持水量保持在70%~80%。采样时间分别为棉花苗期、蕾期、初花期、盛花期和结铃期。
1.2 棉花叶片成像光谱数据获取
棉花近地高光谱图像采集仪器选用美国SOC公司开发的SOC710-VP便携式可见/近红外高光谱成像光谱仪和SOC710-SWIR远红外高光谱成像光谱仪(以下简称为VP和SWIR),成像采集系统包括:成像光谱仪、便携式多功能野外观测支架、可调式卤素灯、计算机、密封式箱柜及翻拍架。两台光谱仪均采用内置推扫式光谱成像技术,无需外部运动平台,可在现场获取目标地物在相应波长范围内多个波段的高光谱图像立方体,所获取的高光谱图像具有图谱合一的特点,即图像上每一个像元点都包含着丰富的光谱信息,不同性质的目标点有着不同光谱特征,兼具光谱检测和图像检测功能。VP的光谱区间在400~1000nm,光谱分辨率为5.54nm,图像分辨率为695×519,扫描速率为150~200帧·s-1;SWIR的光谱区间在900~1700nm,光谱分辨率为2.73nm,图像分辨率为639×511,扫描速率为150~200帧·s-1。
在棉花苗期、蕾期、初花期、盛花期和结铃期采集成像光谱数据,图像光谱数据通过Hyper Scanner V2软件平台进行采集。镜头垂直棉花叶片上方,同一株棉花从顶向下4片主茎叶按顺序平铺在黑色平板上,置于暗室的卤素灯下,设定拍摄高度为80cm,设定积分时间分别为34ms(VP)和80ms(SWIR)。在设定参数后进行暗电流校正,每拍摄一张高光谱影像之前,将参考板置于镜头覆盖范围内,使获取的影像中同时包含参考板和目标物。
1.3 棉花叶片氮素含量测定
将棉花叶片于105℃下杀青30min,80℃下烘干至恒重,粉碎后采用H2SO4-H2O2法消煮,使用K9840-自动凯氏定氮仪测定棉花叶片全氮含量[20]。
1.4 数据处理方法
1.4.1 感兴趣区域(ROI)选取 为消除枯斑、叶脉以及叶片不平等因素影响,利用SRAnal710e软件进行ROI选取。首先对灰板曲线进行提取,然后对数据图片进行波长定标和辐射定标,打开灰板文件,将能量值转换为反射率值,最后利用Select Region工具对反射率转换完成的图片文件提取叶片(避开棉花叶脉)3处面积为50×50nm像素纹理清晰的感兴趣区域(ROI)的平均值作为原始反射率(R)。
1.4.2 光谱预处理 为保证数据的统一性,首先对原始数据进行卷积平滑(SG)提高信噪比,过滤噪声,其他预处理均在SG基础上进行。多元散射校正(MSC)对光谱散射的影响可以有效消减;变量标准化(SNV)一般用来消除固体颗粒大小、表面散射及光程变化所带来的光谱误差,但是通常会将去趋势算法(Detrending)与变量标准化算法联合应用,用于SNV预处理光谱仪之后的进一步处理;区域归一化(Area-normalize)是一种在无法测量路径长度时对光谱进行修订,或者分离出一个特有的化学成分的特征波段,通过计算样品光谱的曲线下的面积来使光谱平滑;倒数的二阶微分(1/SG)″和对数的二阶微分[lg(SG)]″可以消除基线漂移和背景信号、提高分析精度[21]。数据的变换与处理采用Unscrambler 10X软件。
1.4.3 光谱特征信息提取 研究测定的成像高光谱数据含有320条波段,数据存在冗余现象,为避免图像的处理带来压力,通过连续投影算法(SPA)提取特征波段。SPA是一种矢量空间共线性最小化的向前变量选择法,它利用向量投影分析最大程度地消除光谱中的冗余信息,从全波段中筛选出少数几个特征波段,不仅能够减少参与建模的光谱波段个数,并且能够保证特征波段之间的共线性最小,从而提高建模效率[22]。
1.4.4 模型构建与验证 试验在每个生育时期采集64个样本,2019和2020年采集样本对应的生育时期相同,每年共采集320个样本,测定其氮素含量,舍去测定值异常样本,2019年样本数为309个,2020年样本数为315个,将2019年每个时期的样本按照氮素浓度随机选取75%作为建模集,25%作为验证集。进行年际间模型验证时,将2019年共309个作为建模集,2020年的315个样本作为验证集。模型构建与验证样本氮素含量及其描述性统计分析如表2。由表2可知,建模集样本中最大值出现在盛花期,为7.44mg·kg-1,最小值在结铃期,为2.39mg·kg-1。样本的变异系数在10%到100%之间,属于中等变异,说明数据离散程度较高,有利于模型的构建。
表2 棉花各生育时期叶片氮素含量的描述性统计分析Table 2 Descriptive statistical analysis of nitrogen content in cotton leaves at various growth stages
本研究采取主成分回归法(PCR)和偏最小二乘法(PLSR)建立基于高光谱成像的棉花叶片氮素含量预测模型。主成分回归(PCR)将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。通过主成分分析对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而这些新变量所包含的信息尽可能保持原有信息[23]。偏最小二乘模型(PLSR)是将因子分析和回归分析相结合的方法,它不仅仅考虑因变量与自变量集合的回归建模,还采用成分提取的方法,在变量系统中提取对系统有最佳解释能力的新综合变量,再对它们进行回归建模[24]。模型的精度评价主要有决定系数(coefficient of determination,R2)、均方根误差(root mean square error,RMSE)和相对分析误差(relative percent deviation,RPD)。R2越趋向1,说明模型的预测能力越稳定,RMSE可以反映模型的预测能力,RMSE越小,模型的估算能力越强[25],RPD大于2.0说明模型适于估算棉花叶片氮素含量,RPD小于1.5时,模型不可靠,RPD在1.5~2.0之间,模型的可靠性可以通过不同的建模方法得到提高[26]。
2 结果与分析
2.1 施氮量对棉花叶片氮素含量的影响
由图1可知,随着生育时期的延长,棉花叶片氮素含量呈现先升高后降低的趋势,盛花期达到最大,N0、N1、N2、N3处理下全氮含量分别为5.62,6.07,6.68,6.55mg·kg-1,除了盛花期最高含氮量出现在N2处理,为6.68mg·kg-1,其余各时期棉花叶片氮素含量均随着施氮量的增加而呈上升趋势,其中N0、N1、N2处理的叶片全氮含量差异显著(p<0.05),而N2处理与N3处理的叶片氮素含量无显著差异,所有生育时期在N0处理下全氮含量均低于3mg·kg-1。
图1 基于高光谱成像的棉花叶片氮素估测模型流程图Figure 1 Flow chart of cotton leaf nitrogen estimation model based on hyperspectral imaging
图2 各生育时期不同氮处理棉花叶片全氮含量Figure 2 Total nitrogen contents of cotton leaves under different nitrogen treatments at different growth stages
2.2 各生育时期不同氮处理棉花叶片原始光谱反射率
选择波长451~896nm和967~1600nm范围内的光谱反射特征进行分析(图3)。各生育时期不同氮素处理的棉花样本光谱反射率波形趋势大体一致,在绿波段(约550nm)处呈现明显的反射峰,最大值为0.181,在红波段(约680nm)处呈现有吸收谷的现象,最小值为0.049。在近红外波段(760~800nm)反射率走势急剧升高,最高达0.741。在967~1382nm范围内,光谱反射率随波长的增加缓慢下降,波长为1832~1452nm时,光谱反射率下降迅速,于1452nm附近存在强吸收谷,反射率最小为0.002,之后光谱反射率出现小幅上升。不同生育时期的反射率相比,结铃期最高,为0.741,苗期、初花期次之,全生育期与初花期反射率高低相近,均小于0.700,蕾期、盛花期反射率较低,均低于0.600。随着施氮量的增加,可见光-近红外波段的叶片反射率除盛花期呈递增趋势外,其余各时期均先升高后降低,其中近红外部分的增幅高于可见光部分。通过对比各生育期不同氮处理棉花叶片的原始光谱反射率,发现氮素含量高的样本其光谱反射率并不一定低,原始光谱反射率与氮素含量并未有很好的规律。
图3 各生育时期不同氮处理棉花叶片原始光谱反射率Figure 3 The original spectral reflectance of cotton leaves treated with different nitrogen at different growth stages
2.3 棉花叶片氮素敏感波段的提取与模型构建
2.3.1 氮素含量与不同光谱变换形式的相关性分析 不同变换形式下的光谱反射率与叶片氮素含量分别进行相关性分析。由图4可知,同一种光谱变换方式下,不同施氮量的相关系数变化趋势基本一致。叶片氮素含量在SG-SNV-Detrending变换、原始光谱和SG-MSC变换下,与各波段反射率的相关性变化趋势基本一致,其中,SG-SNV-Detrending变换下最大相关系数出现在1403nm,为0.602。叶片原始光谱相关系数在各个波段均低于0.400,最大值出现在766nm处,仅为0.365,SG-MSC变换和SG-Area-normalize变换下相关系数均低于0.300,即相关性较原始光谱低。(1/SG)″和[lg(SG)]″光谱变换与氮素的相关系数曲线波动幅度较大,与原始光谱相比,相关系数明显增大,最大相关系数分别出现在1114nm和1174nm,为0.522和0.496。5种变换的光谱数据中,(1/SG)″变换下的光谱数据与氮素含量的相关性最大,最大相关系数出现在1114nm处,为0.522,比原始光谱高出43%。
图4 氮素含量与6种光谱形式的相关性分析Figure 4 Correlation analysis of nitrogen content and six spectral forms
2.3.2 特征波段的提取 在相关性分析筛选出的敏感特征区域内,利用连续投影算法(SPA)分别提取原始光谱、SG-MSC、SG-SNV-Detrending、SG-Area normalize、(1/SG)″和[lg(SG)]″的特征波段(表3)。棉花叶片成像光谱特征波段相比波长350~2500nm范围内的416个波段,数目大幅下降,且在不同光谱变换方式以及不同生育期间存在差异。其中盛花期在[lg(SG)]″处理下的特征波段相对较多,为24个,而蕾期原始光谱提取的特征波段仅5个。
表3 不同光谱变换的棉花氮素含量敏感波段数Table 3 Sensitive bands of cotton nitrogen content based on different spectral transformation
2.3.3 模型构建 为更好地检验本研究中棉花叶片氮素含量预测模型的精度,分别用偏最小二乘回归(PLSR)和主成分回归(PCR)两种方法对特征波段和全波段光谱构建模型并进行对比。基于各项估算结果总体来看,特征波段所建模型精度在这两种方法中均高于全波段建模,且PLSR方法对棉花叶片氮素含量的估算精度优于PCR方法。由表4和表5可知,不同生育时期最佳光谱变换形式不同,在PLSR建模方法中,原始光谱在各时期估算精度均低于其他光谱变换方式。随着生育时期的推进,苗期至盛花期模型精度呈现升高趋势,结铃期精度下降,全生育期精度高于结铃期。由表5可知,特征波段所建模型的估算精度,苗期在SG-Area-normalize变换下最高,R2p为0.766,RMSEp为3.061,RPD为3.332;蕾期在(1/SG)′′变换下估算精度最高,R2p为0.933,RMSEp为1.621,RPD为6.292;初花期在[lg(SG)]′′变换下估算精度最高,R2p为0.896,RMSEp为2.256,RPD为4.521;盛花期在(1/SG)′′变换下估算精度最高,R2p为0.967,较原始光谱高出25.3%,RMSEp为1.222,RPD为4.590,比原始光谱提高了42.7%;结铃期和全生育期均为SG-MSC变换估算精度最高,前者R2p为0.714,RMSEp为5.242,RPD为1.946,后者R2p为0.895,RMSEp为2.148,RPD为4.344。综合各项指标来看,盛花期的(1/SG)′′光谱变换方式结合PLSR建模的模型优于其他组合,R2p为0.967,RMSEp为1.222,RPD为4.590,其稳定性、预测精度、拟合度均较高。
表4 棉花叶片氮素含量反演的全波段模型构建Table 4 Full band model construction of cotton leaf nitrogen content inversion
表5 棉花叶片氮素含量反演的特征波段模型构建Table 5 Construction of characteristic band model for cotton leaf nitrogen content inversion
续表
2.4 棉花叶片氮素含量最优估测模型的检验
为能够更好地验证模型的普适性和稳定性,利用2020年棉花叶片样本作为外部独立样本,对2019年样本建立的棉花叶片氮素估测模型进行检验(图5)。各个生育时期的叶片氮素含量的独立检验R2均大于0.540。模型的验证精度从苗期到盛花期逐渐增大,且稳定性逐渐升高,结铃期模型精度和稳定性降低,全生育期模型精度优于结铃期。苗期和蕾期由于对氮素需求相对较低,R2均小于0.600,且RMSE在0.500以上,模型验证精度较差;盛花期的模型精度最好,R2高达0.783,RMSE为0.035。
图5 基于PLSR的棉花叶片氮素含量预测值和实测值的相关性Figure 5 Correlation between predicted and measured nitrogen content in Cotton Leaves Based on PLSR
3 讨论与结论
对原始地物光谱进行数据变换是有效筛选特征波段和提高模型估测精度的重要手段[27]。本研究通过对比各生育期不同氮处理棉花叶片的原始光谱反射率,发现各波段光谱反射率与氮素含量并未呈现一致的变化规律,这或许是由于地物原始光谱反射率是其自身属性特性与外界环境因素的综合作用[28],而光谱预处理可以有效地消除噪声和基线漂移,突出光谱特征带的位置[29]。李宗飞等[30]对甜菜冠层一阶微分光谱反射率与叶绿素含量进行相关性分析,最大相关系数比原始光谱高46.9%。高洪智等[31]研究显示,样品光谱存在着基线漂移,这对特征波长的选取将会产生不利的影响,而一阶导数光谱能有效地消除原始光谱的基线漂移和背景干扰,同时也强化了谱带特征。王玉娜等[22]对重采样后的光谱数据利用二次多项式和9个平滑点数进行Savitzky-Golay平滑滤波处理,剔除依附于冠层高光谱之上的噪声信息,对去噪后的冠层光谱进行基本变换建模,精度均高于原始光谱以及光谱指数所建模型。本研究叶片原始光谱反射率与叶片氮素含量的相关系数在各个波段均低于0.400,利用(1/SG)″变换下的光谱数据与氮素含量的相关系数最高为0.522,较原始光谱提高31%。
利用全波段建模往往会造成数据冗余、模型拟合精度降低[32],连续投影算法(SPA)是在光谱矩阵中寻找含有最低限度的冗余信息的变量组,使得变量之间的共线性达到最小,最大程度地减少信息重叠[33]。本研究基于SPA筛选特征波段能够有效去除冗余信息,减少计算量,缩短建模时间[34]。JIA等[35]将SIPLS和SPA相结合,有效地从高光谱图像数据中提取小麦生物量的最佳光谱特征,生物量模型在校准中具有较高的R2c(0.790),在验证中具有较低的RMSEv(0.059kg·m-2)和RRMSEv(38.55%)。武改红等[36]利用SMLR方法通过逐个计算LAI模型中最优组合的波段,达到选择和提取LAI光谱特征波段的目的,模型R2值均大于0.596。吴倩等[37]采用相关分析法(correlational analysis,CA)与连续投影算法(SPA)分别进行土壤碳酸钙含量与光谱反射率的相关,结果显示基于连续投影算法建模精度均高于相关分析法,连续投影算法不仅变量少效率高,且在波段筛选方面较为适用。本研究分别用PLSR和PCR两种方法对特征波段和全波段光谱构建模型并进行对比,结果显示利用全波段和特征波段建立模型的最高精度均出现在盛花期的(1/SG)′′光谱变换方式,其中全波段R2p为0.757,RMSEp为4.132,RPD为2.468,特征波段的模型精度高于全波段,R2p为0.967,RMSEp为1.222,RPD为4.590。此外,全波段所建模型精度在其他各个生育时期均低于特征波段建立模型的预测精度,这与前人的研究结果一致[38],说明进行特征波段的提取是提高建模效率和模型精度的关键。
本研究结果表明,不同光谱变换下棉花叶片氮素与反射率相关性差异显著,通过5种不同光谱变换方法对棉花叶片样本光谱信息进行预处理并进行相关系数比较,筛选(1/SG)″为最佳方法,其最大相关系数出现在1114nm处,为0.522,比原始光谱高出43%。全波段建模和特征波段建模精度范围值在同一级别估算能力内,本研究采用SPA方法提取特征波段,有效减少计算量,缩短建模时间。基于特征波长建立的PCR和PLSR模型预测效果均优于全波段建模,PLSR方法对棉花叶片氮素含量的估算精度较高。研究结果显示,盛花期的(1/SG)″光谱变换方式结合PLSR建模的模型最佳,R2p为0.967,RMSEp为1.222,RPD为4.590。利用2020年的棉花样本数据对2019年棉花各时期样本数据所建模型进行验证。其中,苗期和蕾期R2均小于0.600,且RMSE在0.500以上;盛花期R2为0.783,RMSE为0.035,模型具有较高的稳定性和普适性。