利用多种回归模型对比估算琯溪蜜柚叶片钾素含量
2022-07-21栗方亮孔庆波张青
栗方亮 孔庆波 张青
摘 要:鉀素是蜜柚营养三要素之一,是准确诊断和定量评价生长状况的重要指标,建立合适的蜜柚叶片钾素含量高光谱估算模型,为实现快速、无损、精确的钾素含量估测提供依据。基于蜜柚叶片高光谱数据和钾素含量实测数据,首先分析蜜柚叶片钾素含量与原始及一阶微分光谱的相关性,然后分析与敏感波段植被参数的相关性,并找出相关性较好的光谱参数,建立蜜柚叶片钾素含量偏最小二乘回归模型(PLS)、BP神经网络回归模型(BPNN)、随机森林回归模型(RF)和支持向量机回归模型(SVM),并确定蜜柚叶片钾素含量最佳估算模型。在513~598 nm和699~735 nm处,蜜柚叶片钾素含量与原始光谱反射率呈显著负相关,最大负相关系数分别为‒0.47(554 nm)和‒0.45(715 nm)。在507~552 nm和691~711 nm处,蜜柚叶片钾素含量与一阶微分光谱反射率呈显著负相关,最大负相关系数分别为‒0.54(528 nm)和‒0.53(702 nm);在557~655 nm处,二者呈显著正相关,最大正相关系数为0.58(579 nm)。选择554、715、528、579、702 nm构建光谱参数,建立差值植被指数(DVI)、比值植被指数(RVI)和归一化植被指数(NDVI)等,其中与蜜柚叶片钾素含量相关性较好的光谱参量为NDVI′、RVI、RVI′、R′。建立PLS、BPNN、RF和SVM等4种回归模型估算蜜柚叶片钾素含量并进行对比验证,4种估算模型的决定系数()分别为0.72、0.74、0.84和0.81,均方根误差(RMSE)分别为2.44、2.28、1.49和1.61;相对误差(RE)分别为9.95%、9.01%、7.84%和8.01%。验证模型的R分别为0.79、0.84、0.85和0.82,RMSE分别为1.69、1.48、1.34和1.41,RE分别为8.47%、7.70%、6.12%和6.35%,RF估算模型精度稍高于PLS、BPNN和SVM估算模型。
关键词:高光谱;蜜柚;钾素;光谱指数中图分类号:S666.3;S127 文献标识码:A
Comparative Estimation of Potassium Contents in Guanxi Honey Pomelo Leaves by Multiple Regression Models
LI Fangliang KONG QingboZHANG Qing
Institute of Soil and Fertilizer, Fujian Academy of Agricultural Sciences, Fuzhou, Fujian 350013, China
Potassium (K) is one of the three nutrient elements of honey pomelo, which is an important index for accurate diagnosis and quantitative evaluation of growth status. The hyperspectral estimation model of K contents in honey pomelo leaves was established to provide basis for rapid, non-destructive and accurate estimation of K contents. Based on the hyperspectral data of pomelo leaves and the measured data of K contents, this study first analyzed the correlation between the K contents of pomelo leaves and the original and first-order differential spectra, then analyzed the correlation between sensitive band vegetation index and the K contents of pomelo leaves, and found out the spectral parameters with good correlation with the K contents of pomelo leaves, then the partial least squares regression model (PLS), BP neural network regression model (BPNN), random forest regression model (RF) and support vector machine regression model (SVM) of pomelo leaves K contents were established, and the best estimation model of K contents in pomelo leaves was determined. In the measured band of 350‒1050 nm, the spectral reflectance of pomelo leaves decreased with the increase of K contents. In 513‒598 nm and 699‒735 nm, it reached a significant negative correlation level, the maximum negative correlation coefficient was ‒0.47 (554 nm) and ‒0.45 (715 nm), respectively. In 507‒552 nm and 691‒711 nm, potassium in pomelo leaves reached a significant negative correlation level with the first-order spectral reflectance, the maximum negative correlation coefficient was ‒0.54 (528 nm) and ‒0.53 (702 nm). In 557‒655 nm, it reached a significant positive correlation level, and the maximum positive correlation coefficient was 0.58 (579 nm). 554, 715, 528, 579, 702 nm were selected to construct the spectral parameters and establish the difference vegetation index (DVI), ratio vegetation index (RVI) and normalized difference vegetation index (NDVI)). NDVI¢, RVI, RVI¢, R¢were the spectral parameters that had good correlations with the K contents of pomelo leaves. Four regression models such as PLS, BPNN, RF and SVM were established to estimate K content in pomelo leaves and verified. , RMSE and RE of the estimation model of pomelo leaves K contents established by RF method was 0.84, 1.49 and 7.84%, respectively. , RMSE and RE of the estimation model by SVM method were 0.81, 1.61 and 8.01% respectively. While , RMSE and RE of the estimation model by BPNN method were 0.74, 2.28 and 9.01% respectively; , RMSE and RE of the estimation model by PLS method were 0.72, 2.44 and 9.95% respectively. of the validation model of PLS, BPNN, RF and SVM methods were 0.79, 0.84, 0.85 and 0.82 respectively. Compared with PLS, BPNN and SVM, RF had higher , lower RMSE and lower RE, indicating that the accuracy of RF based K contents estimation model was higher than that of PLS, BPNN and SVM. Through the comparison of four hyperspectral estimation models for K contents in Guanxi honey pomelo leaves, the accuracy of random forest estimation model was higher than that of PLS, BPNN and SVM.
hyperspectral; honey pomelo; K element; spectral index
10.3969/j.issn.1000-2561.2022.06.012
琯溪蜜柚原产于福建省漳州市平和县,距今已有500多年的栽培历史,截至2016年,其栽培面积达4.33万hm,年产量120万t。钾(K)作为蜜柚营养三要素之一,又是品质和抗逆元素,在作物体内含量仅次于氮,钾与淀粉合成、蔗糖转运、呼吸蒸腾、脂类合成等密切相关,对产量及品质有显著影响。缺钾限制植物生长、代谢、抗逆性降低、破坏作物光合器官,使叶片净光合速率降低,施钾过多则会导致养分含量过高、增加成本、污染土壤和环境,适宜的钾供应对作物生长至关重要。因此,蜜柚树体叶片钾含量实时监测,及时准确地科学制订蜜柚变量施肥方案,对提高果园产出意义重大。高光谱技术可以直接快速准确地定量分析地物微弱的光谱差异,这为定量分析植物钾含量与光谱参数之间的相关联系提供了新途径。近年来,高光谱技术发展迅速,国内外也对植物钾素高光谱含量方面开展了研究。如LU等利用高光谱反射的非负矩阵分解方法研究了水稻植株钾素积累。邓海龙等发现苹果叶片钾含量与原始光谱反射率对数的一阶导数的相关性最好。朱西存等利用模糊识别算法建立了苹果花期冠层钾素含量估测模型。BP神经网络模型和多元逐步回归方法可用于建立烤烟叶片钾含量模型。偏最小二乘回归和最小二乘支持向量机回归可较好地预测橡胶树和柑橘等叶片钾素含量。岳学军等研究表明通过分析光谱数据可精确反演柑橘叶片钾素含量。
虽然对植物钾素含量的高光谱诊断较多,但由于影响高光谱诊断的因素多,尤其是植物类型和研究方法的不同,必然对钾素的影响有很大差异,现今并无形成所有植物都可用的高光谱钾素估算模型,预测模型不具备普适性,应用效果也有待验证。而蜜柚果园生长过程的变异性很大,进行均一的施肥管理无法满足不同果树个体的需求,往往导致施肥量过高或过低。采用光谱参数对蜜柚叶片营养进行的相关研究还比较缺乏,而偏最小二乘(PLS)、随机森林(RF)、BP神经网络(BPNN)和支持向量机(SVM)等方法是处理光谱数据的良好化学计量学方法,选择最合适的回归模型尤为重要。本研究利用高光谱技术对琯溪蜜柚叶片钾素含量进行估测,分析蜜柚叶片钾素含量与光谱反射率原始光谱、一阶微分光谱及光谱指数的相关性,挑选较为稳定的光谱参数,分别采用PLS、RF、BPNN和SVM回归算法建立蜜柚叶片钾素含量估算模型并进行验证和对比,旨在探索蜜柚叶片钾素含量快速准确估测的技术方法,为大面积的蜜柚营养诊断和蜜柚生产管理提供依据。
材料与方法
材料
1.1.1 试验区概况 平和县地处福建省漳州市西南部,地理坐标在24°02¢N~24°35¢N,116°54¢E~ 117°31¢E之间,属南亚热带季风气候,年平均气温21.3℃,降雨量约1700 mm,无霜期318 d。是我国最大的柚类商品基地县,被誉为“中国琯溪蜜柚之乡”,产量约占全国总量的25%。
1.1.2 样品采集 采集点位于平和县霞寨镇黄庄村、南胜镇前山村和坂仔镇心田村。选用琯溪蜜柚[ (L.) Osbeck cv. guanximiyou]红心蜜柚品种,大小株高基本一致,10年树龄。蜜柚叶片采集时间分别为2020年4月、7月和11月,对应盛花期、果实膨大期和花芽分化期,采集每棵树体东西南北和上下层共10片叶作为一个样本,选取从顶梢起向下数的第3和第4片大小均匀的健康叶片。叶片采集后装入保鲜袋,放入有冰块的塑料箱中运回,并进行编号,测试前洗净擦干。一共选取360组叶片样本,随机分为建模组(含270个样本)和预测组(含90个样本)。
1.1.3 蜜柚叶片高光谱数据采集 数据采集仪器为地物光谱仪Field Spec 3(美国Analytical Spectral Devices公司)。蜜柚叶片光谱采样时,展平置于平台,每叶片样品同时采集10条光谱曲线,剔除异常值后取其平均值作为蜜柚叶片样品的光谱反射率值。采用Savitzky-Golay卷积平滑法进行光谱预处理。
1.1.4 蜜柚叶片钾素的测定 光谱测量结束后,立即在105℃杀青30 min,再将温度调回70℃烘至恒重,粉碎过筛(0.5 mm),采用HSO-HO法消煮,火焰光度计测定含钾量。
方法
1.2.1 偏最小二乘法 偏最小二乘回歸(partial least squares,PLS)是从应用领域提出的新的多元数据分析技术,主要研究多因变量或单因变量对多自变量的回归建模,它最简单的形式是因变量与自变量之间的线性回归模型。
1.2.2 BP神经网络 BP神经网络(back propagation neural network,BPNN)由输入层,隐含层和输出层组成。本研究以筛选出的相关性较高的光谱指数作为输入层,以蜜柚叶片钾素含量作为输出层,根据输入层节点数,经过反复训练,试验不同隐含层节点数,选取最佳神经网络模型,建立模型并检验模型效果。
1.2.3 随机森林 随机森林(random forest,RF)通过自助法(bootstrap)重抽样技术,由随机向量θ(即回归树)构成组合模型。对每个bootstrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。随机森林回归模型具较高的预测准确率,对复杂数据具有良好的适应性,能够有效分析非线性、共线性和具有交互作用的数据。
1.2.4 支持向量机 支持向量机(support vector machine, SVM)是目前发展较快的机器学习方法,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
数据处理
结果与分析
蜜柚叶片钾素含量与其原始和一阶微分光谱相关分析
结果表明,建模样本蜜柚叶片K素总平均值为16.16 g/kg,最小值为7.88 g/kg,最大值为24.81 g/kg,K素含量离散程度较高。验证样本蜜柚叶片K素总平均值为15.90 g/kg,最小值為8.21 g/kg,最大值为23.04 g/kg。
对蜜柚叶片钾素含量与其原始(图1)和一阶微分光谱进行相关分析(图2)发现,蜜柚叶片的原始光谱反射率与叶片钾素含量为负相关关系(图1),350~1050 nm波段的蜜柚叶片光谱反射率随着钾素含量的升高而降低,钾素含量越高,吸收越强。且在波段513~598 nm和699~ 735 nm达到了显著负相关水平(<0.05),最大负相关系数分别为‒0.47(554 nm)和‒0.45(715 nm)。554 nm和715 nm这2个波长可以作为原始光谱中估测蜜柚叶片钾素含量的敏感波长。
结果表明,在波段507~552 nm、691~711 nm,蜜柚叶片钾素与一阶光谱反射率达到了显著负相关水平(<0.05)(图2),其中在波段514~549 nm、696~707 nm达到了极显著负相关水平(<0.01),其中最大负相关系数分别为‒0.54(528 nm)和‒0.53(702 nm)。在波段557~655 nm达到了显著正相关水平(<0.05),其中在波段563~637 nm达到了极显著正相关水平(<0.01),最大正相关系数为0.58(579 nm)。选择528、702、579 nm这3个波长作为一阶光谱中估测蜜柚叶片钾素含量的敏感波长。而在800 nm之后其相关性变化无明显正负规律。
蜜柚叶片钾素含量与各种光谱参数的相关分析
选取原始光谱2个敏感波长(554 nm和715 nm)、一阶微分光谱3个敏感波长(528、579、702 nm),进行光谱参数的构建,建立差值植被指数(DVI=R-R)、比值植被指数(RVI=R/R)和归一化植被指数(NDVI=(R-R)/(R+R)3种植被指数(表1)。对上述敏感波段反射率和3种植被指数与蜜柚叶片钾素含量进行相关分析(表1)。其中,相关系数r较大的(>0.57)为NDVI¢、RVI、RVI¢、R¢。
多种蜜柚叶片钾素含量估测模型对比
为了克服单变量回归模型只考虑一个变量对于钾素含量值的影响,选择光谱参量中相关性好的变量(NDVI′、RVI、RVI′、R′),分别采用偏最小二乘(PLS)、BP神经网络(BPNN)、随机森林(RF)、支持向量机(SVM)等方法,对比建立蜜柚叶片钾素含量高光谱估算模型并进行验证,结果见表2。由表2可以看出,随机森林法估算蜜柚叶片钾素含量,其建模决定系数、RMSE和RE分别为0.84、1.49和7.84%,建模精度最高。表明采用随机森林法的蜜柚钾素含量估算模型具有较高可靠性。而SVM估算蜜柚叶片钾素含量,其建模、RMSE和RE分别为0.81、1.61和8.01%,建模精度次之;而BPNN法估算蜜柚叶片钾素含量,其建模、RMSE和RE分别为0.74、2.28和9.01%;PLS法估算蜜柚叶片钾素含量,其建模、RMSE和RE分别为0.72、2.44和9.95%。各种模型验证结果如图3所示,PLS、BPNN、RF和SVM方法验证决定系数分别为0.79、0.84、0.85和0.82,预测值和实测值拟合较好。其中RF验证模型,与PLS,BPNN和SVM相比,RF具有较高的,较低的RMSE以及较低RE,说明基于RF的蜜柚叶片钾素含量估算模型精度比PLS、BP NN和SVM模型精度稍高。
讨论
本研究分析了蜜柚叶片钾素含量与光谱反射率原始光谱、一阶微分光谱及光谱指数的相关性,挑选出较为稳定的光谱参数,然后分别采用PLS、RF、BPNN和SVM回归算法建立蜜柚叶片钾素含量估算模型并进行了验证。发现在350~ 1050 nm波段范围内,原始光谱反射强度与钾含量基本都呈负相关关系,这可能是因为蜜柚叶片缺钾时其叶片的内部和表皮细胞的结构产生变化,导致叶片RuBP羧化酶活性降低,叶绿素含量降低,反射的蓝绿光增加,吸收的红光减少;在近红外波段范围,钾营养水平越低,反射率越高,这可能是缺钾叶片表皮细胞发生变化,叶面厚度增加,叶片海绵和栅栏组织细胞收缩和局部破裂。而LU等发现,当波长小于742 nm时,原始光谱反射率与水稻叶片钾含量呈正相关。当波长大于1255 nm时,短波红外区的光谱反射率与叶片钾含量呈显著负相关。蜜柚作为多年生常绿果树,其叶片与水稻等作物的结构差别大,其内在生理生化机理还有待深入研究。
虽然目前的研究中,没有一种光谱指数能够成功地预测任何一种叶片养分。但光谱指数通过特征波段的组合可以在一定程度上消除周围环境条件仪器等的影响。已有研究使用不同的光譜指数来预测不同作物的叶片营养。如SHI等、WANG等和PATIL等利用归一化光谱指数有效地估算了不同植物种类叶片的N、P或K含量。LU等发现归一化光谱指数(NDSI)、比值光谱指数(RSI)和差值光谱指数(DSI)与水稻叶片钾含量有很好的相关性(=0.68)。本研究选取了原始光谱和一阶微分敏感波长反射率、差值光谱指数、比值光谱指数和归一化光谱指数作为高光谱参数,对蜜柚叶片钾素含量与高光谱参数相关分析表明,光谱指数相关系数大多大于单波段,大多指数预测精度不高。使用几个波长的光谱指数来预测营养物质提供了一种简单的方法,已被广泛应用于作物钾营养的估算,但未考虑隐藏在光谱或波长的其他部分中的信息,关于光谱或光谱指数表现不佳的结果与[24, 28-29]等文献报道的结果一致。
目前遥感模型建立过程中,算法是其很重要的步骤,选择一种适宜的算法,有助于提高遥感预测的精度。本研究发现,在建立的蜜柚叶片钾素含量的4个模型中,都较高,RMSE也都较小,而且RE均小于10%,表明拟合效果较好,模型稳定性也较高,预测能力较强,其估算模型的精确程度为RF>SVM>BPNN>PLS。RF估算和验证模型精度稍高于PLS、BPNN和SVM,其原因是RF能高效处理数据集,对数据的噪声鲁棒性较好。RF算法随机引入的决策树数目和创建分枝所需要的自变量数目2个因子,增强了随机森林的抗噪性,也防止了过度拟合。PLS将最有用的信息提取,有效地排除了包括背景信号等次要信息,在高光谱分析中被广泛采用,比多元线性回归模型对异质性更具敏感性,并且降低了背景影响,但由于营养元素范围较低,营养元素和反射光谱之间的关系较弱,阻碍了该模型的发展。BPNN模型虽也具有较强的非线性解释能力,能有效改善低估和高估现象,这与模型特性、测定时期和所用数据有关,但是在训练过程中有可能过多地学习了细节,学习的模型已不能反映样本内含的规律,如孙小香等发现利用5个指标构建的水稻叶片氮素BP神经网络模型与多元线性回归相比没有优势,而经逐步回归后筛选出的2个指标构建的BP神经网络模型精度有很大提高,说明用BP神经网络构建植物叶片营养含量模型时有优势,但需要选取合适的变量指标。支持向量机具有出色的学习和预测性能,在分类和预测方面得到了广泛应用,也可以很好地应用于函数回归问题,但是也受到核函数和惩罚因子的制约。冯海宽等基于特征光谱参数对苹果叶片叶绿素含量进行了估算,发现RF、PLS、BP神经网络和SVM估算模型的分别为0.94,0.61,0.66和0.60,RF算法模型用于估算苹果叶片叶绿素含量效果较好。同样,程立真等基于植被指数建立了苹果叶片磷素含量随机森林模型,其估测为0.9236,RMSE为0.0158、RE为6.915%。王丽爱等基于RF回归算法对小麦叶片SPAD值进行了估算,发现RF比SVM和BPNN法更精确,其拔节期估测为0.89,RMSE为1.54,与本研究结果类似。
蜜柚叶片钾含量光谱估测尚存在很多影响因素,如叶片中的水分会影响钾的吸收特征,尽管一些光谱变换技术(如植被指数、包络线消除法、一阶微分变换等)可用于减小叶片水分含量的影响,但并不能完全消除,需要继续加强研究消除植被所含水分影响的方法。此外一些复杂的生化组分如木质素、纤维素、淀粉等与叶片营养元素密切相关,其光谱吸收特征波段与营养元素的特征波段较接近或重叠,从而影响估测。今后的研究中,应考虑叶片内部生理生化组分等影响因素,进一步提高蜜柚叶片营养元素的估测精度。
本研究主要通过蜜柚同年不同时期的叶片样本数据对模型进行了验证。后续研究中还需进行多年更为广泛的验证完善,同时需要获取田间蜜柚植株的光谱信息,提高田间无损实时蜜柚生理生化成分的预测精度,以便利用地面或机载高光谱遥感在冠层水平上大面积应用,为蜜柚的精确营养管理提供指导。
结论
本研究结果表明,蜜柚叶片钾素含量与其原始光谱和一阶微分光谱在可见光范围内有多波段相关性显著。原始光谱曲线敏感波长为554 nm和715 nm,一阶微分光谱的敏感波长为528、579 nm和702 nm。与蜜柚叶片钾素含量相关性较好的光谱参量是NDVI′、RVI、RVI′、R′。建立了PLS、BPNN、RF和SVM回归估算蜜柚叶片钾素含量并对比验证,以随机森林估算模型精度稍高于其他估算模型。本研究为光谱遥感监测蜜柚叶片钾素含量提供了技术依据。
参考文献
- 柴仲平, 陈波浪, 蒋平安, 盛建东, 李珊珊, 刘 茂, 孟亚宾. 库尔勒香梨叶片全钾含量高光谱估算模型研究[J]. 中国生态农业学报, 2014, 22(1): 80-86.CHAI Z P, CHEN B L, JIANG P A, SHENG J D, LI S S, LIU M, MENG Y B. Hyperspectral estimation models for total potassium content of Kuerle fragrant pear leaves[J]. Chinese Journal of Eco-Agriculture, 2014, 22(1): 80-86. (in Chinese)
- PANDEY P, GE Y, STOERGER V, SCHNABLE J C. High throughput analysis of plant leaf chemical properties using hyperspectral imaging[J]. Frontiers in Plant Science, 2017, 8: 1348.