沉香幼树生长中的全氮质量分数估测1)
2022-07-25王甜王雪峰袁莹刘嘉政
王甜 王雪峰 袁莹 刘嘉政
( 中国林业科学研究院资源信息研究所,北京,100091) ( 国家林业和草原局森林经营与生长模拟重点实验室)
沉香(Aquilariasinensis)是我国珍贵的药材植物资源,多生长于南方山地雨林[1]。沉香苗期经营离不开氮肥的施用,然而目前氮肥施用方式粗放、利用率低[2],这不仅污染环境[3],同时降低林业经济效益,因此在沉香经营过程中及时诊断、按需施肥对于沉香生长及提高经济效益具有重要意义。叶片颜色变化是反映植物营养元素变化的重要指标[4],传统营养诊断费时费力且精度较低;高光谱成像数据丰富,但不适用于小尺度监测;手持光谱仪技术获得的数据之间冗余度大[5];相比之下,多光谱相机获取图像信息丰富,适用于地面和航空摄影,因而利用多光谱相机进行图像氮素无损检测技术被广泛用于林木氮素营养状况评价研究中。
近年来,数字图像技术日益成熟,为植物营养诊断提供了有力的技术支持,国内外研究者先后对不同生育期小麦(TriticumaestivumL.)[6-7]、玉米(ZeamaysL.)[8-10]、大豆(Glycinemax)[11]、水稻(OryzasativaL.)[12]等植物进行含氮量预测。人工智能的迅速发展,使神经网络模型预测含氮量的算法更为成熟[13-17]。人工智能的发展为小样本、非线性、高维空间的样本数据提供了更有效的拟合方法,但各方法所得的预测精度也受到权值、阈值以及输入特征的影响。支持向量机(SVM)具有自主学习、自主适应和强大的非线性处理能力的优点,但是支持向量机也存在着自主学习能力不稳定、收敛速度较慢、出现局部收敛和模型过拟合的现象[18];随机森林(RF)是集成学习思想一种算法[19],但存在当数据噪音较大时,出现过拟合的问题;最小二乘支持向量机(LSSVM)是在支持向量机的基础上采用最小二乘函数,进一步提高支持向量机的计算效率,将输入的样本信息映射到高维特征空间,采用结构风险最小原则,得出分类结果[20],但对于数据量较大时,计算效率较低,模型需要花费大量时间进行计算;粒子群优化算法(PSO)具有收敛速度快、参数简化、计算效率高、结果精度高的特点,对非线性问题具有良好的处理能力[21]。而粒子群和随机森林融合算法可以解决模型收敛慢、计算效率低的问题,对数据的适应能力和预测结果的精度都有较大提升。
为此,本研究在海南省文昌市的生态站选择生长良好的2年生幼龄沉香进行盆栽试验,采用根部埋施法,设计不施氮(为对照)、低氮、中氮、高氮4个胁迫梯度;使用红外和普通相机进行图像、养分数据获取;以幼龄沉香可见光-近红外5个波段的图像为例,提出一种分割高效且模型精度较高的无损营养诊断的图像方法,分析不同施氮量对盆栽沉香生长的影响,旨在为实现沉香生长过程中对氮素需求的机器智能判定提供参考。
1 材料与方法
1.1 试验设计
试验为单因素试验设计,试验区在海南省文昌市的生态站(19°36′~20°3′N、109°12′~111°2′E)。选择生长良好的2年生幼龄沉香进行盆栽试验,每盆(高×直径=25 cm×20 cm)装入5 kg风干滨海沙壤土。氮源为尿素(氮质量分数为46.4%),采用根部埋施法,试验设不施氮(对照)、低氮(施氮5 g·m-2·a-1)、中氮(施氮10 g·m-2·a-1)、高氮(施氮20 g·m-2·a-1)4个胁迫梯度,每个施氮量种植15棵沉香。之后每2个月进行1次补肥,施肥量与初始施入量一致,其他营养元素不再施加。数据采集时间为2019年7—11月份,每隔2个月进行图像、养分数据获取,数据总量为120个。
1.2 沉香植株图像采集
使用红外和普通相机2种。普通相机通过USB线与笔记本连接,使用软件gphoto-2或者佳能自带的EOS Utility进行摄影控制。红外相机通过无线链接,利用IP控制摄影,由美国生产的MicaSense RedEdge 3多光谱相机(分辨率为1 280×960像素)获取图像,该相机有5个波段,其中心波段分别为475、560、668、717、840 nm;带宽分别为20、20、10、40、10 nm。获取图像时,分别从东、西、南、北4个方向进行拍摄,对于所有的拍摄对象,保持三脚架的中心位置在幼树4个方向的轴线上,相机与植株距离固定为2.1 m,三脚架高度设置为80 cm,镜头的方向与地面保持平行,拍摄时间为每天的09:00—16:00。
1.3 沉香植株中氮素各指标测定
图像获取完成后,将幼龄沉香在茎基部切断,保留完整的根系,分别称取根茎叶的鲜质量,分别在烘箱中83 ℃烘干24 h至恒质量,冷却至室温后进行称量干质量。将叶片碾成粉末后,采用H2SO4-H2O2消煮-钼锑抗吸光光度法测定氮质量分数。氮效率及相关指标参照Moll et al.[22]方法计算。具体计算公式:氮累积量=植株生物量×植株氮质量分数;氮素吸收率=氮累积量/供氮量;氮效率=地上部生物量/供氮量。
1.4 沉香植株图像分割
本研究图像涉及可见光-近红外5个波段,图像噪声较大,普通的图像分割算法难以准确分割,不能满足研究需要[23]。针对此问题,本研究使用了改进的模糊局部信息C均值聚类(FLICM)算法,该算法主要针对模糊聚类(FCM)算法需要人工确定不同像素间权重比例的问题,提出利用隶属度矩阵和像素空间距离自动确定权重的方法,对噪声图像有较好的分割效果。
首先对图像进行归一化处理,之后取图像(250,500)坐标点处的矩形区域,采用histeq函数进行直方图均衡化处理,增强植物对比度,由于图像中间部分噪声较多,采用模糊C均值聚类算法分割,然后采用bwareaopen函数去除面积小于200的噪声区域获得植物,最后对植物图像进行水平投影,找到花盆位置,即投影最大的地方,然后取花盆以上部分分割,再将原始灰度图像相乘,获得只有植物的图像(见图1)。
图1 图像分割过程及不同波段分割结果
1.5 分割后的沉香植株图像相关参数设计
沉香幼苗图像分割及所有的图像数据处理均在Matlab R2018a中进行。分割后的图像相关参数,包括:蓝光波段反射率(RB)、绿光波段反射率(RG)、红光波段反射率(RR)、红边波段反射率(RRE)、近红外波段反射率(RNIR)、各波段比值植被指数(IV,R)[24]、差值植被指数(IV,D)[25]、宽动态范围植被指数(IV,WD)[26]、调整三角指数(IV,MT)[27]、改进红边比值植被指数(IV,MRR)[28]。
各波段比值植被指数(IV,R)=RNIR/Ri;
差值植被指数(IV,D)=RNIR-Ri;
宽动态范围植被指数(IV,WD)=(0.12RNIR-Ri)/(0.12RNIR+Ri);
调整三角指数(IV,MT)=1.2[1.2(RNIR-RG)-2.5(RNIR+RG)];
改进红边比值植被指数(IV,MRR)=(RRE-RB)/(RRE+RB)。
式中:Ri为蓝光、绿光、红光、红边、近红外波段反射率。
1.6 评价模型的构建
随机森林(RF)是依据分类回归树的机器学习方法。设原始数据中有N个含水率数据,M个图像因子,先从原始训练集中有放回的抽取n个样本,生成n个子训练集并构成n个决策树,选取其中最具有分类能力的评价指标进行分枝,最后对n个决策树得到的n个分类结果进行投票表决,得到最终结果。经过反复调试,将随机森林中生长树的数目设置为5 000,在每一个分裂节点处样本预测器的个数设置为20。
为提升模型的收敛速度和精度,消除各位数据间数量级差别,本研究采用最小最大法,将原始建模数据进行归一化处理,以防止由于输入输出数量级差别大而造成网络估测误差,模拟结果通过反归一化处理将其还原。以红边波段反射率(RRE)、近红外波段反射率(RNIR)、调整三角指数(IV,MT)、改进红边比值植被指数(IV,MRR)特征值作为影响因素,以氮素质量分数作为评价指标,将建模数据归一化处理后,输入进粒子群-随机森林融合模型(PSO-RF)中,在随机森林(RF)神经网络模型中加入一个种群数量为20、迭代终止次数为50的粒子群优化算法(PSO),并且添加惯性权重因子提高模型的收敛能力,初始惯性权重因子设置为0.8,终止惯性权重因子设置为0.1。
2 结果与分析
2.1 不同施氮量对幼龄沉香植株生物量的影响
计算4个月试验期内,沉香植株生物量、氮素累积的变化(见表1)。由表1可见:低施氮量时,植株氮质量分数、地上部生物量、氮累积量的均值,显著小于中施氮量的、高施氮量的、对照的,其中以中施氮量时最高;而低施氮量、中施氮量、高施氮量时,植株氮素吸收率、氮效率的均值显著大于对照的。根系生物量均值则大小相近,4种施氮量时,根系生物量由大到小依次为中施氮量的、对照的、高施氮量的、低施氮量的。在高施氮量时,根系生物量变异系数最大,氮累积量、氮素吸收率的变异系数次之,植株氮质量分数的变异系数最小;在低施氮量、对照时,地上部生物量、氮累积量、根系生物量、氮素吸收率、氮效率的变异系数,均小于中施氮量的,而植株氮质量分数的变异系数大于中施氮量的。总体看,不同胁迫时,各生物量性状的变异系数,由大到小依次为低施氮量的、高施氮量的、对照的、中施氮量的。氮素胁迫对沉香地上部的影响更大,因此可以根据地上部的生物量变化评价沉香氮素营养状况。
表1 不同施氮量时沉香氮素指标的变化
2.2 沉香叶片图像特征值与氮素指标的相关性
当模型中的各影响因素之间具有较高的相似度时,拟合效果会出现不同程度的降低。在多元统计模型中,最理想的状态是各影响因素之间相互独立,在现实中很难实现,为了降低模型的复杂度,必须在建模之前进行模型筛选或降维,以提高模型的实用性。
将多波段沉香叶片反射率与图像特征值分别与氮营养指标进行皮尔逊(Pearson)相关性分析(见表2)。结果表明:红边波段、近红外波段反射率,与植株氮质量分数、地上部生物量、氮累积量呈显著负相关,与氮素吸收率、氮效率呈极显著正相关;各波段比值植被指数特征值,与植株氮质量分数呈负相关,与氮素吸收率、氮效率呈正相关,与根系生物量呈显著正相关;蓝光波段、红光波段反射率,与地上部生物量、氮累积量呈显著负相关,与氮素吸收率、氮效率呈显著正相关,与根系生物量呈正相关;调整三角指数值和氮素指标之间的相关性,与改进红边比值植被指数相似,但改进红边比值植被指数与根系生物量呈显著负相关;绿光波段反射率,与植株氮质量分数、氮累积量呈显著正相关,与氮素吸收率、氮效率呈显著负相关;差值植被指数,与植株氮质量分数、氮累积量呈负相关,与氮素吸收率、氮效率呈正相关;宽动态范围植被指数特征值,与氮素指标间的相关性均较低。说明红边波段、近红外波段反射率,比蓝光波段、绿光波段、红光波段反射率更能预测作物氮素营养状况,调整三角指数、改进红边比值植被指数与氮素营养指标相关性较好,而各波段比值植被指数特征值、差值植被指数、宽动态范围植被指数特征值与氮素营养指标之间的相关性较差。
表2 沉香叶片图像特征值与氮素指标的相关系数
由表3可见:不同施氮量对红边波段反射率、近红外波段反射率、调整三角指数、改进红边比值植被指数特征值影响不同,其中红边波段反射率、近红外波段反射率、调整三角指数随氮素质量分数的增加呈现先增加后减少的趋势,在中施氮量时达到最大值;而改进红边比值植被指数特征值趋势相反,随施氮量的增加而降低,且在中施氮量时达到最低点。
表3 不同施氮量时沉香叶片图像特征值
2.3 不同施氮量对幼龄沉香植株光谱反射率的影响
沉香叶片图像特征与氮素指标相关性表明,植株氮质量分数与图像特征的相关性总体较高,因此,对不同梯度的施氮量和光谱数据进行平均处理,建立不同施氮量与光谱反射率的相关关系(见表4)。由表4可见:沉香的光谱反射率趋势与典型植物光谱趋势大体一致,且可见光区域反射率较低,而近红外区域反射率相对较高,这是叶片内部结构多次散射的结果。在560、668 nm波段,施氮量越高,光谱反射率越低;717、840 nm波段,反射率随施氮量增加先高后低,表明不同施氮量对沉香植株叶片光谱反射率存在不同影响。
表4 不同施氮量时沉香植株叶片不同波段光谱反射率
2.4 沉香植株全氮质量分数估测结果
由粒子群-随机森林融合模型的训练集和测试集结果(见图2)可见:训练集预测结果决定系数(R2)达到0.98以上,测试集预测结果决定系数(R2)达到0.94以上,预测结果良好,且均方根误差分别为5.127、5.784,能够达到准确估测的目的,也进一步证实了粒子群算法优化随机森林模型可准确估测沉香叶片氮质量分数。
图2 对沉香植株全氮质量分数估测结果
2.5 3种模型估测结果比较
为证明粒子群-随机森林融合模型的估测效果,采用单独粒子群模型、随机森林模型作为对照,对试验数据进行同步建模估测(见表5)。由表5可见:粒子群-随机森林融合模型在训练集和测试集都表现出良好的估测结果,决定系数分别达到了0.984、0.945,均方根误差分别为5.127、5.784,并且训练集决定系数分别高于单独的随机森林和粒子群模型35%、33%;测试集决定系数分别高25%、35%;进一步证明粒子群算法对于提升随机森林神经网络在实值回归方面的性能是可行的。
表5 3种模型的预测结果
3 结论
(1)本研究图像包含可见光-近红外5个波段,图像信息量丰富但图像模糊,噪声较大,常规分割算法难以准确分割,模糊局部信息C均值聚类可直接利用隶属度矩阵和像素空间距离自动确定权重,算法运行速度快,对模糊图像分割效果良好。
(2)在不同施氮量时,根系生物量值的变异系数较大,而植株氮质量分数的变异系数最小,说明氮素对这些指标的影响较小,低施氮量时的地上部生物量、氮累积量、植株氮质量分数,均显著小于中施氮量的,表明低氮胁迫条件会抑制植株地上部的生长,适量提高施氮量对地上部的促进作用明显,且容易累积较大比例的氮素。低施氮量、中施氮量、高施氮量时的氮素吸收率、氮效率,均显著大于对照(不施氮)的,表明氮肥供应量的增加,对氮素的吸收和利用效率均增高。氮素质量分数,对沉香地上部分生长影响较大,对根系生物量生长影响较小,说明低氮胁迫时沉香依然具有较高的氮素吸收能力。
(3)植物体内氮含量充足时,对可见光吸收增大,叶片反射率降低;而当全氮含量不足时,植物出现缺氮现象,叶片黄化,对可见光的吸收减小,反射率增大。本研究表明,红边波段反射率、近红外波段反射率,与调整三角指数、改进红边比值植被指数、氮素营养指标间有良好的相关关系;而各波段比值植被指数、差值植被指数、宽动态范围植被指数特征值,与氮素营养指标之间的相关性相对较差;不同施氮量对红边波段反射率、近红外波段反射率、调整三角指数、改进红边比值植被指数特征值影响不同,红边波段反射率、近红外波段反射率、调整三角指数随施氮量的增加呈现先增加后减少的趋势,在中施氮量时达到最大值,而改进红边比值植被指数趋势相反,则随着施氮量的增加而降低,且在中施氮量时达到最低点。
(4)本研究充分利用机器学习算法处理非线性问题的良好能力,采用依据粒子群算法优化的随机森林模型,对沉香叶片全氮质量分数进行建模估测,解决模型收敛慢、计算效率低的问题,对数据的适应能力和预测结果的精度都有较大提升,对沉香叶片全氮质量分数进行准确估测,模型决定系数分别达到了0.984、0.945,均方根误差也分别为5.127、5.784。并且训练集决定系数,分别高于单独随机森林模型、粒子群模型35%、33%;测试集决定系数,分别高于单独随机森林模型、粒子群模型25%、35%;为今后稀有树种的元素含量估测提供了新的思路。