脐橙叶片黄龙病鉴别的激光诱导击穿光谱检测研究
2022-10-08丁琪萍姚明印吴书佳薛乃豪
丁琪萍,姚明印,2,吴书佳,薛乃豪,万 奇,曾 敏,徐 将*
(1.江西农业大学 工学院,江西 南昌 330045;2.江西省现代农业装备重点实验室,江西 南昌 330045)
【研究意义】脐橙属于芸香科柑橘属,甜橙类主要品种[1],以其色泽鲜艳、汁多味美、营养丰富等特点而深受消费者的喜爱,具有良好的生态经济效益。脐橙黄龙病(Huanglongbing,HLB)是由柑橘木虱传播的革兰氏阴性细菌引起的毁灭性病害,因其传播迅速、破坏力巨大、不可治愈等特点,被认为是世界上最具破坏性的柑橘病害[2-4]。至今为止,还没有有效的方法来治愈黄龙病,对付这种疾病的常用方法是砍伐和焚烧受感染的树木。在中国江西赣州,2017 至2021 年间,病树砍伐面积达到全市柑橘类树木种植面积的十分之一,病害严重威胁着整个脐橙产业的经济社会效益[5]。因此,寻找到一种快速、有效、绿色的脐橙黄龙病早期诊断方法,对脐橙产业健康持续发展具有重要意义。【前人研究进展】目前,用于检测柑橘中黄龙病的方法主要有现场检测[6]、分子生物学检测[7]和显微镜技术[8]。现场诊断主要通过患病果树的症状进行诊断,但准确率低[9]。分子生物学检测技术虽然具有较高的精度和灵敏度,但对试验研究人员的技术要求高,且样品制备复杂,试验产物对环境污染严重[10]。显微镜检测技术中,由于黄龙病病原体负荷在植物组织中分布不均,并且可能随时间波动,因此许多被确定为未受感染的树木的采样可能出现假阴性[11-12]。对于大型柑橘园而言,这些方法产生了巨大的经济和时间成本,不利于促进实际农业生产。激光诱导击穿光谱技术(LIBS)是一种有效的材料组成快速检测技术,具有制备简易、原位测量、实时检测及多元素同时测定等优点,可以实现脐橙叶片中黄龙病的快速绿色鉴别。Anielle 等[13]利用LIBS 对不同患病程度的柑橘新鲜叶片进行测定,建立回归与偏最小二乘回归相结合的分类器,区分三类叶片的准确率为73%。许方豪等[14]利用LIBS 联立近红外光谱对柑橘黄龙病进行鉴定,并结合主成分分析(PCA)和多层感知(MLP)等化学计量方法,其训练集与预测集判定准确率分别为89.5%和95.7%。Fabíola 等[15]利用LIBS与软独立模式分类(SIMCA)方法相结合来识别健康和黄龙病感染的脐橙叶片,该模型对82%~97%的患病样本进行有效分类,具有95%的显著性水平。【本研究切入点】研究结果表明,LIBS 技术在柑橘叶片营养分析中具有一定的潜力,将其与合适的化学计量学方法相结合可应用于物质分类或早期病变的诊断。但目前运用LIBS技术鉴别黄龙病与健康的脐橙叶片主要停留在该方法的可行性以及适用性研究,对脐橙叶片的分类准确率的研究相对较少,大部分研究的判定准确率只能达到95%左右。而运用不同的预处理方法或者分类模型对鉴定结果的准确性,以及稳定性均会产生影响。【拟解决的关键问题】本研究以240枚脐橙健康叶片和黄龙病叶片作为研究对象,利用LIBS技术采集叶片光谱数据,经过光谱预处理后,将样本数据按照3∶1 的比例分为训练集和预测集,应用科学合理的光谱数据处理手段,提高LIBS技术在脐橙黄龙病诊断中的识别效果。
1 材料与方法
1.1 试验样品
脐橙叶片样品采自于江西省赣州市的脐橙园试验区。选取健康和黄龙病脐橙叶片各120 枚作为试验样品,脐橙叶片样品图如图1所示(为了能够在文章中明显看出叶片的差别,特意选取患黄龙病后期的脐橙叶片进行拍照),使用超纯水反复冲洗脐橙叶片表面泥垢等污渍,后放置在室温下自然风干。
图1 脐橙叶片试验样品Fig.1 Pictures of navel orange leaf samples
1.2 试验装置
试验所使用的LIBS系统的原理图如图2所示。采用Nd:YAG调Q脉冲激光器(Beamtech,Vlite-200,China)作为烧蚀源,其中激光脉冲频率为1~10 Hz,脉冲波长为1 064 nm,激光能量为0~300 mJ。激光束通过反射镜和100 mm 焦距的石英透镜聚焦在样品的表面。样品被放置在二维旋转平移台上(Zolix,SC300-1A,China),以改变样品的分析位置。利用光纤探头将等离子体发射光谱收集传输到高分辨率光谱仪(Avantes,AvaSpec-2048FT-8R,Netherlands),光谱仪的波长为200~900 nm。实验中采用数字脉冲延时发生器DG645同步控制激光器及光谱仪。
图2 LIBS系统原理Fig.2 Schematic diagram of LIBS system
1.3 样品测量
本研究采用实验室自行搭建的LIBS 实验设备对样品进行光谱数据采集,为防止激光束重复击打在叶片表面同一点,将样品放置在二维旋转平移台上。等离子体采集延迟时间为1.28µs,激光能量为170 mJ,光谱仪的积分时间设置为2 ms。每副光谱累计10 次脉冲,每个叶片采集10 副光谱。
2 结果与分析
2.1 数据预处理
LIBS光谱信号主要受激光器的激光粒子能量波动、光谱仪分辨率差异、试验样品不均匀性及外部环境干扰等多种客观因素的直接影响,为了有效地消除或减弱这些干扰信息,对LIBS光谱数据进行光谱预处理[16]。对数据依次采用平滑处理(SM)、一阶导数(FD)、二阶导数(SD)、中心化预处理(Center)、标准正态变量变换(SNV)和多元散射校正(MSC)等多种光谱预处理方法,经过对比分析后发现九点平滑预处理的效果最好。
经九点平滑预处理后,240 份黄龙病及健康脐橙叶片样品在200~900 nm 波段范围的平均LIBS 光谱对比图如图3 所示。参考美国NIST 数据库的标准谱线,可以得出,脐橙叶片中含有丰富的Ca、Na、Fe、K和Mg 等矿质元素。经过对比分析两类脐橙叶片的LIBS 光谱,C I 247.86 nm,Mg II 279.55 nm,Ca II 393.37 nm,Ca II 396.85 nm,Na I 588.99 nm,Fe I 616.21 nm,K I 766.49 nm 和Fe II 769.63 nm 等特征谱线强度存在极显著性差异。该结果表明,利用LIBS绿色快速判别黄龙病脐橙具有一定的可行性。
图3 9 SM处理后的黄龙病及健康脐橙叶片平均LIBS光谱图Fig.3 Mean LIBS spectra of HLB and healthy navel orange leaves after 9 SM pretreatment
2.2 主成分分析
由于光谱数据的变量维数过多,采用主成分分析(PCA)方法提取特征光谱,可以降低仪器或环境的噪声干扰,能够有效地改善分类模型的分析能力。PCA 方法是用来研究如何将多指标问题转化为较少综合指标(主成分)问题的方法,这些主成分(PCs)是传递数据集中包含的主要信息的线性组合,其本质是一种降维的统计过程[17]。
对9 SM 预处理后的LIBS 光谱数据建立三维PCA 分类模型。如图4 所示,前3 个主成分PC1,PC2 和PC3 的贡献率分别为84%,9%和2%,代表了原始光谱数据95%以上的重要信息。PCA 方法可以进行数据降维,保留有效信息,但是不能定量说明判别准确率,因此需要结合其它机器学习算法。
图4 黄龙病及健康脐橙叶片的主成分分析散点图Fig.4 PCA scatter diagram of HLB and healthy navel orange leaves
2.3 分类模型
在光谱数据完成PCA降维后,分别输入至线型判别分析(FDA)、B-P反向传播网络(MLP)、径向基函数网络(RBF)以及支持向量机(SVM)等4 种分类模型。本文中所有模型的分类效果评价均采用分类准确率,当实际值与预测值的误差在0.1 以内,即认为该样本数据分类正确。当模型的分类准确率越高,则证明该模型的分类效果越佳。
为寻求性能最优的SVM 模型,首先采用PSO 算法找寻SVM模型中最佳参数值c和g。设定PSO算法的初始参数值,粒子种群规模数为20,最大进化代数为100,惩罚因子c 的搜索范围[1,1 000],核函数参数g的搜索范围[0.01,1 000],加速因子c1=1.5,c2=1.7。
PSO算法中粒子群迭代寻优过程的适应度曲线如图5所示。由图可知,随着粒子群进化代数的增加,适应度值迅速下降;当进化代数为13时,此时适应度值最小,搜寻得到的最佳参数c=3.113 1,g=0.010 0。后续的适应度值不再随迭代次数增加而变化,说明SVM模型的参数值已经寻得最优解。在应用过程中,可以适当减少进化次数以提升建模效率。
图5 适应度曲线Fig.5 Fitness curve
研究采集240 枚叶片样本数据,设定健康样品类别为1,感染黄龙病的样品类别为2。按照3∶1 的比例将样本数据随机分为训练集和预测集两部分。其中“o”代表光谱数据的实际标签,“*”代表预测标签。PSO-SVM分类模型的训练集及测试集回归预测结果如图6所示。
图6 SVM模型训练集和测试集预测结果Fig.6 Prediction results of SVM model training set and test set
由图6 可知,训练集和测试集中的健康与黄龙病样本均在分界区明显分离,且预测标签与实际标签值基本重合。其中训练集的误判点仅为2 个,测试集仅为1 个,表明PSO-SVM 模型的分类效果较好,其平均分类准确率达到98.61%。
本文选择模型的决定系数(R2)、均方根误差(RMSE)、平均绝对误差百分比(MAPE)和识别准确率(Accuracy)用于衡量SVM与PCA-SVM模型的预测质量。
R2是衡量回归预测对样本数据的拟合程度的重要指标,决定系数取值范围[0,1],当R2值越接近于1,则说明模型的拟合程度越高。RMSE 是衡量预测值同实际值之间的误差情况,当RMSE 值越小,则说明模型的预测精度越高。MAPE 是预测值误差的实际情况,MAPE 为0%表示完美模型,MAPE 大于100%则表示劣质模型。
采用PCA 降维后的前3 个主成分数进行SVM 建模以及识别,SVM 与PCA-SVM 模型的分类结果记录如表1 所示。由分类结果可知,两类模型训练集与预测集的MAPE 与RMSE 值均接近于0,说明模型具有较好的预测分类质量。将PCA 方法与SVM 模型联立大大提高了建模效率,建模时间从137 s 缩短至35 s。但经过特征提取的PCA-SVM 分类模型并未对分类准确率进一步提升,其R2和准确率分别为0.984 0,96.67%,而SVM 模型的预测集R2为0.991 0,准确率为98.33%。虽然应用PCA 方法降维能够去除噪声干扰,提取重要的特征光谱,但是也将有效的分类特征光谱丢失,致使模型的分类效果变差。
表1 SVM与PCA-SVM 模型的分类结果Tab.1 Classification results of SVM and PCA-SVM models
此外,本研究对比分析了PCA-RBF、PCA-MLP及PCA-FDA等模型对健康与黄龙病脐橙叶片的分类效果。PCA-RBF 和PCA-MLP 方法将LIBS 特征数据随机分成训练集与测试集,分别占总数据的70%与30%。PCA-FDA方法的训练集和预测集则直接采用样本总数据。
各个模型的判别精度和准确率结果由表2所示。结果显示,240组脐橙叶片光谱数据经过9 SM预处理后,采用PCA 方法降维提取前3 个主成分,输入至MLP 方法的分类模型效果最好,训练集与预测集的准确率相比均为最高值,分别达到99.43%与98.48%。其次是SVM 分类模型,训练集和预测集的分类准确率分别达至98.89%和98.33%。PCA-FDA 与PCA-RBF 模型的判别效果虽然不及PCA-MLP,但是训练集与预测集的分类准确率均达至90%。
表2 各分类模型的判别准确率Tab.2 The discriminant accuracy of each classification model
以上研究结果表明,LIBS 光谱数据经过合适的预处理,采用PCA 方法结合MLP 分类模型进行脐橙黄龙病的绿色诊断具有一定的可行性。SVM 方法利用较少的支持向量确定分类面,允许数据在一定程度上偏离超平面,其分类准确率达到98%以上,具有较好的脐橙黄龙病鉴别能力。而PCA-SVM 相较于SVM 方法提高了建模效率,建模时间缩短了102 s,但预测集的分类准确率却从98.33%降至96.67%。在后续的研究中,可以增加输入至SVM 模型的主成分数,看能否提升PCA-SVM 模型的分类准确率。而PCA-FDA 和PCA-RBF 模型的判别精度和分类效果相对不佳,这可能是RBF相较于MLP来说,它的隐藏层数量过少,无法对数据维度过多、较为繁杂的多分类问题进行较好的分类,而FDA 方法对非线性函数的辨认率较低。
3 结论与讨论
本文采集了黄龙病和健康脐橙叶片在200~900 nm波长范围的LIBS全谱段数据,并对光谱信息进行九点平滑预处理,采用PCA 方法提取前3 个主成分数,分别输入至SVM、PCA-SVM、PCA-FDA、PCAMLP、PCA-RBF 方法训练分类模型。分类结果表明,采用PCA 方法结合MLP 分类模型对黄龙病与健康脐橙叶片的分类效果最好,训练集准确率为99.43%,预测集准确率为98.48%。其次PCA-SVM 与PCARBF 分类模型训练集与预测集的准确率效果也都非常高,均达到94%以上。研究证明,利用LIBS 技术对脐橙叶片进行光学诊断具有一定的适用性,与改进的预处理方法以及分类模型相结合,可以进一步提高判定准确率及建模效率,这将为赣南脐橙叶片的绿色快速鉴别提供一种全新的方法。