柑橘黄龙病近红外光谱检测模型
2019-11-28贺胜晖李灵巧刘振丙杨辉华
贺胜晖, 李灵巧,2, 刘 彤, 刘振丙, 杨辉华,2
(1.桂林电子科技大学 计算机与信息安全学院,广西 桂林 541004;2.北京邮电大学 自动化学院,北京 100876;3.广州讯动网络科技有限公司,广州 510000)
柑橘黄龙病由革兰氏阴性细菌引起,通过木虱传播,能感染所有的柑橘品种,患病后只能砍伐焚烧控制其蔓延,预防并及时发现是降低损失的唯一有效手段。近年来,基于光谱方法的黄龙病的检测研究得到广泛关注。Sankara等[1-2]建立簇类独立软模式分类模型,黄龙病检测率为88.9%。李修华等[3]采集健康和染病果树冠层叶片的光谱,分析健康样本和患病样本的差异。马淏等[4]研究了柑橘叶片的近红外光谱特征值的提取,利用Fisher线性判别分析模型构建二分类,正确率为90%。Roberto等[5]研究了引起光谱变化的生物原因,利用主成分线性判别分析对是否患病进行检测,正确率为89.2%。刘燕德等[6-7]利用拉曼光谱和近红外光谱拼接可见光谱对黄龙病快速检测进行研究,探讨了不同的光谱处理方法对检测结果的影响,其正确率分别为92%和92.8%。
Gabor滤波在图像分析领域已有广泛应用,涉及多特征尺度提取[8]和边缘检测[9]等多方面。核极限学习机(extreme learning machine with kernel,简称KELM)[10]解决了极限学习机(extreme learning machine,简称ELM)[11]在高维特征空间的过拟合问题,在利用红外光谱对食品分类[12]和土壤质量检测[13]等方面取得广泛应用。
将Gabor滤波与核极限学习机结合,构建一种柑橘黄龙病近红外光谱简易无损检测模型。基于傅里叶变换光谱仪采集的2个柑橘品种的近红外光谱,研究了对单一叶片采集的多个光谱点的处理方法,探索不同特征维度和不同品种的内部差异对检测模型的影响,为将近红外光谱技术实际应用于黄龙病检测领域提供参考。
1 方法
1.1 Gabor滤波
傅里叶函数是经典的将时域信号转换为频域的方法,但其只能反应出整个时域的信息,不能给出不同局部范围内的频谱的特性信息。Gabor函数在傅里叶函数中加入局部化的窗口函数,将特征向量划分为小间隔,利用傅里叶函数分析每一个间隔,获取局部频率信息。
对非零系数向量进行Gabor滤波处理可以使数据兼具加强关键特征和提高分类模型鲁棒性的特点,滤波器如式(1)所示,
(1)
其中:ρ为L2范数的稀疏解;ku,v为波形向量;ε=2π;u为滤波器的方向;v为滤波器的尺度。对尺度v对应的通道表达式为
(2)
(3)
1.2 核极限学习机
KELM是一种单层前馈神经网络,其训练过程一次完成,具有训练速度快泛化能力强的特点。其目标是尽可能的逼近样本,
(4)
其中:α为隐藏层的权重向量;H为隐藏层输出矩阵;T为实际输出矩阵。将上述优化转化为约束优化问题,
(5)
其中:φi为样本xi的训练误差向量;C为正则化参数。基于KKT理论将约束优化问题转化为对偶问题,
(6)
其中:β=[β1,β2,…,βm],βi表示隐含层节点到第i个输出节点的权重;γij为对应第i个样本的第j个输出节点。
根据KKT优化条件,可得KELM目标函数为
(7)
根据Mercer条件得核函数矩阵:
Φij=h(xi)h(xj)=K(xi,xj)。
(8)
则将KELM的目标函数转换为
(9)
当核函数确定时即可求得F(x)。KELM可选择线性、多项式、高斯和小波函数作为核函数,其中最佳核函数由实验确定。
1.3 Gabor-KELM模型
将Gabor滤波与KELM结合,构成一个基于近红外光谱的柑橘黄龙病检测模型。当特征矩阵为A=[A1,A2,…,AN]∈RN×M,i=1,2,…,N,标签为T=[T1,T2,…,TN]∈RN×1,i=1,2,…,N,实现步骤如下:
1)首对训练样本每一列进行归一化处理,将测试样本y表示为训练样本中同类样本的线性加权,
y=ω1A1+ω2A2+…+ωNAN=Aω∈IRN×M。
(10)
‖Aω-y‖2+μ1‖ω‖2≤ε£,
(11)
(12)
4)确定隐含层神经元个数、连接权重、偏置以及神经元激活函数,其中隐含层神经元个数与样本数相等,随机选择权重w和偏置b并在训练中保持不变。
Hij=g(wjxi+bj),
(13)
(14)
(15)
2 实验设置
2.1 数据采集
实验叶片包括4个地区主要种植的2个柑橘品种,具体信息如表1所示。主要采集树木冠层叶片并涵盖多种类型的叶片特征,如斑驳黄化、花叶、倒V黄化、革质化等。将每棵树上采集的叶片随机分为2部分,其中2片送至广西柑橘研究院使用荧光定量聚合酶链式反应(fluorescence quantitative polymerase chain reaction,简称FQ-PCR)确定柑橘叶片是否染病,剩余1片用于采集近红外光谱。
表1 柑橘叶片采集数量
使用傅里叶变换近红外光谱仪采集根部靠左的叶脉下方等间隔3个点,具体位置如图1所示。傅里叶变换近红外光谱仪MAP(Bruker Optics,US)采用光纤探头测量,测定范围为12 500~4000 cm-1,分辨率为8 cm-1,测量点为直径5 mm的圆斑,扫描次数32次。
按照国家标准[14],CT值大于35为健康,小于30为患病,在30~35是需要复测来确定是否患病。为了保证FQ-PCR检测结果的可靠性和实验结果的准确性,将CT值在30~35的样本舍弃,其中包括砂糖橘叶片17片,橙叶片14片。
2.2 光谱分析
橙和砂糖橘在4000~12500 cm-1近红外全波段各点的吸光度稍有差异,但是整体趋势相同,其中以砂糖橘的健康与患病的光谱曲线差异最为明显,因此以砂糖橘为例进行说明,光谱如图2所示。光谱图中有2个明显的吸收峰在5250 cm-1和6850 cm-1处。健康和黄龙病叶片在6850 cm-1吸收峰的区别较为明显,水和糖中含有的O-H键的一级倍频振动可以引起该位置的吸收峰,这此猜测是由于黄龙病会对叶片吸收水分产生阻碍。在5250 cm-1处的吸收峰主要是由N-H键的非对称振动引起,可能是由于黄龙病使得叶片缺失所需的营养元素造成的。
图1 叶片采集光谱点
图2 黄龙病和健康2类叶片的近红外代表光谱
品种健康叶片患病叶片总数量砂糖橘11163174橙 8875163
2.3 模型构造
叶片在采摘后由于温度和湿度等原因导致保鲜时间有限,易出现腐化损坏问题,为保证结果准确性,在实验过程中剔除腐化叶片,其中包括砂糖橘叶片10片,橙叶片6片。实验使用数据集的具体数量如表2所示,依据7∶3的比例将样品随机划分为训练集和测试集,再对训练集按7∶3划分为建模集和验证集,进行光谱点处理分析和设置KELM参数。
表3 光谱点处理方法对比 %
首先对光谱进行标准正态变换(standard normal variant,简称SNV)消除表面散射和光程变化对光谱的影响。叶片的生物特性决定了病菌在叶片上分布不均,导致叶片局部的生物情况存在差异。本实验尝试了4种对单一叶片上采集光谱点的处理方法:1)对一片叶片上所采集的光谱点分别判定类别,当存在判定为黄龙病的光谱点即认为叶片患病;2)将一片叶片上采集的所有光谱点取均值;3)仅考虑叶片上中心点;4)随机取叶片上任一光谱点。实验结果如表3所示,先对单个光谱点进行预测标签再综合判定方法的正确率为88.02%,精度为81.42%,灵敏度为84.34%,F1分数为81.98%,均取得最优结果。证明由于病菌在叶片上分布不均导致的内部差异对光谱产生影响,导致部分光谱未能涵盖有效信息。
本实验采用主成分分析方法对数据进行降维,分类结果如图3所示,尽管在降至4维时,主成分贡献率已经达到99%,但是其判别黄龙病叶片的能力较差,说明其剔除了黄龙病叶片的有效特征信息。为准确判别黄龙病叶片,增加主成分得分向量的维度,在25维时,各项指标取得最优值并高于降维前各项指标,表明其最大程度的保留了有效信息并且剔除了部分干扰信息。
图3 PCA降维对结果的影响
KELM需要选择核函数,不同的核函数的分类结果如图4所示,其中Liner表示线性函数,RBF表示高斯函数,Polynomial表示多项式函数,Wavelet表示小波函数。由图4可知,线性函数在灵敏度指标中取得最优值,但其精度仅高于小波函数并且F1分数偏低,这可能是由于其将大量的健康样本误诊为患病样本,虽然可以有效地提高对有病样本的检测,但是其造成大量不必要的损失,失去检测的意义。高斯函数在4个指标中表现稳定,均达到最优或次优值。多项式函数的正确率和准确率指标均达到了较优值,但是灵敏度值偏低,体现了其对于患病样本的不敏感,这可能由于患病样本数少于健康样本数造成的。小波函数各项表现均最差。
图4 核函数选择
3 结果与讨论
实验结果取10次测试结果的均值,选取ELM、KELM、偏最小二乘判别分析(partial least squares discriminant analysis,简称PLS-DA)和支持向量机(support vector machine,简称SVM)作为对比方法,分类结果如表4所示。
表4 实验结果对比 %
由表4可知,GKELM方法在砂糖橘叶片数据集中,正确率为97.12%,精度为97.06%,灵敏度为100%,F1分数为98.51%;在橙叶片数据集中,正确率为96.94%,精度为97.44%,灵敏度为95%,F1分数为96.2%,均较高于PLS-DA、SVM、ELM、KELM方法。
通过分析表4的数据,可得到以下结论:1)核函数的引入加大了数据的可分程度,提高了分类算法的实际应用能力;2)Gabor滤波能够加强光谱的有效信息点,排除差异信息,提高分类器的鲁棒性,使分类模型性能有明显提升。3)对比2个数据集中各项方法,SVM、ELM和KELM的各项指标均存在一定差异,表明柑橘品种间的生物差异会影响模型对叶片的判别。4)GKELM算法与PLS-DA算法的正确率近似,准确率和F1分数有一定提升,表明GKELM从高信息含量中提取患病叶片特征的能力更优。
4 结束语
本实验将Gabor滤波器结合核极限学习机构建了一个基于近红外光谱的黄龙病检测模型,并且基于傅里叶变换近红外光谱仪采集的4地区种植的2个主要柑橘品种的数据集,研究了对同一叶片上采集的多个光谱点的4种处理方法,分析了不同的特征维度对分类效果的影响。实验结果表明,GKELM分类模型具有良好的鲁棒性,能有效实现对黄龙病叶片的检测,采用近红外光谱结合GKELM方法对于柑橘黄龙病检测具有可行性,为实际黄龙病检测工作提供一种新方法。