APP下载

高光谱数据对损伤长枣的检测判别

2021-09-14袁瑞瑞刘贵珊何建国万国玲樊奈昀孙有瑞

光谱学与光谱分析 2021年9期
关键词:灵武波长预处理

袁瑞瑞, 王 兵, 刘贵珊*,何建国, 万国玲, 樊奈昀, 李 月, 孙有瑞

1. 宁夏大学食品与葡萄酒学院, 宁夏 银川 750021 2. 宁夏大学物理与电子电气工程学院, 宁夏 银川 750021

引 言

枣(ZizyphusjujubaMiller)在中国已有4 000多年的历史, 它主要分布在亚洲的亚热带和热带地区, 已有三千多年的耕种历史。 “灵武长枣”(Lingwu long jujube)是宁夏重要的经济林木之一, 并且由于其巨大的生态、 社会和经济效益, 也是宁夏农业的主要组成部分[1-2], 但是灵武长枣在采收、 运输等过程中容易受到损伤, 并且损伤后不容易被观察到降低商品价值严重影响经济收益[3]。 因此, 亟需一种无损检测技术快速有效地检测灵武长枣的内部损伤。

近年来, 高光谱成像系统作为一种快速无损、 准确度高且具有高灵敏度的检测系统, 被用于苹果[4]、 梨[5]、 猕猴桃[6]、 草莓[7]、 蓝莓[8]、 桃子[9]等的瘀伤检测。 Zhang[10]等利用高光谱成像系统结合AdaBoost算法对完整苹果和损伤后5个时间段(损伤后1 min、 1天、 2天、 3天、 4天)的苹果进行了分类, 结果表明, 经MSC(multiplicative scatter correction)和CFS(correlation-based feature selection)预处理后, 所选波长建立的模型平均精度为97.63%。 Fan[11]等利用最佳波长结合近红外高光谱反射成像系统对蓝莓内部瘀伤随时间的变化进行了检测研究, 结果表明, 蓝莓在撞击后30 min、 2 h、 6 h和12 h的波段比值图像建模分类精度分别为77.5%, 83.8%, 92.5%和95.0%, 以及CARS-LS-SVM(competitive adaptive reweighted sampling-least squares-support vector machine)模型的验证集中健康和瘀伤蓝莓准确率分别为93.3%和95.9%。 Lee[5]等利用高光谱图像对梨的物理损伤进行了检测研究, 结果表明, 利用最佳阈值波段比检测结果的准确率为92%。 灵武长枣外部缺陷检测已有相关研究, 但是对于灵武长枣内部损伤检测鲜有报道。

故以灵武长枣为研究对象, 对完整长枣和损伤后五个时间段(损伤后2, 4, 8, 12和24 h)长枣进行分类判别。 利用高光谱成像系统获得高光谱图像, 利用ENVI软件提取感兴趣(region of interest, ROI)区域, 并计算平均光谱值。 对原始光谱利用Savitzky-Golay平滑的一阶导数(first derivatives, SG-1)和二阶导数(second derivatives, SG-2)、 标准正态变换(standard normal variate, SNV)和去趋势(Detrending)、 以及SNV-SG-1、 SNV-SG-2、 Detrending-SG-1、 Detrending-SG-2组合预处理, 并建立PLS-DA分类模型; 优选最优预处理算法得到的光谱数据, 利用连续投影算法(successie projection algorithm, SPA)、 间隔随机蛙跳(interval random frog, IRF)、 无信息消除变量(uninformative variable elimination, UVE)、 变量组合集群分析法(variable combination population analysis, VCPA)、 区间变量迭代空间收缩法(interval variable iterative space shrinkage approach, IVISSA)五种算法和IRF-SPA、 UVE-SPA、 IVISSA-SPA三种组合算法进行特征变量选择, 特征变量建立偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)、 线性判别分析(linear discriminant analysis, LDA)和支持向量机(support vector machine, SVM)分类判别模型。 为损伤灵武长枣在线检测提供理论依据。

1 实验部分

1.1 样品采集

从宁夏灵武某果园手工采摘大小颜色一致、 完好无损伤的灵武长枣, 放入保鲜袋中当天运回实验室, 选取60个灵武长枣贮藏在(0±2) ℃的冰箱备用。

1.2 损伤实验

采用如图1所示的损伤装置获得损伤灵武长枣, 该装置由试验台、 固定支架、 活动摆臂、 曲率半径为8 mm且重量为22 g的实心铁半球组成。 实验过程中摆臂与固定支架夹角为57°, 每次铁半球冲击长枣赤道位置。 一共60颗灵武长枣, 每颗枣冲击一次, 共得到60颗损伤枣。

图1 灵武长枣损伤装置Fig.1 Damage experimental device of Lingwu long jujube

1.3 仪器

Vis/NIR高光谱成像系统, 波长为400~1 000 nm, 该系统主要由高光谱成像仪, CCD相机, 4个150 W的光纤卤素灯, 电控移动平台, 计算机和光谱数据处理等系统构成。 由于高光谱成像系统中噪音的影响, 需要对获得的光谱图像按式(1)进行校正[12]。

式(1)中: R是黑白校正后的灵武长枣图像; IR是灵武长枣原始光谱图像; ID是黑板图像; IW是白板图像。

1.4 高光谱数据获取

高光谱成像系统在采集样品图像前需要开机预热30 min[13]。 首先采集60颗未损伤长枣的图像, 接着利用损伤装置获得损伤长枣, 采集损伤后2, 4, 8, 12和24 h长枣的光谱图像, 最后一共得到360幅长枣的高光谱图像。 利用ENVI软件获得感兴趣区域, 计算得到完整枣和损伤后不同时间段长枣的平均光谱值。

1.5 数据处理及分析软件

原始光谱曲线有噪音和无用信息的干扰, 所以利用SG-1和SG-2, SNV和Detrending以及SNV-SG-1, SNV-SG-2, Detrending-SG-1, Detrending-SG-2等预处理算法对原始光谱进行预处理, 提高建模效果。 为了减少全波段光谱数据的冗余, 降低维数, 去除无关信息, 提取有效信息, 建立一种低维的数据模型, 所以利用SPA, IRF, UVE, VCPA和IVISSA五种算法和IRF-SPA, UVE-SPA和IVISSA-SPA三种组合算法进行特征变量的选择。 PLS-DA分类模型是基于PLS回归计算, 全面考虑了每个变量的信息, 从而能够高效准确的鉴别。 LDA是一种有监督的基于子空间的模式识别方法, 该算法能够使原始样本经过线性变换后的信息更有利于分类。 SVM是一种可以分类、 模式识别、 拟合的监督学习模型。 对于原始光谱、 预处理光谱和选择的特征变量建立PLS-DA, LDA和SVM分类模型。 光谱预处理、 LDA和SVM在Unscramble X 10.4程序中进行, PLS-DA和特征变量选择在MATLAB R 2014a中进行, 利用Origin 2017软件做图。

2 结果与讨论

2.1 光谱分析

图2(a)为全部样本的曲线图, 图2(b)为完整长枣和损伤后不同时间段长枣的平均光谱曲线; 由图中可以看出, 6条曲线具有相同的变化趋势, 波峰波谷主要分布在500, 645, 675, 900和970 nm附近。 675 nm波段附近的吸收峰是由于样本中C—H伸缩振动引起[14]。 900~1 000 nm之间的吸收峰主要是由于样品内部水分的吸收引起, 该波段内存在水的O—H基团的二倍频特征吸收峰[15]。

图2 灵武长枣光谱曲线(a): 全部样本曲线; (b): 平均光谱曲线Fig.2 Spectra of Lingwu long jujubes(a): Original spectra of all samples; (b): Average spectral curves

2.2 原始光谱与预处理光谱分类结果分析

原始光谱利用SG-1, SG-2, SNV和Detrending等算法以及不同预处理算法之间相互结合进行预处理, 建立PLS-DA分类模型, 结果如表1所示, 所有模型的校正集和预测集准确率分别在82.96%~91.11%和90%~96.67%之间。 利用不同预处理算法对原始光谱进行预处理都能提高模型分类效果, 分析得到SNV-SG-2-PLS-DA为最优分类模型, 该模型校正集和预测集分类准确率分别为91.11%和96.67%。

表1 原始光谱和预处理光谱的PLS-DA分类结果Table 1 Classification results of PLS-DA of the original and pre-treated spectra

2.3 特征变量选择

利用SPA, IRF, UVE, VCPA, IVISSA, IRF-SPA, UVE-SPA和IVISSA-SPA等特征波长选择算法选择SNV-SG-2光谱数据的特征变量, 8种算法选择的特征变量如表2所示, 特征变量位置如图3所示。 SPA算法共得到23个特征变量, 占总波长的18.4%。 IRF算法选择特征变量, 得到121个间隔中排名前10的间隔如表3所示, 通过计算排名组合间隔RMSECV值最小, 得到RMSECV最小为第68个间隔, 通过计算共得到108个波长。 图4为UVE算法选择特征变量过程, 虚线内的为无用的变量被剔除, 虚线以外对应的波长被选择, 共得到68个波长, 占总波长的54.4%。 VCPA算法选择特征变量, 共得到13个波长, 占总波长的10.4%。 IVISSA算法选择特征变量, 共得到65个波长, 占总波长的52%。 IRF-SPA, UVE-SPA和IVISSA-SPA算法选择特征变量, 分别得到17, 19和15个波长, 分别占总波长的13.6%, 15.2%和12%。

图3 不同特征波长选择算法选择的波长Fig.3 Wavelengths selected by different feature wavelength selection algorithms

图4 UVE算法选择特征变量稳定性分布曲线Fig.4 Stability distribution curve of characteristic variables selected by UVE algorithm

表2 不同算法选择的特征波长Table 2 Characteristic wavelengths selected by different algorithms

表3 IRF算法选择特征变量排名前10的波长间隔Table 3 The top 10 intervals of feature variables selected by IRF

2.4 基于特征变量的模型建立

特征变量建立的分类判别模型结果如表4所示。 在PLS-DA模型的分类结果中, 8种特征变量选择算法选择的特征变量建立的模型校正集和预测集准确率分别在72.96%~86.30%和74.44%~94.44%之间。 在LDA模型中需要变量数少于每个等级的样本数才能用于建模, 所以利用SPA, VCPA, IRF-SPA, UVE-SPA和IVISSA-SPA等5种算法选择的特征变量建立了LDA分类模型, 模型校正集和预测集准确率分别在71.85%~86.3%和64.44%~83.33%之间。 在SVM模型的分类结果中, 8种算法选择的特征变量建立的模型校正集和预测集准确率分别在41.49%~77.78%和34.44%~72.22%之间。 在建立的PLS-DA模型中, SNV-SG-2-UVE-PLS-DA模型效果最好, 变量数为68个, 占总变量的54.4%, 模型校正集和预测集准确率分别为86.3%和94.44%。 在建立的LDA模型中, SNV-SG-2-SPA-LDA模型效果最好, SPA选择了23个特征变量, 占总变量的18.4%, 模型校正集和预测集准确率分别为86.3%和83.33%。 在SNV-SG-2-UVE-SVM模型中, UVE选择的变量数为68个, 模型校正集和预测集准确率分别为77.78%和71.11%。 通过分析, 线性判别模型(PLS-DA、 LDA)的结果优于非线性判别模型(SVM), 在线性判别模型中PLS-DA模型分类结果优于LDA模型的分类结果。

表4 基于特征变量的分类结果Table 4 The classification results based on characteristic wavelength

3 结 论

高光谱成像作为一种快速无损的检测方法被广泛应用。 利用高光谱成像系统获得完整长枣和损伤后不同时间段(损伤后2, 4, 8, 12和24 h)长枣的光谱图像, 提取感兴趣区域, 计算平均光谱值, 建立原始光谱和预处理光谱数据的PLS-DA分类模型, 选择SNV-SG-2光谱数据的特征变量建立线性(PLS-DA, LDA)和非线性(SVM)分类判别模型, 并对模型进行比较。 在原始光谱数据建模中, 模型校正集和预测集准确率分别为82.96%和90%。 光谱经过预处理后得到SNV-SG-2-PLS-DA为最优分类判别模型, 模型校正集和预测集准确率分别为91.11%和96.67%, 预处理可以有效提高模型的分类准确率。 在特征变量建立的分类模型中, SNV-SG-2-UVE-PLS-DA模型校正集和预测集准确率分别为86.3%和94.44%; SNV-SG-2-SPA-LDA模型校正集和预测集准确率分别为86.3%和83.33%; SNV-SG-2-UVE-SVM模型校正集和预测集准确率分别为77.78%和71.11%。 对于特征变量选择算法来说, 有的可以提高建模准确率, 有的虽然减少了变量数, 但是使得建模效果降低, 不利于判别分类。 对于建立的分类模型来说, 线性分类模型(PLS-DA, LDA)分类结果优于非线性分类模型(SVM)分类结果, 在线性分类模型分类结果中PLS-DA模型分类结果优于LDA模型分类结果, 因此, PLS-DA分类模型可以更好的为损伤灵武长枣在线检测提供分类效果。

猜你喜欢

灵武波长预处理
早熟灵武长枣果实糖代谢酶与早熟的相关性
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
基于预处理MUSIC算法的分布式阵列DOA估计
双波长激光治疗慢性牙周炎的疗效观察
日本研发出可完全覆盖可见光波长的LED光源
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
壳聚糖对灵武长枣保鲜效果研究
便携式多用途光波波长测量仪
基于自适应预处理的改进CPF-GMRES算法