APP下载

高光谱技术结合变量选择方法的甘薯冻害检测研究

2021-05-10许建东张淑娟郑小南薛建新孙海霞

食品与发酵工业 2021年8期
关键词:甘薯波长光谱

许建东,张淑娟*,郑小南,薛建新,孙海霞

1(山西农业大学 农业工程学院,山西 晋中,030801)2(山西农业大学 软件学院,山西 晋中,030801)

冻害[1-3]是造成甘薯腐烂的重要因素,常常由于收获过晚或贮藏中未做好防寒措施而发生,及时发现并剔除冻害甘薯是降低生产损失的关键。由于甘薯冻害表现的滞后性,冻害发生后不会立即腐烂,一般到贮藏15 d左右才会出现腐烂。在甘薯冻害发生早期,冻害甘薯与完好甘薯在外表皮上并无显著差异,从视觉角度无法区分识别。为了完成对甘薯早期冻害检测研究,需要寻求一种快速、高效的无损检测方法来实现冻害甘薯的识别检测。

高光谱技术(hyperspectral imaging,HSI)是一种无创质量评价技术,能够快速获取大量的样本表面结构信息和内部特征信息,对待测物进行分析,已被广泛应用在苹果[4-6]、梨[7-10]、马铃薯[11]等水果和蔬菜的内外部品质的无损检测[12-13]。由于待测物中水分等化学成分对光谱的吸收特性,冻害果肉中水分子由游离态向结晶态逐渐变化,会引起光谱吸收峰的偏移,利用高光谱技术对甘薯冻害特征的识别检测具有一定的可行性。同时光谱无损检测技术也已经在甘薯及其加工制品的水分、淀粉、蛋白质、茎叶色素、黄酮以及重金属等化学成分测定等方面获得应用。国内外已存在一些利用光谱技术对农产品冻害检测相关的研究[14-18]。但利用光谱无损检测技术对甘薯冻害的检测研究还未见相关报道。

本研究以山西太谷黄心甘薯为研究对象,分析冻害甘薯的光谱特性,利用一阶导数(first derivative,FD)对原始光谱预处理,研究竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)、迭代保留信息变量算法(iteratively retains informative variables,IRIV)以及结合连续投影算法(successive projections algorithm,SPA)的CARS-SPA和IRIV-SPA共4种不同的筛选变量方法,并结合偏最小二乘法和最小二乘支持向量机得到甘薯冻害检测的优选特征变量以及检测模型,并对预测模型的识别正确率、灵敏度及特异性指标进行分析。

1 材料与方法

1.1 试验材料

本研究以黄心甘薯为研究对象,全部甘薯样本均是采自山西太谷丰农城西农产品批发市场的同一批甘薯样本。挑选无损伤且大小均一的甘薯样本,实验前对样本简单清洁处理。一共选取全部甘薯实验样本696个,其中从全部样本中随机挑选348个样本作为完好样本,放置于常温条件下不做任何处理。将剩余的348个完好甘薯先放置于-2 ℃低温条件下处理48 h,然后再放置于常温条件下贮藏24 h以上获得冻害甘薯样本。

1.2 高光谱采集与分析

样本的高光谱图像获取应用北京卓立汉光有限公司生产的“Gaia Sorter”型高光谱分选仪,配备相应的高光谱采集软件,如图1所示,主要组成为Image-λ-N17E光谱相机、电移动平台、计算机、暗箱和4个35 W溴钨灯等。仪器光谱波段为900~1 700 nm,分辨率为5 nm,像素为320×256,曝光时间为0.13 s。本试验设置平台移动速度为7.0 mm/s,镜头距样本的距离为220 mm。试验中样本置于全黑背景上且采集全程均在暗室内完成。样本的原始高光谱图像信息需要黑白校正,校正公式如公式(1)所示:

(1)

式中:R,校正后样本图像;Iraw,样本原始图像;Idark,全黑标定图像;Iwhite,全白标定图像。

1-电移动平台;2-暗箱;3-光谱相机;4-计算机;5-甘薯样本; 6-溴钨灯图1 高光谱图像采集平台Fig.1 Hyperspectral image acquisition platform

以样本质心为坐标,提取图像中完好和冻害区域(200~250个像素)的平均光谱作为2组(完好组和冻害组)样本光谱,共获得样本光谱819个,其中完好组样本光谱343个,冻害组样本光谱476个。去除噪声较大的边缘波段,本文保留930~1 700 nm波段(共243个波长变量)作为有效光谱进一步研究。如图2所示为2组甘薯样本的平均光谱,总体上2组样本的平均光谱曲线具有较高的相似性,在局部存在反射率低于0.05的微弱差异。其中960~1 140 nm为强反射区,1 410~1 570 nm为低反射区。2组样本光谱的波峰与波谷位置相对一致,在1 075和1 290 nm附近有两处明显波峰,两处波谷在1 205和1 470 nm附近主要由水分和碳水化合物的吸收引起[19]。

图2 930~1 700 nm波段的有效光谱Fig.2 Original reflectance spectral of 930~1 700 nm

1.3 样本集的划分

合理划分样本集,将光谱差异大的样本划分为训练集,所建立的模型更加稳健且具备更好的泛化性能。利用Kennard-Stone算法以3∶1的比例将819个总样本集光谱(343个完好和476个冻害)随机分配到训练集和预测集,共计614个训练集样本(257个完好和357个冻害),共计205个预测集样本(86个完好和119个冻害)。

1.4 数据处理

一阶导数预处理能够去除光谱曲线基线漂移,并减少背景干扰使光谱曲线变化更显著。变量标准化(standard normalize variate, SNV)算法通过对假定满足正态分布的各波长变量进行标准化处理,去除光散射、固体颗粒大小带来的的噪声影响。多元散射校正(multiplicative scatter correction, MSC)假定全部样本的平均光谱为基准光谱,利用每一条光谱与基准光谱间的线性关系完成光谱校正,排除样品大小、装载方式等的干扰。Savitzky-Golay卷积平滑法利用卷积平滑处理结合合适的平滑移动窗口数,对移动窗口内的光谱变量进行数据拟合,排除噪声干扰。

竞争性自适应重加权算法[20-22]是以偏最小二乘法(pertial least squares,PLS)模型回归系数作为变量重要性指标,采用评价权重的方式筛选变量,去除无关变量并减少变量间的共线性。迭代保留信息变量算法[23-25]是基于模型集群分析方法的特征选择算法,注重变量间的联合效应,利用变量的随机组合建立PLS模型,逐个计算变量重要性,经过迭代分析去除无效及干扰变量,最后基于剩余变量反向消除保留最佳波长变量。连续投影算法计算波长变量的正交投影,基于不同波长的向量投影筛选变量,消除波长变量之间的共线性问题,获得相关性较小的波长变量组。

PLS是较为经典的线性拟合方法,结合了多元线性回归、相关分析和主成分的优点,在考虑目标变量的前提下通过提取主成分降维,能够较好解决变量间的多重相关性问题和小样本问题。最小二乘支持向量机(least squares support vector machines, LS-SVM)[26-27]是SVM的一种改进算法,可以较好地解决输入变量与输出变量间复杂的非线性关系,通过升维将非线性不可分问题转化为线性可分,利用一次求解线性组来替代支持向量机中复杂二次优化问题,提高了模型的运算速率并降低模型复杂度。本文参考文献[28]定义3个指标(即识别正确率、灵敏度、特异性)来分析评价模型性能。其中,灵敏度为完好组中被正确识别样本的比率,特异性为冻害组中被正确识别样本的比率。若识别正确率、灵敏度、特异性越接近于100%,则表明所建立模型预测准确度越高。

高光谱图像采集及黑白校正在Specview软件完成,光谱信息数据提取采用ENVI 4.7 (ITT Visual Informagtion Solutions, Boudler, USA)软件,预处理、波长提取及模型建立和分析在The Unscrambler X 10.1 (CAMO AS, Oslo, Norway)和Matlab R2012a (The Math Works, Natick, USA)软件中运行完成,平均光谱图及预测结果图在Origin 8.5 (Origin Lab, USA)软件中绘制。

2 结果与分析

2.1 光谱预处理

表1 不同预处理下建立的PLS模型结果Table 1 Result of PLS models based on different preprocessing methods

图3 经一阶导数预处理后的光谱Fig.3 Reflectance spectral after FD processing

2.2 光谱特征波长提取

由于高光谱波段较多,且相邻波段间存在较多共线性及冗余信息变量,建立的模型复杂且精度较低,采用变量筛选方法能有效挑选与甘薯冻害信息相关的特征波段,压缩波长变量数,简化模型结构并提高模型性能。采用CARS、IRIV算法以及结合SPA算法的CARS-SPA和IRIV-SPA特征提取方法筛选冻害甘薯的特征波长。

利用CARS算法筛选与甘薯冻害特征信息相关的波长变量。设定蒙特卡罗抽样次数为50次,利用5折交叉验证的RMSECV最小值判定最佳变量。如图4-a所示,前20次采样过程中变量数减少速度较快,随后逐渐减缓。由图4-b可知,随着采样次数的增加,RMSECV值先减小后增大,在第18次采样时RMSECV值达到最小,此时各变量的回归系数位于图4-c中竖线位置,最终CARS算法筛选得到46个特征变量(图4-d),仅占全波段的18.9%。

利用IRIV算法筛选冻害甘薯的特征波长变量。设定IRIV算法的最大主成分为15,交叉验证次数为5,IRIV提取特征变量过程如图5所示。由图5-a可知IRIV算法一共迭代了6轮,随着迭代次数的增加,变量数逐渐减少,其中前2轮迭代过程中变量数减少最快,从243个变量减少到100个,之后变量数下降逐渐平缓,在第5轮迭代移除无效和干扰变量后,进入反向消除。经过5轮迭代分析加反向消除,从全部243个波长变量中筛选出与甘薯冻害相关的特征波长变量65个(图5-b),仅占全波段的26.7%。

a-波长数目的变化;b-均方根误差的变化; c-回归系数趋势图;d-CARS优选变量分布图图4 CARS提取特征变量过程Fig.4 Process of CARS variable selection

a-IRIV迭代保留变量数;b-IRIV优选变量分布图图5 IRIV提取特征变量过程Fig.5 Process of IRIV variable selection

由于CARS、IRIV 2种特征选择方法筛选的特征变量数目依然较多,本文利用SPA算法对CARS和IRIV筛选出的46和65个特征变量进行二次筛选[29-30]。如图6-a、6-c所示,均方根误差RMSE变化趋于稳定为0.160 98、0.154 14时,CARS-SPA和IRIV-SPA结合算法分别筛选出24和35个特征波长变量,变量分布图如图6-b、6-d所示,仅占全波段光谱变量的9.9%和14.4%。

2.3 模型构建与检验

本研究中完好组样本类别被赋值为1,冻害组样本类别被赋值为2。基于CARS、IRIV以及CARS-SPA和IRIV-SPA算法的波长变量筛选结果,采用PLS与LS-SVM方法分别建立对甘薯冻害特征的识别预测模型,描述甘薯冻害特征与波长变量间的关系,并与未经变量选择的识别模型进行比较。由于模型的预测值非整数,依据定义的完好组和冻害组样本分类赋值1和2,选取0.5为模型预测值的样本分类阈值,所以0.5~1.5被判定为完好样本,1.5~2.5被判定为冻害样本,进一步求得模型的识别正确率、灵敏度以及特异性指标来分析所建立模型的优劣。

表2为基于不同变量选择方法建立的模型预测结果。由表2可知,根据预测集判别结果,各模型的识别准确率均较高,识别准确率均在94.63%以上。CARS-PLS和CARS-LS-SVM模型预测准确率均高于IRIV-PLS和IRIV-LS-SVM模型,说明CARS算法筛选的46个特征波长变量能够更全面的反映与甘薯冻害特征相关的信息,是优于IRIV算法的特征波长提取方法。进一步分析,经过SPA方法二次筛选特征波长变量建立的CARS-SPA-PLS、IRIV-SPA-PLS、CARS-SPA-LS-SVM和IRIV-SPA-LS-SVM模型预测精度均较CARS-PLS、IRIV-PLS、CARS-LS-SVM和IRIV-LS-SVM模型有一定程度的下降,说明在进行特征波长的二次筛选过程中,SPA方法移除了部分对建模有用的特征变量,导致模型精度降低。由此可见,CARS方法为有效的变量选择方法,且CARS方法优于IRIV、CARS-SPA和IRIV-SPA 3种方法。此外,对比10种建模方法,发现CARS-PLS及RAW-LS-SVM所建立的分类模型性能均优于相应的其他方法所建立的分类模型。其中以RAW-LS-SVM模型预测结果最优,其预测集的识别正确率、灵敏度及特异性分别为98.54%、97.67%和99.16%。但是RAW-LS-SVM的波长变量未经过筛选,模型较为复杂。相比之下经CARS变量筛选后,建立的CARS-PLS模型的识别正确率、灵敏度及特异性分别为98.05%、98.84%和97.48%,预测准确率与RAW-LS-SVM模型差异较小,且建模所用的波长变量数减少了81.1%,表明CARS方法在全波段光谱变量中去除了自相关性高的波段,简化了模型结构,缩小了模型运算时间,不仅保持模型精度而且极大降低了模型复杂度,所以选择CARS-PLS模型作为最优模型。如图7所示为CARS-PLS所建立的分类模型对预测集样本的预测结果。由图7可知,误判样本共有4个,其中1个完好样本被误判为冻害,3个冻害样本被误判为完好。

a-不同变量数目下CARS-SPA算法的RMSE分布;b-CARS-SPA优选变量分布图;c-不同变量数目下IRIV-SPA算法的RMSE分布; d-IRIV-SPA优选变量分布图图6 SPA提取特征变量过程Fig.6 Process of SPA variable selection

表2 不同变量选择方法及建模方法的预测结果Table 2 Predicted results of different variable selection and methods

图7 CARS-PLS判别模型对预测样本的预测结果Fig.7 Predicted results of prediction samples by CARS-PLS classification model

3 结论

本研究利用高光谱技术结合变量选择方法对甘薯冻害特征进行定性识别研究,采用CARS、IRIV以及CARS-SPA和IRIV-SPA算法分别筛选出46、65、24和35个特征波长变量,基于全波段光谱变量和特征波长变量建立冻害甘薯的PLS和LS-SVM识别模型。结果表明,基于CARS特征波长变量的模型识别性能优于其他模型。10种预测模型中,CARS-PLS模型对甘薯冻害特征识别结果最优,预测集样本的识别正确率、灵敏度及特异性分别为98.05%、98.84%和97.48%。CARS算法筛选的特征波长能够更加全面地反映与甘薯冻害相关的信息,是优于IRIV、CARS-SPA和IRIV-SPA算法的特征波长提取方法。本研究从光谱维度实现了对甘薯冻害特征的识别,为后续甘薯品质在线检测设备的开发奠定了理论基础。

猜你喜欢

甘薯波长光谱
基于三维Saab变换的高光谱图像压缩方法
甘薯种植技术及实施要点分析
杯中“日出”
高光谱遥感成像技术的发展与展望
益生菌发酵甘薯汁的工艺优化
环境温度和驱动电流对LED的峰值波长的影响
LED峰值波长对多光谱组合白光色参数的影响
多管齐下 防好甘薯黑斑病
基于GPU的高光谱遥感图像PPI并行优化
苦味酸与牛血清蛋白相互作用的光谱研究