APP下载

高光谱成像技术在核桃壳仁检测中的应用

2018-11-06陈彩虹张淑娟孙海霞李成吉邢书海

关键词:核桃壳核桃仁波长

陈彩虹,张淑娟,孙海霞,李成吉,邢书海

(山西农业大学 工学院,山西 太谷 030801)

核桃位居世界四大坚果之首,是我国主要栽培的果树种类之一。核桃富含蛋白质、脂肪、维生素及微量元素以及多种营养物质,具有补气养血、润肺强肾、预防冠心病、降低血脂、乌发健脑等功效[1,2]。核桃贸易主要有核桃仁和带壳核桃两种,核桃壳仁分选是带壳核桃到核桃仁的主要环节,但目前核桃的壳仁分离主要靠人工分选,即耗时又费力,生产率低,且卫生状况差。因此,对核桃壳仁进行快速、准确的鉴别分选是核桃仁生产加工中的一项亟待解决的问题。

近年来,随着光谱技术及计算机技术的不断发展,高光谱成像技术因其可将图像和光谱信息结合,且具有分析速度快、无损、适合在线处理等特点,在农产品品质检测、分级等方面得到了广泛的运用。杨一等[3]利用可见/近红外光谱技术对产自同一地区的板枣、鸡心枣和相枣进行动态分类判别,正确判别率达100%。贾昌路等[4]利用近红外光谱技术对不同核桃进行品种鉴定及品质比较,结果表明利用近红外光谱分析技术可以快速区别核桃品质的优劣。高攀等[5]利用近红外高光谱成像技术对微破损棉种进行可视化识别,取得了较好的识别结果,微破损棉种的识别率达90%以上。张初等[6]利用近红外高光谱图像技术对西瓜种子品种进行鉴别,并基于特征波长建立反向传播神经网络(Back Propagation Neural Network,BPNN)判别模型和极限学习机(Extreme Learning Machine,ELM)判别模型,结果表明建模集和预测集的判别正确率均为100%。

就目前的研究状况来看,近红外高光谱成像技术主要用于样本内外部品质的检测,在核桃壳仁分选检测方面的应用鲜有报道。因此,本研究采用高光谱成像技术对核桃壳仁进行检测,根据壳仁的光谱差异进行分类判别,为进一步开发核桃壳仁在线分选装备提供理论依据。

1 材料与方法

1.1 试验材料

样品采购于山西太谷县农贸市场,挑选60个大小、形状、颜色相似的礼品2号核桃作为样本。运回实验室后,对其进行破壳处理。由于分心木是壳仁分离中的关键影响因素,且具有药用价值,因此从破壳后的混合物中随机挑选204个壳,102个分心木及94个仁作为试验样本。依据 Kennard-Stone 算法,将3类样本分为校正集300个和预测集 100个,如表1所示。

表1 Kennard-Stone法的样本划分结果

Table1 Sample partition results of the Kennard-Stone method

样本类型Sample 样本总数Total校正集样本数Correction 预测集样本数Prediction核桃壳20415351分心木1027725核桃仁947024总数400300100

1.2 仪器设备

本试验采用北京卓立公司开发的“盖亚”高光谱分选仪(见图1),主要有Image-λ-N17E光谱相机、4个35 W的溴钨灯、计算机、电移动平台、暗箱组成,波长范围为900~1 700 nm。试验样本采集中需先调节曝光时间及平台移动速度以防止采集的信息过度饱和出现失真现象。设置曝光时间为20 ms,平台移动速度为2 cm·s-1,样本与镜头的距离为22 cm。

图1 高光谱分选仪Fig.1 Hyperspectral Sorting System

1.3 黑白校正

为了消除光强变化和镜头中暗流对采后数据的影响以及计算扫描物体的相对反射光谱值,在光谱数据采集前先采集黑白板,并对高光谱采集后的数据进行黑白校正,计算公式为:

(1)

式(1)中,I为原始的高光谱图像,B为全黑的标定图像,W为全白的标定图像,R为校正后的高光谱图像。

1.4 统计分析

为寻找最佳光谱预处理方法,通过决定系数和均方根误差对所建立的偏最小二乘(PLS)模型进行比较分析。采用竞争自适应重加权算法(CARS)、回归系数法(RC)和连续投影法(SPA)三种方法对预处理后的光谱进行特征波长的提取,消除光谱数据中的冗余信息,提高建模的准确率。

2 结果与分析

2.1 核桃壳仁及分心木的平均光谱曲线图

使用ENVI软件分别提取核桃壳、分心木及核桃仁感兴趣区域的光谱数据,并计算每个样本的平均光谱(图2)。核桃壳、仁及分心木的平均光谱曲线有很大差别,在1 000~1 200 nm范围内,核桃仁的反射率最高,这是由于核桃仁中含有大量的蛋白质。在1 200 nm附近的曲线均为波谷,这是由于C-H基团二级倍频吸收[7]。

图2 核桃壳、仁及分心木的平均光谱图Fig.2 Average spectrum of walnut shells、kernels、and distracted wood

2.2 光谱数据预处理

采集到的原始光谱数据中包含因样本背景、环境杂光及暗电流等产生的与样本本身性质无关的冗余信息,因此需要对原始光谱数据进行预处理以减弱或消除冗余信息,降低无关信息对后续建模的影响。本研究中采用一阶微分处理(1stDer),基线校正(Baseline)、标准归一化(SNV),多元散射校正(MSC)对原始光谱进行预处理。为了比较不同预处理方法对建模精度的影响,对处理后的光谱数据建立PLS模型比较建模效果(表2)。决定系数越大,均方根误差越小,建模精度越高。

表2不同光谱预处理方法对PLS建模结果的影响

Table2 Effect of PLS models results after different spectral pretreatment methods

预处理方法Pretreatment method校正集Correction预测集PredictionR2cRMSECR2pRMSEPRaw0.815 50.360 00.839 30.333 61stDer0.846 60.328 40.856 50.315 2SNV0.736 10.430 60.854 00.317 9MSC0.764 00.407 20.851 80.320 3Baseline0.805 20.369 90.879 50.288 8

2.3 特征波长提取

2.3.1 CARS特征波长提取

竞争自适应重加权算法[8](CARS)模仿达尔文生物进化理论中的“适者生存”基本原理。在波长变量优选过程中,各波长变量作为单一个体,通过优选出PLS模型中回归系数绝对值大的波长变量,剔除模型中绝对值较小的波长变量,并通过十折交互检验优选出交互验证均方根误差(RMSECV)最小的优选变量子集,确定为最优变量子集。

本研究中,首先设定蒙特卡罗采样次数N=50,选择变量个数由建立的PLS模型中RMSECV最小值确定,筛选结果如图3所示。由图3a可以看出,随着采样次数的增加,筛选出的波长变量个数不断下降,由最初的254个减少到19个,且下降速度由快到慢;由图3b可以看出,随着采样次数的增加,RMSECV的值呈现由大变小再变大的趋势。在前26次采样过程中,高光谱中与核桃壳仁分选无关的大量信息被剔除,从第27次采样后RESECV的值开始上升;图3c表示254个变量在每次采样中自生回归系数的变化趋势。对模型贡献量大的变量,其回归系数会被放大和保留,根据最优变量选择原则,第27次采样所得的RESECV最小,为0.263 5,所以第27次采样保留下来的变量即为所提取的特征波长,共19个,分别为966、1 122、1 128、1 141、1 147、1 170、1 259、1 361、1 418、1 431、1 567、1 577、1 596、1 647、1 653、1 656、1 675、1 685、1 691 nm。

图3 CARS关键变量选择Fig.3 Key variables selection results of CARS

2.3.2 RC特征波长提取

回归系数法[9](RC)是通过对预处理之后的样本建立PLS判别模型并提取模型中的回归系数,根据局部极值作为特征波长值的原则,本研究选取了11个特征波长值(图4),分别为927、963、1 138、1 186、1 237、1 354、1 389、1 434、1 462、1 516、1 653 nm。

图4 RC提取的特征波长Fig.4 Key variables selection results of RC

2.3.3 SPA特征波长提取

连续投影法(SPA)是一种使矢量空间共线性最小化的前向变量选择算法。它的优势在于提取全波段的几个特征波长,不仅能消除光谱信息中含有的冗余信息变量间的共线性问题,而且能够最大限度的避免有效信息的重叠。当校正模型的交互验证均方根误差达到最小值时,其对应的波段组合为优选出的有效特征波长。针对一阶微分处理后的样本进行特征波长的优选。优选过程和所有选出的特征波长如图5和图6所示。由图5可知,特征波长数为6时,RMSE值达到最小,为0.399 01。由图6可知,所优选到的6个特征波长,分别为1 443、1 466、1 272、1 313、1 475、1 653 nm,其重要程度依次递减。

图5 波长数量与均方根分误差关系Fig.5 Wavelength number and root mean square error relationship

图6 特征波长分布图Fig.6 Characteristic wavelength distribution map

对用3种方法提取特征波长后的光谱数据分别建立PLS模型比较建模效果,所得结果见表3。

由表3可知,用CARS提取特征波长后所建立的模型精度相对较好,建模后更可靠。

2.4 基于特征波长的判别模型建立

支持向量机[10](Support Vector Machine, SVM)是一种比较高效的算法, 且泛化能力很强,能避免神经网络复杂的结构, 在模式识别、回归分析等方面有着广泛用途。最小二乘支持向量机(LS-SVM)是一种改进的支持向量机算法, 该方法收敛精度有所提高, 且减少了训练时间,提升了运行速度,简化了计算复杂度。

表3不同特征波长提取方法对PLS建模效果的影响

Table3 Effect of Different Feature Wavelength Extraction Methods on PLS Modeling Results

特征波长提取法Characteristic wavelength extractionR2RMSECARS0.764 00.407 2RC0.751 70.417 6SPA0.709 90.451 4

本研究用CARS、RC、SPA法提取特征波长后的特征值作为样本值输入分别建立LS-SVM 模型。然后将样本分别赋值作为判别依据,核桃壳赋值为1,核桃仁赋值为2,分心木赋值为3。对预测集样本进行判别,图7~图9为3种样本在不同特征波长提取下的模型判别结果图。

从图7~图9可以看出,用LS-SVM建立的预测模型准确率高,建模效果好。用CARS和RC提取的特征波长所建的LS-SVM预测模型,其正确识别率均达到了100%,SPA提取的特征波长建立的LS-SVM预测模型,其正确识别率为99%。这是因为SPA 算法在提取特征变量降低原始波长冗余度的同时,也将一些有用信息剔除了,而CARS算法提取的19个最优变量及RC算法提取的11个最优变量更能代替原始光谱信息。

图7 CARS-LS-SVM判别结果Fig.7 CARS-LS-SVM discrimination result

图8 RC-LS-SVM判别结果Fig.8 RC-LS-SVM discrimination result

图9 SPA-LS-SVM判别结果Fig.9 SPA-LS-SVM discrimination result

3 结论

本文以核桃壳、核桃仁、分心木为研究对象,选取最佳预处理方法,对经过最佳预处理后的光谱数据用CARS、RC、SPA 法提取的特征波长分别作为输入,并建立LS-SVM模型比较判别效果。结果表明经过一阶微分预处理后的光谱数据,对这三类样本有更好的判别能力,所建的LS-SVM模型对核桃壳、核桃仁、分心木的判别准确率分别达到了100%、100%、99%。因此,高光谱成像技术可用于核桃的壳仁分选中,为核桃深加工和相关设备的开发提供了理论基础。

猜你喜欢

核桃壳核桃仁波长
威风凛凛的东北虎
核桃壳炭的制备及其对氨氮废水的吸附性能研究
高锰酸钾改性核桃壳基生物炭对水溶液中Cu2+的吸附性能
熬膏煮汤多样化——谈谈核桃仁的食用
核桃仁巧治感冒
口腔溃疡用核桃壳粉漱口
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量
核桃壳催化热解特性及动力学实验研究