APP下载

基于高光谱成像技术的金银花霉变检测模型

2018-10-10洁刘云宏2王庆庆于慧春2石晓微

食品与机械 2018年8期
关键词:金银花正确率波长

冯 洁刘云宏,2王庆庆于慧春,2石晓微

(1. 河南科技大学食品与生物工程学院,河南 洛阳 471023;2. 河南省食品原料工程技术研究中心,河南 洛阳 471023)

金银花是中国传统药食同源食材及中药材[1-2],有抗菌抗炎、清热解毒等功效[3],具有极高的营养价值。金银花在贮藏运输过程中,经常由于包装不严、吸潮而发生霉变变质等现象,这不仅会严重影响金银花的外观与风味,还会造成营养成分的大量流失以及有毒有害物质的生成积累。一旦霉变金银花被人畜误食,将会严重威胁到人们的生命健康[4]。因此,及时检测出霉变金银花尤为重要。

目前,农产品霉变的检测主要依靠人工定性分析,通常是根据检测人员对农产品的色泽、气味等感官指标变异情况进行判别[5],这种方式分选检测范围小、效率低、经验依赖性强,若应用于金银花霉变程度识别,极易产生人为误差。现有的农产品霉变理化检测方法主要包括生物学方法、免疫学方法和化学仪器分析法[6-8]。这些方法虽然检测精度高,但操作繁琐、时间长及成本高,难以及时、无损分析金银花霉变程度。因此,亟需建立一种快速、准确、实用的金银花霉变程度的检测方法。

近年来,高光谱成像技术由于操作简单、快速、无损等优点,在农产品品质鉴定与检测中的应用非常广泛[9-11]。目前,国内外学者在利用高光谱成像技术检测不同农产品病变程度、鉴别不同霉变菌种等方面已有一些研究[12-13]。如龚中良等[14]利用高光谱成像技术快速无损鉴别不同霉变程度的籼稻;Zhang等[15]利用高光谱成像技术鉴别小麦白粉病;Siripatrawan等[16]运用高光谱图像技术实时监控贮藏大米中腐败霉变真菌生长状况。上述研究均取得了较好的预测效果,说明高光谱成像技术能够实现农产品霉变情况的快速、无损、准确检测。然而,目前尚无利用高光谱技术进行金银花霉变程度快速检测方法构建的研究报道。

本研究拟通过高光谱成像技术采集金银花不同霉变程度的数据信息,结合化学计量学方法建立有效、准确的检测模型。首先,使用Savitzky-Golay(SG)卷积平滑、多元散射校正(Multiple Scatter Correct,MSC)和Savitzky-Golay卷积平滑-多元散射校正(SG-MSC)3种预处理方法建立全光谱偏最小二乘(Partial Least Square,PLS)模型,选择最佳预处理方法后,运用连续投影系数法(Successive Projection Algorithm,SPA)和竞争性自适应重加权算法(Competitive Adaptive Reweighted Sampling,CARS)提取经预处理后得到光谱的特征波长,并分别建立偏最小二乘判别(Partial Least Square Discriminant Analysis,PLS-DA)和最小二乘支持向量机(Last Squares Support Vector Machine,LS-SVM)判别分析模型,最终实现对霉变金银花的有效鉴别。以期为高光谱成像技术在金银花农产品的霉变检测及品质鉴定中的应用提供参考。

1 材料与方法

1.1 材料及设备

金银花:产地为河南封丘,河南洛阳同仁堂大药房;

恒温恒湿培养箱:HWHS-100HC型,深圳市澳德玛电子科技有限公司;

高光谱摄像仪:Inno-Spec IST50-3810型,德国Inno-Spec GmbH公司;

光纤卤素灯:90000420108型,德国ESYLUX公司;

控制箱:SC100型,北京光学仪器厂;

电控位移台:SC100型,北京光学仪器厂。

1.2 方法

1.2.1 样品的制备与划分 将金银花放置于温度为25 ℃、湿度85%的恒温恒湿培养箱中进行培养。分别挑选无霉变、轻度霉变、中度霉变、重度霉变4个时期的金银花为试验对象,对应的贮藏时间分别为0,5,10,15 d。每组金银花随机选择90个样本,应用高光谱成像技术进行光谱数据采集。其中对照组金银花为青绿色,没有损害迹象;轻度霉变金银花出现轻微变色与发潮现象,表面开始有微量菌丝出现,但由于金银花表面存在被毛与菌丝的颜色相近,肉眼很难直接观察;中度霉变为霉菌覆盖面积约占金银花表面10%~40%,并有轻微霉味和霉斑;重度霉变金银花表面布满白色菌落出现严重的霉味、酸味和异常,少量样品产生黏连现象。

1.2.2 高光谱图像采集与校正 在图像采集前为了保证图像的清晰度、避免失真现象的发生,首先应确定物镜距离、高光谱摄像机的曝光时间和输送装置的移动速度。经过反复调整,最终确定物镜高度为250 mm,CCD相机的曝光时间为90 ms,输送装置的移动速度为1.20 mm/s。4个光源分布在高光谱系统的前后两边,以保证花蕾表面形成足够的光照强度,防止由于光照不足或不均匀而产生噪音[17-19]。

光谱测定条件为:光谱扫描范围371~1 024 nm,在光谱范围内共1 288个波段,光谱分辨率2.8 nm。金银花光谱采集时,每次将一个金银花与传送带垂直放置。每个金银花及其对应的光谱视为一个样本,对照组(无霉变)、轻度霉变、中度霉变和重度霉变金银花4组样本各测量90个样本,最终获得360个样本。

在进行光谱处理前,需要进行黑白校正,以清除由于传感器暗电流等原因而在图像信息中产生的较大噪音。因此,在同一样本采集系统条件下,扫描标准白色校正板(99%反射率)与关闭摄像头快门进行图像采集,分别得到全白和全黑的标定图像,根据式(1)进行图像标定[20-21]。

(1)

式中:

I——原始的高光谱图像;

B——全黑的标定图像;

W——全白的标定图像;

R——标定后的高光谱图像。

图像校正后,采用ENVI 5.1软件选取整个金银花花蕾为感兴趣区域(Region of Interest,ROI),将ROI内所有光谱信息的平均值作为对应样本的光谱值进行数据分析[22-23]。

1.2.3 化学计量学方法 利用MATLAB R2014a (The Math Works,Natick,USA)软件,将采集到的样本数据使用SG、MSC[24]和SG-MSC 3种方法进行预处理。利用SPA[25]和CARS算法[26]选择经预处理光谱的特征波段,并使用所提取的特征波段分别建立偏最小二乘判别[27](PLS-DA)和最小二乘支持向量机[28-29](LS-SVM)判别分析模型,试验采用判别正确率来评价检测分析模型的精度。经过反复调试,试验中LS-SVM算法选用的核函数为RBF函数,惩罚因子设置γ为500,RBF核函数参数σ2为620。

2 结果与分析

2.1 不同霉变程度金银花的平均光谱曲线

利用高光谱成像系统采集金银花样本的光谱数据,由于光谱数据前端和后端波动较大,明显具有较大的噪声影响,因此研究时去掉前端和后端中有明显噪声的波段。本研究采用第199~988波段,共计790个波段,即对波长范围在472.35~874.46 nm的光谱进行分析。图1为金银花不同霉变程度的平均光谱曲线图,可见4组不同霉变程度的金银花具有相似的光谱曲线趋势,不同霉变程度金银花的反射值在所选波段存在差异。随着贮藏时间的延长,金银花开始发生褐变反应,导致类黑素的生成,表面色泽逐渐变暗[30],其内部化学组分发生一系列的反应,金银花所含酚类、黄酮类物质不断降解[31],这可能是中度霉变与轻度霉变的光谱反射值之间存在很大差距的原因。由于重度霉变金银花表面覆盖一层菌丝,在可见光范围内,重度霉变组的光谱反射值要大于中度霉变组。而样本光谱曲线在650~700 nm,对照组与轻度霉变、中度霉变与重度霉变金银花之间样本的光谱反射值极为相近,难以将4组不同霉变程度金银花利用光谱曲线辨别出来。因此,需要进一步处理数据,以提高检测金银花霉变程度的建模精度。

图1 不同霉变程度的金银花平均光谱图Figure 1 Average spectrum of honeysuckle with different moldy degrees

2.2 光谱预处理

为减少样本数据噪声,保留光谱曲线中的有用信息。本试验使用Kennard-Stone(KS)算法,每组随机选择60个样本,共240个样本数据组成训练集,取各组剩余30个样本共120个样本数据组成校正集,分别运用SG、MSC和SG-MSC 3种算法对光谱数据进行预处理。

SG卷积平滑、MSC和SG-MSC 3种预处理结果如表1所示,3种预处理方法的R2和RMSE值相差很小,说明3种预处理方式均能很好地消除光谱数据噪声。对比3种预处理结果可知,SG-MSC训练集与校正集的R2最大、RMSE最小,所得到的训练集与验证集的R2分别为0.987 3和0.969 7,RMSE值分别为0.536 9和1.024 1,说明SG-MSC预处理后光谱数据的拟合性最好。SG-MSC算法结合了其他2种预处理算法的优点,在减少随机噪声影响的同时增加光谱信噪比,可确定为试验最佳预处理方法。因此,本研究选用SG-MSC算法对光谱数据进行预处理。

表1 基于全波段的PLS判别分析结果Table 1 Discriminant results of PLS-DA models based on full wave band

2.3 基于SPA与CARS的特征波长的选择

对预处理后的数据使用SPA进行波长的优选,然后利用优选的波长数据建立PLS-DA和LS-SVM校正模型,最小均方根误差值对应的波长变量个数即为最终结果。图2为SPA模型中均方根误差的趋势变化及光谱变量个数的选择。由图2可知,当选择变量小于10个波长时,模型的RMSE值随着变量的增大而减少;当选择变量大于10个波长时,模型的均方根误差随着变量的增大呈不规则波动。由于波长过多容易增加模型的运算量和复杂度,因此选择10个波长的变量进行建模,此时RMSE为1.032,筛选的10个特征波长分别为536.41,563.05,592.76,610.17,631.15,646.50,667.96,771.37,798.75,817.48 nm。

图2 SPA模型中变量数量的选择Figure 2 Selection of variables in SPA models

CARS算法的主成分个数A和算法进化次数N分别设定为5个和40次。CARS算法是对试验中790个变量进行逐一筛选淘汰的过程,利用指数衰减函数(EDP)和交叉验证确定试验最佳的变量个数。随着采样次数的增加,试验选择采样变量个数、RMSECV、各光谱变量回归系数的变化趋势以及最小RMSECV所对应的采样次数分别见图3(a)~(c)。其中,图3(c)中的一条曲线对应着一个光谱变量回归系数的变化趋势,“×”表示的是每一个光谱变量逐一经过运算得到的最小RMSECV所对应的采样次数。由图3(b)、(c)可知,当采样次数为19次时,得到最佳波长变量子集,最终筛选出特征波长变量21个,分别为500.53,501.56,511.81,528.21,530.77,541.53,565.91,567.15,571.76,593.28,608.12,614.27,648.54,706.75,744.44,748.51,758.67,761.72,823.55,860.87,865.91 nm。

图3 CARS算法运行结果Figure 3 Results of CARS calculation

2.4 PLS-DA和LS-SVM检测模型的建立

2.4.1 基于SPA的特征筛选和模型建立 基于SPA提取特征波长后,共筛选出10个特征波段,利用优选波段分别建立PLS-DA和LS-SVM判别模型,其模型结果分别见表2、3。由表2、3可以看出,2种建模方式的训练集和验证集结果均在90%以上。PLS-DA训练集平均判别正确率为90.4%,验证集的平均判别正确率为92.5%。LS-SVM训练集和验证集的平均判别正确率分别达到了94.6%和96.7%。本试验基于SPA算法提取的特征波长所建立的判别模型LS-SVM算法优于PLS-DA算法。

2.4.2 基于CARS的特征筛选和模型建立 表4为使用CARS提取特征波长的PLS-DA判别分析结果,其训练集判别正确率为95.4%,验证集的判别正确率为97.5%。表5为基于CARS提取特征波长的LS-SVM判别分析结果,其训练集和验证集的判别正确率均达到了100%。本试验基于CARS算法提取的特征波长所建立的检测模型LS-SVM算法优于PLS-DA算法。

表2 基于SPA提取特征波长的PLS-DA判别分析结果Table 2 Discriminant results of PLS-DA models based on the characteristic wavelengths of SPA extraction

表3 基于SPA提取特征波长的LS-SVM判别分析结果Table 3 Discriminant results of LS-SVM models based on the characteristic wavelengths of SPA extraction

表4 基于CARS特征波长的PLS-DA判别分析结果Table 4 Discriminant results of PLS-DA models based on the characteristic wavelengths of CARS extraction

表5 基于CARS特征波长的LS-SVM判别分析结果Table 5 Discriminant results of LS-SVM models based on the characteristic wavelengths of CARS extraction

由表2~5可以看出,试验运用SPA和CARS 2种算法分别建立的PLS-DA和LS-SVM检测模型中,对照组和轻度霉变金银花可以与中度霉变、重度霉变金银花完全区分开来,其中前2组金银花之间相互有样本的错分,后2组样本间同样发现有相互错分的现象。这可能是金银花在贮藏初期,样本逐渐吸收外部环境中的水分子进入样本内部,导致其内部对水分敏感物质如多酚氧化酶、过氧化物酶与霉菌等的活跃[31],致使褐变和霉变现象在很短的时间内发生,又因为时间较短,霉菌的生长需要一个适应阶段,样本内部成分并没有很大变化,因此试验中对照组与轻度霉变组较易产生错分样本;而随着贮藏时间的延长,霉菌可能处于对数期和稳定期,样本逐渐被霉菌覆盖,内部组分被大量分解,其内部组分较贮藏初期发生了很大程度的变化,因而前2组样本与后2组样本之间较难出现错分现象。

根据表2~5可知,经过2种算法提取的特征波长,所建立的PLS-DA和LS-SVM检测模型的训练集判别正确率均达到90.4%以上,验证集的判别正确率亦在92.5%以上,说明试验所建立的检测模型均能很好地鉴别金银花霉变程度。建模效果由次到优依次为:SPA-PLS-DA、CARS-PLS-DA、SPA-LS-SVM、CARS-LS-SVM。由建模结果可知,LS-SVM判别识别率要优于PLS-DA的,说明LS-SVM算法的执行效率更好;经SPA所建立的模型,其结果要低于经CARS所建立的,说明CARS所选择特征波长更能体现不同霉变程度金银花样本之间的差异,进而提高模型的鉴别效果。光谱经SG-MSC联合预处理后得到的光谱数据,使用CARS提取特征波长并建立LS-SVM判别分析模型为不同霉变程度金银花最优判别模型,该模型能够较好地实现分类。

3 结论

本试验以不同霉变程度金银花为研究对象,采用高光谱成像技术获取样本的光谱信息,使用SG、MSC和SG-MSC 3种预处理方法,利用全波段光谱信息建立PLS判别模型,得到SG-MSC预处理的效果最佳。将经SG-MSC预处理后得到的光谱使用SPA和CARS 2种算法进行降维处理,并分别选取了10个和29个波段作为特征波段。分别建立了PLS-DA和LS-SVM判别分析模型,其判别模型结果均在90.4%以上。综合分析判别分析模型结果,得到CARS优于SPA,LS-SVM优于PLS-DA。因此,光谱经SG-MSC预处理后,使用SPA提取特征波长并建立LS-SVM判别分析模型为不同霉变程度金银花最优判别模型,其训练集与验证集的判别正确率均达到100.0%。

上述研究证明高光谱成像技术能够实现不同霉变程度金银花的快速、无损、有效识别,但本研究仅使用光谱信息对不同霉变程度的金银花进行辨别,未涉及其图像信息。因此,在后续研究中可通过图像光谱信息融合来进行金银花霉变检测模型构建及分析。

猜你喜欢

金银花正确率波长
金银花“香溢”致富路
门诊分诊服务态度与正确率对护患关系的影响
金银花
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
日本研发出可完全覆盖可见光波长的LED光源
金银花又开
夏日良药金银花
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量