基于可见/近红外光谱和变量选择的脐橙可溶性固形物含量在线检测
2020-04-13江水泉
江水泉 孙 通
(江苏楷益智能科技有限公司,江苏 无锡 214174)
可见/近红外光谱技术是一种快速、无损、绿色的现代检测技术,其根据分析物的C—H、C—C及O—H等的合频与倍频吸收进行定性及定量分析。目前,该光谱技术已应用于玉米淀粉[1]、肉类脂肪[2]、鱼肉新鲜度[3]、茶叶种类[4]、牛奶蛋白质[5]、当归阿魏酸[6]及食用油掺假[7]等检测。对于水果可溶性固形物SSC检测,刘燕德等[8]利用近红外漫反射光谱技术在线检测脐橙SSC含量。偏最小二乘(PLS)模型的预测相关系数为0.90,预测均方根误差(RMSEP)为0.61。韩东海等[9]建立了3种摆放方式的苹果SSC在线预测模型。对于上置式检测器而言,遮光处理和苹果摆放方式最为重要;PLS模型的预测相关系数和RMSEP分别为0.87和0.67。郭成等[10]采用无信息变量消除(UVE)方法优选无花果SSC的特征波长,并应用PLS方法建立无花果SSC的在线预测模型,其预测相关系数为0.83~0.89,RMSEP为0.63~0.83°Brix。Tian等[11]采用光谱预处理和变量选择方法对苹果SSC在线预测模型进行优化。随机森林方法筛选的特征波长建立的SSC预测模型最优,模型的预测相关系数和RMSEP分别为0.904 3和0.478 7。Xu等[12]研究比较了单点和双点检测对苹果SSC在线检测精度的影响。此外,还有其他学者[13-16]也对水果SSC进行在线检测研究。综合分析上述文献可知,不少学者采用变量选择方法筛选水果SSC的特征变量来简化和提高预测模型性能,但基本是采用单一的变量选择方法。由于可见/近红外光谱波长变量众多,数量可达几百甚至上千,含有较多冗余及干扰变量,采用单一方法进行波长变量筛选易受冗余及干扰变量影响,从而影响SSC检测精度和稳定性。因此,有必要探索联合两种变量选择方法筛选SSC特征变量的研究。
试验拟采用可见/近红外光谱技术对脐橙SSC含量进行在线检测。利用遗传算法(GA)和UVE方法对波长变量进行预筛选,在此基础上再采用竞争自适应重加权采样(CARS)及连续投影算法(SPA)进一步筛选特征波长变量,并应用PLS方法建立脐橙SSC的在线预测模型。
1 材料与方法
1.1 试验材料与检测系统
试验所用的脐橙样本购买于当地水果批发市场,脐橙质量范围为175~327 g,数量共计188个。为保证校正集样本的合理性和代表性,按照脐橙样本SSC测量值进行排序,将最大及最小SSC测量值的脐橙样本直接分配到校正集,而后按3∶1比例并结合排序将脐橙样本分配到校正集和预测集。经分配后,校正集和预测集的脐橙样本分别为141个和47个。
试验所用的在线光谱检测系统如图1所示,由光谱仪、光纤、光源、输送系统及电脑等组成。光谱仪为USB4000微型光纤光谱仪(美国Oceanoptics公司),配置3 648像素CCD。光源为2盏150 W卤钨灯,功率共300 W。光源分布在脐橙赤道两侧,光源—脐橙—光纤的角度为90°。脐橙传输速度为0.3 m/s。
图1 可见/近红外光谱在线检测系统原理图
1.2 光谱采集
样本光谱采集前,先采集暗场和参比光谱。关闭光源,所采集的光谱即为暗场光谱;以聚四氟乙烯球(直径80 mm)为参比,在图1所示的在线检测系统中获得其参比光谱。对于脐橙样本,按顺序依次在线采集每个脐橙的可见/近红外光谱。暗场、参比及脐橙样本的积分时间均为60 ms,平均采集次数设为1,光谱平滑点数设为6。
1.3 SSC测定
将脐橙样本去皮,采用榨汁机破碎脐橙果肉,并通过普通快速滤纸对脐橙果汁进行过滤,然后将过滤后的果汁滴到PR-101α型数字折射仪(日本Atago公司)的测量窗口,进行脐橙SSC真实含量的测定。
1.4 数据处理与分析
对脐橙样本光谱,先采用无信息变量消除和遗传算法分别对波长变量进行预筛选,在此基础上,再分别利用CARS和SPA方法进一步筛选波长变量;对上述方法筛选的波长变量,应用PLS方法分别建立脐橙SSC含量的在线预测模型,并比较模型性能的优劣。
无信息变量消除方法的参数设置为随机噪声矩阵的变量数为1 385个,与建模的光谱波长变量数一致,提取的最大主成分数为15。UVE算法的具体原理参见文献[17]。对于遗传算法,其种群大小及染色体长度分别为30和30,变异概率及交叉概率分别为1%和 50%,遗传代数为100。GA算法的具体原理参见文献[18]。在CARS分析中,采样次数为50次,提取的最大主成分数由蒙特卡罗交互验证确定。CARS算法的具体原理参见文献[19]。在SPA分析中,最大及最小可选的波长变量数分别设为40和1。SPA算法的具体原理参见文献[20]。UVE、GA、CARS及SPA方法均在Matlab 7.6.0软件(美国The Math Works公司)里运行完成,PLS方法则在Unscrambler X 10.1软件(挪威CAMO公司)里运行完成。
SSC预测模型的性能主要由相关系数(r)、校正均方根误差(RMSEC)及RMSEP进行评价。预测模型的相关系数越高,RMSEC及RMSEP越小,且两者较为相近,则预测模型的性能越好。
2 结果与讨论
2.1 SSC统计分析
由表1可知,所有样本的SSC平均值、标准偏差及范围分别为11.54%,1.19%,8.3%~14.9%。校正集和预测集样本的SSC平均值分别为11.53%,11.56%,标准偏差分别为1.20%,1.17%。校正集样本的SSC范围涵盖预测集样本,表明校正集样本具有一定的代表性,所建立的SSC预测模型能适用于预测集样本。
表1 脐橙样本可溶性固形物的主要统计结果
2.2 光谱分析
由图2可知,所有脐橙样本的光谱形状均较为相似,表明光谱在线采集没有出现异常。脐橙样本光谱在700 nm及820 nm左右有较为明显的波谷,而在725 nm及830 nm左右存在较为明显的波峰,此部分区域含有较多有用的光谱信息。样本光谱两端波动大,光谱信噪比低。为了避免引入明显的光谱噪声和丢失有用的光谱信息,后续的光谱分析在650~950 nm波段范围进行,该波段范围共有1 385个波长变量。
图2 所有脐橙样本的可见/近红外光谱
2.3 波长变量选择
2.3.1 UVE 采用UVE方法对650~950 nm波段范围的光谱数据进行波长变量筛选。图3中,波长变量的稳定值在两水平虚线之外的将作为有用信息波长变量被保留,而在两水平虚线之内的将作为冗余或噪声波长变量被去除。经UVE变量筛选后,共有884个波长变量被去除,501个波长变量被保留。
2.3.2 GA 采用GA方法对650~950 nm波段范围的光谱数据进行波长变量筛选。图4中,被选中频率大于阈值的波长变量将作为有用信息波长变量被保留,而被选中频率小于阈值的波长变量将作为冗余或噪声波长变量被去除。经GA方法筛选后,共有1 203个波长变量被去除,182个波长变量被保留。其中,在725~755 nm波段范围有较多的波长变量被保留。
2.3.3 CARS 在UVE和GA变量预筛选的基础上,采用CARS方法分别对上述结果进行进一步变量筛选。对于UVE筛选的501个波长变量,经CARS方法筛选后,共有187个波长变量被保留。由图5(a)可知,被选择的波长变量主要集中在725~880 nm,其中725~800 nm波段范围有61个,801~880 nm波段范围有80个;而在650~724 nm波段范围有21个,881~950 nm波段范围有25个。对于GA筛选的182个波长变量,经CARS方法筛选后,共有78个波长变量被保留。由图5(b)可知,被选择的波长变量主要分布在725~800 nm,而其他波段则较少。在650~724,725~800,801~880,881~950 nm波段范围分别有7,50,16,5个。
竖虚线左侧为真实的波长变量,右侧为随机噪声变量;两水平虚线为UVE稳定性的阈值
图3 脐橙SSC的UVE分析结果
Figure 3 Results of UVE analysis of SSC in navel oranges
水平横线为波长变量筛选的阈值
图5 被选择波长变量的分布情况
2.3.4 SPA 在UVE和GA变量预筛选的基础上,采用SPA方法分别对上述结果进行进一步变量筛选。由图6可知,经UVE-SPA方法后,共有8个波长变量被选择,分别为660.98,703.05,736.24,766.10,874.61,884.31,914.24,935.02 nm;经GA-SPA方法后,共有16个波长变量被选择,分别为660.57,669.61,684.99,722.16,731.36,738.78,745.59,753.54,756.64,773.79,814.70,834.98,859.88,877.36,906.30,913.34 nm。
图6 被选择波长变量的分布情况
2.4 PLS模型建立与比较
对于UVE-CARS、UVE-SPA、GA-CARS及GA-SPA方法筛选的波长变量,应用PLS方法分别建立脐橙SSC的在线预测模型,并与直接采用CARS和SPA方法建立的预测模型及原始光谱建立的预测模型进行比较。
由表2可知:
(1) GA-SPA-PLS模型的性能优于UVE-SPA-PLS,GA-CARS-PLS模型的性能优于UVE-CARS-PLS,表明GA方法优于UVE方法,GA方法更适合于光谱波长变量的预筛选。此外,UVE-CARS-PLS模型性能优于UVE-SPA-PLS,GA-CARS-PLS模型性能优于GA-SPA-PLS,CARS-PLS模型性能优于SPA-PLS,表明CARS方法筛选有用波长变量更为有效。
表2 不同变量选择方法下脐橙可溶性固形物的PLS建模结果
(2) GA-CARS-PLS模型性能优于CARS-PLS,GA-SPA-PLS模型性能优于SPA-PLS,即以GA方法为变量预筛选的联合变量选择方法优于对应的单一变量选择方法。由此可见,对于脐橙SSC,采用GA方法用于波长变量的预筛选非常必要。
此外,在所建立的预测模型中,GA-CARS-PLS模型的性能最优,与原始光谱建立的PLS模型相比,其校正集相关系数略有下降,但预测集相关系数由0.778上升为0.824,RMSEP由0.731%下降为0.670%,且建模所用的波长变量数由1 385个下降为78个,仅占原波长变量数的5.63%。表明GA-CARS联合变量选择方法能有效筛选波长变量,从而提高SSC预测模型的稳定性和预测精度。
3 结论
利用可见/近红外光谱技术在线检测脐橙可溶性固形物含量,采用UVE和GA方法对波长变量进行预筛选,再利用CARS及SPA方法进行波长变量筛选,并应用PLS方法建立SSC预测模型。结果表明,对于脐橙SSC,变量预筛选方法GA优于UVE,变量选择方法CARS优于SPA,以GA为变量预筛选的联合变量选择方法优于对应的单一变量选择方法(CARS、SPA),GA-CARS联合变量选择方法所获得的结果最优。与原始光谱相比,GA-CARS-PLS模型的预测集相关系数由0.778上升为0.824,RMSEP由0.731%下降为0.670%,且建模所用的波长变量数由1 385个下降为78个,仅占原波长变量数的5.63%。由此可见,GA-CARS联合变量选择方法能有效筛选脐橙SSC的波长变量,提高SSC预测模型的稳定性和预测精度。