3步混合变量选择策略在鸡肉近红外水分检测中的应用
2020-10-18张志勇伍蓥芮郭东升何国康
袁 凯 张志勇 席 前 伍蓥芮 郭东升 何国康
(山西农业大学工学院,山西 太谷 030801)
水分是生鲜肉品质评价的一个重要参数,对肉质、口感以及肉的加工、运输、贮藏有直接影响[1]。研究[2-4]表明,近红外光谱能应用于生鲜肉品质的快速、无损检测。高分辨率的近红外光谱仪器能采集到丰富的物质成分信息,但数据中往往包含大量冗余信息,直接用其建模不仅增加了建模难度,且影响模型的精确度和泛化能力,因此特征变量选择成为解决这一问题的有效途径[5-7]。当面对高维数据时,一些寻找最优变量子集的方法容易过度拟合且需要大量计算,有些方法则不适用,因此结合两种或两种以上的有效变量选择方法成为解决这一问题的新思路。孔庆明等[8]利用iPLS-SPA对小麦秸秆近红外光谱进行特征波长选择,波长数量从520降至10;Tang等[9]利用CARS-SPA选择的变量比单独使用CARS选择的变量更少,且用所选波长建模精度要优于全光谱建模;Xu等[10]利用CARS-GA选取特征波长,波长数量从1 557 降至53,建立了预测竹笋粗纤维含量的模型;Li等[11]用MC-UVE-SPA选取特征波长,建立了预测梨果实SSC和硬度的LV-SVM模型,这些研究主要使用了两种方法相结合进行特征波长选择,第2种方法对第1种方法选择的变量进一步组合、优化。
试验拟基于近红外光谱多元校正中有效变量选择的3步混合策略(初筛、精挑、细选)[12],提出一种iPLS-iVISSA-IRIV 3种方法相结合的特征变量选择方法,旨在为基于分立波长元件的便携式鸡肉水分检测仪的设计提供依据。
1 试验与方法
1.1 主要仪器与设备
近红外光谱仪:Field Spec3型,波长范围350~2 500 nm,美国ASD公司;
电热鼓风箱:101-2AB型,北京心雨仪器仪表有限公司;
分析天平:BSM120.4型,精度0.1 mg,上海卓精电子科技有限公司;
海尔电冰箱:BC/BD-101HBZ型,青岛海尔特种电冰柜有限公司;
恒温水浴锅:HH-W600型,济南欧莱博科学仪器有限公司;
手动绞肉机:NS-001型,4 mm孔径,浙江省荣博厨具有限公司。
1.2 样品及样品处理
冷鲜鸡胸肉:60块,购买后立即运往无菌实验室,在超净工作平台上将鸡胸肉修整成4 cm×4 cm×1.5 cm的肉块,随后装入保鲜袋并放入0 ℃的冰箱中保存,5 d内完成鸡胸肉反射光谱的采集和水分测定,市售。
1.3 反射光谱采集
自制的光谱采集装置如图1所示,每次采集样本光谱前,将待采集的鸡胸肉从冰箱取出,室温下解冻30 min,且光谱仪开机预热30 min后开始采集。采集时将肉块置于样品台上,为了减小每个样本距离光源和探头不一致的误差,调节平台使所有肉块上表面高度保持一致。考虑到鸡肉内部组织差异性较大,光谱仪扫描次数设为3次,取平均值作为样本原始光谱。
1. 计算机 2. 数据线 3. 光谱仪 4. 光纤 5. 暗箱 6. 采集探头 7. 光源 8. 入射与反射光线 9. 样品 10. 样品台(高度可调节)
1.4 水分测定
每个鸡肉样本在采集完光谱数据后,根据国家食品安全标准《食品中水分的测定》中的直接干燥法进行水分测定。
1.5 数据处理及方法
采用Matlab 2015b软件进行数据处理。由于350~400 nm的光谱数据存在较大噪声信号,且1 451~2 500 nm 的光谱数据几乎没有起伏变化,可视为“无信息变量”,故选取401~1 450 nm作为原始光谱,如图2所示。多元散射校正(Multiplicative scatter correction, MSC)能有效改善样本颗粒大小不一、表面散射不均以及光程变化对漫反射光谱采集的影响,而中心化法(Mean centering, MC)能增强样品光谱之间的特异性。因此,后续的模型构建中,采用两种方法联合对光谱数据进行预处理,图3为60个样本经预处理后的光谱图。
1.5.1 3步混合策略 有效波长变量选择的3步混合策略分为初筛、精挑和细选。初筛的目的是选出几个含信息量丰富的波长区间,通过波长间隔选择算法来实现。精挑是从第1步所选的波长间隔中进一步选择,滤除波长间隔中的噪声和非信息变量,再次缩小变量空间。细选是对第2步所保留的波长变量进一步组合、优化,达到使所选变量最优、最少的目的。此策略能避免变量选择方法的随机组合,克服单种方法对大量变量难以达到最优选择和组合的缺点[12]。
1.5.2 特征波长选择方法
(1) 区间偏最小二乘(Interval partial least squares, iPLS):iPLS是一种最具代表性的波长区间选择算法,具有对变量解释性强的优点[13]。首先按设定宽度将整个光谱区域划分为n个子区间,在每个子区间上建立待测品质的局部PLS回归模型,得到n个子模型,取前k个交叉验证均方根误差(RMSECV)最低的子模型所在区间为特征波长区间。
图2 原始光谱Figure 2 Original spectrum
图3 预处理光谱Figure 3 Pretreatment spectrum
(2) 区间变量迭代空间收缩法(Interval variable iterative space shrinkage approach, iVISSA):该算法也是一种波长间隔选择算法,基于模型总体分析(MPA),利用权重二进制矩阵采样(WBMS)法更改各变量权重,若所有子模型的均方根误差与预测误差不再改变,取权重为1的变量为特征变量,且将选中变量的相邻变量放入子模型中进行回归分析,全局分析和局部分析交替进行,能同时对光谱间隔、位置和组合进行优化[14]。
(3) 迭代保留信息变量算法(Iteratively retaining informative variables, IRIV):该算法将波长变量按重要性分成4个等级,分别为强信息变量、弱信息变量、无信息变量和干扰信息变量[15]。将采样矩阵采集到的变量随机组合,并分别建立各组合的PLS回归模型,用RMSECV衡量各模型精度。基于MPA,每次循环迭代都计算包含和不包含此变量时的RMSECV平均值之差,并根据Mann-Whitney U检验的P值来判定该变量的等级,最后经反向消除保留强信息变量和弱信息变量,从而获得最优特征波长变量。
1.5.3 模型构建方法 偏最小二乘回归(Partial least squares regression, PLSR)是一种多元统计分析方法。首先对光谱矩阵X和水分参照值矩阵Y进行特征分解,分别得到X和Y的特征因子矩阵(得分矩阵),然后建立特征因子矩阵的多元线性回归模型,最优潜在变量数由交叉验证法得到的RMSECV值确定,潜在变量数确定回归系数矩阵B也随之确定,最后经数据重构得到X和Y的回归模型。
2 结果与分析
2.1 水分含量标准值测量
表1为60个鸡肉样本水分含量统计表,用Kennard-Stone[16]将样本按4∶1比例划分为48个校正集和12个预测集。
2.2 全波段建模
偏最小二乘回归(PLSR)是近红外分析中最典型、最常用的建模方法。校正集用来构建模型,预测集用来检验模型的稳定性,并根据RMSECV值确定最佳主因子数。用全波段光谱数据建模,当RMSECV值最小为0.782 9 时,主因子数为7,此时校正模型RC=0.886 6,RMSEC=0.568 8;预测模型RP=0.877 9,RMSEP=0.905 4,结果如图4所示,表明模型精度有待提高。
表1 样本水分统计表
2.3 3步混合策略优选特征波段(波长)建模
2.3.1 初筛 将401~1 450 nm整个光谱区以40 nm的波长间隔分成26个区间,选出前10个RMSECV值最低的波长区间,结果如图5所示。用所选波段建模,结果如图6 所示,模型的RMSECV值最小为0.699 4时的主因子数为7,此时校正模型RC=0.900 0,RMSEC=0.536 1;预测模型RP=0.893 7,RMSEP=0.820 3,相比全波段建模,模型精度有所提高。由图5可知,选中波段大多是波峰和波谷段,例如760,980 nm附近有明显的吸收峰,特别是980 nm附近。而760,980 nm处为水的特征吸收波长,说明iPLS能有效筛选出与水分相关的变量,供下一步选择。
图4 全波段建模Figure 4 Full spectrum modeling
图5 iPLS所选波段Figure 5 iPLS selected band
图6 iPLS所选波段建模Figure 6 iPLS selected band modeling
2.3.2 精选 从第1步选择的400个波长中选中191个波长,如图7所示,760,980 nm附近的波长再次被选中,说明经iVISSA精选,能实现对波长间隔、位置和组合的同时优化,在保留重要变量的同时,滤除了iPLS所选变量中的噪声和非信息变量。使用所选波长建立PLS模型,结果如图8所示,RMSECV最小值为0.690 3时的主因子数为8,此时校正模型RC=0.915 6,RMSEC=0.494 3;预测模型RP=0.923 4,RMSEP=0.732 3,模型精度和稳定性再次提高。
图7 iVISSA所选波段Figure 7 iVISSA selected band band
图8 iVISSA所选波段建模Figure 8 iVISSA selected band modeling
2.3.3 细选 由第2步所选变量结果可知,变量大都集中于401~450 nm和500~600 nm,而连续波长之间存在较强的共线性关系,说明此结果仍存在继续优化、精简的可能性。经IRIV细选,从第2步所选的191个波长中选出8个波长,如图9所示,分别为402,442,452,553,555,586,999,1 042 nm,用所选波长建立PLS模型,结果如图10所示,RMSECV值最小为0.652 6,校正模型RC=0.907 7,RMSEC=0.516 1;预测模型RP=0.943 5,RMSEP=0.612 3。与第2步建模结果相比,校正相关系数基本保持不变,预测相关系数再次提高,且RMSECV值持续降低。说明经IRIV细选,变量空间大幅缩减,模型精度和稳定性再次有所提高。
图9 IRIV所选波长Figure 9 IRIV selected variables
图10 IRIV所选波长建模Figure 10 IRIV selected variables modeling
2.4 结果统计
由图11可知,经3步混合选择,变量空间从1 050维缩减至8维,RMSECV值逐步降低。虽然经过第3步IRIV,模型的校正相关系数有略微下降,但预测相关系数再次提高,整体而言,模型在逐步简化、稳定。最终选定的8个特征波长包含999 nm,此波长位于水的特征吸收波长(980 nm)附近,表明基于3步混合策略提出的iPLS-iVISSA-IRIV方法能有效筛选出鸡肉光谱数据中与水分相关的信息。
图11 试验结果统计Figure 11 Statistics of test results
3 结论
基于3步混合策略提出了iPLS-iVISSA-IRIV特征波长选择方法,结合偏最小二乘回归建立了生鲜鸡肉水分检测模型,取得了较为满意的结果。结果表明,iPLS、iVISSA和IRIV 3步混合能有效筛选出检测鸡肉水分的特征波长,在稳步缩减变量空间的同时,减小了有效变量误剔除的可能性以及建模的复杂度,并逐步提高模型的精确度和稳定性。最终选定8个特征波长所建模型的校正相关系数为0.907 7,预测相关系数为0.943 5。