近红外光谱结合线性非负回归测定梗丝掺配比例
2021-12-04胡建西杨芳芳杨盼盼
刘 静 胡建西 - 杨芳芳 - 高 辉 杨盼盼 -
(1. 云南同创检测技术股份有限公司,云南 昆明 650106;2. 红云红河烟草(集团)有限责任公司,云南 昆明 650231)
梗丝由烟梗经不同制丝工艺生产而成,属卷烟配方中“三丝”中的一种[1],是成品烟丝重要的构成部分[2]。梗丝在成品烟丝中含量及掺配均匀性直接影响卷烟的抽吸品质[3]和产品质量[4-5]。目前,成品烟丝中梗丝掺配比例的检测多依靠人工挑选后称重[6],操作复杂,检测周期长。也有文献报道采用热重分析[7]和色差法[8]测定梗丝含量,热重分析由于单次检测样品量较小,同一批样品多次平行测定结果波动较大,且受到测定仪器的影响,无法快速应用批量样品测定。随着制梗丝工艺的优化,成品梗丝与烟丝在色泽上较为接近,因此色差法有一定的误差。
近红外光谱分析技术已被广泛地应用于烟叶及卷烟产品质量的定性及定量分析[9-11]。胡立中等[1]曾采用近红外光谱结合偏最小二乘回归建模测定配方烟丝中梗丝含量,但需取制大样本量的建模样品以提高方法的稳定性和准确性,在卷烟生产过程中实际应用存在一定的局限性。
方开泰等[12]提出的回归系数线性非负线性回归计算方法是一种配方回归算法,其最初应用于混凝土配方中各原料含量的计算。近红外光谱非负线性回归较其结合偏最小二乘回归的优点在于无需取制大样本量的代表性样品。李雪莹等[13]采用近红外导数光谱结合线性非负回归系数法(配方回归)预测不同部位混合片状烟叶组成比例,结果显示模型预测误差小于10%,说明该方法用于解析不同性质烟草样品比例是可行的。但截止目前,尚未见采用近红外光谱结合非负线性回归测定梗丝掺配比例的文献报道。
试验拟基于某牌号卷烟的梗丝、叶丝及掺配不同比例梗丝的成品烟丝的近红外光谱结合波长筛选,采用线性非负回归系数回归模型测定成品烟丝中梗丝掺配比例,以期为梗丝有效利用率及其掺配均匀性评价提供技术支撑。
1 材料与方法
1.1 材料与仪器
某牌号卷烟的叶丝和梗丝:云南中烟工业有限责任公司;
傅里叶变换近红外光谱仪:Nicolet Antaris Ⅱ型,美国Thermo Fisher公司;
电子天平:AE200型,瑞士Mettler Toledo公司;
样品旋风磨:CT410型,丹麦Foss公司。
1.2 方法
1.2.1 样品预处理及近红外光谱采集 按照5%,8%,11%,14%的梗丝比例分别称取梗丝和叶丝,配制成具有不同梗丝含量的烟丝样品各30个,每个样品的总重量为50 g。取纯梗丝样品50个,叶丝样品30个。参照标准[14]中所述方法对样品进行预处理和近红外光谱的采集。每个样品平行采集3条近红外光谱,取3条光谱的平均光谱作为样品光谱。
1.2.2 光谱预处理 为消除烟草粉末样品颗粒度大小不均匀产生的近红外散射,采用多元散射校正(Multiplicative Scatter Correction,MSC)对光谱进行预处理。采用Karl Norris滤波和二阶求导处理过滤近红外光谱信息中的噪声和基线漂移。上述光谱预处理过程采用TQ Analyst软件完成。
1.2.3 不同类型样品近红外光谱模式识别和波长筛选
1.2.4 线性非负回归系数回归模型的建立及评价 基于线性非负回归系数回归算法,分别利用全波长、VIP值和方差光谱筛选的特征波长建立梗丝含量的预测模型。采用模型预测值与实际值的相对误差和t检验结果评价模型的准确性;采用模型预测值的标准偏差评价其稳定性。
线性非负回归系数回归模型的计算公式:
Y=Xβ+ε,
(1)
(2)
式中:
Y——成品烟丝样品近红外光谱数据构成的n×1向量(n为近红外光谱点数);
X——纯梗丝及叶丝样品近红外光谱数据构成的n×2 矩阵;
β——2×1的系数矩阵,β≥0;
ε——n×1向量;
式(1)为模型计算式,式(2)为条件约束式。在约束式(2)之下用最小二乘估计求解β,使Q=(Y-Xβ)(Y-Xβ)→min得到β*值,利用矩阵的消去变换,解得β*。按照配方回归算法模型解得的配比向量β*,即为成品烟丝样品中纯梗丝样品及叶丝样品的组成比例。
2 结果与讨论
2.1 不同类型样品近红外光谱模式识别
纯梗丝、纯叶丝及掺配不同比例梗丝烟丝样品的原始近红外光谱如图1所示。由图1可知,纯梗丝与其他两类样品的近红外光谱均存在明显差异。
图1 样品原始近红外光谱Figure 1 Original NIR spectra of the sample
2.2 特征波长的筛选
OPLS-DA模型中VIP值可反映X变量(光谱吸光度)对解释变量Y(分类变量)的贡献率。其值越大则对分类贡献越大。建立的OPLS-DA模型中不同波数点的VIP值如图4所示。为有效排除近红外光谱波长变量中与分类无关的信息变量对建立的线性非负回归系数回归模型稳定性和准确性的干扰,筛选VIP值大于1的波长变量进行回归分析。筛选出VIP值大于1的光谱波数范围为4 000~4 165,4 582~4 609,4 612~5 264 cm-1。
方差光谱可在一定程度上反映光谱的差异性。对3种类型样品(叶丝、纯梗丝和掺配不同比例梗丝的烟丝)分别计算其平均光谱,后计算3类样品平均光谱的方差光谱,求得的方差光谱如图5所示。由图5可知,方差光谱中方差值较大的波长为4 000~6 100,6 900~7 500 cm-1。
图2 3种类型样品近红外光谱OPLS-DA分类效果Figure 2 OPLS-DA classification effect of NIR model ofthree types samples
图3 OPLS-DA模型置换验证图Figure 3 Diagram of OPLS-DA model replacementverification
图4 OPLS-DA分类模型中不同波数点VIP值Figure 4 VIP values of different wave points in theOPLS-DA classification model
图5 3种类型样本的方差光谱Figure 5 Variance spectra of three types samples
2.3 线性非负回归系数回归模型的建立及评价
分别采用全波长变量、VIP和方差光谱筛选出的波长变量建立不同梗丝含量的烟丝样品近红外光谱线性非负线性回归模型。模型预测出的梗丝含量描述性统计分析结果如表1所示。由表1可知,从模型预测结果的准确性判定,方差光谱法优于VIP算法和全波长变量。在模型预测结果的稳定性方面,方差光谱法优于VIP算法和全波长变量。由预测值与实际值的t检验结果可知除VIP筛选波长变量建立的梗丝含量8%的预测模型外,3种光谱筛选算法建立的模型的预测值与实际值在α=0.05 显著水平下均无显著差异。由以上结果可知,方差光谱筛选的波长变量建立的预测模型的准确性和稳定性上均优于VIP算法和全波长变量。
表1 不同光谱变量筛选方法建立模型的预测结果
3 结论
正交偏最小二乘判别分析可对纯梗丝、纯叶丝和掺配不同比例梗丝的烟丝样品的近红外光谱信息整体差异性进行有效识别。基于模型变量投影重要性指标值大于1 原则和方差光谱法分别筛选出3类样品差异性较大的近红外光谱波数范围。方差光谱筛选的波长变量建立的预测模型的准确性和稳定性均优于变量投影重要性参数法和全波长变量。针对5%,8%,11%,14%的梗丝掺配比例,采用方差光谱筛选近红外波长变量建立的线性非负回归模型对梗丝掺配比例的预测值与实际值相对误差分别为1.00%,3.63%,3.91%,2.93%,均小于5%,且独立样本t检验结果表明预测值和实际值不存在显著差异(P>0.05),说明该方法满足定量分析的要求。近红外光谱结合线性非负回归系数回归法快速测定成品烟丝中梗丝含量的方法具有较好的准确性。