基于中红外光谱模型对食用植物油掺伪的判别

2022-12-22李艳坤许东情

河北大学学报（自然科学版） 2022年6期

李艳坤，许东情

(华北电力大学(保定)环境科学与工程系,河北省燃煤电站烟气多污染物协同控制重点实验室，河北保定 071003)

作为食物烹饪过程中的基础材料之一，食用植物油的安全和质量至关重要.当前市场上，由于不同类型的植物食用油成分含量、加工工艺、产地等不同，导致不同食用油之间的价格差异较大，从而发生在价格较高的食用油中掺兑低价格食用油或非食用油或将废弃食用油脂等进行脱水、脱色等简单加工后提炼出“地沟油”的现象.这些劣质油经过了酸败、氧化、分解等一系列的化学过程后质量极差，会产生含砷、铅等对人体有毒有害的物质.再加上油脂本身成分复杂多样，每种油的经典理化特性(酸值、过氧化值、碘价等)数值范围很宽以及所含微量成分和特殊成分的差异，使得目前用于食用植物油(掺伪)检测的传统理化指标检测法有时难以检出搀兑或鉴别准确度不高.此时需要联合多种仪器方法检测多种指标参数，如荧光分光光度法、核磁共振法和气相色谱技术[1-3].这些实验方法存在费时长、费用高、预处理或检测过程繁琐等弊端，而且易引入有毒有害试剂.

傅里叶变换中红外光谱法(fourier transform infrared, FTIR)是目前广泛应用的一种分析方法.绝大多数有机和无机化合物的化学键振动基频均在中红外区域出现，分子的结构特点主要由吸收波长的位置及其强度反映出来.目前该技术已应用于茶叶质量、葡萄酒参数检测、中药材[4-6]等食品药品领域的分析.它能够对体系进行整体、宏观地鉴定，但对于含有大量有机物组分的复杂体系，中红外谱峰的重叠、移位或特征减弱等会给传统的谱图鉴别带来很大的局限和困难.目前，相关中红外光谱的研究大多集中于对植物油多种品质指标的检测[7-8]，尚未系统地展开化学计量学模型对食用油品质判别的研究.因此，本研究系统展开了各种模式识别(分类)方法[9]结合传统傅里叶透射红外光谱对食用油掺伪的解析.结果表明：非相关线性判别分析模型[10-11](uncorrelated linear discrimination analysis, ULDA)可以有效地提取出类别相关特征信息，实现掺伪食用油的定性及定量分析，为油脂品质的评价与控制提供新的方法借鉴.

1 材料与方法

1.1 仪器与材料

德国布鲁克公司傅里叶变换红外光谱仪(Tensor 2.0)；市售正品食用油：鲁花5S压榨一级花生油(山东鲁花集团有限公司，河北省衡水市)；炸货油：个体摊点反复油炸食物的植物油(滤去固体杂质).

1.2 实验方法

1.2.1 样本配置

不同比例掺伪样本的配制：在上述正品食用油基础上，分别掺入质量分数为5%、15%、25%、35%、45%、55%、65%、75%、85%、95%的炸货油.每个质量分数下平行配制6个样本，共计60个样本；另配置23个正品食用油和23个炸货油样本.

1.2.2 光谱采集

戴上手指套，在KBr窗口片中央滴1滴油试样，使其分散均匀后，用另一KBr窗口片压于其上.窗片上下加橡胶垫圈装入液体池，然后装入傅里叶变换红外光谱仪测试架进行测定.测试完成后取下液体池及KBr窗片，用酒精棉擦洗窗片表面，并待酒精全部挥发后，重复进行下一个样品的测定.红外光谱仪需开机预热30 min后采集常规透射光谱，扫描条件：波数400～4 000 cm-1，扫描间隔约1.42 cm-1、扫描32次.参比为空气，环境温度为25 ℃，每个样品重复测定3次，取其平均值作为原始光谱(2 525个变量).

1.3 计算

样本集划分：纯正品油和炸货油样本中分别随机选取12个样本组成24个样本做训练集，其余22个样本做为预测集；为使训练样本覆盖所有掺伪比例(5%～95%)，每种掺伪比例下随机抽取3个样本组成30个掺伪样本做为训练集，其余30个样本做为预测集.

光谱预处理：经过优化，对原始光谱进行5点Savitzky-Golay平滑求二阶导数(second derivative, SD)预处理，以消除光谱中的背景噪音，增强样本中成分相关的光谱吸收信息.

使用MATLAB R2018b建模分析.模型识别灵敏度、特异度和准确度计算公式如下：

(1)

(2)

(3)

其中，SEN为灵敏度，SPE为特异度，ACC为准确度，A为实际的掺伪样数目，B为实际的正品油样数目，C为模型预测的假掺伪样数目，D为模型预测的假正品油样数目.本文计算时将炸货油样看作是掺伪比例为100%的掺伪油样.

2 算法与原理

模式(分类)识别方法根据有无训练样本分为有监督识别方法和无监督识别方法.无监督识别是在没有样本类别归属信息的情况下直接根据某种规则进行分类决策，包括主成分聚类分析(principal component analysis, PCA)、距离判别分析(distance discriminant analysis, DDA)、非负矩阵(因式)分解(nonnegative matrix factorization, NMF)等；有监督识别方法包括偏最小二乘判别分析(partial least squares discrimination analysis, PLS-DA)、线性判别分析方法(linear discrimination analysis, LDA)、支持向量机(support vector machine, SVM)等.本研究主要采用以下方法进行综合解析：

主成分分析[12]是一种把多指标转化为少数几个综合指标的降维方法.通过保留低阶主成分，忽略高阶主成分，从而减少数据集维数，同时保持数据集中对方差贡献最大的特征；非负矩阵分解[13]是在数据分解过程中加入非负矩阵的约束条件，使原矩阵由低维的系数矩阵和基矩阵乘积所表示；距离判别分析将每个样本看成多维空间的一个点，通过度量样本间的某种空间距离来衡量其相似程度，从而实现样本的聚类；偏最小二乘判别分析[14]是基于偏最小二乘校正与线性判别分析相结合，将原始数据降维后得到的得分矢量进行线性判别分析，得到分类判别函数从而建立分类模型.

非相关线性判别分析方法(uncorrelated linear discrimination analysis, ULDA)[15]的基本思想是在传统Fisher判别的基础上，对转换矩阵向量间的不相关性加以考虑，以此来减少数据在降维后的冗余度.从而得到最有效的分类特征，尽可能地使类内样本距离最小化，类间样本距离最大化.通过找出原始光谱数据矩阵X的转换矩阵G后，将X投影得到新的低维矩阵(非相关判别矢量UDV)，从UDV投影图可以直观地进行样本类别的判断.转换矩阵G可以看做是变量的“负荷量”，它以初始变量组合为特征，其绝对值大小可以反映出对应变量对于识别类别特征的重要性，据此本文进行了特征波长(变量)筛选的研究与探讨.

UDV=XG.

(4)

3 结果与分析

3.1 光谱特征分析

将正品油、掺伪油和炸货油按照上述的实验方法进行测定，随机抽取样本的原始中红外光谱如图1所示.由图1可以看出，在3 010 cm-1附近呈现不饱和碳链的C—H伸缩振动峰，在2 926、2 856 cm-1附近出现饱和碳链C—H的伸缩振动峰，1 747 cm-1附近出现C=O的伸缩振动峰，1 465 cm-1附近有甲基的变形振动峰，1 164 cm-1附近出现甘油三酯C—O的伸缩振动峰，在725 cm-1附近出现顺式烯烃弯曲振动峰，以上基团特征峰位标于图1中.

经比较，3类油样的中红外光谱透射图轮廓近似，特征谱峰的峰形、峰位几乎相同，而且透过率值也很相近.单凭观察比对谱图参数的差异，基本无法实现区分鉴别.因此，采取将二阶导数处理后的光谱数据结合化学计量学模型进行特征类别的提取与鉴别分析.

a.正品油;b.炸货油；c.掺伪油图1 原始中红外光谱图Fig.1 Example of raw mid-infrared spectra

3.2 无监督聚类分析方法

首先，采用传统的主成分分析方法对光谱数据进行解析，经计算前2个主成分PC1与PC2累计所占方差贡献率为99.60%，因此提取样本的第1和第2主成分进行分析.如图2所示，正品油、掺伪油和炸货油在各自类内有一定的聚集趋势，但在类间分布上相互交叉重叠严重，无法实现区分.同样采用非负矩阵分解法进行解析，分类结果如图3所示.3类样本都不具有各自的聚集区域，分布杂乱.尽管许多模型学习过程中的降维任务由PCA完成，但当数据变量间存在多重相关性时，即使是简单的线性组合，PCA对分类特征的解释及提取能力变差[16]，会影响样本聚类结果的准确性；而NMF虽实现了非线性的维数约减，但受其分解后产生分量的非负性要求约束，可能丢失原光谱的类特征信息，因而使样本聚类变得困难.

图2 主成分分析的分类结果Fig.2 Analysis results of PCA

图3 非负矩阵分解的分类结果Fig.3 Analysis results of NMF

3.3 有监督判别分析方法

3.3.1 偏最小二乘判别分析(PLS-DA)

将正品油标记为1类[1,0,0]，掺伪油标记为2类[0,1,0]，炸货油标记为3类[0,0,1]，与相对应的训练集样本光谱之间建立PLS-DA模型，然后对预测集样本进行分类，结果如图4所示.结果表明:正品油中有1个样本分类错误，掺伪油中出现8个样本分类错误，炸货油中有2个样本分类错误，判别灵敏度为80.39% (41/51),特异度为91.67%(11/12)，准确度为78.85%(41/52).相对于PCA，PLS-DA更关注相应变量的特征，消除了不包含分类信息但却具有强烈共线性的变量对数据分析的影响，使得偏最小二乘的特征变量吸取了更多的相应变量的特征信息，从而得到更好的分类效果.然而，当存在变量含有部分分类信息同时又有一定的共线性时，PLS-DA可能会受这类变量的影响，做出不正确的判断[15].

图4 偏最小二乘判别分析分类结果Fig.4 Analysis results of PLS-DA

3.3.2 非相关线性判别分析(ULDA)

a.全部变量；b.500个变量图5 非相关线性判别分析的分类结果Fig.5 Analysis results of ULDA

同时，将训练集光谱与其掺伪比例之间采用偏最小二乘法建立定量关系模型，对预测集样本的掺伪比例进行预测，结果如图6所示，预测结果和实际结果呈现出很好的线性关系.因此，可用于植物油掺伪比例的定量预测.

4 结论

利用各种聚类和判别的模式识别方法、光谱预处理方法结合中红外光谱对食用植物油掺伪进行了较系统的研究.通过综合解析，提出了高效、精确的判别食用油掺伪的SD-ULDA模型.基于此提出特征波长筛选策略，构建了更加简洁、高效的定性判别模型.同时，对食用油掺伪比例也进行了准确地预测.研究成果对于油脂的品质鉴定和质量分析具有理论和应用价值,为光谱特征波长的筛选提供新方法，可以有效提升模型的预测能力，有望拓展应用到其他食品的真伪、优劣的鉴别中.