APP下载

基于太赫兹时域光谱的芝麻油品种识别研究

2020-04-01,2,*,2,2,2

食品工业科技 2020年4期
关键词:芝麻油原始数据赫兹

,2,*,2,2,2

(1.河南工业大学信息科学与工程学院,河南郑州 450001;2.河南工业大学粮食信息处理与控制教育部重点实验室,河南郑州 450001)

芝麻油是通过加工芝麻得到的一种食用油,可以加入菜肴中进行调味,也可进行烹饪、煎炸,香味浓郁,并且含有丰富的微量元素以及人体所需的脂肪酸和氨基酸等,日益受到人们的广泛关注[1-2]。由于芝麻油的良好市场价值,个别制造商为了从中牟取利益,将其它成本低的植物油掺杂到芝麻油中,有的甚至将使用剩下的油渣中提取出来的油(如地沟油等)和芝麻油进行勾兑,这不仅损害了消费者的利益,还有可能会对消费者造成一定的身体伤害[3-4]。

传统的识别芝麻油的方法主要有电导法和色谱法,其中色谱法可以分为气相色谱法、液相色谱法和薄层色谱法等[5],传统方法有很多局限性,如样品需要预处理、耗时长、操作复杂、损害样品等。近年来光谱法成为一种新兴的识别食用油的方法,光谱法可以不破坏样品从而实现无损检测,主要有近红外光谱法、拉曼光谱法和荧光光谱法等[6]。冯苏敏等[7]使用荧光光谱法结合化学计量法鉴别食用油和煎炸油,张严等[8]采用近红外光谱法对花生油、芝麻油等五种油进行了定性分析,结果显示可以很好的鉴别出不同的食用油。但由于光谱信号重叠或光谱中包含有用信息较少,这些方法有一定的局限性。

图1 太赫兹系统结构图Fig.1 Structure diagram of Terahertz system

太赫兹波是一种介于微波和红外之间的电磁波,频率范围在0.3~10 THz,太赫兹辐射具有良好的透视性、安全性和光谱分辨率[9-10]。已经在安全检查、对化学和生物制剂的检测、环境控制、医疗诊断等领域得到了广泛的应用[11-12]。目前在农产品和食品安全领域的应用也在不断增多,如农产品和食品含水量检测、食品内部品质检测和种子识别等[13]。廉飞宇等[14]采用THz-TDS对4种食用油进行鉴别,结合化学计量法对太赫兹光谱进行分析,实验结果表明太赫兹技术可以很好的应用在食用油鉴别上。李杰[15]将太赫兹技术应用于成品油的混油识别,不同混油比例的油品折射率谱和吸收系数谱有所差异。殷明[16]采用宽频太赫兹时域光谱仪结合化学计量法对食用油进行定量和定性分析,实验结果显示模型分类准确率可以达到100%。余俊杰[17]利用太赫兹时域光谱技术对掺假橄榄油进行定性和定量分析,最终模型预测精度高,能够快速检测橄榄油的品质。太赫兹光谱技术在油类鉴别上已经有了很好的应用,因此本文选用该方法进行芝麻油的鉴别研究。

本文采用太赫兹时域光谱技术结合主成分分析和支持向量机来区分不同品种的芝麻油,分析了芝麻油在太赫兹时域光谱技术的作用下的特性,建立了一种快速鉴别芝麻油品种的定性分析模型,对比了不同核函数模型下的鉴别的准确性,为不同品种芝麻油的鉴别提供了一种快速准确的方法。

1 材料与方法

1.1 材料与仪器

本次实验的样品选自市面上四种不同品种芝麻油,均购于京东网上商城,其具体参数如表1所示。

表1 样品信息Table 1 Sample information

本实验采用的是大恒光电的CIP-TDS时域光谱仪,系统基本光路结构如图1所示。飞秒激光被分为两束,一束为泵浦光,一束为探测光,泵浦光用来激发发射器产生太赫兹波,探测光则用来激发探测器来检测太赫兹光。泵浦脉冲和探测脉冲出自于同一束激光,所以存在一定的时间关系,其中延迟线用来调节泵浦脉冲和探测脉冲之间的相对时间关系,具体实验原理可见参考文献[18-19]。为了防止空气中水分含量对实验结果的影响,测试时需要充氮气,将仪器内部湿度保持在5%以内。

1.2 实验方法

测量时使用光程为1 mm的标准比色皿,容量为0.35 mL,每种品种制备20组样品。太赫兹仪器以钛宝石飞秒激光器作为发射激光的光源,光谱范围为0.1~3.5 THz,扫描范围大于500 ps,扫描方式为透射式扫描。

随机选择样品使用THz-TDS系统采集时域光谱,移动样品改变测量点,重复操作三次,每个样品得到三组光谱信息,取三次测量的平均值得到最终的样品光谱,记为信号波形。扫描样品之前测量不装样品的空比色皿的光谱作为参考信号,称为参考波形。

对样品信号和参考信号进行快速傅里叶变换,得到样品的频谱As(ω)exp[-iφs(ω)]和参考信号的频谱Ar(ω)exp[-iφ,(ω)]。本次实验使用的光谱仪采用的是透射式的扫描方式,样品的吸收系数和折射率可以通过与参考光谱的比较中得出来:

式(1)

式(2)

式中:α为吸收系数;n为折射率;d为样品厚度;c为真空中的光速。利用上述公式可以计算出样品的吸收系数和折射率[9,20]。

1.3 模型与方法

1.3.1 主成分分析 主成分分析法(PCA)是一种常用的降维方法,可以在信息损耗很低的情况下减少数据集的维数,使用较少的数据保留最大的原始数据的特性[21]。它的目标是通过线性投影将高维数据映射到低维空间中,在高维数据中找到方差最大的方向,将数据映射到比原始数据维数低的空间中去[22]。

PCA的实现步骤包括以下几点:

假设数据为m条n维。

a.原始数据组成矩阵X={X1,…,Xm},Xi={xi1,…,xin}∈Rn,i=1,…,m将样本去中心化,为了方便表示仍用X表示去中心化后的矩阵。

b.计算协方差矩阵。

c.计算协方差矩阵的特征值和特征向量。

构造特征方程:

d.将特征值降序排序得:

λa>λb>…>λr

e.选择k个最大的特征值对应的特征向量构建到新空间中。

1.3.2 支持向量机 支持向量机(SVM)是一种分类器,适合小样本的分类,它的工作原理是找到一个超平面,这个超平面可以将数据集分隔出来,使不同类别的数据到超平面的距离最短[23]。因为支持向量机是一种典型的二分类器,而实际应用过程中遇到的问题一般都是多分类问题,因此需要使用间接的方法将支持向量机拓展应用到多分类问题上。主要的方法有一对一法,一对多法和分层支持向量机的方法[24-25]。

一对一(one versus one)主要的思想是分别在两个不同的类别之间和建立一个分类器,n个样本需要建立n(n-1)/2个分类器。一对多(one versus rest)主要的思想是将一个类别作为一个类,其余的类别作为另一个类,n个样本需要n个分类器。分层支持向量机主要的思想是将所有的数据分为两个类,然后分别对这两个类进行二分类,直到子类中只剩下一个类为止[26-27]。

当数据集线性不可分时,需要引用核函数来进行分类。常用的核函数有线性核函数(linear)、径向基核函数(rbf)、多项式核函数和(poly)双曲正切核函数(sigmod),实验时需要调节惩罚系数C和核函数系数(线性核函数只需调节惩罚系数C),使分类正确率达到最大。

1.3.3 PCA-SVM 原始数据集的维数如果很大,直接使用SVM进行分类处理的速度会比较慢,因此可以采用PCA和SVM联用的方法,即先采用PCA进行降维,选择前几个基本可以代替原始数据集的主成分,使用这几个主成分作为SVM的输入,然后进行分类[28]。本次实验中原始太赫兹数据的维数为580,所以选择PCA-SVM联用,即采用PCA将原始数据的维度降到4维,再使用前四个主成分作为SVM的输入。

1.4 数据处理

将所有样品使用太赫兹仪器进行检测之后得到样品的时域数据,选取0~2.5 THz范围内的数据作为本次实验的原始数据,使用Origin软件处理原始数据,将光谱数据导入到Origin中,画出时域图,然后进行傅里叶变换得到频谱图,输入吸收系数和折射率的公式进行计算得到相应的吸收系数和折射率;对光谱数据进行预处理,并对处理结果进行比较,选取最优的预处理方法;使用Spyder软件进行建模分析,将Origin中处理得到的数据输入到PCA-SVM模型中,使用网格搜索算法寻取最优参数,得到最终的最优模型。

2 结果与分析

2.1 频谱分析

2.1.1 时域和频域 通过太赫兹时域光谱系统获得样品的THz时域波形如下图2所示。参考信号与样品信号波形间有一定的时间延迟容易区分,但样品信号之间的差异不明显,样品的太赫兹时域光谱可以反映不同的脂肪酸分子对太赫兹辐射的响应。芝麻油中一般含有6种主要的脂肪酸,包括棕搁酸、硬脂酸、油酸、亚油酸、二十碳烷酸、亚麻酸。不同品种的芝麻油中含有的6中脂肪酸的组成比例没有太大的差别,但是含量会有差异,如正道脂肪酸的含量为99.9%,蔡林记脂肪酸含量为99.7%,福临门的脂肪酸含量虽然与正道的含量相同,南阳脂肪酸含量与蔡林记相同,但是由于原料的来源不同,会有细微的差别,所以需要借助仪器来进行区分。

图2 四种芝麻油的时域波形Fig.2 Time domain waveform of four kinds of sesame oil

直接观测波形不能直接看出不同品种的差别,局部放大后可以观测到在部分区间不同品种的波形相互分离,可以直接区分出来。

对时域数据进行傅里叶变换后得到样品的频谱图如下图3所示,因为后面波段受到的干扰较大,所以选取0~2.5 THz范围内的波形进行观测。正道黑芝麻油的频谱与其它三种品种芝麻油的频谱有明显的区分,蔡林记芝麻油、福临门芝麻油和南阳芝麻油三条频谱图混叠在一起不能明显的区分。

图3 四种芝麻油的频域波形Fig.3 Frequency domain waveform of four kinds of sesame oil

2.1.2 折射率和吸收系数 因为太赫兹时域数据中包含振幅和相位的信息,太赫兹时域光谱可以直接的计算样品的吸收系数和折射率,不需要使用Kamers-Kroning关系进行变换得到。所以直接使用公式(1)和公式(2)进行计算得到折射率和吸收系数如下图4和图5所示。折射率谱在0~2.5 THz几乎完全重叠,在2.5 THz之后开始波动分离(图4)。吸收光谱正道与其它品种相分离,其它三个品种吸收光谱相近(图5)。折射率与吸收系数相比,吸收系数的区分度相对较大,因此选用吸收系数作为后面分类的数据源。

图4 四种芝麻油的折射率波形Fig.4 Refractive index waveforms for four types of sesame oil

图5 四种芝麻油的吸收系数波形Fig.5 Absorption coefficient waveform of four sesame oils

2.1.3 数据预处理 吸收系数谱中正道可以明显区分,其它三种接近重叠,因此为了更好的区分不同品种的芝麻油需要对数据进行预处理。本次实验采用了微分、积分和归一化三种方法分别对数据进行预处理,处理后的结果如图6~图8所示,由图可知采用微分和积分处理后的数据依旧不容易区分,采用归一化处理后的数据可以比较明显的区分出不同品种的芝麻油,所以选择归一化处理作为最终的预处理方法,然后对预处理后的数据继续采用机器学习的算法进一步分类。

图6 吸收系数微分预处理Fig.6 Differential preprocessing of absorption coefficient

图7 吸收系数积分预处理Fig.7 Integral preprocessing of absorption coefficient

图8 吸收系数归一化预处理Fig.8 Normalization preprocessing of absorption coefficient

2.2 PCA分析

本次实验原始数据为580维,直接使用SVM分类效率会比较低,所以先采用PCA降维,最终保留前4个主成分,使用前4个主成分代替原始数据集,作为SVM分类模型的输入。保留的前4个成分对原始数据的贡献率为99.506%,表1为各成分解释总方差。为了直观的观测聚类效果,选取前两个主成分画出得分图,前两个主成分累计贡献率为98.944%,图9为前两个主成分的得分图,从图中可以看出来四种不同品种的芝麻油有比较好的聚类作用,基本可以区分出不同品种的芝麻油。为了更加精确快速的区分,继续采用SVM进行分类。

表2 各成分解释总方差Table 2 Each component explains the total variance

图9 前两个主成分得分图Fig.9 Score charts of the first two principal components

2.3 模型分析

采用PCA-SVM联用模型对样品进行分类,先对原始数据集进行划分,划分数据集使用Python中的train_test_split()函数,其中参数stratify可以保证按照不同种类样品的比例分配,训练集和测试集的比例为7∶3。为了得到更好的分类效果,实验采用网格搜索算法得出分类准确率最高的参数组合。主要对核函数(kernel)、惩罚函数(C)、核函数系数(γ)进行搜索。不同核函数的分类准确率如表3,线性核函数的总分类正确率为87.3%,分类准确率在三类核函数中最低,多项式核函数总分类正确率为91.5%,比线性核函数高,径向基核函数分类正确率最高,最高可以达到100%,即可以将全部样品分类正确,说明在本次实验中径向基核函数是最佳的分类核函数,最佳分类效果的参数为惩罚函数C为0.01,核函数系数为0.1。

表3 不同核函数的分类准确率Table 3 Classification accuracy of different kernel functions

为了证明本文模型的性能,将本文的模型PCA-SVM与常见的分类模型随机森林(RF)、K近邻法(KNN)和逻辑回归(LR)进行对比,这三种算法是常见的机器学习分类算法。如表4所示,使用PCA对数据进行预处理后,再进行使用SVM进行分类效果要优于其它三种模型。对于PCA-SVM模型不同的核函数的分类效果会有一定的差异,由表3可知选择径向基作为核函数,且选取参数惩罚函数C为0.01,核函数系数为0.1得到的模型分类效果最佳。总的来说,PCA-SVM模型识别性能最佳。

表4 不同模型的分类准确率Table 4 Classification accuracy of different models

3 结论

采用THz-TDS技术检测了四种芝麻油在0~2.5 THz波段的时域和频域谱,并计算得到折射率和吸收系数谱。实验结果表明太赫兹时域谱结合化学计量法在不同品种芝麻油的分类上有很好的效果。不同品种的芝麻油含有不同类型的脂肪酸分子混合物,因此使用太赫兹技术进行检测时,不同脂肪酸分子的响应反应在光谱图上,虽然直接观测不明显,但是结合化学计量法,分类准确率在87%~100%。实验同时表明太赫兹时域光谱技术在食品安全识别方面具有广阔的应用前景。

猜你喜欢

芝麻油原始数据赫兹
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定变化趋势限制的传感器数据处理方法研究
干咳不止,试试芝麻油炒鸡蛋
水酶法芝麻油与其他工艺芝麻油品质差异研究
基于双频联合处理的太赫兹InISAR成像方法
太赫兹低频段随机粗糙金属板散射特性研究
太赫兹信息超材料与超表面
市售3种白芝麻油掺杂检测
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
芝麻油生产工艺对细辛素形成的影响