APP下载

太赫兹时域光谱识别4种食用油真实性的研究

2017-09-16廉飞宇付麦霞葛宏义蒋玉英许德刚

中国油脂 2017年7期
关键词:赫兹食用油时域

廉飞宇,付麦霞,葛宏义,蒋玉英,许德刚,张 元

(1.粮食光电探测与控制河南省重点实验室,郑州 450001; 2.河南工业大学信息科学与工程学院,郑州 450001)

太赫兹时域光谱识别4种食用油真实性的研究

廉飞宇1,2,付麦霞1,2,葛宏义1,2,蒋玉英1,许德刚1,张 元1

(1.粮食光电探测与控制河南省重点实验室,郑州 450001; 2.河南工业大学信息科学与工程学院,郑州 450001)

采用太赫兹时域光谱系统(THz-TDS),研究了4种食用油(黑芝麻油、芝麻油、小磨香油和花生油)在0.2~1.6 THz波段的延时特性和折射率特性。使用主成分分析法(PCA),根据累计贡献率的大小提取光谱的特征数据。提取了4个主成分(累计贡献率大于95%)作为一个支持向量机(SVM)模型的输入用于识别食用油的种类。结果表明:结合主成分分析法,通过选择合适的支持向量机核函数及其参数,食用油种类识别的正确率可达到93%;通过与主成分回归(PCR)、偏最小二乘回归(PLS)和后向(BP)神经网络方法的比较,支持向量机结合主成分分析(PCA-SVM)方法具有更突出的分类性能,同时也说明了采用太赫兹时域光谱,结合化学计量学方法精准鉴别食用油种类的可行性。

食用油;太赫兹时域光谱系统;主成分分析;支持向量机;预测模型

香油是我国人民比较喜爱的一种食用油,但由于其制作成本较高,不可避免地存在着勾兑和假冒的现象,这就为香油品质的快速检测技术提出了要求。色谱法在食用油质量检测中运用较多,一般可以分为液相色谱法、气相色谱法及薄层色谱法等[1-5]。但色谱法存在着检测速度慢或检测精度较差的问题。光谱法在食用油质量检测中占据着重要地位,主要有近红外光谱检测法、可见分光光度法、光声谱法和核磁共振光谱法等[6-9]。对于食用油的品质检测,已有的光谱法在特定环境下的应用虽有效,但有一定的局限性,主要表现为受其波长较短的限制,对有机分子间相互作用的响应不灵敏,造成光谱反映出的被测物的理化特性不够全面。相比于红外,太赫兹辐射有着较长的波长和更好的穿透特性,因而太赫兹时域光谱在反映分子集体振动模式、分子间相互作用方面具有显著优势,可以提供更多关于被测物分子的动态信息[10]或鉴别分子类型[11-14]。在太赫兹时域光谱的定性和定量分析方面,目前大多采用线性回归的方法[15-17],很少有文献采用非线性的方法对检测对象进行定性识别和定量分析。本文利用不同种类食用油在0.2~1.6 THz波段虽没有明显的特征吸收峰,但其折射率谱有一定差异的特点,开发了一种结合化学计量学的太赫兹时域光谱识别模型。该模型首先采用主成分分析法(PCA)从太赫兹时域光谱中提取特征信息,以降低用于识别的特征维数,然后把提取的主成分作为一个用于识别食用油类型的支持向量机(SVM)模型的输入。SVM模型采用3种核函数(Linear, Polynomial, Radial Basis Function),用于识别本文的4种食用油。此外,为了验证4种食用油识别模型的性能,还与其他常用识别方法如主成分回归(PCR)、偏最小二乘回归(PLS)和后向(BP)神经网络进行了比较。

1 材料与方法

1.1 实验材料

1.1.1 实验原料

为了尽可能地保持食用油的原始生化特性和便于比较,选择的4种食用油原料均是实验前一个月内生产的。4种食用油的特性如表1所示。

表1 样品特性

1.1.2 实验仪器

采用美国Zomega公司Z3型实验室级太赫兹时域光谱系统(THz-TDS)。为了方便实验操作,采用宜兴晔辉玻璃仪器厂的荧光微量石英比色皿,参数为:光程10 mm,容量0.35 mL,狭缝宽度1 mm。

1.2 实验方法

样品测试前,设置太赫兹时域光谱系统实验参数:太赫兹透射反射光谱范围0.1~3.5 THz;分辨率小于5 GHz;最大延迟时间1.3 ns;动态范围70 db(峰值);成像范围50 mm×50 mm;免维护光纤飞秒激光器;中心波长780 nm;脉冲宽度100 fs;输出功率150 mW。每个样品测量3次,取平均值。

2 结果与分析

2.1 数据预处理

典型的太赫兹波谱范围是0.1~3 THz,但越靠近两端干扰越大,根据经验,选择0.2~1.6 THz频率范围的数据作为分析对象。将数据可视化,观察样品的光谱,从直观上了解实验成功与否。理论上,各种食用油的太赫兹时域光谱应有所差别,波形应比较平滑稳定,如有波形本身变化剧烈,说明噪声过大,或者各种样品波形重合在一起,都说明测试失败,需要重新测试。图1显示了4种食用油样品的典型太赫兹时域光谱。经对时域波形(如图1(a)所示)进行快速傅里叶变换(如图1(b)所示),再经由公式进行计算,可以得到样品的折射率谱,结果如图1(c)所示。

图1 4种食用油的太赫兹时域光谱

2.2 模型的建立

2.2.1 主成分分析(PCA)

PCA是一个统计方法,可以将高维的原始数据空间近似成一个更小维度的正交空间。即通过在原始数据集中提取有限数目的变量(称为主成分)构成一个正交的低维数据集[18-19],主成分(PCS)的数目不大于原始变量的数目。主成分PC1有最大的信息量,并且正交于主成分PC2,PC2的信息量多于PC3,并且互相正交,以此类推。这些主成分能够通过下列步骤确定。

步骤1:标准化最初数据矩阵Xm×n(m代表数据的数目,n代表数据的特征维度)如下:

(1)

然后计算协方差矩阵Sn×n;

步骤2:获得Sn×n的特征值λi和相应的特征向量μi;

步骤3:根据Zi=μiX*,(i=1,2,…,n)提取主成分PCS。所有主成分的累积贡献率应达到80%以上[20]。主成分PCS(Z1,Z2…Zk)是一个能够代表原始数据集80%以上信息量的低维(k)数据集。

2.2.2 支持向量机(SVM)

支持向量机是一种用于数据分析和模式识别的监督学习方法,常被用于不同模式类型的分类[21]。本文中的SVM采用非线性映射函数构建回归模型,该函数可将输入数据映射到一个更高维的空间,使非线性优化问题转换为一个线性优化问题。SVM模型由一个确定的函数y=f(x)+N′表示,其中f(x)=wTφ(x)+b,N′为噪声,可以看作是某种误差ε。w和b是回归函数参数,φ(x)是核函数。f(x)的形式可以在一个训练集上对SVM模型训练得到[22]。训练集可表示为:

{(x1,y1),(x2,y2),…,(xk,yk)}⊂Rd×R

(2)

式中:yk是一个相对于输入变量xk的经验值。w和b可根据误差最小化原理得到,如下。

(3)

建立支持向量机回归模型的主要方法是采用核函数k(xi,yi)=φ(xi)T[23]。为了比较各种支持向量机回归模型的性能,本文选用了3种核函数:线性核函数、多项式核函数和RBF核函数,分别描述如下:

线性核函数:k(xi,yi)=xiyi

多项式核函数:k(xi,yi)=(xiyi+1)d

通过对模型进行训练,可以得到最佳的核函数参数C和γ,但C和γ的值过大或过小,都可导致模型预测性能的下降。可以采用五折交叉验证法通过网格搜索确定最优参数[24]。

一般采用均方根误差(RMSE)评估模型的预测性能,RMSE定义如下:

(4)

2.3 结果分析

如图1所示,波形的相似性表明了系统的稳定性,脉冲幅度的降低和时间的延迟表明了样品对太赫兹辐射的吸收和折射率的不同。同时图1的波形也表明,样品在被检测的太赫兹频率范围内折射率谱彼此靠近,甚至混叠在一起,这为样品的分类识别带来了困难,同时也说明需要应用更为复杂的分析方法才能对样品的光谱进行分析识别,针对这一问题,本文采用了PCA与SVM联用的方法。

2.3.1 PCA分析

PCA用于降低样本空间的特征维数,减少数据的相关性。我们采用PCA算法抽取了原始太赫兹时域光谱数据的最有代表性的4个特征向量,这4个特征向量的特征值分别是91%、5%、1%和0.2%,代表了对原始数据97.2%的贡献率,覆盖了原始数据绝大部分的信息量。采用PCA抽取4个特征向量代替原始数据,使得原始数据从最初的256维降低至4维。图2为样品前2个主成分的得分图。

图2 样品前2个主成分的得分图

由图2可以大致识别出样本的种类。将PCA抽取的4个主成分作为SVM模型的输入用于训练,就可以进一步提高样品的识别精度并缩短算法的运行时间。

2.3.2 SVM分析

为了比较本文提出的PCA-SVM模型的分类性能,首先采用原始光谱数据作为SVM的输入用于构建和测试SVM回归模型。为了找出最佳的SVM回归模型,采用了3种不同形式的核函数。同时,考虑到适当的参数C和γ将有助于显著提升模型的预测精度,我们通过设置不同的参数,构建出了多个SVM回归模型,并计算了每个模型的RMSE。表2是采用不同核函数的SVM回归模型对测试样本类型的识别结果。由表2可以看出,SVM模型的预测性能与核函数的选取有关,最优的是线性,其次是多项式和RBF。

表2 SVM的识别结果

通过设置不同的参数C和γ,构建了12个SVM回归模型,并分别计算了每个模型的RMSE值。图3显示的是每个模型的参数γ与模型的RMSE值的对应关系。由图3可知,SVM模型中参数γ的最佳值是3.9。通过网格搜索算法,可以得到参数C的最优值是2.2。

图3 支持向量机模型中参数γ和RMSE的对应关系

2.3.3 PCA-SVM分析

在采用PCA降低了样本的特征维数后,被抽取的4个主成分便作为SVM的输入用于构建和测试SVM回归模型。与2.3.2节中的SVM分析类似,对于PCA-SVM联合算法模型,我们也给出了被构建的12个模型中参数γ与RMSE的对应关系,如图4所示。由图4可知,γ为3.5的模型预测精度最优。而且,通过网格搜索优化算法,可以确定参数C的最优值为2。

图4 PCA-SVM模型中的参数γ和RMSE的对应关系

3种核函数下的PCA-SVM模型的识别结果如表3所示。

表3 PCA-SVM识别结果

由表3可知,不同核函数的模型预测的正确率是不同的,但都取得了令人满意的分类效果,核函数为线性和多项式的模型的分类效果优于RBF核函数模型。所有样本分类的正确率都在90%左右,并且花生油的识别正确率达到了100%,这表明PCA-SVM模型的分类性能要优于单独的SVM模型。

2.3.4 模型性能的比较

为了说明本文提出的PCA-SVM模型的分类性能,把PCA-SVM模型与常见的PCR、PLS、BP神经网络模型进行了比较,这3种模型均被广泛应用于光谱分析中[25],结果如表4所示。

表4 4种食用油不同分类模型的识别正确率

由表4可见,使用PCA处理输入数据后,能够大大提高SVM的识别正确率。由于SVM在解决小样本分类问题时尤其有效,并且能够避免落入局部极值。PCA-SVM识别正确率达到了93%,而表4中列出的其他模型识别正确率差别较大且都低于85%。对于PCA-SVM模型来说,使用不同的核函数识别正确率会有一定的差异,其中线性核函数是最合适的,其参数γ和C最合适的值分别为3.5和2。总体来说,表4中4种模型的比较结果清楚地表明了PCA-SVM模型的识别性能优于其他模型。

3 结 论

本研究的结果表明,太赫兹时域光谱与化学计量学方法合用,对识别食用油的种类具有较好的效果。样品的太赫兹时域光谱可以反映不同的脂肪酸分子对太赫兹辐射的响应。因为样品是包含了不同类型脂肪分子的复杂混合物,其吸收谱虽没有明显的吸收峰,但采用折射率谱结合化学计量学的方法,4种食用油的识别正确率达到了93%。同时实验也表明了,相对于色谱法和其他理化检测方法,太赫兹时域光谱的方法具有非破坏性、简单、安全可靠的特点。

[1] 国振,李秀琴,高方园,等.液相色谱同位素稀释质谱法检测食用油中辣椒碱类化合物[J].化学试剂,2016,38(6):491-495.

[2] 孙慧珍,曲赛男,裘立群,等.食用油中反式脂肪酸的气相色谱检测法研究[J].山东农业大学学报(自然科学版),2016,47(1):47-51.

[3] 黄军,熊华,李亮,等.潲水油在精炼中卫生指标的检测与分析[J].中国油脂,2008,33(10):70-74.

[4] 孙雪,郗存显,唐柏彬,等.复合免疫亲和柱净化-液相色谱-串联质谱法测定动物源食品中6种黄曲霉毒素和6种玉米赤霉醇类真菌毒素残留量[J]. 分析化学,2016,44(6):970-978.

[5] 刘玉兰,张小涛,赵欢欢. 液相色谱-串联质谱法检测食用油脂中苯并芘[J]. 农业机械,2012(30):45-48.

[6] 高媛,王宁,于修烛,等.基于傅里叶近红外光谱的食用油过氧化值间接检测研究[J].中国粮油学报, 2015,30(5):139-142

[7] 杨昕,郭超,李豪,等.基于可见分光光度法的食用油过氧化值检测[J].粮油加工,2014(6):34-39.

[8] 符伦辉,李佳桦,王洁琳,等. 基于光声频谱检测食用油优劣性的装置[J].科技传播,2014(9):150,146.

[9] 杨扬,殷乐,尹芳华,等.几种食用油的核磁共振光谱特征与地沟油的快速检测[J].中国油脂,2015,40(7):45-50.

[10] ASHWORTH P C, PICKWELL-MACPHERSON E, PROVENZANO E, et al. Terahertz pulsed spectroscopy of freshly excised human breast cancer[J]. Opt Express,2009,17(15): 12444-12454.

[11] 郑新利,陈书田.农作物转基因技术研究进展及存在问题[J].中国种业,2009(3):14-15.

[12] MATSUOKA T, KURIBARA H, TAKUBO K, et al. Detection of recombinant DNA segments introduced to genetically modified maize(Zeamays)[J]. J Agric Food Chem, 2002,50(7):2100-2109.

[13] GROHMANN L, BRÜNEN-NIEWELER C, NEMETH A, et al. Collaborative trial validation studies of real-time PCR-based GMO screening methods for detection of the bar gene and the ctp2-cp4epsps construct[J]. J Agric Food Chem,2009,57(19):8913-8920.

[14] SHRESTHA H K, HWU K K, WANG S J, et al. Simultaneous detection of eight genetically modified maize lines using a combination of event-and construct-specific multiplex-PCR technique[J]. J Agric Food Chem,2008,56(19):8962-8968.

[15] ZHANG Y, PENG X H, CHEN Y, et al. A first principle study of terahertz (THz) spectra of acephate[J]. Chem Phys Lett,2008,452(1/3): 59-66.

[16] GENTE R, BORN N, SANNEMANN W, et al. Determination of leaf water content from terahertz time-domain spectroscopic data[J]. J Infrared Millimeter Terahertz Waves,2013, 34(3/4): 316-323.

[17] HUA Y F, ZHANG H J. Qualitative and quantitative detection of pesticides with terahertz time-domain spectroscopy[J]. IEEE Trans Microw Theory, 2010, 58(7): 2064-2070.

[18] SCHWEIZER K, CATTIN P C, BRUNNER R, et al. Automatic selection of a representative trial from multiple measurements using principle component analysis[J]. J Biomech,2012,45(13): 2306-2309.

[19] NOORI R, SABAHI R, KARBASSI A R, et al. Multivariate statistical analysis of surface water quality based on correlations and variations in the data set[J]. Desalination, 2010,260(1/3):129-136.

[20] 刘天玲,苏琪雅,孙群,等. 基于NIR分析和模式识别技术的玉米种子识别系统[J].光谱学与光谱分析,2012, 32(6): 1550-1553.

[21] HE M, YANG G L, XIE H Y. A hybrid method to recognize 3D object[J]. Opt Express,2013, 21(5): 6346-6352.

[22] CRISTIANINI H, SHAWE-TAYLOR J.An introduction to support vector machines and other kernel-based learning methods[M]. Cambridge: Cambridge University Press, 2000.

[23] CORTES C, VAPNIK V. Support-vector networks[J]. Mach Learn,1995, 20(3): 273-297.

[24] MAALI Y, AL-JUMAILY A. Self-advising support vector machine[J]. Base Syst,2013(52): 214-222.

[25] MARENGO E, BOBBA E, ROBOTTI E, et al. Hydroxyl and acid number prediction in polyester resins by near infrared spectroscopy and artificial neural networks[J]. Anal Chim Acta,2004, 511(2): 313-322.

Identificationoffourkindsofedibleoilsbyterahertztime-domainspectroscopy

LIAN Feiyu1,2, FU Maixia1,2, GE Hongyi1,2, JIANG Yuying1, XU Degang1, ZHANG Yuan1

(1.Grain Photoelectric Detection and Control Key Laboratory of Henan Province, Zhengzhou 450001, China; 2.College of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)

Delay characteristics and refractive index characteristics of four kinds of edible oils (black sesame oil, traditional sesame oil, sesame oil, peanut oil) in the range of 0.2-1.6 THz were investigated by terahertz time-domain spectroscopy(THz-TDS).Principal component analysis (PCA) was employed to extract feature data according to the accumulative contribution rates. The top four principal components (accumulative contribution rate above 95%) were selected, and then a support vector machine (SVM) method was applied. The results showed that by choosing the appropriate kernel function and its parameters of SVM, the samples were identified with an accuracy of 93%.Furthermore, compared with principal component regression, partial least squares regression, and back-propagation neural networks, PCA-SVM had a more prominent classification performance and also indicated that the THz-TDS technology combined with PCA-SVM was efficient and feasible for identifying different kinds of edible oils.

edible oil; terahertz time-domain spectroscopy; principal component analysis; support vector machine; prediction model

2016-10-13;

:2017-02-10

国家863计划项目(2012A101608);河南省基础与前沿计划项目(152300410079)

廉飞宇(1970),男,副教授,博士,主要从事粮食信息处理与控制方面的研究工作(E-mail)lfywork@163.com。

TS225.1;TQ646

:A

:1003-7969(2017)07-0069-05

猜你喜欢

赫兹食用油时域
废食用油改性沥青性能研究
开封后的食用油应该怎么存放
基于复杂网络理论的作战计划时域协同方法研究
2019上海食用油展、食用油包装展览会
网络分析仪时域测量技术综述
2019上海食用油展、食用油包装展览
基于双频联合处理的太赫兹InISAR成像方法
太赫兹低频段随机粗糙金属板散射特性研究
太赫兹信息超材料与超表面
山区钢桁梁斜拉桥施工期抖振时域分析