基于PLS-LDA和拉曼光谱快速定性识别食用植物油
2014-02-27吴静珠石瑞杰刘翠玲
吴静珠,石瑞杰,陈 岩,刘翠玲,徐 云
(1.北京工商大学计算机与信息工程学院,北京100048;2.中国农业大学信息与电气工程学院,北京100083)
基于PLS-LDA和拉曼光谱快速定性识别食用植物油
吴静珠1,石瑞杰1,陈 岩1,刘翠玲1,徐 云2
(1.北京工商大学计算机与信息工程学院,北京100048;2.中国农业大学信息与电气工程学院,北京100083)
以6种食用油共计23个样本为分析对象,采用偏最小二乘线性判别分析法(PLS-LDA)和拉曼光谱进行单一种类(橄榄油、花生油和玉米油)食用油快速定性检测,通过自适应迭代惩罚最小二乘法(airPLS)对拉曼信号进行背景扣除,以及蒙特卡洛无信息变量消除法筛选波长变量,不但有效减少了波长点数,降低了建模运算量,而且提高了单一种类食用油的识别率,使得总体识别率均高于90%,并在此基础上进一步提出了采用PLS-LDA进行多种类食用油识别的检测流程。实验结果表明PLS-LDA在食用油定性识别检测中具有较好的应用前景和可行性,该方法也可为定性检测食品及农产品品质提供借鉴。
偏最小二乘线性判别分析法,拉曼光谱,食用植物油,蒙特卡洛无信息变量消除法
食用植物油是人们膳食结构中不可缺少的组成部分,其质量优劣对人体健康有着重要的影响。一些不法商家为追求利润,用廉价的植物油与正常油品掺杂,以次充好,以假乱真,从中牟取暴利,尤其是橄榄油、花生油等价格较为昂贵的植物油是重点被掺杂和假冒的对象。因此,为保护合法生产经营者和消费者的利益,对食用植物油品种进行准确快速鉴别是非常必要的。
传统的食用油品种鉴别方法为感官评定,该方法的检测结果受主观因素影响较大,不适用于大批量样本的检测。拉曼光谱(Raman)是近年蓬勃发展起来的一种极具前景的快速检测手段,具有无污染、无需前处理、无接触、样品量少等优点,在食品、石油化工、珠宝考古等领域得到初步的应用和探索[1-3]。食用油的拉曼光谱信息非常丰富,油脂结构中的“C=C”对拉曼光谱中的分子振动有较大的贡献,不同种类植物油中的脂肪酸主要差异表现为其数量变化。Zhang等采用主成分分析(PCA)方法和拉曼光谱对橄榄油掺假进行识别,对掺假量5%以上的样品取得了较好的识别结果[4]。PIETER SAMYN等采用中红外和拉曼光谱,结合PCA和偏最小二乘法(PLS)回归模型,对巴西植物油进行质量评估和统计分类[5]。Stewart FrancisGraham等采用近红外和拉曼技术结合PCA检测饲料行业用油是否掺入矿物油的研究[6]。周秀军等选取食用油不饱和度特征的两处拉曼峰值结合多重光谱预处理方法对食用植物油品种进行快速分类,各类别样本聚集效果比PCA好[7]。目前国内食用油市场亟需快检手段监管食用油生产和销售的整个环节。基于近红外的食用油品质检测技术具有快速、简便的特点被大量研究和应用,但是近红外光谱存在谱峰重叠严重,检测所需样品量大等问题,不利于量少样品及微量物质的检测。拉曼的谱峰清晰尖锐,其特征峰位置、强度和线宽提供分子振动、转动方面的信息,据此可以反映出分子中不同的化学键或官能团。拉曼光谱技术具有操作简便,测定时间短,灵敏度高且所需样品量少等优点,适合于定量研究、数据库搜索以及运用差异分析进行定性研究。目前国内基于拉曼光谱的食用油品质检测的报道较少,研究尚处于起步阶段。
本工作拟采用拉曼光谱结合偏最小二乘-线性判别分析(PLS-LDA)方法,以食用油中橄榄油,花生油和玉米油三个品种为例,建立单一种类的食用油的识别模型,通过MCUVE挑选特征波长变量优化该定性模型,提升其预测能力。并在此基础上,探索基于PLS-LDA的多种类食用油识别的可行性。
1 材料与方法
1.1 材料与仪器
23个食用植物油样品 购于北京物美超市,其中橄榄油样本6个、花生油样本5个、玉米油样本4个、葵花籽油样本4个、稻米油样本2个、亚麻籽油样本2个;石油醚 分析纯。
拉曼光谱仪 Thermofisher公司的DXR激光显微拉曼光谱仪(光谱仪参数如下:780nm激光光源;奥林巴斯BX51研究级显微镜,10×目镜聚焦;拉曼位移范围50~3300cm-1)。
1.2 拉曼光谱采集
采用DXR激光显微拉曼光谱仪采集食用油的拉曼光谱。由于待测对象是液体样品,因此采用金属制容器装样,以避免干扰待测对象的拉曼信号。全部样品未经任何化学处理,采用移液枪逐一装样扫描样品。每次测量前均用石油醚清洗金属质容器,避免样品间交叉污染。食用油样品的拉曼谱图如图1所示。
图1 食用油拉曼谱图Fig.1 Raman spectra of edible oil
1.3 airPLS方法
airPLS可以用来对拉曼信号进行背景扣除,且无需用户的任何介入和初始信息(如峰值检测等)。该方法主要包括两个方面:惩罚最小二乘算法对信号的平滑和自适应迭代将惩罚过程转变成一个基线估计的惩罚最小二乘算法[8]。其中参数λ可以用来调节拟合基线的平滑度和精确度之间的平衡[9-10]。本实验采用airPLS对食用油拉曼光谱进行基线校正。
1.4 PLS-LDA方法
本文采用PLS-LDA方法建立判别模型。PLSLDA的基本思路:首先利用PLS算法将矩阵X和y进行主成分分解,得到X矩阵的主成分T,然后利用T和各样本的y值做线性判别分析,最终导出判别函数[1]。本实验中采用PLS算法进行主成分分解结合Fisher线性判别法进行分析[11]。在windows 7操作系统和MATLAB 7.6.0的软件平台下,调用软件包CARS_PLSLDA V3.5实现上述算法(下载地址:http://code.google.com/p/ cars2009/downloads)。
1.5 模型评价指标
根据文献[12],蒙特卡洛交叉校验得到的模型指标与K折交叉校验和留一法交叉校验相比,更接近于实际预测能力。采用蒙特卡洛交叉校验的模型指标来评价模型预测能力更有意义实际。因此本实验采用蒙特卡洛法进行抽样建模。
通常采用真实样本识别率,假冒样本识别率及总体识别率对模型识别的性能进行评价。设真实样本个数n1,假冒样本个数n2,样本总体个数则为n1+n2;设被正确识别的真实样本个数m1,被正确识别的假冒样本个数m2,则真实样本识别率(%)=m1/n1,假冒样本识别率(%)=m2/n2,总体识别率(%)=(m1+m2)/(n1+n2)。
2 结果与分析
2.1 谱图预处理
食用植物油的拉曼光谱中位于1650cm-1处特征峰的峰值直接反映了不饱和烯烃键(C=C)的含量,而位于1260cm-1处的特征峰则反映了不饱和烯烃键所在碳原子碳氢键(=C-H)的含量,这两个特征峰均体现了食用油的不饱和程度[7]。另外,从上图1中可以看到位于两端的光谱信号毛刺较多,噪声较大。因此本实验选取包含上述特征峰,且避开两端的光谱区域(1109~1784cm-1)作为区别食用植物油品种的理论依据。
拉曼信号在采集过程中,易受到仪器自身和样本摆放位置等因素的干扰影响,因此对拉曼光谱进行预处理是很有必要的。本实验采用airPLS对选中的谱区进行基线校正,当选取λ=105,如图2所示。
2.2 基于PLS-LDA的单一种类食用油的识别
考虑到本实验食用油样本集中一些种类的食用油样本个数较少,因此实验只选择三种食用油:橄榄油,花生油和玉米油分别进行单一种类识别。以橄榄油识别为例,若为真实橄榄油样品,则类别标记为1,若非橄榄油样品,则类别标记为-1。在本实验样本集中,橄榄油真实样本有6个,假冒样本有17个。
本实验采用蒙特卡洛采样方法随机抽样1000次,每次按80%的比例随机在样品集中抽样作为训练集,20%作为测试集。根据每次抽样得到的训练集建立PLS-LDA识别模型,计算测试集样本的种类识别率。根据抽样比例,每次抽样,测试集样本23×20%≈5个样本,因此1000次抽样得到测试集样本共有5000个。表1中的结果是1000次抽样得到的测试集的平均识别率。
图2 airPLS光谱预处理Fig.2 Spectra preprocessing based on airPLS
表1 基于PLS-LDA的食用植物油定性识别结果Table.1 Classification of edible vegetable oil based on PLS-LDA
一般情况下,变量筛选可以提高模型的预测精度和增强模型的解释性[13-14]。鉴于表1中识别率不高,因此这里采用蒙特卡洛无信息变量消除法(MCUVE)挑选波长变量。本实验通过MCUVE-PLSLDA变量筛选[15]后的波长如图3所示。从图3中可以看出,三种植物油识别模型挑选的拉曼光谱在位于1650cm-1附近处有重叠区域,而该处的特征峰的峰值直接反映了不饱和烯烃键(C=C)的含量,正是区别不同食用油种类的理论依据。
在MCUVE-PLSLDA变量筛选后,重复蒙特卡洛交互检验,建立PLS-LDA识别模型,结果如表2所示。表2中三种植物油的真实样本识别率,假冒样本识别率和总体识别率均高于变量筛选前的识别率。
2.3 基于PLS-LDA的多种类食用油识别
根据上述实验结果,PLS-LDA可用于单一种类的食用油识别,即二元识别。若想将其用于多元识别,即多种类食用油的识别,可采用如图4所示流程图。本实验随机选取了橄榄油样本、花生油样本、玉米油样本及亚麻籽油样本各一个,采用上述选取的波长变量建立的PLS-LDA模型及图4所示多种类食用油的识别流程,进行测试。4个样本均得到了正确的分类。
图3 MCUVE筛选的食用油光谱拉曼光谱波长变量Fig.3 Wavelength variable selection on Raman of edible oil by MCUVE
表2 基于MCUVEPLS-LDA的食用植物油定性识别结果Table.2 Result of Classification of edible vegetable oil based on MCUVEPLS-LDA
3 结论
本文采用PLS-LDA进行单一种类食用油快速定性识别研究,通过MCUVE筛选特征波长变量大大提高了本实验中3种食用植物油的识别率,总体识别率均大于90%,并提出了采用PLS-LDA进行多种类食用油识别流程。实验结果表明PLS-LDA方法在食用油定性识别中具有较好的应用前景和可行性,并可探索将此方法拓展到类似的农产品和食品的定性检测应用。从应用统计学的角度而言,食用油样本(种类和数量)的收集是否合理是影响到模型实用性的根本,就目前检索的研究报道,都没有涉及到这方面的工作。因此本工作后期将从统计学角度进一步收集食用油样本数据,探索解决基于PLS-LDA食用油定性识别模型的实用化过程中遇到的问题。
图4 基于PLS-LDA的多种类食用油识别流程图Fig.4 Flowchart of identifying different kinds of edible oil based on PLS-LDA
[1]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社,2011.
[2]陈健,肖凯军,林福兰.拉曼光谱在食品分析中的应用[J].食品科学,2007,28(12):554-558.
[3]施玉珍,陈志春,林贤福.拉曼光谱与红外光谱无损检测技术新进展[J].分析化学,2005,33(2):272-276.
[4]Xiaofang Zhang,Xiaohua Qi,Mingqiang Zou,et al.Rapid Authentication of Olive Oil by Raman Spectroscopy Using Principal Component Analysis[J].Analytical Letters,2011,44(12):2209-2220.
[5]PIETER SAMYN,DIETER VAN NIEUWKERKE,GUSTAAF SCHOUKENS,et al.Quality and statistical classification of brazilian vegetable oils using mid-infrared and Raman spectroscopy[J].Applied Spectroscopy,2012,66(5):552-562.
[6]Stewart Francis Graham,Simon Anthony Haughey,Robert Marc Ervin,et al.The application of near-infrared(NIR)and Raman spectroscopy to detect adulteration of oil used in animal feed production[J].Food Chemistry,2012,132:1614-1619.
[7]周秀军,戴连奎,李晟.基于拉曼光谱的食用植物油快速鉴别[J].光谱学与光谱分析,2012,32(7):1829-1833.
[8]房承宣,李建华,梁逸曾.拉曼光谱结合背景扣除化学计量学方法用于汽油中MTBE含量的快速测定研究[J].分析测试学报,2012,31(5):541-545.
[9]Z-M Zhang,S Chen,Y-Z Liang.Baseline correction using adaptive iteratively reweighted penalized least squares[J].Analyst,2010,135(5):1138-1146.
[10]陈珊.拉曼背景扣除算法及其应用研究[D].长沙:中南大学,2011.
[11]Li H-D,Zeng M-M,Tan B-B,et al.Recipe for revealing informative metabolites based on model population analysis[J]. metabolomics,2011,doi:10.1007/s11306-010-0213-z.
[12]袁大林,梁逸曾,许青松.QSAR/QSPR模型中的蒙特卡罗交叉效验评价[J].计算机与应用化学,2006,23(6):569-573. [13]Li H-D,Y-Z Liang,Q-S Xu,et al.Model population analysis for variable selection[J].J Chemometr,2009,24:418-423.
[14]Roman M Balabin,Sergey V Smirnov.Variable selection in near-infrared spectroscopy:Benchmarking of feature selection methods on biodiesel data[J].Analytica Chimica Acta,2011,692:63-72.
[15]Wensheng Cai,Yankun Li,Xueguang Shao.A variable selection method based on uninformative variable elimination formultivariate calibration of near-infrared spectra[J]. Chemometricsand IntelligentLaboratorySystems,2008,90:188-194.
Rapid qualitative identification method of edible vegetable oil based on PLS-LDA and Raman
WU Jing-zhu1,SHI Rui-jie1,CHEN Yan1,LIU Cui-ling1,XU Yun2
(1.School of Computer and Information Engineering,Beijing Technology and Business University,Beijing 100048,China;2.College of Information and Electrical Engineering,China Agricultural University,Beijing 100083,China)
This paper choose 6 kinds of edible vegetable oils for a total of 23 samples as a typical tested object. Partial Least Squares-Linear Discriminant Analysis(PLS-LDA)method was employed to quickly identify a certain kind of edible vegetable oil(olive oil,peanut oil and corn oil)based on Raman.Raman backgrounds were subtracted by adaptive iteratively reweighted Penalized Least Squares(airPLS)method and wavelength variables were selected by Monte Carlo Uninformative Variable Elimination(MCUVE)method.The above spectra preprocessing not only effectively reduced the wavelength points and modeling computation,but also improved the general recognition rates higher than 90%,respectively.The process of identifying different kinds of edible oil using PLS-LDA method was suggested further on above basis.The experimental results showed that the PLS-LDA method had good application prospects and feasibility to identify edible oil species.This method provided a reference for processing the similar problems in food and agricultural products quality detection.
Partial Least Squares-Linear Discriminant Analysis(PLS-LDA);Raman;edible vegetable oil;Monte Carlo Uninformative Variable Elimination(MCUVE)
TS207.3
A
1002-0306(2014)06-0055-04
2013-08-14
吴静珠(1979-),女,博士,副教授,主要从事基于分子光谱技术的农产品及食品检测方面的研究。
北京市自然科学基金面上项目(4132008);北京教委重点项目(KZ201310011012);北京市属高等学校人才强教项目。