APP下载

食用油油酸的近红外特征谱区优选

2015-01-03吴静珠石瑞杰刘翠玲

中国粮油学报 2015年2期
关键词:油酸食用油波长

吴静珠 石瑞杰 陈 岩 刘翠玲

(北京工商大学计算机与信息工程学院,北京 100048)

食用油油酸的近红外特征谱区优选

吴静珠 石瑞杰 陈 岩 刘翠玲

(北京工商大学计算机与信息工程学院,北京 100048)

为提高食用油油酸的近红外定量分析模型的预测性能,采用4种波长变量优选方法:移动窗口偏最小二乘算法(MWPLS)、间隔偏最小二乘法(iPLS)、向后间隔偏最小二乘法(BiPLS)、组合间隔偏最小二乘算法(SiPLS),优选食用油油酸近红外光谱特征区间,建立57份食用油样本的油酸定量分析模型。试验结果表明,相较于全谱建模,4种变量优选方法都能在有效地减少建模所用的变量数的同时提高模型性能,其中采用SiPLS优选变量所建的油酸定量模型的预测性能最优,决定系数R2为0.995 0,交叉校验均方根误差(RMSECV)为1.037 2,预测均方根误差(RMSEP)为0.924 6。

近红外 食用油 油酸 特征谱区 偏最小二乘法

油酸是身体必需的营养物体,以甘油酯的形式存在于食用油中,对人体健康有着重要的影响。食用油油酸在营养学界被称作“安全脂肪酸”。油酸含量是判断食用油营养品质的关键。

近年来我国食用油品质问题频繁发生,近红外光谱分析技术作为一种快速、无损、绿色的检测技术[1],在食用油品质检测方面得到了越来越多的重视和应用。国内外已有将近红外技术应用于食用油油酸检测的研究报道,但是所建模型的精度和预测能力不高,普适性不强,因此如何提高模型预测能力始终是近红外分析中的研究热点和难点问题[2-4]。偏最小二乘法(Partial Least Squares,PLS)是近红外定量分析中应用最广泛的经典建模方法[5-8]。但PLS采用全光谱建模,光谱中大量不相关的信息会影响校正模型的质量和精度,因此选择合适的光谱谱区对近红外光谱预测模型的建立具有重要的影响。近几年来发展的移动窗口偏最小二乘算法(Moving window partial least squares,MWPLS),间隔偏最小二乘法(Interval partial least squares,iPLS),组合间隔偏最小二乘算法(Synergy interval partial least squares,SiPLS)向后间隔偏最小二乘算法(Backward interval partial least squares,BiPLS)等,通过筛选特征波长,剔除不相关或非线性变量,在简化模型的同时提高了模型的稳健性[9-12]。

研究采用 MWPLS、iPLS、SiPLS、BiPLS4种波长选择方法优选出食用油中油酸近红外特征波长变量,建立食用油油酸的近红外定量分析模型,提升其定标模型的预测性能。

1 材料与方法

1.1 试验材料

62个食用植物油样本,包括花生油、玉米油、葵花籽油、芝麻油、大豆油和橄榄油等:市售。

1.2 油酸含量测定

采用气相色谱法测定62个食用油样本油酸含量,油酸含量范围:22.7%~79.9%。

1.3 近红外光谱采集

采用德国Bruker公司VERTEX 70型红外光谱仪采集样本近红外光谱,使用液体光纤探头采样,光程2 mm。仪器参数设定:波数范围4 000~12 500 cm-1,分辨率16 cm-1,每个样品重复扫描32次,采样点数1 102。

1.4 数据处理及软件

所用 MWPLS、iPLS、SiPLS、BiPLS 4种波长变量优选方法程序和PLS等程序均在Matlab2010a环境下实现运行。

1.5 模型评价指标

近红外校正模型的预测精度和稳健性采用主成分数nF,决定系数R2,交叉校验均方根差RMSECV,预测均方根误差RMSEP指标评价。

2 结果与讨论

2.1 样本集划分

根据预测浓度残差法剔除5个异常样品后,样品集共有57个样品组成。采用 Kennard-Stone法[13]划分得校正集样品44个,校验集样品13个。

2.2 基于4种波长优选法的油酸NIR模型优化

2.2.1 基于MWPLS的油酸NIR模型优化

MWPLS方法的基本原理是沿波长变化的方向顺序滑动截取指定窗口宽度的区间,建立一系列的PLS模型,根据RMSECV选取最佳光谱区间。窗口宽度不同则所包含的光谱信息不同,因此窗口宽度决定了所建PLS模型性能,是采用MWPLS法的关键[9]。

图1 基于MWPLS的交叉校验均方根误差图

试验设定初始窗口宽度为11个波长变量,窗口宽度增加的步长为10个波长变量,依次建立了窗口宽度从11到481个波长点之间的多个PLS模型。其中,在窗口宽度为111个光谱数据点时,图1所示的RMSECV随窗口位置变化的关系图中计算得到了最小的RMSECV,对应波数范围4 956~5 805 cm-1,R2为0.994 6,RMSECV为1.076 2,RMSEP为1.152 1。

2.2.2 基于iPLS的油酸NIR模型优化

iPLS将全光谱等分成n个子区间,然后分别在全光谱以及各个子区间内建立PLS回归模型,并利用交互验证分别计算出全波谱回归模型和各子区间回归模型的预测残差平方和(Predicted Residual Error Sum of Squares,PRESS),以全波段回归模型的PRESS作为阈值,从各间隔中选取出PRESS值小于阈值的波段建模,以达到波段优选的目的[9-10]。n不同,区间宽度不同,则子区间光谱信息不同。因此如何确定合适子区间数目是采用iPLS法的关键。

试验将全光谱分成2到55个区间分别建模比较。其中,在全光谱均分成39个区间即窗口宽度为28个光谱数据点,在图2所示的RMSECV与光谱区间的关系图中计算得到了最小RMSECV(第31个区间)。该区间对应的波数范围是5 962~6 180 cm-1,所建模型R2为0.991 4,RMSECV为0.990 2,RMSEP为1.033。

2.2.3 基于BiPLS的油酸NIR模型优化

BiPLS将全光谱等分成n个子区间,依次剔除一个子区间,用剩下的n-1个区间联合建模,共计可以计算得到n个RMSECV值。最小RMSECV值所对应的区间就是第一个排除的区间,以此类推,计算直到剩下最后一个区间[11]。确定合适的子区间个数n是采用BiPLS法的关键。

图2 基于iPLS的交叉校验均方根误差图(斜体数字为PLS模型中潜变量的个数)

试验将全光谱分成2到55个区间分别建模比较。确定其最佳的建模子区间组合是[9 16 17],此时建立的模型指标最优,R2为0.992 6,RMSECV为1.269 1,RMSEP为0.970 5,对应的光谱区间是4 894~5 342 cm-1,5 342~5 788 cm-1,8 473~8 921 cm-1。

2.2.4 基于SiPLS的模型优化

SiPLS是iPLS的一个扩展,它是通过划分不同子区间个数n及子区间的任意组合来筛选相关系数最大且误差最小的一个组合区间[12]。因此合适的子区间的个数和联合区间数是采用SiPLS法的关键。试验将全光谱等分成5到50个区间。对于每个确定的子区间个数n,分别建立和比较了2个、3个、4个子区间组合的最佳PLS模型,结果见表1。

表1 基于SiPLS的区间组合建模

2.3 基于4种波长优选法所建NIR模型比较

采用4种方筛选波长后建立的最佳PLS模型如表2所示。从表2可以得出通过对划分区间数及联合子区间等筛选得到的特征波长变量建立PLS回归模型,4种模型预测精度均明显优于全光谱建模,其中SiPLS(联合4个区间)所建模型指标最佳。

表2 4种波长优选法所建NIR模型比较

4种方法所优选的谱区范围如图3所示。观察利用4种特征波长优选的波数范围,4种方法建立的模型所对应波数范围的公共区域集中于5 000~5 500 cm-1,而羧酸中的C=O的二级倍频正是在5 260 cm-1有主要吸收峰。预测结果较好的SiPLS和BiPLS优选的波数范围在8 604~8 921 cm-1也有公共区域,而单烯烃化合物中的端亚甲基C-H伸缩振动的二级倍频(8 897~8 944 m-1)正是在该区域有主要吸收峰。因此试验采用4种方法所优选的特征波长与理论分析的特征峰相符。

图3 4种方法所优选的食用油油酸近红外特征谱区

3 结论

采用4种波长选择方法MWPLS、iPLS、SiPLS、Bi-PLS优选食用油油酸近红外特征波长变量。试验结果表明:谱区筛选法建立的油酸近红外光谱模型可以有效减少建模所用的变量数,剔除噪声过大的谱区;但单独的一个子区间不能提供预测油酸所需要的足够信息,选择合适的光谱区间或者特征变量联合建模可以使最终建立的近红外光谱模型的预测能力和精度更高。其中SiPLS模型的预测性能最好,不但能有效地减少特征波长个数,而且优选出的波长与物质在近红外区的特征吸收峰相近,能真实地反映出物质所含基团,可为滤光片式食用油近红外分析仪的波长选取作参考。

[1]陆婉珍.现代近红外光谱分析技术[M].北京:中国石化出版社,2007

[2]吴静珠,徐云.基于CARS-PLS的食用油脂肪酸近红外定量分析模型优化[J].农业机械学报,2011,55(10):162-166

[3]于燕波,臧鹏,付元华,等.近红外光谱法快速测定植物油中脂肪酸含量[J].光谱学与光谱分析,2008,28(7):1554-1558

[4]Y B Che Man,M H Moh.Determination of free fatty acids in palm oil by near-infrared reflectance spectroscopy[J].Journal of the American Oil Chemists’Society,1998,75(5):557-562

[5]王静荔.波段最大筛选法及其在高光谱目标探测中的应用[J].红外与激光工程,2012,41(6):1514-1519.

[6]何元磊,刘代志,王静荔,等.利用独立成分分析的高光谱图像波段选择方法[J].红外与激光工程,2012,41(3):818-824

[7]R M Balabin,R Z Safieva.Capabilities of near infrared spectroscopy for the determination of petroleum macromolecule content in aromatic solutions[J].Journal of Near Infrared Spectroscopy.2007,15(6):343-349

[8]R M Balabin,R Z Safieva,E.I.Lomakina.Comparison of linear and nonlinear calibration models based on near infrared(NIR)spectroscopy data for gasoline properties prediction[J].Chemometrics and Intelligent Laboratory Systems,2007,88(2):83-188

[9]Roman M Balabina,Sergey V Smirnov.Variable selection in near-infrared spectroscopy:Benchmarking of feature selection methods on biodiesel data[J].Analytica Chimica Acta,2011,692:63-72

[10]王立琦,孔庆明,李贵滨,等.基于iPLS的油脂过氧化值近红外光谱特征波段选择[J].食品科学,2011,32(9):97-100

[11]邹小波,赵杰文,黄星奕.用向前和向后间隔偏最小二乘法建立苹果糖度近红外光谱模型[A].2006:年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C].北京:机械工业出版社,2006:2946-2951

[12]朱向荣,李娜,史新元,等.近红外光谱与组合的间隔偏最小二乘法测定清开灵四混液中总氮和栀子苷的含量[J].高等学校化学学报,2008,29(4):906-911

[13]吴静珠,王一鸣,张小超,等.近红外光谱分析中定标集样品挑选方法研究[J].农业机械学报,2006,50(4):80-82.

Research on Selecting Characteristic NIR Regions of Oleic Acid in Edible Oil

Wu Jingzhu Shi Ruijie Chen Yan Liu Cuiling
(School of Computer and Information Engineering,Beijing Technology and Business University,Beijing 100048)

To improve the prediction performance of NIR model to oleic acid in edible oil,4 kinds of wavelength variable selection methods,moving window partial least square algorithm(MWPLS),interval partial least squares(iPLS),backward interval partial least squares(BiPLS)Synergy interval Partial Least Squares algorithm(SiPLS),have been employed respectively to select characteristic NIR intervals of oleic acid in edible oil.The oleic acid quantitative models of 57 samples were built based on characteristic intervals chosen by the 4 methods above.The experiment results showed that compared with the model built by full spectrum,the 4 methods were effective in reducing the variable numbers and improve the models'performance.Among them,the best model was established by SiPLS.Determination coefficient(R2),root mean square error of cross validation(RMSECV)and root mean square error of prediction(RMSEP)were 0.995 0,1.037 2 and 0.924 6.

NIR,edible oil,oleic acid,characteristic region,partial least squares

O657.3

A

1003-0174(2015)02-0118-04

北京市自然科学基金面上项目 (4132008),北京市教委重点项目 (KZ201310011012)

2013-11-13

吴静珠,女,1979年出生,副教授,智能检测与控制

猜你喜欢

油酸食用油波长
高油酸油菜遗传育种研究进展
杯中“日出”
花生中的翘楚――高油酸花生
废食用油改性沥青性能研究
高油酸花生特征特性及栽培技术要点
开封后的食用油应该怎么存放
2019上海食用油展、食用油包装展览会
2019上海食用油展、食用油包装展览
高油酸食用油引领百姓餐桌健康升级
不同波长Q开关激光治疗太田痣疗效分析及超微结构观察