利用近红外光谱和偏最小二乘回归法预测脂肪酸组成
2010-11-04李建蕊李九生
李建蕊 李九生
(中国计量学院信息工程学院,杭州 310018)
利用近红外光谱和偏最小二乘回归法预测脂肪酸组成
李建蕊 李九生
(中国计量学院信息工程学院,杭州 310018)
采集了 30种植物油样品在 10 000~55 00 cm-1范围内的近红外透射光谱,将所有样品作为校正集,随机抽取 10种样品作为预测集,以气相色谱方法测得植物油中主要成分油酸、亚油酸、棕榈酸、硬脂酸的含量为参考值,应用偏最小二乘回归法建立了基于近红外光谱的测定植物油主要成分含量的校正模型。四种成分校正模型的交叉验证误差均方根为 0.281 1%~1.496 4%,预测误差均方根为 1.080 8%~18.063 0%,校正集的预测值与实测值的相关系数均大于 0.99,预测集中除了棕榈酸的预测值与实测值的相关系数为0.817 9,其余均大于 0.9。
近红外光谱 偏最小二乘回归 植物油
近红外光谱分析技术是一项高效、快速的分析技术[1],通过信息丰富的光谱,借助于化学计量学方法,可以直接分析不经过任何预处理的样品,具有仪器简单、分析速度快、无污染的优点。近年来已有相关应用报道,陆艳婷等[2]用近红外光谱技术对粳稻品种的直链淀粉含量进行了测量。魏良明等[3]采用近红外光谱法测定了玉米完整籽粒蛋白质和淀粉含量。David Pazdernik等[4]用近红外技术分析了大豆中的氨基酸和脂肪酸的含量。张萍等[5]利用近红外光谱技术对食品品质进行鉴别。虽然近红外光谱分析技术已被广泛应用于农业、食品、材料、医药等行业[6-9],但是利用该技术来分析植物油的脂肪酸却鲜有报道。当前市场上销售的植物油质量鱼龙混杂,一些不法商人为了谋取利益,将收集来的潲水油经过水油分离、过滤、去味等程序处理,再次拿到市场上销售,严重的危害人们身体健康。目前植物油中脂肪酸的测定主要用气相色谱法、薄层色谱法、高效液相色谱法等检测方法[10]。虽然这些检测技术精度较高,但是在样品提纯、萃取等预处理技术方面要求十分复杂,后期检测条件要求苛刻,检测周期较长。
通过检测 30种植物油的近红外光谱,以气相色谱测得到植物油的油酸、亚油酸、棕榈酸、硬脂酸含量作为标准值,结合偏最小二乘回归法进行分析,旨在寻找一种快速有效无损鉴别植物油成分的方法。
1 材料与方法
1.1 试验样品及仪器
试验用 30种植物油购于超市,没有进一步提纯等处理,将它们逐个编号。将所有的测试样品作为校正集,随机抽取 10个样品作为预测集。
Nexus870型傅里叶近红外光谱仪:美国 Ther mo Nicolet公司;6890N型气相色谱仪:美国Agilent公司。
1.2 近红外光谱采集
图1 样品近红外光谱图
将植物油样品分别放到光程为 1 mm的玻璃比色皿中,在温度恒定无背景干扰条件下采集近红外透射光谱,谱区采集范围 10 000~5 500 cm-1,光谱分辨率 2 cm-1,每条曲线包括 2 250个波数点,扫描20次平均。测得近红外光谱如图 1所示。在试验过程中,严格控制环境湿度,防止在光谱的采集过程中水分含量的变化影响测试结果。在一种样品测试完后,用酒精擦洗干净比色皿,以免比色皿壁上残留样品,影响下一种样品的测量精度。通过近红外光谱图发现样品的吸收峰很相近,说明样品的成分相近。
1.3 成分测定
30种样品的棕榈酸、硬脂酸、油酸和亚油酸含量参考值由 6890N型气相色谱测得。校正集中 30种样品主要成分棕榈酸、硬脂酸、油酸和亚油酸的最大质量分数分别为 15.27%、5.99%、80.78%和63.35%,其中具有最大含量的样本数为 1种,占总样本数的 3.3%。棕榈酸、硬脂酸、油酸和亚油酸的最小质量分数分别为 2.53%、1.47%、22.32%和4.83%,同样最小含量的样本数也是 1种,占总样本数的 3.3%。表 1列出了这四种主要成分实测值的变化范围、平均值、标准偏差。
表1 样品主要成分气相色谱实测值统计
2 理论分析
偏最小二乘回归是近年来生产和发展的一种具有广泛适用性的多元统计分析方法,能利用对系统中的数据信息进行分解和筛选,提取对因变量解释性最强的综合变量,辨识系统中的信息和噪声,实现多种数据分析方法的综合应用[11]。基本原理为:
式中:n为校正集样品总数;m为预测集样品总数;dim为实测值;dip为预测值。
试验测试的近红外光谱每条曲线有 2 250个波数点,各个波数点所包含的信息是不同的,为了以较少的波数点获得较高的预测精度,把校正集光谱区划分为5个等波数子区间,分别得到了5个子区间的回归模型。不同分析对象区间的选择应该不同,对植物油的 4种主要成分分别进行了校正集预测,RM2 SECV越小、相关系数 R越近 1,表明模型的预测结果越准确,模型的可靠性越高。通过校正集预测分析比较发现 4种成分均在波段 10 000~9 100 cm-1的预测效果最好。表 2是 4种成分在 10 000~9 100 cm-1谱区的 RMSECV和校正相关系数。从表 2中可以看出在谱区 10 000~9 100 cm-14种成分的相关系数都比较大,均在 0.99以上。
表2 四种成分校正集最优建模结果
3 结果与分析
表 3是植物油主要成分利用偏最小二乘回归模型对校正集和预测集进行预测的结果。
表 3 植物油主要成分校正集和预测集的预测结果
从表 3可知,可以看出校正集的相关系数 R均接近 1,预测集除了棕榈酸的相关系数 R为 0.817 9外,其余均接近 1。校正集的 RMSECV在 0.281 1%~1.496 4%,校正相对偏差 RSECV在 0.255 3%~0.425 4%,说明模型的精度较高;预测集的 RMSEP在 1.080 8%~18.063 0%之间,预测相对偏差 RSEP在 2.411 5%~3.626 8%之间,说明模型对未知样品的预测效果较高。
图 2是植物油 4种主要成分校正集和预测集中预测值和气相色谱实测值之间相关系数的散点图。
从图 2可以看出校正集的预测值和实测值之间的相关性显著;预测集中的预测值和实测值之间的相关性较好,除个别点偏离很大外,其余预测效果较好,其中棕榈酸在 15.27%点的误差最大为1.8%,其他含量点的平均误差为 0.5%;硬脂酸在 2.0%点的误差最大为19%,其他含量点的平均误差为11.2%;油酸在 22.3%点的误差最大为 14.7%,其他含量点的平均误差为7.7%;亚油酸在 7.20%点的误差最大为16.1%,其他含量点的平均误差为 2.1%。以上说明偏最小二乘回归对植物油有较好的建模效果,利用近红外光谱分析植物油成分是可行的。
图2 实测值与预测值
4 结论
利用偏最小二乘回归法建立了基于近红外光谱测定植物油主要成分含量的校正模型,建模过程中截取了含有信息量大的光谱区,以较少的波数得到较高的建模精度,对于原始近红外光谱没有进行预处理,模型的预测结果较好,相关系数接近于 1,预测误差均方根在 1.080 8%~18.063 0%之间。研究结果表明近红外光谱提供了一种快速、无损、无污染、精确定量检测植物油成分的方法。
[1]任秀珍,郭宏儒,贾玉山,等.近红外光谱技术在饲草分析中的应用现状及展望 [J].光谱学与光谱分析,2009,29 (3):365-369
[2]陆艳婷,金庆生,叶胜海,等.应用近红外光谱技术快速测定粳稻品种的直链淀粉含量[J].中国粮油学报,2007, 22(3):149-151
[3]魏良明,严衍禄,戴景瑞.近红外反射光谱测定玉米完整籽粒蛋白质和淀粉含量的研究[J].中国农业科学,2004, 37(5):630-633
[4]David L P,Arthur SK,JamesH.Analysisof amino and fatty acid composition in Soybean seed using near infrared reflec2 tance spectroscopy[J].Agron,1997,89:679~6851
[5]张萍,闫继红,朱志华,等.近红外光谱技术在食品品质鉴别中的应用研究[J].现代科学仪器,2006,1:60-62
[6]郭旭生,尚占环,方向文,等.近红外光谱技术在反刍动物营养研究中的应用现状[J].光谱学与光谱分析,2009,29(3):641-645
[7]卢宝华,张俊,张义荣,等.玉米完整籽粒近红外品质分析模型的比较及改进[J].中国粮油学报,2005,20(4):44-49
[8]王学顺,戚大伟,黄安民.木材近红外光谱小波阈值去噪方法[J].东北林业大学学报,2009,37(2):32-34
[9]周云,臧恒昌.近红外分析技术在中药鉴定及含量测定方面的研究进展[J].食品与药品,2009,11(1):72-74
[10]毛江胜,陈子雷,杜红霞,等.毛细管气相色谱法测定食用油中的酚类抗氧化剂BHA、BHT、TBHQ[J].化学分析计量,2006,15(6):11-12
[11]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.
Determination ofVegetable Oil Compositions byNear Infrared Spectroscopy and PartialLeast Squares Regression
Li Jianrui Li Jiusheng
(College of Information Engineering,China JiliangUniversity,Hangzhou 310018)
The near infrared trans mission spectrums of 30 kinds of vegetable oilwere measured in the frequency ranging from 10000cm-1 to 5500cm-1.All sampleswere used as a calibration set,and ten samples randomly se2 lected were as a prediction set.The measured contents of main components(i.e.palmitic acid,stearic acid,oleic acid and linolic acid)of the vegetable oils by gas chromatographic were employed as a reference volume.A calibra2 tion model based on near-infrared spectroscopy deter mination of the main component contentswas set-up by using the partial least-squares regression method.Results:The cross-validation rootmean square error of the four com2 ponents is 0.2811%~1.4964%,and the root-mean-square error is 1.0808%~18.0630%.The correlation co2 efficients of the predicted and measured values of the calibration set are over 0.99.The correlation coefficients of the predicted and measured values of the prediction set are over 0.9,except for pal mitic acid with 0.8179.
near-infrared spectroscopy,partial least squares regression,vegetable oil
TS225.1 文献标识码:A 文章编号:1003-0174(2010)06-0107-04
浙江省科技厅资助项目(2008C23018),中国博士后基金(20070420118)
2009-07-02
李建蕊,女,1984年出生,硕士,太赫兹技术
李九生,男,1976年出生,副教授,太赫兹技术