基于多源光谱特征融合技术的花生油掺伪检测
2016-05-24涂斌陈志彭博郑晓宋志强尹成曾路路何东平
涂斌,陈志,彭博,郑晓*,宋志强,尹成,曾路路,何东平
1(武汉轻工大学 机械工程学院,湖北 武汉,430023) 2(武汉轻工大学 食品科学与工程学院,湖北 武汉,430023)
基于多源光谱特征融合技术的花生油掺伪检测
涂斌1,陈志1,彭博1,郑晓1*,宋志强1,尹成1,曾路路,何东平2
1(武汉轻工大学 机械工程学院,湖北 武汉,430023) 2(武汉轻工大学 食品科学与工程学院,湖北 武汉,430023)
摘要以拉曼、近红外2种光谱特征融合结合化学计量学方法对花生油掺伪进行了定量分析。分别用激光拉曼、激光近红外光谱仪采集134个掺伪油样本的光谱数据,采用SPXY算法对样本集进行划分。拉曼光谱(Ram)和近红外光谱(near infrared spectroscopy,NIR)数据进行预处理后,采用后向间隔偏最小二乘法(BiPLS)和联合间隔偏最小二乘法(synergy interval partial least squares,SiPLS)分别提取2种光谱的特征波长;将提取的特征波长融合,结合支持向量机回归(SVR)建立数学模型,采用网格搜索算法(CV)对SVR模型的参数组合(C,g)值寻优,建立最优参数模型。研究表明:建立的Ram-NIR-SVR模型能够实现花生油中掺杂油脂含量的快速准确预测,预测集和校正集的相关系数R分别达到0.98和0.99,均方根误差(MSE)低于2.38E-3;对比不同特征波长提取方法,并与单光谱分析技术比较,可以看出,数据融合技术能够增强模型预测能力,减小模型参数,有利于模型的实际应用,体现了2种光谱很好的互补性。表明光谱分析结合数据融合技术对食用油真实性综合鉴别具有重要意义。
关键词花生油;拉曼光谱;近红外光谱;定量分析;数据融合;支持向量机回归
食用油可以为人体提供所需的不饱和脂肪酸、维生素等,属于日常生活用品,连续几年销量超过2 000 万t[1-2]。由于食用油的营养价值、原料价格等不同,造成价格差异很大,一些不法分子为谋取暴利,将低价值或劣质油掺入高价值油中,掺伪方式多变且复杂。与传统检测方法相比,光谱分析技术具有预测快速、样品处理简单、操作方便等优点,可获得样品的物理化学及深层结构信息,因此光谱分析结合化学计量学算法的检测技术是一个重要的发展方向,已广泛地应用于食品、药品、石油化工等领域[3-5];目前光谱分析技术在食用油脂方面的应用主要包括:近红外吸收光谱法[6-7]、拉曼吸收光谱法[8-9]、紫外吸收光谱法[10]等。拉曼与近红外光谱属于振动光谱家族,食用油中的脂肪酸甘油三酯中的氢基团(C—H、O—H)振动的合频和倍频的吸收区与近红外光谱区是一致的,食用油结构中的“—CC—”等对拉曼光谱中的分子振动有很大的贡献,2种光谱具有互补性、冗余性。
数据融合是一个多级、多层面的数据处理过程,主要包括3个层次:数据层、特征层、决策层,每种层次的优缺点各异;由于多传感器信息的冗余性、时效性、互补性和低代价使得多传感器信息融合系统具有较强的鲁棒性[11-12]。TAN等[13]根据多源光谱数据融合分析技术对不同厂家的啤酒进行分类,分类准确率可以达到86.7%,光谱之间具有很好的互补性。LI等[14]利用数据融合技术结合(back propagation neural network adaptive boosting,BP-AdaBoost)建立判断猪肉新鲜度的一个重要指标挥发性盐基氮(TVB-N)的含量预测模型,模型的预测集相关系数R达到0.932,能够实现TVB-N含量的预测。CASALE等[15]根据多源光谱数据融合技术结合独立软模式分类法(SIMCA)、不等分布分类(UNEQ)、偏最小二乘法(PLS)对不同产地的57个特级初榨橄榄油进行区分,以及橄榄油的油酸和亚油酸含量进行快速预测,预测结果理想。
本文针对花生油掺伪问题,提出了拉曼、近红外2种光谱特征融合结合化学计量学算法实现掺伪油含量的快速准确预测方法,主要采用后向间隔偏最小二乘法(backward interval partial least squares,BiPLS)和联合间隔偏最小二乘法(synergy interval partial least squares,SiPLS)对光谱数据进行特征波长提取,支持向量机回归(support vector machine regression,SVR)算法建立花生油掺伪量定量预测模型。
1实验部分
1.1样本
样本来源包括在武汉各大超市购买的不同品牌的花生油3种,玉米油、大豆油各2种,以及课题组在武汉周边地区收集的餐饮废弃油脂3种;花生油作为基底油,其余作为掺伪油;在3%~95%质量比内配置掺伪样本共134个,每份样本约10 g,充分振荡混合均匀后,在实验室静置12 h待测。采用SPXY(sample set portioning based on joint x-y distances)算法按3∶1的比例选取校正集和预测集样本。其中101个校正集样本用于模型建立,33个预测集样本用于模型预测性能的检验。样本数量和信息如表1所示。
表1 掺伪油样本信息表
1.2仪器及光谱采集
采用欧普图斯生产的RamTraceer-200拉曼光谱仪采集光谱图,激光波长为785 nm,分辨率≤8 cm-1,光谱采集波数范围250~2 340 cm-1,积分时间设置为30 s,激光功率为320 mW。用实验室研发的激光近红外植物油品质快速检测仪采集近红外光谱,仪器的主机为美国Axsun公司生产的Axsun XL410型激光近红外光谱仪,光谱测定范围为1 350~1 800 nm,扫描次数32次,分辨率为3.5 cm-1。每个样本装样3次,采集3次稳定的谱图后取其平均图谱作为最终图谱,室温下测定。采集的拉曼原始光谱,选取信噪比较高的700~1 530 cm-1示于图1。采集样本得到的近红外原始图谱如图2所示。
1.3数据预处理
试验中拉曼光谱依次采用移动平均(moving average,MA)9点平滑法(MA9)和Savitzky-Golay滤波10点平滑法(SG10)消除光谱噪声、自适应迭代重加权惩罚最小二乘(adaptive iteratively reweighted penalized least squares,airPLS)算法进行基线校正、以1 438 cm-1附近的特征峰强度为基准进行归一化(normalize,Nor)处理。近红外光谱数据采用的数据预处理方法:正交信号校正(orthogonal signal correction,OSC)、标准正态变量变换和去趋势技术联用算法(standard normal variate transformation and de-trending,SNV_DT)。
图1 油样的原始拉曼光谱Fig.1 Original Raman spectra of oils
图2 油样的原始近红外光谱Fig.2 Original near infrared spectra of oils
1.4光谱数据融合方法
本实验根据采集的光谱数据的复杂程度、数据自身的特性、融合条件以及光谱数据融合后所建模型的预测精度、实用性等选择特征层进行光谱数据融合。该层融合介于数据层融合和决策层融合之间,兼容了两者的优缺点,在实际应用过程中具有较大的灵活性。特征层数据融合流程见图3。
图3 数据融合流程Fig.3 Technological process of data fusion
2结果与讨论
2.1特征波长提取方法
本实验采用后向间隔偏最小二乘法(BiPLS)和联合间隔偏最小二乘法(SiPLS)对光谱数据进行特征波长提取。表2为提取后的特征波长数。
表2 经过BiPLS和SiPLS提取后的特征波长数
2.2多光谱特征融合SVR模型的建立
本实验选用支持向量机回归(SVR)方法建立定量预测模型,实现掺伪量的快速准确预测。核函数选择RBF核,此核的参数少,具有较强的支持向量机学习能力[16]。选用网格搜索法(CV)对惩罚因子C和RBF核函数参数g进行寻优,确定最佳参数组合(C,g),建立预测能力较强的SVR模型[17]。
经过预处理的拉曼、近红外光谱数据分别用BiPLS和SiPLS进行特征波长提取,将提取后的数据融合建立BiPLS-SVR和SiPLS-SVR掺伪含量预测模型,共有6个模型,以相关系数R、均方根误差(MSE)和参数组合(C,g)值为模型预测能力、泛化能力的评价指标。表3为各个模型的评价指标。
表3 Ram-NIR-SVR模型评价指标
从表3可以看出,多源光谱特征数据融合建立的Ram-NIR-BiPLS-SVR和Ram-NIR-SiPLS-SVR模型能够实现油脂掺伪含量的预测。Ram-NIR-SiPLS-SVR模型的相关系数R较大,但惩罚因子C为1024,可能是SiPLS法提取的有效波长少。Ram-NIR-BiPLS-SVR模型的参数较为均衡,其中Ram光谱数据与SNV_DT预处理的NIR光谱数据融合建立的SVR模型预测效果较好,校正集和预测集的相关系数R分别为0.992 6、0.987 4(见图4),核函数参数g仅为0.015625,模型具有较强的泛化、预测能力,有利于模型的推广应用。图5为SiPLS特征提取数据融合建立的Ram-NIR-SiPLS-SVR模型预测结果图。
图4 Ram-NIR-BiPLS-SVR模型预测结果Fig.4 Prediction results of Ram-NIR-BiPLS-SVR model
图5 Ram-NIR-SiPLS-SVR模型预测结果Fig.5 Prediction results of Ram-NIR-SiPLS-SVR model
2.3单光谱SVR模型的建立
分别建立单光谱Ram-BiPLS-SVR、Ram-SiPLS-SVR、NIR-SiPLS-SVR和NIR-BiPLS-SVR食用油掺伪含量预测模型,与多源光谱特征融合Ram-NIR-SVR模型对比。表4为各个模型的评价指标。
通过表4可以看出,Ram-SVR和NIR-SVR模型均能实现食用油掺伪含量预测。Ram-SVR模型的参数小,但相关系数R偏小,预测能力相对较弱;NIR-SVR模型的相关系数R达到0.99,但参数组合(C,g)值均较大,影响模型的泛化能力和稳定性,不利于模型的推广应用。
表4 单光谱SVR模型评价指标
通过对比表3和表4可以看出,与单光谱特征Ram-SVR模型对比,多光谱特征融合Ram-NIR-SVR模型的相关系数R较大,拉曼光谱融合近红外光谱数据可以提高模型预测能力;与单光谱特征NIR-SVR模型对比,多光谱特征融合Ram-NIR-SVR模型的相关系数R略小,近红外光谱融合拉曼光谱数据虽未使模型预测能力提高,可能是提取的特征波长数少,但参数组合(C,g)值得到进一步优化,确保模型具有更好的实际应用推广价值。结果表明,多源光谱特征融合建立的Ram-NIR-SVR模型的综合能力优于单光谱模型,体现了2种光谱的互补性。
3结论
实验结果表明,光谱分析结合数据融合技术建立的数学模型能够实现花生油掺伪含量的快速准确预测。通过2种特征波长提取方法对比,体现出拉曼、近红外光谱特征融合在食用油真实性分析是可行的;与单光谱SVR模型对比,可以看出多光谱特征融合建立的NIR-Ram-SVR模型参数小,泛化能力、预测能力、稳定性强,综合性能优,2种光谱产生很好的互补效果,为多源光谱数据融合综合鉴别食用油真实性提供了依据,但数据处理过程稍微复杂,增加建模难度,需要在以后的工作中对数据处理步骤进行优化减少,并进一步提高模型预测能力。
参考文献
[1]杨帆,薛长勇.常用食用油的营养特点和作用研究进展[J]. 中国食物与营养,2013,19(3):63-66.
[2]王瑞元.2013年我国食用油市场供需分析和国家加快木本油料产业发展的意见[J].中国油脂,2013,39(6):1-5.
[3]李水芳,张欣,李姣娟,等.拉曼光谱法无损检测蜂蜜中的果糖和葡萄糖含量[J].农业工程学报,2014,30(6):249-255.
[4]穆同娜,庄胜利,赵玉琪,等.近红外光谱法快速检测婴儿配方奶粉中的脂肪酸含量[J].现代食品科技,2015,31(4):277-281.
[5]刘 逸,王国清,张兆斌,等.激光拉曼光谱技术及其在石化领域的应用[J].石油化工,2014,43(10):1 214-1 220.
[6]ZHOU Yang, LIU Tie-bing, LI Jin-rong. Rapid identification between edible oil and swill-cooked dirty oil by using a semi-supervised support vector machine based on graph and near-infrared spectroscopy[J]. Chemometrics and Intelligent Laboratory Systems, 2015, 143: 1-6.
[7]JULIA K, DAVID, GUILLERMO Q, et al. Direct determination of polymerised triacylglycerides in deep-frying vegetable oil by near infrared spectroscopy using Partial Least Squares regression[J]. Food Chemistry, 2012, 131(1): 353-359.
[9]DONG Wei, ZHANG Ying-qiang, Zhang Bing, et al. Rapid prediction of fatty acid composition of vegetable oil by Raman spectroscopy coupled with least squares support vector machines[J]. Journal of Raman Spectroscopy, 2013, 44(12): 1 739-1 745.
[10]郑艳艳,吴雪辉,侯真真.紫外光谱法对油茶籽油掺伪的检测[J].中国油脂,2014,39(1):46-49.
[11]陈磊.基于数据融合技术二氧化硫检测方法的研究[D].唐山:河北理工大学,2007.
[12]王刚,张志禹.多传感器数据融合的研究现状[J].电测与仪表,2006,43(2):1-5.
[13]TAN Jin, LI Rong, JIANG Zi-tao. Chemometric classification of Chinese lager beers according to manufacturer based on data fusion of fluorescence, UV and visible spectroscopies[J]. Food Chemistry, 2015, 184: 30-36.
[14]LI Huan-huan, CHEN Quan-sheng, Zhao Jie-wen, et al. Nondestructive detection of total volatile basic nitrogen (TVB-N) content in pork meat by integrating hyperspectral imaging and colorimetric sensor combined with a nonlinear data fusion[J]. LWT-Food Science and Technology, 2015, 63(1): 268-274.
[15]CASALE M, OLIVERI P, CASOLINO C, et al. Characterisation of PDO olive oil Chianti Classico by non-selective (UV-visible, NIR and MIR spectroscopy) and selective (fatty acid composition) analytical techniques[J].Analytica Chimica Acta,2012,712(1):56-53.
[16]宋志强,沈雄,郑晓,等. 应用近红外光谱对低碳数脂肪酸含量预测[J].光谱学与光谱分析,2013,33(8):2 079-2 082.
[17]涂斌,宋志强,郑晓,等. 基于激光近红外的稻米油掺伪定性-定量分析[J].光谱学与光谱分析,2015,35(6):1 539-1 545.
Research on detection method of peanut oil adulteration based on data fusion technology of multi-source spectral characteristics
TU Bin1, CHEN Zhi1, PENG Bo1, ZHENG Xiao1*,SONG Zhi-qiang1, YIN Cheng1, ZENG Lu-lu1, HE Dong-ping2
1(School of Mechanical Engineering, Wuhan Polytechnic University, Wuhan 430023, China) 2 (College of Food Science and Engineering, Wuhan Polytechnic University, Wuhan 430023, China)
ABSTRACTThe purpose of this study is to conduct quantitative analysis on the adulteration in peanut oil by combining data fusion of Raman and near infrared (NIR) spectral characteristics with chemometrics methods. With laser Raman and NIR spectrometer, the spectra of 134 adulterated oil samples were collected. The sample set partitioning algorithm based on joint X-Y distances (SPXY) was employed to divide the samples. The spectra data of Raman and NIR were preprocessed. Backward interval partial least squares (BiPLS) and synergy interval partial least squares (SiPLS) were used to extract the characteristic wavelengths of the spectra data. On the intervals of data fusion of characteristic wavelengths of two kinds of the spectra, adulteration quantity prediction models were established by Support Vector Machine Regression (SVR). In the end, the author optimized the combination of model parameters(C, g) by Mesh Search Algorithm and determined the optimal parameter model. According to the analysis, the model which was established by SVR based on combined Raman and near-infrared (NIR) spectral data could implement the content prediction of the adulteration oil content of peanut oil. Furthermore, the correlation coefficient R of prediction set and calibration set can reach 0.98 and 0.99 respectively, and the root mean square error (MSE) was smaller than 2.38E-3. Compared with single spectral analysis and different characteristic extraction methods, the results showed prediction ability was enhanced and the parameter was reduced by using the data fusion technology. Practical application of the model is favorable. And it reflects the good complementarity of Raman and near infrared spectrum. So it is significant to study the authenticity identification of edible oils by combining spectral analysis and data fusion technology.
Key wordspeanut oil; Raman spectroscopy; near infrared spectroscopy(NIR); quantitative analysis; data fusion; support vector machine regression(SVR)
收稿日期:2015-09-10,改回日期:2015-10-23
基金项目:国家"十一五"科技支撑计划项目(2009BADB9B08);武汉市科技攻关计划项目(2013010501010147);武汉工业学院食品营养与安全重大项目培育专项(2011Z06);武汉轻工大学研究生创新基金项目(2014cx005)
DOI:10.13995/j.cnki.11-1802/ts.201604030
第一作者:硕士研究生(郑晓教授为通讯作者,E-mail:zhengxiao@whpu.edu.cn)。