光谱分辨率的选取对食用油近红外模型性能影响分析
2012-12-07吴静珠刘翠玲邢素霞
吴静珠, 刘翠玲, 邢素霞, 孙 梅
(北京工商大学计算机与信息工程学院,北京 100048)
光谱分辨率的选取对食用油近红外模型性能影响分析
吴静珠, 刘翠玲, 邢素霞, 孙 梅
(北京工商大学计算机与信息工程学院,北京 100048)
近红外光谱仪的类型和工作参数的设定对测量过程和分析结果均有一定影响.重点讨论了在傅立叶变换型光谱仪上设定不同的光谱分辨率对食用油近红外定量模型性能的影响.实验采用Vertex 70光谱仪,在3种光谱分辨率(4,8,16 cm-1)条件下,采用透射式液体光纤探头采集60份食用油样品近红外谱图.针对3组近红外光谱样品集,分别采用蒙特卡罗采样法剔除异常样品,根据Kennard-Stone法划分校正集和校验集后,建立优化食用油棕榈酸近红外定量分析模型并作预测.结果表明基于16 cm-1建立的食用油近红外模型指标优于4 cm-1和8 cm-1所建的模型,该结果可以为均匀液体作近红外检测时光谱分辨率的设定提供参考.
光谱分辨率;近红外;蒙特卡洛采样;食用油
近红外光谱仪的类型、工作状态和扫描时各参数的设定对测量过程和分析结果均有一定影响[1].根据采用的分光技术不同,近红外光谱仪的类型可划分为滤光片型、光栅扫描型、阵列检测型、傅立叶变换型和声光过滤调制型等.其中,傅立叶型光谱仪器已经成为目前实验室红外光谱仪器的主导产品[2].一般情况下,近红外光谱仪类型的选择局限于实验室所购买的仪器.而光谱仪的工作状态(如波长准确度、信噪比等)一般在仪器上都带有硬件工作状态的自诊断软件来告知用户当前仪器是否工作在正常状态,因此无需过多考虑.但是光谱扫描时需要人为设定的一些参数,如光谱分辨率,特别需要用户引起注意,因为光谱分辨率影响样品光谱的质量,最终影响分析的准确性.这类参数若在实验过程中设置得当,会有助于用户得到准确可靠的近红外分析结果,反之,则会严重影响近红外分析结果.如何设定这类参数,需要用户反复测试摸索一些经验值,并结合具体测试对象状态(如粉末、籽粒、均匀液态、悬浊液等)而定.本文重点研究在傅立叶变换型光谱仪上设定不同的光谱分辨率对食用油近红外定量模型性能的影响,探索对于食用油这类均匀液态物质在作近红外检测时设定光谱分辨率的参考值.
1 材料与方法
1.1 实验材料
60个植物油样品,包括花生油、大豆油、橄榄油、芝麻油、葵花籽油、玉米胚芽油、芥花油等,均购自当地超市.
1.2 食用油棕榈酸测定
采用气相色谱法测定60个食用油样品中棕榈酸含量.
1.3 近红外光谱采集
VERTEX 70型红外光谱仪,德国Bruker公司.采集样品近红外光谱,使用液体光纤探头采样方式,光程2 mm.仪器参数设定如下:波数范围4 000~12 500 cm-1,每个样品重复扫描次数32次.
一般要求仪器的分辨率比测量峰宽小1/10左右.样品在近红外区域的吸收多为宽峰且重叠严重,进行定量分析时不要求高的仪器分辨率.在实际应用中,通常16 cm-1或10 nm(在2 500 nm处)的分辨率就可满足大部分分析对象的应用要求.但对于结构特征十分相近的复杂样品(如农产品等),要得到准确的分析结果,就要对仪器的分辨率提出一定的要求,一般也不会超过4 cm-1[2].综上所述,本实验设定分别在光谱分辨率为4,8,16 cm-1时扫描样品,相应地波长点个数分别为 4 407,2 203和1 102.显然,分辨率设得越高,扫描速度越慢,扫描时间延长,而且图谱所占的存储空间增大.因此,在不影响图谱质量的前提下,分辨率可以不取太高.图1为分辨率16 cm-1时样本的近红外谱集.
全部样品未经任何化学处理,将光纤探头插入装有样品的小瓶中,逐一扫描样品,每次测量前均用石油醚清洗探头,避免样品间交叉污染.
图1 样品集近红外光谱图Fig.1 Near-infrared spectroscopy of samples
2 结果与分析
实验中食用油棕榈酸近红外定量分析模型的建立采用近红外分析的常规流程,包括:异常样品剔除,校正集样品选择以及模型的建立与测试.近红外校正模型的预测精度和稳健性采用主成分数(nf),决定系数 R2,交叉校验标准差(root mean square error of cross validation,RMSECV),预测均方根误差(root mean square error of prediction,RMSEP)指标评价.
2.1 异常样品剔除
建立性能较好的近红外模型,进行异常样品的剔除是非常必要的.这里采用蒙特卡洛采样法进行异常样品的剔除[3],在MATLAB R2008a中实现.图2为在分辨率为4 cm-1,随机采样1 000次的条件下,各个样本的预测均方根误差(RMSEP)的统计信息(均值MEAN和标准偏差STD)的分布图.设定均值为2,标准偏差为0.5的条件下可将图2划分成A、B、C、D 4个区域.
其中,A区域样本的预测均方根误差的均值和标准偏差较小,因此属于正常样本;B区域样本预测均方根误差的均值较大,属于浓度异常样本;C区域样本的误差均值和标准偏差较大,属于异常样本;D区域样本的标准偏差较大,属于光谱异常本.因此,BCD区域的样本均可作为异常本剔除.光谱分辨率为4,8,16 cm-1时,采用蒙特卡洛法剔除异常样本信息,如表1.从表中可以看出,除样本5外,在不同分辨率条件下,剔除的异常样本大部分都是不同的.因此这也从一个侧面反映出在不同光谱分辨率条件下,样本所含的光谱信息或者说光谱质量是有明显不同的.
图2 60个样本的RMSEP统计信息分布图Fig.2 Statistical information distribution of 60 samples’RMSEP
表1 剔除异常样本相关信息Tab.1 Related information of abnormal samples eliminated
2.2 校正集样品选择
Kennard-Stone法[4]将光谱差异较大的样品选入校正集,而其余较相近的样品进入校验集,这样可使有代表性的样品全部进入校正集,从而在一定程度上避免了校正集样品分布的不均匀.将剔除异常样本后的样本集采用Kennard-Stone法划分校正集和校验集,在MATLAB R2008a中实现,结果如表2.表2中,经过Kennard-Stone法划分得到校正集的浓度范围涵盖了校验集的浓度范围,因此校正集所建模型可用于校验集的预测.在不同分辨率条件下,基于光谱信息的Kennard-Stone法挑选出的校验集样本明显不同,因此可见相同样本在不同分辨率下采集得到的光谱信息是有很大差异的.
表2 Kennard-Stone法划分的样本集信息Tab.2 Classification information of sample set by Kennard-Stone method
2.3 模型建立与预测
采用5折交叉校验的偏最小二乘回归法(partial least squares regression method,PLS)建立食用油棕榈酸的近红外定量分析模型,并对校验集作预测.上述建模和预测方法均在MATLAB R2008a中实现.结果如表3.从表中可看出,采用全谱建模时模型指标不是很好,但是仍旧能得出分辨率为16 cm-1所建模型及预测结果远优于8 cm-1和4 cm-1.
表3 5折-pls建模分析结果Tab.3 Modeling analysis results by 5 fold-pls
实验采用CARS(competitive adaptive reweighted sampling,CARS)[5]波长变量挑选方法对这 3 组样品集进行优化建模,结果如表4.同样可以得出相同的结论:在分辨率为16 cm-1所建模型的预测能力优于8 cm-1和 4 cm-1所建模型.
表4 cars-pls建模分析结果Tab.4 Modeling analysis results by cras-pls
本实验中,对于食用油这类均匀液体做近红外检测,分析其常规指标棕榈酸时,在分辨率为16 cm-1时扫描样品建模即可获得较好的模型指标.实验表明,并非近红外光谱分辨率越高,模型性能越好.因为傅立叶变换性近红外光谱仪的分辨率由动镜移动距离决定,分辨率越高,扫描速度越慢,单位时间内的信噪比也会降低[6].实验测试过程中,分辨率到底该如何设定,需视具体情况而定,如果是日常快速分析,分辨率可以较低,如果是为了研究,如建立标准光谱库或需要细节的判别分析,则可适当提高扫描光谱的分辨率.
3 结论
本工作在Vertex 70光谱仪上,设定3种光谱分辨率(4,8,16 cm-1)分别采集60份食用油样本的近红外光谱,重点研究了不同光谱分辨率对食用油近红外定量模型性能的影响.结果表明光谱分辨率的高低与模型性能之间并无绝对的关系,对于食用油这类均匀液态物质中的常规组分作近红外检测时,光谱分辨率的参考值可首选16 cm-1.
[1]严衍禄,赵龙莲,韩东海,等.近红外光谱分析基础与应用[M].北京:中国轻工业出版社,2005:240-300.
[2]陆婉珍.现代近红外光谱分析技术[M].2版.北京:中国石化出版社,2007:95-140.
[3]Cao Dongsheng,Liang Yizeng,Xu Qingsong,et al.Toward better QSAR/QSPR modeling:simultaneous outlier detection and variable selection using distribution of model features[J].Journal of Computer-Aided Molecular Design,2011(25):67-80.
[4]吴静珠,王一鸣,张小超,等.近红外光谱分析中定标集样品挑选方法研究[J].农业机械学报,2006,37(9):80-82.
[5]LI Hongdong,LIANG Yizeng,XU Qingsong,et al.Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J].Anal Chim Acta,2009,648(1):77-84.
[6]陆婉珍,袁洪福,褚小立.近红外光谱仪器[M].北京:化学工业出版社,2010:107-114.
(责任编辑:王 宽)
Research on NIR Model of Edible Oil Impacted by Spectral Resolution Determination
WU Jing-zhu, LIU Cui-ling, XING Su-xia, SUN Mei
(School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China)
There are some effects on near infrared analysis result caused by the type of near infrared spectrometer and working parameters settings.How the different spectral resolution on Fourier transform spectrometer impact quantitative NIR model of edible oil was discussed in this paper.The experiment collected near infrared spectrum of 60 edible oil samples using Vertex 70 spectrometer,in three kinds of spectral resolution(4,8,16 cm-1)conditions,by the transmission type liquid optical fiber probe.Monte Carlo sampling method was used to analysis three groups of near infrared spectral sample set and eliminate the abnormal samples.The calibration set and validation set were divided according to Kennard-Stone method.The quantitative models of palm acid were established,optimized and validated.Experiments shown that the model built based on 16 cm-1had better performance than 4 cm-1and 8 cm-1.The results can provided a reference spectral resolution while detecting uniform liquid by near infrared technology.
spectral resolution;near infrared spectroscopy;Monte Carlo sampling;edible oil
TS207.3
A
1671-1513(2012)01-0066-03
2011-10-28
北京市优秀人才培养资助项目(20081D0500300130).
吴静珠,女,副教授,博士,主要从事基于近红外光谱的农产品及食品检测技术方面的研究.