采用正交投影偏最小二乘法快速无损分析乳粉蛋白质含量
2016-05-24邹婷婷何佳艳齐庆璇王莹尤梦晨
邹婷婷,何佳艳,齐庆璇,王莹,尤梦晨
1(北京工商大学 北京市食品风味化学重点实验室/食品添加剂与配料北京高校工程研究中心,北京,100048) 2(吉林省食品检验所,吉林 长春,130022)
采用正交投影偏最小二乘法快速无损分析乳粉蛋白质含量
邹婷婷1*,何佳艳1,齐庆璇1,王莹2,尤梦晨1
1(北京工商大学 北京市食品风味化学重点实验室/食品添加剂与配料北京高校工程研究中心,北京,100048) 2(吉林省食品检验所,吉林 长春,130022)
摘要应用近红外光谱分析技术,建立了不同品牌不同种类不同批次的乳粉原样和混合样的蛋白质定量分析模型。采用正交投影偏最小二乘法(orthogonal partial least squares,OPLS)建立近红外光谱回归模型,并与其他预处理方法和传统偏最小二乘法(partial least squares,PLS)对比;采用交叉验证法(cross-validation)全局寻优方式获得OPLS和PLS模型的最佳参数;5个主成分建立的OPLS校正模型效果最佳,相关系数R为0.994 0,校正集交叉验证均方根RMSECV为1.09,预测集的化学值与模型预测值的相关系数R达到0.976 7,分析模型的预测误差均方根RMSEP为0.905。结果表明:OPLS回归方法在简化模型的同时提高了模型的预测泛化性能,能够快速无损建立乳粉的蛋白质近红外定量模型。
关键词近红外光谱技术;乳粉;正交投影偏最小二乘法(OPLS);定量分析
在购买乳粉产品时,消费者当然重视其营养成分,但由于乳粉质量检测的局限性,多次发生劣质乳粉事件,其中蛋白质含量过低是乳粉主要质量问题之一,所以国家已对乳粉蛋白质含量进行严格监管。但是现有检测乳粉蛋白质含量的标准方法都是化学方法,检测过程操作比较复杂,或者涉及到专用仪器设备、检测时间较长、需要一定的测试成本而且破坏样品,无法进行实时在线检测。近红外光谱(near infrared spectroscopy,NIR)[1]组成主要有C—H,O—H,N—H基团分子振动的合频和倍频吸收峰,可以代表样品化学物质成分的定量和定性信息。近红外光谱法是一种便捷、快速的绿色分析检测技术,可用于乳粉的质量控制、品种鉴别及掺假检测等[2-6]。
2002年正交投影偏最小二乘法(orthogonal partial least squares,OPLS)由JOHAN等人提出[7],OPLS算法最大特点是将光谱阵X与化学值阵Y正交,可以消除光谱阵X中与化学值阵Y无关的变异信息,尽可能的保持原光谱有效信息,不但提高了模型的预测能力,也使模型得到简化。
本文采用OPLS回归方法,建立乳粉蛋白质的定量分析模型,并与传统光谱预处理方法的PLS建模效果进行比较,然后通过预测集对模型泛化性能进行评价。
1材料与方法
1.1实验材料
不同品牌不同种类不同批次的乳粉原样共26个样品,购于大型超市,乳粉原样样品信息见表1。26个乳粉原样以不同比例混合而得到70个混合样品,乳粉原样和混合样共计96个样本。
表1 乳粉原样样品信息
续表1
序号商品名称生产厂商22全脂乳粉吉林市娃哈哈启力乳品有限公司23益生宝幼儿配方乳粉24益生宝较大婴儿配方乳粉25益生宝婴儿配方乳粉26全脂乳粉白城龙丹乳业科技有限公司
1.2参考值测定与样品分组
样品蛋白质含量以中华人民共和国国家标准GB5009.5—2010中自动凯氏定氮仪法测定值为参考值。自动凯氏定氮仪法测定如下:称取乳粉试样0.2~2 g(约相当于30~40 mg氮),精确至0.001 g。按照自动凯氏定氮仪说明书的要求进行检测,样品的蛋白质含量分布在11.20~25.40 g/100 g。
96个样品随机分成2组,一组为校正集,样品总计73个,包含原样18个,另一组为预测集,样品总计23个,包含原样8个,校正集和预测集各样本蛋白质含量统计数据见表2,校正集浓度范围11.20~25.40 g/100 g,平均值为18.74 g/100 g,预测集浓度范围11.36~25.10 g/100 g,平均值为18.11 g/100 g。
表2校正集和预测集样品的蛋白质含量统计单位:g/100g
Table 2 Protein content of milk powder
1.3仪器与测量条件
尼高力6700 傅立叶红外光谱仪(配有光纤漫反射探头、积分球、样品杯等附件及TQ Analyst数据处理系统) 赛默飞世尔科技公司。全自动凯氏定氮仪Kjeltec 8400福斯公司。
近红外光谱仪开机后预热1 h后等仪器稳定后使用;保持实验室的温度和湿度一致,温度一般控制在25 ℃;采用漫反射光谱法,样品置于样品杯,扫描波数为10 000~4 000 cm-1,分束器CaF2,波数分辨率8 cm-1,采集次数为64次。每个样品重复扫描3次,取平均值作为该样本的原始光谱。
1.4原始近红外光谱
图1为96个乳粉样品的近红外光谱图。如图1所示,不同品牌不同种类不同批次的乳粉原样和混合样近红外原始光谱非常相似。虽然样品的包括蛋白质在内的成分含量和组成差异,但产生近红外吸收的基团都是O—H 、C—H、N—H,而且近红外的谱带较宽且灵敏度较差,吸收峰重叠严重,常常会被掩盖。所以传统光谱检索方法和肉眼难以解决,须借助多元校正方法。
图1 96个乳粉样品的近红外漫反射光谱图Fig.1 NIR spectra for 96 milk samples
2结果与讨论
2.1乳粉蛋白含量OPLS和PLS校正模型的建立
近红外原始光谱中除包含和样品定性定量相关的信息外,也包含其他因素所导致的噪声干扰信号,比如随机噪音、基线漂移、光散射等。PLS具有高度的建模能力,但综合提取出来的成分包含了各方面因素的综合作用,模型的复杂度会因不相关信息的增加而增加,有必要通过适当的预处理来降低噪音等不相关信息的影响。常用的近红外预处理方法包括平滑、导数、标准变量变换以及多元散射校正等。它们分别是对近红外光谱中不同噪音信号的校正,导数可以消除基线漂移或平缓背景干扰的影响;平滑是常用的降噪方法;多元散射校正可以减小测样器皿不一致或样品粒径不均匀对光谱造成的影响;标准变量变换对光谱数据进行缩放,可消除光谱在吸光度轴上的差异。但是,上述的各种预处理方法只是单纯对原始光谱中不同噪音信号的校正,并没有考虑光谱数据与样本含量之间的关系,而正交投影偏最小二乘法通过有效消除光谱矩阵中与样本含量不相关的信息,尽可能保持近红外光谱所携带的与样本含量相关的最大有效信息,不仅简化了光谱模型,而且提高了模型的预报能力和稳健性。
在校正模型的建立中,主成分数是十分重要的参数,主成分数过多则容易引入噪声等不相干的信息,所建模型会出现过拟合的现象;主成分数过少则不能充分利用光谱信息,所建模型存在欠拟合的问题。为了选择恰当的主成分数防止过拟合,采用五步交叉验证的方法建立投影模型,将校正集样品按4∶1的比例均匀随机分为训练集和测试集,分别用于建立校正模型和所建模型的外部检验。校正集中1/5的样品作为预测集,其余4/5的样品用于建立校正模型,得到模型后求得作为预测集的1/5样品预测值。然后预测集样品加入训练集用于建模,另外1/5的样品作为模型测试集求得预测值,5次之后校正集样品的都进入过一次预测集,求出相应的预测值,最终计算校正集已知参考值与预测值的误差均方根作为交叉验证误差均方根(RMSECV)。误差均方根最小的主成分数即为模型最佳参数,建立乳粉的蛋白质近红外回归最佳模型,得到其他各项指标,包括交叉验证相关系数(R-CV)、校正误差均方根(RMSEC)。RMSE计算方法见公式(1):
(1)
式中:YNIR是样品的近红外预报含量,YREF是样品标准方法测定的参考含量,n为样品数量。
表3为OPLS和PLS两种模型的分析结果,可以看出PLS最优模型为平滑、标准变量变换结合一阶导数前处理后的模型,OPLS 模型的交叉确认相关系数和交叉验证误差均方根都优于PLS的分析结果。
表3 OPLS和PLS的最优模型
注:(1) MSC:多元散射矫正; (2) SM:平滑处理; (3) SNV:标准变量变换; (4) 1D,2D:一阶导数和二阶导数。
图2为OPLS和PLS模型主成分数优化结果,所示为OPLS及PLS模型下各主成分数对应的交叉验证均方根(RMSECV)。由图2可以看到,经过正交处理的光谱OPLS最优模型主成分数为5,传统预处理方法建立的PLS最优模型主成分数为7。OPLS在主成分提取过程中,剔除了光谱矩阵X中与成分Y不相关的信息,使用较少的主成分累积贡献率也可增强光谱数据与蛋白质含量之间的相关性。而为了解释这些无关变量,PLS模型需要采用更多的成分数,同时也会有较高主成分累积贡献率,所以模型的复杂程度会进一步增加,随着待测信息复杂程度及样品数量的增加,这种差异会更加明显。校正集样品标准方法测定的参考值与模型预测值的相关性,如图3、图4所示,横坐标以中华人民共和国国家标准规定方法的测定值作为样品的实际浓度值,纵坐标为校正模型对校正集各样品浓度的预测值,可以看出,两者的相关性良好。
图2 OPLS和最佳PLS模型主成分优化Fig.2 Optimization of principal components of OPLS and PLS model
图3 OPLS模型校正集蛋白质含量实际值与预测值的线性关系Fig.3 The linear relationship of protein content actual and predicted values of OPLS model calibration set
图4 PLS模型校正集蛋白质含量实际值与预测值的线性关系Fig.4 The linear relationship of protein content actual and predicted values of PLS model calibration set
2.2奶粉蛋白质含量近红外校正模型的外部验证
为了验证校正模型预测能力的可靠性和泛化性,将预测集样品作为该模型的外部检验,校正模型最终外部检验的指标为预测误差均方根(RMSEP),表示标准方法测定的参考值与模型预测值之间的误差,其数值越小代表其模型泛化能力和预测能力越高,相关系数(R)表示模型预测值和标准方法测定的实际值之间的相关性,其值越接近1,代表模型拟合程度越好。图5和图6为2种模型预测结果。
图5 OPLS模型预测集蛋白质含量实际值与预测值的线性关系Fig.5 The linear relationship of protein content actual and predicted values of OPLS model prediction set
图6 PLS模型预测集蛋白质含量实际值与预测值的线性关系Fig.6 The linear relationship of protein content actual and predicted values of PLS model prediction set
如图5所示,OPLS 模型预测值与化学值相关系数达到了0.976 7,RMSEP为0.905。和PLS模型比较,OPLS 模型相关系数提高和预测误差均方根减小,说明OPLS 模型的准确性有所提高,预测能力和泛化能力有所增强。预测集奶粉样品蛋白质含量模型预测值和化学值的相关性如图5、图6所示,OPLS
模型预测值和标准方法测出的化学值相关性更好,与传统的凯氏定氮法结果更接近。
3结论
采用近红外光谱技术结合OPLS建模方法,对奶粉中蛋白质的含量进行了定量分析。通过与传统前处理后的PLS预测结果的对比可以看出,OPLS 相对于传统的PLS 模型,降低了模型维数,增强了模型的可解释性、稳健性及预测能力。结果表明,OPLS 模型结合近红外光谱法快速无损测定奶粉中的蛋白质含量是可行的。
参考文献
[1]陆婉珍,袁洪福,徐广通,等.现代近红外光谱分析技术[M]. 北京: 中国石油化工出版社 ,2000:2-5.
[2]张中卫,温志渝,曾甜玲,等. 微型近红外光纤光谱仪用于奶粉中蛋白质脂肪的定量检测研究[J]. 光谱学与光谱分析,2013,33(7): 1 796-1 800.
[3]穆同娜,庄胜利,赵玉琪,等. 近红外光谱法快速检测婴儿配方奶粉中的脂肪酸含量[J]. 现代食品科技,2015(4):278-281.
[4]彭攀,林慧,杜如虚. 利用近红外光谱技术同时检测奶粉中的多个掺假成分[J]. 计算机与应用化学,2011,28(3): 307-310.
[5]张华秀,李晓宁,范伟,等. 近红外光谱结合Boosting-PLS快速检测奶粉中蛋白质含量[J]. 计算机与应用化学,2010,27(9): 1 197-1 200.
[6]周晶,孙素琴,李拥军.近红外光谱和聚类分析法无损快速鉴别不同辅料奶粉[J]. 光谱学与光谱分析,2009,29(1) :110-113.
[7]TRYGG J, WOLD S, Orthogonal projections to latent structures (O-PLS)[J].Journal of Chemometrics, 2002, 16(3):119-128.
The research of fast nondestructive analysis of the protein content in milk powder based on OPLS algorithm
ZOU Ting-ting1*, HE Jia-yan1,QI Qing-xuan1, WANG Ying2, YOU Meng-chen1
1(Beijing Key Laboratory of Flavor Chemistry/Beijing Higher Institution Engineering Research Center of Food Additives and Ingredients,Beijing Technology and Business University,Beijing 100048,China) 2(Jilin Institute For Food Control,Changchun 130022,China)
ABSTRACTWith the application of near-infrared spectrum spectroscopy technique, protein quantitative analysis models for both mixed and original milk powder samples of different brands and different batches was set up. Orthogonal projection partial least squares method was adopted to establish the near-infrared spectrum regression model, and this method was compared with other pretreatment method and traditional partial least squares method; cross validation global optimization method was used to obtain the best parameters of OPLS and PLS models; OPLS correction model established by five principal components has the best effect, and the correlation coefficient R is 0.994 0, cross-validation root mean square of calibration set is 1.09, correlation coefficient R of chemical values of prediction set and model prediction is 0.976 7, the error root mean square of the prediction of the analysis model is 0.905. The result shows that OPLS regression method simplified the model and at the same time improved the generalization performance of this model, and could rapidly and nondestructively establish the near-infrared quantitative model for testing protein content in milk powder.
Key wordsnear infrared (NIR) spectroscopy; milk powder; OPLS; qualitative analysis
收稿日期:2015-06-14,改回日期:2015-10-14
DOI:10.13995/j.cnki.11-1802/ts.201604032
第一作者:博士,讲师(本文通讯作者,E-mail:zou2010@aliyun.com)。