近红外光谱分析技术在植物蛋白饮料定量分析中的应用
2017-12-06王琼雅夏君霞吴镇君陈红光王俊转李子文李宗朋买书魁
王琼雅,夏君霞,吴镇君,陈红光,王俊转,李子文,李宗朋,买书魁,王 健*
(1.中国食品发酵工业研究院,北京 100015;2.东北农业大学工程学院 管理科学工程系,黑龙江 哈尔滨 150030;3.河北养元智汇饮品股份有限公司,河北 衡水 053000;4.红牛维他命饮料有限公司,北京 100015)
近红外光谱分析技术在植物蛋白饮料定量分析中的应用
王琼雅1,2,夏君霞3,吴镇君4,陈红光2,王俊转3,李子文1,李宗朋1,买书魁1,2,王 健1*
(1.中国食品发酵工业研究院,北京 100015;2.东北农业大学工程学院 管理科学工程系,黑龙江 哈尔滨 150030;3.河北养元智汇饮品股份有限公司,河北 衡水 053000;4.红牛维他命饮料有限公司,北京 100015)
利用近红外光谱分析技术对植物蛋白饮料中脂肪和可溶性固形物含量进行定量分析。采用向后间隔偏最小二乘法(BiPLS)、组合间隔偏最小二乘法(SiPLS)、遗传偏最小二乘法(GA-PLS)、竞争性自适应重加权法(CARS)优选波段,并结合偏最小二乘法(PLS)建立植物蛋白饮料中脂肪和可溶性固形物的定量分析模型。结果表明,4种方法对模型均有优化效果,可提高模型的稳定性和精准性,其中GA-BiPLS、GA-SiPLS优化效果最为明显,脂肪、可溶性固形物的决定系数R2分别达到了0.984、0.97和0.988、0.990,预测标准均方差(RMSEP)分别为0.026、0.030和0.170、0.155,相对分析误差(RPD)分别为8.077、7.000和9.112、10.000。表明近红外光谱技术作为一种快速、便捷的检测手段,适用于植物蛋白饮料品质的快速检测分析。
植物蛋白饮料;近红外光谱分析技术;定量分析;波段筛选
植物蛋白饮料是以植物的果核或种子为主料,经过原料处理、浸泡、磨浆、过滤、均质和杀菌等工序,调配制成的植物蛋白饮品[1]。因其风味独特且含有丰富的营养,深受广大消费者的喜爱[2]。植物蛋白饮料中含有丰富的脂肪和可溶性固形物(包括维生素、矿物质及多糖等),这两项评价指标在很大程度上影响饮料的营养价值以及口感和香味[3]。近年来部分企业为谋求利益,在生产过程中偷工减料,达不到国家的相关标准[4],而现有的检测方法大多是化学分析,不仅费时费力,且耗时较长,不能满足生产企业以及监管部门的即时性现场检测的迫切需求。
近几年,近红外光谱分析技术作为一种快速、准确、无损的检测技术手段[5],受到越来越多人的重视,一些学者也将其用于饮料的研究当中。谷如祥等[6]通过遗传算法结合支持向量机模型对苹果饮料中原果汁含量快速测定,并取得了较好的结果。艾施荣等[7]运用近红外光谱技术成功地对3种茶饮料(龙井茶、乌龙茶和铁观音)进行检测。唐长波[8]应用近红外光谱法测定了40个果汁饮料中富马酸含量,模型取得了较高的准确度。以上研究均体现出近红外光谱分析技术在饮料行业品质控制及成分分析中的巨大潜力,但对于植物蛋白饮料重要指标的快速分析尚处于空白阶段,尤其在模型优化方面目前更是鲜见报道。
本研究拟采用近红外光谱技术检测植物蛋白饮料中的脂肪和可溶性固形物,运用向后间隔偏最小二乘法(backwardintervalpartialleastsquares,BiPLS)、组合间隔偏最小二乘法(synergy interval partial least squares,SiPLS)、遗传算法(genetic algorithms,GA)和竞争性自适应重加权算法(competitiveadaptivereweightedsampling,CARS)对植物蛋白饮料中的光谱波段进行筛选,分别建立偏最小二乘(partialleastsquares,PLS)法模型并进行验证。分析比较4种波段筛选方法对植物蛋白饮料脂肪和可溶性固形物模型预测结果的影响,获取预测精度及鲁棒性最优的模型,以期为植物蛋白饮料品质的快速检测提供一定的参考依据。
1 材料与方法
1.1 材料与试剂
植物蛋白饮料样本(266个):市售;无水乙醚、石油醚(均为分析纯):天津市致远化学试剂有限公司。
1.2 仪器与设备
BuchiN-500傅里叶变换近红外光谱仪:瑞士步琦有限公司;WYT-32手持折光仪:江苏同君仪器科技有限公司;HH-6恒温水浴锅:上海谷宁仪器有限公司;ML204万分之一电子分析天平:梅特勒-托利多国际贸易(上海)有限公司;500 mL索氏抽提器:上海魅宇仪器设备有限公司。
1.3 方法
1.3.1 校正集和验证集的划分
总之,本研究使用WGCNA构建加权共表达网络,筛选得到与肾透明细胞癌进展相关的6个枢纽基因(TOP2A、CDK1、CDC20、KIF11、CCNB2、BUB1)并对其进行初步验证,同时发现枢纽基因可能通过细胞周期相关通路来影响肾透明细胞癌进展及预后。
实验采用Kennard-Stone(K-S)法[9]进行样本集的划分。在剔除个别异常点的基础上,保留264个样本数据,其中随机选取66个样本作为独立测试集不参与数据建模。将剩下的198个样本数据按照2∶1的比例进行验证集和校正集的划分,最终选择132个样本作为校正集,66个样本作为验证集。脂肪和可溶性固形物含量的校正集与验证集的统计值如表1所示。
表1 校正集与验证集的统计结果Table 1 Statistical results of calibration set and validation set
1.3.2 光谱预处理的方法
采用透反射的方式扫描样本,采集样本的光谱数据。为了减少光谱中的不确定信息,提高光谱可靠性,采用标准正态变量变换(standardized normal variate,SNV)对光谱数据进行预处理,消除散射及颗粒大小造成的光谱改变,提高实验模型的稳健型。光谱光源为卤钨灯,检测器为温控InGaAs,配有高性能测量杯和反射盖,光谱范围为4 000~10 000 cm-1,分辨率为8 cm-1,扫描次数为32次,利用配套软件NIR Ware Operator采集植物蛋白饮料样本的近红外光谱信息。
1.3.3 特征波段的选择方法
为剔除光谱数据中的无效信息,提高数学模型分析的准确度和有效性,本实验分别采用BiPLS[10-11]、SiPLS[12]、GA[13-15]以及CARS[16-17]4种方法对全光谱进行有效信息变量的筛选,再结合偏最小二乘法(PLS)建立优化模型。
1.3.4 样品中脂肪和可溶性固形物的检测方法
植物蛋白饮料中脂肪含量根据GB 5009.6—2016《食品安全国家标准食品中脂肪的测定》中的方法,采用索氏抽提法测定;可溶性固形物含量根据GB/T 12143—2008《饮料通用分析方法》中折光计法,利用手持折光仪进行测定。
1.3.5 数据分析软件
BiPLS、SiPLS、GA、CARS等算法在MATLAB中运行,光谱预处理、偏最小二乘算法在UnscramberX10.3光谱分析软件中完成。采用决定系数(R2)、预测标准均方差(rootmean squre error of prediction,RMSEP)、相对分析误差(relative percent deviation,RPD)分析与评价模型的稳定性和精准性。R2越接近1,RPD>3时[18],则表明所建立的模型越稳定,预测效果越好。
2 结果与分析
2.1.1 向后间隔偏最小二乘法对光谱波段的筛选
将整个光谱分割成k个等宽子区间,k取10~30,间隔为5,运用向后间隔偏最小二乘法(BiPLS)筛选波段,并结合偏最小二乘法(PLS)建立模型,结果如表2所示。
表2 BiPLS对光谱波段的优选结果Table 2 Optimization results of spectra waveband selected by BiPLS
续表
由表2可知,当k=25时,脂肪的模型最好;当k=15时,可溶性固形物的模型最好,所选波段分别为[14、16、9、21、3、8、2]、[6、15、7、2]。交互验证均方根误差(rootmeansquare errorofcrossvalidation,RMSECV)分别为0.032、0.116,分别筛选出420、400个变量,占全谱28%、26.7%。
2.1.2 组合间隔偏最小二乘法对光谱波段的筛选
表3 SiPLS对光谱波段的优选结果Table 3 Optimization results of spectra waveband selected by SiPLS
将整个光谱均匀分割为k个子区间,然后选其中的n个区间进行组合建模。当预测模型最优时,其对应的n个子区间作为最佳建模区间。试验中k取10~30,间隔为5,n为1~4,运用组合间隔偏偏最小二乘法(BiPLS)筛选波段,并结合偏最小二乘法(PLS)建立模型,结果如表3所示。
由表3可知,当k为20、n为2时,脂肪的RMSECV值最小,为0.035;当k为25、n为3时,可溶性固形物的RMSECV值最小,为0.109。所选波段分别为[2、7]、[1、2、5],分别筛选出150、181个变量,占全谱10%、12%。
2.1.3 CARS选取特征波长
图1 CARS对光谱波段的优选结果Fig.1 Optimization results of spectra waveband selected by CARS
实验运用竞争性自适应重加权算法(CARS)对变量进行多次筛选,并结合PLS建立模型。筛选结果如图1所示(运行次数为150)。图1(a)、(b)中第一条曲线呈指数函数下降,表示随着运行次数的增加,选择变量个数由快到慢的递减,提高了函数筛选变量的效率;第二条曲线为交互验证均方根误差(RMSECV)的变化趋势图,从图中可以看出残差图的变化趋势为先下降后上升,当采样次数为105次和50次时,RMSECV值最小,这表明光谱中的无关信息被剔除,进一步采样将剔除与脂肪和可溶性固形物含量相关的关键变量,导致RMSECV的值增大;第三条曲线表示回归系数的变化趋势,其中的“*”表示残差的最低点,与前两条曲线相对应[19-21]。由图1可知,经CARS法对脂肪和可溶性固形物分别筛选出62、50个变量,占全谱的4.1%、3.3%。
2.1.4 遗传算法选取特征波长
采用遗传算法(GA)分别对BiPLS和SiPLS挑选后的光谱波段进一步进行筛选。控制参数设定为:种群数30,变异概率Pm=0.01,交叉概率Pc=0.5,最大因子数为10,遗传迭代次数100次。
运行结束后,根据变量在迭代过程中的入选频率,按照从高到低的方式逐一选择特征波长参与建模,当RMSECV值最小时,所选变量为最优建模变量。GA-BiPLS对脂肪、可溶性固形物含量筛选结果如图2(a)、图2(b)所示,GA-SiPLS对脂肪、可溶性固形物含量筛选结果如图2(c)、图2(d)所示。图中显示了每个波长入选频率,根据入选频率选取变量并建立模型,对比分析模型效果。当选择入选频率分别大于2、2、4、3时模型最好,此时分别选择了152、114、137和109个波长变量,占全光谱的10.1%、7.6%、9.1%、和7.3%。
图2 GA法筛选变量的频次图Fig.2 Frequency graph of variables selected by GA
2.2 模型的建立与评价
基于上述4种方法筛选的光谱变量,分别建立脂肪和可溶性固形物含量的全光谱-PLS、BiPLS、SiPLS、GA-BiPLS、GA-SiPLS、CARS定量分析模型,并给出其主成分数、决定系数R2、预测标准均方差(RMSEP)、相对分析误差(RPD)等评价指标。由表4可知,与全光谱-PLS相比,经筛选后的光谱变量数均减少(筛选出的特征变量如图3所示),模型的决定系数(R2)增大,预测标准均方差(RMSEP)减小,主成分数减少,说明波段筛选能够有效地提高模型的稳定性和准确性。
表4 脂肪和可溶性固形物的不同PLS模型性能评价结果Table 4 Evaluation results of different PLS models performances of fat and soluble solid
比较4种波段优化方法,对于可溶性固形物而言,相比于全光谱-PLS,BiPLS和SiPLS减少了建模变量数,且模型的决定系数R2达到0.981、0.983,RMSEP为0.205和0.202。对于脂肪而言,CARS方法筛选后的建模结果比BiPLS和SiPLS更为理想,建模变量数少,且模型的决定系数R2达到0.972,RMSEP为0.035。但采用GA-BiPLS、GA-SiPLS方法筛选波段后建立的模型效果更优,GA-BiPLS、GA-SiPLS方法是在BiPLS和SiPLS方法的基础上进一步筛选变量,消除了相邻变量之间可能存在的共线性,在减轻模型复杂程度的同时保留了关键变量,使模型具有较好的预测性和稳定性,脂肪模型的决定系数R2达到0.984、0.979,RMSEP为0.026和0.030,可溶性固形物模型的决定系数R2达到0.988、0.990,RMSEP为0.170和0.155。
将4种方法筛选出的变量标示在全光谱图中,结果如图3所示。由图3可知,GA-BiPLS、GA-SiPLS方法筛选后的特征波段范围和O-H、C-H、C=O分子结构的伸缩振动和倍频吸收的位置相对应。4 264 cm-1和4 329 cm-1附近区域为脂肪的CH2伸缩振动和弯曲振动的合频;4 283~4 386 cm-1处为糖的C-H伸缩和CH2变形振动的组合频;5 666 cm-1和5 764 cm-1处是CH2伸缩振动的一倍频吸收,主要由脂肪中不饱和脂肪酸伸缩振动引起。而在6 870 cm-1处的吸收峰与水中的O-H伸缩振动的一级倍频有关,在筛选优质波段时被剔除[22]。因此,综合分析认为,本实验中GA-BiPLS、GA-SiPLS方法对植物蛋白饮料脂肪和可溶性固形物进行定量分析时,能够在剔除无关变量的同时保留信噪比较高的变量,使模型效果较优。
2.3 模型检验
将66个独立预测样本分别带入GA-BiPLS、GA-SiPLS模型当中,对模型的精准性和稳定性进行验证,结果如图4所示。由图4可知,植物蛋白饮料中脂肪、可溶性固形物含量的实测值与预测值呈对角线分布,经成对t检验分析,各项指标预测值和实测值并无较大差异。经验证,GA-BiPLS和GA-SiPLS方法所建模型,脂肪的R2分别达到0.971、0.966,RMSEP分别为0.036、0.039,可溶性固形物的R2分别达到0.974、0.984,RMSEP分别为0.243、0.202,说明GA-BiPLS、GA-SiPLS模型的预测效果较为准确。
图4 GA模型实测值与预测值的分布Fig.4 Distribution of measured values and predicted values of GA model
3 结论
本研究采用BiPLS、SiPLS、GA-PLS、CARS方法筛选特征波段,并结合偏最小二乘法(PLS)建立模型,结果表明,4种波段筛选方法所建模型均取得较好效果,说明近红外光谱分析技术适用于植物蛋白饮料脂肪和可溶性固形物的定量分析,同时也说明变量筛选能够有效的使模型得到优化。采用GA-BiPLS、GA-SiPLS方法筛选波段后建立的模型效果优于其他方法,在剔除无关信息的同时保留植物蛋白饮料可溶性固形物和脂肪相关信息,提高了模型的稳定性和精准性。同时,遗传算法筛选出的波长与可溶性固形物和脂肪在近红外区域的特征吸收区域相对应,实现了优化建模波段的目标,说明该方法适用于植物蛋白饮料的定量分析,也为近红外光谱分析技术在植物蛋白饮料可溶性固形物和脂肪的检测方向研究提供了一定的参考依据。
[1]李骊璇.植物蛋白饮料稳定性的相关研究[J].农业工程,2011,1(3):58-60.
[2]赵 艳.植物蛋白饮料稳定性的研究进展[J].饮料工业,2009,12(1):5-9.
[3]吴晓菊,杨清香,李春香,等.核桃巴旦木植物蛋白饮料的研制[J].食品研究与开发,2011,32(4):98-100.
[4]高玉丽,左爱东,杜江美.复合植物蛋白饮料稳定性影响因素分析[J].饮料工业,2017,20(2):51-54.
[5]王 会,陆建良.近红外光谱法快速测定含乳饮料中增稠剂含量[J].食品研究与开发,2016,37(24):132-134.
[6]谷如祥,赵武奇,石珂心,等.近红外光谱测定苹果饮料中原果汁含量[J].食品工业科技,2013,34(20):75-77.
[7]艾施荣,吴瑞梅,吴 燕.基于BP神经网络近红外光谱鉴别茶饮料的研究[J].安徽农业科学,2010,38(14):7658-7659.
[8]唐长波.近红外光谱法快速检测苹果浓缩汁中的富马酸[D].咸阳:西北农林科技大学,2007.
[9]KONG F,LIANG Z,LUAN D,et al.A glutathione(GSH)-responsive near-infrared(NIR)theranostic prodrug for cancer therapy and imaging[J].Anal Chem,2016,88(12):6450-6456.
[10]瞿芳芳,任 东,侯金健,等.基于向前和向后间隔偏最小二乘的特征光谱选择方法[J].光谱学与光谱分析,2016,36(2):593-598.
[11]ZOU X,ZHAO J,LI Y.Selection of the efficient wavelength regions in FT-NIR spectroscopy for determination of SSC of'Fuji'apple based on BiPLS and FiPLS models[J].Vib Spectrosc,2007,44(2):220-227.
[12]LI T H,SHI G Y,WEI J M,et al.Prediction of lycopene content in late mature tomato based on NIR spectroscopy and SiPLS[J].Int J Appl Math Stats,2013,48(18):172-180.
[13]王冰玉,孙威江,黄 艳,等.基于遗传算法的安溪铁观音品质快速评价研究[J].光谱学与光谱分析,2017,37(4):1100-1104.
[14]LIN H,ZHAO J,SUN L,et al.Freshness measurement of eggs using near infrared(NIR)spectroscopy and multivariate data analysis[J].Innov Food Sci Emerg Technol,2011,12(2):182-186.
[15]李子文,熊雅婷,王 健,等.遗传算法联合LS-SVM的苹果原醋成分定量分析[J].中国酿造,2016,35(1):120-124.
[16]TONG P J,DU Y P,ZHENG K Y,et al.Improvement of NIR model by fractional order Savitzky-Golayderivation(FOSGD)coupled with wavelength selection[J]. Chemometr Intell Lab Syst,2015,143:40-48.
[17]秦修远,翟媛媛,李晓云,等.可见-近红外光谱结合CARS优化模型预测棕榈油碘值[J].分析试验室,2017(7):790-793.
[18]SUNDARAM J,MANI S,KANDALA C V K,et al.Application of NIR reflectance spectroscopy on rapid determination of moisture content of wood pellets[J].Am J Anal Chem,2015,6(12):923-932.
[19]贾柳君,王 健,张海红,等.基于FT-NIR的葡萄酒发酵过程中挥发酸的定量分析[J].中国酿造,2016,35(10):166-170.
[20]JIANG H,ZHANG H,CHEN Q S,et al.Identification of solid state fermentation degree with FT-NIR spectroscopy:Comparison of wavelength variable selection methods of CARS and SCARS[J].Spectrochim Acta Part A,2015,149:1-7.
[21]刘燕德,姜小刚,熊松盛,等.基于CARS算法的脐橙果园土壤有机质近红外检测[J].中国农机化学报,2016,37(2):240-244.
[22]WORKMAN J J,WEYER L.褚小立,许育鹏,田高友,译.近红外光谱解析实用指南[M].北京:化学工业出版社,2009:48-65.
WANG Qiongya1,2,XIA Junxia3,WU Zhenjun4,CHEN Hongguang2,WANG Junzhuan3,LI Ziwen1,LI Zongpeng1,MAI Shukui2,WANG Jian1*
(1.China National Research Institute of Food&Fermentation Industries,Beijing 100015,China;2.Department of Management Science and Engineering,College of Engineering,Northeast Agricultural University,Harbin 150030,China;3.Hebei Yangyuan Zhihui Beverage Co.,Ltd.,Hengshui 053000;4.RedBull Vitamin Drink Co.,Ltd.,Beijing 100015,China)
TS275.4
0254-5071(2017)11-0143-06
10.11882/j.issn.0254-5071.2017.11.031
2017-09-06
国家自然科学基金项目(31671937)
王琼雅(1992-),女,硕士研究生,研究方向为农产品无损检测。
*通讯作者:王 健(1973-),男,教授级高级工程师,博士,研究方向为农产品无损检测。