近红外光谱技术在南极磷虾粉水分、脂肪和蛋白质含量快速检测中的应用
2022-02-25苗钧魁张雅婷刘小芳于源冷凯良杨增光蒋永毅
苗钧魁,张雅婷,刘小芳,于源,冷凯良,2*,杨增光,蒋永毅
1(中国水产科学研究院黄海水产研究所 农业部海洋渔业可持续发展重点实验室 青岛市极地渔业资源开发工程研究中心, 山东 青岛,266071)2(青岛海洋科学与技术试点国家实验室,山东 青岛,266200)3(青岛菲优特检测有限公司, 山东 青岛,266111)
南极磷虾(Euphausiasuperba)广泛分布于南极海域,据研究数据统计估计,南极磷虾的生物量高达3.7亿t左右[1],如今该资源在《南极海洋生物资源养护公约》的监督下得到可持续发展,是世界上最重要的动物蛋白及脂质的宝库之一[2]。南极磷虾约含有77.9%~83.1%的水分,11.9%~15.4%的蛋白质,0.4%~3.6%的脂肪和约2%的甲壳质[3-4]。南极磷虾粉是南极磷虾加工的主要产品之一,蛋白质含量一般在490~720 g/kg,脂肪含量在50~200 g/kg,其蛋白质和脂肪含量均较高[5-10]。由于南极磷虾粉的生产是在磷虾捕捞加工船上进行,受制于船上条件,加工过程中磷虾粉的品质检测工作难以完成,成为影响我国南极磷虾粉产品品质的因素之一,亟待解决。
近红外光谱(near infrared spectroscopy, NIR)技术是一种对有机物成分快速分析的新型分析技术,其工作原理是根据被测物质在不同波长下的吸光度差异来进行物质分析。随着近红外分析技术的不断进步,近红外光谱分析在石油、化工、农林、食品等领域得到了广泛应用[11-12]。与传统方法相比,该技术具有以下优点:待测样品无需预处理、多组分快速同步检测、对待测样品不造成伤害、对环境和人体健康不构成威胁[13]。在水产加工领域,应用近红外光谱法检测食品品质已有很多应用研究:曹小华等[14]以480个不同类型的鱼粉样品为原料,利用傅里叶近红外光谱建立了鱼粉挥发性盐基氮的定量分析模型,模型预测值与化学值之间的决定系数达0.94以上;王小燕等[15]采集了不同公司生产的多个批次的鱼糜样品共196个,建立了鱼糜样品中水分和蛋白质含量的近红外光谱校正模型,并采用独立样品集进行了预测;王卫军等[16]以94份具有代表性的长牡蛎鲜样组织样品的近红外数据和其对应的化学真实值数据为基础,研究了近红外技术预测长牡蛎鲜样组织中水分、糖原等成分含量的可行性。现有的对于磷虾粉品质的研究均采用传统的化学分析方法,从技术角度来看,实验室研究和实际应用市场都需要更准确快捷的分析方法[17-18]。基于近红外光谱分析技术,利用采集到的磷虾粉光谱数据,建立定性分析模型,有望实现南极磷虾粉品质指标的快速检测。
由于目前国内生产磷虾粉的企业少,磷虾粉样品收集不易,本研究采集了18个磷虾粉样品,首先利用采集到的样品进行定标模型的建立,并对该模型进行了评价。为提高预测模型的精确度,进一步按1∶1的质量比对磷虾粉样品进行了混合,增加了样品的数量,共获得50个磷虾粉混合样品,以此提升磷虾粉品质近红外检测模型的预测精度,为实现南极磷虾粉品质指标的近红外快速检测提供了参考依据。
1 材料与方法
1.1 仪器与设备
傅里叶变换近红外光谱仪(美国Antaris Ⅱ公司),配备RESULTM样品光谱采集的集成软件以及数据处理软件 TQ analyst(美国Thermo Fisher公司)。
1.2 样品采集
本实验在2018年10月—2019年11月,分别从辽渔集团有限公司获得样品6个,分别编号为辽渔1~辽渔6,从中水集团远洋股份有限公司获得磷虾粉样品12个,分别编号为中水1~中水12。样品无异味、霉变、结块现象,符合卫生标准,样品于-20 ℃冰箱中密封储存待用。
1.3 近红外光谱采集
系统采用漫反射方式采集光谱图像。仪器工作参数设置如下:正式扫描开始前,使光谱仪开机预热30 min;将样品加入至直径为5 cm的石英杯中,样品高度1.5~2 cm,样品均匀分布在石英杯中。光谱扫描波数为10 000~4 000 cm-1,扫描次数为32次,分辨率8 cm-1,扫描温度为室温,用吸光度表示吸收光谱。在近红外光谱扫描过程中,为减少仪器波动对光谱的影响,样品经过3次平行扫描测量。
1.4 化学真实值测定
样品光谱采集完成后,根据GB/T 19164—2003对18个初始样品的水分、蛋白质、脂肪含量进行了测定,每个样品平行测试3次,测量结果取算数平均值。
1.5 模型建立和验证
建模前,先采用TQ Analyst软件对采集的样品的原始近红外光谱数据进行预处理。分别采用导数和平滑结合的6种光谱前处理方法对采集的光谱进行处理,选取最优预处理方法,再用偏最小二乘法对预处理后的光谱数据进行运算处理,选择TQ analyst软件自动推荐的光谱范围,并对模型进行检验,模型的评价参数包括建模相关系数(correlation coefficient in calibration,RC)、交互验证残差均方根(root mean square error of cross validation,RMSECV)、交互验证相关系数(correlation coefficient in cross validation,RCV)、交叉验证用样品真实值标准差与RMSECV的比值(the ratio of the RMSECV to standard deviation of reference data in the validation,RPDCV)、外部验证残差均方根(root mean square error of external prediction,RMSEP)、外部验证相关系数(correlation coefficient in external validation,REV)以及外部验证用样品真实值的标准差与RMSEP的比值(the ratio of the RMSEP to standard deviation of reference data in the prediction, RPDEV)[16]。
利用交叉验证来完成模型的内部验证,校正样品中的每个样品依次作为临时验证样品,除被选中的临时验证样品外的其余样品作为建模样品,构成模型对临时验证样品进行预测,依次循环完所有样品以得到交叉预测值。
本研究进行了2种磷虾粉预测模型的构建,一种是利用18个原始样品直接进行建模,随机选取15个作为建模集,3个样品作为验证集;因脂肪含量是虾粉品质指标的关键因素,因此另一种挑选辽渔和中水样品组中脂肪含量最高和最低的2组4个样品(辽渔1、辽渔5、中水3和中水5),分别与同组的其他样品按1∶1的质量比混合均匀,获得32个混合磷虾粉样品,加上18个初始样品,共获得50个磷虾粉样品,并以此进行第2组近红外模型的建立,其中随机抽取40个样品作为建模集,10个样品作为验证集。
2 结果与分析
2.1 异常样品剔除
在异常样品存在的情况下进行建模将会对模型的预测精度造成影响,为确保磷虾粉样品数据的精度,需对光谱数据中的异常样品进行剔除。常用的异常值剔除方法有:浓度残差剔除法、马氏距离法(mahalanobis distance,MD)、蒙特卡洛采样算法、杠杆值法等。马氏距离是指数据的协方差距离,它是一种有效地计算2个未知样品集的相似度的方法。本文利用MD法对光谱数据进行异常样品剔除处理[19]。
2.2 光谱数据前处理,
在进行粉末样品NIR漫反射光谱采集时,由于样品颗粒尺寸、均匀性等的影响,光程无法保持恒定,此时需要使用多元信号修正或标准正则变换(standard normal variate transform, SNV)来对光谱进行处理,以消除这些因素的干扰。本文采用SNV方式。
近红外光谱测量过程中,经常出现光谱偏移或飘移。导数处理是净化谱图较常用的预处理方法,可根据需要进行一阶或二阶微分处理。导数处理既可以消除基线偏移,还可以起到一定的放大和分离重叠信息的作用;平滑的作用是提高信噪比,减小随机噪音,从而也可以提高模型的稳健性[20-21]。有2种平滑方法可供使用,一种是经典的 Savitzky-Golay滤波(SG),它是一种多项式滤波方法,另一种是Norris导数滤波(Norris derivative filter, NDF),它只能用于一阶或二阶导数光谱,是红外光谱分析中一种很好的滤波方法。
图1 磷虾粉样品的NIR漫反射原始光谱Fig.1 Raw NIR diffuse reflectance spectra of krill meal samples
本文分别采用一阶微分(first-order difference,FD)、二阶微分(second-order difference,SD)及其与SNV方式和2种平滑方式相结合的6种方式对磷虾粉样品近红外图谱进行预处理,近红外光谱预处理结果如表1~表3所示:
表1 磷虾粉蛋白近红外光谱预处理结果Table 1 Krill meal protein NIR pretreatment results
表2 磷虾粉水分近红外光谱预处理结果Table 2 Krill meal moisture NIR pretreatment results
表3 磷虾粉脂肪近红外光谱预处理结果Table 3 Krill meal fat NIR pretreatment results
磷虾粉原始样品的原始光谱的蛋白质、水分、脂肪所对应的预处理结果如表1~表3所示,经RC、REV和RCV3个参数综合比较,蛋白、脂肪和水分三者的最佳预处理方式均为SNV+FD+NDF,经预处理后,蛋白模型主成分数为6,RC为0.989 3,REV为0.917 2,RCV为0.964 8;水分模型主成分数为3,RC为0.983 1,REV为0.997 1,RCV为0.971 0;脂肪模型主成分数为10,RC为1.000 0,REV为0.991 0,RCV为0.944 3。
磷虾粉光谱数据预处理参数如表4所示,经谱图预处理后,模型的相关系数较未经过预处理得到明显提升,说明模型的预测精度也得到显著提升,预处理后的光谱图见图2。
表4 原始磷虾粉光谱数据预处理参数Table 4 Pretreatment parameters of NIR spectral data of krill meal samples composition
图2 磷虾粉样品的预处理后NIR光谱图Fig.2 NIR spectra of krill meal samples after pretreatment
2.3 原始磷虾粉样品NIR模型分析
2.3.1 原始磷虾粉样品指标表述性统计
本实验中18份样品的建模集和验证集的样品数见表5,建模集样品共15个,其中辽渔磷虾粉样品5个,中水样品10个;验证集样品共3个,其中辽渔样品1个,中水样品2个。表5数据显示各组分间各个成分最大值分别为最小值的:水分(7.64倍)、蛋白质(1.13倍)、脂肪(1.98倍),各组分含量差异较大,样品成分含量范围足够广泛,证明此样品可以进行近红外光谱的建模分析。
表5 原始磷虾粉样品建模集和验证集样品成分含量Table 5 Modeling set and validation set composition content of original krill meal samples
2.3.2 预测模型建立与优化
原始样品建模结果如表6及图3~图5所示,不同成分样品无异常值被剔除。模型建立过程中的各个相关系数,即:RC、RCV和REV值越接近100%,模型的拟合程度越好[22];RMSECV、RMSEP也同样用来评价模型的优劣,RMSECV和RMSEP越小,证明模型的精确度越高,RMSECV和RMSEP越接近,证明模型的稳定性越高;同时模型的RPD值是模型评价的另一个重要指标,精准度高的模型具有高RPD值,当RPD值大于2.5时模型可以进行准确预测。
表6 磷虾粉原始样品建模过程中的指标描述Table 6 Index description in the process of modeling the original krill sample
在原始样品模型中,各组分的三类相关系数都在0.9以上,蛋白、脂肪和水分3个含量指标的建模相关系数RC均大于0.98,其RMSEC值均小于0.45,交叉验证相关系数RCV均在0.94以上,脂肪RMSECV略高(>1),但RPDCV均大于2.5,说明模型的精确度较好[23]。但在外部验证中,外部验证相关系数还比较理想,REV值大于0.91,但蛋白和脂肪的RMSEP值较高,RPDEV仅水分为6.46,蛋白质和脂肪均小于2.5,不甚理想,这可能主要由于验证集样本量较小导致。
图3 原始样品模型蛋白含量NIR主要参数Fig.3 NIR parameters of protein content in the original sample model
图4 原始样品模型脂肪含量NIR主要参数Fig.4 NIR parameters of fat content of the original sample model
图5 原始样品模型水分含量NIR主要参数Fig.5 NIR parameters of moisture content of the original sample model
2.4 混合磷虾粉样品的NIR模型分析
为提升NIR模型的预测精度,检测样品数量应越多越好。但由于有区分度的磷虾粉样品不易获得,厂家在生产过程中也未对样品进行分类,很难短时间内获得足量有区分度的样品。由于磷虾粉本身不是一种单一的分布均匀的原料,理论上通过混合后的样品依然符合磷虾粉样品的特征。如1.5所述,本实验采用40个原始样品加混合样品进行单独建模,与原始样品的NIR模型进行比较。光谱预处理方式采用2.2中最佳预处理方式:SNV+FD+NDF。
2.4.1 混合磷虾粉样品指标表述性统计
表7以及图6~图8数据表明,经SNV+FD+NDF预处理后,蛋白质模型主成分数为6,光谱范围为5 731.40~5 580.98 cm-1, 7 875.86~7 613.59 cm-1,8 396.54~8 219.13 cm-1;水分模型主成分数为4,光谱范围为5 164.43~4 971.56 cm-1,6 869.20~6 117.10 cm-1;脂肪模型主成分数为7,光谱范围为8 307.83~7 926.00 cm-1,8 573.96~8 396.54 cm-1。
表7 混合磷虾粉光谱数据预处理参数Table 7 Pretreatment parameters of NIR spectral data of mixed krill meal samples composition
混合样品的建模集和验证集的样品数见表8,建模集样品共40个,其中辽渔原始磷虾粉样品4个,辽渔混合磷虾粉样品8个,中水原始磷虾粉样品9个,中水混合磷虾粉样品19个,验证集样品共10个,其中辽渔原始磷虾粉样品2个,辽渔混合磷虾粉样品2个,中水原始磷虾粉样品3个,中水混合磷虾粉样品3个。各组分间各个成分差异情况与原始样品相同,符合建模要求。
图6 混合样品水分、蛋白质和脂肪模型主成分因子数Fig.6 Factors of mixed sample moisture, protein and fat models
图7 混合样品模型蛋白质含量NIR主要参数Fig.7 NIR parameters of protein content of the mixed sample model
图8 混合样品模型脂肪含量NIR主要参数Fig.8 NIR parameters of fat content of the mixed sample model
2.4.2 预测模型建立与优化
在原始样品模型中,各组分的RC、RCV和REV三类相关系数除脂肪的REV为0.905 8,其余均在0.94以上,水分、脂肪和蛋白质3个含量指标的建模相关系数RC均大于0.97,其RMSEC值均小于0.45,交叉验证相关系数RCV均在0.94以上,RMSECV在0.6左右,RPDCV均大于2.5,说明模型的精确度较好。在外部验证中,水分和蛋白质的REV分别为0.977 9和0.984 1,而脂肪的REV为0.905 8,较其他2个成分略差,脂肪的RMSEP也偏高,但RPDEV均大于2.5,说明该模型可以进行准确预测。
表8 混合磷虾粉建模集和验证集样品成分含量Table 8 Modeling set and validation set composition content of mixed krill meal samples
如图9、表9所示;磷虾粉混合样品构建的模型与磷虾粉原始样品构建的模型相比较,在三类相关系数方面并未体现出明显优势,但在脂肪的RMSECV以及蛋白质和脂肪的RMSEP和RPDEV等参数方面有所提升,说明通过混合样品数量的提升可以降低预测值的偏离程度,提升预测模型的准确性。
图9 混合样品模型水分含量NIR主要参数Fig.9 NIR parameters of moisture content of the mixed sample model
表9 磷虾粉混合样品建模过程中的指标描述Table 9 Description of indicators in the modeling process of mixed krill samples
3 结论与讨论
本文采用最小偏二乘法建立并优化了磷虾粉中水分、脂肪和蛋白质的近红外定标模型,确定了磷虾粉近红外图谱最佳预处理方式为SNV+FD+NDF,经预处理后,通过交互验证和外部验证,各组分的RC、RCV和REV三类相关系数除脂肪的REV为0.905 8,其余均在0.94以上,RPD均大于2.5,证明磷虾粉近红外定标模型对3个成分均有较好的预测准确性,可以快速准确的进行磷虾粉中主要成分的定量。比较以原始磷虾粉样品构建的近红外定标模型和以混合磷虾粉样品构建的近红外定标模型,在相关系数方面并未体现出明显优势,但在RMSECV、RMSEP和RPDEV等参数方面有所提升,说明通过混合样品数量的增加可以降低预测值的偏离程度,提升预测模型的准确性。
本研究为磷虾粉中水分、脂肪和蛋白质含量近红外模型的构建以及快速检测提供了理论依据和数据支持。为进一步提升磷虾粉近红外定标模型的预测精度,下一步应继续扩大磷虾粉样品的采集范围,增加代表性原始磷虾粉样品的数量,使其能够满足不同来源磷虾粉样品的成分预测。另外,可以通过特征波场选择算法优化定标模型,使其预测精度进一步提升。