近红外光谱法测定面粉的水分、脂肪、碳水化合物和蛋白质含量
2020-06-16覃统佳从彦丽黄林森唐旭蔚周志航
覃统佳,刘 冬,从彦丽,*,黄林森,唐旭蔚,周志航
(1.深圳职业技术学院应用化学与生物技术学院,广东深圳 518000;2.深圳大学化学与环境工程学院,广东深圳 518000)
面粉是我国北方大部分地区的主食,因其较高的营养价值成为国家重要的商品粮食。蛋白质、脂肪、碳水化合物是面粉的重要营养成分,是营养标签必须标明的营养信息,是消费者购买食物时衡量食品营养价值的依据,含水率的高低对面粉的存储及加工起至关重要的作用。因此,水分、脂肪、碳水化合物和蛋白质的含量是面粉必须检测的项目。
目前面粉中水分、脂肪、碳水化合物和蛋白质含量的检测仍依赖化学方法,效率低下,成本较高,操作复杂,污染较大,周期较长,人员要求高,无法实现快速高效地监控面粉的品质。与传统分析技术相比,近红外光谱技术具有分析速度快、效率高、成本低、重现性好、样品预处理简单、无污染和便于在线分析等优点[1-2],在薯类[3-4]、果类[5-6]酒类[7-8]、肉类[9-10]等领域中得到广泛应用。因此,开发一种面粉组分快速便捷的检测方法,以便于企业及工商执法部门对面粉品质的及时监控。
近年来,相关学者利用近红外光谱法对小麦面粉品质进行了研究。金华丽等[11]、孙晓荣等[12]采用偏最小二乘法建立小麦面粉水分含量的近红外检测模型,其决定系数均在0.9以上。赵环[13]、韦紫玉等[14]、王旭等[15]通过偏最小二乘法结合相应的光谱预处理算法,建立了小麦蛋白质含量的近红外光谱模型,均取得较高的预测准确性。赖立群等[16]通过比较BP神经网络和偏最小二乘法所建立的小麦蛋白质近红外定标模型,结果表明BP神经网络所建立的模型稳定性更佳。此外,近红外光谱技术还被广泛应用在面粉的过氧化苯甲酰[17]和湿面筋[18]、发芽率定量[19]和品种鉴别[20]等方面。而面粉的脂肪和碳水化合物含量的测定鲜见报道。
本研究用化学计量学方法将样品中的近红外光谱信息与国标法测定面粉中水分、脂肪、碳水化合物和蛋白质含量进行关联,基于偏最小二乘法(Partial least squares,PLS)和向后阈值区间偏最小二乘法(Backward interval PLS,BiPLS),建立了面粉中同时测定水分、脂肪、碳水化合物和蛋白质含量的近红外定量模型,并对两种方法所建模型的精度进行分析比较,探讨近红外法分析面粉成分含量的可靠性。以期为面粉生产企业实现在线检测和品质控制提供可能,也为食品质量检测部门的日常监管提供一种方便快捷的检测方法。
1 材料与方法
1.1 材料与仪器
面粉 以面粉在网购平台的市场占有量为导向,选取了68种不同类型的品种,其几乎囊括网购平台所有类型的面粉。各产地样品数如下:山东16、河南11、河北11、广东6、江苏4、山西4、内蒙古3、(安徽、吉林、甘肃、北京、四川、上海)各1种;三大类加工精度如下:多用途面粉23种,麦仁25种,低中高筋面粉20种;乙醚、石油醚、浓盐酸、浓硫酸、硼酸、硫酸钾、硫酸铜、乙醇 均为分析纯,国药集团化学试剂有限公司。
AntarisII型傅立叶近红外分析仪 赛默飞世尔科技有限公司;BSA224S型分析天平 赛多利斯科学仪器(北京)有限公司;IQS-1600型电陶炉 佛山市顺德区艾玛诗电器有限公司;DHG-9123A型电热恒温鼓风干燥箱 上海精宏实验设备有限公司;Centrifuge 5810R型离心机 德国Eppendorf公司;SXL-1208型程控箱式电炉 上海精宏实验设备有限公司;Kjeltec8400型自动凯氏定氮仪 FOSS公司。
1.2 实验方法
1.2.1 国标法测定面粉中四种组分含量 水分:直接干燥法GB 5009.3-2016;脂肪:酸水解法GB 5009.6-2016;灰分:总灰分法GB 5009.4-2016;蛋白质:凯氏定氮法GB 5009.5-2016。
1.2.2 近红外光谱采集 将面粉过筛,孔径为80目,得到粒径大小、均匀程度一致的面粉,用近红外光谱仪对样品进行光谱采集。每个样品扫描3次取平均光谱。采用样品杯旋转采样的方式,扫描温度为室温,扫描波长范围为10000~4000 cm-1,扫描次数为64次,分辨率为8.0 cm-1。
1.2.3 样品的划分与异常样品的剔除 将近红外光谱与面粉各组分含量测定值输入TQ Analyst光谱分析软件,利用软件自带算法从68个样品中筛选出58个作为校正集,其余10个作为验证集。为了减少异常光谱与异常化学值对预测模型的影响,利用马氏距离法[21]和参考值与差值关系图进行异常样品的剔除。
1.2.4 模型的建立 为消除采集光谱时光程不恒定、基线偏移、随机噪声等影响,提高模型稳健性,对近红外光谱仪采集的面粉光谱进行预处理[22]。光谱预处理方法有不校正、多元散射校正(multiplicative signal correction,MSC)、标准正态变量变换(standard normal variate,SNV)、一阶导数(first derivative,1st)和二阶导数(second derivative,2nd)、卷积平滑处理(Savitzky-Golay filter,S-G)和导数滤波(Norris derivative filter,N-D)等。剔除异常样品后,分别使用各种预处理方法对样品光谱数据进行优化,选择近红外全光谱波段建立PLS模型,筛选出最佳预处理方法,在此基础上,选择向后阈值区间偏最小二乘法(Backward interval PLS,BiPLS)进行模型的建立,对比两种方法模型的性能,选取其中最优的光谱区段和预处理方法建立面粉各组分含量的近红外定量模型。
1.2.5 评价参数 本研究采用7个参数综合评价模型的性能,分别为最佳因子数、相关系数(Rcv)、交互验证均方根误差(root mean square error of cross validation,RMSECV)、预测相关系数(correlation coefficient of prediction,Rp)、预测均方根误差(root mean square error of prediction,RMSEP)、校正标准差(root mean square error of calibration,RMSEC)和相对分析误差(residual predictive deviation,RPD)。根据预测残差平方和(PRESS)选择最佳因子数,在PRESS出现第一个极小值处的因子数即为最佳因子数,同一模型中相关系数Rcv和Rp越接近于1,而RMSECV、RMSEP和RMSEC越接近于0,且三者之间不存在显著性差异,则说明定量模型稳健性和预测性越好。当1.5
1.3 数据处理
化学值采用Microsoft Excel 2016软件进行极差分析和显著性检验。根据国标法测定面粉水分、脂肪、蛋白质和灰分含量的原始数据,对每个组分的四个平行数据进行取舍。采用格鲁布斯法(Grubs)在显著性α=0.05下剔除可疑值,确保极差符合国标要求,得到平均值。根据四种成分含量,由差减法公式[24]:碳水化合物(%)=[100-(水分+脂肪+灰分+蛋白质)]%,得到碳水化合物的含量。光谱数据采用近红外光谱仪自带的化学计量学软件TQ Analyst 9.5.0.76进行处理。
2 结果与分析
2.1 光谱分析
近红外光谱仪对68种样品进行光谱采集,获得各样品的原始平均光谱图如图1所示。
图1 面粉样本原始近红外光谱图Fig.1 Original near infrared spectroscopy of floor samples
由图1可知,面粉各样品吸光度集中在0.95以下,均在近红外仪器的响应范围内。在不同波长下,各个样品近红外光谱的波峰、波谷和走势较为一致,说明各个样品之间的组成性质较为一致。而在同一波长下,各个样品之间的吸光度不完全重叠,体现出面粉样品之间各组分含量的差异性。
2.2 面粉各组分含量结果分析
国标法测定68种样品的水分,脂肪,碳水化合物,蛋白质含量结果如表1。由表1可知,面粉中的水分,碳水化合物和蛋白质的含量,其校正集的标准偏差均大于1.49%,校正集标准偏差较大,说明建模集样品各含量分布范围较广,用于建模的样品具有一定的代表性。预测集的标准偏差均大于1.64%,说明用于外部验证的样品各组分含量分布合理,样品的采集具有一定的代表性。面粉中脂肪含量的标准偏差为0.56%和0.45%,较其他三种成分的偏低,可能是因为面粉自身脂肪含量不高,且各样本间差别较小,故脂肪含量亦满足建立近红外光谱定量预测模型的基本要求。
表1 国标法检测面粉中水分、脂肪、碳水化合物和蛋白质含量(g/100 g)Table 1 Detection of moisture,fat,carbohydrates and protein content in wheat flour by GB method(g/100 g)
验证集的四种成分含量均落在校正集的范围之内,校正集与验证集的平均值亦接近,说明校正集和验证集划分合理,模型具有代表性和预测性。
2.3 异常样品的剔除
将样品的近红外光谱数据和参考值导入TQ Analyst软件中,经MSC和中心化处理后,选择PLS方法建立近红外全光谱定标模型。通过马氏距离法筛选在化学组成上与其他样品有显著差异的样品,通过参考值与预测值关系图筛选出参考值与预测值有显著差异的样品。图2为面粉样品近红外光谱的马氏距离分布图,图3为面粉样品水分、脂肪、碳水化合物和蛋白质的参考值对参考值与预测值差值的关系图。
图3 面粉水分(a)、脂肪(b)、碳水化合物(c)和蛋白质(d)的参考值与残差图Fig.3 Reference values and residuals of flour moisture(a),fat(b),carbohydrate(c)and protein(d)
图2 面粉样品的马氏距离检验图Fig.2 Mahalanobis distance test of flour samples
由图2可以看出面粉样品的马氏距离主要集中在0.3~1.6之间,55、59和62号样品较大,处于1.8~2.0之间,软件自动优化功能建议对其进行剔除,但它们与其他样品离群不显著,为了进一步确认其是否为异常样品,避免剔除有效数据,需要结合参考值与差值关系图。
由图3a可以看出55、59和66号样品的水分的参考值与差值均大于0.69,亦明显离群,故视为异常样品。图3b结果显示,55号样品的参考值与差值分别为2.34、-0.10 g/100 g,均分布在密集区,59和62号样品参考值为3.02、2.91 g/100 g,差值为-0.32、0.32 g/100 g,两侧分布较均匀,离群不显著,均在可接受范围内,不予剔除。图3c得知,55、59和66号样品参考值分别为75.41、73.87、74.17 g/100 g,均分布在正常范围内,差值分别为-1.17、-0.63、0.78 g/100 g,离群不明显,不能舍去。由图3d可知,36、40、41号面粉样品明显离群,其蛋白质含量仅为0.27~0.42 g/100 g,而其他样品蛋白质含量均在6.9 g/100 g以上,经查证,这三个样品均为面粉淀粉,经过精加工后蛋白质丢失严重造成,为了减少这种样品对蛋白质定量模型的影响,将其视为异常样品,从校正集和验证集中删去。
2.4 光谱预处理
由于面粉颗粒尺寸,均匀性等的影响,光程无法保持恒定,用多元信号矫正(MSC)或标准正则变换(SNV),结合微分和平滑对光谱进行处理,消除光谱测量中的基线漂移,放大和分离重叠信息,提高信噪比,提高模型稳健度[25]。将剔除异常样品后的各样品化学测定值与近红外全光谱进行关联,分别比较17种不同光谱预处理方式的性能,筛选出面粉各组分PLS模型的最佳光谱预处理方法。表2~表4为基于全光谱的PLS法在不同光谱预处理下所建立面粉水分、脂肪、碳水化合物和蛋白质的定量模型。
表2 不同预处理的面粉水分的全波段PLS模型结果Table 2 Results of the full-band PLS model of flour moisture with different pretreatment
表4 不同预处理的面粉碳水化合物的全波段PLS模型结果Table 4 Full-band PLS model results for different pretreated flour carbohydrates
由表2可知,在原始光谱所建的面粉水分PLS模型中,Rcv和Rp和RPD分别为0.9723、0.9900和5.38,RMSECV和RMSEP分别为0.327、0.305,模型有较高的相关系数和RPD和较低的均方根误差,说明面粉水分含量与近红外光谱之间存在较好的相关关系,能够满足近红外光谱用于面粉水分定量分析的要求。但经过MSC、SNV和一阶导数处理后,模型效果普遍得到一定程度的改善,其中,SNV处理下的面粉水分模型为最佳模型,其Rcv、Rp和RPD为0.9826、0.9955和6.80,RMSECV和RMSEP分别为0.260、0.241,与原始光谱模型相比,SNV模型取得了更高的相关系数和更低的均方根误差,说明其模型有更好的稳健性与预测性。
由表3可知,所有预处理方法均取得较高的相关系数和较低的均方根误差,其中SNV为最佳预处理方法,其Rcv、Rp和RPD为最大,分别为0.9653、0.9896和5.86,RMSEC、RMSEP和RMSECV仅为0.103、0.077、0.144,且它们之间不存在显著差异,说明面粉脂肪含量与近红外光谱间存在较强的相关性。
表3 不同预处理的面粉脂肪的全波段PLS模型结果Table 3 Full-band PLS model results for different pretreated flour fats
由表4可知,对于面粉碳水化合物来说,单一预处理方法所建模型效果普遍低于不同组合预处理方法所建模型。与其他模型相比较,仅采用二阶导数处理的模型,虽然其RMSEP高达0.9977,RMSEC亦远低于其他模型,低至0.041,但其RMSECV和RMSEP却高达1.020和0.533,明显高于其他模型,RMSEC、RMSECV和RMSEP之间存在明显差异,说明模型信息提取不充分。而SNV+2nd+ND处理后,模型的Rcv、Rp为0.9941和0.9968,RPD从9.77提高到11.96,RMSECV从0.445降低到0.354,且RMSEC、RMSECV和RMSEP之间的差异不显著,说明SNV+2nd+ND处理后,模型的预测性能明显改善,SNV+2nd+ND为最佳的预处理方法。
由表5可知,对于面粉的蛋白质来说,SNV+1st+ND为最佳的预处理方法,其Rcv、Rp、RPD分别高达0.9949、0.9991和33.93,RMSEC、RMSECV和RMSEP分别为0.119、0.197和0.107,较高的相关系数和较低的均方根误差说明面粉蛋白质含量与近红外光谱之间具有极强的相关性。
表5 不同预处理的面粉蛋白质的全波段PLS模型结果Table 5 Full-band PLS model results of different pretreated flour proteins
综上所述,经过预处理的光谱所建立的模型普遍优于原始光谱所建模型,说明光谱预处理能够有效地降低由仪器、样品背景等产生的噪声、基线偏移和光散射等因素对模型效果的不良影响。而不同预处理方法对模型预测性能有差异,其中,基于全光谱的PLS定量模型中,面粉水分、脂肪、碳水化合物和蛋白质模型的最优预处理方法分别为SNV、SNV、SNV+2nd+ND和SNV+1st+ND。
2.5 基于向后区间偏最小二乘法(BiPLS)的面粉近红外光谱模型优化
BiPLS法是Nørgaard等[26]对iPLS法的改进,是一种“只出不进”谱区选择方法。其原理是将全光谱分为N个等宽的区间,然后每次剔除一个子区间,用剩下的(N-1)个子区间进行组合来建立PLS模型,比较各种组合下的模型效果,其中RMSECV最小时所剔除的子区间为性能最差的子区间,此时的联合区间为最佳的建模区间。以此类推,直到剩下一个区间为止。本研究利用上述筛选出的最佳预处理方法,将整个近红外光谱谱区(10000~4000 cm-1)平均分为6个等宽的光谱子区间,对应的光谱范围分别[1]5000~4000 cm-1;[2]6000~5000 cm-1;[3]7000~6000 cm-1;[4]8000~7000 cm-1;[5]9000~8000 cm-1;[6]10000~9000 cm-1。除了通过RMSECV评价模型外,还要综合其他6个参数对模型进行评价,从而分别筛选出最佳的谱曲组合,分别得到5个性能最佳BiPLS定量模型,并与全光谱所建立的PLS定量模型进行比较。表6为5个最佳联合子区间与全光谱所建立定量模型的性能。
由表6可知,BiPLS法与全光谱PLS法所建立的模型均取得了较高的相关系数和较低的均方根误差,且RPD均大于2.86,表明两种方法所建立的面粉水分、脂肪、碳水化合物和蛋白质定量模型均具有较好的预测性能。
表6 基于BiPLS法的最优模型性能比较Table 6 Performance comparison of optimal models based on BiPLS method
水分的BiPLS法模型中,随着联合区间的减少,模型的RPD呈现下降趋势,可能原因是去除了与水分有关的光谱信息造成了模型预测性能的下降。其中,与全光谱PLS模型相比,使用光谱波段为[1 2 4 5 6]所建立的BiPLS模型性能最佳,其因子数降为6,RPD增加到7.56,而模型的Rcv和RMSECV与全光谱PLS模型相当,为0.9812和0.270。
而脂肪的联合区段为[1 2 3 6]的BiPLS模型性能最佳,相较于全光谱PLS模型,其Rcv和RMSECV相当,分别为0.9650和0.145,而Rp和RPD略有上升,说明其预测性能略有优势。
对于碳水化合物来说,BiPLS模型随着波的减少,因子数亦有所减少。其中,波段区间为[2]的模型最佳,与全光谱模型比较,其Rcv和Rp有所增加,为0.9949和0.9970,而且RMSECV和RMSEP略有下降,为0.328和0.383,说明模型整体性能更优。
相较于全光谱,蛋白质的光谱区段为[2 6]的BiPLS模型因子数、RMSECV和RMSEP更低,分别为9、0.195和0.091,而Rcv和Rp达到0.9950和0.9994,RPD从33.93增加到40.07,说明面粉蛋白质BiPLS模型取得很好的预测效果。
利用以上最佳联合光谱区段和最佳的预处理方法,将近红外光谱与面粉化学参考值相关联,建立的面粉水分、脂肪、碳水化合物和蛋白质近红外定量模型结果如图4所示。
图4 面粉水分(a)、脂肪(b)、碳水化合物(c)和蛋白质(d)的参考值与预测值关系图Fig.4 Diagram of reference values and predictive values for flour moisture(a),fat(b),carbohydrates(c)and protein(d)
由图4可知,面粉样品各组分均匀地分布在回归线的两侧,校正集与验证集回归线趋于一致,模型预测值与国标测定值之间基本一致,所建面粉近红外模型的预测效果很好,表明4种组分的近红外光谱和它们的参考值具有显著的线性相关性,模型可用于面粉水分、脂肪、碳水化合物和蛋白质的快速检测。
3 结论
本文将近红外光谱与面粉水分、脂肪、碳水化合物和蛋白质国标测定值进行关联,通过对比不同预处理方法建立的全光谱PLS模型筛选出最佳预处理方法,应用BiPLS法进一步确定出最佳建模谱区,结果表明BiPLS法建立的模型略优于全光谱建立的PLS模型。所建立的面粉水分、脂肪、碳水化合物和蛋白质的定量模型校正集相关系数Rcv分别为0.9812、0.9650、0.9949和0.9950,RMSECV分别为0.270、0.145、0.328、和0.195,验证集相关系数Rp分别为0.9963、0.9926、0.9970和0.9994,RMSEP分别为0.217、0.061、0.380和0.091。较高的相关系数和较低的RMSECV,RMSEP说明模型具有良好的稳健性和预测性。因此,所建立的近红外定量模型适用于面粉水分、脂肪、碳水化合物和蛋白质的快速监测,既能为面粉生产企业实现在线监测和品质控制提供可能,又能为食品质量监督部门的日常监管提供理论依据。