大米糊化特性指标的近红外光谱检测模型优化
2021-01-09彭彬倩冯晓宇沈晓芳
路 辉 彭彬倩 冯晓宇 沈晓芳
(江苏省农垦农业发展股份有限公司1,南京 210019)(江南大学食品学院2,无锡 214122)
大米的食味品质与糊化特性等理化指标密切相关。大米的主要成分是淀粉,淀粉糊化特性是评价大米食用品质重要指标,是淀粉热物理性特征的一种表现,并与大米蒸煮的质构评价有着紧密的联系[1,2]。衰减值反映大米米糊的热稳定性,回生值反映米粉糊冷却过程中的冷糊稳定性[3]。采用GB/T 24852—2010《大米及米粉糊化特性测定 快速粘度仪法》测定各组分耗时耗力、费用昂贵。近红外光谱法具有多指标同时检测、快速无损、成本低等优点[4],在谷物[5,6]、蛋制品[7]、乳制品[8]等行业均应用广泛。
目前国内外一些学者已利用近红外光谱技术对大米的直链淀粉、蛋白质等营养指标含量无损检测方面做了探索性研究。谢新华等[9]利用近红外技术建立了近红外分析数学模型,实现对稻米育种早代材料直链淀粉含量的测定,又建立了稻米淀粉黏滞特性崩解值(衰减值)模型。陆艳婷等[10]以稻谷、糙米、精米、糙米粉和精米粉为扫描材料分别建立了粳稻直链淀粉含量的预测模型。Sampaio等[11]采用过程分析技术对水稻直链淀粉的近红外光谱多变量模型进行了优化。Bagchi等[12]建立了大米直链淀粉和蛋白质含量的近红外光谱最佳校准方法——改进偏最小二乘法。这些化学计量学方法,取得了较好的结果(r>0.85),但建立大米品质模型的工作存在两个不足:1)针对大米中蛋白质、水分等基本营养成分研究较多,但大米糊化特性检测方面的报道较少;2)缺少基于一定区域内的大米品质定量模型建立。
本研究以126份产自江苏省的大米为研究对象,测定大米中各糊化特性指标,同时采集同份样品的近红外漫反射光谱,为搭建品质模型提供基础数据。在近红外光谱全波段的基础上筛选最佳光谱预处理方式,再通过人为逐一排除法剔除干扰波段建立偏最小二乘定量模型。从而对大米糊化特性指标模型进行了探究,为大米行业实现快速食味品质评价提供参考。
1 材料与方法
1.1 材料与仪器
90个品种126个大米样品由江苏省农垦农业发展股份有限公司提供(表1),其中包含有粳米、糯米和籼米,均产自江苏省。RVA 4500型快速黏度分析仪,Antaris II近红外分析仪。
表1 90个大米品种名称
1.2 方法
1.2.1 大米糊化特性指标的测定
根据GB/T 24852—2010《大米及米粉糊化特性测定 快速粘度仪法》,测定峰值黏度、最低黏度、最终黏度、衰减值、回生值、糊化温度,每份样品重复至少3次,取平均值。
1.2.2 样品近红外光谱采集
Antaris II近红外分析仪以漫反射模式扫描采集每份大米样品的光谱信息。光谱扫描范围:4 000~10 000 cm-1;分辨率:8 cm-1;扫描频数:64次;测量间隔:3.857 cm-1;变量数:1 557;增益为8×;所有光谱均采用背景空气光谱作为空白对照。将样品杯中样品倒回样品袋,重新扫描近红外光谱,3次采集得到平均光谱,以减少样品分布不均匀带来的误差。
1.2.3 光谱处理与建模
采用马氏距离剔除异常点后从样本随机选出20份作为验证集,剩余样本作为校正集,保证两集的样本化学值均匀分布,采用偏最小二乘(PLS)回归法建立大米各糊化特性指标的校正模型,根据交叉验证均方误差(RMSECV)确定主因子数。为了优化模型,采用光谱预处理结合特征波段筛选。首先,光谱预处理采用多元散射校正(MSC)、标准正态变化(SNV)、一阶导数(1st)、二阶导数(2nd)和Savitzky-Golay滤波平滑(SG),其中,Savitzky-Golay滤波平滑设定多项式的取值范围为7,阶数为3。其次,将全波段划分不同区间,采用手动法[13]筛选特征波段。
模型评判与验证:校正集相关系数rc、和校正集均方误差(RMSEC)作为直接衡量模型优劣的主要指标。使用相对分析误差(RPD)对各组分模型进一步评估,若RPD≥2.0,说明模型建立优良,可用于日常实际定量检测;若2.0>RPD≥1.4,说明模型较好,但用于实际应用任需进一步改良;若RPD<1.4,说明模型不能用于定量检测[14-16]。最后,收集验证集20份样品(不参与建模)的近红外光谱图,通过比较模型预测值与化学值进行验证。
2 结果与分析
图1为大米样本原始近红外光谱图,10 000~12 500 cm-1之间的区域光谱信息较少,因此未被用于开发校准模型,通过Antaris II 近红外分析仪采集近红外光谱范围为4 000~10 000 cm-1。由于不同样本各成分含量存在差异,不同大米样本的光谱吸光度是不同的[17],但每条光谱趋势相似,难以以肉眼评判特定波段峰值与指标含量的关系,通过TQ Analyst软件将光谱进行预处理及波段的剔筛,从而利用偏最小二乘法建立各组分的定量模型。
图1 大米样本近红外光谱图
2.1 糊化特性指标的检测结果
异常点剔除后的总样本数据统计如表2所示。峰值黏度、最低黏度和最终黏度指标的样品集数目没有出现异常值。衰减值、回生值和糊化温度指标剔除样本数3~5份,剩余数目均大于120份。除了糊化温度的化学值变异系数为5.07%,说明数据较为集中,其余指标的变异系数均较大,在20.36%~38.90%之间,说明数据分别广泛,离散度高,为建立稳健的定量模型提供基础。
表2 大米各糊化特性指标的化学值统计表
2.2 校正集与验证集的划分
排序每个指标中的化学值,每连续6个数值中5个归为校正集,1个为验证集,其中,各指标验证集均为20份,其余为校正集(两集不存在交集)。如表3所示,峰值黏度的变幅为726~2 897、818~2 866;最低黏度的变幅为205~2 207、214~2 170;最终黏度的变幅为299~3 352、317~3 274;衰减值的变幅为428~1 118、450~1 112;回生值的变幅为94~1 459、103~1 273;糊化温度的变幅为67.5~85.6、68.1~85.5。可见验证集变幅范围包含在校正集内,校正集所建模型可以运用于验证集样品,且校正集与验证集的平均值和标准偏差相近,可见校正集与验证集的内样本分布相似,选择合理。
表3 大米样本校正集和验证集划分
2.3 光谱预处理
通过测定大米样品中糊化特性指标,该数据与近红外光谱一起用于建立PLS定量模型。在没有特征光谱的情况下,光谱预处理是优化PLS模型的方式之一。随着光谱预处理的选择不同,rc、RMSEC和RPD值也发生了变化。如表4所示,基于全波段的不同光谱预处理下,衰减值和糊化温度模型均在SG处理下取得最小RMSEC,此时rc达到最大,分别为0.540 5和0.650 5,RPD均提升了0.1。采用SNV光谱预处理,回生值模型最佳,rc为0.890 5,RMSEC为146,与无任何光谱预处理比较,RPD提升到2.3。峰值黏度、最低黏度、最终黏度作为大米糊化特性主要指标,三者有较强的相关性,模型在一定程度上具有相似度,均在1st预处理下表现最佳,此时,三者的rc>0.8,分别为0.825 5、0.835 6和0.872 4,相较于无光谱预处理,三个模型的RPD值也有显著提升,分别为1.7、1.8和2.1。这些结果表明,不同的光谱预处理将导致rc、RMSEC和RPD的差异。
表4 基于全波段的不同光谱预处理下建模结果
主因子数变大可以防止欠拟合,但主因子数过大往往会单方面使校正集搭建的模型过拟合,不利于验证集的结果,因此选择合适的主因子数很重要[18,19]。根据交叉验证均方误差确定主因子数,即RMSECV最小的时候选择主因子数,峰值黏度、最低黏度和最终黏度主因子数均为3、衰减值和回生值取6,糊化温度取7。
2.4 特征波段的筛选
光谱范围的选择可以有效地提取有效的光谱信息,避免过拟合,提高模型的精度。采用人工方法[13]将全波段分为12个大范围,11个分割点依次为:4 500、5 000、5 500、6 000、6 500、7 000、7 500、8 000、8 500、9 000、9 500 cm-1。在最佳光谱预处理条件下,依次移除一个光谱范围,其他波段用于建模所得rc与全波段(4 000~10 000 cm-1)下的rc比较,结合TQ Analyst软件给出的建议波段进行了严格筛选,排除了与组分无关的波段。
采用不同的光谱范围选择和预处理方法以建立大米样品各糊化特性指标的最佳模型(表5)。在4 022~6 010 cm-1、8 001~8 937 cm-1下,糊化温度模型的rc由0.650 5提升至0.696 8,RMSEC由2.75降低为2.60,RPD提高了0.1。而衰减值和回生值效果增加不明显,rc没有得到明显提升。从相关系数大小来看,峰值黏度、最低黏度和最终黏度模型的预测值和实测值显示出良好的相关性,三者的rc均提升显著,由0.8均增加至0.9以上,分别为0.913 1、0.923 2和0.939 9,RPD > 2.0,分别为2.4、2.6和2.9,说明模型可用于精准的实际定量检测。经过最佳谱区的选择能有效提高模型的预测性和准确度。
表5 基于最优光谱预处理的特征波段下建模结果
图2为大米品质指标预测值(Y轴)与化学值(X轴)的散点图,分别为PLS模型和化学测定方法得到的数据,得到的拟合曲线,结果表明,衰减值和糊化温度的线性拟合情况不佳(图2d和图2f),散点偏离拟合线相较多,rc约为0.6,RPD也不超过1.4,由于糊化特性指标的测定方法允许误差本身较大,建模结果不稳健,因此,利用近红外光谱技术检大米糊化特性指标在现有文献中研究较少,而峰值黏度、最低黏度、最终黏度和回生值只有少数点与拟合线略有分离,且rc均在0.85以上,尤其前三者是主要糊化特性指标,rc>0.9,rc分别为0.913 1、0.923 2和0.939 9,符合稳健模型的要求,说明模型可用于实际样品的准确测定。
图2 大米糊化特性指标的定量模型
2.5 模型的检验
为进一步研究模型的可行性,采用最小二乘法拟合得到PLS模型和化学法分析得到验证集各糊化特性指标的拟合线。图3为经优化后的模型预测值和实测值的散点图(验证集)。衰减值和糊化温度模型的预测集结果较差(rp<0.67),实际预测能力不理想,考虑衰减值与回生值均为间接计算而得,增大了数据误差,且前者变异系数比后者小18%(表2),同时糊化温度变异系数最小(仅为5.07%),表明数据离散程度差,分布欠佳,校正模型不稳健。其他指标验证效果良好,尤其是最终黏度和回生值的预测线性效果良好,rp>0.85,rp分别为0.864 0和0.874 4(图3c和图3e)。现有文献中较少涉及采用近红外光谱法检测大米糊化特性参数,而检测大米淀粉含量的文献则较多,由于大米的糊化特性与淀粉含量间有较强的相关性[20],因此在一定程度上两者的检测模型具有可比性。黏度模型的rp略低于陆艳婷等[10]建立稻谷中直链淀粉模型的rp值(R2=0.813 6),但峰值黏度、最低黏度、最终黏度和回生值的rp>0.8且RPD>2.0(表5),说明模型建立优良,可用于定量检测,与田晓琳等[21]建立小米黏度模型的(0.863 6≥rp≥0.618 9)的研究一致。
图3 大米各糊化特性指标的验证模型
将验证集20个样本的化学值与预测值进行配对t检验,在95%的置信区间下,峰值黏度、最低黏度、最终黏度、衰减值、回生值和糊化温度的P值分别为0.651、0.426、0.302、0.827、0.563和0.517,均大于0.05,表明化学值与近红外光谱法所得预测值之间无显著性差异(P>0.05)。综合考虑,峰值黏度、最低黏度、最终黏度和回生值的预测效果较好,其余指标的预测结果较差。
3 结论
本实验以产自江苏省大米为研究对象,建立了基于偏最小二乘法的大米糊化特性指标定量模型。选择合适的谱区范围和光谱预处理方法可以有效地提高模型的性能,并通过验证集进一步观察了模型的可靠性。结果表明,衰减值和糊化温度的rp在0.6左右,峰值黏度、最低黏度、最终黏度和回生值的结果为0.874 4≥rp≥0.812 1,表明模型的预测值与实测值接近,预测效果良好,各指标的校正集线性拟合结果基本符合实际定量检测要求。综上,该模型为利用近红外光谱法快速无损检测大米糊化特性指标提供了研究基础,这将有利于大米资源的合理利用。