南方籼稻米胶稠度近红外光谱分析数学模型的构建与验证
2021-08-16刘红梅张文怡石习文肖应辉
刘红梅,申 涛,张文怡,石习文,戴 涛,白 涛,肖应辉
湖南农业大学农学院,湖南 长沙 410128
引 言
水稻是世界及我国重要的粮食作物之一,全球超过一半的人以大米为主食,我国则有60%以上的人口以大米为主食。随着生活水平的提高,人民对米质的要求越来越高,因此,水稻品质改良育种尤其重要。稻米胶稠度与米饭的柔软度和粘稠度有关,能反映稻米蒸煮食味品质的优劣[1-2]。化学方法测定胶稠度操作繁琐、 测试周期长、 检测过的样品不能继续用于育种研究,不利于育种工作者对早世代品种的快速筛选[3]。近红外分析技术可快速检测有机物含量[4],能无损地检测稻米品质,对加快优质稻的育种进程具有重要意义。近红外分析技术在医药、 农业等领域已得到广泛的研究应用[5-7],而在稻米胶稠度检测方面的研究少有报道。因此,本研究收集南方稻区主栽或新育成的水稻品种(组合)为材料,测定其胶稠度的化学值,收集其近红外光谱,采用偏最小二乘法,建立稻米胶稠度的近红外分析模型,以期为稻米胶稠度的快速无损检测提供参考。
1 实验部分
1.1 试验材料
收集137份南方稻区主栽或新育成的水稻品种(组合)。
1.2 测定项目与方法
1.2.1 稻米胶稠度化学值的测定
按NY/T 83—2017《米质测定方法》测定稻米胶稠度的化学值。准确称取经过100目筛的精米米粉100 mg(±1 mg),加入定制的试管内,防止米粉粘在试管口壁,4次重复。用移液管加入95%乙醇麝香草酚蓝溶液0.2 mL,并轻微摇动试管,使米粉充分分散而不沉淀结块; 再加0.2 mol·L-1的KOH溶液2.0 mL,并轻轻摇动试管,勿使米粉沉淀,将试管立即放入沸水浴中加热8 min,试管口盖上玻璃珠,保持试管内液面低于水浴锅水面,且在加热过程中米胶高度始终维持在试管长度的2/3,不应超过或者溢出; 加热完毕将试管取出,取下玻璃珠将试管置于试管架上静置5~10 min后,置于冰浴冷却20 min,然后将试管平放于米胶测定箱内(25±2 ℃),1 h后以mm为单位测量米胶长度。
1.2.2 近红外光谱的采集
用近红外光谱分析仪(波通 DA7200)扫描样品获得近红外漫反射光谱值,扫描波长范围为950~1 650 nm,识别度为5 nm,环境温度控制在25 ℃,每个样品重复扫描4次,对光谱值进行均值化处理。
1.3 稻米胶稠度近红外模型的建立
用The Unscrambler 9.7(CAMO)分析软件,基于偏最小二乘法(PLS)分别对校正集样品采用不同数据预处理方式和不同波长段的近红外光谱进行建模。为了防止模型过拟合,采用交互检验确定最佳主因子数。
1.3.1 校正集样品预处理方式的筛选
将平滑(smoothing)、 多元散射校正(multiplicative scatter correction, MSC)、 标准正态变量转换(standard normal variate transformation, SNV)、 一阶导数(first derivative)、 二阶导数(second derivative)等预处理方法单独或组合共20种预处理方式分别对原始光谱进行处理,根据模型评价指标确定最佳预处理方式。
1.3.2 最佳波长段的选择
因样品的近红外光谱在某些波长段明显的吸收峰,分别对这些表现出明显吸收峰的波长段及其复合波长段进行稻米胶稠度的近红外光谱分析,通过对比各模型评价指标确定最佳波长段。
1.3.3 模型评价指标
以校准相关系数(R)、 校准标准差(SEC)、 校准均方根误差(RMSEC)、 检验相关系数(r)、 检验标准差(SECV)、 检验均方根误差(RMSECV)作为衡量稻米胶稠度近红外模型预测效果的主要指标。模型的相关系数越接近1越好,综合使用相对百分比偏差(relative percent deviation,RPD)进一步对模型预测效果进行评价。若RPD≥3,说明该模型检测精确度高,可用于相关组分的检测; 若2.5≤RPD<3,说明所建立的近红外模型检测效果一般,可用于相关组分的定量分析,但其精度需进一步修正提高; 若RPD<2.5,则说明使用该近红外模型进行分析检测比较困难[8]。
1.3.4 模型检验
将用于验证集的30份样品(不参与建模)用DA7200采集其近红外光谱,用已经建立的稻米胶稠度近红外分析模型预测胶稠度,建立预测值和化学值的对比表格,计算其绝对误差和配对t测验的p值,以判断该近红外模型检测胶稠度的可行性。
2 结果与讨论
2.1 稻米胶稠度的分布
表1为校正集和验证集稻米胶稠度的分布情况。校正集范围为43.0~94.0 mm,平均值为71.0 mm,标准差为12.2 mm。样本胶稠度分布范围较广,且验证集两端极值在校正集之中,保证了模型预测值的准确性、 实用性。
表1 稻米胶稠度的化学值统计表Table 1 The chemical value of rice gel consistency
2.2 稻米胶稠度近红外分析的最佳预处理方式筛选
从校正集和验证集综合来看,由表2可知,采用平滑处理其校正集的校准相关系数(R)、 校准标准差(SEC)、 校准均方误差(RMSEC)分别为0.970 0,2.971 8和2.957 9; 验证集的检验相关系数(r)、 检验标准差(SECV)、 检验均方根误差(RMSECV)分别为0.964 2,3.342 1和3.227 1,相对百分比偏差RPD=3.780 5(>3),说明平滑处理的近红外分析模型效果最佳。
表2 不同预处理方法稻米胶稠度近红外模型的评价指标Table 2 Evaluation indexes of NIR model of rice gel consistency under different treatments
续表2
2.3 稻米胶稠度近红外分析的最优波长段
从图1可知校正集样品吸收峰主要分布在950~1 100,1 100~1 300和1 300~1 650 nm,所以分别对这3个波长段及组合950~1 100,1 100~1 300,1 300~1 650,950~1 300,1 100~1 650和950~1 650 nm等6个波长段的稻米胶稠度近红外光谱经平滑处理后,用偏最小二乘法(PLS)建立各波长段的稻米胶稠度近红外分析模型。由表3可知在波长段(1 100~1 650 nm)的建模效果最好,其校正集模型评价指标R,SEC和RMSEC分别为0.969 4,3.003 0和2.989 0; 验证集模型评价指标r,SECV和RMSECV分别为0.963 8,3.261 1和3.245 9,相对百分比偏差(RPD)为3.758 6,吸收峰越高其相关性越大。
图1 校正集近红外光谱Fig.1 Near infrared spectra of the calibration samples
表3 稻米胶稠度在不同波长段近红外分析模型的评价指标Table 3 Evaluation Indexes of near infrared analysis models of rice gel consistency at different wavelength bands
2.4 稻米胶稠度近红外分析模型的建立
通过软件分析,如图2,图3,剔除残差高的11个异常样品后模型评价指标进一步提高,校正集评价指标R,SEC和RMSEC分别为0.979 0,2.540 6和2.527 3; 验证集的评价参数r,SECV和RMSECV分别为0.974 1,2.820 6和2.805 8,RPD为4.419 4,提高了模型的准确性。
图2 稻米胶稠度近红外分析的残差和杠杆值Fig.2 The leverage and residual of rice gelconsistency by near infrared analysis
图3 稻米胶稠度建立的回归模型预测值与其化学值的相关性图
2.5 稻米胶稠度近红外模型的检验
用DA7200收集30份验证集样品的近红外光谱值,用新建立的稻米胶稠度近红外模型检测其胶稠度,并将稻米胶稠度的化学值与近红外光谱检测值进行对比分析,结果如表4,其绝对误差范围在0.198 6~6.502 4 mm,均符合GB/T 22294—2008 《大米胶稠度的测定》误差标准,胶稠度40~60 mm时误差不超过5 mm,胶稠度大于60 mm时误差不超过7 mm。
对验证集稻米胶稠度近红外检测值和化学测定值进行配对t检验,结果如表5,p值为0.726>0.05,表明用此近红外模型检测和化学方法分析得到的结果无显著差异,即用此新建的近红外模型检测稻米胶稠度是可靠的。
表4 验证集模型预测值与化学测定值Table 4 Predicted value and chemical value of validation set
表5 验证集稻米胶稠度的模型检测值和化学测定值的配对t检验Table 5 Paired t test of model prediction value and chemical value of rice gel consistency in validation set
3 结 论
用DA7200扫描获得了137份南方稻区稻米的近红外漫反射光谱,样品胶稠度范围为43.0~94.0 mm,覆盖了大部份稻米胶稠度范围。采用偏最小二乘法(PLS)分别经20种预处理方式和6组波长段下建立近红外分析模型。根据模型评价指标判断最佳预处理方式为平滑处理,最佳建模波长段为1 100~1 650 nm。对经过平滑预处理的1 100~1 650 nm波长段建立的近红外分析模型进行参数评价,校正集的R,SEC和RMSEC分别为0.979 0,2.540 6和2.527 3,验证集的r,SECV,RMSECV和RPD分别为0.974 1,2.820 6,2.805 8和4.419 4,模型参数较优。用新建的近红外模型对30份验证集样品(未参与建模)进行检测,与化学值进行配对t检验,近红外检测值与化学值绝对误差在0.198 6~6.502 4 mm,配对t检验p=0.726(>0.05),表明此近红外分析模型可用于稻米胶稠度的检测。与同组分的其他研究结果相比[2],此近红外分析模型检测效果更佳,其建模评价指标和外部验证结果都更优,能用于稻米胶稠度的分析检测,并能为今后稻米胶稠度的近红外分析的相关研究提供理论参考。
近红外光谱分析在农业领域的研究及应用还有待加强。为了提高模型的准确性,采用了20种不同的预处理方式和6组波长段处理,发现经平滑处理的1 100~1 650 nm波长段建立的近红外分析模型效果最佳,且经验证表明此模型可用于稻米胶稠度的分析检测。是否还有更好的预处理方法? 是否在其他波长段包含更多的胶稠度信息? 是否其他建模方法建立的模型更精确? 这些有待进一步探索。因此,为了获得更准确的近红外分析模型,(1)可以尝试足够多的光谱预处理方法或者开发新的预处理方法以减少光谱的影响因素; (2)可考虑用不同的回归分析模型进行建模以选择更优的建模方法。