APP下载

不同偏最小二乘法的近红外光谱技术测定大米中水分的研究

2019-11-05苗雪雪龚浩如陶曙华陈英姿陈祖武

分析科学学报 2019年5期
关键词:乘法预处理区间

苗雪雪, 苗 莹, 龚浩如*, 陶曙华, 陈英姿, 陈祖武

(1.湖南省农业科学院水稻研究所农业部长江中下游籼稻遗传育种重点实验室,湖南长沙 410125;2.华南农业大学数学与信息学院,广东广州 510642)

大米含水量直接关系到大米的储藏安全[1],由于没有外壳的保护,大米在储藏过程中极易在环境中吸水受潮,进而加速米粒的陈化与发霉变质。此外,水分含量也是评价大米食味和品质的重要指标[2],水分含量小的大米蒸煮后会引起表面龟裂,使米饭黏性增加,丧失弹性,进而影响食味品质。有研究表明:大米品质的感官评价值会随着大米水分含量下降而降低[3],故如何使大米含水量在安全储藏和食味品质之间找到一个平衡点至关重要,为此需要建立一种快速、准确检测大米中水分的方法。

大米中含水量的检测一般采用国家标准中的烘干法,不过该方法操作繁琐、耗时长。为了克服该方法存在的诸多缺点,近红外技术作为一种新型、无损、环保的检测技术[4 - 5]逐渐被建立和应用起来。Sun等[6]基于近红外技术模型完成了稻谷的品质分析;Pedr等[7]和Bagchi等[8]利用近红外技术检测了大米和糙米中的直链淀粉含量,获得了满意的结果。

偏最小二乘法(PLS)是常用的近红外建模方法之一[9],它一般采用全光谱建模,但是全光谱中包含了大量的无用信息和随机噪声,会增大建模时的数据处理量和运算时间,降低模型的准确度。因此,建模前剔除噪声过大的谱区,选择合适的光谱区间是十分必要的。基于此,国内外诸多专家开始致力于对PLS法进行改进[10 - 11],先后提出了区间偏最小二乘法(iPLS)、组合区间偏最小二乘法(SiPLS)和移动窗口偏最小二乘法(MWPLS)。这三种建模方法均可通过筛选特征波长,挑选出最能反映样品信息的光谱区域,提高模型的预测精度和稳定性。SiPLS是在iPLS的基础上发展起来的,它克服了iPLS单一区间建模的缺点,建模效果更优于iPLS。

本研究比较了PLS、SiPLS和MWPLS三种大米水分的近红外建模方法,通过筛选合适的光谱预处理技术和灵敏度较高的光谱区间,对模型进行简化和优化,并用预测均方根误差和相关系数对模型的预测精度进行评价,拟提出一种最优近红外模型的建立方法,为快速检测大米中水分含量提供理论基础和技术支持。

1 实验部分

1.1 仪器

MATRIX-I型傅里叶变换近红外光谱仪(德国,Bruker公司),配有OPUS 6.5软件;MATLAB2017b软件(美国,MathWorks公司);JNMJ 3型检验碾米机(台州市粮仪厂);高速万能粉碎机(天津市泰斯特仪器有限公司);DHG-9246A型电热恒温鼓风干燥箱(上海精宏实验设备有限公司);JA5003型电子天平(长沙湘平科技发展有限公司)。

1.2 材料

供试水稻材料由湖南省水稻研究所提供,选用的材料均为目前广泛推广的水稻品种,包括了籼稻、粳稻样本共327份。

1.3 方法

1.3.1 大米中水分的测定采用国家标准(GB 5009.3-2016)《食品安全国家标准 食品中水分的测定》中的直接干燥法测定大米中水分含量。

1.3.2 近红外光谱的采集将样品均匀装入样品杯中,置于样品台上扫描。采样方式为积分球漫反射,每个样品均重复2次装样扫描,平均得到一条近红外光谱,以消除样品不均匀性带来的干扰。光谱采集条件为:光谱扫描范围4 000~12 000 cm-1,分辨率16 cm-1,扫描次数64次,采样点数1 154。大米样本的近红外光谱如图1所示。

图1 大米原始近红外(NIR)光谱Fig.1 NIR spectra without any pre-treatment

1.3.3 组合区间偏最小二乘法SiPLS是一种优选特征光谱区间的化学计量学方法,该方法的原理是首先将整个光谱范围划分为n个等分区间,然后依据指定的组合区间个数,按照排列组合的思想依次联合各子区间随机组合,对每组组合区间建立PLS回归模型,并对结果进行比较,最后依据交互验证均方根误差筛选出最佳组合区间[12]。

1.3.4 移动窗口偏最小二乘法MWPLS采用单个窗口区间的数据建模,根据模型的性能决定窗口区间大小和选取的区间范围。其基本原理是截取一定宽度的一个区间,以窗口的形式沿光谱波长轴连续移动,并基于每个窗口内的数据建立一系列PLS模型,由交互验证均方根误差(RMSECV)作为区间的优劣评价标准,选择RMSECV最小的窗口区间进行模型建立。

1.3.5 模型的评价模型的评价参数主要为相关系数(R)、校正集均方根误差(RMSECV)、预测集均方根误差(RMSEP)和相对分析误差(RPD)等。在模型评价中,若RPD>3,表示定量分析模型预测能力良好,具有较强的适用性;若2.5

2 结果与讨论

2.1 样品集的划分

采用Kennard-Stone法将样本集划分为校正集和预测集[15],其中校正集282个样本,预测集40个样本。322份样本的水分含量的常规分析结果如表1所示,校正集样品大米含水量的变化范围在9.1%~16.2%之间,预测集样品含水量在8.1%~17.7%之间,校正集是预测集的子集,能更好的验证所建立的模型对变化数据的适应性。本实验选取的大米样品水分含量范围分布较广,基本上覆盖了大米中可能出现的水分含量。

表1 大米水分含量统计表

2.2 光谱预处理

为了消除光谱信息中的噪声和干扰,对原始近红外光谱进行预处理是十分必要的[16]。本文分别采用PLS、SiPLS和MWPLS作为建模方法,以相关系数R和RMSECV作为评判标准,考察了多元散射校正(MSC)、标准正态交换(SNV)、归一化(Normalize)等多种光谱预处理方法对模型建立的影响,旨在筛选出最优的光谱预处理方法。结果如表2所示,采用Range Normalization法预处理光谱建立的PLS模型获得了最小的RMSECV值,采用二阶导数法预处理光谱建立的SiPLS模型获得了最优的结果,采用多光散射校正加一阶导数(Multiplicative Scatter Correction+First Derivative,MSC+FD)法预处理光谱建立的MWPLS模型最佳,故本文分别将Range Normalization、二阶导数法和MSC+FD法确定为PLS、SiPLS和MWPLS建模时的光谱预处理方法。三种预处理方法处理后的光谱图分别见图2、图3和图4。

表2 不同光谱预处理方法对不同PLS建模的影响

图2 归一化去噪处理后光谱图

Fig.2 The spectrum after range normalize denoising

图3 二阶导数去噪处理后的光谱图

Fig.3 The spectrum after 2ndderivative denoising

图4 MSC+FD去噪处理后光谱图

Fig.4 The spectrum after MSC and FD,denoising

2.3 模型的建立

2.3.1 全光谱PLS模型的建立全光谱PLS建模的关键是主因子数的选择,主成分数选取过少,会丢失有用的光谱信息;反之,则会出现过拟合现象。本实验以RMSECV为评价标准,对最佳主成分数进行了筛选。结果如图5所示,随着主成分数的增加,RMSECV逐渐降低,当主因子数超过4时,模型的RMSECV变化不明显,故本文将PLS建模时最大主成分数设为4。

在最优的参数下,建立了大米中水分的全光谱PLS近红外模型,最优模型的校正集相关系数为0.9036,RPD为3.21。

2.3.2 SiPLS模型的建立对原始光谱采用二阶导数法预处理后,将全光谱分为5到40个区间,分别建立和比较了2、3、4个子区间组合的最佳PLS模型。表3列出了部分将光谱划分为不同子区间后,各最优联合模型的建模区间,以模型的RPD值为各模型的精度衡量标准,可知将特征光谱划分为25个子区间时,建立于第3、9、18、20号4个子区间之上的模型是最佳的。SiPLS法可以通过对光谱区间进行选择,挑选出最能代表大米水分的特征波长,降低模型的复杂性,提高模型的精度。相较于全光谱建模,此模型得到了很大的简化,其实际采用的波数点个数为116个,比全光谱模型少了89.9%。结果如表3所示,RMSECV和相关系数分别为0.3886和0.9573,RPD为3.62。

表3 选择不同光谱区域的SiPLS模型的统计结果

将光谱划分为25个子区间,模型采用第3、9、18、20号区间组合,在全光谱对应的波数位置分别为4 883~4 674、5 315~5 106、7 259~7 050、8 555~8 346 cm-1,结果见图6。O-H键的组合频在波数为4 770 cm-1和5 155 cm-1处有主要吸收峰[17],均处于SiPLS优选的波数范围内,证明实验所优选的特征波长与理论分析的特征峰相符。

图5 主因子数与RMSECV的相关图Fig.5 The Correlation between Rank and RMSECV

图6 SiPLS选择的最佳区间组合 3、9、18、20Fig.6 Selected intervals(3,9,18 and 20) of SiPLS

2.3.3 MWPLS模型的建立MWPLS模型的建立,关键在于对数据窗口大小的选择。本文将起始窗口大小设为21,窗口宽度增加的步长为10个波长变量,依次建立了窗口大小从21到401个波长点之间的多个PLS模型,其中窗口大小为181个波长点时建立的模型最佳。图7为窗口为181时所得的各变量点的交互验证均方根误差(RMSECV)随窗口位置变化的倒立峰形,可见在变量范围为900~1 080处表现为明显的大倒立峰,RMSECV值较小,在全光谱对应的波数范围为4 166~5 554 cm-1,如图8所示,水分特征峰5 155 cm-1附近被选到。此时所建模型的交互验证均方根误差和相关系数分别为0.4093和0.9525。

图7 MWPLS定位的水分信息区间Fig.7 Information regions of water located by MWPLS

图8 MWPLS选择的特征波长区间Fig.8 Selected interval of MWPLS

2.4 模型的验证

本实验选取40个未参与定标的样品对SiPLS和MWPLS所建模型的可靠性进行了检验,结果如表4所示,采用特征波长建立的两种模型各个预测参数均优于用全波段所建立的模型。本文还对两个模型的预测值和实测值进行了t检验,结果显示P均大于0.05,表明两种模型中的预测值和真实值之间没有显著性差异。鉴于MWPLS建模时选取的波点数比SiPLS建模时少,进一步简化了模型,并获得了更好的RPD值。故本文最终选择采用MWPLS对大米中水分进行模型建立。

表4 SIPLS、MWPLS和PLS建模预测结果的比较

2.5 最优模型与其他模型的对比

本文将研究结果与前人研究进行了比较,结果如表5所示,王晶晶[18]基于移动窗口偏最小二乘法(MWPLS)研究了大米中水分的含量,其选择的大米含水量在8.37%~12.4%之间,样本量为109;Ravi等[21]采用PLS法建立了大米中水分的定量模型,研究了不同品种的大米含水量的近红外光谱检测,大米含

表5 模型参数对比

水量在14.34%~23.6%之间,样本量为150。本研究中MWPLS法所得的RMSECV值和相关系数与其他文献相差不大,但大米水分的含水量在8.1%~17.7%之间,水分含量更广,样本量更大,为科学的建立近红外光谱测定大米中水分含量提供了更广泛的数据来源。

3 结论

本文分别采用偏最小二乘法、组合区间偏最小二乘法和移动窗口偏最小二乘法对大米中水分含量进行了建模和选优,建模过程中对不同光谱预处理方法和特征波长区间进行了筛选。结果表明:SiPLS和MWPLS算法均可以剔除噪声过大的谱区,相较于全谱建模,选择合适的光谱区间建模能有效的提高模型的预测精度和准确度。且MWPLS算法比SiPLS进一步减少了模型的变量个数,对MWPLS定标模型进行验证时,预测集相关系数达到了0.9617,平均预测回收率为100.64%,说明采用MWPLS法建立的定标模型具有良好的预测能力。

利用MWPLS算法的建立的近红外定量分析模型可以实现大米中水分的含量的快速检测,从而达到快速判断大米食味品质优劣的目的。本文在其他研究的基础上,增大了样本量,模型的应用范围更广。由于时间有限,本文仅将MWPLS法应用于在大米中水分含量的测定,后期将进一步研究MWPLS法在其他样品中物质含量的测定,如大米中脂肪酸,玉米中淀粉含量等。

猜你喜欢

乘法预处理区间
算乘法
你学会“区间测速”了吗
求解奇异线性系统的右预处理MINRES 方法
我们一起来学习“乘法的初步认识”
《整式的乘法与因式分解》巩固练习
全球经济将继续处于低速增长区间
把加法变成乘法
基于预处理MUSIC算法的分布式阵列DOA估计
浅谈PLC在预处理生产线自动化改造中的应用
区间对象族的可镇定性分析