APP下载

稻谷水分近红外光谱预测模型特征波长筛选

2022-08-04吕都周帅陈中爱唐健波

食品工业 2022年7期
关键词:波长光谱稻谷

吕都,周帅,陈中爱,唐健波

贵州省农业科学院生物技术研究所(贵阳 550006)

2020年,我国稻谷总产量约为2.1亿 t,占全球稻谷产量的32.5%左右[1-2]。大米是稻谷经过加工脱壳而来的产品,我国有超过一半的人口都以大米为主食[3]。稻谷籽粒具有完整的稻壳,起着保护颖果的作用,使其在储藏过程中稳定性较强,对防止虫霉危害与缓解稻米吸湿有一定的作用,大米多以稻谷的形式来进行储存[4]。水分是稻谷储存期间的重要指标,水分过高稻谷易发生霉变,稻谷水分的快速准确检测是稻谷良好收储的关键。

常规检测方法存在对样品破坏度大,试验操作繁琐,试验条件要求高,检测结果时间长等问题[5]。近红外光谱技术具有无损、前处理简单、易操作、检测时间短、检测速度快等特点,近年来被广泛应用于农业领域,尤其是谷物品质分析[6-7]。近红外光谱的吸收带是有机物质中能量较高的化学键(主要是C—H、O—H、N—H)在中红外光谱区基频吸收的倍频、合频和差频吸收带叠加而成,所以近红外光谱的吸收谱带重叠严重[8]。采用全波长近红外光谱建立预测模型时,光谱中含有大量冗余信息会影响预测模型的质量和精度,并对计算机的运行能力提出较高要求,增加了模型的解析难度,因此,从近红外光谱中筛选出与分析目标相关的特征波长是近红外快速检测技术的一个难点,也是一个研究热点[9-10]。

近红外光谱特征波长的筛选方法主要有间隔偏最小二乘法(iPLS)、连续投影算法(SPA)、移动窗(MW)、随机蛙跳(RF)、无信息变量消除法(UVE),自适应量加权采样(CARS)和遗传算法(GA)[11-12]。试验采用逐步缩短波长优中选优的方法,选择与分析目标值相关性高的波数段,舍去相关性不高的波数段。将优选出的近红外光谱的波数段,再进行划分和优选。减少模型的输入变量,减少干扰变量,缩短模型的计算时间,提升模型的预测能力。为稻谷水分预测模型提供一种输入变量少,模型预测精度高的特征波长筛选方法。

1 材料与方法

1.1 材料与设备

稻谷(贵州省湄潭县茅坝御膳米业有限公司)。

MPA型傅里叶变换近红外光谱仪(德国Bruker公司);FW-100型高速万能粉碎机(天津市泰斯特仪器有限公司);WGL-125B型电热鼓风干燥箱(天津市泰斯特仪器有限公司)。

1.2 试验方法

1.2.1 稻谷样品的收集和水分测定

将收集的稻谷样品228份,按照GB/T 20264—2006《粮食、油料水分两次烘干测定法》推荐方法测定稻谷样品中的水分。

1.2.2 稻谷样品近红外光谱的采集

将稻谷样品倒入样品杯中,使用积分球旋转程序,在室温条件下对稻谷样品进行近红外光谱的采集。将镀金漫反射体作为参比,每隔1 h扫描1次背景光谱。同一人操作,稻谷样品装入样品杯中,以保证装样的紧密程度尽量保持一致。光谱扫描范围设置为12 790.3~3 594.9 cm-1,分辨率为16 cm-1,扫描次数为64次,每个样品重复3次,求每个样品的平均光谱。

1.2.3 稻谷水分预测模型的建立与特征波长的筛选

采用主成分分析结合马氏距离的方法[13],剔除异常样品光谱。使用基于联合x-y距离的样本集划分方法[14],按照训练集与验证集样品数量之比3∶1,将剔除异常样品后的全部样品光谱划分为训练集和验证集。对近红外光谱进行预处理后,使用偏最小二乘法和交互验证,对训练集样品进行稻谷水分预测模型的建立,并对预测模型进行验证。

采用逐步缩短波长优中选优的方法,即将近红外光谱先按照波长为300 cm-1进行划分,将划分的波数段作为预测模型的输入变量,选择与响应值相关性高的波数段,舍去相关性不高的波数段。将优选出的近红外光谱的波数段,按照波长为150,50和10 cm-1进行划分和优选。减少模型的输入变量,减少干扰变量,缩短模型的计算时间,提升模型的预测能力。以模型决定系数RCAL

2和模型交叉验证决定系数RCV2,优化稻谷水分预测模型。RCAL2和RCV

2,越接近1越好[15]。

1.3 数据处理

试验数据采用OPUS 7.5、Unscrambler 10.4和Oringin 9.5.0处理分析和作图。

2 结果与分析

2.1 稻谷样品水分测定结果

不同水分的稻谷样品分布图和样品正态分布曲线图,见图1。稻谷样品的水分在8.52%~25.76%之间,且稻谷样品的水分主要分布于10%~16%,水分小于10%和大于19%的样品量较少,表明收集的稻谷样品代表性强。

图1 稻谷样品水分的分布直方图和正态分布曲线

2.2 稻谷样品近红外光谱图的采集

由图2可知,在8 324,6 853,5 199,4 749,4 393, 4 299和4 010 cm-1处有吸收峰。不同水分稻谷样品的近红外光谱图,在12 000~4 000 cm-1范围内谱图趋势相似,但是样品谱图不重合,表明不同含水量稻谷的近红外光谱图重现性好,且样品存在差异。

图2 稻谷样品的近红外光谱图

2.3 稻谷水分预测模型的建立与特征波长的筛选

采用马氏距离剔除异常光谱,从228份样品光谱中剔除20个样品光谱,将剩余的208个样品,按照3∶1的比例划分获得训练集156个样品,验证集52个样品。采用不同的预处理方式处理近红外光谱,使用偏最小二乘法建立模型,结果见图3。近红外光谱的最佳与处理方式为消除常数偏移量,模型决定系数RCAL2为0.997 5模型交叉验证决定系数RCV2为0.994 8。量方式进行预处理,按照波长300 cm-1进行划分,共

图3 不同光谱预处理方式建立的预测模型

将稻谷样品的近红外光谱图,使用消除常数偏移获得8个波数段,分别采用偏最小二乘法建立模型,并用验证集样品进行验证,结果见表1。选择交叉验证决定系数(RCV2)和外部验证决定系数(RVAL2)同时大于等于0.90的波数段为优选波数段。由表1可知,第2~8个波数段为优选波数段,共2 007个波数点,占全光谱87%。

表1 波长300 cm-1特征波数筛选结果

将第2~8个波数段按照波长为150 cm-1进行分割,共获得14段光谱,分别采用偏最小二乘法建立模型,并用验证集样品进行验证,结果见表2。选择交叉验证决定系数(RCV

2)和外部验证决定系数(RVAL2)同时大于等于0.90的波数段为优选波数段。由表2可知,2.2,4.1,5.1,5.2,6.1,7.1,7.2和8.1共8个波数段为优选波数段,共1 200个波数点,占全光谱52.02%。

表2 波长150 cm-1特征波数筛选结果

将2.2,4.1,5.1,5.2,6.1,7.1,7.2和8.1共8个波数段按照波长为50 cm-1进行分割,共获得24段光谱,分别采用偏最小二乘法建立模型,并用验证集样品进行验证,结果见表3。选择交叉验证决定系数(RCV

2)和外部验证决定系数(RVAL2)同时大于等于0.90的波数段为优选波数段。由表3可知,5.1.1,5.1.2,5.1.3,5.2.1,5.2.3,6.1.2,7.1.1,7.1.2,7.2.1,7.2.2和8.1.1共11个波数段为优选波数段,共550个波数点,占全光谱23.84%。

表3 波长50 cm-1特征波数筛选结果

将5.1.1,5.1.2,5.1.3,5.2.1,5.2.3,6.1.2,7.1.1,7.1.2,7.2.1,7.2.2和8.1.1共11个波数段按照波长为10 cm-1进行分割,共获得55段光谱,分别采用偏最小二乘法建立模型,并用验证集样品进行验证,结果见表4。选择交叉验证决定系数(RCV2)和外部验证决定系数(RVAL2)同时大于等于0.90的波数段为优选波数段。由表4可知,5.2.1.2,5.2.1.3,7.1.1.4,7.1.1.5,7.1.2.2,7.2.1.4,7.2.1.5和7.2.2.1共8个波数段为优选波数段,共80个波数点,占全光谱3.47%。

表4 波长10 cm-1特征波数筛选结果

将最终获得的优选波数段,标注在样品的近红外光谱图中,结果见图4。最终波长为10 cm-1时,获得优选波数点80个,占全光谱3.47%,所建立的预测模型,其RCV2为0.978 1和RVAL2为0.970 0,表明仅利用全光谱3.47%的信息,就可以准确预测97.81%的样品。采用逐步缩短波长优中选优的方法,筛选出来的特征波数段为7 247.465~7 174.18,5 434.634~5 361.35,5 318.922~5 284.208和4 856.071~4 744.216 cm-1共4段合计80个波数点,即80个输入变量,与分析目标相关的特征波数段,与样品近红外光谱图的强吸收峰并没有重合,这说明仅依靠近红外光谱进行谱图解析,并不能获得理想的结果。

图4 稻谷样品的近红外光谱图

3 结论

试验利用傅里叶变换近红外光谱仪采集稻谷的近红外光谱图,使用偏最小二乘法建立稻谷水分预测模型。采用逐步缩短波长优中选优的方法,筛选稻谷近红外光谱图与稻谷水分相关的特征波长。波长为300 cm-1时,筛选出的特征波长共2 007个波数点,占全光谱波数点总量的87%。将筛选出的特征波数段,进一步缩短波长进行筛选,波长为150 cm-1时,筛选出的特征波长共1 200个波数点,占全光谱波数点总量的52.02%。将筛选出的特征波数段,再进一步缩短波长进行筛选,波长为50 cm-1时,筛选出的特征波长共550个波数点,占全光谱波数点总量的23.84%。将筛选出的特征波数段,更进一步缩短波长进行筛选,波长为10 cm-1时,筛选出的特征波长共80个波数点,占全光谱波数点总量的3.47%,所建立的预测模型,其RCV

2为0.978 1和RVAL2为0.970 0,表明仅利用全光谱3.47%的信息,就可以准确预测97.81%的样品。即稻谷水分预测模型的输入变量仅占全光谱信息的3.47%,大幅降低变量的输入,提升模型的运算速度、缩短运算时间,为近红外预测模型的优化提供技术和方法支持。

猜你喜欢

波长光谱稻谷
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
谦卑的稻谷
杯中“日出”
人潮涌动
郭守敬望远镜获取光谱数破千万
稻谷的故事
浅析光谱技术在200 nm以上和以下尺度范围内的不同
紫外分光光度法测定溶血率的研究
江汉平原辞