基于近红外光谱技术快速检测稻谷水分含量
2022-03-10吕都
吕 都
唐健波1
姜太玲2
陈中爱1
潘 牧1
(1. 贵州省农业科学院生物技术研究所,贵州 贵阳 550006;2. 云南省农业科学院热带亚热带经济作物研究所,云南 保山 678000)
稻谷是水稻的籽实,是中国三大粮食作物之一,在中国有超过60%的人口以稻谷脱壳加工获得的大米为主食[1-3]。中国是目前已知的栽培稻起源地,种植历史悠久,可以追溯到1.4万年之前。2020年,国家统计局发布的《中国统计年鉴》显示,中国稻谷总产量约为2.1亿t[4],占全球稻谷产量的32.5%左右[5]。稻谷具有完整的稻壳可以保护颖果,使其在贮藏过程中保持品质稳定,稻壳对防止虫霉危害与缓解稻米吸湿有一定的作用,因此,大米多以稻谷的形式来进行贮藏。
目前,稻谷水分含量的测定方法主要有GB 5009.3—2016《食品安全国家标准 食品中水分的测定》中的第一法105 ℃直接干燥法和GB/T 20264—2006《粮食、油料水分两次烘干测定法》中推荐的方法。这两种方法检测精度高,但是存在对样品破坏度大、试验操作繁琐、试验条件要求高、检测结果时间长等问题。
近红外光谱快速检测技术因具有不用破坏样品、样品无需前处理、操作简单、检测时间短、检测速度快等优点[6]9-10,近年来被广泛应用于农业领域,如谷物(稻谷、小麦和大豆等)营养成分分析[7]、水果品质分析[8]和产地鉴别[9]、肉制品掺假鉴别[10-11]等。鞠兴荣等[12]采用近红外光谱技术建立稻谷水分预测模型,但效果不佳,模型决定系数为0.968 9,模型的标准偏差为0.343 4%,可能是其收集的样品主要集中在1个地区,时间跨度仅有2年。杨学文[13]采用近红外光谱技术建立稻谷水分含量预测模型,模型决定系数为0.990 3,模型的标准偏差为0.372 8%,较鞠兴荣等[12]的研究结果,其预测模型的能力有所提升,可能是其收集的样品来自南方4个不同地区,但是其并未关注样品收集的时间跨度。稻谷水分预测模型的预测精准度与参与建立预测模型的样品地域数量和时间跨度相关,即收集的样品地区越多越好,时间跨度越久越好。研究收集了2019—2021年中国北方和南方5个不同省份的稻谷样品,拟采用近红外光谱结合化学计量学方法,建立稻谷水分含量快速预测模型,以期进一步提高稻谷水分预测模型的预测精准度,并为稻谷收储提供一种快速准确的检测方法。
1 材料与方法
1.1 材料与仪器设备
稻谷(2019年,贵州省21份、辽宁省6份、黑龙江省11份、云南省15份和四川省19份;2020年,贵州省17份、辽宁省8份、黑龙江省6份、云南省12份和四川省21份,2021年,贵州省9份、辽宁省4份、黑龙江省5份、云南省3份和四川省4份):贵州省湄潭县茅坝御膳米业有限公司;
傅里叶变换近红外光谱仪:MPA型,德国Bruker公司;
高速万能粉碎机:FW-100型,天津市泰斯特仪器有限公司;
电热鼓风干燥箱:WGL-125B型,天津市泰斯特仪器有限公司。
1.2 试验方法
1.2.1 稻谷样品水分含量测定和近红外光谱的采集 按照GB/T 20264—2006推荐方法测定稻谷样品中的水分含量。使用傅里叶变换近红外光谱仪,调用积分球旋转程序,在室温条件下对稻谷样品进行近红外光谱的采集。将镀金漫反射体作为参比,每隔1 h扫描一次背景光谱。同一人操作,稻谷样品装入样品杯中,以保证装样的紧密程度基本一致。光谱扫描范围12 790.3~3 594.9 cm-1,分辨率16 cm-1,扫描次数64次,每个样品重复3次,并求每个样品的平均光谱。
1.2.2 稻谷异常近红外光谱的剔除和训练集与验证集的划分 采用主成分分析结合马氏距离的方法[14](PCA-MD),来识别稻谷样品中的异常样品光谱。使用基于联合x-y距离的样本集划分方法[15](SPXY),按照训练集与验证集样品数量之比3∶1,将剔除异常样品后的全部样品光谱划分为训练集和验证集。
(1)
式中:
yi,actual——训练集中样品的水分含量实测值,%;
yi,predicted——训练集中样品的水分含量预测值,%;
(2)
式中:
RMSEC——模型标准偏差,%;
yi,actual——训练集中样品的水分含量实测值,%;
yi,predicted——训练集中样品的水分含量预测值,%;
n——训练集中样品数量。
(3)
式中:
yi,actual——训练集中交叉验证样品的水分含量实测值,%;
yi,predicted——训练集中交叉验证样品的水分含量预测值,%;
(4)
式中:
RMSECV——模型交叉验证标准偏差,%;
yi,actual——训练集中交叉验证样品的水分含量实测值,%;
yi,predicted——训练集中交叉验证样品的水分含量预测值,%;
n——训练集中样品数量。
(5)
式中:
yi,actual——验证集中样品的水分含量实测值,%;
yi,predicted——验证集中样品的水分含量预测值,%;
(6)
式中:
RMSEP——模型验证集验证标准偏差,%;
yi,actual——验证集中样品的水分含量实测值,%;
yi,predicted——验证集中样品的水分含量预测值,%;
m——验证集中样品数量。
(7)
式中:
RPD——相对分析误差;
SD,VAL——验证集样品水分含量标准差,%;
RMSEP——模型验证集验证标准偏差,%。
2 结果与分析
2.1 稻谷样品水分含量测定和近红外光谱的采集
161份稻谷样品的水分含量结果见表1,水分含量频率分布直方图和正态分布曲线图见图1。由表1和图1可知,稻谷样品中水分含量在8.95%~25.01%,稻谷样品的水分含量主要分布于12%~15%,水分含量在9%以上和18%以上的样品量较少,表明收集的稻谷样品能够很好地代表实际生产中稻谷水分含量的情况。
表1 161份稻谷样品水分含量的测定结果Table 1 The determination results of 161 samples of rice moisture content
图1 161份样品水分含量频率分布直方图和正态分布曲线图
近红外光谱吸收谱带重叠严重,谱图解析只能判断样品中存在的化学基团,并不能直接获取更多的有效信息。161份稻谷样品的近红外光谱图见图2。由图2可知,不同水分含量稻谷样品的近红外光谱图,在12 000~4 000 cm-1内谱图趋势相似,但是样品谱图不重合,表明不同含水量稻谷的近红外光谱图重现性好,且样品存在差异。样品间的差异可能来源于样品本身,也有可能来自于操作者和图像噪声,因此,需要对161个样品的近红外光谱进行剔除异常光谱和光谱预处理。
图2 161份稻谷样品的近红外光谱图Figure 2 The near infrared spectra of the 161 sample
2.2 稻谷样品中异常光谱的剔除和训练集与验证集的划分
异常样本会对近红外模型产生很大的影响,不仅会误导近红外光谱变量的选择,而且还会对近红外模型的参数估计产生偏离影响,严重影响了近红外模型的预测准确性和稳健性[6]120。采用马氏距离剔除异常光谱,从161份样品光谱中剔除了15个样品光谱,结果见图3。采用SPXY样品划分方法,将剩余的146个样品,按照3∶1的比例划分获得训练集111个样品,验证集35个样品。训练集和验证集样品水分含量结果见表2,训练集和验证集样品水分含量频率分布直方图和正态分布曲线图见图4。
图3 样品中异常光谱的剔除结果Figure 3 The elimination results of abnormalspectra in samples
由表2可知,参与建立预测模型的训练集样品水分含量范围为8.95%~25.01%,验证集样品水分含量范围为8.98%~22.01%。训练集模型可预测的水分范围包含验证集样品水分含量范围,表明训练集和验证集的划分合理。由图4可知,训练集和验证集样品的水分含量主要分布于12%~15%,9%以下和18%以上的样品较少,表明训练集样品和验证集样品都具有很好的代表性。
表2 训练集和验证集样品水分含量结果Table 2 The moisture content results of training set and validation set sample
图4 训练集和验证集样品水分含量频率分布直方图和正态分布曲线图Figure 4 The frequency sample moisture content distribution histogram and the normal distributioncurve of training set and validation set
2.3 光谱预处理、模型的建立与优化
表3 训练集预测模型的建立与优化结果对比Table 3 The results of forecast model on the training set and optimization
图5 训练集样品实测值与预测值结果对比
2.4 训练集模型的检验
验证集样品不参与预测模型的建立,即相对于预测模型来说,验证集样品属于未知水分含量样品。验证集样品用于训练集建立预测模型的检验,以考察预测模型的泛化预测能力。验证集样品实测值与预测值结果的线性关系,以及样品预测值与实测值误差结果见图6。对验证集样品实测值与预测值结果进行T检验,结果见表4。
表4 验证集样品实测值与预测值结果进行T检验结果Table 4 The T test results of validation set between measured and predicted
图6 验证集样品实测值与预测值结果对比
3 结论
研究收集了2019—2021年5个不同地区(贵州省、辽宁省、黑龙江省、云南省和四川省)的稻谷样品,合计161份,通过采集样品的近红外光谱图,建立并优化稻谷水分含量预测模型。稻谷水分预测模型对验证集样品,预测能力强,90%以上的验证集样品其预测值与实测值的误差都在±0.5%以内,相对分析误差为7.14,且验证集样品实测值与预测值之间差异不显著,表明稻谷水分含量预测模型能够很好地快速预测稻谷样品的水分含量。水分含量是稻谷收储期间的一个重要指标,近红外无损检测技术,操作简单、检测时间短、检测效率高,可以为稻谷收储期间水分测定进行快速准确的检测。近红外预测模型的应用具有一定的局限性,预测模型应用共享程度不高,未来可以建立“互联网+近红外预测模型”,实现近红外预测模型的应用共享,提高近红外预测模型的应用程度。