基于NIR和PLS-DA法的东北大米产地快速溯源方法研究
2019-08-19吴静珠刘翠玲于重重
高 彤 吴静珠 林 珑 刘 志 刘翠玲 于重重
(北京工商大学食品安全大数据技术北京市重点实验室1,北京 100048)(浙江省农业科学院农业部农产品信息溯源重点实验室2,杭州 310021)
大米在中国的经济市场中起着非常重要的作用。大米的价格和质量与其产地息息相关,东北大米凭借其地理优势不但保证了大米特有的高品质,而且其价格远高于市场中同类普通产品。但是由于我国农产品市场准入制度和溯源体系的不完善,目前市场上出现东北大米“掺伪”“假冒”等现象,因此大力发展产地溯源技术对于保护地区名牌和特色产品以及质量管理部门的有效监管都具有十分重要的意义。
目前国内主流的产地溯源技术主要有矿物元素指纹分析技术、同位素指纹溯源技术、DNA指纹图谱技术[1]、红外光谱技术[2]等。其中近红外光谱技术因其具有适应范围广、采集信息量大、分析速度快、无损无污染[3]等优点,成为了快速溯源技术的研究热点。农作物中有机组分的组成及含量与其产地环境的特征关系密切,不同地域来源的农作物中化学成分含量及组成均存在差异,因此农产品的近红外光谱能够反映产地的地域特征信息,可用于产品的产地鉴别。目前已有学者将近红外光谱用于大米产地溯源探索研究。钱丽丽等[4]将近红外光谱与PLS-DA法结合用于黑龙江省内5个水稻主产区的大米粉末样品的产地判别, 5个地域的预测正确率分别为87.5%、87.5%、100%、100%、100%。宋雪健等[5]利用傅里叶变换漫反射近红外光谱法结合PLS-DA法、因子化法对来自2014年、2015年的地理标志产品查哈阳大米和五常大米进行产地溯源检测,正确率均在90%以上。
近红外光谱技术应用于大米产地快速溯源已取得了初步的成效,然而现有研究主要集中在某几个知名的东北大米产区间的产地鉴别,大米品种较为单一,且大米产地溯源模型的适用性较窄。东北大米产地涵盖了黑龙江省、吉林省和辽宁省,品种也较为繁多,主流的有长粒香、圆粒香、稻花香和小町米等。东北大米产区自然环境不尽相同且大米品种丰富多样,这都会引起大米近红外光谱显著的差异,进而影响到大米近红外产地溯源模型的准确性和适用性。因此本研究采用NIR和PLS-DA建立判别东北大米产地的溯源模型,通过光谱信号预处理和光谱分段建模方法优化东北大米产地鉴别模型,以期为东北大米产地溯源提供一种快速、无损的分析方法。
1 材料与方法
1.1 实验材料
本实验大米样本由浙江省农业科学院提供,共收集产地为东北的大米样本52份,非东北产地大米样本23份,共计75份样本产地信息如表1所示。
按照4∶1的比例随机划分训练集和测试集,其中训练集样本60份(东北大米样本43份,非东北大米样本17份);测试集样本15份(东北大米样本10份,非东北大米样本5份)。
表1 样本统计信息
1.2 仪器与设备
采用德国BRUKER公司的VERTEX 70傅里叶变换红外光谱仪[6]。
1.3 光谱采集及预处理
实验采用大样品杯旋转采样方式,装样前仔细筛查,剔除夹杂物以避免干扰,尽量保证每份样本装在样品杯中的高度一致。仪器参数设定如下:波数范围为4 00012 500 cm-1,分辨率为8 cm-1,扫描次数为64次,采样点数为2 074。大米样本的原始近红外光谱图如图1所示(黑色光谱为东北大米,红色为非东北大米)。
图1 大米近红外原始光谱图
由于原始数据存在明显的基线漂移和噪声,因此采用一阶导(9点)、二阶导(9点)、SG平滑(9点)和矢量归一化等方法进行光谱预处理。如图2所示,经矢量归一化处理后的谱图光谱质量得到了明显改善。
图2 矢量归一化后近红外光谱图
1.4 PLS-DA判别法
PLS-DA 判别分析法是一种基于偏最小二乘法(partial least squares,PLS)的有监督的模式识别方法,将光谱数据与分类变量进行线性回归。对不同处理样本(如观测样本、对照样本)的特性分别进行训练,产生训练集,并检验训练集的可信度。本研究应用PLS-DA 方法同时对光谱阵和类别阵进行分解,加强了类别信息在光谱分解时的作用,以提取出与样本类别最相关的光谱信息,即最大化提取不同类别光谱之间的差异[7-9]。
2 结果与讨论
2.1 基于不同预处理方法的东北大米产地溯源模型比较
实验采用常规的一阶导(9点)、二阶导(9点)、SG平滑(9点)和矢量归一化方法分别进行数据预处理。将赋值的地域作为分类变量Y,近红外光谱数据作为分类变量X[12],建立分类变量Y(地域)与X(预处理后的近红外光谱)的PLS-DA判别模型。R2是拟合的度量,即模型与数据的拟合程度。R2越大,说明近红外光谱经过预处理后模型准确度越高。根据已建的PLS-DA模型计算R2值,如表2所示。根据表2可得,矢量归一化后的R2(x)、R2(y)综合值最大,因此首先应用矢量归一化进行数据预处理。
表2 不同预处理方法的R2值
对光谱进行归一化预处理后需要确定用于建立模型的最佳主成分数,理论上应选择训练集效果好的为最佳主成分数,但是主成分数过大,图谱会出现过拟合现象;主成分数过少,图谱则出现欠拟合现象[11]。根据表3所示,主成分位数为1的时候,测试集正确率较好,但是训练集正确率不理想,呈现欠拟合现象。随着主成分位数的增加,训练集正确率呈现上升趋势,在主成分位数为5的时候虽然训练集正确率达到98.33%,但是测试集正确率下降,可是能过拟合的原因,见表3所示。因此,本实验中PLS-DA模型可确定选取主成分数为4。
表3 不同主成分数训练结果
2.2 基于分段谱区的大米产地溯源模型比较
在4 000~12 000cm-1范围内,大米近红外光谱总体呈现上升趋势,在5 173、6 846、8 318 cm-1处有明显的波峰。其中4 000~5 500 cm-1处是C-H第1组合频谱区,表征蛋白质及淀粉物质中N-H、C-H、O-H及C=O键振动的要区间,其中5 173 cm-1处的吸收峰与其有关;5 500~7 500 cm-1处是C-H第2组合频区,在6 846 cm-1附近的吸收峰是因-CH2二级振动引起的,因与样品中氨基酸种类及含量有关,所以较7 500-9 000 cm-1信息稍微强些;波段7 500~9 000 cm-1处是C-H第3组合频区,其中8 318 cm-1附近的吸收峰是由脂肪烃中甲基(-CH)基团引起的[14]。由于不同波段所含信息不同,故训练效果不同,按照4个谱区分段(如图3所示)后,建模结果如表4所示。
图3 波段划分图
表4 分段建模训练结果
波段(cm-1)训练集识别率/%测试集识别率/%4 000~5 50093.33(56/60)86.67(13/15)5 500~7 50093.33(56/60)80.00(12/15)7 500~9 00095.00(5760)66.67(10/15)9 000~12 00098.33(59/60)80.00(12/15)全波段98.33(59/60)80.00(12/15)
基于特征波段的训练,最终选取结果较好的4 000~5 500cm-1作为最终模型。训练集正确率达93.33%,测试集总数为15个,正确判别13个,正确率为86.67%。
3 结论
采用PLS-DA方法结合近红外光谱建立东北大米产地快速溯源模型,通过比较不同光谱预处理方法、不同特征谱区分段建模方法优化模型的准确性和适用性。实验最终选取矢量归一化预处理方法、4 000~5 500cm-1特征光谱谱区和PLS-DA方法建立判别东北大米产地的二分类定性分析模型,训练集识别率达到93.33%,测试集识别率达到86.67%。初步的实验结果表明了采用近红外技术和化学计量学方法快速溯源东北大米产地的可行性,但是鉴于实验训练样本还不够充分,后续有待补充实验样本,进一步提升模型质量。