基于NIRS与PLS-DA的红提产地鉴别研究
2020-04-11吕晨菲杨静慧通信作者刘艳军杨仁杰张超吴楠
吕晨菲,杨静慧,通信作者,刘艳军,杨仁杰,张超,吴楠
(1.天津农学院 a.园艺园林学院,b.工程技术学院,天津 300384; 2.天津天狮学院,天津 301700)
红提即红地球葡萄,属欧亚种,原产美国,因其果粒大、不脱粒、果肉硬脆、品质优、耐贮运、可周年供应等优点,成为鲜食葡萄品种中最珍贵且最具有商业价值的品种之一,发展前景广阔[1]。研究发现,红提果实品质和风味会因产地的生态环境不同而呈现显著差异[2]。而较大的市场价格差异造成了鲜果商品的产地仿冒现象,不利于优质果品产地的生产发展。研究建立高效的红提果实产地识别技术,对促进栽培区域布局优化、优质生产、名特优产地品牌保护等都具有重要的实践意义。
近红外光谱技术检测速度快、无损伤、无污染、操作简单[3-9],已成为农产品品种定性鉴别的一个重要手段,已经成功应用于苹果[10]、脐橙[11]、山楂[12]、石榴[13]、沙棘[14]、枸杞[15]等农产品的产地识别。但基于NIRS与PLS-DA的红提产地鉴别研究还未见报道。
1 材料与方法
1.1 材料
试验样品是从超市购置的美国红提、秘鲁红提、国产红提(新疆红提),所有样品经过筛选,每个品种选留45个,共135个,并对样品进行编号。每个样品大小均匀,无明显损伤,清洗干净并擦干,放置在待测的实验室环境中平衡24 h。
1.2 光谱采集
试验采用美国PerkinElmer公司的傅里叶变换近红外光谱仪,漫反射采集附件为积分球。光谱仪开机预热15 min,扣除背景后,在近红外波段4 000~12 000 cm-1逐个采集样品光谱(从红提的赤道部位等距依次采集3次漫反射光谱,取平均值),采集间隔为2 cm-1,扫描次数为64次,光谱分辨率8 cm-1。共采集135张红提近红外原始光谱图,如图1所示。
图1 3种红提的原始光谱图
1.3 样品集划分
采用 K-S(Kennard-Stone)方法对样品集进行划分,从美国红提、秘鲁红提、国产红提样品中选择了具有代表性的90个样品光谱进行建模,其余45个样品作为验证集,用于分类模型验证。
1.4 PLS-DA的建立与验证
采用课题组编写的偏最小二乘算法 Matlab代码,来建立红提产地判别模型。PLS-DA模型建立方法:基于PLS回归方法,利用校正集样品的自变量矩阵X和分类变量Y建立回归模型,根据待分类样本的 PLS预测值判断样本所属类别。PLS-DA模型判别过程:(1)建立校正集样品的分类变量;(2)分类变量与光谱数据的PLS分析,建立分类变量与光谱数据间的PLS模型;(3)根据校正集建立的分类变量和光谱特征的 PLS模型,计算验证集的分类变量值(ypretict)。
具体判别标准为:将3种红提,即美国红提、秘鲁红提、国产红提的分类变量分别赋值为1,2,3;①当 0.5<ypretict<1.5,判定样品属于第一类,美国红提;②1.5<ypretict<2.5,判定样品属于第二类,秘鲁红提;③2.5<ypretict<3.5,判定样品属于第三类,国产红提。
1.5 数据处理
运用Matlab和 Unscrambler软件进行数据处理。利用Origin进行图像处理。
2 结果与分析
2.1 不同产地红提的近红外漫反射光谱
图 2是美国红提、秘鲁红提和国产红提在4 000~12 000 cm-1近红外范围扣除背景后的漫反射光谱图。由图2可知,整个光谱范围内3个产地的红提样品光谱形状,谱峰位置几乎相同,不能直观的根据图谱看出3类样品的区别。
图2 不同产地红提的近红外漫反射光谱图
2.2 不同产地红提的主成分分析
对上述 3类红提采用主成分分析(PCA)法进行聚类。图3为原始光谱数据进行主成分分解,保留前3个主成分的样品散点分布图。由图3可知,不同产地样品的界限不明显,有多处重叠现象,无法直观地进行品种判别。为了准确地判别3类红提的产地,需要利用监督性判别方法来进一步区分。
图3 保留前3个主成分的样品散点分布图
2.3 不同产地红提的偏最小二乘法判别分析
在4 000~12 000 cm-1光谱范围内对校正集样品进行PLS回归并进行内部交叉验证,采用交互验证的均方根误差(RMSECV)来选择模型的最佳主成分数。图4为交互验证的均方根误差随主成分数变化的散点折线图,由图 4可知,当主成分为 6时,模型的 RMSECV不再显著降低,因此确定PLS-DA 模型的主成分数为6,建立判别模型。
图4 主成分的均方根误差(RMSECV)曲线
采用课题组编写的偏最小二乘算法 Matlab代码,对4 000~12 000 cm-1波段内采用K-S法挑选出的90个校正集样品数据进行建模和内部检测。由图5可知,模型校正集内部预测结果准确无误,3类样品均得到正确识别,判别正确率100%,所建模型具有良好的自我预测能力,模型的实际预测能力还需要通过外部验证集检验做进一步的验证。
利用K-S法挑选出的45个样品作为验证集,对所建立的分类模型进行验证集预测。由图6可知,模型验证集外部预测结果准确无误,3类样品均得到正确识别,判别正确率100%。利用PLS-DA建立的3种产地红提的分类模型具有较高的预测准确度和预测稳定性。
图5 校正集样本的PLS-DA预测结果
图6 验证集样本的PLS-DA预测结果
3 结论
利用傅里叶变换近红外光谱仪测出美国红提、秘鲁红提和国产红提的近红外光谱,通过PLS-DA算法在Matlab中建立判别模型。此方法可有效判别出3种产地红提品种,该研究为果品产地的无损定性鉴别提供了一定的理论基础。