近红外光谱技术识别沾化和陕西冬枣产地的研究
2016-05-30陈璐谷晓红王文博张丙春范丽霞赵平娟
陈璐 谷晓红 王文博 张丙春 范丽霞 赵平娟
摘要:为探索利用近红外光谱分析技术识别陕西和沾化两地冬枣的可行性,本研究应用便携式近红外光谱仪并结合簇类独立软模式分类(SIMCA)和偏最小二乘判别分析(PLS-DA)两种建模方法识别冬枣的产地,同时研究了不同近红外光谱预处理方式对模型预测识别率的影响。结果表明,采用原始近红外光谱结合SIMCA和PLS-DA方法识别沾化冬枣和陕西冬枣是可行的,其中PLS-DA方法的准确度更高,对冬枣验证集样品识别率为100%。
关键词:近红外光谱;冬枣;产地识别;偏最小二乘判别分析(PLS-DA);簇类独立软模式分类(SIMCA)
中图分类号:S665.101.9 文献标识号:A 文章编号:1001—4942(2016)03—0133—04
冬枣是一种优质的晚熟、鲜食枣类种质资源,也是公认的品质最好的鲜食枣品种。山东省沾化县是我国晚熟鲜食枣“沾化冬枣”的主产地,被誉为“中国冬枣之乡”。在2001年“中国百姓最喜爱的水果”评选中,沾化冬枣被评为“中国果王”。2009年统计,沾化县冬枣栽培面积已达3.3×104hm2,占全国冬枣栽培面积的25%。沾化冬枣果皮赭红色,光亮,皮薄,肉脆,肉质甘甜,富含丰富的维生素和钙、钾、铁、锌、铜等多种矿质元素,具有一定的保健功效。“沾化冬枣”因此成为品质的象征,具有很大的品牌优势。在山东市场上,由于沾化冬枣的价格高于陕西冬枣,存在着用陕西冬枣冒充沾化冬枣销售的情况,所以识别冬枣产地对于保护沾化冬枣这一地理标志产品有重要意义。
近红外光谱主要是分子因振动的非谐振性从基态向高能级跃迁过程中产生的,记录的主要是含氢基团振动的倍频和合频吸收,涵盖了大多数类型有机化合物的组成和分子结构信息,用其对样品进行分析,不需前处理,可以直接测定,是一种快速、高效、无损的现代分析技术。不同产地来源的农产品,因生长环境、气候、土壤、水质等的不同,导致其体内蛋白质、脂肪、糖分、水分等主要成分的组成和含量存在较大差异,而且这种差异可以在近红外光谱上反映出来,目前近红外光谱分析技术已广泛应用于酒类、谷物、肉类及脐橙、苹果等产品的产地溯源。但目前通用的近红外光谱仪一般体积较大,价格昂贵,不便移动,无法进行现场检测。
近年发展起来的便携式近红外光谱仪使得测量过程可以现场完成,且数据经化学计量学方法处理后,可以即时得到分析结果,有极大的实用性。本研究即采用便携式分光近红外光谱仪,结合簇类独立软模式法(SIMCA)和偏最小二乘判别分析(PLS-DA)两种近红外光谱定性分析方法,对采集的冬枣样本进行产地判别,以探究利用该方法现场进行冬枣产地溯源的可行性。
1材料与方法
1.1试验材料
沾化冬枣于沾化县6个村现场采集,共690个样本,具体取样信息见表1。陕西冬枣购买自陕西省渭南县,共598个样本。
1.2试验仪器及光谱采集
使用MicroNIRl700近红外光谱仪(美国JD-SU公司),数据分析软件使用Unscrambler9.7(美国CAMO公司)及MATLAB 2010a(美国Math-Works公司)。
在对冬枣样品进行光谱采集时,应尽量确保实验条件一致。光谱采集的波长范围为950~1650 nm,每次光谱采集重复扫描次数为50次,单次积分时间为8000μs。每次光谱扫描后,转动冬枣样品,重新采集一次,采集应包括样本绿色和红色的面,每个样本共采集5次,求平均得到的光谱作为该样品的代表光谱。图1为沾化冬枣和陕西冬枣的原始光谱图,可见,两者在原始光谱上差异不明显。
1.3光谱预处理及建模方法
近红外原始光谱不但包含许多与结构相关的信息,还包含许多干扰因素如基线漂移、光散射等,这些因素将影响模型建立的效果。光谱预处理就是采用数学方法减弱或消除干扰因素对光谱的影响,提取有用信息,以提高模型分析的准确性和可靠性。预处理首先要剔除异常样本,即在采集大量冬枣样品的近红外光谱时,由于仪器本身误差、操作失误或其它环境因素导致的某个样本的图谱与其它样本的图谱趋势明显不一致,就需要将其作为异常样本剔除。
SIMCA (Soft independent modeling of class a-nalogy)是一种以主成分分析为基础的定性分析方法,主要分为两步:①对校正集样本的光谱数据进行PCA分析,为陕西和沾化冬枣两个类别分别建立一个PCA模型;②计算未知样本(验证集)到两个PCA模型的距离,找出最小距离的类。SIMCA判别结果有三种,分别是未知样本只属于沾化冬枣或只属于陕西冬枣单一类别,未知样本同时属于两个类别,以及未知样本不属于陕西和沾化冬枣任何一类。当未知样本同属于多个类时,说明判别分析模型不够精确,需要改进,一般可以通过增加校正集样本数或增加变量数来解决。当未知样本同时属于两个类别时,一种原因可能是该样本到两类模型的距离相近,无法鉴别,此时可以通过预处理方法和特征波长选择重新建模进行预测;另一种原因是两个模型间距离本身就比较小,也容易出现这种现象,这是SIM-CA方法的不足之处。
PLS-DA(Partial least squares-discriminant analysis)是基于PLS方法建立的样本分类变量与NIR光谱特征问的回归模型。PLS—DA判别方法如下:①定义校正集样本的分类变量Y;②建立分类变量与光谱数据问的PLS回归模型;③根据建立的PLS模型计算验证集样本(未知样本)的分类变量值Yp,当Yp与Y的偏差<0.5时,判定未知样本属于该类。
2结果与分析
2.1沾化冬枣和陕西冬枣近红外光谱数据的主成分分析
对冬枣样品近红外光谱数据进行主成分分析,利用第1、2主成分得分作散点图(图2),可以直观地看出,沾化冬枣和陕西冬枣样品的第1、2主成分得分明显分为2个部分,有明显的聚类趋势。初步说明利用近红外光谱技术识别沾化冬枣和陕西冬枣是可行的。
2.2 SIMCA判别模型的建立与验证
建立模型前,需对原始光谱进行预处理。光谱预处理方法很多,多元散射校正(MSC)、标准归一化(SNV)、一阶导数和二阶导数是常见的4种预处理方法。本研究分别采用几种不同预处理方法处理后的光谱建立SIMCA模型,对验证集样本的识别率和拒绝率见表2。通过对比发现,多元散射校正(MSC)+二阶导数预处理方法对验证集样品的识别率最高,对陕西冬枣和沾化冬枣的识别率分别达到了97.0%和96.6%;而对于两地冬枣的拒绝率均为100%。可见,采用MSC+二阶导数预处理方法建立的SIMCA模型预测效果最好。
2.3 PLS-DA判别模型的建立与验证
按照PLS-DA判别方法的流程,首先对沾化和陕西冬枣校正集样本的分类变量进行赋值,陕西冬枣赋值1,沾化冬枣赋值2;比较多种光谱预处理方法,根据最优校正模型的主要性能参数筛选出最佳处理组合。表3为不同光谱预处理方法对陕西冬枣和沾化冬枣验证集的验证结果,可见,SNV+一阶导数的拟合效果最好,MSC+一阶导数的拟合效果与之相近,得到的陕西冬枣和沾化冬枣模型的预测值和实测值的相关系数都在0.98以上,均方根误差也较小。图3为验证集样本中,使用SNV+一阶导数预处理方法建立的PLS-DA模型对陕西冬枣和沾化冬枣的预测结果,可见,验证集中所有陕西冬枣的分类变量的预测值都接近于1.0,偏差较小,在0.1左右;沾化冬枣分类变量的预测值基本在2.0左右,偏差均小于0.5;且对验证集冬枣样本的识别率均为100%。因此,近红外光谱分析技术结合PLS-DA能够准确识别沾化冬枣和陕西冬枣。
3结论
本研究应用便携式近红外光谱仪结合SIM-CA和PLS-DA两种建模方法分别对陕西冬枣和沾化冬枣建立判别模型,并讨论了几种不同光谱预处理方法对两种建模方法识别率的影响,结果表明,两种方法都可以有效地判别两种冬枣的产地,其中PLS-DA方法优于SIMCA方法,对验证集中冬枣样本的识别率达到了100%。
本研究所用的便携式近红外光谱仪采集的光谱只有125个变量,但通过与两种建模方法的结合,能够准确识别出两种冬枣的产地,而且易于现场检测,因此具有很大的推广应用价值。