APP下载

基于近红外漫反射光谱及不同算法对泰来绿豆的产地溯源研究

2021-11-17张爱武宋雪健王欣卉李殿威钱丽丽张东杰张桂芳关海鸥

中国粮油学报 2021年10期
关键词:泰来绿豆导数

张爱武 宋雪健 王欣卉 李殿威 钱丽丽.3.4 张东杰 张桂芳 关海鸥

(黑龙江八一农垦大学食品学院1,大庆 163319) (齐齐哈尔大学食品与生物工程学院2,齐齐哈尔 161006) (黑龙江省杂粮加工及质量安全工程技术研究中心3,大庆 163319) (黑龙江省农产品加工与质量安全重点实验室4,大庆 163319) (国家杂粮工程技术研究中心5,大庆 163319) (黑龙江八一农垦大学信息学院6,大庆 163319)

“中国绿豆之乡”泰来县生产的绿豆,被认定为国家农业部农产品地理标志产品。由于冒牌“泰来绿豆”的介入,使销量完全大于产量,干扰市场秩序,侵犯消费者的合法权益,影响了品牌绿豆的名誉,因此,对于泰来绿豆的品牌保护至关重要。在农产品产地保护方面采用化学检测手段,矿物元素指纹分析技,稳定同位素技术,电子鼻/舌技术、气质联用代谢组学分析等技术研究较为广泛,但存在检测周期长,受环境因素干扰大,操作繁琐,效率低,费用昂贵等缺点。而近红外光谱技术(Near Infrared Spectroscopy,NIR)具有稳定性好、操作简易、高效无损、环保无污染及可在线的检测特点被广泛应用。

1 材料与方法

1.1 材料与试剂

实验于2018年收获期内采用5点田间随机采样方式进行样品收集,每份样品收集2 kg,其中泰来绿豆样品78份、非泰来地区样品175份,共计253份,样品信息表如表1。

表1 随机采样样品信息

1.2 仪器与设备

FW100高速万能粉碎机,TENSORⅡ型傅里叶变换近红外光谱仪。

1.3 实验方法

1.3.1 样品前处理

实验将采集的样品进行统一晾晒、脱壳、精选,并进行超微粉碎,过100目筛,备用。

1.3.2 绿豆原始光谱采集

将TENSORⅡ型傅里叶变换近红外光谱仪预热30 min,利用OPUS 7.5软件对绿豆样品进行扫描,通过检查信号、保存峰位,扫描背景单通道光谱(每间隔1 h扫描一次),测量样品单通道光谱等操作,来消除外界信息的干扰提高采集数据的精度。

依次将绿豆籽粒样品和粉末样品倒入玻璃杯中,用压样器将样品表面处理平整,测量样品单通道采集样品光谱。仪器参数为漫反射镀金积分球,InGaAs检测器,实验所处的环境温度为(25±1) ℃,相对湿度为20%~30%,光谱波数范围12 000~4 000 cm-1,分辨率8 cm-1,扫描64 次。

1.3.3 实验样品选取

实验分别选取两地区样品量的2/3作为建模样品集,用于模型的建立,1/3作为预测样品集,用于模型的验证。各地区用于建模和预测的样品数见表2。

表2 建模及验证用样品数

1.3.4 近红外光谱数据的处理

为防止出现过拟合现象,实验采用Origin10.5对原始光谱进行一阶导数(derivative 1st)处理,通过去除受噪声、光的色散等因素干扰的波段,得到最优波数范围,进行模型研究。

1.3.5 判别模型的建立及验证

1.3.5.1 定性分析模型的研究

定性分析分为有监督的模式识别和无监督的模式识别两种模式识别技术。前者包含标准算法和因子化法。标准算法在计算时是以模型中某一类物质的平均光谱作为参考光谱,与未知样品的测试光谱进行比较的。光谱距离(D)如式(1)所示:

(1)

式中:A(λi)为测试光谱在波数点λi处吸光度值;B(λi)为模型的平均光谱在波数点λi处吸光度值;i为波数因子化法光谱距离(D)按式(2)进行计算。

(2)

式中:a为原始光谱;b为重建光谱;Tia为第i张原始光谱图的得分值;Tib为第i张重建光谱图的得分值。

需要将所处理的谱图先表示为所谓因子谱(载荷)的线性组合,如公式(3):

a=T1a×f1+T2a×f2+…+Tna×fn

(3)

式中:a为原始光谱;f为各种因子谱;T为重建原始光谱a时每张因子谱的得分值,该值越大表明该因子谱对原始光谱的贡献越大。

实验采用样品之间的距离S值来衡量定性模型的建模效果,当S<1时,表示两类样品之间存在相交关系,模型的鉴别效果极差;当S=1时,表示两类样品之间是相切的关系,模型的鉴别效果一般;当S>1时,表示两类样品是相离的关系,数值越大,模型的鉴别效果越好。

(4)

式中:D为两类样品的平均光谱距离;DT1为一类样品的光谱模型半径;DT2为另一类样品的光谱模型半径。

实验分别对籽粒样品及粉末样品采用标准算法和因子化法进行建模研究,进而筛选出最优的光谱计算法,并对最适合建模的样品状态进行进一步研究。

无监督的模式识别(聚类分析)的计算方法主要有最短距离法、最长距离法、平均距离法、加权平均距离法、中间距离法、重心法、Ward’s 氏算法。

通过光谱的预处理方式,如矢量归一化(Standard Normal Variate,SNV)、一阶导数+平滑(5、9、13、17、21、25 点,下同)、一阶导数+SNV+平滑、二阶导数(derivative 2st)+平滑、二阶导数+SNV+平滑方式,对建模原始光谱进行预处理,消除样品不均匀,光的散射,光程不恒定等因素的干扰,提高模型的检测精度[6,7]。

1.3.5.2 定量分析模型的研究

定量分析使用偏最小二乘法(partial least squares,PLS)进行拟合,来建立近红外光谱与样品组分值相关联系。采用留一交叉检验的方式进行建模,检验集检验的方式进行模型验证。PLS法的原理是通过预测变量组X与独立变量Y二者之间的关系所构成的线性模型来表达的,如公式(5):

Y=b0+b1X1+b2X2+…+bpXp

(5)

式中:b0为截距;b1~bp为回归系数;Y为绿豆样品组分值真值;X为样品组分预测值。

实验将泰来绿豆的组分值赋值为1,非泰来绿豆的组分值赋值为-1,以0作为衡量值进行判别,其中通过模型的计算出的预测值大于0的被认定为泰来绿豆,小于0的为非泰来绿豆。同时,实验用精度较高的样品状态模型去验证另一种状态的样品,研究模型的实用性。

对于定量分析而言,校正集均方根误差(root mean square error of calibration,RMSEC)及其决定系数(R2)、预测集均方根误差(root mean square error of prediction,RMSEP)及其决定系数(R2)、范围误差比(ratio of performance to standard deviate,RPD)作为衡量模型精度的指标,其中RMSEC、RMSEP数值越小R2数值越大证明模型的精度越高,同时RPD>3时模型的稳定性及检测精度最佳[8,9]。对于定量分析而言光谱的预处理方式有减去一条直线、SNV、多元散射矫正(multiplicative scatter correction,MSC)、一阶导数+平滑、二阶导数+平滑、一阶导数+减去一条直线+平滑、一阶导数+SNV+平滑、一阶导数+MSC+平滑。

2 结果与分析

2.1 绿豆样品的近红外光谱分析

图1 绿豆粉末样品原始光谱图

图2 绿豆籽粒样品原始光谱图

图3 一阶导数处理

2.2 特殊波数范围的选择

原始光谱经过一阶导数处理后,在波数为12 000~9 000cm-1范围内的光谱存在较为强烈的噪声等因素干扰,因此实验选取9 000~4 000cm-1进行建模研究,尽可能的运用近红外所提取的全部样品信息,如图3。实验与战皓等[13]对91份黄芪药材采用近红外光谱技术进行研究,所选取的波长范围相似。

2.3 不同计量学对定性分析模型的影响

2.3.1 有监督的模式识别对建模效果的影响

当S值大于1表示泰来绿豆和非泰来绿豆被均一鉴别,且数值越大表示样品差异越大。由表2可知,对于两种状态的绿豆而言,粉末状态的建模效果要优于籽粒状态的建模效果,主要是因为绿豆个体的粒径越小,它们之间所存在的空隙越小,紧密度越高,使近红外光线在样品中能更全面的进行信息提取,避免光线的损耗[14]。采用因子化法建立的模型要优于采用标准算法,因标准算法是衡量泰来绿豆样品和非泰来绿豆样品平均光谱差异程度的一个尺度,不能体现特征变化的情况。因子化法是通过对原始光谱进行主成分分解,选取特征值较大的几个主成分得分特征变量参与模式识别,起到特征信息提取的作用。由图4,图5可知,实验选择粉末状态的绿豆运用近红外光谱技术结合因子化法及一阶导数+5点平滑的预处理方式所建立的模型进行定性分析,分离程度较高,其模型的S值为1.3 479。同时,选取粉末状态的绿豆样品进行进一步研究。黄得栋等[15]利用近红外光谱技术结合因子化法对来自9 个不同产地的南五味子建立定性分析产地鉴别模型,结果表明,在特征波数5 362.4~4 191.2cm-1范围内,结合一阶导数的预处理方式能所建立的模型能实现对不同地域的南五味子进行快速鉴别研究。

表3 不同计量学及预处理方式对定性分析模型效果的影响

图4 因子化2D得分图(粉末)

图5 因子化2D得分图(籽粒)

2.3.2 无监督的模式识别对建模效果的影响

由表3可知,运用Ward’s algorithm聚类算法对泰来绿豆和非泰来绿豆的聚类效果要优于Average linkage等。主要是因为Ward’s algorithm聚类算法不同于其他算法仅是根据光谱距离将相似样品聚合在一起,而是根据寻找的同类绿豆的中变化最小的异质因子进行归类[16]。故实验采用Ward’s algorithm聚类算法结合二阶导数+SNV+5点平滑的预处理方式建立的聚类分析模型,其两类绿豆的距离值为6.409,如图6所示。宋佳航等[17]利用近红外漫反射光谱技术对来自不同产地的45份白术进行聚类鉴别分析,其正确鉴别率高达100%。Srivastava等[18]研究表明,利用NIR结合Ward’s algorithm聚类算法可以实现对水稻是否被虫害进行准确聚类。

2.4 PLS对定量分析模型的影响

PLS是化学计量学中最有效的分析方法之一,具有准确度高、稳定性强的特点[19]。由表4可知,当预处理方式为SNV时,所建立的模型RMSECV为0.129,R2为98.06,RPD为7.18,维数为7,RMSECV随着维数的增加而减小,达到最低点后几乎保持稳定不变,故选用此方法建立的定量分析模型最佳。利用该模型对预测样品集采用检验集检验的方式对模型进行验证,结果得到,RMSEP为0.123,R2为98.01,|预测相对误差|=0.6%,研究表明当预测误差<5%时,证明所建模型的检测精度极高[20]。Marquetti等[21]运用PLS法结合MSC+二阶导数的预处理方式对巴西的咖啡产地正确识别率高达94.4%。

表4 不同聚类算法及预处理方式对聚类分析模型效果的影响

注:椭圆区域内为泰来绿豆图6 不同地区绿豆的聚类树形图

2.5 模型的验证

因上述模型均采用粉末状态的绿豆进行建模,为考量模型的精度与实用度,实验将建立好的定性分析模型和聚类分析模型用于两种状态的绿豆样品进行产地判别,将定量分析模型用于籽粒样品判别,结果如表5,表6。研究表明实验建立的模型能很好的用于对于粉末状态的泰来绿豆进行鉴别,其正确识别率达到92.30%以上,对于籽粒状态的泰来绿豆样品而言,定量分析模型相比较其他的模型具有较高的识别率,证明采用NIR结合PLS建立的定量分析模型,其实用性较高,但其检测精度有待进一步提升。尽管籽粒样品比粉末样品的检测情况要差很多,但这是合乎逻辑的,因为籽粒绿豆是一个更为复杂的基质,在进行定性分析与聚类分析的过程中,根据距离值分析,能够将图谱中的微小差异放大,造成模型精度不高。而利用PLS结合SNV预处理方式能够去除样品图谱信息中可能存在的复共线关系,实现对泰来绿豆的准确鉴别。

表5 不同预处理方式对定量分析模型效果的影响

表6 绿豆粉末验证结果

表7 绿豆籽粒验证结果

3 结论

实验在波数为4 000~9 000 cm-1范围内采用NIR对不同状态的泰来绿豆进行产地溯源研究,结果表明,应用粉末状态的样品的建模效果要优于籽粒,对于定性分析而言用因子化法建立的模型精度要优于标准算法,采用一阶导数+5点平滑的预处理方式建立定性分析模型,其S值为1.347 9,对粉末和籽粒状态的泰来绿豆正确鉴别率为96.15%和76.92%。聚类分析运用Ward’s algorithm聚类算法优于其他方法,采用二阶导数+SNV+5点平滑的预处理方式建立的聚类分析模型,其“距离值”为6.409,对两种状态的泰来绿豆正确鉴别率为92.30%和76.92%。采用PLS结合SNV预处理方式建立的定量分析模型,RMSECV为0.129,R2为98.06,RPD为7.18,RMSEP为0.123,对籽粒状态的泰来绿豆正确识别率为88.46%。故运用NIR能实现对泰来绿豆的快速检测,同时定量分析模型的实用性要优于其他模型。今后如何运用科学的算法来提升所建模型的检测精度有待进一步研究,以实现真正意义上的快速、无损、高效鉴别。

猜你喜欢

泰来绿豆导数
解导数题的几种构造妙招
小绿豆变身记
清热解毒绿豆香
赵泰来:胸怀天下的收藏大家
绿豆
关于导数解法
绿豆发芽了
“常生厂”及“泰来厂”——造币总厂开办与重建时的机器设备
导数在圆锥曲线中的应用
函数与导数