APP下载

基于近红外光谱的胡椒产地鉴别方法研究

2019-05-22刘广昊祝诗平袁嘉佑吴习宇黄华

中国调味品 2019年5期
关键词:白胡椒胡椒小波

刘广昊,祝诗平*,袁嘉佑,吴习宇,2,黄华

(1.西南大学 工程技术学院,重庆 400716;2.西南大学 食品科学学院,重庆 400716)

胡椒是常用的食品调料、药用原料。其在止泻、消化、解毒等方面有很大的作用,在很多领域有着巨大的市场潜力和研究价值[1]。不同产区的胡椒,其外观、气味及内部化学成分存在差异,品质存在优劣之分。随着胡椒市场需求快速增长,以劣充优、掺假掺杂、滥标产地等现象层出不穷。传统方法通过检测胡椒油和胡椒碱的含量来实现胡椒的品质检测,通常采用有机溶剂萃取等方法提炼,采用薄层色谱法、气相色谱法等进行测定[2-4]。

传统鉴别方法费时费工,而近红外光谱技术高效环保、节省化学试剂[5],已广泛应用于各个行业[6,7]。He W等结合近红外光谱技术与偏最小二乘法,对茶样品起源进行了快速测定[8]。王元忠等用近红外光谱技术结合偏最小二乘法,对玛咖进行了产地鉴别[9]。吴习宇等应用近红外光谱技术实现了对8个不同产地花椒的分类[10]。

当前,基于近红外光谱技术对胡椒产地进行快速鉴别,国内外尚无文献报道。本文旨在探索一种基于近红外光谱技术对胡椒产地快速识别的方法。

1 试验材料与方法

1.1 样品收集及前期准备

从胡椒加工厂、各大超市、花椒种植户等地收集胡椒主产地样品。所购买的胡椒在外观上无明显差异。以赋值法确定胡椒品种,海南白胡椒赋值为1、云南白胡椒赋值为2、广西白胡椒赋值为3、越南白胡椒和黑胡椒赋值为4、马来西亚白胡椒和黑胡椒赋值为5。

光谱采集实验前,将采集到的胡椒样品置于干燥的环境下常温(约25 ℃)保存。使用IKA公司生产的手持式粉碎机(型号为A-11-B-S25)将样品进行粉碎处理,过80目筛,保证样品的颗粒度一致,制成每份10.0 g的300份样品,存放于自封袋中密封、编号。其中海南白胡椒60份、云南白胡椒39份、广西白胡椒32份、越南白胡椒44份、越南黑胡椒40份、马来西亚白胡椒45份、马来西亚黑胡椒40份。

1.2 仪器与设备

布鲁克MPA型近红外光谱仪;OPUS 6.0;MATLAB R2017b;Unscrambler 10.4;Origin 9.0。

1.3 谱图采集

扫描样品前将光谱仪开机预热30 min,以保证样品测试的稳定性。在约25 ℃环境下,对300份胡椒样品进行全谱段的光谱扫描:范围12000~4000 cm-1,次数32次,分辨率8 cm-1,光谱点数2307。每袋样品扫描3次,取3次的平均光谱。

1.4 光谱预处理方法

扫描得到的光谱图像往往含有噪声,这是由仪器放置的环境以及仪器本身的原因造成的;另一方面,光源带有其他光谱的干扰或者样品的基质也会对光谱产生影响。仪器和背景产生的噪声会影响分析的准确度。预处理可以减少高频随机噪声,强化样品的特征信息,使模型更加稳定。

常用的方法有基线校正(baseline)、平滑处理(smoothing)、小波分解去噪等[11]。小波分解去噪中小波模极大值去噪法计算量大,效率低,层数低时系数受噪声影响大,产生伪极值点;层数高时会丢失局部特性,低频系数直接重构容易丢失高频系数中的有用成分[12]。基于阈值的去噪方法在最小均方误差下可达近似最优。由于小波基函数数目过多,难以对小波去噪全部参数进行全面实验以探寻最优参数组合。依据以往的文献,选取表现较好的小波基函数coif2、haar、sym5等作为候选的小波基函数[13]。经多次筛选和比较,得到了较优参数组合即haar、db5、sym5和bior1.1小波函数,分解层数均为5,阈值方案是sqtwolog规则。

1.5 数据分析方法

1.5.1 偏最小二乘判别法

PLS兼具模型式方法和认识性方法的特点,能完成多组变量线性回归、降低维度和变量分析[14]。PLS对光谱矩阵X和浓度矩阵Y同时进行分解,在矩阵X和Y中提取相关因子并从大到小排列。改善了主成分分析法中有效变量的相关性较小时,选取主成分容易遗失,导致模型可信度下降的缺陷。PLS-DA算法(Partial Least Squares-Discrimination Analysis,PLS-DA)建立在PLS方法的基础上,将浓度变量替换为二进制变量,求出光谱向量与类别向量的相关性[15]。

1.5.2 支持向量机

1995年Vapnik等人引入支持向量机的概念,这是一种适合处理小样本、非线性数据的机器学习方法,广泛用于数据的分类、模型的预测以及各种回归分析。

在低维空间中,向量集往往难以划分,SVM将它们映射到高维空间进行分析。通过在高维空间寻找一个超平面从而将数据划分开来。高维空间中带来的数据计算复杂化又可以通过不同的核函数加以解决。核函数的多样性大大增加了SVM算法的多样性与灵活性。对核函数的选择是根据已知数据来进行的,这个过程中存在的误差通过确定松弛系数加以校正。

设一个数据集经过挑选得到的训练集为{xi,yi},i=1,…,n,xi∈Rn,yi∈{-1,1},则SVM分类器的形式为:

(1)

(2)

对未知样本进行测试的误差上限为:

(3)

上式表明,支持向量的个数越少,误差越小。

1.5.3 径向基神经网络

1980年Powell引入RBF神经网络的概念[16]。RBF神经网络有输入层、输出层和隐含层。输入层为感知单元,是网络内外的桥梁。径向基函数作为隐藏单元构成隐藏层,完成非线性变换。输出层负责做出响应。

RBF神经网络的基础是函数逼近理论。插值是函数逼近的重要组成部分。创建2个集合{xi∈Rn|i=1,2,…,N}和{di∈R1|i=1,2,…,N}。前者有N个不同点,后者有N个实数。映射Rn→R1构成函数F使得:

F(xi)=di。

(4)

RBF神经网络的目的是选择一个F满足:

(5)

{υ(||x-xi||)|i=1,2,…,N}为N个任意函数;||·||为范数。υ为径向基函数,xi∈Rn为函数的中心。

给定T={(xi,d1),…,(xN,dN)}∈RN×R1,将式(4)带入式(5),构成下列方程组:

(6)

υji=υ(||xj-xi||),j,i=1,2,…,N。

元素为υji的N×N阶矩阵为非奇异阵时,存在唯一解[17]。

RBF神经网络具有训练方式简单易学、收敛快、对非线性函数的拟合效果好等特点。

1.5.4 线性判别分析

线性判别分析是由Fisher在1936年提出的。将多维数据投影到一个方向上,使得所有数据在这个方向上满足类与类之间拥有最大距离。而同一类样本数据的类内距离最小。使数据的分类分离效果最好。既压缩了维数,又提取了特征。线性判别方法常用于人脸识别,图像分类和森林覆盖率等方面的问题研究。

2 结果与分析

2.1 样品近红外光谱

300份胡椒的光谱见图1。

图1 样品近红外光谱图Fig.1 Near infrared spectra of the samples

由图1可知,原始光谱在波数8334,6862,5182,4734,4326,4007 cm-1附近有明显吸收峰。其中8334,4734,4326 cm-1处的吸收峰可能是由C-H基团的合频、二倍频和三倍频吸收造成的。因为O-H伸缩振动的二倍频区域在6700 cm-1附近,H2O的一个合频吸收区在5155 cm-1附近,因此6862,5182 cm-1处的吸收应该是胡椒中的水分引起的。水分含量越高的样本其反射率越低,吸光度越高。全光谱范围内的吸光度可分为3个阶梯,依次是12000~6800,6800~5200,5200~4000 cm-1。光谱较为平缓,波峰较宽,且吸收强度较弱。谱图趋势大致相同,说明不同产地胡椒的组分大致相同,曲线的差异主要是不同产地胡椒主要成分的含量差异所致。由图1中还可以看出,由于光谱特征信息重叠较多,样品的特征值无法根据峰位等直接得到。所以,需通过化学计量学方法进一步提取有效光谱信息,实现胡椒的产地鉴别。

2.2 光谱预处理

图2中a~f为6种较有代表性的预处理方法下的光谱曲线。

图2 不同预处理方法下的光谱曲线Fig.2 Spectral curves with different preprocessing methods

由图2可知,所有预处理方法都明显减弱了散射的影响。预处理后的光谱曲线更为平滑,波形的特征尖峰点没有改变。对比发现,经过基线校正、SNV、基线校正结合MSC、基线校正结合SNV以及sym5小波分解后的数据与原始数据在谱线趋势上保持高度一致。而非线性趋势消除(DET)处理后的数据与原始数据在谱线趋势上有明显差异。基线校正是一种对原始光谱值减去最小值处理的方法,所以在谱线变化及数值分布上最接近原始数据。对于连续性较好的信号,sym5小波在已选的4种小波方法中去噪效果较好。

进一步探究不同预处理方法的预处理效果,对全谱数据建立PLSDA模型,结果见表1。

续 表

由表1可知,在单一的预处理方法中,除了数据归一化和非线性趋势消除外,其他单一预处理方法的模型精度都明显高于原始光谱模型精度。基线校正与SNV对光谱数据的预处理都大大提高了模型精度。在校正集和内部验证集中,两种方法得到的相关系数与均方根误差非常接近。但是在预测集中,基线校正的参数要好于SNV。在基线校正与MSC及SNV组合的两种预处理方法中,校正集的相关系数并没有明显提高,而内部验证集与预测集的相关系数相较于原始数据模型有了明显下降,且内部验证集与预测集的均方根误差有了明显上升。原因可能是该方法在消除随机噪声的同时滤掉了部分有用信息。在众多预处理方法中,小波分解去噪法的模型精度普遍高于其他预处理方法的模型精度。在校正集与预测集中,小波去噪预处理后的模型均方根误差低于0.01。其中db5小波预处理后的模型精度最佳。综合考虑,本研究选择基线校正与小波分解去噪法作为最佳预处理方法进行分类建模。

2.3 产地鉴别

采用Kennard-Stone算法从300份胡椒样品中选取225份样品作为校正集,剩余75份样品作为预测集。必须保证225份样品中有海南45份,云南30份,广西24份,越南66份,马来西亚60份;75份样品中有海南15份,云南9份,广西8份,越南23份,马来西亚20份。海南、云南、广西、越南、马来西来的编号分别为“1”、“2”、“3”、“4”、“5”。对挑选出的基线校正、sym5小波、db5小波、haar小波和bior1.1小波分解预处理后的光谱数据进行PCA降维,选择合适的主成分数,分别建立SVM、LDA、RBF 3种产地鉴别模型。经过RBF神经网络建立产地鉴别模型的分类结果见图3。

图3 RBF神经网络定性鉴别结果Fig.3 The qualitative discrimination results of RBF neural network

图3(a)为原始光谱未进行预处理的RBF神经网络鉴别结果。预测集中15个海南白胡椒样本出现了4个偏差,9个云南白胡椒样本出现了2个偏差,8个广西白胡椒样本出现了2个偏差。鉴别准确率为(75-8)/75=89.33%。

图3(b)为基线校正后的RBF神经网络鉴别结果。预测集中15个海南白胡椒样本出现了1个偏差,9个云南白胡椒样本出现了1个偏差,8个广西白胡椒样本出现了1个偏差。鉴别准确率为(75-3)/75=96%。

图3(c)为db5小波去噪预处理后的RBF神经网络鉴别结果。预测集中75个样品没有预测偏差。鉴别准确率为100%。

图3(d)为haar小波去噪预处理后的RBF神经网络鉴别结果。预测集中20个越南胡椒样本出现了1个偏差。鉴别准确率为(75-1)/75=98.67%。

不同预处理方法下分别采用SVM、LDA、RBF 3种建模方法对胡椒产地鉴别分类的结果见表2。

表2 不同光谱预处理的胡椒产地分类结果Table 2 The classification results of the places of origin of pepper with different spectral preprocessing methods

在全光谱范围内,预处理方法不同,建模效果也有所差异。在无预处理的情况下,对数据进行PCA降维,最佳主成分数为17,3种模型中最佳分类模型为SVM,准确率达到96%。原始光谱采用基线校正与sym5等4种不同小波预处理后,经过PCA降维选出各自最佳主成分数进行建模。其中SVM模型和RBF神经网络模型的鉴别准确率均大于或等于原始光谱鉴别模型的准确率,而LDA鉴别模型的准确率有所降低,可能是在压缩维数的同时提取的特征有所不足导致的。基线校正和db5小波去噪后的光谱数据经PCA降维后建模分类效果较好,最高达到100%。其中db5小波仅选择了7个主成分,大大减少了数据处理的复杂性。总体来看,支持向量机模型分类效果优于LDA模型与RBF神经网络模型。

3 结论

采用SVM、LDA和RBF神经网络建立了胡椒样品产地的定性鉴别模型。未对光谱进行预处理时,3种模型的正确率最高为96%。通过基线校正与小波分析的方法对光谱进行预处理并通过PCA对数据降维后,SVM和RBF神经网络模型鉴别准确率均有明显提升,最高达到100%。db5小波预处理后仅选择7个主成分正确率达到100%的数据。分析表明,基线校正与小波去噪能够明显改善胡椒判别模型的准确率。因此,基于近红外光谱的胡椒产地鉴别方法是可行的。

猜你喜欢

白胡椒胡椒小波
基于多小波变换和奇异值分解的声发射信号降噪方法
构造Daubechies小波的一些注记
基于MATLAB的小波降噪研究
治气管炎
柬埔寨蒙多基里省胡椒产量逐年增加
sticky rice chicken 糯米鸡
青蛙历险
海南胡椒价格持续走高
印度胡椒较高的输出量可能会导致市况萧条
胡椒脱粒去皮机的设计