APP下载

基于高光谱成像技术的祁门红茶等级无损检测

2021-09-02范婷婷陆江明康志龙牛新环穆青爽

食品工业科技 2021年16期
关键词:维空间光谱茶叶

范婷婷,陆江明,康志龙,牛新环,穆青爽

(河北工业大学电子信息工程学院,天津 300401)

茶是世界上最有价值和最流行的饮品之一[1],茶叶不仅可以提高机体免疫力,而且可以对抗疾病[2]。红茶在世界茶产品中是主流的消费产品,中国生产的祁门红茶是世界三大高香红茶之一,它具有独特的果香气味,受到很多人的青睐。随着人们对红茶需求的不断增加,红茶的品质越来越受到重视[3]。目前,茶叶市场存在以次充好的现象,但仅凭感官评价正确分辨茶叶品质好坏是比较困难的,而无损检测具有快速、精确和评价标准稳定的特点,因此实现茶叶的快速无损鉴别是十分必要的[4]。传统的鉴别方法是感官评价和化学试验法,这些方法主观性强、消耗时间、成本高昂、破坏性大和不易推广[5]。电子鼻和电子舌是一种用于茶叶工艺分析和质量监测的无损检测技术[6−7],但它们的缺点是会受到环境条件的影响,从而导致传感器漂移[8]。视觉图像技术[9]可以通过外部特征进行茶叶识别,但该方法不能得到茶叶的内部品质特征[10]。传统光谱技术已广泛用于茶产品的鉴别[11−12]、鉴定[13−15]和质量评价[16],其中近红外光谱技术具有快速、无损和多成分同时检测特点,但缺少空间信息。因此,结合各种鉴别手段,实现茶叶的快速、无损识别是一个新的研究方向[17]。

高光谱图像同时包含光谱特征和图像特征,可以对研究对象的内外品质进行快速、无损检测。目前,已有学者使用高光谱成像技术对茶叶的成分测定[18−20]、质量鉴别[21−22]和地理来源进行研究。Hong等[23]利用光谱范围为380~1030 nm和874~1734 nm的高光谱成像系统对龙井茶的6种地理来源进行鉴别,建立基于全光谱的支持向量机(Support Vector Machine,SVM)和偏最小二乘判别分析(Partial Least Squares Discrimination Analysis,PLS-DA)模型,校准集和预测集的准确率超过84%。Zhuang等[24]利用近红外光谱对两个地理来源的绿茶进行分类,结果表明偏最小二乘法(Partial Least Squares,PLS)的性能优于反向传播人工神经网络(Back Propagation-Artificial Neural Network,BP-ANN)和支持向量机,PLS的训练集和测试集准确率都为100%。目前,利用高光谱技术对红茶品质的研究较少,因此对红茶内外品质的快速、无损检测具有十分重要的意义。

本文利用近红外高光谱成像系统(900~1700 nm)对祁门红茶的6个等级进行分类,比较分析了PCA、MDS、t-SNE和Sammon四种不同降维技术,建立SVM和极限学习机(Extreme Learning Machine,ELM)模型并生成高光谱图像像素空间分类图。

1 材料与方法

1.1 材料与仪器

祁门红茶 某大型茶市场,参考中国官方标准方法(DB34/T 1086-2009)选取了祁门红茶6个等级,分别为一级(G1)、二级(G2)、三级(G3)、四级(G4)、五级(G5)和六级(G6)。每个等级的茶叶采集80个样本,共480个样本,每个样本5 g。放在直径为5 cm,深度为2 cm的黑色圆形塑料容器中。

近红外高光谱成像仪(主要包括4个卤素灯,功率为35 W,光强度可调范围是0~100%)、ImSpector N17光栅光谱仪 光谱成像有限公司(芬兰奥卢);Zelos-258GV线阵CCD相机 卡帕光电股份有限公司;PSA200-11-X移动平台Zolix有限公司(中国北京);数据采集软件V 10E五铃光学有限公司(中国台湾)。

1.2 实验方法

1.2.1 数据采集 近红外高光谱采集仪的光谱范围为900~1700 nm,光谱分辨率为3 nm,共256个波段。在实验中将茶叶样本均匀的平铺在直径为5 cm,高为2 cm的圆形容器中,放在前进速度为1.68 cm/s的移动台上进行图像采集,曝光时间为20 ms,镜头与样本之间的距离为32 cm。

为避免外部光线影响,高光谱图像的采集过程在暗箱中进行。原始高光谱图像噪声较大,故对其进行图像校正。本文采用黑白校正和最小噪声分离变换(Minimum Noise Fraction,MNF)方法对原始数据进行去噪处理。使用ENVI 5.3软件,提取50×50像素中心区域作为感兴趣区域(Region of Interest,ROI),计算其平均光谱作为样本的原始光谱。

各等级的茶叶样本按照3:2分为训练集和测试集,训练集包含288个样本,测试集包含192个样本。

1.2.2 数据处理

1.2.2.1 数据预处理 图像采集过程中受到暗电流噪声、探测器灵敏度和光学传输特性等因素影响,导致采集的图像质量受到影响,需要对采集图片进行黑白校正。在相同的采集条件下,分别采集反射率接近100%的白帧图像和反射率接近为0%的黑帧图像。最后根据式(1),对采集的原始高光谱图像进行黑白校正。

式中,W为黑帧图像强度;B为白帧图像强度;为I0原 始的高光谱图像强度;I为校正后的高光谱图像强度。本文中使用ENVI5.3和Matlab(R2018b)软件进行高光谱图像处理。

1.2.2.2 多维尺度变换 多维尺度变换(Multi-Dimensional Scaling,MDS)是线性的高维数据可视化方法[25],通过保持高维空间到低维空间的距离来执行转换,利用计算多维空间中每个数据点的欧氏距离来捕获转换模式。欧式距离被定义为一个对称矩阵(D),多维尺度变换尝试寻找指定空间中的数据点,使数据点(D^)之间的欧氏距离与高维空间中的距离相似。最小化函数表达式为:

1.2.2.3 主成分分析 主成分分析(Principal Component Analysis,PCA)是一种线性的高维数据可视化方法。它构造了数据集的低维表示,保留了对方差贡献最大的数据特征。假设X 是m行n列的数据矩阵(即有m个样本,n个特征),主成分分析中试图找到一个使TTCOVX−X¯TT 最大化的线性变换T,其中,COVX−X¯是数据 X 的零均值协方差矩阵。该线性映射是由零均值数据协方差矩阵的d 个主特征向量构成(即d 个主成分),其数学表达式为:

通过对d个主特征值的求解,特征值对应的特征向量构成了线性变换矩阵T的列。数据点xi映射到线性基T,得到低维数据yi其数学表达式为:

1.2.2.4 t分布随机邻域嵌入t分布随机邻域嵌入(t-Distributed Stochastic Neighbour Embedding,t-SNE)是一种非线性降维算法,用于可视化高维数据二维或三维散点图[26]。t-SNE的主要目标是使用较近点的成对距离来建模相似点,使用较远点的成对距离来建模不相似点。为了表示相似性,t-SNE使用高斯分布将数据点之间的高维欧氏距离转换为条件概率。Pj/i正 比于数据点xi与 xj之间的相似度,条件概率公式为:

式中,参数σi对于不同的点 xi取值不同,通常取以数据点xi为中心的高斯均方差。此外,通过设置条件概率对称性可减少数据异常值的影响,公式为:

在低维空间下,t-SNE使用了重尾学生t分布的联合概率分布,它的优点是使高维度下中低等的距离在映射到低维空间后能够有较大的距离,估计的联合概率的公式为:

t-SNE最小化高维空间中的联合概率分布P和低维空间中的联合概率分布Q之间的Kull-leibler(KL)散度,公式为:

该算法通过梯度下降算法最小化KL散度,得到最终收敛结果。

1.2.2.5 Sammon非线性映射 Sammon是一种非线性映射的降维技术,它是一种寻找高维空间(D维)到低维(m=2或3维)非线性子空间(其中m

Sammon映射算法的本质是寻找映射:

该映射通过梯度迭代算法对目标函数进行最小化处理,来得到数据映射后的低维表示:

1.2.2.6 分类模型 采用支持向量机(Support Vector Machine,SVM)和极限学习机(Extreme Learning Machine,ELM)两种方法建立分类模型。SVM是一种监督的机器学习模型,它利用超平面来定义执行分类的决策边界[27]。SVM基于优化后关键参数惩罚系数c 和核函数 g 实现准确的预测结果,采用惩罚参数c 最小化训练误差,简化模型复杂度。核函数系数g 表征输入空间到某一高维特征空间的非线性映射。该方法的主要步骤简述如下:使用RBF核函数,通过交叉验证优化核心参数(c, g);采用网格搜索法确定最佳参数对(c, g);根据预测集中精确度输出的最高值,建立最优的SVM分类模型。

极限学习机(ELM)是一种用于训练单层前馈神经网络(SLFN)的算法。在ELM中,需要学习隐含层和输出层之间的参数。

本文中所有算法均使用Matlab(R2018b)软件建立模型。

2 结果与分析

2.1 样本光谱特征

由于卤素灯在初始阶段光照强度不均匀以及仪器噪声影响,为了保证数据的准确性和实验结果的可靠性,剔除900~980 nm和1650~1700 nm,选取光谱范围在980~1650 nm的203条光谱带作为祁门红茶的原始光谱数据。所有样本的原始光谱曲线如图1所示,光谱数据受到随机噪声和散射效应的干扰,需要对其进行预处理。本文对原始光谱分别采用SG平滑滤波(Savitzky-Golay Filtering,SG)、标准正交变换(Standard Normal Variate,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)、SG-SNV和SG-MSC等算法对数据进行预处理。SG可以消除或减弱随机噪声,SNV和MSC用来校正散射现象,SG-SNV和SG-MSC对原始算法进行了优化。实验结果表明,SG-SNV预处理效果优于其他算法。该算法有效地修正了光散射引起的光谱基线漂移问题,使光谱的吸收峰位置更加突出,光谱曲线如图2所示。祁门红茶6个等级的平均光谱曲线如图3所示,不同等级的茶叶在三个峰处反射率差别较明显。由此可知,高光谱成像技术可建立分类模型对6个等级的祁门茶叶进行识别。

图1 样本的原始光谱曲线Fig.1 Raw spectra of samples

图2 SG-SNV预处理光谱曲线Fig.2 SG-SNV preprocessing spectral curves

图3 样本的平均光谱曲线Fig.3 Mean spectral curvesof tea samples

2.2 高维数据可视化

利用MDS、Sammon、t-SNE和PCA等算法对高光谱图像进行高维数据的低维可视化。实验结果如图4所示,不同颜色的聚类代表不同的茶叶等级,只有t-SNE可以将6个等级的茶叶明确区分。如图4(a)、图4(b)、图4(d)所示,MDS和PCA不能将G1和G4完全区分开,Sammon不能将G5、G6以及G1、G3完全区分开,主要原因是该样本具有相似的光谱特征。与PCA和MDS相比,Sammon对6个等级祁门红茶的可视化效果较差。由于Sammon映射没有显式地表示转换函数,该算法只是提供了一种度量方法来衡量转换结果,故分离簇的能力不强。PCA和MDS无法保持高维空间的数据结构,因其只利用了远处数据点的信息,所以分离簇能力较弱。如图4(c)所示,与其他算法相比,t-SNE能够捕获数据的非线性和邻域信息,故可呈现较好的可视化效果。由实验结果可知,t-SNE识别最大分离簇数的能力优于PCA、MDS和Sammon。

图4 高维数据可视化Fig.4 Visualising high dimensional data

2.3 分类结果验证

本文采用SVM和ELM建立判别模型,表1展示了SVM和ELM模型对经过预处理与未预处理光谱数据进行判别的实验结果。其中,SVM模型惩罚系数 c 为1.2,核函数系数g 为2.8,ELM模型的隐层节点数为5。由实验结果知,SVM和SG-SNVSVM模型,训练集和测试集的准确率分别为100%。ELM模型的识别效果较差,ELM模型的训练集和测试集准确率分别为90.27%和85.93%,SG-SNV-ELM模型的训练集和测试集识别率分别为98.61%和96.35%。预处理之后的SVM模型分类精度没有发生变化,而经过预处理的ELM模型分类精度显著提高。由此可知,SG-SNV预处理对ELM得到有效应用。

表1 预处理前后模型结果Table 1 Model results before and after pretreatment

图5是不同模型的混淆矩阵结果。图5(a)混淆矩阵结果存在较多识别错误,G2中10个样本和3个样本被分别识别为G1和G4,G3中3个样本被识别为G4,G4中3个样本被识别为G3,G5中1个样本和3个样本被分别识别为G4和G6,G6中4个样本被识别为G5。图5(b)混淆矩阵结果出现少量识别错误,G3中1个样本被识别为G1,G4中4个样本被识别为G2,G6中1个样本被识别为G5。图5(c)和图5(d)的混淆矩阵结果完全正确。

图5 混淆矩阵结果Fig.5 Confusion matrix result

为了可视化6个等级祁门红茶的差异,对不同等级茶叶的像素光谱信息建立SVM和ELM识别模型,实验结果如图6示。如图6(a)所示,提取灰度图像,如图6(b)、图6(c),祁门红茶等级分类图由上到下依次为一级、二级、三级、四级、五级和六级。由图6(b)所示,SVM模型将6个等级的祁门红茶识别为各自相应的等级,但也存在一些像素点分类错误,特别是圆形容器边缘的误分类尤为明显。由图6(c)所示,ELM模型的分类图中不仅边缘像素存在误分类,而且各等级之间存在严重误分类。除去边缘分类错误,造成不同等级茶叶误分类的主要原因是光谱的相似性。误分类的另一个原因可能是茶叶的纯度,例如,将低等级的茶叶掺入高等级茶叶中进行混合售卖盈利。SVM模型的识别结果优于ELM模型。因此,SVM有较好的识别效果和性能。

图6 祁门红茶识别预测图Fig.6 Prediction map of Keemun black tea recognizing

3 结论

本文利用近红外高光谱成像技术,结合SNV-SG、PCA、MDS、Sammon及t-SNE算法,基于光谱特征,分别建立祁门红茶等级快速无损识别的SVM模型和ELM模型。结果显示,t-SNE能更好地分离不同等级的祁门红茶,其高维空间邻近数据点的信息可以保持低维空间中的数据结构。基于光谱特征的SVM模型和ELM模型的测试集识别率分别为100%和96.35%。因此,近红外高光谱成像技术结合机器学习在茶叶产品分类的应用领域具有很大潜力。

猜你喜欢

维空间光谱茶叶
《茶叶通讯》简介
基于三维Saab变换的高光谱图像压缩方法
藏族对茶叶情有独钟
Update on Fengyun Meteorological Satellite Program and Development*
香喷喷的茶叶
从零维到十维的空间之旅
星载近红外高光谱CO2遥感进展
十维空间的来访者
苦味酸与牛血清蛋白相互作用的光谱研究
铽(Ⅲ)与PvdA作用的光谱研究