基于主成分分析和高斯混合模型的茶叶分类研究
2015-01-21李新会罗红元徐晓琴林伟琦
李新会, 罗红元, 徐晓琴, 申 琦, 林伟琦
(1.郑州大学 化学与分子工程学院 河南 郑州450001; 2.厦门医学高等专科学校中心实验室 福建 厦门361008; 3.厦门市产品质量监督检验院 福建 厦门361004)
基于主成分分析和高斯混合模型的茶叶分类研究
李新会1, 罗红元2, 徐晓琴3, 申 琦1, 林伟琦3
(1.郑州大学 化学与分子工程学院 河南 郑州450001; 2.厦门医学高等专科学校中心实验室 福建 厦门361008; 3.厦门市产品质量监督检验院 福建 厦门361004)
采用气相色谱-质谱(GC-MS)和液相色谱(LC)方法,结合主成分分析(PCA)、高斯混合模型(GMM)对49个茶叶样本进行分类判别研究.通过PCA对茶叶的GC-MS信号进行特征提取,结合LC测得的茶多酚等10个变量,运用GMM对茶叶样本进行分类,训练集正确率为99.44%,预测集正确率为90.47%,结果表明该方法适用于茶叶的分类及品质评价.
主成分分析; 高斯混合模型; 茶叶; 分类
0 引言
茶是目前最受欢迎的保健饮品之一.茶叶中存在多酚类化合物、氨基酸、维生素、糖类、咖啡因和嘌呤生物碱等多种成分,具有很大的潜在健康益处[1-2].由于其形态、化学成分以及制作工艺等的多样性[3],茶叶可以分为不同的类别[4-7],如绿茶、红茶、乌龙茶等.由于茶叶的品质以及等级不同,在茶叶市场中会出现假冒和以次充好的现象,这不仅损害了广大消费者的利益,同时严重阻碍了茶叶市场的发展,也降低了我国茶叶的国际市场竞争力.
目前对茶叶的鉴别主要采用理化分析和感官评审相结合的方法,这种方法很容易受外界因素的干扰,且受人的主观影响较大,可操作性差.因此,开发快速、准确的茶叶分类鉴别方法具有较大的现实意义.文献[8]采用电子鼻以及气质联用技术结合偏最小二乘回归对不同品质的绿茶和红茶进行分析检测.文献[9]结合紫外可见光谱法和模式识别技术——多层感知器神经网络来解决茶叶的分类问题.文献[10]采用液相色谱法和荧光法检测茶叶中游离氨基酸的含量,然后结合主成分分析、k-最近邻法、线性判别分析、BP人工神经网络对多种茶叶进行分类研究.文献[11]将循环伏安法结合支持向量机模式识别方法成功地应用于绿茶和红茶的分类.文献[12]采用比色人工舌头和鼻子来区分不同地理来源和等级的中国绿茶.作者采用主成分分析(PCA)对气相色谱-质谱(GC-MS)联用信号进行特征提取,探讨基于GC-MS信号和液相色谱(LC)信号的高斯混合模型(GMM)对茶叶分类的可行性.
1 实验部分
1.1 仪器与试剂
Agilent 6890N气相色谱-5975i质谱联用仪(美国Agilent公司);手动SPME进样手柄,15 mL顶端带有孔盖和聚四氟乙烯隔垫的样品瓶(美国Supelco公司);电磁搅拌/加热操作台(美国Corning公司);Mille-Q超纯水机.
绿茶类包括来自6个产地的绿茶、龙井、碧螺春等12个样本;红茶类包括来自7个产地的11个样本;乌龙茶类包括来自4个产地的水仙、肉桂、观音、岩茶等26个样本.本实验所用茶叶样本均购自当地茶叶市场.
100 μm聚二甲基硅氧烷(PDMS),30 μm PDMS,65 μm PDMS/二乙烯苯,85 μm聚丙烯酸酯,标准品咖啡因(国家标准物质研究中心).
1.2 实验方法
1.2.1 茶叶样本前处理 将1.0 g茶叶样品加入15 mL的SPME萃取瓶中,密封,放在SPME萃取工作台上,温度调节为190 ℃,恒温30 min.将活化好的SPME萃取纤维插入萃取瓶中并调节针管,30 min后取出固相微萃取装置进样.进样时,将SPME纤维直接插入气相色谱进样口,热解吸5 min后,收回纤维并取出萃取针头,用GC-MS进行分析.
1.2.2 GC-MS分析条件 GC条件:气化室温度为250 ℃;传输线温度为280 ℃;色谱柱为HP-5MS (30 m×0.25 mm×0.25 μm );色谱柱升温程序为初始温度50 ℃,保持1 min,以升温速率10 ℃/min升温至280 ℃,保持5 min;进样量为1 μL;载气为高纯氦(纯度为99.999%);进样方式为不分流进样,进样口5 min后开启.MS条件:离子源温度为230 ℃;四极杆温度为150 ℃;电离方式为EI;倍增器电压为2 kV;质量扫描范围为40~600 amu.
1.2.3 LC分析条件 色谱柱为SunFire C18柱(250 mm×4.6 mm× 5 μm,美国Waters公司);流动相A为甲醇,B为0.1 mol/L甲酸水溶液;流速1.0 mL/min;进样量5 μL;检测波长278 nm.
1.3 化学计量学方法
高斯混合模型(GMM)[13-14]假定不同类别的样本由不同的高斯概率分布组成,通过多个高斯函数的线性组合来表示数据的概率密度函数.GMM可以高度准确地模拟和逼近数据的真实分布,从而获得样本属于每个类的概率.每一个高斯成分密度由一个均值向量和协方差矩阵决定,GMM通常定义如下:
式中:K为模型的个数(即样本类别数目);πk为第k个高斯的权重,其均值为μk,方差为σk.通常采用最大期望(EM)算法对高斯混合模型中的方差、均值、权值等一些参数进行估计.
将GC-MS分析所得数据结合LC数据组成数据矩阵,运用PCA,GMM获得茶叶样本的分类信息,所用程序采用Matlab 7.1编写.
2 结果与讨论
2.1 GC-MS分析
图1显示了GC-MS采集到的不同茶叶样本的总离子流色谱图(TIC).从绿茶、红茶和乌龙茶的TIC图中可以看出,红茶中的组分最多,乌龙茶次之,绿茶中的组分最少.这与茶叶的发酵有关,新鲜茶叶中的成分经过发酵会发生很大的变化,组分增多,绿茶是未经发酵而制成的茶,红茶属于全发酵茶,而乌龙茶是半发酵茶.尽管有上述的不同之处,由于茶叶的成分及品质受多重因素的影响,直接依据TIC图鉴别茶叶的种类,仍难以准确定性.因此,需要借助化学计量学方法来区分茶叶的种类.
2.2 主成分分析(PCA)对茶叶的分类判别
PCA是一种常用的多元统计分析方法,它不仅可以降低数据矩阵的维数,还能通过主成分得分图分析各类样本的分布情况.图2是49个茶叶样本的GC-MS数据的主成分分析得分图.可以看出,红茶在二维空间中有自己的特征区域,与绿茶和乌龙茶相比,分布较为集中,能够与绿茶和乌龙茶完全分离.绿茶和乌龙茶在二维空间中的分布较为分散,没有各自的特征区域,且有部分重叠.表明不同产地红茶的差异较小,而不同产地和品种的绿茶和乌龙茶的差异较大.绿茶和乌龙茶聚类较为分散,原因可能是所采集的绿茶和乌龙茶的品种以及产地比较分散,不同地区或不同品种的茶叶样本品质差异较为明显.
2.3 高斯混合模型(GMM)对茶叶的分类判别
为了对绿茶、红茶以及乌龙茶进行准确分类,采用GMM来判别茶叶的种类.由于GC-MS所提供的数据原始组分信息量较大,并且一些组分变量可能与茶叶类别特征的相关性较小,所以先采用PCA提取原始数据的有效信息,再进行GMM分类.用GMM对样本的概率密度的分布进行估计,得到样本在各个类别上的概率,通常选取概率最大的那个类作为样本的所属类别.作者采用EM算法对GMM参数进行估计.
在建立分类模型时,将收集的49个茶叶样本随机分成两个数据集,其中训练集32个(绿茶8个,红茶7个,乌龙茶17个),预测集17个(绿茶4个,红茶4个,乌龙茶9个),每个数据集中都包含有3种不同种类茶叶的样本.训练集用来构建分类模型,预测集不参与建模,仅用来验证分类模型的性能.样本数据包括GC-MS数据PCA的前20个主成分,以及LC测得的10个组分含量(可可碱(TB)、没食子儿茶素(GC)、茶碱(TP)、表没食子儿茶素(EGC)、咖啡因(CAF)、表儿茶素(EC)、表没食子儿茶素没食子酸酯(EGCG)、没食子儿茶素没食子酸酯(GCG)、表儿茶素没食子酸酯(ECG)、儿茶素没食子酸酯(CG)).由于茶叶样本数较少,一次分类结果的随机性较大,因此将数据集随机分配成训练集和预测集100次,将 100次循环的平均结果作为最后的分类结果.GMM的成分数设为3,训练集中每个类的均值作为GMM的初始均值μ,每个类的样本数量作为混合权重初始值π,协方差矩阵设定为对角矩阵.GMM对训练集和预测集的平均正确率分别为99.44%和90.47%.在这100次分类结果中,其中分类结果最好的正确率为100%,该结果出现有19次,正确率超过90%的有52次.易于出现分类错误的样本为绿茶或红茶,乌龙茶仅有一次出现分类错误,结果表明该实验中所采用的方法是可靠的.
3 结论
将主成分分析、高斯混合模型等方法应用于3种不同种类茶叶的气相色谱-质谱联用的总离子流数据以及液相色谱数据,对茶叶类别进行判别分析,结果表明,基于色谱信号的化学计量学方法对不同品种、不同产地的绿茶、红茶、乌龙茶三大茶类的分类效果较好,该方法可对茶叶的种类进行快速区分,对今后的茶叶类别研究及品质评价工作奠定了基础.
[1] Horie H,Kohata K.Analysis of tea components by high-performance liquid chromatography and high-performance capillary electrophoresis[J].Journal of Chromatography A,2000,881(1/2):425-438.
[2] Sereshti H,Samadi S,Jalali-Heravi M.Determination of volatile components of green,black,oolong and white tea by optimized ultrasound-assisted extraction-dispersive liquid-liquid microextraction coupled with gas chromatography[J].Journal of Chromatography A,2013,1280(4):1-8.
[3] Chen Quansheng,Zhao Jiewen,Fang C H,et al.Feasibility study on identification of green, black and oolong teas using near-infrared reflectance spectroscopy based on support vector machine (SVM) [J].Spectrochimica Acta,2007,66(3):568-574.
[4] Palmer J K.Enzyme reactions and acceptability of plant foods[J].Journal of Chemical Education,1984,61(4):284-289.
[5] Chen Hongping,Liu Xin,Yang Dan,et al.Degradation pattern of gibberellic acid during the whole process of tea production[J].Food Chemistry,2013,138(2/3):976-981.
[6] Deng Jiewei,Fan Chunlin,Yang Yunyun.Identification and determination of the major constituents in Deng’s herbal tea granules by rapid resolution liquid chromatography coupled with mass spectrometry[J]. Journal of Pharmaceutical and Biomedical Analysis,2011,56(5):928-936.
[7] Chen Quansheng,Zhao Jiewen,Liu Muhua,et al.Determination of total polyphenols content in green tea using FT-NIR spectroscopy and different PLS algorithms[J].Journal of Pharmaceutical and Biomedical Analysis,2008,46(3):568-573.
[8] Qin Zihan,Pang Xueli,Chen Dong,et al.Evaluation of Chinese tea by the electronic nose and gas chromatography-mass spectrometry:correlation with sensory properties and classification according to grade level[J].Food Research International,2013,53(2):864-874.
[9] Palacios-Morillo A,Alcázar A, de Pablos F, et al.Differentiation of tea varieties using UV-Vis spectra and pattern recognition techniques[J].Spectrochimica Acta, 2013,103(4):79-83.
[10]Alcázar A,Ballesteros O, Jurado J M, et al.Differentiation of green,white, black,oolong,and pu-erh teas according to their free amino acids content[J].Journal of Agricultural and Food Chemistry,2007,55(15):5960-5965.
[11]Liu Nian,Liang Yizeng,Bin Jun,et al.Classification of green and black teas by PCA and SVM analysis of cyclic voltammetric signals from metallic oxide-modified electrode[J].Food Analytical Methods,2014,7(2):472-480.
[12]Huo Danqun,Wu Yu,Yang Mei,et al.Discrimination of Chinese green tea according to varieties and grade levels using artificial nose and tongue based on colorimetric sensor arrays[J].Food Chemistry,2014,145(7):639-645.
[13]Sahbi H.A particular Gaussian mixture model for clustering and its application to image retrieval[J].Soft Computing,2008,12(7):667-676.
[14]Melnykov V,Melnykov I.Initializing the EM algorithm in Gaussian mixture models with an unknown number of components[J].Computational Statistics & Data Analysis,2012,56(6):1381-1395.
(责任编辑:孔 薇)
The Classification of Tea Based on PCA and GMM
LI Xinhui1, LUO Hongyuan2, XU Xiaoqin3, SHEN Qi1, LIN Weiqi3
(1.CollegeofChemistryandMolecularEngineering,ZhengzhouUniversity,Zhengzhou450001,China; 2.CentralLaboratory,XiamenMedicalCollege,Xiamen361008,China; 3.XiamenProductsQualitySupervision&InspectionInstitute,Xiamen361004,China)
Gas chromatography-mass spectrometer (GC-MS) and liquid chromatography (LC), combined with principal component analysis (PCA) and Gaussian mixture model (GMM), were applied for classification of 49 tea samples. The PCA was firstly employed to reduce the dimensionality of GC-MS variables. The variables used in classification also included ten compositions determined by LC, such as tea polyphenols. Then the GMM was used to establish the classification models. The classification result showed that the accuracy rate of training set and prediction set was 99.44% and 90.47%, respectively. It could be concluded that GMM combined with chromatography for the classification of tea had a good performance.
PCA; GMM; tea; classification
2015-06-05
国家自然科学基金资助项目,编号21575131.
李新会(1989—),女,河南禹州人,硕士研究生,主要从事化学计量学研究;通讯作者:罗红元(1977—),男,湖南衡阳人,讲师,博士,主要从事化学传感器和计量学研究,E-mail:lhy@xmygz.cn.
李新会,罗红元,徐晓琴,等.基于主成分分析和高斯混合模型的茶叶分类研究[J].郑州大学学报:理学版,2015,47(4):62-65.
O657.63
A
1671-6841(2015)04-0062-04
10.3969/j.issn.1671-6841.2015.04.012