基于质谱与化学计量学的白酒原产地鉴定
2014-07-25程平言范文来
程平言,范文来,徐 岩
(江南大学生物工程学院酿酒科学与酶技术研究中心,酿造微生物与应用酶学研究室,教育部工业生物技术重点实验室,江苏 无锡 214122)
基于质谱与化学计量学的白酒原产地鉴定
程平言,范文来,徐 岩
(江南大学生物工程学院酿酒科学与酶技术研究中心,酿造微生物与应用酶学研究室,教育部工业生物技术重点实验室,江苏 无锡 214122)
不同白酒原产地的鉴定对控制白酒质量和保护消费者利益有重要意义。采用顶空固相微萃取与质谱(HS-SPME-MS)联用技术获取不同香型和产地的131个白酒酒样在m/z55~191范围内的离子丰度数据,结合偏最小二乘-判别分析和逐步线性判别分析法筛选出27个重要特征离子,交叉验证的原产地预测准确率达99.2%;然后用筛选出的27个特征离子构建反向传播(BP)神经网络模型和支持向量机(SVM)模型,其原产地预测准确率分别达96.2%和97.7%。其中BP网络的最优参数组合为传递函数logsig、训练函数trainlm、隐藏层神经元数8;而SVM的最优核参数g和惩罚因子c值分别为2和0.125,从参数优化过程及原产地预测准确率可看出,SVM模型对原产地的鉴定效果明显优于BP网络模型。
白酒;原产地;顶空固相微萃取;质谱;反向传播神经网络;支持向量机
同种香型白酒由于产地的地理环境和气候不同而形成风味的差异,表现为酒中微量香气成分及其相互间的量比关系不同。因此,对白酒原产地的鉴定研究,有利于监督白酒生产质量和保护消费者的权益。
国内对于白酒原产地的追溯研究已有报道,其中范文来等[1]应用直接进样的毛细管色谱法检测了白酒中的38种微量成分,通过聚类法分析微量成分的差异,清晰的区分了四川地区与江淮流域的浓香型白酒;霍丹群等[2]采用气相色谱技术定性定量检测己酸乙酯、乳酸乙酯等10种香气物质的含量,结合主成分分析(PCA)和判别分析(DA)区分不同品牌白酒。而国外则主要集中在葡萄酒、威士忌和白兰地等产品原产地的研究,应用的仪器手段涉及多个领域,如质谱技术[3-6]、光谱技术[7-9]及其他传感技术[10]等,并结合多种化学计量方法来建立判别模型,其中应用最多的是PCA、偏最小二乘-判别分析(PLS-DA)[5]和DA[7]。其中,Jelen等[11]用SPME-MS技术结合PCA和DA方法对原酒的酿造植物原料进行了鉴定,识别预测率达100%,这一技术仅需获取酒样的离子信息,不需解析化合物,能够用于大批量样品的快速鉴定。
本研究采用顶空固相微萃取质谱(HS-SPME-MS)技术结合PLS-DA、逐步线性判别分析(SLDA)来获得不同产地酒样的离子丰度信息,并从中筛选出重要特征离子,构建反向传播(BP)神经网络和支持向量机(SVM)模型来预测白酒原产地,同时比较两种模型预测效果的优劣。
1 实验部分
1.1样品与试剂
酒样:不同香型、不同产地的8种白酒酒样,其详细信息列于表1;氯化钠(分析纯):上海国药集团产品。
表1 不同香型和产地的8种白酒酒样信息Table 1 The information of eight groups of liquorswith different aroma types and geographic origins
1.2主要仪器
GC 6890N MSD 5975气相色谱-质谱联用仪:美国Agilent公司产品;自动顶空进样系统:德国Gerstel公司产品;Milli Q 超纯水系统:美国Millipore公司产品。
1.3实验方法
1.3.1样品准备 参考文献[12],将白酒酒样分别用超纯水稀释至10%,然后取8 mL置于20 mL自动进样顶空瓶中,加入3 g氯化钠,盖上瓶盖。
1.3.2SPME条件 采用DVB/CAR/PDMS三相萃取头于40 ℃下恒温预热5 min,然后在同一温度下萃取吸附15 min;萃取完成后,萃取头插入气相色谱仪进样口中解吸分析物。由于本方法仅需获得酒样的整个顶空色谱图而无需分离出单个化合物,因此,使用一个很短的毛细管,仅用于样品从进样口导入质谱仪。同时,将解吸时间设为10 min,并收集酒样在这一时间内的全部离子丰度信息。
1.3.3质谱条件 EI电离源,电子轰击能量70 eV,离子源温度230 ℃,质量扫描范围m/z35~350。
1.3.4化学计量分析 首先采用PLS-DA、SLDA处理离子丰度数据,从中选择重要的特征离子;然后用筛选出的特征离子构建BP神经网络模型和SVM模型,预测白酒原产地,并比较两种模型的优劣。本研究所使用的软件分别为SIMCA-P,IBM SPSS20,MATLAB及LIBSVM工具箱。
2 结果与分析
借助HS-SPME-MS技术获取不同产地的8种白酒酒样m/z55~191范围内的离子丰度值,以郎酒的离子丰度质谱图为例,显示不同离子的丰度值差异,示于图1。可见,不同离子的丰度值存在明显差异,其中m/z88离子作为基峰,是乙酯类化合物的特征离子[11],其丰度值最高。另外,低质荷比离子的丰度明显高于高质荷比离子,且某些离子的丰度值在图中趋于0,这样的离子差异同样存在于其他白酒中。由于此技术获取了大量的离子数据,增加了提取特征离子的难度,因此本研究结合多种化学计量方法处理数据,以筛选重要特征离子来构建白酒原产地鉴别模型。
由于m/z55~191范围内的离子丰度值存在明显的数量级差异,因此,需对原始数据进行适当的预处理来消除数量级对分析结果的影响。本研究采用对数法,即log(X+1)[13],其中值1保证了数据的有效性,形成了由不同香型和产地的131个(行)白酒酒样和137个(列)离子组成的数据矩阵。
2.1偏最小二乘-判别分析
PLS-DA可对预测变量进行降维处理,获取与因变量相关性大的成分,此方法特别适合变量数多于样本数的情况[14]。本研究采用新的变量选择准则——变量重要性(VIP)[15],它能量化每个离子的贡献度。其中离子重要性值是由每个离子对PLS权重的平方和计算得到的,所有离子的重要性值平方和与离子变量数相等,所以离子重要性值(VIP)的平均值为1。PLS-DA分析所得的离子重要性排序图按重要性从高到低沿x轴逐个排布,示于图2。由图2可见,在m/z141前的离子重要性均大于1,共有61个,分别为m/z181、99、155、100、117、92、106、118、91、103、156、71、169、183、145、72、60、149、96、115、122、152、144、87、88、113、153、189、95、75、105、74、164、166、116、138、167、160、120、58、59、157、114、62、70、73、77、61、146、174、102、190、191、64、90、127、137、139、101、133、141。经PLS-DA分析,离子变量减少,便于进一步分析处理获得特征离子来构建白酒原产地鉴别模型。
图1 郎酒m/z 55~191范围内的离子丰度质谱图Fig.1 The mass spectrum of Langjiu liquor in the range of m/z 55—191
图2 不同香型产地的8种白酒PLS-DA分析的离子重要性排序图Fig.2 The ion importance of PLS-DA about eight groups of liquors with different aroma types and geographic origins
2.2逐步线性判别分析
SLDA分析应用的前提条件是样本数多于变量数,因此需借助PLS-DA分析来降低变量维度,才可进一步分析提取重要特征离子。由不同香型和产地的131个(行)白酒酒样和PLS-DA分析筛选出的61个(列)离子组成新的数据矩阵,经SLDA分析筛选出27个特征离子,分别为m/z61、70、71、77、87、91、92、96、99、101、103、106、113、116、117、127、144、146、149、152、153、155、157、166、167、183、191。这一方法筛选变量的准则是最大化种类间的差异,而最小化种类内的差异进而产生一系列的线性判别函数,其中函数的数目=[min(变量数,类别数-1)][16]。本研究形成7个判别函数,其中前2个函数的方差值分别为62.6%和17.0%,占整个判别力的79.6%。因此,由前2个函数来可视化不同香型和产地的8种白酒的判别结果,示于图3。从图3可见,不同产地的8种白酒能够很好地分开,且不同产地白酒间的距离较远,而同产地酒样聚成一堆。另外,同种香型白酒也成规律聚集,清香型的汾酒和牛栏山酒同分布于第一象限中;酱香型郎酒分布于第三象限中;老白干香型白酒分布于第四象限中;浓香型的3种酒同分布于第二象限中,凤香型西凤酒也位于此象限中;而老白干香型酒与清香型酒的距离更近。由此可见,凤香型与浓香型酒的特征更相似,而老白干香型则与清香型更相似。
注:FJ:汾酒;NLS:牛栏山;LBG:老白干;LJ:郎酒;XF:西凤;YH:洋河;JNC:剑南春;GBC:古贝春图3 不同香型产地的8种白酒的SLDA判别得分图Fig.3 The SLDA two-dimensional diagram of eight groups of liquors with different aroma types and geographic origins
为了检验构建的判别模型对未知产地酒样的预测能力,采用留一法进行交叉验证[17],即每次留一个酒样对由剩余酒样建立的模型进行验证,此过程重复n次,其中n为样品总数,模型的预测能力为n个模型预测准确率的平均值。本研究构建的判别模型交叉验证的预测准确率达99.2%,能够正确预测白酒样品的原产地。可见,以PLS-DA为变量选择基础建立的逐步判别分析模型能很好的用于白酒原产地鉴别,同时可筛选出重要的特征离子。
2.3反向传播神经网络
本研究用SLDA分析筛选出的27个特征离子作为网络输入层,不同香型的8种白酒原产地预设值作为输出层,构建BP神经网络[18]。BP神经网络是重要的神经网络模型形式,也是前向网络的核心部分。本研究选用合适的优化参数来构建BP神经网络,其中重要的优化参数包括训练函数、传递函数、隐藏层神经元数等,参数优化结果列于表2。
表2 BP网络参数的条件优化结果
结果表明,在经过1 000次训练后,选用训练函数trainlm,隐藏层神经元数为8的BP网络对函数目标值0.01的逼近效果最好,因为它的误差(MSE)最小,且网络经过12次训练就达到了目标误差,训练时间相对较短。本研究构建的是两层BP网络,隐藏层神经元传递函数为logsig,输出层神经元传递函数为purelin,这一函数可以输出任意值。
由以上参数构建的BP网络模型对不同香型白酒的产地输出结果示于图4,其中有5个酒样的原产地预测错误,分别为97、98号洋河酒样错判为牛栏山酒;113号古贝春酒样错判为西凤酒;123号剑南春酒样错判为洋河酒;126号西凤酒样判别误差较大未能正确判别。可见,此BP网络模型的产地预测准确率为96.2%。
注:纵坐标分别为1. 汾酒;2. 老白干;3. 郎酒;4. 牛栏山;5. 洋河;6. 古贝春;7. 剑南春;8.西凤图4 不同香型产地的8种白酒的BP网络模型预测结果图Fig.4 The output results of BP network model about eight groups of liquors with different aroma types and geographic origins
2.4支持向量机
SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势[19],其关键在于确定核函数。本研究选用径向基函数,从广义上看,SVM也可归于径向基神经网络。在确定了核函数的基础上,需确定最优的核参数g和惩罚因子c两个参变量,才能准确地构建原产地鉴别的SVM模型。SVM采用结构风险最小化原则来选择最优参数,明显优于传统网络的经验风险最小原则[20]。采取十折交叉验证和网格搜索算法来寻找最优的c和g,示于图5。可见,最优c,g值分别为2和0.125,对应图5中的(1,-3)点。
图5 网格搜索参数寻优等高线图Fig.5 The contour map of parameter optimization by grid search
由所得的最优参变量c,g值构建SVM模型对酒样原产地的判别结果示于图6。从图中可见,仅有3个酒样判别错误,分别为88号郎酒酒样错判为洋河酒;96号洋河酒样错判为西凤酒;113号古贝春酒错判为西凤酒。可见,构建的SVM模型的产地预测准确率达97.7%。
注:纵坐标分别为1. 汾酒;2. 老白干;3. 郎酒;4. 牛栏山;5. 洋河;6. 古贝春;7. 剑南春;8.西凤图6 不同香型产地的8种白酒的SVM模型预测结果图Fig.6 The output results of SVM model about eight groups of liquors with different aroma types and geographic origins
3 结论
HS-SPME-MS技术能够迅速准确的提取不同产地酒样的离子丰度信息,不需解析化合物,且结合相应的化学计量方法PLS-DA和SLDA能筛选出27个重要特征离子,构建的判别模型能够准确预测白酒酒样原产地,用于区分不同原产地的白酒。最后,用选出的特征离子构建BP网络模型和SVM模型,从参数优化过程及产地预测准确率可知,SVM模型的预测效果明显优于需多次参数优化构建的BP网络模型。
[1] 范文来, 徐 岩. 应用GC-FID和聚类分析比较四川地区白酒原酒与江淮流域白酒原酒[J]. 酿酒科技, 2007, (11): 75-78. FAN Wenlai, XU Yan. Application of GC-FID and clustering analysis in comparison of liquors from Jianghuai watershed and Sichuan area[J]. Brewing Science and Technology, 2007, (11): 75-78 (in Chinese).
[2] 霍丹群, 张苗苗, 侯长军, 等. 基于主成分分析和判别分析的白酒品牌鉴别方法[J]. 农业工程学报, 2011, 2: 297-301. HUO Danqun, ZHANG Miaomiao, HOU Changjun, et al. Identification of Chinese liquor based on principal component analysis and discriminant analysis[J]. Journal of Agricultural Engineering, 2011, 2: 297-301 (in Chinese).
[3] DUTRA S V, ADAMI L, MARCON A R, et al. Determination of the geographical origin of Brazilian wines by isotope and mineral analysis [J]. Analytical and Bioanalytical Chemistry, 2011, 401(5): 1 575-1 580.
[4] COETZEE P P, VANHAECKE F. Classifying wi- ne according to geographical origin via quadrupole-based ICP-mass spectrometry measurements of boron isotope ratios [J]. Analytical and Bioanalytical Chemistry, 2005, 383(6): 977-984.
[5] MØLLER J K S, CATHARINO R R, EBERLIN M N. Electrospray ionization mass spectrometry fingerprinting of whisky: Immediate proof of origin and authenticity [J]. Analyst, 2005, 130(6): 890-897.
[6] MASUDA S, OZAKI K, KURIYAMA H, et al. Classification of barley shochu samples produced using submerged culture and solid-state culture of koji mold by solid-phase microextraction and gas chromatography-mass spectrometry [J]. Journal of the Institute of Brewing, 2010, 116: 170-176.
[7] LIU L, COZZOLINO D, CYNKAR W, et al. Geographic classification of Spanish and Australian Tempranillo red wines by visible and near-infrared spectroscopy combined with multivariate analysis [J]. Journal of Agricultural and Food Chemistry, 2006, 54(18): 6 754-6 759.
[10] QIN H, HUO D, ZHANG L, et al. Colorimetric artificial nose for identification of Chinese liquor with different geographic origins [J]. Food Research International, 2012, 45: 45-51.
[11] JELEN H H, ZIOLKOWSKA A, KACZMAREK A. Identification of the botanical origin of raw spirits produced from rye, potato, and corn based on volatile compounds analysis using a SPME-MS method [J]. Journal of Agricultural and Food Chemistry, 2010, 58(24): 12 585-12 591.
[12] FAN W L, QIAN M C. Headspace solid phase microextraction and gas chromatography-olfactometry dilution analysis of young and aged Chinese “Yanghe Daqu” liquors [J]. Journal of Agricultural and Food Chemistry, 2005, 53(20): 7 931-7 938.
[13] GOUGEON R D, LUCIO M, De BOEL A, et al. Expressing forest origins in the chemical composition of cooperage oak woods and corresponding wines by using FTICR-MS [J]. Chemistry, 2009, 15(3): 600-611.
[14] Van RUTH S M, VILLEGAS B, AKKERMANS W, et al. Prediction of the identity of fats and oils by their fatty acid, triacylglycerol and volatile compositions using PLS-DA [J]. Food Chemistry, 2010, 118(4): 948-955.
[15] WOLD S, SJÖSTRÖM M, ERIKSSON L. PLS-regression: A basic tool of chemometrics [J]. Chemometrics and Intelligent Laboratory Systems, 2001, 58(2): 109-130.
[16] N☞S T, ISAKSSON T, FEARN T, et al. A user friendly guide to multivariate calibration and classification[M]. NIR Publications, 2002: 420.
[17] SAMPAIO O M, RECHE R V, FRANCO D W. Chemical profile of rums as a function of their origin. The use of chemometric techniques for their identification [J]. Journal of Agricultural and Food Chemistry, 2008, 56(5): 1 661-1 668.
[18] FARMAKI E G, THOMAIDIS N S, EFSTAT- HIOU C E. Artificial neural networks in water analysis: Theory and applications [J]. International Journal of Environmental Analytical Chemistry, 2010, 90(2): 85-105.
[19] 林翠香. 基于数据挖掘的葡萄酒质量识别[D]. 长沙: 中南大学, 2010: 38-39.
[20] GUNN S R. Support vector machines for classification and regression [R]. ISIS Technical Report, 1998, 5.
IdentificationofChineseLiquorsfromDifferentGeographicOriginsBasedonMassSpectrometryandChemometrics
CHENG Ping-yan, FAN Wen-lai, XU Yan
(KeyLaboratoryofIndustrialBiotechnology,MinistryofEducation,LaboratoryofBrewingMicrobiologyandAppliedEnzymology,SchoolofBiotechnology,JiangnanUniversity,Wuxi214122,China)
Determination of the Chinese liquors from different geographic origins is benefit for controlling liquor quality and safeguarding the interests of consumers. In this study, mass spectra of 131 Chinese liquor samples from different geographic origins were collected by the headspace (HS)-solid phase microextraction (SPME)-mass spectrometry (MS), without pre-treatment or chromatographic separation. By combination of partial least squares discriminant analysis (PLS-DA) and stepwise linear discriminant analysis (SLDA) methods, 27 characteristic ions are finally selected and the prediction ability of the SLDA is 99.2%. And then a back-propagation (BP) neural network and a support vector machine (SVM) recognition model are built, whose prediction accuracy are up to 96.2% and 97.7%, respectively. The parameter optimization result of BP neural network is logsig, trainlm and eight neurons in hidden layer, while the parameterc,gis 2 and 0.125 in the SVM model. According to the optimization procedure and prediction accuracy, the SVM model is superior to the BP neural network.
Chinese liquors; geographic origin; headspace-solid phase microextraction-mass spectrometry; back-propagation neural network; support vector machine
2013-04-28;
:2013-06-06
国家“863”计划项目(2013AA102108)资助
程平言(1988~),女,山东烟台人,硕士研究生,从事酒类风味化学研究。E-mail: chengpingyan1@163.com
范文来(1966~),男,江苏江都人,研究员,从事酿酒工程与发酵工程研究。E-mail: Wenlai.Fan@163.com
O 657.63
:A
:1004-2997(2014)01-0032-06
10.7538/zpxb.2014.35.01.0032