应用逐步回归和Fisher判别方法对沉香的鉴别1)
2018-07-13贾东宇伊松林何正斌
贾东宇 伊松林 何正斌
(北京林业大学,北京,100083)
沉香是瑞香科白木香属Aquilariasinensis(Lour.) Gilg植物受到伤害后分泌的产物[1]。林业行业标准LY/T 2904—2017《沉香》将其定义为沉香属树种在生长过程中形成的由木质部组织及其分泌物共同组成的天然混合物质。沉香以其药用价值和独特的芳香气味远近驰名,被用于中药、制香、宗教等领域[2-5]。在东南亚、南亚等国家也称作Agarwood、Eaglewood、Gaharu、Jinko、Aloeswood、Pokok karas、Kalamabak等[5-6]。
奇楠(也叫棋楠)香味独特,资源稀缺,是沉香中最名贵、价值最高的品种[7-8]。除奇楠以外的沉香,称之为普通沉香。普通沉香以其产地不同被分为两类,即惠安系沉香和星洲系沉香。惠安系沉香产地包括中国、越南、柬埔寨、印度、泰国、老挝、缅甸等;星洲系沉香产区包括马拉西亚、印尼和文莱等[9-10]。与星洲系沉香相比,惠安系沉香因其香味更受欢迎,所以售价更高[9-10]。3种沉香同为沉香,但是价格相差甚远。区分3种沉香需要丰富的经验,没有经验的消费者很容易将三者混淆。通常通过人工对奇楠、星洲系沉香和惠安系沉香进行鉴别。人工鉴别的原理是品鉴沉香加热后释放出挥发性有机化合物(VOSs)的味道。由有经验的品香师通过加热或者点燃沉香(沉香片或者沉香精油)释放出来的味道进行品鉴区分。这种方法具有一定的局限性,表现在人工鉴定可能存在的主观性引入的误差、可重复性差、耗时,且对品香人员有经验要求[9]。
沉香主要内含物成分为倍半萜(52%)、色酮类物质(41%)和其他芳香化合物[4,11-13]。加热后释放出的VOCs主要为倍半萜和其他芳香族化合物。许多倍半萜物质具有独特的香味,导致沉香香味不同[5,14]。近年来通过GCMS方法对沉香成分的探索和鉴别研究备受学者关注[4-6,10,14-19]。然而,对奇楠、惠安系沉香和星洲系沉香的鉴别鲜有人探寻。本研究通过热脱附-气质联用法(TD-GCMS)结合逐步回归法(SR)和Fisher判别分析(FDA)对沉香加热后释放的挥发性有机化合物(VOCs)成分进行分析,目的在于模仿人工方法,实现对奇楠、惠安系沉香和星洲系沉香的鉴别,同时避免由人为主观因素等引入的鉴定误差。
1 材料与方法
1.1 材料与样品制备
本研究共选取58个沉香样品,其中16个奇楠样品、27个惠安系沉香样品和15个星洲系样品。其中奇楠和惠安系沉香产于中国、越南、印度、泰国、柬埔寨等地,星洲系沉香产于印尼、马来西亚、文莱、巴布亚新几内亚、苏门答腊等地。本研究的所有样品均由北京沉香协会提供,并经过协会专家组鉴定分类与实际相符。
本研究针对沉香VOCs的释放特性,对沉香进行热处理。全部样品切成小片状或者屑状,经过气干后,磨成40目的沉香粉末。每个沉香样品取粉末20 mg,分别置于顶空瓶拧紧,用氮气洗气,加热至160 ℃,保温1 h。通过上述过程,沉香样品受热挥发的VOCs被收集于顶空瓶中。用Tenax管采集沉香VOCs,载气为氦气,流速6 mL/min,采集时间为50 min,用于GCMS检验。
1.2 设备与参数
本研究采用TD-GCMS联用设备,其中TD设备型号为TD MARKES Series 2;气相色谱设备型号为Agilent 7890A;质谱设备型号为Agilent 5975C;色谱柱型号为DM 726641A(50 m×320 μm×1 μm;325 ℃)。参数设置如下:传输线温度180 ℃,解析温度280 ℃,冷阱温度-10 ℃,氦气载气80 mL/min;离子源温度230 ℃,质谱扫描范围35~400。升温程序:初温40 ℃,保持1 min;以5 ℃/min的速率升到150 ℃,再以1 ℃/min的速率升到170 ℃,保持3 min;再以1 ℃/min的速率升到180 ℃,保持3 min;再以10 ℃/min的速率升到200 ℃;再以20 ℃/min的速率升到280 ℃,保持1 min。氦气载气3 mL/min,不分流。输出最小峰面积为最大峰面积的1%,选择NIST14质量标准库和搜索程序为质谱数据库。取相似度80%及以上的倍半萜及其他简单芳香化合物成分为分析对象。
1.3 逐步回归法(SR)
逐步回归法(SR)是对复杂数据进行统计分类之前的一种处理方法[20]。采用有进有出的算法,按照变量是否重要,逐步引入变量,同时考虑较早引入的变量会因新变量的引入丧失重要性,变得不再显著,此时可以剔除,直至判别式中没有不重要的变量需要剔除。本研究建立SR模型旨在逐步筛选出特征化学成分。遵循两个原则:a、每次选择Λ最小者进入模型。首先选择Λ最小进入模型,然后重新计算未被选中的其他变量与选中变量的Λ统计量,剩余统计量最小者与已经进入模型的变量搭配进入模型。b、当F>Fαin或P<αin时进入,当F≤Fαout或P≥αout时剔除。本研究规定αin=0.05和αout=0.10。边进入边剔除,一步一步以此类推。
1.4 Fisher判别分析法(FDA)
Fisher判别分析(FDA)是一种用来分开两种或两种以上的物体或事件的线性组合法[21-22],是一个经典的监督学习方法。原理是利用降维的方法找到最好的D-1维平面,将一个D维空间分成两个或更多子空间,定义为类间方差与类内方差之比[23]。FDA是一种经典的有监督学习方法,常用于动植物识别领域。本研究以SR筛选出的特征化合物为变量建立FDA模型,可更为精确地判定样品归属。
本研究的数据统计使用SPSS19.0 software完成,所有配图通过OriginPro 9.0 software绘制。
2 结果与分析
2.1 沉香的GCMS检测成分
对58个沉香样品进行TD-GCMS分析。经分析沉香样品的VOSs成分共含有175种倍半萜及其他芳香化合物(序号V001-V175)(见表1)。
表1 175种化学成分及其参数
续(表1)
续(表1)
注:CAS号为美国化学会的美国化学文摘服务社化学物质登录号。
从表1可以看出,175种化学成分中,包含158种倍半萜及17种其他芳香化合物。175种化学成分对应26个相对分子质量,158种倍半萜共享9个相对分子质量。其中相对分子质量190.172、202.172、204.188、218.167、220.183、222.198、234.162均含有多个同分异构体。
表2 3种沉香中倍半萜及其他芳香族化合物组成
结合表1、表2可以看出:
①3种沉香倍半萜成分相对总峰面积高于其他芳香族化合物成分,倍半萜成分种类数量也高于其他芳香族化合物成分。特别是相对分子质量为204.188、220.183、222.198的相对峰面积和化合物种类都很丰富,说明沉香种含有大量倍半萜,且多以同分异构体形式存在。同分异构体倍半萜可以作为鉴别沉香的重点考查成分。
②3种沉香的倍半萜相对总峰面积中,惠安系沉香最低(31.38%),奇楠最高(45.89%);其他芳香族化合物相对峰面积,星洲系沉香最高(15.40%),另外两种沉香基本持平。这些相对峰面积差异可以为鉴别3种沉香提供依据。
③研究表明沉香内含物中,倍半萜约占到52%,在本研究方法及条件下,倍半萜成分检出率约为61.2%~88.3%。前人研究证明在200 ℃以下时,倍半萜不裂解,因此本研究未检出的倍半萜可能因为是温度未达到全部倍半萜成分的沸点。因此,建议若要提高倍半萜检出率,可以在本研究方法基础上适当提高试验温度。
2.2 逐步回归分析
175种化合物对于建立判别分析模型及分析模型的应用来说过于繁杂,也会给实际计算和检测带来麻烦。SR结合判别分析作为有监督分析方法常用于样本的分类,可以实现给定的样本类间最大分离[25-26]。本研究采用SR分析作为判别分析的前处理,对175种化合物进行筛选,旨在锁定数量较少的特征化合物,用于接下来建立判别模型。
依据58个样品对应的175个化合物及其相对峰面积,建立逐步分析模型。分别计算每个化合物的Λ、F和P。再根据P值剔除成分,边进入边剔除,一步一步以此类推。共筛选出34种特征化合物(以X1-X34表示),其中包含8个相对分子质量(见表3),即134.073、136.089、202.172、204.188、218.167、220.183、222.198和234.162。其中134.073(C9H10O,4-甲氧基苯乙烯)和136.089(C9H12O,4-乙基苯甲醚)为其他芳香族化合物。其余6个相对分子质量均为倍半萜物质:202.172(C15H22,8个同分异构体)、204.188(C15H24,15个同分异构体)、218.167(C15H22O)、220.183(C15H24O),222.198(C15H26O,6个同分异构体)和234.162(C15H22O2)。
图1为3种沉香对应34种特征化合物的相对峰面积,其中横坐标为34种特征化合物,纵坐标为对应相对峰面积的平均值,奇楠为16个样品平均相对峰面积,惠安系沉香为27个样品相对峰面积,星洲系沉香为15个样品平均相对峰面积。对比3种沉香中的34个特征化合物相对峰面积,可以看出:
①3种沉香特征化合物相对峰面积存在明显差异,说明34种特征化合物能作为区分3种沉香的依据。
②3种沉香的001460-73-7(222.198)、1000374-17-1(204.188)、117066-77-0(222.198)等倍半萜类特征化合物相对峰面积均较高,说明倍半萜在3种沉香内均大量存在。
③3种沉香均含有其他芳香族化合物000637-69-4(C9H10O,4-甲氧基苯乙烯),其中奇楠中相对峰面积最高,惠安系沉香和星洲系沉香中相对峰面积较低且基本持平。这说明其他芳香族化合物可以作为鉴别奇楠的依据。
图1 3种沉香34种特征化合物的相对峰面积
2.3 Fisher判别分析
2.3.1Fisher判别公式及重心坐标计算
对58个沉香样品及其34种特征化学成分建立模型,分为奇楠(j=1)、惠安系沉香(j=2)和星洲系沉香(j=3)3个总体。
其中,当j=1时,X1代表奇楠,m=16,n=34;当j=2时,X2代表惠安系沉香,m=27,n=34;当j=3时,X3代表星洲系沉香,m=15,n=34。
各类平均值计算公式:
(1)
总均值计算公式:
(2)
特征根数量=min(j-1,n)=min(2,34)=2,所以该模型具有两个特征根,以及两个判别方程。
为了方便计算和应用,本研究选用非标准化判别函数,其Fisher判别函数定义为:
y=a′x+c
。
(3)
常数项计算公式为
(4)
Fisher判别函数系数及常数见表3,代入判别函数可以得到Fisher判别方程:
Y1=16.136×X1-19.772×X2+2.063×X3-0.431×X4+
187.72×X5+3.029×X6-4.202×X7-2.101×X8-
8.746×X9+7.097×X10+2.684×X11+4.727×X12+
11.256×X13+2.25×X14-2.343×X15+18.535×X16-
5.831×X17-2.597×X18+2.967×X19-210.297×X20-
65.473×X21+7.25×X22-242.104×X23-343.576×
X24+40.152×X25-5.476×X26+38.095×X27-1.703×
X28-1.712×X29-9.024×X30+4.493×X31+245.128×
X32+29.538×X33+1.279×X34-19.197。
(5)
Y2=-0.243×X1-9.84×X2+16.992×X3+0.239×X4+
10.162×X5+4.274×X6+0.178×X7-0.434×X8+
15.494×X9-18.678×X10+0.023×X11+1.456×
X12+0.733×X13-13.19×X14-0.302×X15+6.866×
X16+4.462×X17-0.775×X18+0.177×X19-32.506×
X20-13.481×X21+1.486×X22-21.823×X23+19.683×
X24+30.779×X25+0.974×X26-5.727×X27-6.239×
X28+0.008×X29+1.413×X30+0.243×X31-25.27×
X32+5.729×X33-0.157×X34-4.87。
(6)
其中Y1和Y2分别为Fisher判别方程(公式5和公式6)的值。
值得一提的是,Fisher判别模型并未给出分类法,本实施例中选取不加权法计算各组重心。公式为
(7)
同理可计算其他两组。奇楠的重心坐标D1为(-6.742,8.263);惠安系沉香的重心坐标D2为(-18.233,-3.930);星洲系沉香的重心坐标D3为(40.011,-1.739)。
2.3.2Fisher判别模型的评价
λ的方差计算:
λ1的方差=613.032/(613.032+28.268)=95.592%;
λ2的方差=28.268/(613.032+28.268)=4.408%。
Λ统计量的计算:
自由度的计算公式:
dk=(n-k+1)(j-k)。
(8)
d1=(n-k+1)(j-k)=(34-1+1)(3-1)=68;d2=(n-k+1)(j-k)=(34-2+1)(3-2)=33
卡方的计算公式:
(9)
表3 3类沉香Fisher判别函数系数、特征化学成分及其CAS号
表4 FDA的特征值
表5 FDA的Λ统计量
图2 58个沉香样品的Fisher判别方程值
由表4所述FDA模型的描述可知,判别函数的特征根为(613.032和28.268),两个特征根累计解释了100%的方差,相关系数分别为0.999和0.983;表5是Λ统计量,用于描述Fisher判别模型的判别能力,可以看出判别函数的判别能力显著(P=0);图2是以58个样品的Fisher判别方程的值(Y1和Y2)作图,可以看出3种沉香被有效区分开。这表明该Fisher判别方程效果显著,该模型适用于奇楠、惠安系沉香和星洲系沉香3种沉香的鉴别。
值得指出的是FDA可以用于对未知样品的类别鉴别。采用与本研究相同的试验方法及条件对未知样品进行试验,分别计算出34种特征化合物对应的相对峰面积,代入公式5和公式6中,求出未知样品的坐标(Y1,Y2),与3种沉香的重心坐标进行比较,距离相近的即为该未知样品的类别。
3 结论
3种沉香样本在160 ℃加热1 h后,均释放出VOCs,其主要成分为倍半萜和其他芳香族化合物。其中相对分子质量为204.188(C15H24)、220.183(C15H24O)和222.198(C15H26O)的倍半萜在沉香样本中以同分异构体形式大量存在。
在本研究方法及条件下,倍半萜成分检出率约为61.2%~88.3%,建议若要提高倍半萜检出率,可以在本研究方法基础上适当提高试验温度。
对160 ℃热处理沉香释放出的VOCs用TD-GCMS结合SR进行分析,可以得到34种特征化合物,这些特征化合物可以用于对奇楠、惠安系沉香和星洲系沉香的鉴别。
用FDA法,可以对奇楠、惠安系沉香和星洲系沉香进行鉴别。研究结果证明FDA对样品中沉香类别的鉴别切实有效。FDA得到判别方程和重心坐标可以用对与未知沉香的鉴别。具体方法是将未知类别的沉香样品代入判别方程,其结果与3种沉香的重心坐标进行比较,距离相近的即为该未知样品的类别。
用TD-GCMS结合SR和FDA对沉香VOCs成分分析,进而鉴别3种沉香的类别是可行的。用该方法可以代替人工分类,可以避免人工测试引入的误差。