APP下载

基于致香成分的上部烟叶和中部烟叶分类判别

2019-05-13董惠忠毕艳玖赵晓华沙云菲

关键词:烟叶矢量烟草

董惠忠, 毕艳玖,赵晓华, 葛 炯, 沙云菲

(1.上海烟草集团有限责任公司技术中心,上海200082;2.河南师范大学环境学院,河南新乡 453007)

对于烟叶的品质管理,烟叶的部位特征是十分重要的一方面,这是因为同一棵烟株上不同部位的烟叶质量有着比较明显的差别.近年来,已有多位学者针对烟叶的部位识别进行研究.2007年,张鑫等[1]以烟叶样品的红外及近红外光谱为变量,建立了烟叶部位识别的数学模型.2009年,李翠英等[2]通过计算烟叶的长、宽、周长、面积等形状特征值,以多项式拟合系数对烟叶部位进行识别.2011年,于春霞等[3]利用近红外光谱数据,建立了不同烟叶部位的相似性分析数学模型.2016年,牛玉德等[4]运用提出部位标度值法对烟叶部位进行识别判断.2017年,韩小渊等[5]通过研究烟叶不同部位主脉的色泽、形态和力学性质等,采用图片和数据相结合的方法对烟叶部位进行识别分析.利用近红外光谱数据建立烟叶部位识别,速度比较快,但由于近红外数据是全部信息的综合结果,不能明确具体的化学意义.

在烟叶的品质管理中,衡量烟叶品质的核心内容之一是香气的控制,而香气的主要来源是烟草中的致香成分,如茄酮、巨豆三烯酮、3-氧代-α-紫罗兰醇等物质.对于烟草致香成分,也有许多学者进行了研究.2016年,杨艳芹等[6]利用双内标气相色谱-质谱联用法测定烟草干馏香料致香成分含量.2017年,尧珍玉等[7]研究了烟草中关键致香物质积累、降解对烟叶品质影响.不同部位的烟叶的致香成分存在明显差异,但目前大多数研究仅仅比较了致香成分的均值差异,而仅利用均值差异很难挖掘出影响上部烟叶和中部烟叶差异性的主要致香成分.

本研究尝试利用烟草致香成分的差异性建立上部烟叶和中部烟叶的快速判别模型,通过分析上部和中部烟叶主要致香成分的差异性,利用Fisher算法挖掘出影响上部烟叶和中部烟叶差异性的主要致香成分,为烟叶的品质管理提供帮助.

1 实验和算法

1.1实 验

1.1.1 实验材料和设备

选取国内5个烟叶主产区2017年的初烤烟叶样品(上海烟草集团责任有限公司提供)共176个,利用人工将样品分为上部烟叶和中部烟叶两个等级.烟叶样品的统计结果如表1所示.随机提取35个样品作为独立测试集,剩余的141个样品作为建模集.

表1 烟叶样品统计结果Table 1 Statistical results of tobacco leaf samples

Agilent 1260液相色谱系统(购于美国Agilent科技有限公司),配备自动进样器、二元泵、二极管阵列检测器(diode array detector,DAD).Agilent 5975气相色谱系统(购于美国Aglient科技有限公司),配备On-Column进样系统、火焰离子检测器(flame ionization detector,FID);AA3连续流动分析仪(购于德国Bran-Luebee公司);CYCLOTEL 1093旋风粉碎机(购于丹麦Foss公司);感量精度0.001 g的PB 303-S电子天平(购于瑞士Mettler Toledo公司).

1.1.2 实验方法

将初烤后的烟叶样品置于50◦C烘箱恒温干燥30 min,取出后粉碎并过80目筛备用.称取0.2 g烟末于20 mL螺口试管内,分别加入2.5 mL正己烷和叔丁基甲醚,振荡并静置5 min,加入200µL内标溶液(每毫升正己烷中包含11.2 mg α-紫罗兰酮),得到烟草提取物,备用待测.

高效液相色谱(high performance liquid chromatography,HPLC)检测条件:烟草提取物进样量10µL,色谱柱为Waters Styragel HR 0.5凝胶色谱柱,规格为30 cm×4.6 cm,5µm,分子量排阻上限1 000 Da(约为1.660 538 86×1027kg).流动相为二氯甲烷,流速0.25 mL/min,柱温为30◦C.DAD检测波长分别为238,254和320 nm.

气质色谱质谱联用(gas chromatography coupled with mass spectrometry,GC/MS)检测条件:色谱柱为DB-5MS,规格30 m×0.25 mm,0.25µm,载气为高纯氦气,色谱柱流速为每分钟1.2 mL(恒流模式).GC炉温箱温度程序为:40◦C保持14 min,以每分钟4◦C的速率升至290◦C,保持5 min.GC/MS传输线温度为280◦C,MS离子源温度为230◦C,四极杆温度为170◦C,质量扫描范围为45∼350 amu.

1.2算 法

1.2.1 遗传算法

遗传算法(genetic algorithm,GA)是由美国Holland教授在1975年首先提出的[8-9],该算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,借鉴了生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法.遗传算法的主要特点有:直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则.遗传算法的基本步骤包括:初始化、个体评价、选择运算、交叉运算、变异运算和终止条件判断.

1.2.2 支持向量机算法

1992-1995年,Vapnik[10]在统计学习理论(statistical learning theory,SLT)的基础上发展了支持向量机(support vector machine,SVM)算法,该算法在解决小样本、非线性及高维模式识别问题中表现出特有的优势,并推广应用到函数拟合等其他机器学习问题.SLT的核心内容包括:①经验风险最小化原则下统计学习一致性的条件;②在这些条件下关于统计学习方法推广性的界的结论;③在这些界的基础上建立的小样本归纳推理原则;④实现这些新的原则的实际方法[11].对于分类学习问题,传统的模式识别方法强调降维,而SVM与此相反[12].对于特征空间中两类点不能靠超平面分开的非线性问题,SVM采用映照方法将其映照到更高维的空间,并求得最佳区分两类样本点的超平面方程,作为判别未知样本的判据.这样空间维数虽较高,但Vapnik-Chervonenkis(VC)维仍可压低,从而限制了过拟合.即使已知样本较少,仍能有效地作统计预报.在分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点分别对应一个输入样本与一个支持向量的内积,因此也被称为支持向量网络.支持向量网络示意图如图1所示.

图1 支持向量网络示意图Fig.1 Schematic diagram of support vector network

1.2.3 Fisher判别矢量算法

多重判别矢量法[13]是模式识别中使用较为广泛的一种线性映射,这种线性映射使数据中各类别间分离性加强.多重判别矢量法使用一组判别矢量来完成,可直接应用于多类别的模式识别问题.此外,对于两类的模式识别问题,需要应用Fisher判别矢量法[14-15]才能得到模式识别投影图.若整个样本集中仅有两个类别,则多重判别矢量法只能产生一个判别矢量P1,即被称为Fisher判别矢量.Sammon提出了得到第二矢量P2的一种算法.利用矢量P1和P2即可形成最优判别平面,方便展示出样本数据的空间分布.

2 结果和讨论

2.1 中性致香成分检测结果

本研究分别选取茄酮、香叶基丙酮、β-紫罗兰酮、二氢猕猴桃内酯、巨豆三烯酮、新植二烯、β-法尼烯、氧化紫罗兰酮、3-羟基-β-二氢大马酮、3-氧代-α-紫罗兰醇和3-羟基索拉韦惕酮共11种中性致香成分进行模型算法研究.利用LC-GC-MS法测定烟叶样品中的不同中性致香成分,结果如图2所示.由图2可以看出,烟叶样品具有成分复杂、含量水平差异大的特点.

2.2 GA变量选择结果

以支持向量机对上部烟叶和中部烟叶分类,并通过留一法结果作为判别指标,同时利用GA算法对致香成分进行变量选择.最终选择8种致香成分:茄酮、二氢猕猴桃内酯、巨豆三烯酮、新植二烯、β-法尼烯、3-羟基-β-二氢大马酮、3-氧代-α-紫罗兰醇和3-羟基索拉韦惕酮.

2.3 SVM建模结果

2.3.1 建模结果

选取径向基核函数(惩罚因子取10),利用遗传算法选择8种致香成分,建立上部烟叶和中部烟叶分类模型.SVM的分类结果如图3所示.

图2 烟叶的中性致香成分检测Fig.2 Components of neutral aromatic compounds in tobacco leaf

图3 支持向量机的分类结果Fig.3 Effect of classification with trained SVM

利用混淆矩阵[16]显示SVM模型识别上部烟叶和中部烟叶的准确性,结果如表2所示.通过SVM算法建立的上部烟叶和中部烟叶的分类模型,整体准确率为88.65%,其中上部烟叶准确率为77.59%,中部烟叶准确率为96.34%.

2.3.2 SVM留一法结果

采用留一法检验模型的预报能力,结果如表3所示.留一法的整体准确率为84.40%,其中上部烟叶准确率为74.14%,中部烟叶准确率为91.57%.

表2 SVM建模混淆矩阵Table 2 Confusion matrix of training test using SVM model

2.3.3 SVM预报结果

利用建立的上部烟叶和中部烟叶SVM分类模型预报独立测试集的35个样本,结果如表4所示.由表4可知,模型对独立测试集预报的整体准确率82.86%,其中上部烟叶准确率为75.00%,中部烟叶准确率为89.47%.

表4 SVM模型预报混淆矩阵Table 4 Confusion matrix of the independent test data using SVM model

2.4 上部烟叶和中部烟叶的空间分布

2.4.1 样本空间分布

基于GA算法选择的8种致香成分为影响因素,利用Fisher判别矢量方法展示建模集样本的空间分布,结果如图4所示.由图4可知,中部烟叶主要分布在左边,上部烟叶主要分布在右边,且趋势比较明显.

图4 Fisher空间分布Fig.4 Spatial distribution of Fisher

2.4.2 主要影响因素

利用Fisher公式分别计算P1和P2的矢量方程,得到影响上部烟叶和中部烟叶差异性大的致香成分,结果如图5所示.由图5可见,显著影响上部烟叶和中部烟叶差异性的主要致香成分为3-羟基-β-二氢大马酮、巨豆三烯酮和茄酮.

图5 影响因素分析Fig.5 Analysis of influencing factors

3 结束语

对于烟叶的品质管理,准确高效判别烟叶的部位特征尤为重要.研究表明,同一棵烟株上不同部位的烟叶质量存在显著差别.在烟叶的品质管理中,衡量烟叶品质的核心内容之一是香气的控制,而烟草燃烧时的香气主要来源是烟草中的致香成分,如茄酮、巨豆三烯酮、3-氧代-α-紫罗兰醇等在高温环境下的裂解产物.本研究针对上部烟叶和中部烟叶中的致香成分进行研究,利用GA算法筛选出影响上部烟叶和中部烟叶差异性的8种致香成分,同时建立基于致香成分的上部和中部烟叶分类判别模型,建模、留一法和预报准确率分别为88.65%,84.40%和82.86%.此外,利用Fisher判别矢量方法考察了上部烟叶和中部烟叶的空间分布,结果表明,3-羟基-β-二氢大马酮、巨豆三烯酮和茄酮是影响上部烟叶和中部烟叶品质差异的主要致香成分.本工作的研究结果可以为卷烟工业企业烟叶质量管理中两个重要指标(烟叶的部位特征和香气控制)的控制提供参考.

猜你喜欢

烟叶矢量烟草
烟草具有辐射性?
矢量三角形法的应用
关于新形势下烟叶生产可持续发展的思考
烟叶主要真菌病害的发生与防治
烟草依赖的诊断标准
基于矢量最优估计的稳健测向方法
烟草中茄酮的富集和应用
三角形法则在动态平衡问题中的应用
一种降低造纸法再造烟叶平滑度的方法
湘西上部烟叶化学成分特征及聚类分析