APP下载

基于热裂解-气相色谱-质谱法和随机森林的加热卷烟烟叶原料适用性评估

2023-03-20范迎杰赵文涛张志敏

理化检验-化学分册 2023年1期
关键词:卷烟烟叶烟草

陈 颐 ,范迎杰 ,汪 旭 ,杨 菁 ,赵文涛 ,张志敏*

(1.云南省烟草农业科学研究院,昆明 650021;2.中南大学 化学化工学院,长沙 410083;3.上海新型烟草制品研究院有限公司,上海 200082)

加热卷烟是利用特殊加热源加热而不点燃的一种新型烟草制品,烟草加热到足够高的温度(一般在500 ℃以下)后仅产生低温蒸汽[1],有效减少了烟草制品由高温燃烧产生的潜在有害成分[2]。雷诺公司开发的“Eclipse”是一种使用碳质固体燃料作为热源的燃料加热型卷烟产品,其两段式烟芯材料中添加了烟丝,靠近热源端的卷烟原料中丙三醇含量较高,而靠近过滤端卷烟原料中不含丙三醇。菲利普莫里斯国际2014 年推出采用电子加热技术的“IQOS”产品[3],包括实心滤棒、空心滤棒、聚乳酸薄膜段和烟芯。烟芯作为加热卷烟核心技术之一,其烟叶原料的质量直接影响和制约新型烟草制品的发展。因此,需要对加热卷烟烟叶原料的适用性进行研究。

目前,国内对加热卷烟烟叶原料评价的基础性研究相对较少,确定其品质主要是依靠专业人员的感官评价。热裂解-气相色谱-质谱法(Py-GC-MS)可用于分析烟草中复杂的化学成分[4]。文献[5]采用Py-GC-MS分析添加红茶的加热卷烟在低温条件下释放出的挥发物含量的变化。随机森林(RF)是由Leo Breiman在2001年提出的一种算法[6],可用于解决分类和回归问题,具有良好的泛化性和准确度,在烟草工艺和成分研究方面具有良好的应用前景。文献[7]采用RF 回归算法对卷烟制丝工艺过程中关键参数的筛选和赋权进行了分析。文献[8]根据细支卷烟原料的需求,对各类烟草样品的外观和感官质量指标进行了分析,并采用RF 和逻辑回归分类模型确定了所选烟草的品控指标。Py-GC-MS分析复杂样品时会产生大量数据,需要利用数据处理工具与机器学习来解决噪声、基线和保留时间漂移等问题。借助 MathDAMP[9]、AMDIS[10]、Met Align[11]、MET-IDEA[12]、TagFinder[13]、MSFACTs[14]、MZmine[15]等数据处理工具,可从原始数据中得到用于建立模型的化合物特征峰表。

本工作采用Py-GC-MS 对加热卷烟释放的化学成分进行分析,利用MZmine数据处理工具以及RF算法建立加热卷烟烟叶原料适用性评价模型,并与偏最小二乘法(PLS)模型进行比对,为深入研究加热卷烟烟叶原料评价及开发专用型烟叶原料奠定理论基础和积累经验。

1 试验部分

1.1 仪器与试剂

PY-3030D 型热裂解仪;GCMS-QP2010 Ultra型气相色谱-质谱联用仪;Mettler Toledo MX5型电子天平。

用于试验研究的28种不同类型的加热卷烟样品均源于云南产区,使用scikit-learn软件包(版本1.0)中的train_test_split函数随机划分训练集和测试集,具体信息见表1。

表1 加热卷烟样品信息Tab.1 Information of the heat-not-burn tobacco samples

1.2 仪器工作条件

1.2.1 热裂解仪

裂解温度350 ℃;接口温度300 ℃。

1.2.2 色谱条件

DB-5MS毛细管色谱柱(30 m×0.25 mm,0.25μm);进样口温度300 ℃;分流进样,分流比50∶1;载气为氦气,流量1 mL·min-1。柱升温程序:初始温度50 ℃;以10 ℃·min-1速率升温至300℃,保持10 min。

1.2.3 质谱条件

电子轰击离子(EI)源;离子源温度230℃,传输线温度300 ℃;电离能量70 eV;检测器电压0.8 kV;全扫描模式;扫描范围 质荷比(m/z)29~800。

1.3 试验方法

1.3.1 感官评价

按照云南中烟企业标准Q/YNZY.J04.022-2015《新型卷烟感官评价方法》(此标准目前仅在云南中烟使用,待烟草行业标准制定并发布后,将改用行业标准评价),采用烟雾量、香气香味、劲头、谐调性、刺激性、口感等6项评价指标对卷烟进行打分。每项指标有3个等级的评分标准,其中烟雾量分为烟雾充足(10 分),烟雾略少(8 分),烟雾较少(6分);香气香味分为香气丰满、细腻(30分),香气充足、少粗糙(25分),香气偏淡、较粗糙(20分);劲头分为适宜(10分),略大或略小(8分),较大或较小(6分);谐调性分为谐调(10分),较谐调(8分),尚谐调(6分);刺激性分为无刺激(15分),略有刺激(12分),刺激较强(9分);口感分为舒适(25分),较舒适(22分),尚舒适(20分)。各项指标的权重分别为0.10,0.30,0.10,0.10,0.15,0.25。最终得分为单项加权平均,采用百分制计分,各项指标以0.5分为计分单位。

1.3.2 样品分析

烟丝经液氮冷冻研磨后置于烘箱内,于40℃干燥,然后过0.18 mm(80 目)筛。称取样品粉末0.90 mg于样品杯中,将其固定于进样杆上,装入热裂解仪。待仪器达到设定温度并稳定后,按下进样按钮,样品杯通过自由落体迅速掉入热裂解仪炉心。在氦气氛围中,挥发性成分瞬间气化,由载气带入气相色谱仪中进行分离,通过联用的质谱仪检测,得到样品的Py-GC-MS数据。

1.3.3 数据处理

从GCMSsolution2.5 工作站中以NetCDF 格式导出Py-GC-MS 数据,然后导入MZmine 软件(版本2.53)进行数据处理,包括构建提取离子流色谱图(EIC)、检测EIC 峰、解卷积和峰校准,以获得具有m/z、保留时间和峰强度信息的特征峰表。其中解卷积是数据处理的重要步骤,采用多元曲线分辨(MCR)进行,包括以下3个步骤:①解卷积窗口的确定;②通过MCR 在每个解卷积窗口中构建模型峰;③将解卷积窗口中构建的每个EIC峰分解为模型峰的线性组合。将构建的质谱数据以msp格式导出,然后导入NIST 2017库中进行检索定性。

1.3.4 建立模型

采用Python编程语言(版本3.8.12)和scikitlearn软件(版本1.0)中的RF 算法进行回归分析,建立加热卷烟化学成分与感官评价得分(评吸值)之间关系的RF模型。

RF是一种以决策树为基础学习器的集成学习算法,由很多决策树共同构成。决策树的每个非叶结点表示由一种特征属性引发的判断,每个分支代表判断结果的输出,每个叶结点存放一个决策结果。使用决策树进行决策的过程是从根结点开始,测试待测数据中相应的特征属性,并根据其结果选择输出分支,直到到达叶结点,获得决策结果。

以Gini指数作为评价指标来衡量样品中化学成分的特征重要性[16]。将所有决策树上每个化学成分的Gini指数降低值相加,即可获得每个化学成分的特征重要性评分[17]。

1.3.5 模型评价

以均方根误差(RMSE)和决定系数(R2)作为模型的评价指标[18]。RMSE 用于衡量模型在预测中产生的误差。R2表示预测值对实际值的解释程度,越接近于1,说明预测效果越好;越接近于0,说明预测效果越差;负值时说明预测效果非常差。

2 结果与讨论

2.1 样品量的选择

样品量太大,会导致色谱柱残留,污染仪器,影响结果重现性;样品量过少,会导致色谱峰的强度下降,数量减少,有些低含量化学组分检测不到。以样品1为研究对象,分别取0.70,0.90,1.10 mg,按照1.3.2节进行检测。

结果表明:当保留时间为6.0~10.0 min时,基线漂移严重,这是由于样品中丙三醇含量较高、极性较强;当样品量为0.70 mg时,少数含量较低的组分未被检测到;当样品量为0.90,1.10 mg时,裂解产物的数量较多,色谱峰强度适中,分离度良好,并且两者的色谱峰个数和强度无明显差别。因此,试验选择的样品量为0.90 mg。

2.2 精密度试验

每种样品分别选取3份,按照试验方法进行分析,计算样品中各组分峰面积的相对标准偏差(RSD)。为了便于展示,按照不同RSD 范围(0~10%,10%~20%,20%~30%)对28种加热卷烟样品进行统计分析,结果见表2。其中,峰个数百分比=不同RSD 范围内峰个数/总峰个数×100%,峰面积百分比=不同RSD 范围内峰面积和/总峰面积×100%。

表2 精密度试验结果(n=3)Tab.2 Results of test for precision(n=3)

表2 (续)

结果表明:每种样品中峰面积RSD 小于20%的峰个数和峰面积占总峰个数和总峰面积的88.00%以上;以样品1为例,有93.20%的组分峰的峰面积RSD 在20%以内,占总峰面积的98.30%,说明仪器稳定,结果重现性好。

2.3 数据处理结果

按照1.3.3 节对Py-GC-MS 原始数据进行处理。以样品1为例,首先对噪声进行过滤。取m/z容差参数(εm/z)为0.2,样品1 在m/z56.800 0~57.200 0内的EIC见图1(a)。接着,使用连续小波变换(CWT)[19]检测EIC 峰,通过不断改变平移因子和尺度因子来确定峰的位置和边界。样品1 在m/z39.050 0通道上所检测到的EIC峰见图1(b),共流出区间的EIC 峰见图1(c)。通过MCR 解卷积,在解卷积窗口6.170~6.346 min内检测到未被色谱完全分离的共流出区间中每个组分的色谱峰[图1(d)]。将解卷积窗口中检测到的EIC峰分解为模型峰的线性组合,为每个组分构建质谱数据[图1(e)]。最后根据质谱相似性和保留时间相似性对每个组分峰进行校准,当两个组分相似度(范围0~1)不小于0.85时,即认为是同一组分。图1(e)上半部分代表构建的质谱数据,下半部分代表NIST 2017库中的质谱数据。结果表明:峰1的初步定性结果为苯酚,匹配度为912;峰2的初步定性结果为2,4-二羟基-2,5-二甲基-3(2H)-呋喃-3-酮,匹配度为738。将包含峰强度信息的特征峰表以csv格式导出,用于建立RF模型。

图1 数据处理结果Fig.1 Results of data processing

2.4 RF模型

以数据处理后获得的包含峰强度信息的特征峰表作为自变量,评吸值作为因变量,采用RF建立加热卷烟烟叶原料适用性模型,并与PLS 模型进行对比。

对RF模型性能影响较大的参数是森林中树的个数(n_estimators)、每棵树随机选择的特征数目(max_features)和树的最大深度(max_depth)[20]。增加n_estimators可减小误差并提高预测的稳定性,但训练RF 时间随着n_estimators的增加显著延长[21],增加了时间成本;适当减少max_features可降低每棵树之间的相关性,有助于提高RF 模型的准确度;max_depth越深,模型越复杂,也会增加训练的时间成本。将数据集划分为训练集和测试集,采用K折交叉验证对参数进行优化。当K为10时,结果得n_estimators=20,max_features=21,max_depth=6。

加热卷烟感官评价的评吸值与RF、PLS 模型预测值之间的关系如图2所示,RF、PLS模型的评价结果如表3所示。

由图2训练集结果来看,RF 模型具有良好的预测能力,并且由表3结果可知RF 模型在测试集上的R2显著高于PLS模型的,RF模型在测试集上的RMSE值显著低于PLS模型的,表明RF模型预测效果较好,具有良好的泛化能力。通过Py-GCMS采集某一类型加热卷烟的化学成分信息,用MZmine软件对Py-GC-MS数据进行处理,获得化学成分特征信息,将特征信息输入RF模型,从而得到加热卷烟的感官评价得分预测值。

表3 RF、PLS模型的评价结果Tab.3 Evaluation results of RF and PLS models

图2 评吸值与RF、PLS模型预测值之间的关系Fig.2 Relationships between the suction values and the predicted valuse of RF and PLS models

表4展示了特征重要性评分较高的前20个成分,由NIST 2017库定性,其中包括2个酸性成分,4个碱性成分,其余均为中性成分。酸性成分可以调节烟气的酸碱平衡、柔和烟气,对卷烟的香气和吃味具有积极影响;碱性成分中7-羟基-6-甲氧基-香豆素具有弱甜味[22],特征重要性评分最高,并且杂环类化合物也是卷烟烟气中的重要香气成分;中性成分中,除了醇类、脂类等香味物质具有较高的评分外,烃类物质(2-甲基十八烷、正十七烷、2-甲基二十八烷)并不属于香味成分,也具有较高的评分,这是由于烃类物质可以调节烟叶表面的水平衡,水分的变化也是影响其感官评价的重要因素[23]。

表4 特征重要性评分较高的前20个化学成分Tab.4 The top 20 chemical compositions with high feature importance scores

本工作采用Py-GC-MS 对加热卷烟的化学成分进行分析,利用MZmine软件对数据进行处理,获得化学成分特征峰表,基于RF 分析化学成分特征峰表与加热卷烟感官评价评吸值之间的关系,建立了加热卷烟烟叶原料适用性的RF 模型,并筛选出对RF模型特征重要性影响较高的20个化学成分。该方法从化学成分角度对加热卷烟烟叶原料进行评价,所建模型具有良好的预测能力和较高的准确度,适用于卷烟质量评价背后复杂化学成分分析,为优化烟草配方及添加剂提供方法参考和探索中式新型烟草制品发展积累经验。

猜你喜欢

卷烟烟叶烟草
关于新形势下烟叶生产可持续发展的思考
烟叶主要真菌病害的发生与防治
烟草依赖的诊断标准
烟草中茄酮的富集和应用
一种降低造纸法再造烟叶平滑度的方法
湘西上部烟叶化学成分特征及聚类分析
卷烟包装痕迹分析
烟草镜头与历史真实
百年烟草传奇的云南叙事
我国卷烟需求预测研究述评