基于Fisher线性判别分析方法的卷烟主流烟气质量预测模型构建
2021-03-10单秋甫陈芳锐张海涛
单秋甫 张 涛 李 超 罗 林 陈芳锐 张海涛
(1. 云南中烟工业有限责任公司,云南 昆明 650231;2. 红云红河烟草〔集团〕有限责任公司,云南 昆明 650231)
GB 5606.5—2005规定了卷烟主流烟气中焦油量、烟气烟碱量和烟气一氧化碳量等质量指标,并要求各工业公司在烟盒上对三者进行标注。长期以来,通过色谱、质谱等分析仪器对这3个质量指标进行检测,其前处理较为复杂,时间较长,期间所用试剂较多,而且仪器采购、维护费用较高。对于卷烟香味成分指标的预测模型研究和构建,前人做了不少的工作,例如:李达等[1]构建了线性模型揭示了卷烟挥发性香气成分与烟丝加香工艺参数之间的数学关系;李超等[2]通过研究烙铁温度与成品烟丝致香成分的关系,来预测不同工艺条件下的烟丝致香成分含量。但是通过卷烟物理指标结合烟丝常规化学成分来对烟气质量指标的预测模型研究和构建却鲜见报道。
Fisher线性判别分析(Fisher linear discriminant analysis)最早是由Fisher在1936年提出的一种统计分析方法,其思想为:根据已有的训练样例的若干数量特征分析,将样例投影到一条直线上,根据组间距离最大,组内距离最小的原则确定线性判别函数的系数,建立线性判别方程,再结合相应的判别准则判别出一个新样品的类别,然后利用判别准则将样本分开[3-4]。该判别方法可以有效地实现对多指标数据的降维分析,同时对数据分布无要求等优点,被广泛用于人脸检测、矿井水文地质类型等领域[4-5]。
由于影响卷烟主流烟气质量的变量很多,且影响程度的大小不同。试验拟基于Fisher判别理论,利用卷烟的圆周、质量、长度等16个参数作为判别因子,提出判别函数,建立Fisher判别模型,以期为卷烟主流烟气质量的判别提供一种新的途径。
1 材料与方法
1.1 材料
30种市售成品卷烟:盒标一氧化碳量为7~12 mg,盒标焦油量为7~13 mg,盒标烟气烟碱量0.7~1.1 mg,2019年分别购自厦门市、北京市、大理市等地。
1.2 试剂
乙酸、甲醇、乙腈、甲酸铵、氢氧化钠、氯化钙、盐酸、对羟基苯甲酸酰肼、D-葡萄糖、氯化钾、水杨酸钠、亚硝基铁氰化钠:分析纯,国药集团化学试剂有限公司;
浓硝酸(质量分数为65%~68%)、硝酸铁、9水合硝酸铁(纯度>99.0%)、硫氰酸汞(纯度>99.0%)、氯化钠标准物质[GBW(E)060024c]、次氯酸钠(有效氯含量≥5%)、烟碱标准品(纯度≥99%):美国Sigma公司。
1.3 仪器与设备
气相色谱—质谱联用仪:Perkin Elmer Clarus 600型,美国Perkin Elmer公司;
超高效液相色谱—串联质谱联用仪:Waters Acquity UPLC-TQD型,配备电喷雾离子源(ESI),美国Waters公司;
连续流动分析仪:Skalar San++型,荷兰Skalar公司;
分析天平:ME235S-OCE型,感量为0.1 mg,德国Sartorius公司;
烟支物理指标综合测试台:SODIMAX型,法国SODIM公司。
1.4 样品的测试方法
1.4.1 烟丝结构 按《卷烟工艺规范》及YC/T 178—2003执行。
1.4.2 烟丝常规化学成分
(1) 水溶性糖:按YC/T 159—2002执行。
(2) 氯:按YC/T 162—2011执行。
(3) 钾:按YC/T 217—2007执行。
(4) 总氮:按YC/T 161—2002执行。
(5) 蛋白质:按YC/T 249—2008执行。
(6) 烟碱:按YC/T 246—2008执行。
1.4.3 烟支卷制质量指标
(1) 卷烟的圆周、质量、长度、硬度、滤嘴通风率、纸通风率、总通风率和吸阻:按GB/T 22838—2009执行。
(2) 卷烟烟支烟丝密度及其分布均匀性:按YC/T 476—2013执行。
2 卷烟主流烟气质量预测的Fisher判别模型
2.1 判别指标的选取
根据相关标准[6-11]及实践经验,初步筛选出影响卷烟主流烟气质量的指标:卷烟的圆周、质量、长度、烟丝水分含量、烟丝烟碱含量、硬度、滤嘴通风率、纸通风率、还原糖含量、钾含量、总糖含量、含水率、氯含量、总通风率、吸阻和总氮含量。采用逐步判别分析法[12]对影响卷烟主流烟气质量的敏感指标进行逐步判别筛选。
假设判别函数原有q个变量,记X*。如果新的变量Xj的F≥F进,表明变量Xj判别能力显著,相应地需在判别函数中增加变量Xj,则:
(1)
F进=Fa(k-1,n-k-1),
(2)
(3)
式中:
X*、Xj——卷烟某个理化指标的数值;
Fa——线性方程的F统计量值;
F——原组合的线性方程的F统计量值;
F进——新组合的线性方程的F统计量值;
n——原线性方程的自由度;
k——新组合的线性方程的自由度。
如果判别函数原有q个变量中有Xk,满足F≤F出,表明该变量对判别能力不显著,需将其剔除。则:
(4)
F出=Fa(k-1,n-k-q-1),
(5)
式中:
Xk——卷烟某个理化指标的数值;
Fa——线性方程的F统计量值;
F——原组合的线性方程的F统计量值;
F出——线性方程的F统计量值;
n——原线性方程的自由度;
k——新组合的线性方程的自由度。
从36种卷烟样品随机选取30种为训练集,其余6种样品为测试集。30种为训练集每种有5个平行样,共计150个样品。
2.2 Fisher判别分析模型的建立
2.2.1 判别函数的建立 参照文献[13—14],将要判别的两组分别标记为A和B,令组A有s数据,组B有t组数据,对于p个判别指标,则:
各组数据列的平均值为
作新矩阵M、N及其离差矩阵S1、S2。
S1=M'M,S2=N'N,S=S1+S2。
得到最优判别函数系数c1,c2,…,cp。
利用IBM SPSS 22.0软件进行相关计算,获得未标准化的Fisher判别函数系数。
2.2.2 一氧化碳判别模型的构建 若待测卷烟的盒标烟气一氧化碳量在[7 mg,9 mg],则一氧化碳量判别模型:
C正常=-15 160.93+43.612X长度-3 405.606X吸阻+1 109.039X圆周+33.918X硬度+15.863X滤嘴通风率+95.111X盒标一氧化碳量,
(6)
C异常=-8 647.21+30.475X长度-1 555.12X吸阻+813.207X圆周+21.03X硬度+20.575X滤嘴通风率+11.421X盒标一氧化碳量,
(7)
式中:
C正常——质量满足要求卷烟的一氧化碳判别函数值;
C异常——质量异常卷烟的一氧化碳判别函数值;
X圆周——烟支圆周,mm;
X吸阻——烟支吸阻,kPa;
X长度——烟支长度,mm;
X硬度——烟支硬度,%;
X滤嘴通风率——烟支滤嘴通风率,%;
X盒标一氧化碳量——烟支盒标一氧化碳量,mg/支。
2.2.3 焦油判别模型的构建 若待测卷烟的盒标焦油量在[7 mg,9 mg],则焦油量判别模型:
J正常=-4 906.423+17.844X烟丝水分+1 073.656X质量+302.317X圆周+17.998X滤嘴通风率+76.809X含水率,
(8)
J异常=-2 853.338+14.624X烟丝水分+1 001.878X质量+194.138X圆周+13.106X滤嘴通风率+108.724X含水率;
(9)
若待测卷烟的盒标焦油量在(9 mg,13 mg],则焦油量判别模型:
J正常=-122 231.797-35.295X还原糖+370.607X烟丝烟碱-144.763X氯-5.549X烟丝水分+10 206.485X圆周+30.984X滤嘴通风率+1.964X总通风率-377.531X盒标焦油量,
(10)
J异常=-120 947.405-38.337X还原糖+336.649X烟丝烟碱-110.918X氯-4.162X烟丝水分+10 145.234X圆周+30.457X滤嘴通风率+2.094X总通风率-350.939X盒标焦油量,
(11)
式中:
J正常——质量满足要求卷烟的焦油判别函数值;
J异常——质量异常卷烟的焦油判别函数值;
X圆周——烟支圆周,mm;
X吸阻——烟支吸阻,kPa;
X长度——烟支长度,mm;
X硬度——烟支硬度,%;
X滤嘴通风率——烟支滤嘴通风率,%;
X盒标一氧化碳量——烟支盒标一氧化碳量,mg/支。
2.2.4 烟碱判别模型的构建 若待测卷烟的盒标烟气烟碱量在[0.7 mg,0.9 mg],则烟气烟碱量判别模型:
Y正常=-688.964+17.532X还原糖+90.679X氯+4.442X硬度+5.985X纸通风率+792.509X盒标烟气烟碱量,
(12)
Y异常=-673.653+20.092X还原糖+89.497X氯+3.144X硬度+4.966X纸通风率+804.683X盒标烟气烟碱量;
(13)
若待测卷烟的盒标烟气烟碱量在(0.9 mg,1.1 mg],则烟气烟碱量判别模型:
Y正常=-6 805.283+240.987X烟丝烟碱-38.289X氯+277.514X钾+122.194X总氮+893.193X吸阻+420.862X圆周+12.698X滤嘴通风率-0.585X总通风率+14.28X纸通风率+703.185X盒标烟气烟碱量,
(14)
Y异常=-6 893.423+220.779X烟丝烟碱+21.513X氯+261.193X钾+145.277X总氮+945.853X吸阻+425.624X圆周+13.267X滤嘴通风率-0.508X总通风率+16.691X纸通风率+565.389X盒标烟气烟碱量,
(15)
式中:
Y正常——质量满足要求卷烟的烟碱判别函数值;
Y异常——质量异常卷烟的烟碱判别函数值;
X圆周——烟支圆周,mm;
X质量——烟支质量,g/支;
X长度——烟支长度,mm;
X烟丝水分——烟丝水分含量,%;
X烟丝烟碱——烟支硬度,%;
X滤嘴通风率、X纸通风率、X总通风率——烟支滤嘴、烟支纸及总通风率,%;
X还原糖、X钾、X总糖、X氯、X总氮——烟丝中还原糖、钾、总糖、氯、总氮的含量,%;
X盒标烟气一氧化碳量、X盒标焦油量、X盒标烟气烟碱量——烟支盒标一氧化碳量、盒标焦油量、盒标烟气烟碱量,mg/支。
当待检测卷烟同时满足C正常>C异常、J正常>J异常、Y正常>Y异常3个判别式,则该待检测卷烟主流烟气质量合格;反之不合格。
对市售30个牌号150个样品的卷烟进行质量检测,部分训练样品的检测及采集到的相关参数如表1所示。同时,采用1.2的测试方法对主流烟气中焦油量、烟气烟碱量和烟气一氧化碳量进行检测。根据判别函数式计算出150个样品的判别函数值,部分训练样品的Fisher线性判别结果与检测结果对比如表2所示。表2中,判断列(如一氧化碳判断)值1代表正常,值0代表异常。由表2 可知,检测结果与Fisher线性判别结果一致,均为:A~H 8个牌号卷烟主流烟气质量合格,I、J两个牌号卷烟主流烟气质量不合格。
同时利用Wilks的Lambda检验来预估判别函数方程的显著性。检验结果如表3所示,一氧化碳、焦油和烟气烟碱量各判别函数方程的显著性概率Sig.均为P<0.05,说明判别函数方程是显著的,该方程具有一定程度的外部推广应用性。
判别函数贡献率如表4所示,可以得到一氧化碳、焦油和烟气烟碱量各判别函数的方差贡献率,所建立的判别函数均能对分类的建模样品进行100%的分类判别,能很好地区分各个所划分的正常样品和异常样品情况。
表1 部分训练样品的各个指标值与判别函数值
综上所述,提出的Fisher线性判别分类识别正确率为100%,代入回判公式可知误判率为0,证明所建立的卷烟主流烟气质量Fisher判别分析模型是稳定、合理的。
对市售30个牌号150个样品的卷烟进行PCA分析(即指标差异上的客观评价),部分训练样品的一氧化碳8~12 mg、焦油8~11 mg和烟气烟碱0.8~1.1 mg的PCA分析结果如图1~3所示。由图1~3可知,正常与异常样品具有明显的界限区分。图1中,盒标8~12 mg一氧化碳量异常样品主要在长度、吸阻、圆周和硬度4个指标有异常。长度太长,吸阻太大、圆周和硬度太小均会导致样品的一氧化碳量发生异常。图2中,盒标8~11 mg 焦油量的异常样品主要在质量、圆周、滤嘴通风率和含水率4个指标有异常。质量过轻、圆周过小、滤嘴通风率过大或过小和含水率太小均会导致样品的焦油量发生异常。图3中,盒标0.8~1.1 mg烟气烟碱量异常样品主要在还原糖和氯两个指标有异常。还原糖太大和氯太小或太大均会导致样品的烟气烟碱量发生异常。
2.3 Fisher模型的外部验证
对验证测试集K~P 6个牌号样品进行质量检测,相关参数如表5所示。同时,采用1.2节样品的测试方法对主流烟气中焦油量、烟气烟碱量和烟气一氧化碳量进行检测。Fisher线性判别结果与检测结果对比如表6所示。由表6可知,检测结果与Fisher线性判别结果一致,均为:K、L、M、O、P 5个牌号卷烟主流烟气质量不合格,N牌号卷烟主流烟气质量合格。结果表明提出的Fisher线性判别模型与实际检测结果吻合度较好,对于卷烟主流烟气质量具有较好的判别能力。
表2 部分训练样品的检测结果与Fisher线性判别结果对比表
表3 判别函数显著性检验结果
表4 判别函数贡献率
图1 盒标8~12 mg一氧化碳部分训练样品的PCA分析结果图
图2 盒标8~11 mg 焦油部分训练样品的PCA分析结果
图3 盒标0.8~1.1 mg 烟气烟碱部分训练样品的PCA分析结果
表5 测试集6个牌号各个指标值与判别函数值
表6 检测结果与Fisher线性判别结果对比表
3 结论
通过Fisher线性判别理论的应用,构建了以卷烟的圆周、质量、长度等16个参数作为判别因子的Fisher判别模型,实现了以卷烟物理指标和烟丝常规化学成分指标对卷烟烟气烟碱、烟气一氧化碳和烟气焦油量的预测,并将该模型应用于卷烟主流烟气的质量判别当中。该模型经过回代误判率为0,检验计算预测精度达到100%,表明所建立的卷烟主流烟气质量Fisher判别模型的方法科学合理,且可操作性强,能够应用于卷烟主流烟气质量的判别中,有效解决了卷烟烟气指标测试条件要求高的现实问题。目前该方法还存在建模样本量不是很大的问题,后续将进一步加大样本量,力求使模型的适用范围更加广泛。