基于Flash GC电子鼻全色谱数据的卷烟类型快速判别的研究
2017-02-15吴君章赵盛翘邹小勇
吴君章,赵盛翘,韩 冰,邹小勇*
(1.广东中烟工业有限责任公司 技术中心,广东 广州 510385;2.中山大学 化学与化学工程学院,广东 广州 510275)
研究简报
基于Flash GC电子鼻全色谱数据的卷烟类型快速判别的研究
吴君章1,赵盛翘2,韩 冰1,邹小勇2*
(1.广东中烟工业有限责任公司 技术中心,广东 广州 510385;2.中山大学 化学与化学工程学院,广东 广州 510275)
采用Flash GC全谱数据,通过支持向量机(SVM)技术,较好地识别A品牌和非A品牌卷烟,A品牌一、二和三价类卷烟,以及A品牌Ⅰ,Ⅱ,Ⅲ和Ⅴ风格卷烟,但Ⅳ和Ⅴ风格较为接近,无法完全区分。由于每一种样本均具有特征指纹色谱,全色谱数据能够反映不同样本之间的微小差异。利用支持向量机构建预测模型,采用线性核函数和全色谱数据,获得了较高的预测结果。
Flash GC 电子鼻;支持向量机;价类;风格
电子鼻的研究始于20世纪80年代初期,它通过对目标物中具有的挥发性气体、有机物等进行捕集分析,对采集到的数据进行统计计算分析,使用一系列的传感器来模仿嗅觉,检测和区分复杂样品的气味,并且成本低廉,应用广泛。近10年来出现了大量使用电子鼻进行各项研究的报道,包括在烟草质量评价中的应用[1-11]。截止 2008 年,全世界电子鼻商业产品的供应商已达到 18 家,如法国 Alpha MOS、美国的 Cyrano sciences 等[12]。大多数电子鼻为传感器型,但传感器的共同特点是易发生中毒现象[13]。法国 Alpha MOS 生产的 HERACLES Flash GC 型电子鼻,它内置 Trap,可以大大提高检测灵敏度;柱鞘加热技术,升温速率最高可达 25 ℃/s;采用气相色谱的原理,配置两根极性不同的色谱柱及两个 FID 检测器来采集数据,且其柱径为 0.1 mm,具有极高的理论塔板数。
支持向量机(Support vector machines,SVM)是Vapnik 等于1995 年提出的一种新学习算法,是在有限样本条件下对统计学习中的VC 维(Vapnik-Chervonenkis)理论和结构风险最小原理的实现[14-15],该方法克服了多元线性回归[16]和神经网络[17]建模存在的大样本需求和过学习等缺点,并能保障学习机具有良好的泛化能力[18]。章平泉等[19]利用主成分分析结合支持向量机,建立了对成品卷烟主流烟气中的总粒相物、焦油量和烟气烟碱含量进行定量预测的回归模型。王强等[20]提出了一种基于支持向量机的卷烟质量评估方法,能够根据烟草中化学成分的测量值来确定卷烟的质量。该作者还建立了基于支持向量机的卷烟焦油量预测模型[21-22],方法能够根据烟叶中的化学成分测量值来预测卷烟的焦油量。本文根据Flash GC 型电子鼻全谱数据,构建了支持向量机(SVM)模型,并建立了基于价类和风格的识别方法,相关研究未见详细报道。
1 实验部分
1.1 仪器、材料与试剂
卷烟价类、名称、类型、风格以及样本数如表1所示,其中价类分为一、二、三和四,风格分为Ⅰ,Ⅱ,Ⅲ,Ⅳ和Ⅴ。选定1批不同类型的卷烟,具体编号如下:根据不同品牌的卷烟,将其分为A,B,C,D,E,F和G。以A品牌为例,依据其价类不同,分成A1,A2和A3;同一价类有不同A品牌卷烟,又分成A11,A12…A1n,A21,A22…A2n,…,A31,A32…A3n。
表1 卷烟样品列表
HERACLES Flash GC 电子鼻(法国Alpha MOS仪器贸易有限公司);*neither mixed type nor flue-cured tobacco
1.2 实验方法
选取各种卷烟,剖开后取出烟丝,磨成烟末。称量0.3 g烟末加入10 mL样品瓶中,密封。采用以下实验条件进行Flash GC分析。初温:45 ℃,终温:270 ℃,升温速度:2 ℃·s-1,进样针清洗时间:90 s,进样口温度:210 ℃,FID温度:260 ℃,TRAP初温:40 ℃,TRAP终温:260 ℃,进样针温度:110 ℃,孵化温度:90 ℃,孵化时间:1 200 s,捕集时间:50 s,进样量:500 μL。
(1)
采用线性支持向量机软件包Liblinear(http://www.csie.ntu.edu.tw/~cjlin/liblinear/)构建模型对卷烟品质进行分类研究,Matlab环境中运行,10-折交叉验证评估模型精度。样本随机平均分成10份,其中1份用作测试集,剩余9份用作训练集。重复10次,使10份中的每一份均被作为测试集。最后,整合10次重复的结果,评估模型性能。具体步骤如下:
①Matlab读取,并装载正负样本数据;②归一化数据;③将正负样本随机平均分为10等份;④运行SVM;⑤基于10-折交叉验证优化模型参数;⑥构建模型;⑦输出结果。
利用Flash GC所采集的全谱数据表征卷烟样品。每一类卷烟中的所有样品数据都被用于构建数据集。
采用式(2)对色谱数据进行归一化预处理:
(2)
式中,xi(j)为样品i的第j个色谱数据值,x(j)min和x(j)max分别为所有样品中第j个色谱数据的最小值和最大值。
图1 A品牌-非A品牌卷烟模式识别研究流程图Fig.1 Flow chart of A brand-not A brand cigarette pattern recognition
在进行卷烟类型判别时,首先判断卷烟是否属于A品牌卷烟(模型输出若为+1,则表示属于A品牌卷烟,若输出为-1,则不属于A品牌卷烟),如果属于A品牌卷烟,则再进行风格和价类的判别,具体过程如图1所示。
价类判别:判断是否是一类、二类或者三类A品牌卷烟。基于一类/二类和三类品牌卷烟构建支持向量机模型,如果模型输出为+1,则表示一类,若输出-1,则是二类或三类。基于二类/三类和一类品牌卷烟构建支持向量机模型,如果模型输出为+1,则表示二类,否则是三类或一类。基于三类/一类和二类品牌卷烟构建支持向量机模型,如果模型输出为+1,则表示三类,否则是一类或二类。因此,基于所构建的三个分类器,可以判别一类、二类和三类A品牌卷烟。
风格判别:判断其具体属于A品牌卷烟中的哪种风格(以Ⅰ风格为正样本,Ⅱ风格,Ⅲ风格,Ⅳ风格,Ⅴ风格为负样本,构建支持向量机模型,如果输出为+1,则表示Ⅰ风格,否则不是Ⅰ风格。以Ⅱ风格为正样本,其它4种风格为负样本,构建支持向量机模型,如果输出为+1,则表示Ⅱ风格,否则不是。以Ⅲ风格为正样本,其它4种风格为负样本,构建支持向量机模型,如果输出为+1,则表示Ⅲ风格,否则不是。以Ⅳ风格为正样本,其它4种风格为负样本,构建支持向量机模,如果输出为+1,表示Ⅳ风格,否则不是。以Ⅴ风格为正样本,其它4种风格为负样本,构建支持向量机模型,如果输出为+1,表示Ⅴ风格,否则不是)。
A品牌和非A品牌卷烟的判别是两类分类问题,所以采用精确度(Accuracy,Acc)、敏感性(Sensitivity,Sen)、特异性(Specificity,Spe)、准确率(Precision,Pre)、马氏相关系数(Matthew's correlation coefficient,Mcc)以及受试者工作特征曲线(Receiver operating characteristic curve,ROC)和准确率-召回率曲线(Precision-recall curve,PRC)平均模型性能,其定义式如下:
其中,TP和TN分别表示模型正确预测的A品牌和非A品牌卷烟数目,FN和FP分别表示模型错误预测的A品牌和非A品牌卷烟样品数。通过改变阈值,可获得一系列的敏感性、特异性、准确率和召回率(定义与Sen相同),分别以1-特异性和召回率为横坐标,以敏感性和准确率为纵坐标绘制ROC和PRC曲线,曲线下面积可用于衡量模型预测性能,面积值越接近1表示模型性能越好,0.5表示随机预测。对于A品牌卷烟价类以及风格是多类分类,所以采用每一类卷烟的预测精确度作为指标平均预测性能。采用10-折交叉验证评估模型性能。
图2 A品牌-非A品牌卷烟模型的ROC和PRC曲线Fig.2 ROC and PRC curve of A brand-not A brand cigarettes model
图3 A品牌卷烟风格分类流程图Fig.3 Flow chart of A brand cigarette style classification
2 结果与讨论
2.1 A品牌与非A品牌卷烟的识别
构建模型对于A品牌-非A品牌卷烟的10-折交叉验证,结果显示,获得了93.28%的精确度,96.18%的敏感性,83.64%的特异性,95.12%的准确率和0.808 9的马氏相关系数。ROC和PRC曲线如图2所示,面积分别为0.986 5和0.995 2。表明此模型能够很好地识别A品牌和非A品牌卷烟。
2.2 基于A品牌卷烟风格的识别
基于A品牌卷烟风格分类的过程,如图3流程图所示。
构建SVM模型对A品牌卷烟Ⅰ,Ⅱ,Ⅲ,Ⅳ和Ⅴ风格的10-折交叉验证结果显示。预测精度(Acc)分别为92.95%,89.78%,100%,57.50%和71.67%。表明构建模型能够很好地分辨Ⅰ,Ⅱ,Ⅲ和Ⅴ风格A品牌卷烟。Ⅳ风格A品牌卷烟样本数为120,其中51个样本被构建模型预测为Ⅴ风格A品牌卷烟。Ⅴ风格A品牌卷烟样本数为180,其中51个样本被预测为Ⅳ风格A品牌卷烟。Ⅳ风格和Ⅴ风格较为接近,导致色谱数据比较相似,通过建立模型将两类完全分开较为困难。基于A品牌卷烟风格识别的直观效果如图4A所示。
图4 基于A品牌卷烟风格识别(A)及Ⅰ风格3种价类A品牌卷烟识别(B)的直观效果图
图5 A品牌卷烟价类分类流程图Fig.5 Flow chart of A brand cigarette price styles classification
2.3 基于A品牌卷烟价类的识别
2.3.1 对A品牌各种价类卷烟的判别基于图5所示流程图,对A品牌卷烟价类进行分类研究。
构建SVM模型对A品牌卷烟一类/二类和三类,以及三类/一类和二类预测精度均为100%,二类/一类和三类预测精度为99.83%,10-折交叉验证结果如表2所示,表明模型能非常好地分辨不同价类的A品牌卷烟。
表2 A品牌不同价类模型的10-折交叉验证结果
2.3.2 对A品牌3种价类卷烟的判别构建SVM模型对A品牌一价类卷烟中的各种卷烟进行研究。10-折交叉验证结果显示,A11,A12,A13,A14,A15,A16,A17,A18和A19的10-折交叉预测精度均为100%,表明该方法能够很好地识别各种一价类A品牌卷烟。
构建了SVM模型对A品牌二价类卷烟中的预测,结果显示,A21,A22和A23的10-折交叉验证预测精度都为100%,表明构建的模型能够很好的区分A品牌二价类各个品牌卷烟。
构建了SVM模型对A品牌三价类卷烟中预测结果的混淆矩阵。结果显示,A31,A32,A34,A35,A36,A37,A38,A39和A310的10-折交叉验证,能识别所有样本,预测精度均为100%。对于A33,60个样本中,59个预测为A33,仅1个样本被错误识别为A32,预测精度为98.33%。表明提出的方法能够非常好地辨别A品牌三价类卷烟中的不同品牌。
2.3.3 对Ⅰ风格A品牌卷烟的判别构建的模型对Ⅰ风格A品牌一价类、二价类和三价类的预测精度均为100%,表明提出的方法能够很好地辨别Ⅰ风格3种价类A品牌卷烟。对Ⅰ风格A品牌3种价类卷烟预测的直观效果如4B所示。
表3 A品牌Ⅱ风格卷烟的支持向量机预测结果
2.3.4 对Ⅱ风格三价类A品牌卷烟的判别构建SVM模型对Ⅱ风格中三价类A品牌卷烟进行了识别研究,分类结果的混淆矩阵如表3所示。模型对A31,A34,A35和A36的识别率均为100%。对于A33,60个样本中,59个预测为A33,仅1个样本被错误识别为A34,预测精度为98.33%。这表明模型能够很好地识别Ⅱ风格中三价类A品牌各种卷烟。
2.3.5 对Ⅲ风格一价类和三价类A品牌卷烟的判别构建SVM模型对Ⅲ风格一类和三类A品牌卷烟进行了识别研究,10-折交叉验证结果显示,模型对Ⅲ风格一类和三类A品牌卷烟的预测精度、敏感性和特异性等均为100.0%,马氏相关系数为1.00。结果表明,模型能够精确地识别Ⅲ型A品牌一类和三类卷烟。
2.3.6 对Ⅳ风格一价类A16和A19两种卷烟的判别构建SVM模型对Ⅳ风格一价类A16和A19两种卷烟进行了识别研究,10-折交叉验证中,预测精度、敏感性和特异性均为100.0%,马氏相关系数为1.00。由此可以看出,模型能够精确地识别Ⅳ型的A16和A19两类品牌卷烟,表明了所建方法的有效性。
2.3.7 对Ⅴ风格一价类和二价类A品牌卷烟的判别构建SVM模型对Ⅴ风格一价类和二价类A品牌卷烟的预测精度、敏感性和特异性等均为100.0%,马氏相关系数为1.00。表明模型能够精确地识别Ⅴ风格一价类和二价类卷烟,表明了所建方法的有效性。
3 结 论
支持向量机(SVM)模型分析中,所构建的模型能够很好地识别A品牌和非A品牌卷烟,分辨Ⅰ,Ⅱ,Ⅲ和Ⅴ风格A品牌卷烟,但Ⅳ风格和Ⅴ风格较为接近,无法完全区分。该方法能够很好地识别一价类、二价类和三价类各A品牌卷烟,同时可对各风格A品牌3种价类品牌卷烟进行有效的识别。
[1] Zou X B,Fang R M,Cai J R.J.JiangsuUniv.Sci.Technol.(邹小波,方如明,蔡健荣.江苏理工大学学报),2000,21(3):1-4.
[2] Huang J X,Jiang H J,Yan Z.Chemistry(黄骏雄,蒋弘江,阎哲.化学通报),2000,1:51-54.
[3] Huang Z G,Li J P,He X L,Gao X G.J.Transduc.Technol.(黄祖刚,李建平,何秀丽,高晓光.传感器技术),2004,23:62-65.
[4] Yin Y,Wu S Y,Qiu M.Chin.J.Sci.Instrum.(殷勇,吴守一,邱明.仪器仪表学报),2004,23(6):86-88.
[5] Mao Y A,Liu W,Huang J G,Lu H B,Zhong K J,Liang J P.Chem.Sens.(毛友安,刘巍,黄建国,卢红兵,钟科军,梁进平.化学传感器),2006,26(2):23-28.
[6] Lee W W,Lee S Y,Shon H J,Kim Y H.J.Kr.Soc.TobaccoSci.,2005,27:134-140.
[7] Luo D H,Gholam H,John R.Sens.ActuatorsB,2004,99:253-257.
[8] Veitenhansl P,Bischoff R.Sens.ActuatorsB,2005,107(1):479-489.
[9] Mao Y A,Liu W,Huang J G,Lu H B,Zhong K J.Chem.Sens.(毛友安,刘巍,黄建国,卢红兵,钟科军.化学传感器),2007,27(4):36-42.
[10] Cheli F,Campagnoli A,Pinotti L,Maggioni L,Savoini G,Dell'Orto V.FeedInt.,2007(5/6):24-26.
[11] Julian W G,Hyun W S,Evor L H.Sens.ActuatorsB,2000,70:19-24.
[12] Zhang H M,He Y J.Sci.Technol.Inf.(张红梅,何玉静.科技信息),2008,27:12-13.
[13] Gao Y M,Liu Y F,Li Y X,Li J M,Shi B X,Ni Y Y.Liq-Mak.Sci.Technol.(高永梅,刘远方,李艳霞,李景明,石宝霞,倪元颖.酿酒科技),2008,5:38-40.
[14] Cortes C,Vapnik V.MachineLearning,1995,20:273-297.
[15] Zhang X G.ActaAutom.Sin.(张学工.自动化学报),2000,6(1):32-43.
[16] Zhang H X,Guo J L,Zhu J Y,Yu J F.Small-sampleMultivariateDataAnalysisandApplication.Xian:Northwest University Press(张恒喜,郭基联,朱家元,虞健飞.小样本多元数据分析方法及应用.西安:西北工业大学出版社),2002.
[17] Yang Z B,Ye C,Han W,Zhong C N,Sun C B,Mao H L.J.QiannanNorm.Coll.Nation.(杨再波,叶冲,韩伟,钟才宁,孙成斌,毛海立.黔南民族师范学院学报),2006,26(6):5-8.
[18] Zhao Y,Huang H X.Plastics(赵杨,黄汉雄.塑料),2008,37(3):104-106.
[19] Zhang P Q,Gong Z L,Du X M,Yu J,Jin L F.ActaTabaccoSin.(章平泉,龚珍林,杜秀敏,俞京,金岚峰.中国烟草学报),2010,16(6):21-24.
[20] Wang Q,Chen Y W,Li M J.J.Syst.Manag.(王强,陈英武,李孟军.系统管理学报),2006,15(5):475-478.[21] Wang Q,Chen Y W,Li M J.TobaccoSci.Technol.(王强,陈英武,李孟军.烟草科技),2007,10:5-8.
[22] Wang Q,Chen Y W,Li M J.Comput.Eng.Appl.(王强,陈英武,李孟军.计算机工程与应用),2007,43(9):234-235.
Fast Discrimination for Cigarette Style Based on Full Chromatographic Data of Flash GC Electronic Nose
WU Jun-zhang1,ZHAO Sheng-qiao2,HAN Bing1,ZOU Xiao-yong2*
(1.Technology Centre,China Tobacco Guangdong Industrial Co.,Ltd.,Guangzhou 510385,China;2.School of Chemistry and Chemical Engineering,Sun Yat-sen University,Guangzhou 510275,China)
By utilizing Support Vector Machine(SVM) technique to analyze full chromatographic data of Flash GC,a method was proposed to identify A brand and non-A brand cigarette.Moreover,it can identify cigarettes of different price class,including first,second and third class.Meanwhile,it can also distinguish different price class cigarettes in the same style.It can discriminate A brand cigarettes of Ⅰstyle,Ⅱstyle,Ⅲ style and Ⅴstyle,but Ⅳ style and Ⅴstyle can not be completely distinguished because they are too close.The satisfied predicted results were obtained due to the adoption of liner kernel function and full chromatographic data,because every cigarette sample has its characteristic fingerprint chromatography and full chromatographic data can capture the minute differences among samples.
Flash GC electronic nose;support vector machine;price class;style
10.3969/j.issn.1004-4957.2017.1.013
2016-06-23;
2016-07-28
广东中烟工业有限责任公司科技项目(粤烟工[2013]科字第009号)
*通讯作者:邹小勇,博士,教授,研究方向:化学计量学、电分析化学,Tel:020-8114919,E-mail:ceszxy@mail.sysu.edu.cn
O657.71;TS452.4
A
1004-4957(2017)01-0080-06