多分类器集成系统在卷烟感官评估中的应用
2016-11-16石子健汤建国张忠良雒兴刚唐加福乔丹娜
石子健,汤建国,张忠良,雒兴刚,唐加福,乔丹娜
1 东北大学信息科学与工程学院,沈阳市和平区文化路3号巷11号 110819;2云南中烟工业有限责任公司技术中心 云南省昆明市五华区红锦路367号 650231
多分类器集成系统在卷烟感官评估中的应用
石子健1,汤建国2,张忠良1,雒兴刚1,唐加福1,乔丹娜2
1 东北大学信息科学与工程学院,沈阳市和平区文化路3号巷11号 110819;2云南中烟工业有限责任公司技术中心 云南省昆明市五华区红锦路367号 650231
烟草化学成分与感官质量存在着某种对应关系,使用传统的单一分类器方法进行卷烟感官评估指标预测对数据样本依赖性强,且无法克服噪声影响。采用了k-NN(k=3)、k-NN(k=5)、C4.5、BPNN、SVM五种不同的分类方法进行卷烟感官质量的评估预测,并比较了它们的预测正确率,结果表明SVM和k-NN效果较好;同时用不同的采样方法和投票方法搭建了6种多分类器集成系统进行感官评估,实验可得多分类器集成可以起到比单一分类器更好的效果,其中基于训练表现的加权投票方法(不抽样)具有较高的正确率,对于指标光泽、香气、谐调、杂气、刺激和余味的预测准确率分别为90.63%、62.18%、97.20%、86.74%、74.17%和72.16%,比单一分类器中最好的结果分别改进0.69%、0.32%、0.28%、0.59%、0.52%和1.78%。
多分类器集成系统;分类方法;卷烟感官评估
在卷烟生产过程中,很难针对烟草的物理化学指标与卷烟的感官质量的复杂关系建立起有效的数学模型[1],因此在烟草及其制品的新产品开发和产品维护过程中,主要通过烟草专家的人工感官评吸来对卷烟产品感官质量指标进行评价[2]。显然,这种完全依赖人工反复评吸的生产方式会极大地影响评价结果的效率,无法满足企业对生产快速性的要求。
为了解决评吸过程中主观性强、效率低的问题,学者们开始使用数据挖掘的方法来对卷烟感官质量进行评价[3],力求从大量烟草数据中提取出物理化学指标和感官质量的映射规则,以辅助或代替烟草专家完成对新产品的感官预测评价。例如,王涛[4]应用M5模型树建立了感官评估模型,并对效果进行了分析和验证;高大启[5]等应用并联神经网络的分析方法直接将烤烟主要化学成分测量数据转化为评吸专家感官评定指标值相一致的结果;杨小勇[6]等应用单输出的径向基网络模型映射了烟叶的常规化学指标和烟叶感官评吸指标间的内在联系;邵惠芳[7]利用BP神经网络极强的非线性映射能力建立了烤烟感官质量的预测模型,得到了符合实际的结果;武杰[8]采用模拟退火优化BP神经网络的方法进行了卷烟感官质量评价,并结合遗传算法进行了叶组配方寻优;王强[9]提出了一种基于支持向量机的卷烟质量评估方法并得到了理想的结果;杨宁[10]估计了支持向量机在感官评估中的应用设计和实际性能,并与BP神经网络进行了对比分析。王涛[11]将支持向量机应用于配方感官评估中,提出了用回归函数估计SVM方法进行建模来解决感官评估多类划分问题。
然而,针对以连续数据的形式存在的感官评估数据,现有研究大多使用拟合预测的手段进行卷烟感官质量评估,而对于卷烟专家的评吸过程来说,第个专家以0.5为分段对评吸指标进行打分的,实验使用的连续数据实际为多名专家评分的平均值,即第个专家符合企业要求的评估结果实际是离散的。因此,我们可以把智能化感官评估问题视为一个分类预测问题。与当前大多数研究中使用的拟合预测手段相比,分类的方法更加合乎企业的实际质量要求,对于感官质量这一抽象指标来说,太过精确的拟合结果也会限制企业的生产弹性;同时,在数据挖掘领域,分类的方法比拟合的方法更加丰富,使用分类方法也能够在一定程度上有更好的理论基础。
另外,成品烟数据具有小样本、高维数、强噪声、非线性的特点,与单料烟相比复杂性更高,非线性程度更强,噪声更大。而除了多使用拟合预测手段以外,当前卷烟感官评估领域的应用研究与传统模式识别方法一样,还着力于使用单一方法及其改进方法;或是比较不同的预测方法选择效果较好的一种来解决目标问题。但是研究发现,不同分类器产生的误分类集合是不重叠的,这表明可以将不同的分类器在他们的分类过程中得到模式信息组合在一起,即将多种不同分类器集成在一起进行集成学习,这样可以起到提高预测正确率的作用。尤其针对成品烟感官评估的问题,集成的方法可以对单一分类器的预测起到改进作用。
针对上述问题,本文将多分类器集成系统(Multiple Classi fi er Systems, MCS)引入卷烟感官评估之中。多分类器集成系统是基于分类预测的集成学习方法,可以摆脱精确到小数的拟合预测对企业生产弹性的限制;同时也能够在一定程度上克服单一分类器对噪声敏感度大的缺点,提高分类的正确率。本文尝试将多种不同基本分类算法构成的单一分类器集成来进行样本的最终分类,并应用该方法对某烟草集团卷烟感官质量进行评估,以期对感官质量评价方法提供新的科学方法和理论依据。
1 多分类器集成系统设计
分类是数据挖掘各种方法中的一种主要分析手段[12],旨在通过数据建立一个预测函数模型c=f(x),使得对于某一个给定的实例x(也称条件属性),能够在分类集中找出一个正确的分类c(也称决策属性)。具体地说,通过某一种基本分类算法,从数据中提取规则,在假设空间中找到一个足够好的函数f'来近似f,这个近似函数又被称为分类器。
传统分类学习算法基于训练样本建立单一分类器对测试样本进行分类,所以这样的分类器对于训练数据的依赖性较强,同时带有强噪声的训练样本也会极大的影响分类正确率。多分类器集成[13]是指用有限个分类器共同进行分类,通过将集成系统中的各个基本分类器的输出分类以某种规则整合到一起,以得到最终的分类。通过多个分类器的组合得到最终的分类,可以克服数据中噪声的影响,获得比单一分类器更好的性能。
1.1 多分类器集成系统
多分类器的集成系统是指用有限个不同的分类器共同进行分类,通过将集成系统中的各个基本分类器的输出分类以某种规则整合到一起,以得到最终的分类。因此,集成系统的架构主要包括两部分,即分类结果的组合方法和多分类器的构建方法。其中分类结果的组合也称投票,即模拟多个决策者对问题进行决策的一种方式,包括简单投票(少数服从多数)、带权重的投票和贝叶斯投票等[14-16]方式,一般来说简单投票和加权投票为最常见的方法;而多种不同分类器的构建则是集成学习方法研究中的重点,只有用多样的分类器构建具有差异性的预测模型,才能利用这些预测结果的组合达到提高正确率的目的。
当前集成学习领域多种不同分类器的构建方法主要分为两种。一种基于同种分类算法,使用不同的数据样本进行训练,进而构造不同的分类器,如Bagging[17],Boosting[18]等。具体地说,Bagging方法通过对数据集的有放回随机抽样为各个分类器提供不同的训练数据集;而Boosting方法在Bagging方法的基础上基于样本的训练表现不断修改样本权值以集中学习较易分错的部分样本。这两种方法是当前集成学习领域较为常用的方法,存在若干的应用案例[19-21]。
另一种方法基于不同的分类算法构造不同的分类器,即本文选用的多分类器集成系统(MCS)的方法。José A. Sáez[22]等选择了k-NN(k=5)、k-NN(k=3)、最近邻、C4.5决策树、SVM五种方法,构造了基于不同分类算法组合的几组MCS方法,并应用大量数据样本进行了实验,详细分析了这些方法在噪声数据中预测的正确率和鲁棒性。MCS方法较为新颖,因为使用了不同分类方法,进行集成的难度和复杂度较高,具有较少的应用。但是通过多种算法的互补能够获得较强的抗噪声能力,能够较好地克服使用单一分类算法处理噪声数据的局限性。因此,针对具有强噪声的卷烟感官评估数据,尝试使用MCS的方法可以得到更好的预测效果。
1.2 基本分类器选择
构建多分类器集成系统需要多种不同的分类算法,为了得到较好的预测效果,需要选择抗噪声能力较强又具有多样性的不同分类器作为基本分类器进行集成。基于[22]选择的k-NN、C4.5决策树、SVM三种算法,本文增加了BP神经网络方法,共计选择了四种数据挖掘领域常用的分类算法以进行基本分类器的构建,以期使用更加丰富的分类方法产生多样性的分类器,得到更好的预测效果。
1.2.1 决策树C4.5
C4.5决策树算法是Quinlan[23]在1993年提出的,是在ID3[24]决策树算法基础上的改进算法,ID3算法起源于概念学习系统CLS,即将信息论中的信息增益概念作为最有判别力的因素来选取条件属性将数据集逐步向下地划分为多个子集,进而用得到的决策树对新样本进行分类。而C4.5方法一方面基于属性的信息熵,引入了信息增益率的概念代替ID3中的信息增益,在树的第个节点,选取信息增益率最大的属性进行划分;另一方面,针对ID3算法无法处理连续属性的问题,在第一个条件属性中选取一个断点使得连续属性转化为二值的离散属性,选择的标准是使得离散后的该属性信息增益最大。这种方法同ID3方法一样具有分类规则易于理解,适合处理大规模数据的优点,同时和ID3算法相比还可以直接处理连续数据;C4.5在处理噪声数据时具有较强的鲁棒性。
1.2.2 BP神经网络
人工神经网络方法通过模拟神经元的信息传播方式搭建神经元的网络结构进行预测,而反向传播(Back-Propagation)模型是一种用于前向多层的反向传播算法[25],由D.Rumelhart和MeClellandzai 于1985年提出,是应用最多且最主要的一种对前向人工神经网络进行训练的学习算法,它可以通过不断修改组成前向多层网络的各个神经元之间的连接权值,使得该网络获得将输入信息变化为所期望的输出信息的能力。神经网络一般包含输入层,隐含层和输出层。Cybenko[26]证明了单一隐含层的神经网络可以完成对任意连续函数的预测。
具体地说,对于给定的训练样本,反向传播模型反复的计算输出分类,并与实际分类值进行比较,根据比较结果反向修改节点的权值,使得输出分类值与实际分类值间的平均误差越来越小,直到建立一个令人满意的神经网络模型,用来对测试样本进行预测。神经网络算法鲁棒性强,且具有并行处理、分布存储等特性,适合进行噪声数据的预测研究。
1.2.3 k-近邻(k-Nearest Neighbor, k-NN)
最近邻算法是通过计算两个样本之间的欧式距离在训练样本集中找到和待测样本距离最近的一个,将它的分类作为待测样本的分类。
而k-近邻算法是最近邻算法的改进,由Cover和Hart[27]在1967年提出。k-近邻算法基于欧式距离在训练样本集中选择离给定测试样本最近的k组样本,并将这k组样本对应分类的众数作为该测试样本的分类。k-近邻算法能够克服单一的最近邻算法过拟合的现象,增强分类算法的外推能力,对于噪声数据的稳定性更强。
1.2.4 支持向量机(Support Vector Machines, SVM)
支持向量机是Vladimir Vapnik[28-29]等于1992年提出的一种基于统计学习理论和结构风险最小化原理的机器学习算法。SVM算法的主要思想是通过某种事先选择的非线性映射将输入向量映射到一个高维特征空间中,并在这个特征空间中通过寻找一个最优分类超平面,在保证分类精度的同时,使得超平面两侧最近的点与超平面间的距离最大化。
基于支持向量机的预测模型在解决小样本、非线性、高维数、局部极小点和过学习等方面具有较好效果,可以避免维数灾难;SVM方法因为基于训练样例生成支持向量,所找到的超平面会根据数据样本集的改变而变化,因此对于噪声数据具有较强的适应性。
1.3 集成系统结构
参考[29]中的实验方法,基于上述四种分类算法选择k-NN(k=5)、k-NN(k=3)、C4.5决策树、SVM、BP神经网络等五种不同方法搭建MCS集成系统进行成品烟感官评吸指标的预测(其中k-近邻的方法选取不同的k值算法对于噪声的敏感程度也不同),集成系统的结构图如图1所示。
图1 集成系统结构Fig. 1 Structure of MCS
不同于传统的Bagging和Boosting方法,MCS方法使用不同分类算法构建基本分类器,因此选用3种不同的数据抽样方法和2种不同的分类结果组合方法,构建了6种不同的MCS集成方法,具体如表1所示,其中前缀E/R/NR表示抽样方法,E为采用全数据抽样,R为数据集的等容量有放回抽样,NR为数据集的80%无放回抽样;A/W表示分类结果组合方式,A为平均加权投票,W为基于训练表现的加权投票。比较5种分类算法的单一预测结果和六种不同的集成预测结果,可以探究对于强噪声的成品烟数据样本不同分类算法的预测效果和MCS集成方法的应用价值及应用手段,具有较高的理论和现实意义。
表1 六种不同的MCS集成方法Tab. 1 Six different methods for constructing MCS
具体的抽样方法和加权投票方法如下:
(1) 数据抽样方法
抽样方法分为全数据抽样、有放回抽样和无放回抽样三种[30]。
全数据抽样方法将全部训练数据作为第个基本分类器的训练数据;有放回抽样方法第次从全部训练数据样本中随机抽取一个数据样本,并逐步构造一个与全部训练数据样本容量大小相同的数据样本集(可能存在重复数据)进行训练;无放回抽样方法直接将全部训练数据样本的一部分作为训练数据(不存在重复数据)进行训练,比例过大无法保证多样性,比例过小会影响预测精度,本文给定无放回抽样比例为80%。
(2) 分类结果组合方法(权重确定方法)
分类结果组合方法分为平均加权投票和基于训练表现的加权投票两种。
平均加权投票方法为第个分类器给定相同的权重,将多数分类器选择的分类作为最终的分类;基于训练表现的加权投票方法首先使用第个分类器对全部训练数据进行测试,并将训练数据的测试正确率作为第个分类器的权重,显然对于训练数据表现较好的分类器会得到更大的权重,然后将分类器权重之和最大的分类作为最终的分类。
2 实验与结果
2.1 实验数据
实验使用了来自于某烟草集团2010-2012三年的成品烟化学成分检测和感官质量评吸结果的684组数据。其中化学成分包括总糖量、还原糖、烟碱量、总挥发碱、总氮量、烟碱氮、蛋白质、施木克值、氮碱比、含氯量、含钾量、糖碱比、氨态碱13项指标,作为分类使用的条件属性;感官质量评吸包括光泽、香气、谐调、杂气、刺激、余味6项指标,数据均通过多名专家人工评吸后打分取平均值得到,第一项指标分别作为分类使用的决策属性,根据6组不同项目进行6组不同实验。专家打分依据的感官质量评判标准如表2所示。
表2 卷烟感官质量评判标准Tab. 2 Evaluation criteria for cigarette sensory evaluation
2.2 数据预处理及实验方法
1) 数据预处理
卷烟感官评估的结果是由多个专家打分后求平均值得到的,第个专家基于表2以0.5为分段进行打分,因此评估结果实际为离散量,需要将数据中的均值进行离散化,且第个分类的离散区间长度等于0.5。六个感官评吸指标的离散方法如表3所示。以光泽为例,打分评判标准为3-5,而实际数据中不存在小于3.75的数据,因此将[3.75,4.25]归为第1类,(4.25,4.75]归为第2类,(4.75,5.00]归为第3类(光泽的可取最大值为5)。
表3 评吸指标离散方法Tab. 3 Discretization methods of sensory index
由表3方法离散化之后的六组数据样本的基本信息如表4所示。
表4 数据样本基本信息Tab. 4 Basic information of datasets
2) 算法参数配置和实验方法
基于上述方法和数据,在Matlab7.8.0环境下使用五种不同的分类器进行分类预测实验,并使用三种不同的抽样方法和两种不同的分类结果组合方法进行了六种MCS集成预测实验。通过实验对比,分类算法参数配置如下:
k-NN算法中的参数k值表示选取k个欧式距离较近的样本,一般k-NN算法会起到比最近邻方法更好的效果,但过大的k值会导致算法精度降低,因此分别选取了k=5和k=3两种方法;
决策树C4.5的参数容错率表示第个结点进行分支建树的终止条件,当一个结点包含的数据在全部样本中所占比例小于容错率时,停止继续分支,并将这些数据的决策属性值输出为可选值的随机取值,这样可以防止建树过程中过拟合的现象。这里选取C4.5容错率为5%;
SVM使用libsvm-mat2.9.1工具箱,核函数选取具有较好效果的径向基(RBF)函数,对于径向基核函数有两个参数,惩罚参数c用来调节特征子空间中SVM模型的置信范围与经验风险的比例,使支持向量机的泛化能力达到最好,核参数g主要影响样本数据在高维特征空间中分布的复杂程度,即维数,维数越高得到的最优超平面越复杂,这里选取c=2, g=1;
BP神经网络使用单隐层结构,参数为迭代次数和隐层节点数,神经网络随着迭代次数的增加准确率逐步提升,达到最优值时不再变化,而隐层节点数直接影响求解结果,节点数过多会导致网络结构复杂,过少会导致误差较大。选取迭代次数为100,隐层节点数为10。
进行实验前,需要对第一个条件属性(化学指标)进行归一化处理,设X={x1,x2,...,x684}为条件属性的取值,max(X)为该集合中的最大取值,min(X)为该集合中的最小取值,则对xn,n∈{1,2,...,684}有归一化后的结果x'n
对于第一个指标第一个分类器及四种MCS集成方法都使用十次十折交叉验证的方法进行实验,即实验时将全部数据样本随机分为十份,第次取其中的九份进行训练,剩下的一份用来测试,计算分类正确率。并重复进行十次这样的实验,并平均十次的结果得到最终分类预测正确率。
2.3 实验结果与分析
五个基本分类器算法和六种MCS集成系统的分类正确率比较结果如表5所示,括号内数值表示对于第个感官指标,不同方法的排序情况,分类正确率排名第一的方法赋值为1,第二的赋值为2,以此类推。最后一列表示第个方法的平均排序情况。
表5 卷烟感官评估分类正确率Tab. 5 Classi fi cation accuracy of cigarette sensory evaluation
从表5得到的分类预测正确率可以对分类算法和集成方法进行简单分析:
(1) 六种感官评估指标相比较,由于数据和分类数量的不同,导致各个指标分类正确率存在差异,其中光泽和谐调效果较好,香气效果较差,一般来说,分类数量越多的指标分类效果越差。
(2) 总体来说,在所使用的十一种方法中,六种多分类器集成进行分类的方法效果大多比五种基本分类器单独进行分类的效果要好,而在基本分类器中,决策树C4.5和BP神经网络的方法效果较差。比较来说,对于光泽、杂气、刺激、余味四项指标,E_W_MCS的方法正确率最高;对于香气和谐调指标,E_A_MCS的方法正确率最高。综合来看,E_W_MCS的方法具有最好的效果。
(3) 实验采用了三种不同的抽样方法和两种不同的加权投票方法。从实验结果可以看出,在抽样方法中,全数据抽样的方法具有较好的效果,而80%数据样本的无放回抽样比有放回抽样具有更好的效果,可能对于较小规模的数据样本集(684组),抽样处理会破坏数据结构的完整性,且有放回抽样比无放回抽样引入了更多的随机性,影响分类效果;在加权投票方法中,基于训练表现的加权投票比平均加权投票方法更好,证明了所提出的基于训练表现的加权投票方法在MCS集成方法中具有一定的应用价值。
3 结论
应用多分类器集成系统进行了卷烟感官评估指标的分类预测研究,使用k-NN(k=3)、k-NN(k=5)、C4.5、BPNN、SVM五种分类算法搭建了多分类器集成系统,并且使用实测数据与五种基本分类算法单一分类效果进行了实验对比,验证了多种不同分类器集成进行分类能够比构成集成系统的基本分类器起到更好的效果,同时对MCS集成系统引入了三种抽样方法和两种加权投票方法进行比较,得出对于所选择的五种分类算法及使用的卷烟数据来说,全数据抽样的方法比有放回和无放回抽样效果要好,其中基于训练表现的加权投票方法(不抽样)具有较高的正确率,对于指标光泽、香气、谐调、杂气、刺激和余味的预测准确率分别为90.63%、62.18%、97.20%、86.74%、74.17%和72.16%,比单一分类器中最好的结果分别改进0.69%、0.32%、0.28%、0.59%、0.52%和1.78%。
多分类器集成系统(MCS)的方法在卷烟感官评估领域的应用尚属尝试,由于使用了不同的分类算法作为基本分类器,多分类器构建和组合方法具有较高的复杂度,虽然能够比基本分类器的分类效果有所提高,但仍存在需解决及可以改进的问题。所选择的不同抽样和投票方法对于MCS方法进行了初步的探索,而如分类数量较多的香气分类正确率较低,不同数量、种类的基本分类器的选择,分类结果的其他组合方法等都需要进一步的研究。
[1] 丁香乾,曹均阔,贺英. Kohonen网络与BP网络的集成应用研究[J]. 青岛海洋大学学报(自然科学版),2003,33(4):615-620.Ding Xiangqian, Cao Junkuo, He Ying. Research on the Integration of Kohonen and BP Network[J]. Journal of Ocean University of Qingdao (Natural Science), 2003,33(4): 615-620. (in Chinese)
[2] 张勇刚,宋朝鹏,李常军,等. 熵权模糊综合评价法在烤烟感官质量评价中的应用[J]. 中国烟草学报,2010,16(6):33-36.Zhang Yonggang, Song Zhaopeng, Li Changjun, et al. The use of entropy weight and fuzzy synthetic evaluation in evaluating flue-cured tobacco sensory characters[J]. Acta Tabacaria Sinica, 2010, 16(6): 33-36. (in Chinese)
[3] 林华. 数据挖掘技术在卷烟配方优化中的应用[D].中国海洋大学,2008.Lin Hua. Application of Data Mining Technology in Optimization of Cigarette Products Formula[D]. Ocean University of China,2008. (in Chinese)
[4] 王涛. M5算法在感觉评估中的应用[J]. 微计算机信息,2010,26(11-3):229-231.Wang Tao. Application on M5 Algorithm in Sensory Evaluation[J]. Microcomputer Information, 2010, 26(11-3):229-231. (in Chinese)
[5] 高大启,吴守一. 并联神经网络在烤烟内在品质评定中的应用[J]. 农业机械学报,1999,01:60-64.Gao Daqi, Wu Shouyi. A Parallel Neural-Network Method for Evaluating in Ternal Quality of Flue-cured Tobacco[J].Transactions of the Chinese Society for Agricultural Machinery, 1999, 01: 60-64. (in Chinese)
[6] 杨小勇,彭黔荣,苏红雪,等. 单输出径向基神经网络在烟叶品质预测中的应用[J]. 贵州工业大学学报(自然科学版),2005,34(3):24-27.Yang Xiaoyong, Peng Qianrong, Hongxue Shu, et al.Predicting Quality of Tobacco by Single Output Neural Network Based on Radial Basis Function[J]. Journal of Guizhou University of Technology (Natural Science Edition), 2005, 34(3): 24-27. (in Chinese)
[7] 邵惠芳,许自成,李东亮,等. 基于BP神经网络建立烤烟感官质量的预测模型[J]. 中国烟草学报,2011,17(1):19-25.Shao Huifang, Xu Zicheng, Li Dongliang, et al. The Establishment of BP Neural Network Based Models for Predicting Tobacco Leaf Sensory Quality[J]. Acta Tabacaria Sinica, 2011, 17(1): 19-25. (in Chinese)
[8] 武杰. 计算智能在数字化卷烟叶组配方中的应用研究[D].昆明理工大学,2011.Wu Jie. Application of Numerical Designing Cigarette Blending Formula on Computational Intelligence[D].Kunming University of Science and Technology, 2011. (in Chinese)
[9] 王强,陈英武,李孟军. 基于支持向量机的卷烟质量评估方法[J]. 系统管理学报,2006,15(5):475-478.Wang Qiang, Chen Yingwu, Li Mengjun. A Support Vector Machine Based Evaluation Method for Cigarettes Quality[J]. Journal of System Management, 2006, 15(5): 475-478.(in Chinese)
[10] 杨宁. 支持向量机在感官评估中的应用研究[D].中国海洋大学,2004.Yang Ning. Application of SVM to Sensory Evaluation[D].Ocean University of China, 2004. (in Chinese)
[11] 王涛. SVM在配方感官评估中的应用[J]. 微计算机信息,2010,10:236-238.Wang Tao. Application of SVM in Formulating Sensory Evaluation[J]. Microcomputer Information, 2010, 10: 236-238. (in Chinese)
[12] 李玲俐. 数据挖掘中分类算法综述[J]. 重庆师范大学学报(自然科学版), 2011, 28(4): 44-47.Li Lingli. A Review on Classification Algorithms in Data Mining[J]. Journal of Chongqing Normal University(Natural Science), 2011, 28(4): 44-47. (in Chinese)
[13] 陈冰. 多分类器集成算法研究[D]. 山东师范大学,2009.Chen Bing. The Research of Multiple Classi fi ers Ensemble Algorithms[D]. Shandong Normal University, 2009. (in Chinese)
[14] Xu Lei, Krzyzak A, Suen C Y, et al, Methods of Combining Multiple Classi fi ers and Their Applications to Handwriting Recognition, IEEE Transactions on Systems, Man and Cybernetics (1992), May/June.
[15] Bahler D and Navarro L. Methods for Combining Heterogeneous Sets of Classifiers. In 17th Natl. Conf. on Arti fi cial Intelligence (AAAI), Workshop on New Research Problems for Machine Learning, 2000.
[16] Dietterich T G. Ensemble Methods in Machine Learning. In Multiple Classier Systems, Cagliari, Italy, 2000.
[17] Breiman L. Bagging predictors [J]. Machine Learning,1996, 242.
[18] Schapire R E. The strength of weak learnability [J].Machine Learning, 1990, 52.
[19] 张翔,周明全,耿国华,等. Bagging算法在中文文本分类中的应用[J]. 计算机工程与应用,2009,45(5):135-137.Zhang Xiang, Zhou Mingquan, Geng Guohua, et. al..Application of Bagging Algorithms to Chinese Text Categorization[J]. Computer Engineering and Application,2009, 45(5): 135-137. (in Chinese)
[20] Yulian Zhu. Local Bagging and Its Application on Face Recognition [J]. Transactions of Nanjing University of Aeronautics & Astronautics, 2010, 03:255-260.
[21] 钱春虎. 基于Boosting和PDE的目标识别和分割[D].西安工业大学,2013.Qian Chunhu. An Object Recognition and Segmentation Method Based on Boosting and PDE[D]. Xi’an Technological University, 2013. (in Chinese)
[22] Sáez J A., Galar M, Luengo J, et al. Tackling the problem of classification with noisy data using Multiple Classifier Systems: Analysis of the performance and robustness [J].Information Sciences,2013,247:1-20
[23] Quinlan J R. C4.5: Programs for machine learning [M]. San Francisco: Morgan Kaufmann, 1993.
[24] Quinlan J R. Induction of decision trees. Machine Learning,1986, 1(1):81-106.
[25] 刘白林. 人工智能与专家系统[M]. 西安:西安交通大学出版社,2012:200-201.Liu Bailin. Artificial Intelligent and Expert Systems [M].Xi'an: Xi'an Jiaotong University Press, 2012: 200-201. (in Chinese)
[26] G.Cybenko. Approximation by Superpositions of a Sigmoidal Function. Mathematics of Control, Signals, and Systems. (1989)2:303-314.
[27] Cover T M, Hart P E. Nearest neighbor pattern classi fi cation[J]. IEEE Transactions on Information Theory, 1967, 13(1):21-27.
[28] Vapnik V., Statistical learning theory, Wiley New York,1998.
[29] Vapnik V., The support vector method of function estimation, in: Nonlinear Modeling, Springer, 1998, pp. 55-85.
[30] 谢笑盈. 数据挖掘中抽样技术的应用研究—方法改进与实证分析[D]. 浙江工商大学,2010.Xie Xiaoying. The Approving Study of Sampling Technology Used in Data Mining Area: Methods Improving and Empirical Study [D]. Zhejiang Gongshang University,2010. (in Chinese)
Application of multiple classi fi er systems in cigarette sensory evaluation
SHI Zijian1, TANG Jianguo2, ZHANG Zhongliang1, LUO Xinggang1, TANG Jiafu1, QIAO Danna2
1 College of Information Science and Engineering, Northeastern University, Shenyang 110819, China 2 Technology Center, China Tobacco Yunnan Industrial Co., Ltd., Kunming 650231, Yunnan, China
There exist some kinds of correlation between chemical components in tobacco and sensory quality of cigarette. The existing methods using single classi fi er to evaluate cigarette sensory quality depend largely on the property of data sample and cannot overcome the e ff ect of data noise. Five di ff erent classifying methods, namelyk-NN (k=3),k-NN (k=5), C4.5, BPNN, and SVM, were used to predict and evaluate sensory quality, and their prediction accuracy were compared. Results showed that SVM and k-NN had better e ff ect. Moreover,six Multiple Classi fi er Systems (MCS) were built to make sensory evaluation using various sampling and voting methods. The experiments showed that integration of various classi fi ers could get better results than single classi fi er and the weighting-sum method based on training performance (no sampling) had better accuracy. The prediction accuracy of luster, aroma, harmony, o ff ensive odor, irritation and aftertaste are 90.63%, 62.18%, 97.20%, 86.74%, 74.17% and 72.16%, 0.69%, 0.32%, 0.28%, 0.59%, 0.52% and 1.78% higher than that of single classi fi er respectively.
multiple classi fi er systems (MCS); classifying methods; cigarette sensory evaluation
石子健,汤建国,张忠良,等. 多分类器集成系统在卷烟感官评估中的应用[J]. 中国烟草学报,2016,22(1)
国家自然科学基金面上项目“基于QFD和数据挖掘的卷烟产品叶组配方优化关键技术研究”(61273204)
石子健(1993—),硕士研究生,研究方向:数据挖掘, Email:923569847@qq.com
雒兴刚,教授,Email:xgluo@mail.neu.edu.cn
2014-12-18
:SHI Zijian, TANG Jianguo, ZHANG Zhongliang, et al.Application of multiple classi fi er systems in cigarette sensory evaluation[J]. Acta Tabacaria Sinica, 2016, 22(1)