基于单类支持向量机的电子鼻在白酒真假识别中的应用*
2015-08-24孟庆浩亓培锋井雅琪天津大学电气与自动化工程学院天津300072
周 宇,孟庆浩,亓培锋,井雅琪,曾 明(天津大学电气与自动化工程学院,天津300072)
基于单类支持向量机的电子鼻在白酒真假识别中的应用*
周宇,孟庆浩*,亓培锋,井雅琪,曾明
(天津大学电气与自动化工程学院,天津300072)
针对采用多类分类方法进行白酒真假识别时存在的真酒样本和假酒样本(正类样本和异类样本)数量无法均衡以及异类样本无法全部获取的问题,提出应用单类支持向量机分别单独对每一种品牌的白酒训练单类分类器进行真假识别的方法。首先采用自主设计的电子鼻系统对不同品牌白酒进行采样测试;采样后的传感器阵列数据依次经过数据预处理、特征生成、特征选择降维处理,得到可用于分类的白酒样本;再通过格点搜索获取每种白酒单类分类器的最优参数;最后测试各个单类分类器对相应品牌白酒的真假识别效果。各单类分类器的真假识别率分布在93%~98%之间,结果表明,采用自主设计的电子鼻结合单类支持向量机可以很好地对白酒真假进行识别。
电子鼻;白酒;真假识别;单类支持向量机
EEACC:6140;7230Sdoi:10.3969/j.issn.1004-1699.2015.12.001
随着生活水平的提高,人们对酒类食品越来越大的需求促进了白酒行业的飞速发展,与此同时各种问题也不断出现。“勾兑门”、“酒精门”、“散酒门”,年份酒造假以次充好等现象屡见不鲜,并呈现日益严重的趋势。而当前白酒质量检测常用的方法主要有感官识别,色谱仪和质谱仪等方法。感官识别主要依据色、香、味等进行鉴别,但此种方法带有一定主观性,且一般仅限于专业人员。而采用色谱仪和质谱仪进行检测,虽然能够提供精确的定量成分分析,但同时需要的成本也很高,仪器昂贵且笨重,检测周期也较长。因此白酒的快速检测和识别技术已成为白酒行业一个亟待解决的难题[1-2]。
电子鼻是一种新型的仿生检测技术[3-8],为分析和识别复杂挥发性有机物而设计。电子鼻的主要特点在于它把单一或者复合气体当作一个整体,并给出气体的整体信息,即“气味指纹”数据。不同的气体对应不同的指纹数据,将这些数据与经过学习和训练后所建的数据库中的信号进行比较,再经过判断从而实现识别功能。同时电子鼻检测也拥有低成本、快速、客观、不侵入被试等优势。
目前,用于电子鼻的模式识别算法主要有统计模式识别和人工神经网络[9]。前者包括主成分分析、线性判别分析[10]、判别因子分析和聚类分析等,它们都是线性判别方法;后者包括误差反向传播神经网络、概率神经网络、学习向量化神经网络和支持向量机等,人工神经网络虽然具有很强的非线性映射能力,但同时也存在所需样本量大、容易陷入局部最优、收敛速度慢等缺点[11]。采用VC维(Vapnik-Chervonenkis Dimension)理论和结构风险最小化原则的支持向量机[12]则能够很好地解决小样本、非线性、高维数等问题,并且单类支持向量机针对无法获取两类样本、获取代价极高或者样本数量极度不均衡等问题而设计,非常适合用于解决异类检测问题。
为了检验单类支持向量机在白酒真假识别中的实际效果,本文采用自主设计的白酒识别电子鼻系统,对8种不同品牌的白酒以及作为对照的酒精溶液共计9个类别进行动态采样(每个类别测试20次)。采样数据经过数据预处理、特征生成和特征选择降维处理,得到可用于分类测试的白酒样本。以泸州老窖为例,从20个泸州老窖的白酒样本中随机选取10个作为训练样本,用格点搜索寻找单类分类器的最优参数,再在最优参数下训练后得到用于识别泸州老窖白酒真假的单类分类器。选取20个泸州老窖样本作为正类测试样本,再从其余8个类别的样本中分别随机选取10个作为异类测试样本,测试该单类分类器对泸州老窖品牌白酒的真假识别能力。以此类推对其他8个类别训练对应的单类分类器并进行测试。结果表明,采用自主设计的电子鼻结合单类支持向量机可以很好地对白酒真假进行识别。
1 电子鼻系统及实验方案
1.1实验材料
实验选取8种不同品牌的浓香型白酒作为测试对象:泸州老窖(38%,四川泸州)、百年皖酒(38%,安徽蚌埠)、稻花香(42%,湖北龙泉镇)、青酒(38%,贵州黔东南州)、兰津酒(48%,天津红桥)、红津酒(38%,天津红桥)、绵竹大曲(38%,四川绵竹)、牛栏山(42%,北京顺义),并配置浓度为42%的酒精溶液作为对照组,共9个类别的实验样本。
1.2白酒识别电子鼻系统结构
图1为自主设计的白酒识别电子鼻系统结构框图,其中气体传感器阵列由11种对有机挥发物、酒精、甲烷、烃类等具有敏感特性的金属氧化物半导体(MOS)传感器组成,为增加阵列的广谱特性,选择了两种不同系列的不同型号的传感器,分别为:TGS2602、TGS822、TGS880、TGS2610、TGS2620、MICS-5121、MICS-5135、TGS2611、MICS-5521、MICS-5524、MICS-5526,并按照顺序编号为chn0~chn10。11个传感器组成的阵列放置于一个尺寸为108 mm×108 mm×25 mm的不锈钢方体腔室中,传感器尽量对称均布于底部,保证各个传感器与气流的接触时间、方向、速度等各个状态尽量一致。
图1 R白酒识别电子鼻系统结构框图
1.3采样流程与实验方案
实验过程中具体的采样步骤如下:
①预热打开清洗泵将气路系统用洁净的空气清洗30 min,同时气体质量流量控制器上电预热15 min后进行调零,恒温水浴箱上电并设定恒温温度70℃。
②蒸发用移液枪取2 μL样本置于样本瓶中,在70℃的环境中蒸发30 min。
③采样调节气体质量流量控制器的流量为200 sccm,打开采样泵以洁净空气为载气将样本瓶中充分蒸发的样本气体带入气室中与传感器阵列进行反应,持续通入3 min,同时电路板开始采集阵列响应输出,并将数据通过串口传送至PC机进行保存。
④清洗关闭采样泵,打开清洗泵对气路系统清洗30 min,清除残留气体以准备下一次采样。清洗完成后转步骤②重复下一次采样。
针对9个类别的实验对象,根据上述采样流程进行重复测试,每个类别重复20次,一共得到180个样本。从20个泸州老窖品牌的白酒样本中随机挑选10个样本进行训练,得到的单类分类器用于识别泸州老窖品牌白酒的真假。选取全部的泸州老窖白酒样本作为正类测试样本,其他8个类别的样本中分别随机挑选10个充当异类测试样本,测试该单类分类器的真假识别能力。以此类推训练其他8个类别的单类分类器并进行真假识别能力测试。
2 特征选择方法
文中采用电导变化率作为传感器的响应信号,可以减少传感器的基线波动对特征提取带来的影响[13],符号为S。
其中St为t时刻的相对电导变化率为t时刻传感器电导为基线附近电导,为传感器阵列t时刻的输出的电压信号,为传感器阵列在洁净空气中的输出电压值,Vref为模拟信号采集电路的参考电压。
为消除样本浓度带来的影响,再对St进行归一化,归一化后的相对电导变化率曲线如图2。
图2 R相对电导变化率曲线
11条相对电导变化率曲线表达了电子鼻系统对一份样本的整体描述,不同类别的样本的响应曲线将会在动态和静态特征[14-17]上产生差异,因此对每一份样本的11条电导变化率曲线生成5种特征,分别为:达到最大相对电导变化率的时间t1,t1时刻相对电导变化率积分It1,相对电导变化率一阶微分最大值Mder,达到最大微分的时间t2,相对电导变化率曲线的几何平均曲率GMcure。提取特征的公式如下:
其中,pos1表示响应起始点,其中pos2表示相对电导变化率达到最大时采样点位置,pos3表示相对电导变化率一阶微分达到最大时的采样点位置,dt表示采样周期,a=pos1,b=pos2,ρ表示该点处曲线的曲率半径。
经过特征生成,每个样本可用一个55维的特征向量表示。显然,在小数量样本的情况下55维的特征数量过多,将不利于识别。并且所选的特征是凭借对响应曲线的直观估计而选择,其对分类识别的贡献大小还有待验证。
熵是随机变量的不确定性测度,p(x)是概率密度函数,随机变量X的熵为:
H
(X,Y)为联合熵,H(X|Y)为条件熵:
X和Y的互信息为:
采用Lewis提出的MIM(Mutual Information Maximization)算法对初始特征进行选择,该算法按照特征和类别标签的互信息大小进行排序,排序靠前的初始特征对分类有较大的贡献。算法对特征的评价准则为:
其中Xk为特征K的样本响应向量,Y为分类标签。鉴于训练样本数量为10个,选择结果为55维特征排序中的前4个特征。再加上每次采样前保持相对稳定的温度值和湿度值作为2个特征(用于温湿度补偿),选取这6个特征作为最后输入到训练算法的样本特征。
3 单类支持向量机
3.1单类支持向量机原理
在白酒的真假识别问题中,特定品牌的白酒正类样本易于获取,而异类样本却因类别太多而无法全部获取[18-20],即使获取到足够的异类样本,也会在多类分类方法中面对正类样本和异类样本数量极度不均衡的问题[21-22]。因此真假识别问题是一个单类分类问题而非多类分类问题。不同于传统的支持向量机需要确定类别数以及各类别样本数量要均衡,单类支持向量机训练时仅仅需要正类样本,并在判别时给出“属于”还是“不属于”的结果。
单分类支持向量机(One-Class Support Vector Machine)基于支持向量机的分离超平面和最大化间隔等思想[23-24],将一个分类问题等价为一个特殊的二分类问题,寻找一个超平面最大化正类样本与原点之间的间隔,原点充当异类。模型描述如下:给定训练数据集,类似地,给出从RN到某高维特征空间χ的非线性映射∅(核函数)使得∅(Xi)∈χ,在高维空间中建立一个超平面ω∙∅(X)-ρ=0,将映射样本点以间隔ρ分开,其中ω为超平面的法向量,ρ为超平面的截距,为了使超平面尽可能远离原点,最大化原点到目标数据间的欧氏距离ρ/||ω||来寻找最优超平面。同时加入松弛变量ξi允许少部分样本在坐标原点与超平面之间,这一类样本点与超平面距离为ξi/||ω||。数据模型如图3。
图3 R单分类支持向量机数据模型
单类支持向量机的权重ω和阈值ρ,通过求解以下二次规划问题获得:
其中v∈(0,1)表示边界支持向量在训练样本总数中所占比重的下界,同时表示训练样本中训练错误率的上界。n表示训练样本总数。其决策函数与两类支持向量机类似为:
其中sign()为符号函数,决策函数输出1表示x是正类样本;输出-1表示x是异类样本。
3.2核函数选择
当线性分类器面对非线性可分的数据时,分类器的求解程序将会无限循环,使得问题无解,通过引入核函数,可以将非线性可分的数据映射到高维空间中,使得问题变成线性可分问题。
径向基核函数通常是一个较好的选择,首先径向基核函数可以将类别间有重叠的非线性样本集通过非线性映射将样本集映射到高维空间,使得不同类别样本区分开来;其次该核函数仅有一个参数,模型较简单;最后其计算结果在(0,1)区间内,避免出现计算机难以保存和计算的无穷大值。
xi为样本空间的样本,xj为核函数中心,σ表示核函数的参数宽度,控制函数的径向作用范围。为求解3.1节中的二次规划问题引入拉格朗日函数,并引入径向基核函数将其转化为对偶问题:
其中αi、αj为拉格朗日系数。在OC-SVM中,ρ=为确定的阈值,与权重向量ω决定分类超平面。
3.3交叉验证与参数寻优
分类器参数v和核参数g(g=1/2σ2)的选取对分类效果有极大影响,因此采用格点搜索对参数进行优选[25]。
以交叉验证正确率作为对参数优劣的评价标准,其思想是:选定一组参数(g,v),对于给定的白酒样本集,将其随机均分成n个样本子集,其中的n-1个子集用于在选定的参数下训练单类分类器,最后一个子集用于测试,依次循环直到每一个样本子集都充当过测试样本,最后以测试正确的样本数与样本总数的比作为交叉验证正确率。交叉验证正确率是经过对样本的多次不同划分计算而来,可以很好地避免参数和样本之间的过度拟合,因此理论上交叉验证正确率高的参数对任何样本都会有较好分类效果。
在泸州老窖白酒样本中随机选取10个样本,搜索范围设定为v∈[-10,5]和g∈[-10,-5],其步长分别为0.1和0.01,样本随机均分成3份,循环计算所有参数的交叉验证正确率,最后选取交叉验证正确率较高的参数。一般在搜索范围内交叉验证正确率最高的参数会有多个,此时从中选取v参数最小的作为最终的搜索结果。对其余8个类别白酒重复此参数寻优步骤得到各自的最优参数,寻优结果按列列于表1。
表1 R各单类分类器参数搜索结果
4 结果与分析
4.1分类结果
将参数寻优过程中选取的10个泸州老窖白酒样本作为训练样本,设定训练参数为表1中对应的泸州老窖最优参数(0.017 337,0.008 609),将训练样本和最优参数输入到单类支持向量机算法进行训练,得到一个用于识别泸州老窖白酒真假的单类分类器。
全部的20个泸州老窖白酒样本作为正类测试样本,其他8个类别中分别随机选取10个样本充当异类测试样本,测试该单类分类器对泸州老窖品牌白酒的真假识别能力。测试过程中,该单类分类器的输出为1,表示当前测试样本为正类样本,即当前测试样本属于泸州老窖品牌的白酒样本;输出为-1,表示当前测试样本不属于泸州老窖品牌白酒样本。以此类推对其余8个类别的白酒样本重复上述训练和测试步骤,最后9个单类分类器对各自正类和异类测试样本的测试情况以及正确率按行列于表2。
表2 R各单类分类器真假识别正确率
4.2实验分析
表2的第一行列出用于识别泸州老窖白酒真假的单类分类器的识别情况,第一个数据16/4表明该单类分类器对20个正类测试样本识别出16个,有4个被错判为异类,其后的8个数据表明该分类器对其他8个类别中随机选出的10个异类测试样本均正确识别出来,最后该单类分类器的识别正确率为96%。表2以下各行数据以此类推。
实验中各单类分类器对正类样本误分的原因,一方面在于训练过程中,为了最大化超平面与原点的距离同时使得非线性可分问题有解,允许一定比例的训练样本(正类样本)错分,导致一些稍微离群的正类样本被划分到超平面之外成为异类样本,通俗地说,为了让超平面把正类样本包裹的较紧,放弃了最外围的小部分正类样本,所以对异类样本识别率很高,而对正类样本识别稍差。另一方面,样本数量准备的还不够充分,同时由于训练样本是随机选取的,很难把样本集最外围的支持向量全部选取到,因此必然有小部分正类样本处在分类超平面之外。
实验数据表明,训练出来的9个单类分类器对异类样本均有较好的识别能力,而对正类样本的识别稍低,各单类分类器总体识别正确率均在93%以上。综上所述,本文提出的基于单类支持向量机的电子鼻对白酒真假识别有较好识别正确率。
在对单类分类器参数寻优过程中,由于提供的样本仅仅是正类样本,因此交叉验证正确率仅仅是对正类样本的测试结果,此时交叉验证正确率最高的参数可能不是最好的参数,而加入异类样本某些情况下又不允许,因此下一步工作将对单分类支持向量机的分类方法进行改进,以期更高的识别率。
5 结语
白酒行业假酒的泛滥以及传统假酒检测方法的弊端给白酒真假识别方案的设计带来了挑战,本文提出的基于单类支持向量机的电子鼻白酒识别系统为快速性、客观性、低成本等要求下的白酒真假识别任务提供了新的方案。相比于传统的白酒识别方法,本文采用自主设计的电子鼻系统,其检测的快速性有较大优势,并且检测成本较低、结果客观。
实验中对每种白酒的真假识别任务都训练一个单类分类器,训练时只需提供该品牌的白酒样本而无需搜集假酒样本,既减轻了分类器的训练任务,同时也避免了采用多类分类方法时存在的数据倾斜严重的问题,另外电子鼻系统的识别范围也可以灵活扩展,添加新的单类分类器后,系统中识别其它品牌白酒的单类分类器不会受到影响,系统扩展性和可维护性较好。
[1]秦辉.基于可视化仿生嗅觉系统的白酒检测研究[D].重庆:重庆大学,2011.
[2]杨国强,张淑娟.电子鼻技术在酒类识别应用中的研究进展[J].山西农业大学学报(自然科学版),2010,1:91-96.
[3]惠国华,陈欲泉.基于电子鼻的低温贮藏草鱼品质预测方法研究[J].传感技术学报,2012,25(2):157-161.
[4]Xiao Y S,Liu B,Yu P S,et al.A Robust One-Class Transfer Learning Method with Uncertain Data[J].Knowledge and Information Systems,2015,44(2):407-438.
[5]Pla F,Latorre Carmona P,Sotoca J M.One-Class Classification Techniques in Image Recognition Problems.IEEE Workshop on Information Optics(WIO),2013:1-3.
[6]黄洁,李燕,尹芳缘,等.使用电子鼻预测低温贮藏罗非鱼储存时间[J].传感技术学报,2013,26(10):1317-1322.
[7]吴莉莉,郑丹,郑宝周.基于电子鼻技术的花椒品种鉴别方法研究[J].传感技术学报,2013,26(11):1473-1477.
[8]汤旭翔,刘伟,韩圆圆,等.基于电子鼻和非线性数据特征分析的鸡肉新鲜度检测方法[J].传感技术学报,2014,27(10):1443-1446.
[9]亓培锋,孟庆浩,井雅琪,等.用于白酒识别的电子鼻数据分析与参数优化[J].天津大学学报(自然科学版),2015,48(7):643-651.
[10]Jing Y Q,Meng Q H,Qi P F,et al.Electronic Nose with A New Feature Reduction Method and A Multi-Linear Classifier for Chinese Liquor Classification.Review of Scientific Instruments,2014,85(5):055004-055004-10.
[11]沈正维,李秋菊.支持向量机与神经网络的关系研究[J].生物数学学报,2006,21(2):204-208.
[12]吴莉莉,郑丹,郑宝周,等.基于电子鼻技术的花椒品种鉴别方法研究[J].传感技术学报,2013,26(11):1473-1477.
[13]邹小波,赵杰文.电子鼻数据的预处理技术与应用[J].农业机械学报,2006,37(5):83-86.
[14]Vapnik V N.The Nature of Statistical learning theory[M].NY,USA:Springer Verlag,1995:138-145.
[15]周海涛,殷勇,于慧春.劲酒电子鼻鉴别分析中传感器阵列优化方法研究[J].传感技术学报,2009,22(2):175-178.
[16]占琼,张顺平,范超群,等.特征选择在电子鼻系统阵列优化中的应用[J].传感器与微系统,2008,27(2):114-117.
[17]程邵明,王俊,王永维,等.基于电子鼻技术的不同特征参数对番茄苗早疫病病害区分效果影响的研究[J].传感器技术学报,2014,27(1):1-5.
[18]Utkin L V,Chekh A I.A New Robust Model of One-Class Classification by Interval-Valued Training Data Using the Triangular Kernel[J].Neural Networks.2015,69:99-110.
[19]李琪,卢荣胜,陈成.基于1-分类支持向量机的机器视觉缺陷分类方法[J].合肥工业大学学报(自然科学版),2012,35(10):1311-1315.
[20]刘家辰,苗启广,曹莹,等.基于混合多样性生成与修剪的集成单类分类算法[J].电子与信息学报,2015,37(2):386-393.
[21]陈渝,韩春燕.基于单类SVM和甲醛多示例采样方法的目标跟踪算法[J].西南师范大学学报(自然科学版),2014,39(3):1-8.
[22]Jumutc V,Suykens J A K.Supervised Novelty Detection.2013 IEEE Symposium on Computational Intelligence and Data Mining(CIDM),2013:143-149.
[23]Parhizkar E,Abadi M.BeeOWA:A Novel Approach Based on ABC Algorithm and Induced OWA Operators for Constructing One-Class Classifier Ensembles[J].Neurocomputing,2015,166:367-381.
[24]颜景斌,吴石,伊戈尔,等.基于单类支持向量机的音频分类[J].计算机应用,2009,29(5):1419-1422.
[25]Xiao Y C,Wang H G,Xu W L.Parameter Selection of Gaussian Kernel for One-Class SVM.IEEE Transactions on Cybernetics,2015,45(5):927-939.
Application of Electronic Nose in True-Fake Chinese Liquors Recognition Based on One-Class SVM*
ZHOU Yu,MENG Qinghao*,QI Peifeng,JING Yaqi,ZENG Ming
(School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China)
Aimed at the imbalanced number between the true and fake Chinese liquor samples(normal and abnormal samples)and the lack of abnormal sample categories in truecfake Chinese liquor recognition by multi-class classification,a true-fake recognition method using one-class SVM(Support Vector Machine)to train a one-class classifier for each brand of liquor is put forward.Firstly,a self-designed electronic nose system was used to sample different brands of liquor.Secondly,after data pre-processing,feature generation and feature reduction in turn,the data sampled from the sensor array was transformed into test samples of classification.Thirdly,the optimal parameters for each one-class classifier were found by grid-search.Finally,each one-class classifier was tested on the truefake recognition effect by the corresponding samples.The true-fake recognition rate of one-class classifiers ranges from 93%to 98%,which indicates that the self-designed electronic nose system combined with one-class SVM has a good performance of true-fake Chinese liquor recognition.
electronic nose;Chinese liquors;true-fake recognition;one-class SVM
周宇(1990-),男,汉族,天津大学电气与自动化学院硕士研究生,研究方向为机器嗅觉,yu1019594136@tju.edu.cn;
孟庆浩(1968-),男,汉族,博士,天津大学电气与自动化学院教授,主要研究方向为机器人感知、导航与控制、机器嗅觉、机器人意念控制,qh_meng@tju.edu.cn。
TP391.4;TN911.7
A
1004-1699(2015)12-1741-06
项目来源:国家自然科学基金项目(61271321,61473207,61401303);教育部博士点基金项目(20120032110068);天津市科技支撑计划项目(14ZCZDS F00025)
2015-06-02修改日期:2015-09-15