用于白酒识别的电子鼻数据分析与参数优化
2015-07-19亓培锋孟庆浩井雅琪丁承君
亓培锋,孟庆浩,井雅琪,曾 明,丁承君
(1. 天津大学电气与自动化工程学院,天津 300072;2. 河北工业大学机械工程学院,天津 300401)
白酒的生产和消费在我国国民经济中占据着重 要地位.近年来,随着白酒产业的快速发展,白酒假冒现象日益严重,特别是年份酒和原产地标志方面表现得尤为突出.现今对白酒的检测[1-4]主要是通过色谱、光谱等分析方法,但其检测需要专业人员和大型仪器,费时费力,不适合在线快速检测.
电子鼻[5]是受生物嗅觉原理启发,在结构和功能上模仿哺乳动物的嗅觉系统的现代检测仪器,具有快速、便携等特点,已经在许多领域引起了广泛重视.电子鼻的数据分析本质上是模式识别的过程,主要包括数据预处理[6]、特征生成、特征降维[7]和分类识别 4部分.
目前已有文献中,电子鼻对白酒的研究主要是对其不同香型、品牌等的直接区分[1-4],而对其中的数据分析问题缺乏较系统的研究;此外,在电子鼻系统的实验参数选择上大多通过经验估算得到.而实际上,电子鼻中数据分析的每个环节都很关键,最终都会影响到分类识别的结果.因此对于电子鼻系统,为了得到良好的识别效果,需要对预处理后的数据尽可能全面地提取特征信息,再通过适当的特征降维策略得到便于分类的低维特征空间,从而设计较好的分类器.此外,电子鼻的响应与系统的实验参数有很大关系,不同的实验参数都会引起电子鼻响应的差异,从而影响电子鼻的检测效果.因此,有必要对电子鼻系统的实验参数进行优化.
针对上述问题,本文以浓香型白酒为研究对象,利用自主设计的白酒识别电子鼻系统,对其中的数据分析问题进行研究,提出了新的数据预处理、特征生成和特征降维方法;对系统的实验参数——气路流量和水浴蒸发温度进行优化,得到较佳的实验参数,并在该参数条件下采用改进的 BP神经网络算法完成电子鼻对11种浓香型白酒的识别和温湿度补偿.
1 电子鼻系统及实验方案
1.1 实验材料
实验采用 11种浓香型白酒样本为对象:兰津酒(48%,LJ-H)、兰津酒(38%,LJ-L)、红津酒(HJ)、津酒-扁凤壶(45%,BFH-H)、津酒-扁凤壶(40%,BFHL)、青酒(QJ)、泸州老窖(LZLJ)、百年皖酒(BNWJ)、绵竹大曲(MZDQ)、稻花香(DHX)、牛栏山(NLS).
1.2 电子鼻系统
实验采用自主设计的白酒识别电子鼻系统如图1所示,其中气体传感器阵列由 11种金属氧化物半导体(MOS)传感器组成,分别为:TGS2602、TGS822、TGS880、TGS2610、TGS2620、MICS-5121、MICS-5135、TGS2611、MICS-5521、MICS-5524、MICS-5526,并按照顺序编号为chn0~chn10.
图1 用于白酒识别的电子鼻系统整体结构Fig.1 Structure of the designed electronic nose system for Chinese liquors recognition
1.3 实验方案
1.3.1 气路流量参数的优化(方案A)
以 5 种白酒(BNWJ、LZLJ、NLS、DHX、QJ)样本为对象,研究气路中载气流速对系统识别的影响;样本量 2,μL,水浴温度恒定在 60,℃,改变气体质量流量控制器设定控制气路中载气流速分别为 200、400、500、600、800,sccm.对 5种白酒样本分别在上述 5种流速条件下各重复测试 5次,共得到 125组样本数据.
1.3.2 水浴温度参数的优化(方案B)
以 6 种白酒(BNWJ、LZLJ、NLS、DHX、QJ、HJ)样本为对象,研究样本的水浴蒸发温度对系统识别的影响;样本量 2,μL,气路流量为 200,sccm;改变水浴温度分别为:50,℃、70,℃、90,℃和室温(无水浴).对6种白酒样本分别在上述 4种水浴温度条件下各重复测试5次,共得到120组样本数据.
1.3.3 优化参数下对11种白酒的检测(方案C)
以前文所述 11种白酒样本为对象,考察优化参数后电子鼻对浓香型白酒的分类识别效果;气路流量为 200,sccm;水浴蒸发温度为 70,℃;样本量分别为:1,μL、2,μL、3,μL 和 5,μL.对 11 种白酒样本进行测试,每种白酒测试 20次(每种浓度下重复测试 5次),共得到220组样本数据.
2 数据分析方法
电子鼻中数据分析的过程就是模式识别的过程,图2描述了电子鼻数据分析方法框架.
图2 电子鼻数据分析方法框架Fig.2 Framework of data analysis for electronic nose
式中1,023表示10位AD的标准采样数字量.
2.1.2 小波阈值去噪
通过消除工频干扰,可以使响应曲线的波动减小、趋势基本保持一致,但是效果并不显著,因此还需要进一步的滤波去噪.电子鼻传感器信号是非平稳信号,对于非平稳信号用快速傅里叶变换(FFT)滤波不能将有用信号的高频部分和高频噪声干扰加以有效区分;而小波变换由于能同时在时域和频域中对信号进行分析,有变尺度能力,能够有效地区分传感器信号中的突变部分和噪声部分,从而实现信号去噪.
图3和图4比较了FFT滤波和小波去噪对传感器信号的去噪效果.可以看到 FFT滤波在处理传感器信号时存在较大的失真,而小波去噪则能更好地保留有用信号,且去噪后的曲线也更光滑.
2.1.3 相对电导变化率归一化
选用传感器电导的变化率来表示传感器与气体
2.1 数据预处理
2.1.1 消除工频干扰
传感器电压信号(LRV )和参考电压(Vref)都由同一电路板上采集,可认为干扰和电路噪声波动是一致的,因此可以通过参考电压的波动去除传感器信号的波动,即样品的反应信息,同时为了抑制基线的波动,采用相对差分法得到一种新的传感器敏感度表示方法——相对电导变化率S.
图3 FFT滤波对传感器信号的去噪效果Fig.3 Signal of sensor denoised by FFT filtering
图4 小波去噪对传感器信号去噪效果Fig.4 Signal of sensor denoised by wavelet filtering
式中:St为 t时刻的相对电导变化率;为 t时刻传感器电导;GS0为基线附近电导;VRL为通过消除工频干扰并滤波后的电压采集信号.
白酒识别是定性识别问题,因此,为了消除样本浓度的可能影响,可进行归一化为
由相对电导变化率定义可知,当 t=0时 St值最小为零,即min S=0.图5是归一化后的相对电导变化率曲线.
图5 相对电导变化率的归一化Fig.5 Normalized curves of the relative change rate of conductivity
2.2 特征生成
求取归一化后相对电导变化率的微分、积分、曲率和曲率半径的公式如下.
梯度(gradient)法求一阶数值微分
辛普森积分公式为
曲率和曲率半径计算公式为
2.2.1 响应起始点
要准确获取传感器响应曲线的特征,首先要确定响应的起始点,响应起始点的确定就是为了准确地找到曲线上升的起点.但由于传感器的响应基线一般存在波动,即使经过数据预处理,直接寻找响应的起始点仍较困难.如果对相对电导变化率曲线求微分,基线的波动就会反映为在零点附近波动的微分量,并且发现其微分曲线均存在一个明显的极大值波峰.本文根据微分曲线的这一特点,采取反向搜索的思想:先找到微分曲线极大值,再前向推出起始点,并采用变步长方法提高了搜索效率.又有响应起始点处微分应趋近于 0,且从起始点到极大值点之间的微分均大于0.
图 6示意了响应起始点 pos1的确定,其中 pos2表示相对电导变化率达到最大时采样点位置.算法的步骤如下.
步骤 1 求取微分(d)曲线的极大值 dm出现时的采样点pos3;
步骤2 以10个采样点为步长,向前逆向搜索,直到d≤dm/5;
步骤 3 以 1个采样点为步长,继续逆向搜索,直到首次出现 0d< 为止;
步骤4 其下一个采样点即为响应起始点pos1.
图6 响应起始点的确定算法示意Fig.6 Schematic plot of the algorithm to determine the starting point
2.2.2 特征的生成
对相对电导变化率曲线及其微分、积分、曲率和曲率半径变化曲线提取相应特征,每个传感器响应提取 10个特征,分别为:达到最大相对电导变化率的时间 t1,相对电导变化率的方均根 RMSS、算术平均数AMSS、几何平均数GMSS、调和平均数HMS,相对电导变化率一阶微分最大值Mder,达到最大微分的时间 t2,平均微分 Kder,t1时刻相对电导变化率积分 It1,相对电导变化率曲线的几何平均曲率 GMcure.提取特征的公式分别为
式中:N=pos2-pos1;a=pos1;b=pos2.整个阵列一共得到110维初始特征空间,并按照一定顺序编号为1~110号特征.再加上采集每次测试前保持相对稳定的温度值和湿度值作为 2个特征(用于温湿度补偿),每个样本可用一个112维的特征向量表示.
2.3 特征降维
根据峰值现象[8],110维特征显然过多;在有限测试样本的情况下,还需对特征空间进行降维.
2.3.1 特征选择降维
首先采用 8种特征选择算法[9-16]对初始特征空间进行选择,得到每种算法选取的前 10个特征如表1所示.对表1结果进行综合,去重筛选后得到41维特征.
表1 8种特征选择算法选取前10个特征结果Tab.1 Top 10,features chosen by 8,feature-generation methods
2.3.2 核熵成分分析
利用特征提取的办法进一步降低特征维数,采用KECA[17]作为特征提取算法.2010年 Jenssen在核主成分分析(kernel principal component analysis,KPCA)[18]的基础上引入了Renyi熵,提出了KECA;与KPCA相比,KECA具有以下两个特点:
(1) 保持降维后数据与降维前相比的 Renyi熵损失最小;
(2) 确定数据投影方向时按照特征向量对Renyi熵值贡献大小选择,而不再根据特征值大小来选择.
KECA算法原理请参考文献[17],通过对实验结果分析,最终提取得到12维新特征.
2.3.3 特征的归一化
通常情况下,最终得到的特征值具有不同的动态范围(尺度),在进行分类器设计之前需对特征进行归一化处理,消除不同特征尺度的影响.本文采用Softmax比例法对生成的特征进行归一化,它是一种非线性变换,由2步组成,即
式中:xi为生成的特征( i = 1 ,2,… ,n );μ为所有特征的均值;σ为标准差;λ为系数;⁀为归一化后的特征.通过变换,特征值限制在[0,1]范围内.
2.4 分类识别
分别采用 Softmax回归[19]、BP神经网络[20]和多线性分类器(multi-linear classifier)[21-23]作为模式识别算法,其中应用动量-自适应调整算法[24]对 BP神经网络进行改进,改进后 BP神经网络可有效避免陷入局部极值点且加快了学习效率.采用交叉验证法来估计分类器的性能,得到的是分类准确率的估计值,还需计算交叉验证估计的误差范围,即置信区间(本文采用分类器预测结果与期望输出结果的差值的平均标准差作为置信区间).
3 电子鼻系统参数优化
3.1 气路流量优化
按实验方案 A(见第 1.3.1节)完成实验,经数据分析后得到 125个样本的 12维特征向量.分别用Softmax回归和改进的 BP神经网络设计分类器,并进行交叉验证和置信区间计算,结果如表 2和图 7所示.
气路流量为 200,sccm条件下 5种白酒样本的PCA(principal component analysis)和 LDA(linear discrimination analysis)结果见图8和图9.
表2 不同气路流量下白酒样本的识别结果Tab.2 Results of Chinese liquors recognition in different gas flows
图7 气路流量对白酒样本识别的影响Fig.7 Effect of gas flow on Chinese liquors recognition
图8 200,sccm时对5种白酒样本的PCA结果Fig.8 PCA results of five Chinese liquors at 200,sccm
由表2和图 7可知气路流量为 200,sccm时,采用Softmax回归和BP神经网络测试样本得到的交叉验证的准确率均最高.BP神经网络对样本交叉验证得到的准确率要比Softmax回归高,并且识别精度也更高(置信区间较小).图7中准确率曲线随气流流量增大整体有下降趋势,这说明气流流量过快会导致气体样本与传感器阵列不能充分接触反应,不利于对白酒样本的识别,而气路流量为200,sccm是较合适的.
图9 200,sccm时对5种白酒样本的LDA结果Fig.9 LDA results of five Chinese liquors at 200,sccm
3.2 水浴蒸发温度优化
按实验方案 B(见第 1.3.2节)完成实验,经数据分析后得到 120个样本的 12维特征向量.分别对 4种蒸发温度条件下得到的实验样本用 Softmax回归和 BP神经网络设计分类器,并同样进行交叉验证和置信区间的计算,结果如表3和图10所示.
由表 3和图 10可知蒸发温度为 70,℃时,采用Softmax回归和BP神经网络测试样本得到的交叉验证的准确率均最高.Softmax回归对样本交叉验证得到的准确率要比 BP神经网络高,但是误差范围比BP神经网络略大.图 10中准确率曲线随蒸发温度升高具有先增大后减小的整体趋势,这反映了蒸发温度变化对白酒样本蒸发气体成分的影响.蒸发温度的升高可以加速白酒样本中呈香物质的蒸发,因此可以丰富样本气体组分的差异性,有助于对白酒样本的识别;但当蒸发温度过高(如超过 70,℃)时,由于白酒样本中水和乙醇的“过量”蒸发将会导致传感器特异性下降,反而影响了对白酒样本的识别,甚至影响传感器响应使其产生较大的偏移现象,导致测量结果的不可靠.实验结果表明蒸发温度为 70,℃是比较合适的.
表3 不同蒸发温度白酒样本识别交叉验证结果Tab.3 Results of Chinese liquors recognition atdifferent evaporation temperatures of water bath
图10 水浴蒸发温度对白酒样本识别的影响Fig.10 Effect of evaporation temperature of water bath on Chinese liquors recognition
蒸发温度为 70,℃条件下,6种白酒样本的 PCA和LDA分类结果如图11和图12所示.
综上所述,确定白酒识别电子鼻系统较佳的实验参数为:气路流量为 200,sccm,水浴蒸发温度为70,℃.
图11 70,℃时6种白酒样本的PCA结果Fig.11 PCA results of six Chinese liquors at 70,℃
图12 70,℃时6种白酒样本的LDA结果Fig.12 LDA results of six Chinese liquors at 70,℃
4 电子鼻识别结果
在上述较佳的系统实验参数下,按实验方案C(见第 1.3.3节)完成实验,经数据分析后得到 220个样本的 12维特征向量.对实验样本用 Softmax回归和改进的 BP神经网络设计分类器,并进行交叉验证和置信区间计算,结果如表 4所示(表中 Softmax回归用SR表示,BP神经网络用BP表示).
由于金属氧化物半导体气体传感器易受气室环境温湿度影响产生漂移,本文采用一个温湿度采集模块采集气室内温、湿度情况,并将得到的温、湿度测量值作为测试样本的两个特征值与前文得到的12维特征向量一起组成 14维特征向量来表示样本.表 5比较了温湿度补偿前后电子鼻系统对11种白酒样本的总体识别准确率和置信区间,结果发现温湿度补偿后可以一定程度提高识别准确率,并且置信区间明显缩小(识别精度提高),还可以看到温湿度补偿对 BP神经网络性能的改善效果更好.
表4 较佳实验参数下对11种浓香型白酒样本的识别结果(温湿度补偿前)Fig.4 Recognition results of 11 kinds of strong-flavor Chinese liquors after parameters optimization(before temperature and humidity compensations)
5 结 语
考察电子鼻系统的实验参数——气路流量和水浴蒸发温度对白酒识别的影响,发现两者条件的变化对白酒识别电子鼻系统有较大影响.经分析,当气路流量和水浴蒸发温度分别为 200,sccm 和 70,℃时系统的识别效果明显优于其他情况,因此可得出较佳的气路流量为200,sccm、水浴蒸发温度为70,℃.
利用上述实验参数对11种浓香型白酒进行识别研究.对 220组白酒样本数据进行数据分析后,采用改进的BP神经网络的识别准确率可达到88.18%,这说明文中所提数据分析方法和思路适合于电子鼻对白酒的识别,可以得到较好的识别效果,通过分析还发现与Softmax回归相比,改进的BP神经网络的识别准确率较高,且置信区间更窄.
对实验样本数据进行温湿度补偿,并比较了温湿度补偿前后电子鼻系统对白酒样本的识别结果.结果表明对电子鼻系统进行温湿度补偿可以一定程度上提高系统对白酒的识别效果,并且温湿度补偿对BP神经网络识别效果的改善更加明显,其补偿后的识别准确率可达到 91.36%,置信区间则由 0.027,68减小至0.017,18.
[1] 王 俊,胡桂仙,于 勇,等. 电子鼻与电子舌在食品检测中的应用研究进展[J]. 农业工程学报,2004,20(2):292-295.Wang Jun,Hu Guixian,Yu Yong,et al. Research and application of electronic nose and electronic tongue in food inspection[J]. Transactions of the Chinese Society of Agricultural Engineering,2004,20(2):292-295(in Chinese).
[2] 邹小波,赵杰文,殷晓平,等. 嗅觉可视化技术在白酒识别中的应用[J]. 农业机械学报,2009,40(1):110-113.Zou Xiaobo,Zhao Jiewen,Yin Xiaoping,et al. Chinese liquors identification by olfaction visualization technology[J]. Transactions of the Chinese Society for Agricultural Machinery,2009,40(1):110-113(in Chinese).
[3] 霍丹群,尹猛猛,侯长军,等. 可视化阵列传感器技术鉴别不同香型白酒[J]. 分析化学,2011,39(4):516-520.Huo Danqun,Yin Mengmeng,Hou Changjun,et al.Identification of different aromatic Chinese liquors by colorimetric array sensor technology[J]. Chinese Journal of Analytical Chemistry,2011,39(4):516-520(in Chinese).
[4] Zhou Qiong,Zhang Shunping,Li Yuxiao,et al. A Chinese liquor classification method based on liquid evaporation with one unmodulated metal oxide gas sensor[J]. Sensors and Actuators B:Chemical,2011,160(1):483-489.
[5] Gardner J W,Bartlett P N. A brief history of electronic noses[J]. Sensors and Actuators B:Chemical,1994,18(1):210-211.
[6] 邹小波,赵杰文. 电子鼻数据的预处理技术与应用[J]. 农业机械学报,2006,37(5):83-86.Zou Xiaobo,Zhao Jiewen. Electronic nose preprocessing and its application[J]. Transactions of the Chinese Society for Agricultural Machinery,2006,37(5):83-86(in Chinese).
[7] 海 铮,王 俊. 电子鼻信号特征提取与传感器优化的研究[J]. 传感技术学报,2006,19(3):606-610.Hai Zheng,Wang Jun. Studies on signal feature extraction and sensor optimization of an electronic nose[J].Journal of Transduction Technology,2006,19(3):606-610(in Chinese).
[8] Trunk G V. A problem of dimensionality:A simple example[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1979,1(3):306-307.
[9] Lewis D D. Feature selection and feature extraction for text categorization[C]//Proceedings of the Workshop on Speech and Natural Language. New York:Association for Computational Linguistics,1992:212-217.
[10] Battiti R. Using mutual information for selecting features in supervised neural net learning[J]. IEEE Transactions on Neural Networks,1994,5(4):537-550.
[11] Yang H,Moody J. Feature selection based on joint mutual information[C]//Proceedings of International ICSC Symposium on Advances in Intelligent Data Analysis.New York,the United States,1999:22-25.
[12] Fleuret F. Fast binary feature selection with conditional mutual information[J]. The Journal of Machine Learning Research,2004,5:1531-1555.
[13] Peng H,Long F,Ding C. Feature selection based on mutual information criteria of max-dependency,maxrelevance,and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[14] Jakulin A. Machine Learning Based on Attribute Interactions[D]. Ljubljana:Faculty of Computer and Information Science,University of Ljubljana,2005.
[15] Lin D,Tang X. Conditional Infomax Learning:An Integrated Framework for Feature Extraction and Fusion[M]. Berlin Heidelberg:Springer,2006.
[16] Meyer P E,Bontempi G. On the Use of Variable Complementarity for Feature Selection in Cancer Classification[M]. Berlin Heidelberg:Springer,2006.
[17] Jenssen R. Kernel entropy component analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(5):847-860.
[18] Yang Jian,Frangi A F,Yang Jingyu,et al. KPCA plus LDA:A complete kernel fisher discriminant framework for feature extraction and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(2):230-244.
[19] Gold S,Rangarajan A. Softmax to softassign:Neural network algorithms for combinatorial optimization[J].Journal of Artificial Neural Networks,1996,2(4):381-399.
[20] Rumelhart D E,Hintont G E,Williams R J. Learning representations by back-propagating errors[J]. Nature,1986,323(6088):533-536.
[21] Jing Y Q,Meng Q H,Qi P F,et al. Electronic nose with a new feature reduction method and a multi-linear classifier for Chinese liquor classification[J]. Review of Scientific Instruments,2014,85(5):055004.
[22] Zhao Q,Zhao Y,Wang F,et al. Preliminary study of learning individual thermal complaint behavior using one-class classifier for indoor environment control[J].Building and Environment,2014,72:201-211.
[23] Zhao Y,Zhao Q,Wang F,et al. Modeling individual complaint behavior in daily office environment using a novel one-class,multi-linear classifier[C]//2013 10th IEEE International Conference on Control and Automation(ICCA). Hangzhou,China,2013:1850-1855.
[24] 段侯峰. 基于遗传算法优化 BP神经网络的变压器故障诊断[D]. 北京:北京交通大学电气工程学院,2008.Duan Houfeng. Fault Diagnosis for Power Transformer Based on Genetic Algorithm for Optimization of BP Neural Network[D]. Beijing:School of Electrical Engineering,Beijing Jiaotong University,2008(in Chinese).