基于改进网格搜索法的支持向量机在气体定量分析中的应用
2015-05-08陈红岩刘文贞李志彬应亚宏
曲 健,陈红岩,刘文贞,李志彬,张 兵,应亚宏
(中国计量学院机电工程学院,杭州 310018)
基于改进网格搜索法的支持向量机在气体定量分析中的应用
曲 健,陈红岩*,刘文贞,李志彬,张 兵,应亚宏
(中国计量学院机电工程学院,杭州 310018)
针对气体定量分析中,支持向量机建模的参数难以确定以及现有的方法历时长等问题,提出了一种改进的网格搜索法,用于建立基于红外光谱的CO2气体定量分析模型。通过对汽车尾气中CO2气体的初始数据进行优化,再将优化的核函数代入支持向量机进行浓度的回归分析。对浓度范围在0.025%~20%的20组不同浓度的CO2气体进行定量分析,并与PSO算法作对比。实验表明,采用改进的网格搜索法获得的最佳参数c=0.25,g=2.828 4,PSO获得的最佳参数c=18.302 1,g=0.01,所用时间比PSO算法节省约5倍。预测结果误差在5%以内,符合国家对尾气排放的相关标准。
传感器应用;支持向量机;网格搜索;定量分析;红外光谱
机动车尾气排放已经成为污染环境的重要因素,尾气排放的气体主要有CO、NO、CO2、HC化合物等。CO2是温室气体,过量排放将严重影响我们的生活环境。在CO2气体定量分析方法中,主要采用红外吸收法,但由于传感器元器件的老化、温度的变化、供电电压的波动等因素,导致测量的精度不是很高,无法对汽车尾气排放进行有效的检测和监督。
提高气体测量精度的方法主要有人工神经网络[1-2](ANN)方法和支持向量机[3-5](SVM)方法等。其中,刘建国[1]等人将RBF神经网络应用到可燃混合气体的分析中,克服了传感器阵列在混合气体检测中的交叉敏感现象;金翠云[6]等利用粒子群优化算法对支持向量机进行参数优化,并应用于电子鼻气体定量分析中,得到了最优参数组合进一步提高了预测精度;Manouchehrian Amin[7]等运用基于遗传算法寻优方法的支持向量机,建立回归模型,预测岩石的强度和可变性属性;陈媛媛[8]等研究粗糙集核优化的SVM,应用到多组分污染气体定量分析中,使预测精度和运算时间有所提高;付华[9]等利用MPSO优化的基于柯西分布加权的最小二乘支持向量机(CWLS-SVM)算法来预测非线性动态瓦斯涌出量,有效的提高了瓦斯涌出量的预测精度,降低了预测误差。神经网络算法的收敛性及预测的准确度受初始权值和阀值的选择影响很大,因此输出具有不一致性,容易陷入局部极小值,而支持向量机算法可以有效地避免上述问题。
本文以SVM为基础对浓度范围在0.025%~20%的20组CO2气体样本进行定量分析,选取其中15组样本作为训练集,建立SVM回归模型,并对训练集进行预测分析,以检测模型的准确度;选择剩余的5组气体样本作为验证集,验证模型的预测精度和水平。在SVM参数的选取问题上,提出了改进的网格搜索法参数寻优。
1 SVM回归校正模型理论
SVM[10]算法是根据结构风险最小化原则[11]设计的一种统计学习理论,具有小样本学习能力强、模型推广性能好以及高维数据处理能力强等优点。SVM回归校正模型,就是利用SVM核函数,将CO2红外光谱输入数据利用非线性映射Φ,映射到高维空间,然后在高维空间进行回归分析,建立红外光谱数据与待测CO2气体浓度的回归校正模型。
本文将已知浓度的CO2样本作为训练集T={(x1,y1),…,(xN,yN)}∈(Rn×R)N,其中xi∈Rn为第i个待测CO2气体样本,xi=(x1,x2,…,xL)为在扫描波长范围内L个光谱数据,yi∈R为对应的待测CO2气体浓度值,i=1,2,…,N。在高维空间需要求解的光谱与待测CO2气体浓度的回归函数f(xi)可表示为如下形式:
f(xi)=ω·φ(xi)+b
(1)
式中:ω·φ(xi)为向量ω与φ(xi)的内积;ω为回归系数,b为阀值。
在此引入松弛变量ξ,ξ*≥0来求解ω与b,根据SRM准则,将式(1)转换为凸二次规划问题:
(2)
s.t. ±[yi-ω·φ(xi)-b]≤ε+ξi,i=1,2,…,N
(3)
式中:C为惩罚参数,ε为回归函数结果与待测气体样本的误差精度。
引入Lagrange函数求解式(2),通过核函数k(xi,xj)将高维空间的内积运算转换在原二维空间计算,有:
(4)
得到的SVM回归校正模型的回归函数为:
(5)
式中:若αi不为零或者αi不为零,表示此样本即为支持向量。
常用的核函数有线性核函数、多项式核函数、径向基(RBF)核函数、Sigmoid
核函数。由于Gauss函数能较好的模拟光谱信号,所以本文选用RBF核函数。其表达式如下:
K(xi,xj)=exp(-g‖xi-xj‖2),g>0
(6)
式中:参数g为gamma参数函数设置(若k为属性的数目,则g默认为1/k)。
2 改进的网格搜索寻优方法
SVM的回归模型的建立需要进行参数的优选,主要是选择参数c和g。网格搜索法[12]的基本原理是让c和g在一定的范围划分网格并遍历网格内所有点进行取值,对于取定的c和g利用K-CV[13]方法得到在此组c和g下训练集验证分类准确率,最终选择使训练集交叉验证分类准确率最高的那组c和g作为最优参数组合。这种传统方法,如果采用较小的步长,会使得优化时间过长,采用较大的步长又可能陷入局部最优。而改进的网格搜索法,首先,在较大范围内采用大步距进行粗搜,选择使分类准确率最高的一组c和g。在寻得了局部最优参数之后,再在这组参数附近选择一个小区间,采用传统方法中的小步距进行二次精搜,找到最终的最优参数。具体的寻优过程如图1所示。
图1 改进网格搜索寻优流程图
3 实验与分析
本实验采用不分光红外法(NDIR)对CO2浓度进行检测。经过MCU调制的红外光源通过一定长度的气室内,气室中充有待测浓度的CO2气体。由于CO2对红外线波段中特征波长红外线能量的吸收,特定波长的光源通过气体后,在相应谱线处会发生光强的衰减,红外线的能量将减少,探测器检测剩余的光强度并转化为电信号,放大滤波后作为模型的输入。整个测试系统的原理如图2所示。
图2 NDIR测试系统原理图
图2中,检测系统的核心部件—传感器,包括进气口、出气口、光源、气室、探测器和信号处理电路等部分。如图3所示。
图3 传感器装置实物图
以标准浓度在0.025%~20%之间的20组CO2气体作为实验样气,对标准浓度进行归一化处理,便是模型的期望输出。选择浓度为0.025、0.12、0.23、0.46、0.62、1.05、2.00、4.02、5.04、6.03、8.09、10.01、14.10.16.20、20.20的15组样本为训练集,建立SVM模型并查看模型在训练集上的回归效果;选择浓度为0.82、2.99、7.06、12.03、18.30的5组样本为测试集,用建立好的模型对测试集进行回归预测,并验证SVM模型的预测精度和水平(详情见表一)。模型的建立需要找到最优的惩罚参数c和RBF核参数g,本文采用改进的网格搜索法进行参数寻优的实验过程如下:
①设定初始网格搜索的(c,g)范围和步距。国际上对于(c,g)的范围并没有明确的限定,但过高的c会引起模型的过学习,所以本实验设定的初始范围c为-8~8(取以2为底的幂指数后),g为-8~8。由于进行粗略参数选择,目的是找到参数的大概位置,步距设为2。
②采用交叉验证的方法,其中交叉验证折数K取5,得到使分类准确率最高的局部最优参数,c=4,g=0.0625。
③在得到的局部最优参数的附近,重新定义搜索范围和步距,其中c为-6~-2,g为-4~4,步距为0.5。进行精细化选择,二次寻优的结果如图4所示。
选定好最优参数组合(c,g)后,对训练集进行训练,建立SVM回归模型,之后对测试集进行回归分析。
图4 参数选择结果视图
在训练集上验证模型的回归效果,结果显示均方差为0.001 98,相关系数为98.67%,说明模型的回归分析能力是较好的,能够很好地预测出标准气体样本浓度。测试集样本的实际浓度值和模型预测的浓度值对比图如图5所示,验证集样本的实际浓度值和模型预测的浓度值对比图如图6所示。
图5 训练集实际浓度和预测输出对比图
图6 测试集实际浓度和预测输出对比图
由图5可以看出利用训练集建立的模型对训练集本身做预测时,效果是比较不错的;将模型应用于测试集的预测,效果明显,曲线很好地逼近真实浓度,说明本实验建立的模型预测精度高,可以应用于CO2气体的回归预测。
若采用PSO优化算法[14],首先需要计算粒子的初始适应度值和初始化局部最优和全局最优,寻优的流程如图7所示,最终寻优结果曲线如图8所示。
图7 PSO参数优化流程图
图8 PSO寻优结果图
由图8可以看到,最终优选结果的粒子适应度值基本上围绕在0.05~0.25之间,相对比较集中。
通过实验,可以得到两种方法的寻优结果对比,包括寻优时间长短、最终模型参数以及测试结果均方差大小,如表2所示。测试数据的仿真结果及平均绝对误差如表1所示。
由表1、表2可以看出:两种方法建立的气体定量分析模型的测试误差水平基本相当。采用改进的网格搜索法进行参数寻优,参数c明显小于PSO法,而过高的c容易引起模型的过学习;寻优时间约为PSO的1/5,均方误差略高于PSO。牺牲一点准确率而节省寻优时间是可以接受的。因此应用此方法建立气体定量分析模型是有效可行的。改进式网格搜索法算法实现简单、优化率高,通过步距的调整缩短了寻优时间,提高了收敛速度。
表1 仿真结果对比
表2 寻优结果对比
4 结论
本文将改进的网格搜索法应用于支持向量机的参数寻优,对浓度范围在0.025%~20%的标准CO2气体进行定量分析,选取其中15组样本作为训练集,建立了SVM回归模型,并对训练集进行预测分析,以检测模型的准确度;选择剩余的5组气体样本作为验证集,验证模型的预测精度和水平。在SVM参数的选取问题上,提出了改进的网格参数寻优法,取得的最优参数组合(c,g)为(0.25,2.828 4)。模型的仿真绝对误差在5%以内,符合国家关于尾气排放的检测标准,能够满足气体测量的实际需求。与启发式算法PSO相比,在误差精度相差不大的情况下,寻优时间明显减少,因此,改进的网格搜索法与SVM相结合在CO2气体红外光谱的定量分析建模中具有一定的发展潜力和挖掘空间。
[1] 刘建国,安振涛,张倩. 基于传感器阵列的可燃混合气体RBF网络分析[J]. 装备环境工程,2013,10(3):113-116.
[2]袁力哲,杨宪江,王宇. 基于自适应遗传BP算法的混合气体定量检测研究[J]. 仪表技术与传感器,2013(6):118-120.
[3]乔聪明. PLS-SVR的三组分混合气体定量分析[J]. 太原理工大学学报,2014,45(1):120-122,127.
[4]林继鹏,刘君华. 基于支持向量机的多组分气体分析[J]. 西安交通大学学报,2005,39(6):586-589.
[5]张其林. 基于支持向量机的红外光谱混合气体组分分析[J]. 计算机时代,2010(1):9-11.
[6]金翠云,崔瑶,王颖. 粒子群优化的SVM算法在气体分析中的应用[J]. 电子测量与仪器学报,2012,26(7):635-639.
[7]Manouchehrian Amin,Sharifzadeh Mostafa,Hamidzadeh,et al. Selection of Regression Models for Predicting Strength and Deformability Properties of Rocks Using GA[J]. International Journal of Mining Science and Technology,2013,23(4):495-501.
[8]陈媛媛,张记龙,李晓,等. 基于粗糙集核优化的支持向量机在多组分污染气体定量分析中的研究与应用[J]. 光谱学与光谱分析,2010,30(12):3384-3387.
[9]付华,王馨蕊,杨本臣,等. 基于MPSO-CWLS-SVM的瓦斯涌出量预测[J]. 传感技术学报,2014,27(11):1568-1572.
[10]白鹏,刘君华. 基于多维光谱的多组分混合气体浓度支持向量机算法[J]. 化工自动化及仪表,2005,32(5):43-47.
[11]哈明虎,田景峰,张植明. 基于复随机样本的结构风险最小化原则[J]. 计算机研究与发展,2009,46(11):1907-1916.
[12]王兴玲,李占斌. 基于网格搜索的支持向量机核函数参数的确定[J]. 中国海洋大学学报,2005,35(5):859-862.
[13]汤宝平,刘文艺,蒋永华. 基于交叉验证法优化参数的Morlet小波消噪方法[J]. 重庆大学学报,2010,33(1):1-6.
[14]付华,王馨蕊,王志军,等. 基于PCA和PSO-ELM的煤与瓦斯突出软测量研究[J]. 传感技术学报,2014,27(12):1710-1715.
Application of Support Vector Machine Based on Improved Grid Search in Quantitative Analysis of Gas
QUJian,CHENHongyan*,LIUWenzhen,LIZhibin,ZHANGBing,YINGYahong
(College of Mechanical and Electrical Engineering,China Jiliang University,Hangzhou 310018,China)
According to the difficult in selecting parameter of SVM when modeling on the gas quantitative analysis,and existing methods need long time,SVM optimized by improved grid search method was proposed to built an infrared spectrum quantitative analysis of gas. According to this method,the spectrum data of CO2in vehicle exhaust is optimized. The kernel function leads SVM and calcu-late the concentration. By using improved grid search and PSO to make the contr-ast,quantitatively analyzed 20 different concentrations of CO2in the concentration range between 0.025%~20%. The experiment results show that this method getsc=0.25,g=2.828 4,PSO getsc=18.302 1,g=0.01,the time of modeling by improved grid search was reduced to one fifth of that of PSO optimization. And the prediction error is less than 5%,in line with national standar-ds for exhaust emissions.
sensor application;SVM;grid search;quantitative analysis;infrared spectrum
曲 健(1989-),男,山东青岛人,在读研究生,主要研究方向为检测技术,13645712326@163.com;
陈红岩(1965-),男,浙江杭州人,教授,研究生导师,浙江大学内燃机工程专业硕士、博士学位;上海交通大学动力与机械工程专业博士后。主要研究领域为汽车电子、发动机排放与控制等,bbchy@163.com。
2015-01-05 修改日期:2015-02-03
C:7230;4145
10.3969/j.issn.1004-1699.2015.05.027
TH744
A
1004-1699(2015)05-0774-05