基于复杂度指数的GA-SVR及其在气体水合物中的应用
2014-12-23许会朋陈建新
吴 清,许会朋,陈建新
(1.河北工业大学 计算机科学与软件学院,天津300401;2.河北工业大学 海洋科学与工程学院,天津300130)
0 引 言
气体水合物海水淡化法工艺流程中的最优工艺参数复杂多变且难以快速准确求解,这直接影响到海水淡化的效率和效益,严重阻碍产业的发展。目前,主要通过大量实验对最优工艺参数进行估测,不仅费时耗力而且很难得到最优解。本文提出基于复杂度指数的遗传算法优化支持向量回归模型,以此模型来解决这一问题[1-3]。阐述了该模型的理论原理和实现细节,通过气体水合物海水淡化实验数据验证该模型的有效性。
1 遗传-支持向量回归模型
研究发现,支持向量回归机的参数对其回归预测精度影响很大,但目前对其参数的确定主要依靠经验进行交互选择[4]。遗传-支持向量回归 (GA-SVR)模型引入遗传算法对支持向量回归中的参数进行优化[5,6],并形成集成算法,实现对SVR 参数的自动选择。
1.1 支持向量回归机
为了解决气体水合物海水淡化工艺参数的回归预测问题,我们需要由n 个输入和输出样本对组成的一组样本数据集
那么可以得出如下形式的线性回归模型
式中:f(x)——要求解的目标函数,<ω·x >——ω与x的内积,b——偏置值。可以通过求解下面最优化问题来求解ω和b的值
约束条件为
支持向量机遵循间隔最大化原则,通过计算可以知道间隔大小等于2/,约束条件可以理解为预测值与实际输出值yi的差值要小于常量ε。
针对这个优化问题,根据参考文献 [7]求解,可得如下公式
则优化问题的对偶形式为
我们可以使用选块算法、分解算法、序贯极小优化算法等算法,求出αi和,实际上只有一部分样本(xi,yi)称为支持向量。最终求得回归函数
对于非线性问题,使用一个非线性的映射关系φ,将原始的非线性数据xi映射到相应的特征空间上,使得在这个特征空间上可以运用线性支持向量回归机的原理进行运算。在实际的计算过程中用一个核函数ψ(xi,xj)来代替内积运算<·>使得运算得到简化,最终实现非线性回归。则回归函数变为
根据KKT 条件参见文献 [7],任选一支持向量,可得非线性支持向量回归函数
1.2 遗传-支持向量回归模型
支持向量回归中的核函数虽然有多种选择,但相关研究发现,径向基核函数在多数情况下性能最优且最稳定,尤其适用于特征数目较少对时间要求不高的情况[8]。本文使用径向基核函数,则SVR 中尚需确定的参数为:惩罚参数C、核参数σ、不敏感损失参数ε。在此引入遗传算法对这3个参数进行优化选择,主要步骤如下:
(1)参数编码:本文根据3个参数不同的取值范围对其采用二进制编码操作,形成不同的染色体作为遗传操作的最初个体。3个参数各占10个二进制位,其中惩罚参数C 取值范围: [0,100]、精度0.1;核参数σ取值范围:[0,100]、精度0.1;不敏感损失参数ε取值范围: [0,1]、精度0.001。
(2)适应度函数:计算不同个体适应度值的函数,其值越大表示越接近最优解,是遗传操作中选择概率的依据。训练数据回归预测的均方根误差,即
式中:n——训练样本的样本数;yi——实际输出值;fi——预测输出值。适应度值F定义为
式中:ξ——一个很小的正数。
(3)遗传操作:遗传操作包括选择操作、交叉操作和变异操作3种[9],具体如下:
1)选择操作:使用适应度值作为选择的依据,使得种群中适应度值高的个体被选择的概率高,适应度值低的个体被选择的概率低,本文采用赌轮盘法进行处理。
2)交叉操作:本文将SVR 的3 个参数编码到染色体R ={r1,r2,r3},利用线性组合的交叉操作,以某一概率a(0和1之间的随机数)在某2个个体染色体的3部分之间独立地进行交叉。假设2个染色体分别为R1、R2,则交叉操作如下
3)变异操作:均匀变异,给定一个变异率ρ,对将变异的染色体R={ri|i=1,2,…,n}中的每一位进行变异操作。进行变异操作时,随机产生一个0到1之间的随机数ρ0,如果ρ0 小于等于ρ则改变该位,否则保持不变,即
综上所述,本文采用的GA-SVR 模型算法流程如图1所示。
2 基于复杂度指数优化的GA-SVR
图1 GA_SVR 流程
GA-SVR模型虽然较好地解决了参数优化问题,但其运行速度较慢,主要原因在于遗传算法的初代种群的选择是随机的,距离最优解较远,需要较多的遗传代数才能接近最优解[10]。本文进一步的研究发现SVR 参数的选择与所要逼近的函数映射的复杂程度存在关系。因此为了能够选择合适的初代种群,分析训练样本数据的复杂度指数,通过复杂度指数可以反映出训练样本输出值改变量和变化速度,以及函数形态的复杂程度。复杂度指数CI具体的计算公式如下
式中:yi——n个训练样本的因变量,Cs——n 个训练样本输出差值的和;N——输出值波峰h 与波谷l 的和;Δxi——m 个自变量中第i 个自变量最大值与最小值的差,S——m 个自变量的变化空间。
为了使SVR 模型具有较好的泛化性能,其学习能力应与所逼近的非线性系统的复杂程度相一致。通过对多个模拟函数进行的仿真实验结果表明,由给定样本数据计算出的复杂度指数和支持向量回归参数之间存在一定的关系。下面以不同输入维数的函数为例,探讨复杂度指数对SVR参数的影响规律。采用的函数映射的统一模型如下
式中:m 的值代表构造出函数的维数,在此选用m=1、2、3时构造出的f1、f2和f3。当3个函数的输入取值范围不同时,将导致自变量变化空间S 的不同;当函数中的n1、n2、n3不同时,将导致输出差值Cs以及与频率有关的N 的不同,从而使复杂度指数CI发生变化。因此,通过改变这些参数的值,可以生成不同复杂度指数的模拟样本数据,然后求得在不同复杂度指数值的情况下,支持向量回归参数C、σ和ε的值,从而得到参数与CI之间的关系。图2至图4显示的实验结果都是在相同精度err=0.01条件下取得的。
图2 惩罚参数C随CI的变化曲线
图3 核参数σ随CI的变化曲线
图4 不敏感损失参数ε随CI的变化曲线
图2所示为惩罚参数C 随复杂度指数CI 的变化曲线。可以看出,随着CI的逐步增大C 也逐渐变大。图3为惩罚参数σ随复杂度指数CI 的变化关系,σ值随CI 的增大而减小,当CI过大时惩罚参数σ的变化趋于平缓。不敏感损失参数ε随复杂度指数CI 的变化关系如图4所示,ε随着CI的增大而减小,当CI较大时不敏感损失参数ε快速衰减到一个很小的值。
依据目标函数的复杂度指数对支持向量回归参数的影响规律,构建基于复杂度指数的遗传算法优化支持向量回归参数模型 (CI-GA-SVR),可得到接近最优SVR 参数的初代种群,提高了遗传算法的寻优效率,可建立迅速最优化参数的支持向量回归模型。
3 CI-GA-SVR在气体水合物中的实例应用
表面活性物质可以改变水气相界面的表面张力,增快气体分子进入水气界面层的速率,提高水合物的生成。因此,在气体水合物海水淡化过程中,需要往海水中添加表面活性剂,以提高海水淡化的速度和效益[11]。然而,表面活性剂添加质量浓度与水合物生成速度之间的关系非常复杂。为获得活性剂的最佳使用参量,本文利用CI-GA-SVR基于已有的实验数据建立预测模型,以期得出最优解。
3.1 样本数据的获取和处理
从海洋中心获取表面活性剂烷基糖苷 (APG)对水合物生成诱导时间的20个数据,从中随机选取17组数据作为训练数据,其余3 组数据作为测试数据。在对CI-GASVR 模型进行预测前,首先将原始数据进行归一化处理,本文采用比例转换法,正向指标转换公式为x′ =(xxmin)/(xmax-xmin);逆向指标转换公式为x′ =(xmax-x)/(xmax-xmin)。将训练样本的APG 质量浓度作为输入,诱导时间作为目标变量,采用CI-GA-SVR模型进行自动回归预测,得到的各优化参数分别为:惩罚参数C=25.78、径向基核函数参数σ =35.24 和不敏感损失参数ε =0.1055。此模型对训练样本的输出值和实际值的拟合曲线如图5所示。
图5 CI-GA-SVR训练样本拟合曲线
3.2 测试样本的诱导时间预测
利用训练样本所得的最优参数建立的CI-GA-SVR 模型即可完成对测试样本的预测。为了比较CI-GA-SVR 方法的性能,同时还使用了传统SVR 和GA-SVR这2种模型进行了同样的预测,其中SVR 模型的参数经过反复试验由手工确定。GA-SVR模型由遗传算法来优化选择支持向量回归参数。表1列出了CI-GA-SVR、传统SVR、GA-SVR 这3种方法对气体水合物海水淡化诱导时间的预测结果。
表1 不同模型诱导时间预测值比较
从表1中可以看出,CI-GA-SVR 模型预测的相对误差最小,都在3%以下。GA-SVR 虽然解决了传统SVR 模型参数需要人工干预的问题,但是预测精度不及传统SVR。CI-GA-SVR在解决了传统SVR 这一问题的同时,预测精度也优于传统SVR。
4 结束语
基于复杂度指数的遗传优化支持向量回归模型CI-GASVR,在传统SVR 和遗传优化支持向量回归基础上进行了改进。与传统SVR 相比,CI-GA-SVR 模型克服了其不能自主运行,需要人工确定参数的问题,而且其回归预测的精度也比传统SVR 精度高。与GA-SVR相比,CI-GA-SVR模型利用复杂度指数初始化参数种群,使得其最优解收敛速度快,同时精度大大优于GA-SVR模型的求解结果。CIGA-SVR 的构建为确定气体水合物海水淡化工艺参数提供了一条计算机模拟求解的途径,减少了单纯依靠实验分析的盲目性并极大地降低了试验成本,取得了满意的模拟结果,具有很好的实用性。但在CI-GA-SVR 模型中,复杂度指数与支持向量回归参数之间的定量关系尚需进一步研究。
[1]Akili D Khawaji,Ibrahim K Kutubkhanah,Jong-Mihn Wie.Advances in seawater desalination technologies [J].Desalination,2008,221 (1):47-69.
[2]Toufic Mezher,Hassan Fath,Zeina Abbas,et al.Techno-economic assessment and environmental impacts of desalination technologies[J].Desalination,2011,266 (1):263-273.
[3]Wang Linjun,Zhang Xuemin,Li Honghui,et al.Theory research on desalination of brackish water using gas hydrate method[J].Advanced Materials Research,2013,616 (9):1202-1207.
[4]LIU Dongping,SHAN Ganlin,ZHANG Qilong,et al.Parameters optimization of support vector machine based on improved genetic algorithm [J].Microcomputer Applications,2010,31 (5):11-15 (in Chinese).[刘东平,单甘霖,张岐龙,等.基于改进遗传算法的支持向量机参数优化 [J].微计算机应用,2010,31 (5):11-15.]
[5]Lei Li,Yang Duan.A GA-based feature selection and parameters optimization for support vector regression [C]//Seventh International Conference on Natural Computation,2011:335-339.
[6]Zhao Mingyuan,Fu Chong,Ji Luping,et al.Feature selection and parameter optimization for support vector machines:A new approach based on genetic algorithm with feature chromosomes [J].Expert Systems with Applications,2011,38(5):5197-5204.
[7]HU Guosheng.Grid resources prediction based on genetic algo-rithm and support vector regression [D].Jilin:Jilin University,2010:1-39 (in Chinese).[胡国圣.基于遗传算法和支持向量回归的网格资源预测 [D].吉林:吉林大学,2010:1-39.]
[8]ZHU Shuxian,ZHANG Renjie.Research for selection of kernel functions used in support vector machine [J].Science Technology and Engineering,2008,8 (16):4513-4516 (in Chinese).[朱树先,张仁杰.支持向量机核函数选择的研究[J].科学技术与工程,2008,8 (16):4513-4516.]
[9]HE Tongdi,LI Jianwei,HUANG Hong,et al.A method for water quality remote retrieva based on support vector regression with parameters optimized by genetic algorithm [J].Opto-Electronic Engineering,2010,37 (8):127-133 (in Chinese).[何同弟,李见为,黄鸿.基于GA 优选参数的SVR 水质参数遥感反演方法 [J].光电工程,2010,37 (8):127-133.]
[10]Yuan F C.Parameters optimization using genetic algorithms in support vector regression for sales volume forecasting [J].Applied Mathematics,2012,3 (8):1480-1486.
[11]Atik Z,Windmeier C,Oellrich L R.Experimental and theoretical study on gas hydrate phase equilibria in seawater[J].Journal of Chemical & Engineering Data,2009,55 (2):804-807.