APP下载

加权多核支持向量回归机在水质预测中的应用

2016-12-23张书新马旭东陈慧颖

通化师范学院学报 2016年10期
关键词:训练样本向量水质

张书新,马旭东,陈慧颖,王 众

(长春工业大学 基础科学学院,吉林 长春 130012)



加权多核支持向量回归机在水质预测中的应用

张书新,马旭东,陈慧颖,王 众

(长春工业大学 基础科学学院,吉林 长春 130012)

文章提出了一种加权组合多核支持向量机的水质预测方法.在支持向量回归机中,核函数及其参数选择与样本复杂情况密切相关,采用单一核函数的支持向量回归机方法在水质预测中难以达到很好的效果.首先提出的多个不同类型核函数加权组合成的多核支持向量回归机,避免了核函数选择的盲目性和局部最优等非线性优化问题,其次针对各样本重要程度的差异,对于每一个样本的惩罚系数和误差限都给予不同的权重,即利用加权系数的多核支持向量回归机来控制样本异方差对回归预测结果的干扰制约.最后以辽河流域研究区内傍河型地下水水质信息数据作为研究对象,运用多核加权支持向量机的理论和算法建立了水质预测模型.实例表明,该方法对水质预测有较好的结果.

多核学习;加权支持向量机;预测模型

水是地球上的所有生物得以生存的基本物质条件之一,水资源是维持地球生态物质环境可持续发展的关键所在.因此准确地预测水资源的质量,是对水资源进行管理和污染控制的有效手段,也是进行水资源治理和合理开发利用的基础工作[1].

近年来,根据国内外专家学者对水质预测的研究成果,目前常用的水质预测方法有:数理统计预测方法[2],混沌理论预测法[3],神经网络模型预测法[4],水质模拟模型及灰色系统理论预测法[5].伴随着智能算法的兴起和发展,人工神经网络对水质预测方面的问题已取得了丰硕的成果,但也存在着不足,如神经网络遵循经验风险最小化原则,在训练样本时,往往会陷入局部极小点或过拟合学习的状况.因此,Vapnik 基于统计学习理论提出的新型机器学习方法——支持向量回归机[6].对于小样本,非线性、高维数和局部极小点等实际问题支持向量回归机有着很好地解决能力和较强的学习泛化能力,因此而成为了当前的研究热点之一.许多学者把支持向量机应用在各个方面的预测研究问题上,如于永庆将支持向量机应用于跳频序列研究中[7],戴初福等人建立了滑坡灾害空间预测的支持向量机模型[8].在水质预测方面,学者们也做了大量的探究工作[9-10].

本文在前人研究的基础上,针对地下水的特殊性,在传统的支持向量回归机的基础上,改进并建立加权多核支持向量回归机,并应用此模型进行水质浓度预测,并与传统的水质预测方法相比较,结果表明,此方法具有较好的预测能力.

1 传统支持向量机回归理论

支持向量回归机(SVR)是在统计学习理论的VC维理论和结构风险最小化原理的基础上建立的,凭借有限样本在学习精度(模型的复杂性)和学习能力(模型的推广性)之间探求最佳折中,以获得学习机的实际风险最小化.

给定训练样本集{(x1,y1),(x2,y2),…,(xl,yl)}⊂Rn×R,运用一非线性映射函数φ把普通样本空间映射到高维特征空间(Hilbert空间)之后再做线性回归,其实就是求解凸约束条件下的二次规划问题.考虑其允许误差ε的情况,引入松弛变量ξi或ζi及相应的惩罚系数C.

设回归函数f(x)=(ω·φ(x))+b,式中:ω为权值变量,b为偏置.于是,该问题求解的标准SVR模型为

(1)

根据最优化理论得到求解最优化问题:

(2)

式中:K(xi,xj)=(φ(xi)·φ(xj))是核函数.

(3)

2 加权多核支持向量回归机

考虑到数据分布复杂性,采用不同核函数的SVR模型得到的结果也会有很大不同.不存在无条件性能优越于其他核函数的核函数.因此采用全局型的多项式核函数和局部型的高斯径向基核函数的混合加权得到如下核函数

(4)

式中:多项式核函数K1=((xi·xj)+1)d,高斯径向基核函数K2=exp(-(xi-xj)2/2σ2).因为ρ≥0,K=ρK1+(1-ρ)K2为对称半正定矩阵,满足核函数条件,所以K为可行核函数.每个核函数矩阵Ki按下列算式进行标准化

(5)

综上得到求解二次约束下的二次优化问题

(6)

其中,c=tr(K).解出a和a*的值,可得到最优回归函数

(7)

3 应用实例

3.1 研究对象

本文以辽河流域研究区内傍河型地下水水质信息数据为研究对象.选用2000-2014年辽河流域傍河型地下水研究区内设第5号井所测氨氮浓度的15个监测数据作为训练样本和检验样本,如表1所示.由于支持向量机具有识别非线性问题能力的优点,这里使用加权多核支持向量机建立水质预测模型.

表1 2000-2014年研究区地下水#5所测的氨氮浓度信息资料(mg/L)

3.2 水质预测的加权多核支持向量机模型

首先将监测数据按下式进行归一化处理至区间[0, 1]内

式中:xmax,xmin分别是监测数据中的最大值和最小值.

选用不同惩罚函数C和参数σ,ε,ρ,使用网格优化算法计算参数,得到C=500,σ2=128,ε=0.01,ρ=0.5时,对样本产生的误差相对较小,模型的预测精度较高.

3.3 数据拟合

本文使用MATLAB软件中的Libsvm包建立加权多核SVR预测模型,取k=7,确定训练样本为8个.加权多核SVR模型与SVR模型的预测结果如表2所示.

表2 加权多核SVR模型与SVR模型的预测结果

从表2可以看出,改进的SVR预测模型的平均相对误差是3.11%,而传统的SVR预测模型的平均相对误差是9.89%,BP神经网络的平均相对误差是12.60%,相比较而言,改进的SVR预测模型的预测精度更高,更接近实测值,具有更强的学习能力,应用于水质预测的评价中具有广阔的前景.

图1 改进SVR模型、传统SVR模型和BP神经网络预测值与实际值的拟合

从图1可以看出,改进的SVR预测模型整体上远远优于传统SVR预测模型.在有限样本情况下,通过对SVR的核函数及控制异方差两方面的改进,可以看出改进的SVR预测模型的回归函数更平滑,拟合度更高,从而提高了模型的泛化应用能力.

4 结论

本文在研究SVR理论的基础上,提出一种基于改进的SVR的预测模型,并将其应用于辽河流域傍河型地下水水质预测的问题中.结果表明,改进的SVR预测模型的训练样本的拟合精度及预测精度均较高,具有很好的学习、泛化能力.与传统的SVR预测模型和BP神经网络相比较而言,本文提出的改进的SVR预测模型,其拟合精度及预测精度更具优势.另外本文中的水质样本数据采集的时间跨度较大,采用改进的SVR的预测模型,能获得更充分合理的数据信息,从而提高了处理此类问题的性能.

[1]Huang G H, Xia J. Barriers to sustainable water-quality management[J].Journal of Environmental Management, 2001, 61(1):1-23.

[2]Sun Z B, Wang B L, Hai-Feng J I et al. Water quality prediction based on probability-combination[J].china Environmental Science,2011,31(10):1657-1662.

[3]徐敏,曾光明,苏小康.混沌理论在水质预测中的应用初探[J].环境科学与技术, 2004, 27(1):51-54.

[4]树锦. 基于人工神经网络方法的水质预测初探[J].环境科学与管理, 2006, 31(1):44-46.

[5]黄廷林,卢金锁,韩宏大,等.地表水源水质预测方法研究[J].西安建筑科技大学学报, 2004, 36(2):134-137.

[6]Vapnik V N. The Nature of Statistical Learning Theory[M]. New York:Springer, 2000.

[7]余永庆.多核支持向量机在跳频预测中的应用研究[D].兰州:兰州大学,2014.

[8]戴福初,姚鑫,谭国焕.滑坡灾害空间预测支持向量机模型及其应用[J].地学前缘, 2007, 14(6):153-159.

[9]梁雪春,龚艳冰,肖迪.一种多核加权支持向量机的水质预测方法[J].东南大学学报, 2011, 41(9):14-17.

[10]夏琼,钱家忠,陈舟.基于支持向量机的淮南市浅层地下水水质评价[J].水文地质工程地质,2009, 36(1):56-59.

(责任编辑:陈衍峰)

Application of Weighted Multi-kernel Support Vector Regression in Water Quality Prediction

ZHANG Shu-xin, MA Xu-dong, CHEN Hui-ying, WANG Zhong

(CollegeofBasicScience,ChangchunUniversityofTechnology,Changchun,Jilin, 130012,China)

A method of water quality prediction for weighted combined multi-kernel support vector machine (SVM) is proposed. In a support vector regression machine, kernel function and its parameter selection are closely related to the complexity of the sample. Experimental results show that the method has good results for water quality prediction.

Multi-kernel Learning; Weighted Support Vector Machine; Prediction Model

2015-10-12

国家自然科学基金项目“基于三维随机模拟的傍河型水源地污染物迁移转化规律研究”(51278065)

张书新,山西柳林人,长春工业大学基础科学学院在读硕士.

O242

A

1008-7974(2016)05-0027-03

10.13877/j.cnki.cn22-1284.2016.10.009

猜你喜欢

训练样本向量水质
向量的分解
聚焦“向量与三角”创新题
人工智能
关于水质监测对环境保护的意义
一月冬棚养虾常见水质浑浊,要如何解决?这9大原因及处理方法你要知晓
这条鱼供不应求!虾蟹养殖户、垂钓者的最爱,不用投喂,还能净化水质
图像识别在水质检测中的应用
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
向量垂直在解析几何中的应用