APP下载

一种紫外-可见光谱检测水质COD预测模型优化方法

2015-11-18赵敬晓蒋上海罗继阳VoQuangSang米德伶

中国环境科学 2015年2期
关键词:降维光谱向量

汤 斌,赵敬晓,魏 彪,蒋上海,罗继阳,Vo Quang Sang ,冯 鹏,米德伶

(重庆大学光电技术及系统教育部重点实验室,重庆 400044)

一种紫外-可见光谱检测水质COD预测模型优化方法

汤 斌,赵敬晓,魏 彪*,蒋上海,罗继阳,Vo Quang Sang ,冯 鹏,米德伶

(重庆大学光电技术及系统教育部重点实验室,重庆 400044)

针对紫外-可见光谱法检测水质COD预测模型的精度低和收敛速度慢等问题,研究了一种基于粒子群算法联合最小二乘支持向量机(PSO_LSSVM)的水质检测COD预测模型优化方法,并引入主元分析(PCA)算法对模型输入光谱数据进行降维预处理,借以提高模型的收敛速度.结果表明,利用粒子群(PSO)算法收敛速度快和全局优化能力,优化了最小二乘支持向量机(LSSVM)模型的惩罚因子和核函数参数,避免了人为选择参数的盲目性,克服了传统LSSVM预测模型的精度较低、稳健性较差等缺点.通过以收敛时间、预测平均相对误差(MRE)和均方根误差(RMSE)为评价标准进行评估,输入样本经过PCA降维预处理的PSO_LSSVM模型的预测能力和输入样本未经过降维预处理的LSSVM模型与PSO_LSSVM模型进行了比较分析,输入样本经过PCA降维预处理的PSO_LSSVM模型预测效果最优,且此算法使用C语言实现,易于移植,这为紫外-可见光谱水质COD在线、实时性检测奠定了基础.

水质COD;紫外-可见光谱法;预测模型;PCA;PSO_LSSVM

COD是反映水体受还原性物质污染的程度,它既是衡量水质状况的最重要参数之一,也是水质监测中的必测项目[1].传统的化学法检测水质COD因其需要使用大量试剂而存在二次污染、周期长等缺点,以致不适于水质监测的实时性要求.于是,可实现在线、原位测量水质COD的紫外-可见光谱法受到广泛关注,发展前景良好[2].

本质上,采用紫外-可见光谱法实现在线、原位的水质COD检测,即是构建基于紫外-可见光谱法的水质COD预测模型,它是通过建立水样的紫外-可见光谱数据与水质COD之间的数学模型,以此模型为基础,依据新水样的光谱数据借以预测其相应的水质COD.因此,水质COD模型的预测精度取决于建模方法[3].

目前,代表性的建模方法有:偏最小二乘、主成分回归、最小二乘和最小二乘支持向量机(LSSVM)算法等.俞禄等[3]在比较几种建模方法的应用研究中得出,LSSVM模型的预测精度较高.然而,若直接将LSSVM算法用于建模,则在实际工程应用过程中就不可避免地出现泛化能力和稳健性较差等问题[4].其原因是:采用LSSVM模型进行预测时,其预测能力主要依赖于惩罚因子γ和核函数σ参数.因此,确定合适的参数γ和σ则是要解决的关键问题.姚全珠等[5]提出基于粒子群优化算法(PSO)的LSSVM特征选择与参数优化算法,证明了使用PSO优化LSSVM参数的有效性.但是,将PSO算法联合LSSVM用于光谱法水质COD检测的预测模型中,目前鲜见有文献报道.有鉴于此,本文研究了一种基于粒子群优化联合最小二乘支持向量机(PSO_LSSVM)的检测水质COD建模方法.利用PSO算法收敛速度快、精度高和全局优化能力的优点,可使LSSVM模型的惩罚因子γ和核函数σ参数达到最佳值,以此提高LSSVM模型的预测精度.此外,采用主元分析(PCA)算法对模型输入光谱数据进行降维预处理[6],从高维光谱数据中提取能够综合反映水质COD的相互独立的光谱数据,借以加快模型收敛速度和降低计算复杂度.

1 原理及方法

1.1 主成分分析算法(PCA)

通常情况,高维数据包含大量冗余、隐藏重要关系的相关性,导致计算工作量增加以及影响决策有效性与可靠性.PCA降维目的,是将多变量的复杂问题简化为少变量的简单问题,步骤如下[7]:①将M个N维样本,组成样本矩阵,进行数据标准化;②计算样本矩阵相关系数矩阵;③计算相关系数矩阵的特征向量及其对应的特征值;④计算特征值贡献率,确定主成分.

1.2 最小二乘支持向量机算法(LSSVM)

LSSVM原理[8]可表述为:对于给定的样本集为n维输入向量,yi为一维输出向量,n为样本数.LSSVM构造如下最小化目标函数及其约束条件:

式(1)中,ω∈Rn为权向量;γ为正规化参数;ek为误差变量;φ( χk)是将输入向量映射到高维特征空间的函数;b∈R为偏置参数.于是,相应的Lagrange函数为:

式(2)中,αk为Lagrange乘子.通过KKT最优条件,可将(2)式转化为如下线性方程组:

利用最小二乘算法求解式(3)线性方程组,即得α和b值,由此,得到预测模型的决策函数:

由以上推导过程可知,通过采用最小二乘价值函数和等式约束,可以将求解的优化问题转化成线性方程.此外,采用径向基核函数的LSSVM,仅需确定γ,σ两个参数,大大减少算法的复杂性.

1.3 粒子群优化算法(PSO)

PSO算法[10]中,每个优化问题的潜在解都是搜索空间中的一只鸟,称之为粒子,每个粒子都有位置、飞行速度、飞行方向和飞行步长.PSO算法首先初始化一群随机粒子,通过多次迭代搜索最优解.在每一次迭代中,粒子通过跟踪两个"极值"来更新自己下一次迭代的位置和飞行速度:第一个,就是粒子本身所找到的最优解,即个体极值;另一个,极值是所有粒子目前找到的最优解,即全局极值.算法描述如下:

在一个D维解的目标搜索空间,有N个粒子组成一个群体,假设第i个粒子的位置向量为χi=(χi1,χi2,…,χiD),速度向量为vi=(vi1,vi 2,…,viD),根据各粒子的适应度值来评价其优劣,并找到当前时刻的个体极值pi=(pi1,pi2,…,piD)和全局极值pg=(pg1,pg2,…,pgD).对于第t次迭代,其第d维(1≤d≤D)根据下列方程更新:

式(5)中,r1和r2为[0,1]之间的随机数;c1和c2为学习因子;w为惯性权重.在每一维,粒子都有一个最大限制速度Vmax,如果某一维的速度超过设定的Vmax,那么,这一维的速度就等于Vmax.

图1 PSO_LSSVM算法流程示意Fig.1 Flow Chart of PSO_LSSVM Algorithm

在PSO算法中,惯性权重w选择很关键,较大的有较好的全局搜索能力,而较小的有较强的局部搜索能力,以此其值应随着迭代次数的增加而减小,从而调整算法的搜素能力,以达到优化目的[11].一般定义为:

式(6)中,tmax为总的迭代次数,t为当前迭代次数,wmax、wmin分别为最大和最小权重因子.

1.4 粒子群算法联合最小二乘支持向量机(PSO-LSSVM)的参数优化

2 实验结果与分析

2.1 实验材料

实验中,水样样本共54组,取自于某市的河流地表水、生活污水和工业废水.光源为氘-卤钨灯,光谱仪为OceanOptics公司的Maya2000紫外-可见光谱仪,每条光谱数据点为2048个.本实验中,每条光谱数据对应COD值,采用GB11914-89《重铬酸盐法水质化学需氧量的测定》[12]方法测量.

2.2 结果与讨论

2.2.1 PCA降维结果 首先,对获得的光谱数据进行去噪、浊度校正处理;然后,采用PCA算法对构成的输入样本矩阵进行冗余信息剔除.分析结果,如表1所示(由于篇幅有限,图中仅列出前8个特征值及其贡献率和累计贡献率).从表1可以看到,第一主成分获得全部变化方差的50.1%,第一主成分获取全部变化方差的26.16%,前7个主成分的累计贡献率已到达95.43%,足以代替原始因子所代表的全部信息.通过进一步变换,可以得到7个主成分与54个样本间的相关矩阵[13],即预测模型新样本矩阵,如表2所示.

2.2.2 预测模型精度分析 针对54组实验样本,随机选取40组作为模型训练样本模, 14组作为预测样本.本文PSO算法的参数设置为:粒子群算法种群规模N=100,r1, r2属于[0,1], c1=c2= 1.8,D=2,最大迭代次数tmax=1000,wmax=0.94,wmin=0.4.算法采用标准C语言实现,使用VC++ 6.0软件工具,缺省编译器优化选型进行编译.最终得到的优化参数是:C=268.354,σ=10.489.输入样本未经过降维预处理的LSSVM模型、PSO_LSSVM模型预测结果拟合图,分别如图2、图3所示,简称为LSSVM模型、PSO_LSSVM模型.输入样本经过PCA降维预处理的PSO_LSSVM模型的预测结果拟合图,如图4所示,称之为PCA_PSO_LSSVM模型.

表1 特征值及主成分贡献率Table 1 Eigenvalues and principal component contribution rate

表2 主成分矩阵Table 2 Principal components analysis matrix

图2 LSSVM模型预测值与实际值比较曲线Fig.2 Comparison between the predicted value by LSSVM and the measured value by chemical method

从图2~图4可得, LSSVM模型参数经过PSO优化之后,模型预测结果拟合精度得到大大提高;与PSO_LSSVM模型相比较,PCA_PSO_ LSSVM模型预测结果,虽然拟合精度整体上提升不大,但是第9、10 这2个样本点,其拟合精度得到提高.

图3 PSO_LSSVM模型预测值与实际值比较曲线Fig.3 Comparison between the predicted value by PSO_LSSVM and the measured value by chemical meth

以收敛时间、预测平均相对误差(MRE)和均方根误差(RMSE)为评价标准,进一步对比以上3个模型的预测性能.由表3可得,相对传统的LSSVM模型,PSO_LSSVM模型的MRE、RMSE提升幅度分别为71.21%和48.36%,模型精度明显得到提高;相对PSO-LSSVM模型,PCAPSO-LSSVM 模型预测精度虽没有明显优势,其收敛速度大大加快,使用时间仅为9s,远少于PCA-PSO-SSVM的用时96s.此外,通过统计分析,PCA-PSO-LSSVM模型中,最大相对误差仅为5.83%,基本可以实现水质COD的在线、实时性检测.

图4 PCA_PSO_LSSVM模型预测值与实际值比较曲线Fig.4 Comparison between the predicted value by PCA_PSO_LSSVM and the measured value by chemical method

表3 模型预测效果评价Table 3 Evaluation table of model predictions

3 结语

本文研究了一种基于粒子群算法联合最小二乘支持向量机(PSO_LSSVM)预测水质COD模型的优化方法,进而通过引入PCA算法对模型输入光谱数据进行降维预处理以提高模型的收敛速度.研究结果表明,基于PSO算法联合LSSVM优化模型参数,克服了LSSVM模型的精度较低、泛化能力和稳健性较差等缺点,较之于传统的LSSVM模型,其MRE 、RMSE提升幅度分别为71.21%和48.36%,模型精度明显得到提高;PCA算法的引入,收敛时间由96s降为9s,节约90s,大大加速了PSO_LSSVM预测模型的收敛速度.

[1]刘子毓.紫外法水质COD检测的理论与实验研究 [D]. 天津:天津大学, 2010.

[2]Liu Ziyu. Theoretical and experimental studies on the measurement of COD in water using ultraviolet spectrum method[D]. Tianjin: Univ. of Tianjin, 2010.

[3]李玉春.基于紫外可见光谱的水下多参数水质检测技术研究[D]. 天津:天津大学, 2011.

[4]Li Yuchun. Research on the submersible muli-prameter water quality monitoring technology based on UV-visible spectra [D]. Tianjin: Univ. of Tianjin, 2011.

[5]俞 禄,王雪洁,明 倩,等.几种建模方法在光谱水质分析中的应用和比较 [C]//中国自动化学会控制理论专业委员会b卷,2011:5227-5230.

[6]Yu Lu, Wang XueJie, Ming Qian, et al. Application and comparison of several modeling methods in spectral based water quality analysis [C]//Control Conference (CCC), 2011 30th Chinese. IEEE, 2011:5227-5230.

[7]龙 文,焦建军,龙祖强.基于PSO优化LSSVM的未知模型混沌系统控制 [J]. 物理学报, 2011,60(11):112-117.

[8]Long Wen, Jiao JianJun, Long ZuQiang. Control of chaos solely based on PSO-LSSVM without using an analytical mod [J]. Acta Physica Sinica, 2011,60(11):112-117.

[9]姚全珠,蔡 婕.基于PSO的LS-SVM特征选择与参数优化算法 [J]. 计算机工程与应用, 2010,(1):134-136.

[10]Yao Quanzhu, Can Jie. Feature selection and LSSVM parameters optimization algorithm based on PSO. Computer Engineering and Applications, 2010,46(1):134-136.

[11]吴元清,杜树新,严 赟.水体有机污染物浓度检测中的紫外光谱分析方法 [J]. 光谱学与光谱分析, 2011,31(1):233-237.

[12]Wu Yuanqing, Du Shuxin, Yan Yun. Ultraviolet spectrum analysis methods for detecting the concentration of organic pollutants in Water [J]. Spectroscopy and Spectral Analysis, 2011,31(1):233-237.

[13]魏远隆,尹昌海,陈贵平,等.近红外光谱结合主成分分析鉴别不同产地的南丰蜜桔 [J]. 光谱学与光谱分析, 2013,33(11):3024-3027.

[14]Huang J, Zhang W. Identification of nanfeng mandarin from different origins by using near infrared spectroscopy coupled withprincipal components analysis [J]. Spectroscopy and Spectral Analysis, 2013,33(11):3024-3027.

[15]徐丽莎,钱晓山.基于变异CPSO算法的LSSVM出水COD的软测量研究 [J]. 环境工程学报, 2012,5:011.

[16]Xu Lisha, Qian Xiaoshan. Soft sensor study of effluent COD based on mutant CPSO and LSSVM [J]. Chinese Journal of Environmental Engineering, 2012,5:011.

[17]周秀军,戴连奎.基于最小二乘支持向量机的橄榄油掺杂拉曼快速鉴别方法 [J]. 光散射学报, 2013,25(2):176-182.

[18]Zhou Xiujun, Dai Liankui. Fast discrimination of olive oil adulteration based on raman spectra using least squares support vector machine [J]. The Journal of Light Scattering, 2013,25(2):176-182.

[19]杨 维,李歧强.粒子群优化算法综述 [J]. 中国工程科学,2004,6(5):87-94.

[20]Wei Y, Qiqiang L. Survey on particle swarm optimization algorithm [J]. Engineering Science, 2004,5(5):87-94.

[21]徐松金,龙 文.基于粒子群优化最小二乘向量机的地震预测模型 [J]. 西北地震学报, 2012,34(3):220-223.

[22]Xu Songjin, Long Wen. Earthquake forecast model based on the partical swarm optimization algorithm used in LSSVM [J]. Northwestern Seismological Jouranl, 2012,34(3):220-223.

[23]顾 建,赵友全,郭 翼,等.一种投入式光谱法紫外水质监测系统 [J]. 安全与环境学报, 2012,12(6):98-102.

[24]Gu Jian, Zhao Youquan, Guo Yi, et al. On submersible water-quality monitoring systems based on spectral ultraviolet method [J]. Journal of Safety and Environment, 2012,6:022.

[25]方红卫,孙世群,朱雨龙,等.主成分分析法在水质评价中的应用及分析 [J]. 环境科学与管理, 2009,34(12):152-154.

[26]Fang Hongwei, Sun Shiqun, Zhu Yulong. Principal component analysis apply in water quality assessment [J]. Environmental Science and Management, 2009,34(12):152-154.

致谢:实验的由四川碧朗科技的化学工程师协助完成,在此表示感谢.

A method of optimizing the prediction model for the determination of water COD by using UV-visible spectroscopy.

TANG Bin, ZHAO Jing-xiao, WEI Biao*, JING Shang-hai, LUO Ji-yang, VO Quang Sang, FENG Peng, MI De-ling
(Key Laboratory of Optoelectronic Technology and Systems, Ministry of Education, Chongqing University, Chongqing 400044,China).

China Environmental Science, 2015,35(2):478~483

There are some problems in the prediction model of the determination of water COD by using UV-visible spectroscopy, such as low precision and slow convergence speed. This paper studied an optimization method based on particle swarm optimization algorithm in combination with least squares support vector machine algorithm, and introduced the principal component analysis (PCA) algorithm to reduce the dimension of the input data in order to improve the convergence speed of the model. PSO had the ability of fast convergence speed and global optimization. The penalty factor and the kernel function parameter of the traditional LSSVM model had been optimized by PSO to overcome the blindness of selecting parameters manually and disadvantages of LSSVM prediction model of low precision, poor robustness. LSSVM model and PSO_LSSVM model had been established, which the dimensionality of input data had not been reduced. PSO_LSSVM prediction model had been established, which the dimensionality of input data had been reduced by PCA. Comparisons were conducted by computing the evaluation standard of the convergence time, average relative prediction error (MRE) and root mean square error (RMSE), and result were that the prediction ability of PSO_LSSVM model which using PCA superior than other two. The algorithm of the model were achieved by C language which more easy to transplant, and laid the foundation for real-time, online determination of Water COD by using UV -visible spectroscopy.

water quality COD;UV-Vis spectroscopy;prediction model;PCA;PSO_LSSVM

X703

A

1000-6923(2015)02-0478-06

汤 斌(1985-),男,重庆人,重庆大学博士研究生,主要研究方向为光电检测与成像技术.发表论文12篇.

2014-06-12

四川省科技支撑计划项目(2012SZ0111)

* 责任作者, 教授, weibiao@cqu.edu.cn

猜你喜欢

降维光谱向量
基于三维Saab变换的高光谱图像压缩方法
混动成为降维打击的实力 东风风神皓极
向量的分解
高光谱遥感成像技术的发展与展望
聚焦“向量与三角”创新题
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
向量垂直在解析几何中的应用
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
向量五种“变身” 玩转圆锥曲线