APP下载

基于支持向量机的水质评估模型研究

2022-01-04邓伟萍桂超汪波石黎关培超

软件工程 2022年1期
关键词:支持向量机

邓伟萍 桂超 汪波 石黎 关培超

摘  要:针对水质评估因子的模糊性和非线性特征,且水质样本小类(如高污染水质类)因样本量少而容易导致误分的问题,深入研究了支持向量机(SVM)这一善于解决非线性问题的智能模型,设计了一种多宽度复合高斯核的支持向量机模型。该模型通过多个复合高斯核扩大和控制核函数宽度,以此扩大样本间欧氏距离与差异,以解决小类的误分问题。运用MATLAB平台对2017 年全国98 个重点断面水质周报数据进行算法对比实验,结果证实多宽度核评估模型较好地提升了SVM的分类精度,对水质分类问题是可行有效的,对其他小样本分类问题也有一定的借鉴作用。

关键词:水质评估;多宽度高斯核; 支持向量机;参数寻优

中图分类号:TP391.4     文献标识码:A

文章编号:2096-1472(2022)-01-47-03

Abstract: In view of the ambiguity and non-linear characteristics of water quality assessment factors, and the problem of small water quality samples (such as high-polluted water quality) that are easy to cause misclassification due to the small sample size, support vector machine (SVM), a smart model which is good at for solving nonlinear problems, is deeply studied. This paper proposes to design a support vector machine model with a multi-width compound Gaussian kernel. The proposed model expands and controls the width of the kernel function through multiple compound Gaussian kernels to expand the Euclidean distance and difference between samples, so that the problem of misclassification of small classes can be solved. The MATLAB platform is used to conduct algorithm comparison experiments on the water quality weekly report data of 98 key sections across China in 2017. The results prove that the multi-width kernel assessment model improves the classification accuracy of SVM, which is feasible and effective for water quality classification problems. It also provides a reference for problems of other small sample classification.

Keywords: water quality assessment; multi-width Gaussian kernel; support vector machine; parameter optimization

1   引言(Introduction)

隨着经济的高速发展,我国的水资源污染状况也愈发严峻,局部地区的水质恶化事件时有发生。因此,实时监测和评估地表水的质量与变化,将为环境决策、工农业生产服务提供依据,是防止污染与合理利用水资源的基础[1]。水质评估分单因子评估与多因子评估,在没有突发水污染事件的情况下,对断面进行长期监测与评估时一般采用多因子评估方法。

鉴于水质评估中各评估因子的模糊不确定性和非线性特征,有学者采用智能计算方法进行水质评估。陈海洋等人[2]通过构建多个子分类器的决策树支持向量机模型评估水质的多分类问题;马创等人[3]使用遗传算法与支持向量机建立自适应权重水质预测模型;方国华等人[4]采用粒子群算法,计算水量与水质联合配置模型;石晴宜等人[5]采用模糊神经网络计算洪泽湖入湖水质等问题;XIA等人[6]采用粒子群、蜂群、支持向量机等多种混合优化算法评定水质富营养化分级。上述方法解决了水质评估的多分类问题,也对参数寻优的过程进行了优化,但对分类过程中的小样本类别的误分问题没有侧重考虑,本文决定对支持向量机(Support Vector Machine, SVM)中的核函数进行改进,重点解决多因子分类中小样本训练不够易误分的问题。

2   支持向量机(Support Vector Machine)

支持向量机分类模型的原理是通过核函数将样本点映射到多维特征空间,通过构造最优分类超平面,使得超平面与不同类样本集之间的距离最大,从而达到最大的泛化能力。

SVM标准算法中,设有训练样本集为,

与分别表示两类不同的样本;样本集可被一超平面,即没有错误地分开,对任意一个训练样本都有:

使分类间隔最大的分类面称为最优分类超平面,寻找过程转化为求如下一个二次规划问题:,满足约束条件(1)。采用LaGrange转换,将二次规划问题转为如下一个对偶问题:

称为核函数,将高维特征空间中内积运算转化为低维模式空间上一个简单的函数计算。核函数中以高斯核函数(Radial Basis Function, RBF)运用最广泛:

其中,为高斯分布的宽度。

3  多宽度高斯核支持向量机(Multi-width Gaussian kernel Support Vector Machine)

高斯核支持向量机中可调的参数仅有核宽度,样本映射到特征空间后其分布是不均匀的,容易导致支持向量机模型在样本集中的区域产生过学习现象,而在样本稀疏区又学习不足,从而产生错分问题或陷入局部最优解现象。针对此类问题,多宽度高斯核被提出[7],其核函数是一种复合函数,形式如下:

通过二项式定理展开后:

形成一种复合核函数,是由一系列不同宽度的高斯核构成,每个核的宽度为,影响单个高斯核的空间收放程度。文献[8]阐述了当时,二项式展开式的前面若干个高斯核将被放大,影响程度高,权重加大;反之,当时,二项式展开式的后面若干个高斯核将被放大,权重加大。

多个不同宽度的高斯核累加在一起,通过多参数调节,能解决其可调参数单一容易导致的过学习问题,提高单一高斯核函数的抗干扰性和泛化能力;常量因子将点集之间的矢量距离放大了,这也将扩大样本点映射在特征空间的差异,从而提高分类器的效率[9]。

多宽度核的参数增加,给参数寻优增加了困难[10]。现讨论参数对核函数的影响,对式(5)做简化处理:

当时,是普通的高斯核;增大,核宽度明显缩小,有利于函数收敛;当增大时,等同于增大,核宽度缩小;当时,核函数径向作用范围被显著拉伸,加大样本在特征空间的距离差异,有利于分类,三个参数需要结合样本进行协调[11]。

4   实例验证(Example verification)

本文以全国主要流域重点断面水质自动检测周报[12]作为数据源,选取了2017 年第1 周、第8 周、第31 周、第44 周不同时期的水质监测数据。以PH值、溶解氧(DO)、高锰酸盐指数(CODMn)与氨氮(NH3-N)四项因子作为水质评估指标。2017 年有效断面监测点为98 个,包括长江、黄河、淮河、松花江、太湖、辽河、海河等主要江河流域和重要湖泊,取58 个样本作为训练集进行SVM模型的训练,另外取40 个样本作为测试集进行预测。表1列出了中华人民共和国国家地表水环境质量标准(GB3838—2002)提供的指标限值标准。

本文以LIBSVM软件包为开发工具,在MATLAB 2016平台上分别对水质样本做了比较试验,对比研究了不同样本集、不同参数下多宽度高斯核与标准高斯核的分类结果。以2017 年第31 周水质样本为例,阐述实验结果:参数组如表2所示,参数对应式(7)中的和惩罚因子,令,为突出比较其他主要参数,表2中统一设。多宽度高斯核分类准确率对比如表3所示。多宽度高斯核与标准高斯核(RBF)的最优预测结果如图1、图2所示,反映一类至五类及劣五类共六个水质等级,符号○表示Labels,代表实际水质评估结果;符号*与分别表示多宽度高斯核与标准高斯核的预测值。

从实验结果可以看出,参数d放大高斯核径向作用的范围,拉大了样本距离,对高斯影响最大,直接影响精度。对比参数组Ⅱ与Ⅴ、Ⅲ与Ⅵ,在相同的情况下,d增大,准确率均有提高。决定高斯核的宽度,对比参数组Ⅰ、Ⅴ、Ⅵ,在d相同的情况下,增大,核宽度缩小,有利于加快收敛,快速找到最优解。但和d增长到一定程度,精度将不再提高,如参数组Ⅱ、Ⅲ、Ⅳ,提高将导致过学习状态产生。

现讨论多宽度核的特例情况,令,多宽度核转变为标准高斯核,其可调节参数为c和,调节参数后经实验演算,得到如图2所示的最优解。

对比图1、图2中相同40 个预测样本在不同方法下的最优预测结果可以发现,多宽度高斯核评估结果更吻合实际评估值,其分类精度要优于标准高斯核(RBF),特别是在易错分的四、五、六等小类上分类精度也有所提高。

5   结论(Conclusion)

分析水质评估问题的特点后,引入多宽度高斯核SVM方法进行水质评估。多宽度高斯核是一種复合核函数,较之标准高斯核,其通过拉大样本在特征空间的欧式距离来降低误分率。该模型对弱特征类别、小样本分类非常有利,能较好地解决水质分类中局部高污染点这种小样本类的错分问题。

通过比较多组实验数据,分析了不同参数对核函数分类性能、收敛速度和泛化能力的影响,为合理寻找最优核函数提供依据,并阐述多宽度高斯核的收敛速度略落后于标准高斯核,但是其分类性能、泛化能力要优于标准高斯核。

经实验研究证实,该综合模型对水质评估是高效可行的,为合理选择水源,充分利用和管理水资源提供了重要依据。

参考文献(References)

[1] 郭彦英,邓云峰.AHP法在地表水水质综合评估指标权重确定中的应用[J].兰州交通大学学报(自然科学版),2006(6):70-72.

[2] 陈海洋,滕彦国,王金生.改进的决策树支持向量机地下水水质评估[J].计算机应用,2011(3):848-850.

[3] 马创,王尧,李林峰.基于遗传算法与支持向量机的水质预测模型[J].重庆大学学报,2021,44(07):108-114.

[4] 方国华,王雪,方应学,等.基于改进粒子群算法的区域水量水质联合配置研究[J].水资源保护,2021(10):1-15.

[5] 石晴宜,董增川,罗赟,等.基于机器学习方法的洪泽湖入湖水质评估及预测研究[J].中国农村水利水电,2021(10):1-14.

[6] XIA J J, ZENG J. Environmental factor assisted chlorophyll—a prediction and water quality eutrophication grade classification: A comparative analysis of multiple hybrid models based on a SVM[J]. Environmental Science: Water Research and Technology, 2021,7(6):1040-1049.

[7] 田径,赵犁丰,赵宇倩.一种基于WGKMW的网络结构核函数框架[J].中国海洋大学学报,2009(9):471-474.

[8] 常群,王晓龙,林沂蒙,等.支持向量分类和多宽度高斯核[J].电子学报,2007(3):484-487.

[9] 汪廷华,赵东岩,张琼.多类核极化及其在多宽度RBF核参数选择中的应用[J].北京大学学报(自然科学版),2012,48(05):727-731.

[10] 罗浪.基于多宽度高斯核的支持向量机参数优化与特征选择算法研究[D].武汉:中南民族大学,2018.

[11] 邓伟萍.基于智能算法的洪灾综合评估模型研究[D].武汉:华中科技大学,2013.

[12] 中国环境监测总站.水质自动监测周报[EB/OL]. (2017-01-09)[2017-11-03]. http://www.cnemc.cn/sssj/szzdjczb/201712/t20171211_660224.shtml.

作者简介:

邓伟萍(1979-),女,博士,副教授.研究领域:机器学习,智能评估与预测.

桂  超(1966-),男,硕士,教授.研究领域:智能计算,网络编码.

汪   波(1977-),男,硕士,副教授.研究领域:计算机系统结构.

石   黎(1980-),女,博士,副教授.研究领域:机器学习,决策与决策支持.

关培超(1977-),男,博士,讲师.研究领域:软件工程,空间信息共享与集成.

猜你喜欢

支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究