APP下载

支持向量回归水质预测模型的研究进展

2021-11-27

绿色科技 2021年8期
关键词:离线向量水质

孟 滔

(四川大学锦城学院 智能制造学院,四川 成都 611731)

1 引言

近些年来,国家对于农村饮水安全越来越重视。国家水利部在“十二五”规划上,提出将农村饮水安全作为重点项目,用于解决贫困地区农村饮水安全问题,“十三五”期间,我国将重点解决小型供水工程保障程度不高、水质合格率偏低、长效运行管护机制不完善等问题,让广大农村居民喝上更加稳定、安全和方便的水。为了解决农村饮水安全的问题,就需要对农村自来水厂的原水和出厂水进行监测,但由于农村自来水厂规模小,处理原水能力有限,所以仅仅进行监测是远远不够的,需要对原水水质进行预测,这样才能保证出厂水质能够达标,保障饮水安全。

目前用于水质预测的方法主要有:Streeter-Phelps模型预测法[1]、灰色理论模型预测法[2]、回归预测模型预测法[3]、人工神经网络模型预测法[4]。其中回归预测模型预测法中的支持向量回归(Support Vector Regress, SVR)由于需要的样本少、泛化性好,比其他预测方法更适用于农村自来水厂原水水质预测。

2 SVR水质预测模型

支持向量回归SVR属于机器学习中的监督学习,具有泛化性能优异、全局收敛、对样本维数不敏感、不依赖经验等优点,被广泛应用于多个领域。SVR是基于Corters和Vapnik等人[5]于1995年提出的一种新的机器学习方法-支持向量机(support vector machines, SVM)发展而来,具有完善的数学理论和推导过程。目前基于SVR的水质预测模型主要有两种形式,一种是离线SVR水质预测模型,另一种是在线SVR水质预测模型。离线SVR水质预测模型在有新的水质数据进入后,需要重新建立水质预测模型。随着时间的推移数据量逐渐增加,当数据越来越大时,以前建立的水质预测模型就需要进行重新建模,此时数据量巨大,需要的训练时间就会很长,效率低下。而在线SVR水质预测模型可以进行在线学习,适用于在线水质预测这种情况。总体来说,离线SVR水质预测模型适用于短期水质预测,而在线SVR水质预测模型可适用于中长期水质预测。

3 离线SVR水质预测模型的研究

SVR预测模型适用于时间序列的预测研究,其惩罚参数C、核参数g、核函数等对于其建立的预测模型性能都有直接的影响。惩罚参数C是对错分样本比例和算法复杂度的折衷,反映的是预测模型的泛化程度。惩罚参数C在一定范围内越大,其预测精度越高,但当超过一定的范围就会出现过学习的现象。核参数g是反映映射到高维空间的复杂程度,g过大也会存在过学习或欠学习现象。核函数的作用是将数据从低维空间向高维空间进行映射,将在低维空间无法解决的问题在高维空间解决,合理的选择核函数是SVR预测性能的保障。SVR水质预测模型的原始输入数据也是影响其性能的关键点,因为原始输入数据的改变将会直接改变惩罚参数C、核参数g的值,对建立的SVR水质预测模型性能有间接的影响。

3.1 离线SVR水质预测模型参数寻优的研究

惩罚参数C、核参数g是建立SVR水质预测模型的关键。但目前对于该组参数的选择没有公认统一的最好方法。为了能够更快地找到该组参数,提高建立SVR水质预测模型的效率,薛同来、赵冬晖等[6]使用遗传算法对SVR模型中的惩罚参数C、核参数g进行全局寻优,提出了GA-SVR寻优算法,利用该算法对卢沟桥再生水厂的化学需氧量CODMn进行预测,通过实验表明该算法提高了建立SVR水质预测模型的效率,并且预测精度比BP神经网络更好。柯声明[7]使用粒子群算法PSO对SVR中的惩罚参数C、核参数g进行寻优,提出PSO-SVR寻优算法,利用该算法对云南省牛栏江某断面的化学需氧量CODMn进行预测,实验表明该算法建立的SVR预测模型比使用遗传算法建立的SVR水质预测模型和BP神经网络建立的水质预测模型精度高、泛化性好。张净、崔建军等[8]使用灰狼算法对惩罚参数C、核参数g进行寻优,提出了GWO-SVR算法,利用该算法对溶解氧进行预测,实验表明该算法得到的水质预测模型的预测精度得到了显著的提升。如何快速得找到惩罚参数C、核参数g是提高SVR水质预测模型效率的关键,而找到最佳的惩罚参数C、核参数g是提高SVR水质预测模型精度的关键,所以对于该组参数的选择也必将是以后研究的重点。

3.2 离线SVR水质预测模型核函数的研究

目前SVR预测模型常用的核函数包括线性核函数、多项式核函数、高斯核函数、拉普拉斯核函数、Sigmod核函数[9]。其中线性核函数、多项式核函数属于全局核函数;而高斯核函数、拉普拉斯核函数、Sigmod核函数属于局部核函数。当样本特征多而样本数量不多时,一般选用线性核函数;当样本特征较少而样本数量不多时,一般选用高斯核函数。研究表明高斯核函数的泛化能力较弱而学习能力较强,多项式核函数泛化能力较强而学习能力较弱[10]。为了解决水质数据复杂、分布广泛这个问题。张书新、马旭东等[11]将多项式核函数和高斯核函数进行组合得到一种加权组合核函数,将该组合核函数得到的SVR水质预测模型用于氨氮浓度的预测,实验表明改进后的SVR水质预测模型比选用高斯核函数建立的SVR水质预测模型和BP神经网络建立的水质预测模型的预测精度高。梁雪春、龚艳冰等[12]采用多核加权学习的核函数解决了水质样本采集时间间隔大,数据分布广的水质预测问题。

核函数的选取目前并没有统一的规定,也没有哪一种核函数适用于任何数据的预测,所以核函数的选取也必将是研究SVR水质预测模型的热点。

3.3 离线SVR水质预测模型输入数据源的研究

SVR水质预测模型的建立需要利用该水质以前的数据作为输入水质数据进行训练建模,所以对于水质输入数据的选择显的尤为重要。水质的输入数据选择主要分为:单因子水质数据以及多因子水质数据。单因子水质数据即预测某种水质时仅仅利用该水质以前的数据进行训练建模;而多因子水质数据即预测某种水质时需要多种水质以前的数据进行训练建模。梁勇[13]采用的单因子水质数据作为输入数据建立SVR水质预测模型用于预测山东小清河流域某断面的化学需氧量COD和氨氮。使用单因子水质数据建立SVR水质预测模型具有效率高的特点,但是其预测精度没有采用多因子水质输入数据建立的SVR水质预测模型高。这是因为水质数据之间具有一定相关性,耦合性。而使用多因子水质输入数据,建立SVR水质预测模型必然没有单因子水质数据效率高,因为数据量大并且更复杂。为了解决这个问题,吴慧英、杨日剑等[14]提出通过主成分分析法筛选出对溶解氧有关的水质数据,然后建立SVR水质预测模型。实验表明:该方法比常规SVR模型和人工神经网络模型预测精度更高。

4 在线SVR水质预测模型的研究

当有新样本加入时,离线支持向量回归SVR需要重新训练建立预测模型以保障预测的精度,而当增加的样本数量越来越多时,建立SVR预测模型的时间将会变的越来越长。所以离线SVR水质预测模型对于在线数据更新的预测效率不高。为了解决这个问题,国内外大量学者针对该问题作了探索研究。由Syed等[15]提出了一种简单的增量训练方法,基本思想是每次选用少量的样本进行训练,遗忘非支持向量,留下支持向量和新加入样本进行训练,直到训练样本选完为止。该算法的优点是减少了训练的数据量,提高了效率;缺点是完全舍弃了每次选用样本中的非支持向量,这样很有可能舍弃了一些有用的向量,比如舍弃的非支持向量很有可能成为其他样本的支持向量。为了解决有用向量的遗忘问题,Cauwenberghs等[16]提出了精确增量训练算法,并应用到SVM分类的研究当中。Junshui Ma、Mario Martin等[17,18]在该方法的基础上提出了精确在线支持向量回归(Accurate Online Support Vector Regression,AOSVR)算法。其基本思想是根据KKT条件将训练样本数据分成3个集合,即保留向量集(Remaining Set)、支持向量集(Support Set)和错误向量集(Error Set),对新加入的样本调整其权值系数使其满足KKT条件,同时调整其他样本的权值系数使其也满足KKT条件。

AOSVR训练相比离线SVR训练,不是一次性离线完成的,而是随着数据逐一加入并反复优化的过程。故该算法的训练方法更加侧重于考虑训练的速度和执行效率。朱江、张伟等[19]将AOSVR应用于锂电池SOC的估计,实时更新数据建立预测模型,通过实验表明该算法比神经网络算法具有更好的估计精度和稳定性。王洪鹏、陈锋[20]基于AOSVR提出了在线支持向量回归的车辆跟驰模型,该模型可较好地适应实时交通中不断到来的数据,具有较好的实时性。

AOSVR也存在一些缺点,在线支持向量回归在训练过程中对于错误的数据抗干扰能力较差,如何改进算法提高其抗干扰能力是一个值得研究的问题。

5 结论与展望

由于农村大多数自来水厂对于原水的处理能力较弱,对于原水水质的预测就显得愈发重要。根据农村自来水厂水质数据少的特点,本文讨论的重点集中在处理小样本具有明显优势的支持向量回归SVR上。基于离线的SVR水质预测模型,目前研究的热点主要集中在参数寻优、核函数的选取、输入数据等。其中参数寻优主要是研究如何快速的找到惩罚参数C、核参数g以提高建立水质预测模型的效率,常用的方法有遗传算法、粒子群算法、灰狼算法等。核函数的选取主要是将全局核函数和局部核函数相结合成一个组合核函数,用来提高其预测精度。输入数据的研究主要是根据水质的相关性特点利用主成分分析法得到需要的输入数据以提高预测的精度。基于在线SVR水质预测模型,由于其具有实时预测的特点,特别适用于在线水质预测模型的建立。目前已经在其他领域得到应用,其研究热点主要还是在其预测精度上。

目前SVR水质预测模型主要存在的问题有:①原水水质数据缺乏长期的监测数据,已有的水质数据不全,而SVR对于数据十分敏感,导致建立的水质预测模型精度不高;②离线SVR水质预测模型,只能用于短期预测,而在线SVR水质预测模型在训练过程中对于错误的数据抗干扰能力较差;③国内水厂的一些数据不向社会公开,导致对于研究多因子水质输入数据缺乏数据来源;④目前对于研究在线SVR水质预测的学者不多,该算法用于水质预测的研究较少。

目前,在线水质监测预警系统已经得到了广泛的应用,水质输入数据的来源已经得到了保障,研究水质预测模型也可以顺利展开。基于SVR水质预测模型预测水质未来的变化趋势不仅可以更好地方便自来水厂对原水水质进行提前处理,而且对于发生水质污染也可以起到预警的作用。虽然目前基于SVR水质预测的研究还需要进一步加强,但是保障自来水厂出水安全却刻不容缓,在基于在线水质监测系统监测数据的技术上,基于小样本的SVR水质预测模型必将成为以后研究的一个热点方向。

猜你喜欢

离线向量水质
基于卷积神经网络的离线笔迹鉴别系统
向量的分解
探析水质环境监测存在的问题与解决措施
聚焦“向量与三角”创新题
新版Windows 10补丁离线安装更简单
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
好进难出 应对迅雷“口袋战”
水质的年轮——读《时光的年轮》
离线发文件 不是会员也能用