基于SVR-ARIMA组合模型的金泽水库氨氮预测研究
2020-06-30童俊
童俊
摘 要: 介绍了用于水质预测的Support Vector Regerssion (SVR)及Autoregressive Integrated Moving Average model (ARIMA)两种回归模型的优缺点,以金泽水库取水口水质氨氮为例,构建SVR-ARIMA组合模型,通过模型和实际数据验证了SVR-ARIMA模型的可预测性,预测效果优于单模型,短期的水质预测模型较准确的预测了金泽水库取水口的水质,可为水库取水水质提供支撑。
关键词: 水质; 时间序列数据; SVR; ARIMA; SVR-ARIMA模型
中图分类号: TP 311
文献标志码: A
Prediction of Ammonia Nitrogen in Jinze Reservoir Based on
SVR-ARIMA Combination Model
TONG Jun
(Shanghai Municipal Monitor Center of Water Supply, Shanghai 200002, China)
Abstract:
This paper introduces the advantages and disadvantages of SVR and ARIMA regression models for water quality prediction. The SVR-ARIMA combination model is constructed based on the ammonia nitrogen data of Jinze Reservoir. The model and actual data verification shows that the SVR-ARIMA model is predictable. The prediction effect is better than the single model. The short-term water quality prediction model is used to predict the water quality of the reservoir intake accurately and give the support to ensure water quality of the reservoir.
Key words:
water quality; time series data; SVR; ARIMA; SVR-ARIMA model
0 引言
隨着生产生活用水的增加,水资源的利用成为研究的热点[1],而水质是水资源能否高效合理利用的关键,因此研究水质的变化趋势是极其迫切和必要的。以往对于水质的研究常常局限于从生物化学角度出发[2],从水源地采样进行生物、化学机理性分析,研究其组成成分,按照人为规定的指标对其参数进行比对以确定所采水样的各项指标是否达到一定的标准[3],这一类的研究特点是效果好、研究检测目标明确,但从采样到分析结果报告,水质检测周期较长,对于一些突发的水质污染反应时间慢,无法及时应对。因此有必要进行基于非机理性的水质参数预测[4]。为了对水质参数进行更好的预测研究,需要分别对其线性特点和非线性特点进行有针对性的分析。支持回归向量机模型(SVR)[5]通常对于非线性的数据有一定的预测效果,而ARIMA模型[6]则对于线性的时间序列预测有较好的效果,本文采取结合SVR和ARIMA模型两者的优势,通过优势互补,建立SVR-ARIMA组合模型[7]对水质进行预测,以氨氮为例,研究其变化规律。
1 数据来源和数据特征分析
1.1 数据来源
本文数据的时间为2017年11月—2018年11月,水质数据以氨氮为例。水质数据是每小时金泽水库取水口的在线实测数据。由于水质数据每小时变化的缓慢性和受上游水质变化的影响,因此呈现出一定的时间序列特性。
1.2 水质数据特性分析
如图1所示。
实线为金泽水库取水口的水质氨氮参数,红色虚线则反映了整个时段的水质氨氮指标的变化趋势。通过分析,取水口的水质数据主要呈现出如下的特点:第一、夏季4—5月是上游来水较大,藻类增多水质变化呈现出较强的非线性特点;第二、8—9月由于秋季上游来水减少,水质变化较小;第三、在冬季到春季10—3月由于河流水量减少,汛期未到,河流两岸排污,氨氮总体含量偏高。除了一些极端的天气如骤降暴雨、台风的侵袭等影响,其他时段水质的变化趋势总体较为平稳。
2 水质预测模型
2.1 支持向量机回归模型SVR
Vapnik及其合作者提出了支持向量机(SVM)[8],SVR作为SVM的一个变种的模型,由于其很强的非线性拟合能力,目前被用于各行各业,如电力负荷预测、金融股票预测等领域。支持向量回归及SVR通过引入ε不敏感损失函数从而达到实现回归的目的,例如,一组训练样本数据:
的回归问题可以看成要找到一个函数f∈F={f|f·Rn→R}
(F为假设函数集)使得在训练样本上该函数值f(x)与期望值y之间的误差不大于给定的值ε。
现假设f(x)=ωT(x)+b,其中ω为权重矢量,b为阈值。引入不敏感损失函数ε,支持向量机回归表示为下面的问题,如式(1)—(3)。
其中C>0为惩罚参数,表示样本拟合精度核函数回归模型的复杂度之间的折中参数,C值越大表示拟合效果越好,松弛变量用
ξi和ξ*i表示。引入拉格朗日乘子αi和α*i及核函数,再利用对偶原理,将上式转化为其对偶问题,如式(4)—(7)。