基于尺度特征融合的随机森林日供水量预测模型

2022-03-18陈国强

长江科学院院报 2022年3期

白云，陈国强

(1.重庆工商大学管理科学与工程学院，重庆 400067； 2.重庆市北碚区住房和城乡建设委员会，重庆 400700)

1 研究背景

城市供水量预测在水管理和调度中起着重要作用。尤其是面对城市缺水，迫切需要精确的供水量预测模型用于水资源规划和管理。目前供水量预测模型有很多，如多元线性回归模型[1]、人工神经网络(ANN)[2]、关联向量机[3]、支持向量机(SVM)[4]以及灰色模型[5]等。然而此类单回归器的建模训练可能会出现过拟合现象，所以集成学习[6]提供了一个思路。Breiman[7]将他在1996年提出的Bagging集成学习理论与Ho[8]在1995年提出的随机子空间理论结合而提出随机森林(random forest,RF)。RF是随机选择多个树的特性集的子集，以此构造成簇的森林，利用每棵树投票打分的模式进行决策分类或回归。RF模型具有执行速度高、计算量小、计算精度高等特点，可以处理非线性、交互、非稳态的问题。与其他模型相比[9-10]，RF体现出明显的优越性。

由于日用水量的非平稳性和耦合特征的复杂性，在应用预测模型前，如果对原始时间序列进行尺度特性提取，将有助于提高预测精度。例如，Odan等[11]将ANN和傅里叶级数组合、Shafaei等[12]将小波分解与自适应回归模型组合、佟长福等[13]构建小波组合模型、郝丽娜等[14]提出小波广义回归神经网络耦合模型。这些基于尺度分解的模型结果均表明其预测精度优于单一模型，也表明小波变化在时域和频域方面具有较强的尺度特性提取能力[15]。

基于以上介绍，本文提出基于尺度特征融合的随机森林模型(SF-RF)对城市日供水量开展预测。首先，利用离散小波变换对原始时间序列进行尺度转化和细节特征提取；然后，根据各尺度信息的混沌特性构建RF模型的输入输出结构，其中对于包含随机因子最多的高频信息予以舍去；最后，叠加各尺度的结果获得最终预测值。将预测结果与RF、经典神经网络(FFNN)以及融合模型(RF-FFNN)的预测结果进行对比分析。

2 模型介绍

2.1 离散小波变换

小波变换是由一系列的数学函数构成，它将非平稳时间序列分解为多个子序列，利用基波(如本文使用的Daubechies小波基)在不同的时频域上进行转化。离散小波变化(DWT)因实现简易且计算量小而被广泛应用[16]。图1为DWT分解示意图(以2层分解为例)，其中时间序列x=[xi|i=1, 2,…,N]，N代表时间长度。

图1 DWT分解示意图Fig.1 Decomposition of discrete wavelet transformation

根据图1，对时间序列x进行采样，利用低通滤波器LP获得近似因子ak，利用高通滤波器HP获得细节因子dk，则原始时间序列x的DWT转换形式为

式中k=1, 2, …,K代表分解尺度。

2.2 随机森林模型

随机森林是由一系列决策树组成，每棵树从训练数据集中随机抽样单独构建，并用“if-then”的策略来更新替换，从而形成自上而下的树状结构[17]。决策树使用在所有输入特征值中最好的特性值进行分裂，并在每个终端节点处，自上向下添加随机预测节点。即输入变量对应于根和输出可以描述实际的树的叶子[18]。从本质上讲，RF方法是基于分裂节点的特定区域搜索最佳值的预测模式。RF有两个参数，即Ntree(树木生长的数量)和s(在每一个节点上随机取样的变量数)。随机森林回归执行程序如下：

(1)在原始数据集中进行Bootstrap采样。

(2)生成初始回归树并更新Bootstrap采样：每个节点上，随机选取样本的输入特性，并在这些样本特性中选择最佳的分割，而不是在所有输入特性中选择最佳的分割。

(3)利用out-of-bag理论计算误差并评估更新后的样本误差值。

2.3 基于尺度特征融合的随机森林模型

基于尺度特征融合的随机森林模型(SF-RF)流程如图2所示。

图2 SF-RF预测模型流程Fig.2 Flowchart of the proposed SF-RF model

建模步骤总结如下：

第一步，日供水量时间序列分组，80%数据作为训练集，20%作为测试集。

第二步，对不同数据集分别执行DWT程序，此程序在Matlab 2018a中执行。

(1)本文选择’db4’小波。

(2)小波变换过程中，尺度K过大原始数据失真，而尺度过小近似部分中包含较多随机事件或噪声。本文采用实验法确定。

第三步，对各尺度因子序列分别建立RF回归模型。

(1)对于第k个细节因子序列，其输入为[dk(i-τ), dk(i-2τ), …, dk(i-(m-1)τ)]，期望输出为[dk(i)]。类似的，第K个近似因子序列的输入-输出结构为[aK(i-τ), aK(i-2τ), …, aK(i-(m-1)τ); aK(i)]。其中，m为嵌入维数，τ为延迟时间。本文采用C-C法来确定[19]。

(2) RF模型由Matlab工具箱实现，其中两个主要参数Ntree和s由经验值确定[20]。

第四步，利用测试集数据和训练好的各尺度RF模型，用来预测下一时段各因子序列。

第五步，根据式(1)，线性融合各尺度特征的预测值，则输出最终结果，即

(2)

式中字母带有符号“∧”代表预测值。

3 应用实例

3.1 数据描述

本文研究数据来源于重庆某水厂，该水厂建设于2011年，核定供水能力为20万t/d，主要供给居民生活用水和工业用水。2013年第一个方向的供水管网正式使用，第一方向的日用水量数据从2013年1月21日至2016年1月20日，共1 095个数据。历史记录见图3。

图3 原始数据集Fig.3 Historical records

历史数据的统计学特性见表1。根据最小值、最大值和均值统计，可以得出训练集包含了测试集中所有信息，说明数据分组是合理的。另外，峭度值均>3(一般的，正态分布的峭度值为3)，说明原始数据中大幅值的概率密度增加，幅值的分布偏离正态分布，体现出数据演变的复杂性。

表1 供水量数据的统计学特性Table 1 Statistical characteristics of water supply data

3.2 评价指标

本文采用2个指标进行模型评价，相关系数(R)和标准均方误差(NRMSE)。根据表1中统计值，数据波动范围较大，为了便于不同数值区间的误差比较，采用标准化的均方误差。

(1) 相关系数的表达式为

(3)

式中x带有符号“-”代表平均值。

(2)标准均方误差的表达式为

(4)

4 结果和讨论

4.1 预测结果

根据SF-RF建模步骤，训练所得模型参数见表2。

表2 模型参数设定汇总
Table 2 Definition of model parameters

建模环节参数设定尺度分解(DWT)’db4’母波, K=4特性重构(C-C)a4(m=3, τ=25), d4(m=13, τ=6), d3(m=19, τ=4), d2(m=6, τ=7), d1(m=3, τ=4)回归建模(RF)Ntree=1 000, s=m/3 (即a4取1,d4取4,d3取1,d2取2,d1取1)

根据表2模型参数设定，对测试集(2015年5月27日到2016年1月21日)进行预测，结果见图4。

图4 各尺度随机森林模型预测结果Fig.4 Forecast results using RF model in each scale

由图4可知，近似序列a4的预测效果最好，预测趋势完全模拟了真实演变。细节序列的预测表现出如下规律，即随频率的增大，预测效果变差(尤其是在峰值点)。例如，细节序列d4预测趋势与观察序列一致，但随着频率增高，细节序列d1预测能力在极值突变处表现最差。

近似序列a4可以看成是原始序列的趋势提取项，其幅值是最大的，所以是影响预测精度的重要尺度特征。细节序列d1的高频信息含有过多噪声(真实系统中的随机事件干扰导致)，可以看成是原始序列的随机提取项，而尺度越小(频率越高)预测精度越低，所以在尺度特征融合时不考虑细节序列d1的预测结果。此处理既减少了高频噪声信号的干扰，也尽可能保留了原始时间序列的有效信息。

图5(a)为SF-RF模型的最终预测图，与观测值相比，其趋势、拐点、峰值等均能够较好拟合，NRMSE=0.056。图5(b)为预测值与观测值的散点图，两组数据呈现聚集趋势，R=0.913。与全尺度特征的融合结果相比(不删除d1尺度，NRMSE=0.067，R=0.87)，不考虑高频信号d1的融合策略，对削弱时间序列的随着机干扰有显著作用。然而，SF-RF模型对于极大值的预测也体现出不足，主要原因有以下两个方面：① 高频信息的随机效应，特别是对高峰突变值的预测干扰，通过误差累积影响了尺度融合结果；② 根据文献[19]，m和τ也会受到随机事件的影响(例如，图3中2015年2个突变点)，从而导致模型输入结构的适宜性，即局部相空间特性学习不足影响了映射关联度。整体而言，本文提出的SF-RF模型可以较好地模拟日供水量预测。

图5 SF-RF模型预测结果Fig.5 Forecast results using the proposed SF-RF model

4.2 对比分析

为了比较本文提出的SF-RF模型性能，2个独立模型RF和FFNN、1个尺度特性融合的SF-FFNN模型对相同数据集进行建模和预测。

3个对比模型的预测结果见图6。从图6可以发现，尺度融合模型SF-FFNN预测性能优于其他2种独立模型，而与本文提出的SF-RF模型相比，极值拟合效果一般。表3汇总了4种模型的评价结果。

图6 对比模型预测结果Fig.6 Forecast results of comparative models

表3 模型性能评估结果Table 3 Results of model performance evaluation

表3显示：① 尺度特性融合模型(SF-RF和SF-FFNN)预测性能均优于独立模型(RF和FFNN)，说明考虑尺度特征的建模，既减少了随机干扰(高频信息)，又降低了模型学习难度(将复杂单尺度时间序列转变为简单多尺度因子序列)，从而提高了独立建模的预测精度;② 树结构模型(SF-RF和RF)预测性能均优于神经网络(FFNN和SF-FFNN)，验证了RF模型在预测领域的优势。所以，本文提出的SF-RF模型获得了最低的NRMSE值和最高的R值，预测效果最好。