APP下载

基于混合模型的短期园区需水预测

2023-06-24梁现斌刘真苑佳李磊刘心

水利水电快报 2023年6期
关键词:园区

梁现斌 刘真 苑佳 李磊 刘心

摘要:为进一步提高短期园区需水预测精度,解决因短期园区人工供水误差较大导致的水、電资源浪费问题,提出一种由麻雀搜索算法(SSA)、卷积长短时记忆神经网络(ConvLSTM)、长短时记忆神经网络(LSTM)组合的SSA-ConvLSTM-LSTM混合模型短期园区需水预测方法,并以河北工程大学为例进行了分析。针对园区用水数据在时间维度上具备的多峰值和多周期特征,采用ConvLSTM挖掘数据中的时空特征;为使预测峰值更接近实际峰值,加入LSTM提升预测性能;为优化混合模型的隐层神经元数和卷积核数,采用SSA优化算法实现自动调参。通过预测河北工程大学1 d和3 d需水量进行模型性能验证,并与其他模型进行对比。结果表明:相比向量自回归(VAR)模型、深度神经网络(DNN)模型和LSTM, 该需水预测模型具有更高的预测精度。该方法在短期需水预测上表现出良好的适应性和鲁棒性,具有一定应用价值。

关键词:需水预测; SSA; ConvLSTM; LSTM; 混合模型; 园区

中图法分类号:TV213.4

文献标志码:A

DOI:10.15974/j.cnki.slsdkb.2023.06.013

文章编号:1006-0081(2023)06-0064-07

0 引 言

随着教育园区、商业园区、工业园区、文化产业园区等专业园区高速发展,仅依靠增加水资源投入解决园区用水问题会导致水资源利用率降低。短期园区需水量预测是提高水资源利用率的关键,由于短期园区需水量具有不确定性和多样性,精确预测具有一定困难[1-2]。对于需水预测问题,国内外研究人员已经取得一定的进展[3]。相关学者通过影响地区需水量的主控因子,采用传统的向量自回归(Vector Auto-Regression,VAR)模型预测地区需水量[4]。然而VAR模型对数据具有较差的冗余性,不适用于非平稳数据。为优化上述问题,采用建模过程简单、数据冗余性强的神经网络进行需水预测更符合实际情况[5-6]。深度神经网络(Deep Neural Networks,DNN)模型在农业园区中利用降水量、温度和植物生育期等因素作为主控因子,预测不同阶段的农业园区需水量[7]。由于DNN运算过程中参数体量大,容易出现过拟合和局部最优,因此采用循环神经网络(Recurrent Neural Network,RNN)解决上述DNN的不足。相关学者以预测水压力在时间上的变化为背景,通过实践证明RNN比DNN更具预测稳定性[8]。尽管RNN网络模型在时间序列预测问题上表现优异,但RNN模型在训练时仍存在梯度爆炸和梯度消失问题,不具备长期记忆功能。Jürgen Schmidhuber等学者在RNN网络的基础上增加门控制单元解决了上述不足,提出长短时记忆神经网络(Long-Short Term Memory,LSTM)。Antzoulatos等[9]从历史用水数据的时序特征出发,利用LSTM网络建立预测模型,依托智慧水利平台成功预测未来城市18 d的需水量。以上研究侧重需水预测时的数据时序特征和主控因子分析,忽略了数据时间维度上的空间特征。而需水趋势受用水主体的用水规律影响,用水趋势在时间维度上呈现多周期和多峰值的空间特征。因此,分析数据时间维度上的空间特征,对需水预测具有重要意义。

针对上述问题,为增加模型对需水趋势多周期、多峰值特征的感知能力和预测性能,本文采用空间卷积长短期神经记忆网络(Convolutional LSTM,ConvLSTM)和LSTM组合的方法建立混合模型。为降低混合模型中参数调整的复杂度,采用麻雀搜索算法(Sparrow Search Algorithm,SSA)实现混合模型全局和局部寻优过程的自动调参[10-11]。最后,为评估模型性能,以河北工程大学为例,通过单次预测1 d和单次预测3 d的需水量,并与VAR,DNN,RNN和LSTM进行对比。

1 研究方法

本文使用LSTM,ConvLSTM网络和SSA算法进行建模。SSA-ConvLSTM-LSTM模型依托大量有监督的数据,通过调整模型和输入实现1 d和3 d园区需水量预测。

1.1 LSTM

LSTM网络在预测问题上具有良好的性能[12]。LSTM网络基本结构如图1所示,LSTM在结构上引入3个控制信息量传递的控制器,增加了长短时记忆功能[13]。在LSTM基本网络结构中,红色部分代表长期记忆单元,黄色部分代表短期记忆单元,图1中各符号意义如表1所示。

LSTM工作流程可分为3步:① 通过遗忘门

耦合当前时刻输入信息和上一时刻状态信息;② 通过输入门更新数据;③ 输出长期记忆单元和状态信息。

1.2 ConvLSTM网络

单次预测3 d或5 d园区需水量,需要以3 d或5 d为时间粒度,每个时间粒度上含有相关用水数据,但LSTM缺乏对时间粒度上的空间特征敏感性,难以挖掘短期园区需水规律信息。Shi等[14]提出将卷积操作融入LSTM网络中,形成了ConvLSTM,弥补了LSTM对时空特征提取能力的不足。ConvLSTM基本网络结构如图 2 所示。

1.3 麻雀搜索算法

SSA算法通过麻雀群觅食过程启发而来:所处位置食物量少的麻雀向所处位置食物量多的麻雀不断抢夺位置的过程,经过一定轮次抢夺后,得出食物量最佳的位置信息,评判优劣的过程就是适应度函数[15]。在SSA优化ConvLSTM-LSTM混合模型参数过程中应注意计算机内存资源消耗,防止内存溢出,麻雀总数共n只,搜索空间为d维,经过一定轮次的争夺后得出最优的空间位置信息。

2 SSA-ConvLSTM-LSTM短期园区需水预测模型

在模型训练过程中,将数据输入ConvLSTM-LSTM混合模型中。由于数据中存在极少极端值,所以采用平均绝对误差(Mean Absolute Error,MAE)、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)作为自变量构建适应度函数F(MAE,MAPE),由于MAE值正常波动范围在100以内,为了平衡MAPE和MAE在适应度函数F(MAE,MAPE)中的权重,因此采用MAPE乘1 000后与MAE相加所得的平均值作为适应度函数F(MAE,MAPE)的值,如公式(1)所示。

FMAE,MAPE=12(MAE+MAPE×1000)(1)

通过SSA算法在指定的参数集上选取参数实现自动调参,混合模型架构如图3所示。

2.1 SSA-ConvLSTM-LSTM模型设计

SSA-ConvLSTM-LSTM混合模型主要由ConvLSTM部分和LSTM部分组成。本文对ConvLSTM模块和LSTM模块进行详细的结构设计,通过控制变量法调整ConvLSTM层数,选定ConvLSTM层数后再调整LSTM层数。最后,通过人工经验调整参数设置,SSA算法对隐层神经元数和卷积核数自动调参,得出最优模型。

2.2 SSA-ConvLSTM-LSTM预测算法流程

步骤1:输入数据准备。将滑动窗口为K天的用水相关数据调整为向量,步长为1,T表示第T天的用水相关数据,T+n表示T后第n天的用水数据。根据混合模型预测任务调整K值,单次预测1 d时,K=6,用前7 d作为输入预测后1 d;单次预测3 d时,K=20,用前21 d预测后3 d,最后根据不同预测任务修改输入特征图的张量形状。输入特征如图4所示。

步骤2:模型结构初始化。首先,将特征图调整为5D张量输入ConvLSTM模块得到4D张量,经过Flatten层,将4D张量展平,得到2D张量。其次,经过RepeatVector层输出3D张量。得到3D张量输入到LSTM模块中。

步骤3:SSA优化算法初始化。基于步骤2混合模型结构,初始化种群麻雀总数共n只,搜索空间为d维,麻雀的空间位置信息可以抽象为n×d的矩阵。

步骤4:模型参数初始化。初始化ConvLSTM-LSTM混合模型的批处理量、学习率函数等参数。设置SSA算法的种群数量、侦察者数量、适应度函数、模型ConvLSTM卷积核(Fs)和LSTM隐层元(Hi)的参数集。

步骤5:ConvLSTM-LSTM混合模型训练。基于步骤4对ConvLSTM-LSTM混合模型进行训练,达到训练迭代次数或达到模型早停条件后保存拟合后的模型。测试集作为输入得到预测结果反馈给SSA优化算法。

步骤6:SSA自动化调参。SSA算法实现在步骤4的常用参数集上自动化调参,将步骤5的反馈送到适应度函数中进行计算,若不满足最大迭代次数,则继续在指定的参数集合中寻找隐层神经元数(H1,H2,H3,H4)和卷积核数(Fs)的最优组合,将参数组合和数据重新输入模型执行步骤5,当满足迭代条件时输出需水量预测值。

步骤7:控制变量法调整ConvLSTM结构。通过步骤6的预测值建立并保存评价指标,根据2.1的设计思路调整混合模型结构,继续执行步骤2,在经验范围内记录最优模型结构和评价指标。SSA-ConvLSTM-LSTM混合预测算法流程如图5所示。

3 实例分析

短期园区需水预测方法研究流程可以分为:数据收集、数据预处理、划分训练集和测试集、模型构建对比实验和模型评估。在下面各个图中将SSA-ConvLSTM-LSTM简称为SSA-ConvLSTM。整体研究流程如图6所示。

3.1 研究区域概况

河北工程大学位于河北省南部,隶属于邯郸市邯山区,属温带大陆季风性气候,老校区占地约141.7 hm2(2 125亩),在校人数约3.2万人。高校教育园区总需水量主要包括生活用水和生态用水两大类,其中生活用水受人数、用水习惯等因子影响,生态用水受气温、降雨等环境因子影响[16-17]。

本文数据来源于河北工程大学数字水利平台,使用2014年12月1日到2017年9月18日河北工程大学校园整体范围内的日用水数据及气象、节假日、在校人数等数据构建数据集。针对是否节假日,大雨、中雨、小雨等无法用数字描述的控制因子进行One-Hot编码。数据预处理工作主要包括以下方面。

(1) 数据可视化找出异常数据。

(2) 皮尔逊相关系数找出影响用水量的主控因子,降低模型输入维度[18]。主控因子包括:在校人数、是否节假日、最高气温、最低气温、平均气温、降雨量、天气状况。

(3) 数据标准化、归一化使得输入数据处于同一量纲上。

训练集和测试集按照约10∶1划分。实验表明采用预处理后的数据,能提高模型的平稳性和预测精度。

3.2 SSA-ConvLSTM-LSTM模型参数

SSA-ConvLSTM-LSTM混合模型的主要参数设置如表2所示。受仿真硬件环境限制,上述参数是经过反复实验得到的最优参数[19]。为防止模型过拟合并设置EarlyStopping操作,若6次损失值未改善,则认为拟合完成。为降低少量异常值对模型训练产生的影响,因此MAE作为适应度函数。根据SSA-ConvLSTM-LSTM预测算法流程操作,通過SSA算法在卷积核数据集、隐层神经元数据集自动寻优,最终得出:单次预测1 d需水量仿真中,模型结构为1个ConvLSTM和2个LSTM层,其参数最优为:ConvLSTM中卷积核的个数为12,大小为1×3,步长为1,激活函数为Relu函数;LSTM中隐含层神经元数为10,20,损失函数为大,批处理量为10,dropout值为0.1。在单次预测3 d参数最优为:模型结构为1个ConvLSTM和1个LSTM层,其参数最优为:ConvLSTM中卷积核的个数为100,大小为1×3,步长为1,激活函数为Relu函数;LSTM中隐含层神经元数为300,损失函数为大,批处理量为128,dropout值为0.1。

3.3 实验对比分析

使用VAR,DNN,RNN,LSTM与SSA-ConvLSTM-LSTM模型进行对比分析,为评价模型拟合效果,采用3个评价指标分别为:均方根误差(RMSE)、平均绝对值误差(MAE)、平均绝对百分比误差(MAPE)[20-21]。3个指标评价公式为

RMSE(y,h)=1n∑ni=1hi-yi2(2)

MAE(y,h)=1n∑ni=1hi-yi(3)

MAPE(y,h)=100%n∑ni=1hi-yiyi(4)

式中:y,h分别代表实际值、预测值;n为预测点的个数。MAPE和MAE反映实际值与预测值的误差大小。RMSE反映预测模型的性能,越小表示预测效果越好。

在单次预测1 d园区需水量实验中,SSA-ConvLSTM-LSTM模型预测效果最好,其原因是SSA-ConvLSTM-LSTM模型加深LSTM网络深度并通过引入ConvLSTM增强序列时空特征提取强度。VAR预测性能其次,其原因是数据在输入时进行平稳性处理,最大限度上分析了影响因子与用水量的动态联系,验证了VAR模型在平稳的小数据集上具有较好的预测精度。LSTM模型预测效果其次,RNN和DNN预测表现一般。在单次预测3 d园区需水量实验中,SSA-ConvLSTM-LSTM模型挖掘了数据中短周期内的时空特征,使模型对短周期内的用水规律信息产生敏感性,所以SSA-ConvLSTM-LSTM混合模型预测效果最好,LSTM模型预测效果其次,模型RNN和DNN模型预测表现一般。单次预测1 d和3 d结果分别如图7和图8所示。

为了更直观表述各个模型的预测性能,采用绝对误差曲线反映预测误差的稳定性,由图9和图10可知,在数据平稳阶段,各个模型误差相对较小;在波动较大的拐点处,SSA-ConvLSTM-LSTM模型相对于其他模型更具预测稳定性。

为对预测结果进行误差分析,选取RMSE,MAE和MAPE作为误差评估,单次预测1 d和单次预测3 d需水量误差如表3和表4所示。

在需水预测评价中,把MAPE范围作为评价标准,精度范围可以划分为:高精度预测(0,10%)、好的预测[10%,20%)、可行预测[20%,50%)[22]。由表3和表4可知:在单次预测1 d误差数据中,所有模型的MAPE值都小于或者接近10%,其中SSA-ConvLSTM-LSTM的MAPE值达到了7.496%,其预测效果最优,属于高精度预测。在单次预测3 d误差数据中,SSA-ConvLSTM-LSTM模型MAPE值为15.671 2%,小于20%,属于好的预测,其他预测模型MAPE均大于20%,属于可行的预测模型。

SSA-ConvLSTM-LSTM模型的3个评价指标明显优于其他模型,在单次预测1 d园区需水量中,SSA-ConvLSTM-LSTM的RMSE,MAE和MAPE分别比VAR降低7%,5%和5%,比LSTM降低6%,9%和15%,比DNN降低11%,20%和31%,比RNN降低13%,21%和31%。在单次预测3 d园区蓄水量中,SSA-ConvLSTM-LSTM的RMSE,MAE和MAPE分别比LSTM降低16%,18%和23%,比DNN降低36%、41%和49%,比RNN模型降低37%、42%和50%。误差降低百分比如图11和图12所示。

由图11和图12可知,单次预测1 d任务中,SSA-ConvLSTM-LSTM混合模型展示出了最好的预测性能。单次预测3 d任务中,SSA-ConvLSTM-LSTM混合模型预测性能明显高于其他模型,这印证了该混合模型在短期预测问题上的优越性能。

4 结论与展望

本文提出了一种SSA-ConvLSTM-LSTM混合模型,用于短期园区需水预测。该模型运用皮尔逊相关系数,考虑了影响用水量的因子,同时采用SSA算法辅助混合模型实现自动调参。最后,采取单次预测1 d需水量和单次预测3 d需水量的方式验证SSA-ConvLSTM-LSTM混合模型預测性能。通过试验分析得出以下结论。

(1) 卷积长短时记忆网络和长短时记忆网络堆叠的混合模型,对时间维度上的周期和峰值特征更具备敏感性,因此在单次预测1 d和单次预测3 d任务中准确率更高。

(2) 通过误差分析可以得出,该模型相对其他常规预测模型在单次预测3 d的短周期预测任务中优势更加明显。

由于数据序列的非线性、非稳性,本文提出的方法在预测时存在峰现时间的滞后现象,本质是预测的误差问题,在多步时间序列预测中比较明显。为此,在未来的研究工作中,将从两方面进行峰现滞后现象研究。

(1) 从数据出发:① 增强数据的平稳性;② 研究历史同期数据存在的共同特征,通过共同特征规律,弥补峰现时间滞后误差。

(2) 从预测方法出发:① 更改预测策略;② 针对仿真中出现的时间峰现滞后误差,增加误差修正方法。

参考文献:

[1] 贾宝杰,何淑芳,黄茁,等.城市水资源供需平衡与用水合理性分析——以湖北省黄石市城区为例[J].人民长江,2021,52(增1):81-84.

[2] 马哲海.园区水资源使用预测及最优调度研究[D].杭州:浙江工商大学,2021.

[3] 罗贤伟,庞子山,谭松柏,等.基于云计算的水务大数据平台系统设计与实践[J].给水排水,2022,48(1):144-150.

[4] 刘思源.陕北农牧交错带沙地农业利用规模的水资源调控研究[D].西安:西安理工大学,2022.

[5] 李析男,赵先进,余红敏.基于综合分析法的城市需水预测研究——以贵州省贵安新区为例[J].水利水电快报,2022,43(5):28-33,39.

[6] JIANG Y,LI C,SUN L,et al.A deep learning algorithm for multi-source data fusion to predict water quality of urban sewer networks[J].Journal of Cleaner Production,2021,318:128533.

[7] 刘婧然,武海霞,刘心,等.基于深度学习人工神经网络的青椒调亏灌溉水量预测[J].干旱地区农业研究,2021,39(6):105-113.

[8] WEI X,ZHANG L,YANG H Q,et al.Machine learning for pore-water pressure time-series prediction:Application of recurrent neural networks[J].Geoscience Frontiers,2021,12(1):453-467.

[9] ANTZOULATOS G,MOURTZIOS C,STOURNARA P,et al.Making urban water smart:the SMART-WATER solution[J].Water Science and Technology,2020,82(12):2691-2710.

[10] POURPASHA H,FARSHAD P,HERIS S Z.Modeling and optimization the effective parameters of nanofluid heat transfer performance using artificial neural network and genetic algorithm method[J].Energy Reports,2021,7:8447-8464.

[11] 孟志军,刘淮玉,安晓飞,等.基于SPA-SSA-BP的小麦秸秆含水率检测模型[J].农业机械学报,2022,53(2):231-238,245.

[12] 崔震,郭生练,王俊,等.基于GR4J-LSTM混合模型的洪水预报研究[J].人民长江,2022,53(7):1-7.

[13] TRASK A.Grokking deep learning[M].New York:Manning Publications,2019.

[14] SHI X,CHEN Z,WANG H,et al.Convolutional LSTM network:A machine learning approach for precipitation nowcasting[J].Advances in Neural Information Processing Systems,2015,1:802–810.

[15] 薛建凱.一种新型的群智能优化技术的研究与应用——麻雀搜索算法[D].上海:东华大学,2020.

[16] 葛学伟.高校集体宿舍用水量变化规律及设计优化的研究[D].天津:天津大学,2012.

[17] AMR A I,KAMEL S,GOHARY G E,et al.Water as an ecological factor for a sustainable campus landscape[J].Procedia-Social and Behavioral Sciences,2016,216:181-193.

[18] KELLEHER J D,TIERNEY B.Data Science[M].Cambridge:MIT Press,2018.

[19] 方义秋,卢壮,葛军伟.联合RMSE损失LSTM-CNN模型的股价预测[J].计算机工程与应用,2022,58(9):293-302.

[20] 刘青松,严华,卢文龙.基于AR-RNN的多变量水位预测模型研究[J].人民长江,2020,51(10):94-99.

[21] 迟殿委,黄琪,刘丽贞,等.基于PCA-MIC-LSTM的碟形湖溶解氧含量预测模型研究[J].人民长江,2022,53(6):54-60.

[22] 马金龙.给水系统水量预测误差分析及精度评价[J].科技视界,2013,61(10):61,79.

(编辑:江 文)

Short-term water demand forecast of park based on mixed model

LIANG Xianbin,LIU Zhen,YUAN Jia,LI Lei,LIU Xin

(School of Information and Electrical Engineering,Hebei University of Engineering,Handan 056038,China)

Abstract:

In order to further improve the prediction accuracy of short-term water demand of park,and solve the problem of water and electricity resources waste caused by large error of short-term manual water supply,a short-term water demand prediction method of park based on Sparrow Search Algorithm (SSA),Long-Short Term Memory (LSTM) and Convolutional LSTM (ConvLSTM) hybrid model was proposed.This paper took Hebei University of Engineering as an example,in view of the multi-peak and multi-period characteristics of water consumption data in time dimension,ConvLSTM was used to extract the spatial-temporal features of the data.In order to make the predicted peak value more consist with the actual peak value,LSTM was added to improve the prediction performance.In order to realize automatic parameter tuning,SSA algorithm was used to optimize the number of hidden layer neurons and convolution kernel of the hybrid model.The model performance was verified by forecasting 1 and 3 days water demand,and the results showed that the prediction method had higher accuracy than VAR model,DNN model and LSTM model.This method has good robustness and adaptability to short-term water demand prediction and has certain practical value.

Key words:

water demand prediction; Sparrow Search Algorithm; Convolutional LSTM; LSTM;hybrid model; park

猜你喜欢

园区
让色彩动起来——魅力园区
仪陇蚕桑园区化发展思考
苏通园区:激荡开放潮 十年再出发
创新企业在园区的砥砺奋进
砥砺奋进,书写属于园区的辉煌
这个九月,园区有点忙!
园区的开放样本
孔学堂 纯粹的国学园区
从园区化到国际化
论各地高新园区管理体制