APP下载

基于分位数回归森林的水库调度滚动模拟方法研究

2023-08-08戴领骆光磊周建中

人民长江 2023年7期
关键词:位数时段水位

戴领 骆光磊 周建中

摘要:

现有水库调度模拟模型在长时段模拟时存在严重的误差累积,极大影响模型模拟精度。针对上述问题,首先建立了基于随机森林和贝叶斯优化理论的水库调度规则提取模型,进一步引入概率性预测方法,提出了一种基于分位数回归森林的水库调度滚动模拟方法,以预测区间分位数为媒介将概率预测信息传递至下一时刻,最后以二滩水库和观音岩水库为研究实例,对比分析了点预测模型滚动模拟结果以及多步模拟模型结果。研究表明:所提出的基于分位数回归森林的水库调度滚动模拟方法能够有效降低模拟累积误差,提高长时段模拟精度,相对于直接采用确定性的调度规则进行滚动模拟,该方法在同等指标要求下模拟时段延长3~5 d,在相同模拟天数情况下,各项指标均提升5%~10%。

关 键 词:

水库调度; 滚动模拟; 随机森林; 分位数回归森林; 贝叶斯优化

中图法分类号: TV391

文献标志码: A

DOI:10.16232/j.cnki.1001-4179.2023.07.031

0 引 言

随着国民经济发展对电力需求的快速增长,水能资源开发与利用逐渐加快[1]。流域内水库逐渐增多,梯级上下游水力联系逐渐紧密,上游水库出库流量在下游水库入库流量中的占比增大,导致下游水库调度运行难度增加,严重影响了下游水库综合效益发挥。为此,在目前流域大规模水库群逐步投产运营的背景下,开展水库调度运行模拟模型研究,在短期尺度上,下游水库可以提前预知上游水库出库过程,获得更加精确的预报入库流量,从而提前制定更加合理的水库蓄泄过程,提高水库综合效益;在中长期尺度上,可以获知上游水库在任意来水条件下的调蓄过程,明晰上游水库调度运行对下游水库入库流量、年发电量等因素的影响。同时,对流域整体而言,有利于探索流域大规模水库群联合调度理论,为流域梯级水库群联合运行、水资源优化配置提供科学指导[2]。

目前,水库模拟调度模型常采用调度图方式。范继辉[3]结合马斯京根演进方法和水库调度图建立了长江上游水库群模拟调度模型,通过设置不同的运行情景,分析了上游水库群不同蓄水时机下三峡水库来水发电响应过程。戴明龙[4]基于长江上游水库群调度图建立了上游水库群协同“还原-模拟-演算”模型,模拟上游各梯级水库的蓄水运行,得到不同水平年经上游水库调节后的下游控制站径流,进而分析了上游水库运行对下游水文变异的影响。然而,在实际调度中,调度图仅作为参考,调度人员会根据当前水位、来水等信息修正决策,真实调度过程往往与调度图相差甚远。已建水库通过多年运行,积累了大量水文数据以及水库历史运行数据,这些数据中蕴藏着大量的规律性信息,反映了水库调度人员多年人工经验和决策智慧。而机器学习算法擅长从大量数据中挖掘隐含规律,具有极强的非线性拟合能力。因此,随着数据挖掘理论不断发展,基于机器学习算法的水库调度模拟模型逐渐崭露头角并得到推广。骆光磊[5]基于改进深度神经网络,考虑水库运行约束,构建了金沙江中游观音岩水库、雅砻江锦屏一级、二滩水库群模拟调度模型,实现了库群旬尺度年运行过程模拟。汤正阳等[6]收集了溪洛渡水电站的调度运行数据,基于RNN,LSTM,GRU3种循环神经网络,学习电站现有调度规则,构建了溪洛渡水库的出流量预测模型,并探究不同参数设定对模型精度和计算速度的影响,对比了3种模型的模拟性能,分析了影响水库调度的主要因素。Chaves等[7]采用人工神经网络模拟水库调度系统。Zhu等[8]提出了一种基于人工智能算法和系统动力学模型的梯级水库自适应仿真模型,所提模型可以有效地反映系统运行的动态变化,实现各种条件下系统运行和自适应调度决策的精细模拟。然而,现有研究中大多数水库调度模拟模型均为单步模拟模型,即模型只能获得下一个时刻模拟值,而如果要获得长序列模拟值,即t+1,t+2,…t+n时刻模拟值,则需要进行多步模拟。目前多步模拟主要有两种方法:① 直接利用t时刻及之前的状态,构建n个模型,分别预测t+1,t+2,…,t+n时刻输出值,集成n个模型实现多步模拟。该方法主要缺点是需要构建多个模型,且时段越长,输入输出因子间相关性会降低,模型精度无法保证;② 将t+1时刻模型预测值当做已知量代入到原模型中,預测t+2时刻输出值,以此类推获得t+n时刻输出值。该方法可以实现无限制时长的预测,但是t+1时刻模型输出误差会代入到模型中加大t+2时刻模型预测误差,多次滚动会使误差累积,从而降低模型精度。

为此,本文针对第2种多步模拟方法,为降低模拟模型累积误差,提出一种基于分位数回归森林和贝叶斯优化理论的水库调度滚动模拟方法,首先建立基于随机森林和贝叶斯优化理论的调度规则提取模型作为对比模型,在此基础上,综合考虑上述两种多步模拟方法,分别构建水库调度多步模拟和基于分位数回归森林的滚动模拟模型,最后以二滩水库和观音岩水库作为研究对象进行验证。

1 基于随机森林和贝叶斯优化理论的水库调度规则提取模型

1.1 随机森林

随机森林(Random Forests,RF)算法最早由Brieman等学者于2001年提出[9],是一种基于决策树和自举汇聚法(Bagging)的集成模型,适用于解决小样本、高维度特征数据分类和回归问题,对于存在噪声和缺失值的观测数据具有很好的鲁棒性[10]。其主要原理是:首先通过样本的有放回抽样产生多组训练集,然后根据训练集数据随机选择特征生成决策树,最后将多棵决策树的结果进行投票选择或取均值获得最终结果。

1.2 贝叶斯优化

超参数优化是机器学习领域一大重难点,旨在寻找使算法在验证集上表现性能最佳的超参数组合。超参数与一般模型参数不同,需在训练前设置,决定模型架构,如支持向量机中的惩罚系数,神经网络层数、节点数等[11]。随着机器学习算法模型愈加复杂、训练样本逐渐增加,单次模型训练时间成本越来越高。因此,为提高搜索效率,贝叶斯优化算法应运而生。它首先基于目标函数过去评估结果建立代理模型,进而通过采集函数寻找代理模型期望收益最大的超参数,然后将超参数与评估结果作为输入更新代理模型,以此往复交替进行,最终获得目标值最优的超参数。相对于随机或网格搜索,贝叶斯优化算法使用不断更新的代理模型,并通过推断已有结果来“集中”更有希望的超参数,从而大大减少了调参时间[12]。

1.3 调度规则提取模型

水库调度决策与水位、入库流量、出库流量、出力、负荷、预报流量等因素密切相关,考虑到水库出力、负荷、预报流量数据难以获取,本文选择时段数、水库前期水位、入库流量、出库流量以及当前时段入库流量作为影响因子构成输入因子集,考虑到时段数和水库前一时刻状态以及当前时段入库流量与当前时段决策关系最为密切,因此将其作为模型输入必选因子,对剩余因子采用互信息方法定量评估其与输出因子间的相关性并将其作为备选因子,然后采用随机森林算法构建调度规则提取模型,最后采用贝叶斯超参数优化算法中的树形Parzen评估器同时优化输入因子选择个数与随机森林算法超参数,寻找模型效果最优的超参数组合。模型具体步骤及流程(图1)如下:

步骤1:从水库调度运行数据中挑选时段数T、前期水位H、入库流量Q、出库流量q等特征组建模型输入因子集,选择当前时段末水位作为模型输出,选择时段数、前1时段入库、出库、末水位及当前时段入库作为必选输入因子,选择前2~10时段入库流量Qt-2~10、出库流量qt-2~10、末水位Ht-2~10构成备选输入因子集,计算备选输入因子集中各因子与输出变量间的互信息并排序。

步骤2:将备选输入因子个数M与随机森林算法超参数最大深度、最小样本数、决策树个数组合成超参数集。备选输入因子个数M表示在备选因子集中选择互信息值排序靠前的M个因子与必选输入因子构成模型输入。

步骤3:根据模型输入输出构造数据样本并划分训练集和测试集,以训练集上交叉验证的均方根误差均值最小为目标函数,采用树形Parzen估计器优化模型超参数。

步骤4:选用步骤3中最优超参数重新对模型进行训练,计算模型在测试集上的各项指标,评估模型效果。

2 基于分位数回归森林的水库调度滚动模拟方法

2.1 分位数回归森林

分位数回归森林(Quantile Regression Forests,QRF)是在随机森林算法基础上结合分位数回归(Quantile Regression,QR)的改进模型[13],其不仅能够获得预测结果的条件均值,还能得到预测结果的条件概率分布,被广泛应用于负荷预测、风速区间预测领域[14-16]。算法实现的主要步骤如下:

步骤1:根据随机森林算法,生成N棵决策树,记录每棵决策树每个叶子节点上所有训练样本;

步骤2:对于给定的新样本X*,获取其在随机森林每棵树的叶子点ln,如图2所示,计算每棵决策树上所有样本的权重wi,n,公式如下:

wi,n=1/k,Xi∈R(ln)0,XiR(ln)(1)

式中:k为ln叶子节点上的训练样本子集R(ln)数据量,Xi为训练样本。

3 实例研究

本文分别以二滩水库和观音岩水库为研究对象。二滩水库位于雅砻江下游,坝址以上流域面积11.64万km2,约占雅砻江整个流域面积的90%,坝址处多年平均流量1 670 m3/s,年径流量52.7 km3;观音岩水库位于金沙江中游,位于云南省华坪县与四川省攀枝花市的交界处,上游接鲁地拉水电站,下游距攀枝花市27 km,各水库基本信息见表1。研究分别采用2014~2019年数据为训练数据,2020年数据作为测试数据,时间尺度为日尺度。根据第1节所提方法建立水库调度规则提取模型(记为RF模型),图4~5与表2分别为二滩和观音岩水库在测试集上各评价指标结果,由图表可知,各水库单步模拟精度均较高。

图6~7分别为二滩和观音岩水库QRF模型在70%,80%,90%置信区间(Probability Intervals,PIs)下单步模拟结果。由图可知,某些时段分位数预测值相同,且模拟值的区间宽度越小,分位数模拟值相同时段長度也越短。其主要原因是:这些时段水位变化幅度不大,入库流量等其他特征区分程度不明显,从而导致随机森林模型将其划分至同一叶子节点,而分位数回归森林采用叶子节点上样本权重作为频率估计分位数模拟值,故其分位数相同,同时,模拟区间宽度越小,证明该时段样本越集中,相邻时段样本区别越大,所在的叶子节点数不同从而其分位数预测值不同。此外,二滩水库预测区间宽度非汛期时段较汛期小,其主要原因是水库在高水位运行期水位基本保持不变,而汛期由于防洪调度需求,相同时段水位变化较大,需要较宽区间才能覆盖所有样本。相反,观音岩水库为周调节水库,水库全年无明显的蓄水与消落时期,日间波动幅度较大,相同时段的样本较为分散,其区间宽度较二滩水库要大。表3为不同置信度下区间预测指标值,由表3可知,给定置信度下的PICP指标基本大于该置信度,预测结果可靠。区间覆盖率PICP指标随给定置信度的增大而增大,但同时区间平均宽度PINAW指标也随之增大,95%置信度下,预测区间基本覆盖所有实测值。总体而言,各水库QRF模型输出的不同置信区间很好地覆盖了实测水位曲线,区间模拟效果较好。

进一步依托上述2个模型,设置3套模拟方案:方案一,采用二滩水库单步模拟模型滚动模拟n个时段。方案二,分别用以后n个时段末水位为输出,重新率定模型,直接模拟后n个时段的调度过程,并通过水库调度计算判断是否满足调度基本约束(水位上下限,出库上下限),进行水位修正。方案三,采用所提方法进行滚动模拟n个时段。上述方案中n取50,方案一和方案三分别以2020年1月1日至11月19日为起始时刻进行滚动模拟,从而获得不同模拟时长下水位模拟值,方案二以2020年以前数据为训练集,2020年数据为测试集,模型训练过程与第2节相同,方案三中模拟方法预测水位分位数步长Δ=1,PINAW指标权重η=50。

图8~9为不同方案在不同模拟时长下各水库各指标变化图。由图可知:两水库各方案指标变化趋势保持一致。方案一和方案三以原始单步模拟模型输出作为下一时段单步模拟模型输入进行滚动模拟,随着模拟时段增加,累积误差逐渐增大,模拟过程逐步偏离实际过程,滚动模拟效果逐渐变差;方案二各评估指标变化趋势一致,均表现为模型效果首先急速下降,最后趋于稳定,但二滩水库确定性系数随模拟时长增加维持在0.85以上,而观音岩水库较差,随着模拟时长增加,各项评价指标急剧下降,模型基本失效。对比3种模拟方案,在模拟时长较短时方案三模拟效果优于方案一和二,其主要原因是:水库QRF模型在区间覆盖率满足要求的基础上区间宽度较小。区间宽度越小,说明该叶子节点样本越集中,其不同预测分位数间的差距较小,预测结果越接近真实值,同时式(8)中各输入区别越小,则模型大部分输出落在随机森林相同叶子节点上,从而减少了参与分位数计算的训练样本数量,进一步降低了下一时刻的模拟区间宽度;在模拟时长较长时,方案二的模拟精度远远高于方案一和三,其主要原因是:当模拟时段较长时,时段误差逐步累积,水位偏差逐步变大,而前期水位对RF和QRF模型输出值影响较大,即使方案一和方案三在模拟过程中添加了后期实际入库流量信息,也无法较大改善模拟效果。总体而言,方案二完全通过数据挖掘的方式,相对方案一和方案二,缺少了后面时段的真实入库信息的加入,其在滚动模拟时段较短时模拟效果没有方案一和方案二好,但随着模拟时长增加,方案一和三时段累积误差逐步占主导作用,此时方案二的模拟效果较好。但由于方案二模拟时采用的是纯数据挖掘方式,模拟效果受数据系列影响较强,不确定性程度较大,缺少物理意义支撑,且其无法使用预报信息,使用灵活性不如方案一和三。此外,方案三模拟效果持续优于方案一,在同等指标要求下,方案三滚动模拟时段延长3~5 d,在相同模拟天数情况下,各项评价指标均提升5%~10%,表明所提方法能够有效降低滚动模拟累积误差,提高水库调度长时段模拟精度。

4 结 论

本文分别以二滩水库和观音岩水库为研究对象,首先建立了基于随机森林和贝叶斯超参数优化的水库调度规则提取模型,依据两种不同的多步模拟策略,建立了水库调度滚动模拟模型。在此基础上,考虑到概率预测方法能够获取模型预测值更多信息,提出了一种基于分位数回归森林的水库调度滚动模拟方法,最后,对比分析了所提方法与两类多步模拟模型的模拟效果。研究结果表明:基于随机森林和贝叶斯超参数优化的水库调度规则提取模型效果较好,精度较高;通过构建多个模型实现多步模拟方法在模拟时段较短时模拟效果较差,较长时段模拟效果较好,但该方法模拟效果受数据系列影响较强,不确定性程度较大,且使用灵活性差;本文所提基于分位数回归森林的水库调度滚动模拟方法能够有效降低模拟累积误差,提高长时段模拟精度。

本文所提方法的核心在于在水库调度模拟中引入概率性预测方法,利用预测区间内的所有分位数作为下一时刻的输入,从而在一定程度上减弱滚动模拟累积误差,因此本文所提方法中的概率预测方法不局限于随机森林算法,任意类型的概率性预测方法均可使用。此外,受研究者工程经验、理论水平和研究时间的限制,尚存在一些研究难点需要在今后的研究工作中进一步突破,特别是需针对不同时期分别建立相应模拟模型,以进一步提高模型模拟精度,提升方法的适用性。

参考文献:

[1] 彭才德.“十三五”水电发展及展望[J].中国电力企业管理,2019,(4):34-36.

[2] 戴领.梯级水库群调度运行对下游水库防洪发电影响分析[D].武汉:华中科技大学,2021.

[3] 范继辉.梯级水库群调度模拟及其对河流生态环境的影响:以长江上游为例[D].成都:中国科学院·水利部成都山地灾害与环境研究所,2007.

[4] 戴明龙.长江上游巨型水库群运行对流域水文情势影响研究[D].武汉:华中科技大学,2017.

[5] 骆光磊.基于深度学习的流域水库群调度模拟方法研究与系统实现[D].武汉:华中科技大学,2020.

[6] 汤正阳,张迪,林俊强,等.基于循环神经网络算法的水库调度模拟[J].水电能源科学,2021,39(5):83-86,70.

[7] CHAVES P,CHANG F J.Intelligent reservoiroperation system based on evolving artificial neural networks[J].Advances in Water Resources,2008,31(6):926-936.

[8] ZHU B,LIU J,LIN L,et al.Cascade reservoirs adaptive refined simulation model based on the mechanism-AI coupling modeling paradigm[J].Journal of Hydrology,2022,612(B):128229.

[9] BREIMAN L.Random forests[J].Machine learning,2001,1(45):5-32.

[10] LIAW A,MATTHEW W.Classification and regression by randomforest[J].Forest,2002(2/3):18-22.

[11] 浮盼盼,司琪,王鑫賽.机器学习算法的超参数优化:理论与实践[J].电脑编程技巧与维护,2020(12):116-117.

[12] BERGSTRA J,BARDENET R,KGL B,et al.Algorithms for Hyper-Parameter Optimization[C]∥25th Annual Conference on Neural information Processing Systems.NIPS Fund.Granada:NIPS Fund,2011.

[13] ROGER K,HALLOCK K F.Quantile Regression[J].Journal of Economic Perspectives,2001,15(4):143-156.

[14] 孙国强,梁智,俞娜燕,等.基于EWT和分位数回归森林的短期风电功率概率密度预测[J].电力自动化设备,2018,38(8):158-165.

[15] HE F F,ZHOU J Z,MO L,et al.Day-ahead short-term load probability density forecasting method with a decomposition-based quantile regression forest[J].Applied Energy,2020:262114396.

[16] HE Y Y,QIN Y,WANG S,et al.Electricity consumption probability density forecasting method based on LASSO-Quantile Regression Neural Network[J].Applied Energy,2019:233-234565-575.

[17] ABBAS K,NAHAVANDI S,CREIGHTON D,et al.Lower upper bound estimation method for construction of neural network-based prediction intervals[J].IEEE transactions on neural networks,2011,22(3),337-346.

(編辑:江 文)

Rolling simulation method of reservoir operation based on Quantile Regression Forest

DAI Ling1,LUO Guanglei2,ZHOU Jianzhong3

(1.CISPDR Corporation,Wuhan 430010,China;2.CCCC Second Harbor Consultants Co.,Ltd.,Wuhan 430061,China; 3.School of Civil and Hydraulic Engineering,Huazhong University of Science and Technology,Wuhan 430010,China)

Abstract:

It is difficult for existing reservoir operation simulation models to avoid error accumulation in multi-step simulation,which seriously affects the long-term simulation accuracy of the models.In view of the above problems,firstly,a reservoir operation rule extraction model based on random forest and Bayesian optimization theory was established.Then the probabilistic prediction method was further introduced and a rolling simulation method of reservoir operation based on Quantile Regression Forest was proposed,which used the quantile of the prediction interval as the medium to transmit the probabilistic prediction information to the next time.Finally,Ertan and Guanyinyan Reservoirs were computed by this model,and the results of the rolling simulation of the point prediction model and multi-step simulation model were compared and analyzed.The case study showed that the proposed rolling simulation method of reservoir operation based on Quantile Regression Forest could effectively reduce the cumulative error of simulation and improve the accuracy of the long-term simulation.Compared with the rolling simulation using deterministic scheduling rules directly,the proposed method could extend the simulation period by 3~5 days under the same index requirements,and all indicators could increase by 5%~10% under the same simulation days.

Key words:

reservoir operation;rolling simulation;random forest;Quantile Regression Forest;Bayesian optimization

猜你喜欢

位数时段水位
五次完全幂的少位数三进制展开
四个养生黄金时段,你抓住了吗
基于MFAC-PID的核电站蒸汽发生器水位控制
基于MFAC-PID的核电站蒸汽发生器水位控制
傍晚是交通事故高发时段
分时段预约在PICC门诊维护中的应用与探讨
遥感卫星CCD相机量化位数的选择
“判断整数的位数”的算法分析
基于PLC的水位控制系统的设计与研究
基于分位数回归的剪切波速变化规律