基于CEEMDAN-LightGBM模型的洪水预测研究
2024-09-23王军张宇航崔云烨等
关键词:洪水预测;LightGBM 模型;CEEMDAN 算法;CEEMDAN-LightGBM 模型;LSTM 模型;利津水文站;花园口水文站
中图分类号:P333;TP183;TV882.1 文献标志码:A doi:10.3969/ j.issn.1000-1379.2024.09.014
引用格式:王军,张宇航,崔云烨,等.基于CEEMDAN-LightGBM 模型的洪水预测研究[J].人民黄河,2024,46(9):99-105.
0引言
洪水是一种自然灾害,会造成严重的经济损失和人员伤亡[1] 。洪水风险管理是预防洪水和减小洪水不利影响的一项关键任务,其措施包括结构性和非结构性两种。开发洪水早期预警系统[2] 和实时预测河流水位是主要的非结构性措施,可以在应对洪水发生时辅助实施有效的应急策略。现有的水文预测模型可分为概念模型、物理模型和“黑箱”模型。概念模型和物理模型可通过一维或二维偏微分方程来描述水文现象,采用这2 种模型预测降水过程、径流过程、河流演变时,需要大量的地形、土地利用等信息,而收集这类信息需要大量的人力和物力,资源消耗过大,同时物理模型因其计算时间较长而难以被广泛使用。“黑箱”
模型又被称为“数据驱动”模型[3] 或机器学习(ML)模型,其训练速度快,预测结果较为准确,因此在水文领域越来越受欢迎。
在河流洪水预测中,模型输入通常包括给定站点的降水量、温度、风速、水位等[4-5] ,模型输出通常是水位或流量[6-8] ,以上变量中水位实际上更容易获取,更适合于洪水预警[9] 。传统的ML 模型训练数据通常呈现表格形式,当数据量太过庞大时,会出现计算资源消耗过大、数据清洗和标注困难以及数据集不平衡等问题,从而影响模型训练效果。为了解决这一问题,本文以黄河利津水文站2022 年3 月19 日至2023 年3 月8日的水文数据为模型输入, 将CEEMDAN 算法与LightGBM(Light Gradient Boosting Machine) 模型相结合,对洪水数据进行多尺度分解和特征提取,构建CEEMDAN-LightGBM 模型,并将其与LSTM、LightGBM模型进行对比,以验证该模型的预测效果。此外,采用CEEMDAN-LightGBM 模型预测利津、花园口这2 个气候环境不同的水文站的水位和流量,比较预测结果,验证该模型的适应性和稳定性,以期为洪水预测提供新的理论依据和实践指导。
1模型构建
为了清晰展示CEEMDAN-LightGBM 模型的优势,将其与LightGBM 模型和具有代表性的LSTM 模型进行对比,以下是各模型的简要介绍。
1.4 CEEMDAN-LightGBM 模型
CEEMDAN 算法在时间序列分解方面具有优势,而LightGBM 模型在回归分析中表现出色,将这2 种方法结合起来,得到一种新模型CEEMDAN-LightGBM。该模型运行包括3 个阶段:分解、个体预测和集成。在第1 阶段,采用CEEMDAN 模型将水文站的水位观测数据分解为k 个组件,也就是k 个IMF,这些组件分别显示出原始序列的高频特性或者低频特性。在第2 阶段,对于每个组件,使用LightGBM 分别构建1 个预测模型,并对每个组件进行预测,得到单独的预测结果。在第3 阶段,将所有组件的预测结果集成为最终结果。在众多组件预测结果集成方法中,选用加法进行集成。CEEMDAN-LightGBM 模型的预测流程见图2。
从图2 中可以看出,基于“分解与集成” 框架的CEEMDAN-LightGBM 模型建模策略为典型的“分而治之”策略。该模型具有以下3 个优点:1)将基于原始序列预测水位的任务分为几个子任务,从更简单的组件进行预测。2)原始序列是非线性和非平稳的,而CEEMDAN-LightGBM 模型对每个分解组件都有相对简单的预测形式。3)使用简单的加法将子任务的结果集成为最终结果。
2数据来源及预处理
2.1数据来源
黄河水情呈现明显的季节性变化,极易受气候影响,流量波动大。为了保证实验的真实性与可靠性,选取黄河利津水文站2022 年3 月18 日至2023 年3 月8日每日12 时的水文观测数据作为原始数据。为了保证所用数据的真实性、可访问性和透明性,主要使用公开数据源[17] ,其中水位和流量数据源自全国水雨情信息网站,温度、湿度、风力和降水量源自中国气象局网站。
2.2数据预处理
1)归一化处理。归一化常被称为标准化,为消除各变量之间量纲不同的影响,同时加快模型训练速度,往往需要对数据进行标准化处理[18] 。根据本文数据特征,采用最大最小标准化进行处理,使模型的输入数据为[0,1],公式为
2)样本划分。为了评估模型性能并验证其预测效果,选取样本数据中75%数据作为训练集用于模型训练,其余25%为预测集用于验证模型的预测效果。
3模型训练与预测结果分析
3.1LSTM 模型
LSTM 模型包含1 个LSTM 层和1 个全连接层(Dense),LSTM 层有50 个单元,使用adam 优化器训练模型,学习率为0.001,迭代次数为100。完成上述训练后,输入数据得出LSTM 模型的水位预测结果,见图3。
3.2LightGBM 模型
LightGBM 模型通过迭代训练多棵决策树来提高预测准确性。模型学习率为0.01,叶节点数(num_leaves)为31,特征抽样率为0.9,每次迭代时用的数据比例(bagging_fraction)为0.8,迭代次数为5后停止训练,如果在连续5 次迭代过程中验证集的均方根误差没有减小,则停止训练,避免过拟合。LightGBM 模型的水位预测结果见图4。
3.3CEEMDAN-LightGBM 模型
CEEMDAN- LightGBM 结合CEEMDAN 算法和LightGBM 模型预测水位。CEEMDAN 算法的主要参数如下:max_imf(最大本征模态函数数量)为2,控制白噪声强度为0.2,使用SIFT(单步插值优化的快速正则化)次数为10。LightGBM 主要参数如下:提升类型(boosting_type)为gbdt,使用梯度提升决策树;目标函数为regression,表示执行回归任务;每棵树贡献的学习率为0.01;每棵决策树的叶节点数为31;每次迭代过程中随机选择的特征比例(feature_fraction)为0.9;每次迭代过程中随机选择的数据比例为0.8;每5 次迭代进行一次bagging。
通过预测水位和流量变化趋势,能够及时预警和应对潜在的洪水事件,最大限度地减少损失,因此采用CEEMDAN-LightGBM 模型分别预测水文站的水位和流量。此外,为评估CEEMDAN-LightGBM 模型预测不同气候环境水文站水位和流量的适应性与稳定性,选取花园口水文站水文数据,比较模型的预测结果,见图5~图8。
4结论
本文提出了一种CEEMDAN-LightGBM 模型,预测给定水文站水位。将2022 年3 月19 日至2023 年3月8 日利津水文站的水文数据作为模型输入,以LSTM、LightGBM 为对照模型,与CEEMDAN-LightGBM模型的预测水位进行对比。另基于与利津水文站气候差别较大的花园口水文站水文数据,研究CEEMDANLightGBM模型的适用性。研究结果显示, 相比于LSTM、LightGBM 模型,CEEMDAN-LightGBM 模型在洪水预测方面表现得更加优秀,其预测值更接近观测值,预测精度更高。这表明在时间序列预测中,CEEM⁃DAN-LightGBM 模型的兼容性更强,能加快数据处理速度、提高精确度,从而提升洪水预报的效率。
黄河水情极为复杂,尤其在极端气候事件频发的情况下,水文数据常常出现突变。黄河及其支流水位呈非线性变化,这些变化往往受到多种气象因素(如强降水、强风等)的影响。现有的预测模型在捕捉水文数据突变及其后续影响上存在挑战,尤其是在极端气候事件频发时。当前采用的CEEMDAN-LightGBM模型面对突变数据的预测能力存在一定不足,需要进一步改进和优化。未来的改进方向包括但不限于增强模型对突变数据的适应能力,可能需要引入更灵活的模型结构或者加强数据预处理能力,以进一步提高模型的稳健性和准确性。此外,对于极端气候事件的响应机制也需要加强,以更有效地预测和应对黄河水情的突发变化。