基于不同提升树模型的河道水沙运移规律与模拟研究

2023-02-17张宸宇

水资源开发与管理 2023年1期

张宸宇

(北京金河水务建设集团有限公司，北京 102206)

作为区域水文循环的重要组成部分，河道水沙含量及运移规律是影响区域水土资源平衡的重要因素之一[1-2]。全球气候变化，严重影响了区域河道的径流及含沙量的变化规律，人类活动同样为影响河道变化的关键因素[3]。联合国政府间气候变化专门委员会(Intergovernmental Panel on Climate Change,IPCC)第五次评估报告中明确指出，全球气温在近年来上升了0.85℃，在未来几十年将上升1.5℃，这严重影响了居民正常居住和社会的稳定发展[4]。全球气候变化对河道水沙过程的影响成为了如今相关部门的研究热点。

关于区域水沙运移规律的研究国内已取得了一定的进展。范俊健等[5]基于实测数据研究了黄河上游多年的水沙变化规律，指出区域不同站点的径流和输沙量均呈现逐年减少的趋势；李金鑫[6]研究了淮河干流多年的径流和含沙量变化趋势，指出该区域的年径流量和年输沙量均呈现了逐渐升高的趋势；李政航等[7]研究了黄河在内蒙古境内的水沙分布特性，指出区域年径流和输沙量均呈现逐渐显著升高趋势。由于区域气候条件与人类活动的影响程度不同，导致不同区域不同河道水沙运移规律存在明显差异。

由于不同区域河道水沙运移规律差异较大，因此，构建区域水沙运移的模型成为了掌握水沙分布规律的关键。丁昌春等[8]在松花江哈尔滨河段构建了水沙运动模型，申红彬等[9]在黄河下游同样构建了水沙运动模型，均取得了较好的计算结果。由于河道水沙运移与气候条件、人类活动等多种影响因素有关，传统的模型算法无法很好地反映水沙与各影响因素之间的非线性关系，也限制了模型的使用。随着科技的发展，机器学习模型的应用很大程度上解决了这一问题，王俊杰等[10]基于小波神经网络构建了黄河输沙量预测模型，取得了较高的精度。

随着研究的深入，由于传统机器学习模型具有已发生局部极值且收敛速度较慢的缺点，导致传统的机器学习模型已无法满足各领域精度的要求。一种引申的生物启发算法被逐渐应用于机器学习模型优化与改进中。本文基于一种改进的鲸鱼算法(MWOA)，以梯度提升决策树(CatBoost)模型为基础，构建了MWOA-CatBoost综合模型，并与粒子群算法(PSO)、遗传算法(GA)2种传统优化算法构建的优化模型(PSO-CatBoost和GA-CatBoost)以及2种传统提升树模型(极端梯度提升树XGBoost和自适应提升树AdaBoost)进行对比，找寻河道水沙预测的适宜模型。

1 研究方法

1.1 研究资料获取

本文数据以小流津河2013—2018年的实测径流及含沙量数据为基础，同时收集了区域最高温度、最低温度、降雨、蒸散、植被指数、土壤分布、DEM高程等数据。植被与土壤数据来源于 Maryland大学发布的全球 1km土地覆盖数据集。

1.2 研究方法

1.2.1 梯度提升决策树模型

梯度提升决策树(CatBoost)模型是一种新型的提升树模型。该模型可在算法训练过程中对不同分类特征的变量进行处理，减少传统提升树模型的过度拟合现象[11]。在传统提升树模型中，采用样本平均值作为节点分裂的标准，具体公式为

(1)

传统模型的缺点为用样本的平均值作为标准，当训练数据集和测试数据集的结构不同时，可能会出现条件偏移。因此，在CatBoost模型中对这个问题进行了改进，添加了先验分布。公式(1)可变为

(2)

(3)

式中：p为先验分布；σj为置换项；α为权重。

采用CatBoost模型可提高计算维度，解决了传统模型发生条件偏移的问题，具体步骤可见文献[12]。

1.2.2 改进鲸鱼优化算法

鲸鱼优化算法(WOA)是通过模拟鲸鱼捕食的行为而引申出的一种生物启发式优化算法[13]。传统的WOA算法计算简单，精度较高，但存在早期收敛等问题，易产生局部极值。因此，在应用时常需对算法进行优化，提出MWOA算法进行应用，具体优化过程如下：

a.Logistic映射优化初始种群。WOA算法采用随机初始化种群来更新鲸鱼个体的位置，该方式的缺点为可能造成初始种群分布的不均匀性，从而影响后续算法的精度。在初始化种群时引入Logistic映射，增加了种群初始化的均匀性，具体公式为

yk+1=ρyk(1-yk)

(4)

式中：ρ为Logistic映射系数；yk为0～1的随机数。

b.自适应权重。本文将自适应权重引入鲸鱼算法的位置更新公式中，以增强全局搜索能力和局部搜索能力，具体公式为

(5)

c.交叉变异处理。为避免算法陷入局部极值问题中，在算法中利用差分优化算法对个体进行变异处理，再将目标个体与变异个体进行交叉处理，增加种群的多样性，经优化后的MWOA算法对CatBoost模型进行了优化，MWOA-CatBoost模型的具体运算步骤可见文献[14]。

1.2.3 模型精度对比

为验证MWOA-CatBoost模型的精度，本文将该模型计算结果与WOA-CatBoost模型及2种传统优化算法(粒子群优化算法PSO和遗传算法GA)优化CatBoost模型进行精度对比，同时与2种传统提升树模型(极端梯度提升树XGBoost和自适应提升树AdaBoost)比较，模型基本步骤可见文献[15]。

构建以均方根误差(RMSE)、相对均方根误差(RRMSE)、平均绝对误差(MAE)、决定系数(R2)、效率系数(Ens)为基础的评价体系，具体公式为

(6)

(7)

(8)

(9)

(10)

当评价指标较多时，可能会出现评价结果不统一的现象，为综合评定不同模型在误差及一致性上的精度，研究中常采用综合性指标GPI指数对模型精度进行排名，得出最优模型，GPI指数可整合5个指标的综合评价结果，最终得出精度最高模型[16]，公式如下：

(11)

式中：αj为常数；gj为不同指标的缩放值的中位数；yij为不同指标的尺度值。

2 结果与分析

2.1 河道水沙变化规律分析

河道水沙多年分布规律见图1。由图1可以看出，在全年内，河道径流和含沙量存在明显的规律性。其中，径流在年内为明显的二次抛物线形式，在6—8月径流量均为最大。含沙量在年内的1—3月、11—12月取值均为0，在8月达到最大值，多年含沙量在8月的最高取值为0.45～7.38kg/m3。河道年内径流与含沙量的变化与气候因素和人类活动有关，本文在模型训练时，以降雨、蒸散、植被指数、土壤指数为输入数据，采用Matlab2018a软件进行计算，获得不同模型的模拟结果，数据输入截面见图2。

图1 河道水沙多年分布规律

图2 数据输入界面示意图

2.2 不同模型水沙日值模拟结果

不同模型模拟河道径流量和含沙量日值与实测值的拟合结果分析见图3和图4。由图3可以看出，在模拟河道径流时，MWOA-CatBoost模型的拟合效果最优，其与实测值的拟合方程斜率为0.990，决定系数R2为0.998；WOA-CatBoost模型精度次之，其与实测值的拟合方程斜率为1.028，决定系数R2为0.990。在优化模型中，PSO-CatBoost模型和GA-CatBoost模型的拟合效果较差。优化模型的拟合效果普遍优于传统的提升树模型，在传统模型中，CatBoost模型拟合效果最优，XGBoost模型的拟合效果次之，AdaBoost模型精度较低。

图3 不同模型模拟河道径流量拟合结果分析

图4 不同模型模拟含沙量日值与实测值拟合结果分析

在模拟河道含沙量时，其基本规律与模拟径流时基本一致。由图4可以看出，MWOA-CatBoost模型的拟合效果最优，其与实测值的拟合方程斜率为0.907，决定系数R2为0.998；AdaBoost模型精度较低，其与实测值的拟合方程斜率和决定系数R2分别为0.840和0.909。

2.3 不同模型水沙月值模拟结果

基于2018年实测数据计算得出的不同模型水沙月值的拟合结果见图5。由图5可以看出，不同模型模拟值的变化趋势与实测值基本一致。在模拟径流时，不同模型结果均呈现开口向下的二次抛物线形式，河道在12月至次年4月的径流量较少，主要集中在6—10月，其中MWOA-CatBoost模型模拟的月值与实测值最为接近。在模拟含沙量时，不同模型的模拟结果主要集中在4—10月，同样MWOA-CatBoost模型计算结果的精度最优。

图5 不同模型模拟水沙月值结果分析

2.4 不同模型水沙模拟精度对比

为进一步验证不同模型的计算精度，本文计算了不同模型的精度指标体系，结果见表1和表2。由表1可以看出，在模拟河道径流时，MWOA-CatBoost模型精度最高，其RMSE、RRMSE和MAE仅为0.236m3/s、3.570%和0.165m3/s，误差在所有模型中最低，其R2和Ens分别为0.998和0.997，一致性指标在所有模型中最高，其GPI为1.902，在所有模型中排名第1；其余3种优化模型的精度次之，但精度均优于传统模型。在传统模型中，CatBoost模型精度最高，其GPI为-0.214，在所有模型中排名第5，AdaBoost模型精度最低，其GPI仅为-3.000。

表1 不同模型模拟径流量精度对比

由表2可以看出，在模拟含沙量时，MWOA-CatBoost模型精度最高，其RMSE、RRMSE和MAE仅为0.103kg/m3、19.230%和0.023kg/m3，其R2和Ens分别为0.998和0.989，GPI为2.204，精度最高；WOA-CatBoost模型和PSO-CatBoost模型的精度次之，其GPI分别为1.604和1.214，在所有模型中排名第2和第3。在传统模型中，同样表现为AdaBoost模型精度最低。

表2 不同模型模拟含沙量精度对比

2.5 不同模型模拟水沙泰勒图对比

不同模型在模拟河道水沙时的泰勒图见图6。在图6中，可清晰反映出模型计算结果的均方根误差、相关系数和标准差之间的关系。由图6可以看出，MWOA-CatBoost模型与实测值最为接近，其计算结果与实测值的相关系数最高，误差及标准差最低，这进一步证明了该模型的精度。

图6 不同模型模拟泰勒图对比

3 结语

本文基于优化的鲸鱼算法对CatBoost模型进行构建，得到了MWOA-CatBoost模型，对河道水沙进行了模拟，并将计算结果与WOA-CatBoost模型、PSO-CatBoost模型、GA-CatBoost模型、CatBoost模型、XGBoost模型和AdaBoost模型结果进行了对比，指出MWOA-CatBoost模型在模拟水沙日值和月值时的精度最高，可推荐模拟河道水沙数值。本文结论可为水文部门防汛防沙措施的制定提供理论支持。