基于决策树技术的闹德海水库入库沙量预报
2021-02-25王晓鹏
王晓鹏
(辽宁省水利水电勘测设计研究院有限责任公司,辽宁 沈阳 110006)
1 概 述
泥沙淤积现已成为多数已建水库正常运用的制约条件,尤其对于北方水库,天然径流量年内分布极不均匀,大部分来水几乎都集中在汛期,而汛期的来沙量也占到全年来沙量的80%以上。多泥沙河流水库的入库沙量主要是由汛期洪水携带入库,因此,入库洪量和沙量的相关关系,对于研究发挥水库综合效益与排沙之间的矛盾是非常有意义的。入库沙量的预报具有影响因素多、不确定性强等特点。由于下垫面对降雨复杂的作用机制,对于不同的下垫面条件,即使降雨量和降雨过程相同,产沙量也相差甚远;而对于相同的下垫面条件,降雨量、降雨过程等降雨特征也直接决定了产沙量的大小。
本文通过统计分析闹德海水库的入库水量、沙量资料,以闹德海水库所在的柳河流域为研究对象,对比分析柳河流域的不同支流流域下垫面情况,对水库入库沙量的影响因子进行离散化处理,利用决策树数据挖掘技术,建立各项因素之间的关系,达到预测水库入库沙量的目的。
2 决策树技术的原理与方法
决策树技术是一种被广泛应用的逻辑方法,利用大数据原理,在看似不存在相关关系的样本数据中,对数据进行分类、归纳和总结,分析出一种决策树式的相关关系规则。决策树技术建立了由上至下的递归的形式,决策树形式中的每一个节点代表了一个属性,该属性以属性增量或者递增率作为启发信息,对样本数据进行离散;决策树中的分支则表示着属性的输出。
决策树技术主要包括ID3算法和C4.5算法。ID3算法是一种较为基础的算法,目前使用较为广泛的算法大部分以ID3算法作为基础。C4.5算法以ID3算法为基础,并进行了一定改进。C4.5算法与ID3算法一样采用增量最大的属性作为决策树结构的结点,但是却改善了ID3算法偏向于取值多的属性缺点,本文中将采用较为先进的C4.5算法进行分析建模研究。
3 水库入库水沙关系分析
3.1 计算方法
分析降雨产沙量首先需要找到影响降雨产沙量的因素,然后利用历史降雨及产沙量资料建立模型,拟合水库入库水沙关系。
本次研究选取降雨中心分布、降雨过程分布值a、最大3h降雨量、前期影响雨量Pa、水库入库输沙量5个因素作为模型的影响因子。降雨中心分布的差异直接体现了不同下垫面的宏观差异,对降雨产沙量影响较大;降雨过程分布值a,反映了单次降雨的过程和降雨强度,是影响产沙量的另一个重要因素;最大3h降雨量,对于北方降雨基本可以反映单次降雨的总降雨量,宏观上决定了水量和沙量的关系;前期影响雨量Pa,根据产流原理,蓄满产流的前期影响雨量决定了单次降雨的径流量。
各个影响因子有n个数据样本,水库入库沙量为模型输出因子,降雨中心分布、降雨过程分布值a、最大3h降雨量、前期影响雨量Pa为输入因子。输出因子存在m个样本数值,定义m个Pi(i=1,2,…,m)。任意一个样本数据的期望值为
假设输入因子I有p个不同取值{a1,a2,…,ak},可用因子I将指定数据集合S分为P个子集合{C1,C2,…,Ck}。假设I为影响因子,则由P集合衍生的分支与该子集为对应关系。假设子集Ci中Pi的样本数为pij,那么I子集的熵为
根据上述公式,对于特定的子集Cj的期望值为
期望值和熵值可获得信息增率,对于输入因子I上的分支,可以由Gain(A)=I(p1,p2,…,pm)-E(A)得到,则信息增率公式为
以该分支的集合增率继续分解样本,直到划分完所有因子为止,从而得到水库入库沙量这个输出因子的决策树模型。
3.2 模型构建
决策树技术模拟单次降雨的输沙量,需要对各项输入因子进行离散处理,处理后的输入因子作为决策树的节点,并以此继续进行向下分支,以该分支的数据对样本进行持续划分,直到划分完所有因子为止(见图1)。
图1 决策树分类示意图
选取降雨中心分布、降雨过程分布值a、最大3h降雨量、前期影响雨量Pa这4个因素作为模型的输入因子,水库入库输沙量作为模型的输出因子,分别对各项因子进行离散处理。离散分级情况见表1。
表1 因子的离散分级情况
4 闹德海水库的降雨输沙量预报模型应用
本文选择辽宁省闹德海水库进行决策树入库沙量模拟,以最大3h降雨量为决策树模型的主要输入因子,降雨中心分布作为次要输入因子建立决策树模型(见图2)。
图2 闹德海水库降雨输沙量预报决策树模型
若最大3h降雨量为1~2级,降雨中心主要分布在石门子流域,则入库输沙量为1~3级,降雨过程分布值a越大,输沙量越大,若降雨中心分布属于均匀分布,则入库输沙量为3级;若最大3h降雨量为3级,降雨中心主要分布在石门子流域,则入库输沙量为2~4级,降雨过程分布值a越大,输沙量越大,若降雨中心分布属于均匀分布,则入库输沙量为4级;若最大3h降雨量为4级,则入库输沙量为6级。
5 闹德海水库的降雨输沙量预报结果分析
以本文选择的决策树模型,对闹德海水库历史25场洪水进行模拟预报,其中1990年的第二场洪水预报误差偏小了4个等级,1998年、2000年、2002年、2004年洪水预报误差偏大1~2个等级。能够准确预报出水库入库输沙量的洪水达到20场次,准确率达到80%(见表2)。
表2 分级预报入库输沙量结果
6 结 语
本文采用决策树数据挖掘技术,以柳河流域闹德海水库为例,选取降雨中心分布、降雨过程分布值a、最大3h降雨量、前期影响雨量Pa这4个因素作为模型的输入因子,水库入库输沙量作为模型的输出因子,进行了决策树建模和模拟。模拟的25场历史洪水中,准确预报出水库入库输沙量的为20场,准确率达到了80%,在泥沙预报领域内,属于较高水平。利用该模型对多泥沙河流水库的入库沙量进行预报,对水库水沙调度有一定的指导意义,有利于多泥沙河流水库实现冲淤平衡,从而更好地发挥水库综合效益。