随机森林模型在悖牛川洪水预报中应用研究
2019-01-23孙苗苗李彬权肖章玲全雨菲
孙苗苗,李彬权,王 颖,肖章玲,樊 静,全雨菲
(1. 河海大学水文水资源学院,江苏 南京 210098;2. 江苏省水文水资源勘测局泰州分局,江苏 泰州 225300)
常用的水文预报模型方法可概括为基于物理过程驱动的水文模型以及基于数据驱动的水文模型两大类。前者是将复杂的水文现象加以概化,建立具有一定物理意义的数学物理模型来预报水情[1],后者则利用数据挖掘技术,从历史水文气象入手,利用智能算法对水文现象成因进行模拟,实现水文预报[2-3]。
长期以来,黄土丘陵区干旱半干旱流域的洪水预报精度水平普遍不高,其主要原因是其自身产汇流机理的复杂性及下垫面人类活动的强烈扰动作用[4]。由于影响降雨径流关系的因素多而复杂,采用第一类基于物理过程驱动的水文模型进行洪水预报,往往难以取得理想的效果。近年来,神经网络、关联规则等数据挖掘技术在水文预报中得到不同程度的应用[5-7],取得良好精度效果,为复杂水文条件地区的洪水预报问题提供了新的思路。随机森林模型是一种新的机器学习方法[8],在水文预报领域也得以应用。Li等[9]采用随机森林算法建立鄱阳湖日水位预测模型,与人工神经网络、支持向量机和线性模型相比,表现为较高的预报精度。Liang等[10]利用随机森林模型生成丹江口水库流域降水场数据序列,耦合SWAT模型进行长期径流预报。赵文秀等[11]则直接将随机森林模型应用于长期径流预报,取得较高预报精度。本文以黄河支流窟野河上游的悖牛川流域为研究区,利用数据挖掘手段建立该流域把口站(新庙站)洪水预报的随机森林模型,验证该模型方法在黄土丘陵区干旱半干旱流域的适用性,尝试解决该地区现有水文模型的洪水预报精度不高的难题。
1 随机森林模型
随机森林是在Bagging集成学习理论和随机子空间方法基础上发展得到的一种机器学习算法[[8,12]。在机器学习中,随机森林是一个包含多个决策树的分类器。与其他模型一样,随机森林可以解释若干自变量(X1,X2,…,Xk)对因变量Y的作用。在构建分类树时,随机森林先从初始样本集中随机抽样(Bootstrap随机抽样),然后为每个样本分别构建决策树。一般情况下,随机森林随机生成几百个至几千个分类树,即可得到多个分类结果,然后对每个分类的结果进行投票,选择得票最高的树作为最终结果[13],见图1。
与当前多种机器学习模型比较,随机森林算法优势明显:它可以处理大量的自变量问题,学习过程快速,且能高效处理很大的数据量问题;现有的随机森林算法不需要顾虑到一般回归问题所面临的多元共线性的问题,而是评估所有变量的重要性;它在部分资料缺失条件下仍能维持一定的准确度[10]。
将随机森林模型应用于洪水过程预报时,在模型构建阶段,由预报因子与预报对象的历史观测数据可构建随机森林模型;在模型预测阶段,只要将最新观测的预报因子数据输入到模型中,便可得到预报对象的预测值。本文研究中预报因子包括流域面平均降雨量、新庙站历史观测流量,预报对象为新庙站待预报时刻的流量。
2 应用实例
2.1 研究区概况
悖牛川发源于内蒙古南部伊克昭盟东胜县内,与乌兰木伦河在陕西神木县城北的房子塔相汇合后注入窟野河,全河长109 km,流域面积2 274 km2[14],地处黄河中游黄土丘陵区,黄土覆盖,地形起伏大,水土流失严重多,年平均气温7.9℃,平均降水量410 mm左右。受季风的影响,属于干旱半干旱大陆性气候,春季干旱少雨,夏季多有暴雨,秋季降霜早冻,冬季酷寒稀雪[15]。新庙站为悖牛川汇入窟野河的把口水文站,本文选取新庙站进行洪水预报研究(图2)。
2.2 结果分析
选用流域内12个雨量站以及新庙水文站1981—2007年的场次洪水资料构建暴雨洪水预报模型,站点分布情况见图2。摘取的次洪过程共48场,时段步长为0.5 h,其中1—36场用为模型率定,37—48场为模型验证。
2.2.1 预报因子筛选结果
将场次洪水的累积ih流域平均降雨量(i=0.5, 1.0, 1.5, …, 3)和提前jh流量(j=0.5,1)作为初选预报因子(自变量),将逐时段洪水流量作为预报对象(因变量),通过统计分析筛选预报因子。
以相关系数为目标函数筛选的预报因子为:①累积2.5 h流域面平均降雨量;②累积3 h流域面平均降雨量;③提前0.5 h的流量;④提前1 h的流量。在模型构建中,随机森林决策树数量为100。
2.2.2 模型结果分析
根据《水文情报预报规范》相关规定[16],采用相关系数、确定性系数、洪峰误差、洪量误差及峰现时间误差5种评定指标分别对新庙站率定期36场洪水和验证期12场洪水模拟过程进行精度评定,结果见图3。可以看出,率定期和验证期所有场次洪水的相关系数均大于0.6;率定期和验证期相关系数的平均值分别为0.93和0.86。根据确定性系数指标,率定期满足精度要求(确定性系数大于0.7)的场次为31场,验证期确定性系数满足精度要求的场次为7场;率定期和验证期确定性系数的平均值分别为0.84和0.71。所有48场洪水中,共有44场洪峰达到合格,合格率为91.7%。洪峰误差、洪量误差及峰现时间误差指标上来看,大部分场次满足精度要求,但也存在个别场次不满足精度的情况。总体来看,随机森林模型模拟的场次洪水结果在率定期的精度要优于验证期。
图4给出了新庙站率定期6场、验证期2场洪水的模拟流量过程线与实测序列的对比。从拟合效果来看,随机森林模型对单峰与复式洪水均能较好地模拟出其涨落过程,在峰、量及峰现时间等防洪工作中重点关注的防洪要素上精度较高。
回顾当前黄河中游干旱半干旱区水文模型研究现状,集总式水文模型与分布式水文模型(包括超渗产流及超渗-蓄满混合产流等机制)在实际作业中的洪水过程预报均难以满足精度要求[4]。因此,现有的水文模型在黄河中游地区的场次洪水预报中的应用精度均不高。而整体来看,本文构建的随机森林模型在悖牛川流域新庙站洪水模拟中具有较好的精度,模拟的与实测流量过程线吻合度良好,一定程度上反映了随机森林模型在该地区洪水预报中的适用性。尽管本文构建的随机森林模型精度有保证,但也存在部分场次洪水精度不高的现象,其原因比较复杂,主要表现为:①预报因子比较单一,目前只选择了降雨因子与流量因子,悖牛川流域属典型干旱半干旱区,降雨时空分布不均,水土流失严重,山地居多等都会对产汇流过程产生复杂影响; ②面雨量估计精度误差,雨强是超渗产流的决定性因素,研究流域为超渗产流区,降雨强度大,降雨历时短,面雨量计算时会有一定均化误差,导致模型结果存在不确定性;③模型的自身局限性,随机森林模型属数理统计方法,可能存在缺乏对产汇流形成机制全面考虑的局限性。因此,在改变洪水预报对象的情况下,随机森林模型应用效果可能有所变化,需要进一步深入研究。
3 结论
本次研究选取黄河中游干旱半干旱地区悖牛川流域1981—2007年的48场次洪水资料,通过数据挖掘手段筛选新庙站洪水预报的关键预报因子,构建基于随机森林模型的洪水预报模型;模型结果表明,利用随机森林模型进行洪水预报的精度满足要求。此外,随机森林模型具有方便快捷、操作简单及高效率的优点,可为黄河中游干旱半干旱地区的洪水预报提供有益参考。