水文时间序列预测模型研究进展
2019-07-30程扬王伟王晓青
程扬,王伟,王晓青
(1.重庆交通大学河海学院,重庆400074;2.重庆交通大学西南水运工程研究所,重庆400042)
水文时间序列[1]是随着时间推移观测到的水文要素的离散有序集合。水文时间序列具有随机性、模糊性、非线性、非平稳性、多尺度变化等多种特性[2],其特性复杂多变,组成成分也极其复杂(图1),目前认为水文时间序列主要由趋势项、周期项和随机项三部分组成[3]。研究水文时间序列的特性和预测方法,尤其是利用观测的水文序列进行水文预测,对于水文中长期预报具有重要的现实意义。目前,处理实际预测问题的一般分析思路是:运用数学方法将时间序列分解成不同尺度下的分量,然后采用合适的预测模型建模,最终得到序列的变化趋势和预测值。
传统的预测模型主要有回归分析等,其原理简单、理论完备、结构清晰、应用成熟。生产部门多采用传统的方法进行水文预报,但是随着人们对水文学的研究逐步深入,学者们逐渐引入新兴的技术和方法来提高预报精度。近年来,新兴类的预测模型虽然应用较少,但是其准确、高效、快速、可操作性强的优点引起了高度重视,不少学者在这方面展开了大量研究。本文就两类时间序列的预测模型原理、应用进行了简要总结,并对模型的不足和改进进行了展望。
1 传统预测模型的应用
1.1 回归分析类模型
回归分析作为一种数理统计方法,用于处理水文数据变量间的统计相关性。回归分析技术包括线性回归和非线性回归分析技术,线性回归分析技术,如一元线性回归、多元线性回归和逐步回归分析常用于水文学。一元线性回归只研究了一个预报因子和研究对象之间的关系,这与受多因子影响的水文系统实际情况不符合,多元线性回归弥补了这一个缺陷,然而针对诸多影响因子的主次关系问题,逐步回归在多元线性回归的基础上全面考虑了各个影响因子对预报对象的影响程度。由于优选了预报对象的影响因子,逐步回归模拟效果优于多元回归。但是在逐步回归分析中常常遇见一些问题,比如因子个数选择的问题,又比如有时候某些物理意义明确的因子反而筛选指标值不大等问题。
线性回归分析适用于平稳水文序列的预测,对于复杂的非线性时间序列模拟效果较差。目前发展的非线性回归分析技术主要是多元门限回归、自回归和最近邻抽样回归,门限回归用分区间的线性模型叠加在一起来描述序列在整个区间的非线性特性,它能有效描述非线性序列的突变性、周期性和相依性。自回归模型具有时间相依性的非常直观的形式,可以反映水文序列的主要统计特性,并且能够体现水文过程的物理意义。不同于前2种模型,最近邻抽样回归不具有假设基础,它不需要考虑研究对象的相依形式和概率分布形式,也不需要识别参数,它的基本理论是认为现在发生的一切总能在历史轨迹中找到相似情况。
回归分析虽然是一种传统的预测方法,但由于其结构简单,理论严谨,并且随着理论进一步完善已延用到现在,今后随着与其他方法的耦合应用,回归分析方法仍然可以在未来的实际应用中体现它的价值。
1.2 马尔科夫定性预测模型
马尔科夫预测模型是应用马尔科夫链的基本原理和方法来分析时间序列变化规律的模型,该模型仅用于满足马尔科夫过程的随机过程。马尔科夫过程的统计特性取决于初始分布和转移概率,马尔科夫预测模型通常用于预测水文时间序列未来状态,比如未来平水年的出现概率,未来水文干旱年出现的概率等。杜懿[4]在研究南宁市年降水过程中采用马尔科夫链方法确定已有的55 a降水量序列状态,再用根据已有序列状态之间的转移概率矩阵预测未来某时间段降水量不同状态的概率大小。孙鹏等[5]等将鄱阳湖1956—2005年的长序列月径流资料和月降雨资料分为气象水文干旱、气象水文湿润等5种状态,再运用马尔科夫链计算状态之间的转移概率,最后运用转移概率矩阵来预测未来某时段的干旱或湿润状态出现的概率大小。
2 新兴预测模型的应用
2.1 支持向量机
支持向量机是由 Vapnik[6]等人于1995年首先提出的,是一种以统计学习为理论基础的监督学习模型,它主要用于解决分类和回归分析问题,其基本思想是利用核函数将低维度非线性问题转换成高维度线性问题,在高维特征空间中利用核函数展开定理解决非线性问题。
支持向量机在求解过程中采用了二次规划优化来得到全局最优解,解决了神经网络无法避免的局部极小问题。核函数用于巧妙地解决维数问题,使算法适合于处理非线性问题。另外,支持向量机具有非常好的推广能力的原因在于其应用了结构风险最小化原理。迄今为止,支持向量机已成功地应用于分类、函数逼近和时间序列预测等多方面。任化准[7]将支持向量机运用到观音岩水库月径流预报,效果良好;刘德地等[8]采用将偏最小二乘回归与支持向量机耦合的方法,建立了咸潮预报模型,并应用该模型对珠海市平岗站盐度的变化进行了模拟和预测,结果表明该方法预报精度优于BP神经网络和多元回归模型。支持向量机模型的成败很大程度取决于参数的选择,学者们在参数选择方面做了大量研究:徐莹等[9]运用遗传算法优选参数,实现参数全局自动化选取;张俊等[10]运用蚁群算法优化参数,将优化后的模型用于福建安砂水库月径流预报结果表明该模型拟合精度高、泛化能力强;张岩等[11]运用粒子群算法剔除序列的冗余信息和噪声优选参数,以丹江口水库1981—2016年实测资料为例建立了合适该水库的预报模型,模型的合格率为83.33%。
支持向量机能较好地解决实际问题,如小样本、非线性、高维数和局部极小点等,但在实际应用中,核函数和核参数的选择,以及训练时间和其他问题仍需要深入研究。
2.2 模糊分析
20世纪80年代,陈守煜教授提出了模糊水文学的概念,这是将模糊数学引用到水文学的起点。经过近30 a的发展,广大水文工作者已经开展了十分广范的应用研究,其中最为突出的应用是模糊聚类、模糊识别、模糊预测3个方面。
模糊聚类理论应用于水文预报因子选择,克服了水文预测因子随机性和模糊性带来的困难[12- 13];而模糊聚类分析的极值问题一直影响着聚类效果。丁亚明等[14]提出了一种用主成分分析降维简化计算的水文分区法,实践证明这种方法优于传统水文分区方法;针对模糊聚类因子选择的主观性问题,郭瑜[15]提出了一种半监督迭代模糊聚类模型,用已知的聚类成果训练预报聚类过程,这为探索和控制复杂的系统预报提供了新方法。模糊识别理论应用于预报决策解决了无资料地区典型年选择[16],相似流域优选[17],地下水水源识别[18]等诸多不确定性问题。基于因果聚类的模糊预测模型鉴于自身能够很好地分析多因子对洪水过程的影响规律,被用来建立实时洪水分类预报,吴恒卿等[19]将其运用于东水西调授水水库,发现该方法可以迅速判断洪水类型并且选择预报参数。
主观性太强是模糊分析运用于实际问题时的不合理之处,通常会导致预报结果精度不高。但模糊数学应用在水文学上仅仅才开始,它在处理分析水资源系统的不确定性问题上意义显著,相信今后会得到更加广泛的研究和应用。
2.3 灰色系统分析
中国邓聚龙教授是灰色系统分析的创始人,他于1982年首先提出了这个研究对象是一个信息不全系统的理论,并应用于水文资料信息不充分条件下的中长期预报。灰色系统理论由于在解决贫信息、少数据、小样本问题方面的独立优势,被广泛应用于水资源评价、规划、管理和预测中。GM(1,1)模型是众多灰色模型中最简单和最广泛应用的模型。
根据丹东地区5 a的年降雨量系列数据,任海清[20]利用GM(1,1)建立预报模型来预测未来降雨;张辉[21]根据某河流监测站的实测年最高洪峰水位数据,利用灰色GM(1,1)建立预报模型,并且深入分析了灰色理论构建模型的可行性与可靠性。
灰色系统理论由于对建模数据没有特殊的要求和限制,通常广泛应用于水资源评价、规划、管理和预测中。但是在实际应用中这类模型精度不高,会受到时间序列变量的影响,加之对极小值预测不准,模型还需要进一步改进。
2.4 人工神经网络
人工神经网络模型是一种模仿人脑结构及其功能的非线性信息处理系统,具有自适应、自组织、自学习的能力,拥有较强的容错性和非线性映射能力。迄今为止,神经网络模型多达数十种,其中BP神经网络是迄今为止运用最广泛的网络算法,它是一个三层的前馈网络拓扑结构,包含输入层、隐层和输出层,这种结构具有很强的映射能力,对复杂信息的处理能力大大提高,BP神经网络在水文中长期预报中应用广泛。
1943年W.Mcclloch 和W.Pitts提出了神经元模型,这是人工神经网络的起点。1957年,Rosenblatt提出“感知机”的概念把人工神经网络的研究从理论探讨付诸于实践[4]。20世纪60年代初期,Widrow提出了自适应线性元件网络,在此基础上发展了非线性多层自适应网络[4]。1969年是神经网络的研究跌入低谷的一年,这一年Minsky和Papert用数学证明了单层感知机的严重缺陷。20世纪80年代期间提出的Hopefield网络和反向传播(BP)算法是神经网络走出低谷的里程碑[22]。人工神经网络在水科学领域的研究应用开始于1992年,这一年French等[23]把人工神经网络应用到降雨预测。Hsu和Gupta等[24]在1997年采用了LLSSIM算法来优化人工神经网络,并将其应用在日降雨径流过程模拟中,结果很好。在中国国内,吴超羽等[25]在1994年应用了BP神经网络对飞来峡水电枢纽北江横石站的流量进行了预报,发现神经网络既可增加预报长度,又可提高预报精度。2002年苑希民等[26]出版的《神经网络和遗传算法在水科学领域的应用》一书系统阐述了模型的基本原理,以及在水科学领域的实例应用。2017年,李敬库、王鹏等[27-28]分别将神经网络应用于水资源规划和水文中长期预报中取得了较好效果。鉴于人工神经网络容易陷入局部最优的问题,刘忠民、朱跃龙等[29-30]建立了基于小波分析的人工神经网络组合预测模型,实践证明模型精度高于传统预测模型。
人工神经网络鉴于自身良好的自学习、自组织、自适应能力和高度的容错性,被广泛应用于水文学中,但其在实际应用中也暴露出诸多不足,特别是容易陷入局部最优、不易收敛和过分依赖初值等。加之网络层数、神经元个数的选择缺乏相应的理论指导,使得神经网络的推广能力有限,针对这些问题还需要进行大量研究。
2.5 小波分析
小波分析作为20世纪80年代发展起来的数学分支,基于自身良好的时频局部变化分析能力,它被广泛地应用于诸多领域。随着水文工作者将小波分析引入到水文学中,大量基于小波分析的计算、评价、预测方法被提出。小波变换把时间序列分解成确定成分和随机成分,这样可以达到识别原始序列主周期的目的,同时还能识别该序列的突变特征。
在Foufoula-Georgine和Kumar[31]较早研究了小波分析方法水文学的应用之后,Labata[32-34],Schaefli[35]及Coulibaly[36]等人对水文小波分析方法做了大量研究。此外,Gauchere[37]利用小波变换的时、频局部特性并结合其他径流时间变异参数对法国地区9个流域进行分类,为偏远流域特征描述提供了一种新方法;Nakeken[38]将小波变换应用于降水、径流以及降水~径流关系的时间变异研究。国内,王文圣和丁晶等人[39]对小波分析在水文学的应用现状做了综述,并展望了未来的研究趋势和方向。2005年王文圣教授出版了国内第一版水文学领域关于小波分析的著作——《水文小波分析》[40]。桑燕芳等研究了小波函数的选择方法[41]、小波消噪[42]、分解层数选择[43]等关键问题。近年来小波分析耦合人工神经网络的预测模型成为了水文时间序列的研究热点,不少学者对此展开了大量研究[44-48],耦合模型的预测精度优于单个模型。
鉴于小波理论在分析数据时良好的局部聚焦优势,其形成和发展引起许多水科学工作者的重视,并逐渐引入到水文水资源研究中。小波分析理论和方法尚处于发展阶段,还远未成熟,在水文水资源中的应用也仅仅是开端,今后的发展和应用潜力很大。小波在实际应用中,由于小波函数选择的不同,结果往往差别很大,小波函数的选择至关重要,这一方面需要进一步研究。
3 结论与展望
水文时间序列预测模型分为传统与新兴两大类。传统的预测模型主要是统计类模型,运用统计学原理,从已知的时间序列中得到水文规律,新兴的预测模型是在统计学理论基础上结合多种理论,考虑到了水文时间序列的随机性,模拟的结果更加准确。本文深入分析了两类预测模型的原理、应用领域后提出了各自的优势和不足,对今后水文预测模型的发展方向提出几点展望。
a) 引进非线性预报方法。水文要素在时空变化上具有非线性特点,现行水文预报多以线性预报为主,以线性预报方法预测非线性序列,无疑增大了模拟结果的偏差,因此有必要引进新的分析方法,提高预报的精度。
b) 耦合多种模型来提高预测的准确性。鉴于水文系统变化的复杂性和不确定性,单一的预测模型难以达到要求的精度,例如谱分析受序列的长度影响较大,相关分析受数据的随机性影响较大;人工神经网络收敛速度慢、可能陷入局部最优无法完全收敛等。因此,应该通过模型之间的耦合来弥补单一模型的不足,以此来提升水文时间序列预测的精确性和可靠性。
c) 数据驱动下的预测模型应该考虑水文要素的物理机制。有时候水文变量之间的物理联系不大,但是计算所得的相关性很大;又或者模型计算得来的要素之间联系很小,但是物理联系很大,这两种情况下无疑都会使得模拟结果偏差变大。
d) 检测多种预报因子对预报精度的影响。人类活动、全球气候变暖、大气环流等因素往往从不同的程度影响着水文过程,比如厄尔尼诺现象对大陆水文气象的降雨、径流有着一定的控制作用。展开各个影响因素的规律分析,有利于提高预报精度。