复权马尔可夫链及其在怒江水沙预测中的应用
2018-01-09刘新有彭海英吴捷谢飞帆
刘新有+彭海英+吴捷+谢飞帆
摘要:[HJ18mm]针对传统马尔可夫链及其改进的预测方法只能进行状态预测的局限,根据相依随机变量的特点,在以传统马尔可夫链预测方法求得各状态预测概率的基础上,进一步以状态预测概率为权重与状态平均值加权求和,实现了马尔可夫链预测方法从状态预测到数值预测的关键性改进。利用我国西南国际大河怒江干流道街坝水文站1957-2010年径流和1964-2010年悬移质输沙序列为分析期,2011-2015年径流和悬移质输沙为验证期,对所建立的复权马尔可夫链预测方法步骤进行验证表明,复权马尔可夫链预测方法具有较高的数值预测精度,能够满足随机时间序列短期数值预测的需要。
关键词:复权马尔可夫链;数值预测;径流;悬移质输沙;怒江
中图分类号:P333文献标识码:A文章编号:
16721683(2017)06002607
Abstract:In view of the limitations of traditional Markov chain and its improved prediction methods which can only predict the state,in this paper we realized a critical improvement of the Markov chain forecasting method to being able to conduct numerical predictionWe did so by using weighted summation of the average value of each state multiplied by the corresponding predicted probability,on the basis of obtaining the predicted probability of each state with the traditional Markov chain forecasting method according to the characteristics of dependent stochastic variablesThe data of this study were collected from Daojieba hydrological station on the Nujiang river,which is a famous international river in southwest ChinaWe used the runoff series from 1957 to 2010 and the suspended sediment series from 1964 to 2010 for analysis,and used the runoff and suspended sediment series from 2011 to 2015 for validationResults showed that the reweighted Markov chain forecasting had a high accuracy in numerical prediction and could meet the demand of shortterm numerical prediction in stochastic time series
Key words:reweighted Markov chain;numerical prediction;runoff;suspended sediment;Nujiang river
馬尔可夫链是俄罗斯数学家马尔可夫1906-1912年间提出的一种随机事件预测的重要方法,在教育、经济、生物、农业、灾害、水文气象、环境预测等众多领域得到了广泛应用。尤其在水文气象预测中,马尔可夫链预测方法应用非常广泛,并在应用过程中不断得以改进,加权马尔可夫链[112]、灰色马尔可夫链[1317]、叠加马尔可夫链[18]、时间序列马尔可夫模型[19]、基于多重转移概率的马尔可夫模型[20]均取得了较好的预测精度。夏乐天等[2122]系统研究了各种马尔可夫链预测方法在水文预测中的应用,并对比了三种常用马尔可夫链预测方法的优劣,认为加权马尔可夫链预测方法精度最高。这些研究为马尔可夫链预测方法的应用和发展起到了积极作用,但这些改进方法仍然没有超出对随机事件状态预测的范畴。因此,如何根据马尔可夫链预测状态概率分布得到预测值仍然有待解决[12]。本文在加权马尔可夫链预测、基于绝对分布的马尔可夫链预测和叠加马尔可夫链预测方法的基础上,进一步以状态预测概率为权重,结合状态平均值进行加权求和,实现了马尔可夫链预测方法从状态预测到数值预测的关键性改进,并通过怒江水沙预测实例对复权马尔可夫链预测方法的数值预测精度进行验证。
1复权马尔可夫链预测方法
马尔可夫链通过统计随机事件过去一定时期内的状态转移概率来预测将来状态变化的概率,其中时间参数集T={0,1,2,…}及状态参数集E={0,1,2,…}称为马尔可夫链。在实际应用中,一般采用齐次马尔可夫链,即对任意参数u,k∈T,有
Pij(u;k)∈E(1)
式中:Pij(u;k)表示随机事件u时段所处的状态i,经过k步状态转移后变为状态j的概率。
传统齐次马尔可夫链的状态转移步长一般取1,即利用初始分布推算未来状态的绝对分布,没有考虑各种步长马尔可夫链的绝对分布在预测中所起的作用。为弥补这一缺陷,一些学者将各种步长马尔可夫链求得的状态绝对分布叠加起来进行状态预测,但在叠加过程中没有考虑各种步长在权重上的差异。因此,利用各种步长自相关性的强弱确定不同步长权重的加权马尔可夫链进行状态预测更符合实际[9]。但由于加权马尔可夫链得到的预测结果仍然是状态,在实际应用中受到一定的限制。复权马尔可夫链在之前的研究基础上,进一步以各状态的预测概率为权重,结合其对应状态均值进行加权求和,从而实现从状态预测到数值预测的跨越。endprint
2复权马尔可夫链预测方法步骤
复权马尔可夫链以马尔科夫链求得的各状态的预测概率为基础,因此步骤(1)至(9)与加权马尔可夫链基本一致。但为方便对复权马尔可夫链预测的理解,本研究以加权马尔科夫链为基础,完整介绍复权马尔可夫链预测方法步骤。
(1)初步判断对象序列是否是随机变量。若受大型水利工程等人为控制则不适用于马尔可夫链,反之则可能适用于马尔可夫链,最终确定是否适用于马尔可夫链有待马氏性检验结果。
(2)建立序列状态分级标准,确定资料序列的对应状态。常用的状态分级方法有聚类分析法、样本均值标准差分级法、频率曲线法等。水文分析中常用PIII型频率曲线法来确定各年份的丰枯状态,且为使样本序列具有代表性,一般要求样本序列不应少于30年。根据状态分级标准,即可确定资料序列所对应的状态。
(3)用fij表示指标值序列x1,x2,…xn中从状态i经过一步或多步转移到达状态j的频数,i,j∈E。对资料序列所对应的状态进行统计计算,得到各状态的转移规律,进而建立各阶(步长)的状态转移频数矩阵。
(4)将状态转移频数矩阵(fij)i,j∈E的第i行第j列元素fij除以各行的总和所得的值称为“转移概率”,记为Pij,i,j∈E,即
Pij=[SX(]fij[]∑[DD(]m[]j=1[DD)]fij(2)
式中:m为指标值序列包含的可能的状态。
(5)对随机变量进行马氏检验。
将转移概率矩阵(pij)的第j列之和除以各行各列的总和所得的值称为“边际概率”,记为Pj,即
Pj=[SX(]∑[DD(]m[]i=1[DD)]fij[]∑[DD(]m[]i=1[DD)]∑[DD(]m[]j=1[DD)]fij(3)
则当序列长度n充分大时,统计量
X2=2∑[DD(]m[]i=1[DD)]∑[DD(]m[]j=1[DD)]fij[JB(|]lg[SX(]Pij[]Pj[JB)|](4)
给定显著性水平α,查表可得分位点X2α((m-1)2)的值,计算后得统计量X2的值,若X2>X2α·((m-1)2),则可以认为{Xi}符合马氏性,否则可以认为该序列不可作为马氏链来处理。
[JP3](6)计算各阶(步长)自相关系数。计算公式如下:
rk=∑[DD(]n-k[]l=1[DD)](xl-[AKx-])(xl+k-[AKx-])∑[DD(]n[]l=1[DD)](xl-[AKx-])2(5)
式中:rk为第k步长自相关系数;xl为序列的第l个值;[AKx-]为序列均值;n为序列长度。
(7)各步长自相关系数规范化。计算公式如下:
wk=|rk|∑[DD(]c[]k=1[DD)]|rk|(6)
式中:wk为规范化后的各步长自相关系数,即各步长的马尔可夫链权重;c为按预测需要的最大步长。
(8)以各种步长为初始状态,结合其对应的转移概率矩阵,预测其状态概率Pki。
(9)將同一状态的各预测概率加权求和,得到该状态的预测概率,即
Pi=∑[DD(]m[]k=1[DD)]wkPki(7)
(10)以各状态的预测概率Pi为权重,与其对应状态的均值[AKx-]i加权求和,得到预测值d,即
d=∑Pi[AKx-]i(8)
将预测值加入原序列,再重复以上步骤,即可进行下一步的数值预测。
基于绝对分布的复权马尔可夫链预测和叠加复权马尔可夫链预测方法与基于加权马尔可夫链的复权马尔可夫链预测方法相似,即在各自的状态预测概率基础上[21]加上步骤(10)求得预测值。
3怒江水沙预测应用实例
怒江萨尔温江是全球最典型的南北向发育国际大河,其上游中国境内称为怒江。怒江流域属峡谷地形,南北跨度大,独特地理环境和气候条件使其成为全球生物多样性最突出的地区之一,怒江也蕴藏了极为丰富的水能资源。但由于多种原因,怒江干流水电开发一直未能实施,其水文过程至今没有受到水利工程等人类活动的控制。本文以怒江干流道街坝水文站1957-2015年径流和1964-2015年悬移质输沙序列为数据基础,并将1957-2010年径流和1964-2010年悬移质输沙序列作为预测方法分析期,将2011-2015年径流和悬移质输沙作为预测方法的验证期,以说明复权马尔可夫链预测方法的具体应用并检验预测精度。道街坝水文站控制流域面积1102[KG-7]万[KG-9]km2,占中国境内怒江干流流域面积的883%,该站径流和悬移质输沙变化基本能代表怒江干流径流和悬移质输沙变化特征。
以怒江道街坝站1957-2010年54年径流量和1964-2010年47年悬疑质输沙为例,预测2011年径流量和悬疑质输沙量,以基于加权马尔可夫链为基础的复权马尔可夫预测为例,详细介绍其计算过程。
(1)初步判断道街坝站年径流和年悬移质输沙序列是否是随机变量。怒江干流水电梯级开发尚未实施,径流和悬移质输沙没有受到人为控制。同时,怒江干流流域云南段涉及5个县区,但2014年末总人口仅15965万人,社会经济发展落后,加之山高水低,耕地少且分散,区域内农业以自然耕种为主,产流产沙条件基本保持天然状态。因此,可初步判断怒江径流和悬移质输沙序列属随机变量。
(2)建立道街坝站年径流和年悬移质输沙序列分级标准。径流和年悬移质输沙序列长度超过30年,样本具有代表性,宜采用PIII型分布频率曲线法来确定其所处状态。分别以保证率0~125%、>125%~375%、>375%~625%、>625%~875%、>875%~100%将年径流和年悬移质输沙分为丰、偏丰、平、偏少、少5级,对应状态E={1,2,3,4,5}。年径流和年悬移质输沙PIII型分布各保证率对应的数值见表1。endprint
(3)按照分级标准,确定年径流和年悬移质输沙序列对应的状态(表2)。
(4)据表2进行统计分析,得到1至5阶(步长)状态转移频数矩阵(表3、表4)。
注:矩阵a,b,c,d,e分别为步长1,2,3,4,5的马尔科夫转移频数矩阵,下同。
(5)对1至5阶(步长)状态转移频数矩阵进行统计分析,得到各个步长的马尔科夫链转移概率矩阵(表5、表6)。
(6)结合步长为1的转移概率矩阵和式(3)、式(4),求得怒江道街坝站64年径流量和47年悬疑质输沙量序列对应的边际概率和统计量x2,计算得到x2值分别为3029和3471,大于α=005显著性
水平下分位点X2α(16)的值26296,因此该径流量和悬疑质输沙序列满足马氏性。
(7)按照式(5)、式(6)分别计算各步长自相关系数和马尔可夫链权重,结果如表7所示。
(8)以各种滞时为初始状态,结合相应的转移概率矩阵预测其状态概率。依据2010、2009、2008、2007、2006年的年径流和年悬移质输沙量及其相应的状态转移概率矩阵,结合式(7)将同一状态的各预
测概率加权求和即可对2011年的年径流和年悬移质输沙状态概率进行预测(表8、表9)。
(9)将各状态的预测概率作为权重,与其对应状态的均值依据式(8)进行加权求和,即可得到2011年径流和年悬移质输沙的预测值(表10)。
(10)由表10可知,2011年径流预测值1 766 m3s与实测值对比,相对预测误差为208%;2011年悬移质输沙预测值1 234 kgs与实测值对比,相对预测误差为508%。
将预测值加入原序列,重复以上步骤,即可得到2012-2015年径流和悬疑质输沙量的预测值。基于绝对分布的马尔可夫链预测和叠加马尔可夫链预测方法的复权马尔可夫预测方法与基于加权马尔科夫链的复权马尔科夫预测方法相似,即先求得各状态的预测概率,再以预测概率为权重,结合数据序列中各对应状态的均值加权求和,即求得数值预测结果。
表11是在加权马尔可夫链预测、基于绝对分布的马尔可夫链预测和叠加马尔可夫链预测方法的基础上,以各状态预测概率为权重,结合状态平均值进行加权求和的复权马尔科夫预测方法的数值预测结果。由表11可知,2011-2015年预测值的径流和悬疑质输沙量序列的马尔可夫检验统计量X2均大于26926,说明预测所用的时间序列在005显著性水平下均满足马氏性。预测值与实测值对比表明,径流数值预测精度总体高于悬移质输沙数值预测精度,这可能是由于相对于径流量而言,悬移质输沙受人类活动影响更大,导致怒江干流悬移质输沙状态之间的数值跨度较大,1964-2015年期间怒江输沙极值比达719。2011-2014年怒江干流径流数值预测精度相对较高,而2015年径流数值预测精度较低;2011-2013年怒江干流输沙数值预测精度相对较高,而2014-2015年输沙数值预测精度较低,这可能与复权马尔科夫链更适合短期预测有关,随着预测时间的延长,预测误差可能被逐步放大。本研究短期数值预测结果精度与马占青等[23]基于马尔可夫链预测模型的杭州市降水量数值预测结果精度相当,高于马建琴等[24]的改进型灰色马尔可夫链模型对三门峡入库年径流的预测精度,为较少受人类活动控制的河流的径流和输沙的数值预测提供了一条值得探索的途径。
4结论
已有的马尔可夫链预测方法多限于进行状态预测,而本文建立的复权马尔可夫链预测方法能够进行数值预测,实现了对马尔可夫链预测方法的关键性改进,不仅提高了预测精度,也扩展了该方法的应用范围。不受人为控制的随机性序列和足够的序列长度,是适用于马尔马尔可夫链的前提条件。复权马尔可夫链在马尔可夫链前期研究的基础上,进一步以各状态的预测概率为权重,结合状态平均值进行二次加权求和,从而实现数值预测。与其他马尔可夫链改进方法相比,复权马尔可夫链能更充分地挖掘随机序列的信息。怒江干流水沙预测实例表明,所建立的复权马尔可夫链预测方法思路清晰、物理概念明确、计算简便,为提高随机变量的数值预测精度提供了一种可行的途径。
参考文献(References):
[1]贺娟,王晓松,王彩云加权马尔可夫链模型在密云水库入库流量中的应用[J]南水北调与水利科技,2015,13(4):618621(HE J,WANG X S,WANG C YApplication of the weighted Markov chain model in the inflow prediction of the Miyun Reservoir[J]SouthtoNorth Water Transfers and Water Science & Technology,2015,13(4):618621(in Chinese)) DOI:1013476jcnkinsbdqk201504003
[2]王涛,钱会,李培月加权马尔可夫链在银川地区降雨量预测中的应用[J]南水北调与水利科技,2010,8(1):7881(WANG T,QIAN H,LI P YPrediction of precipitation based on the weighted Markov chain in Yinchuan area[J]SouthtoNorth Water Transfers and Water Science & Technology,2010,8(1):7881(in Chinese)) DOI:103969jissn16721683201001021
[3]王亚雄,黄淑娴,刘祖發,等变化环境下北江下游年径流量的加权马尔可夫链预测[J]生态环境学报,2011,20(4):754760(WANG Y X,HUANG S X,LIU Z F,et alForecast of yearly river runoff in lower reaches of Beijiang River by Weighted MarkovChain Method in changing environments[J]Ecology and Environmental Sciences,2011,20(4):754760(in Chinese)) DOI:103969jissn16745906201104030endprint