基于SOM神经网络的年径流划分
——以密云水库为例
2022-02-23谢云东章四龙王红瑞李婵娟
谢云东,章四龙,王红瑞,李婵娟,王 丰
(1.北京师范大学水科学研究院,北京100088;2.北京市密云水库管理处,北京101500)
0 引言
径流[1]是水文循环中十分重要的一个环节,降水、径流与蒸发通常称为水文三要素。在水资源[2]规划与利用中,径流也是一项重要的分析因素。在整个径流过程中,水分能够通过蒸散发,从下垫面向大气传输,也可以通过降水,从大气降落到下垫面。同时,通过下渗、蒸散发的作用,地表与地下水也在不断的发生着水分交换。
目前径流数据监测是在河流断面,湖口等定点监测数据,得到定点径流量时间序列。径流作为一种重要的水文要素,是一种时间序列,具有随机性与周期性,其统计特征具有极高的规律性。根据统计分析可以对时间序列进行分析与预测。古巴比伦[3]天文学家就曾经利用恒星和行星的相对位置的时间序列值来预测未来会发生的天文时间。但是对于不稳定的时间序列,预测就变得难以进行。
认识年径流序列与人类社会对水资源的利用具有重大意义,径流序列不仅具有年际特征,同时还具有年内特征。对年径流的丰-平-枯水划分方法中,主要是基于年径流量的单一指标,然后进行频率分析或者距平要素进行丰-平-枯水的划分,在气候变化与人类活动的共同影响下,其结果对实际应用的指导性具有一定的缺陷。
不少学者对径流丰-平-枯的划分提出来不少方法:赵太想[4]采用投影寻踪分类模型,以年内12 个月径流量作为评价指标,对年径流进行了丰-平-枯水划分;丁志宏[5]采用因子分析定权法,通过主成分分析,确定主要因子,来确定年内各月来水的权重值,并对年平均流量进行了丰枯划分;此外灰色分类[6]评价法,在年径流划分中也有应用。但因子分析定权法、考虑将指标分级,不能全面考虑各类指标;投影寻踪法与灰色分类评价法,算法复杂,过程繁琐。
为了考虑径流的年内与年际变化,对年径流进行更加详细的划分。本文将采用径流序列的月径流量、年内集中度、年内不均匀系数与年内变化幅度等指标作为其划分依据属性,通过SOM 神经网络进行年径流的划分。并将利用密云水库1960-2019年的入库径流数据,对河流断面的年径流序列进行划分并将其与传统的丰-平-枯水年划分进行了对比分析。
1 自组织映射(SOM)神经网络
SOM(Self Organizing Maps)神经网络属于人工神经网络的一种,人工神经网络[7](Artificial Neural Network,ANN)简称神经网络,通过对大脑中枢系统的运行与其借助的思想在人工神经网络中简单的人工节点,称作神经元最初的原型。1958年,美国科学家弗朗克·罗森贝特创建了感知机,人工神经网络发生重大性的突破,但是,一些回路(例如:异或回路)一直无法被神经网络处理,直到保罗·韦伯斯在1975年创造了反向传播算法(Back-Propagation),有效地解决了异或的问题。
进入21世纪,计算机的高速发展与机器学习的兴起,重新引起了学者对神经网络的兴趣,神经网络被应用到了不同机器学习分支:聚类分析、模式认知、时间序列分析等。同时神经网络在图像分类,人脸识别及音频检索等多领域也得到了广泛的应用。在水文水资源里领域,神经网络可以对水文时间序列进行模式识别,水文相似性[8]分析,径流预测等多种工作。
SOM 神经网络[9,10]是人工神经网络的一种。其核心在于其独有的自组织映射算法,其中的WTA(Winner Takes All)竞争机制是SOM 神经网络的最独特的特征。生物学事实表明:人脑对在接受外界信息时,大脑皮层的对应的区域会发生兴奋,如果信息类似,则对应的区域则会连续兴奋。SOM 网络则应用该生物学基础,对某一图形或某一频率发生特定的兴奋过程,神经网络同时有序排列。该神经网络模型由芬兰赫尔辛基大学教授Kohonen[11][12]于1981年提出,故又称为Kohonen 网络,属于无监督学习网络,目前已经得到了非常广泛的应用。
SOM 神经[13]网络共有两层,图1 展示了其二维结构。输入层模拟感知外界输入信息的视网膜,代表不同属性的信息,输出层模拟做出反应的大脑皮层,这样的结构正是SOM 神经网络处理信息的特点。将多属性的径流矩阵引入神经元进行学习,使高纬度的信息进行降维。第二层具有竞争机制,当获得优胜神经元后,以优胜神经元为圆心,对其邻近神经元通过权值调整函数,由近及远产生影响,对邻近的神经元进行权值调整,该竞争学习的模式使得该算法具有自组织,无监督的特性。
图1 SOM神经网络结构Fig.1 SOM neural network structure
2 传统丰-平-枯水划分
丰-平-枯的划分是水利行业中对径流的基本分析,划分结果简单。在我国主要有两种标准。基本分类为3类,即丰水年、平水年与枯水年。在水文基本术语和符号标准[14](GBT50095-2014)中出现了4类:丰水年、平水年、枯水年与特枯水年。也有学者[15-16]将其划分为特丰水年、丰水年、平水年、枯水年与特枯水年。我国传统划分丰-平-枯水年的方法有两种。
第一种传统划分丰-平-枯水年的方法为保证率划分法。保证率划分法[17]的实现步骤为:
(1)将已知的径流量序列xi按照一定的顺序排列;
(2)利用已经排序好的径流量序列,计算经验频率,进行适线,若与特殊的分布(如P-Ⅲ型分布)适线结果良好,则采用特殊分布计算各径流量对应的频率序列;若不好,则采用经验频率计算各径流量对应的频率序列;
(3)按照表1的丰-平-枯水年的频率划分标准。
表1 丰-平-枯水年频率划分标准Tab.1 Standards for the frequency division of abundant-flat-dry years
第二种划分丰-平-枯水年的方法为要素距平值划分法,其标准已经列于表2 中。本方法参考于水文情报预报规范[18](GB/T 22482-2008),在中长期定性预报中,将预报年份的要素(径流)根据要素(径流)距平值划分未来的丰-平-枯水年,共划分成5 个等级,分别为枯水、偏枯、正常、偏丰与丰水,来确定预报年份的丰-平-枯水情况。
表2 距平百分比划分标准Tab.2 Criteria for dividing the percentage of anomalies in abundance-flat-dry year
这两种方法均为年径流量的基础上进行丰-平-枯水年的划分,以上两种方法简单易算,能够在径流量上下初步的结论,但不能展开更进一步的分析。
3 径流划分模型构建
在本文径流划分过程中,共分为3个大部分,第一部分为[19]指标筛选,筛选能够反映径流年内与年际变化的统计指标,构建径流序列属性矩阵;第二部分为数据的归一化,减小不同属性对权值的影响而出现的有偏差的竞争学习;第三部分为神经网络的聚类划分,将径流序列属性矩阵引入SOM 神经网络中进行聚类划分。
3.1 指标的选择
假设具有一组n年的径流数据,每一年的数据为月径流量序列,为了表达径流在每个月的分布、年径流的丰枯程度、径流的不均匀性、径流的集中程度与径流的变化幅度,分别选择了以下种类的指标:
表3 属性指标分类Tab.3 Classification of attribute indicators
通过以上指标的选取与组合,在前12 列为一年中12 个月的月径流量的数值;其后的m-12 列为选取的统计指标属性,构建大小为n×m年径流序列的属性矩阵。
3.2 属性标准化
由于构建的径流属性矩阵性质不同,属性各异,在数值上具有极大的差别,在SOM 网络的权值层中,容易受到某一极端属性的影响,故需要进行个属性的归一化。当所有的输入和输出值介于0 和1 之间时,神经网络的计算效果较好。所以需要对提取的各径流属性数据进行归一化,得到介于0 和1 之间的新属性值。对于以一列属性数据{Xj}(1≤j≤n,n为样本容量)来说,采用规范化的方法直接进行标准化,公式如下:
3.3 聚类划分
根据SOM 神经网络的特点,聚类划分[22]可以总结为3 个步骤:
步骤1:初始化m个神经元节点权重,从样本数据矩阵中随机选择径流某一属性序列,并从样本数据集中删除属性序列;
步骤2:通过计算各神经节点的样本数据与权值的欧式距离[23],计算优胜神经元节点,更新各神经节点权值;
步骤3:从样本值数据集中继续随机选择径流某一属性序列,进行步骤2,直到样本序列取为空集。
当完成以上3个步骤时,就能够得到初步的划分结果,从各个属性层面上划分不同特征的年径流序列。
3.4 年径流代表年的确定
在传统的水文分析计算中,常用“设计代表年”这一概念对径流过程进行分析描述。基于SOM 神经网络的丰-平-枯水年的划分结果,根据当地流域的径流特点与规划需求,也可以分析代表年的规律。传统设计年径流的径流年内分配,常常采用资料中某一特定年份,根据同倍比法或者同频率法进行计算制作。在本文的丰-平-枯水年划分中,基于月径流的多种统计属性指标,划分出多类枯水型、平水型与丰水型。为反映小类中的径流变化过程,本文利用期望的性质,采用每小类的月径流均值组合成一个的代表年。代表年的月径流过程始终处于该类径流过程的“质心”,使得代表年的内涵更加侧重展现SOM 神经网络的划分类型。在径流量的基础上,以划分结果确定枯水-平水-丰水界限,图2给出了其分类形式。
图2 年径流划分结果Fig.2 Results of annual runoff division
4 案例应用
4.1 密云水库
密云水库[24]位于北京市北部密云县境内,东经115°25′~117°35′,北纬40°19′~41°38′,水库以上流域面积1.52 万km2,由潮河和白河汇流而形成,北部紧邻蒙古高原,南部即为华北平原。水库共有2 座主坝,总库容40.08 亿m3,死库容4.37 亿m3;正常蓄水位157.5 m,汛限水位147.0 m,死水位126.0 m。由潮河与白河两条河流汇流而成。水库由清华大学水利系张光斗先生主持设计,以“一年拦洪,两年建成”为目标,在1960a 顺利完成。本次研究采用的是采用密云水库从1960-2019a 的径流序列,为密云水库管理处通过水量平衡公式推算。
4.2 参数配置
为了表示密云水库近60 a 的月径流量、年径流量、径流年内不均匀系数、年内集中程度与变化幅度5 类指标的分布的特征:将采用月径流序列值,年径流总量分别表示密云水库径流的年内分布情况与径流总量情况;通过径流的统计指标更细化反映径流的分布的特殊性质:年内不均匀系数,集中期与集中度,年内径流绝对变化幅度分别反映年内分布的不均匀程度、集中程度、径流变化情。计算各种统计指标后,构成样本矩阵Q60*17,并采用3×3结构的SOM神经节点的网络结构。
4.3 结果分析
采用3×3 的SOM 神经节点的网络结构来对密云水库的近60年的径流序列进行了年径流的划分,可以得到9 种不同分类结果。图3展现了3×3的SOM 神经节点的网络结构对序列的划分结果,分类对各个指标都具有一定的区分效果。从3×3 的SOM神经网络结构划分结果来看,由于SOM神经网络的几何性质,在邻近的结点(类型)中,其径流序列指标具有相似性:从纵向对比,在径流量差异较小;横向对比则可以发现,径流序列的分布可以明确地区分。
图3 SOM神经网络年径流划分结果Fig.3 Annual runoff division results of SOM neural network
按照《水文情报规范》中距平值划分法,划分丰-平-枯水年。将划分的丰-平-枯水结果与SOM 神经网络的划分结果比较,发现该方法可以较好地区分年径流,第3类、第6类与第9类都为丰水年;第1 类、第4 类与7 类主要为覆盖所有枯水年并含部分平水年;第2 类、第3 类与第8 类主要为平水年;在表4 中,可以看出,将基于SOM 的结果划分为丰水型,平水型与枯水型同基于距平值划分的结果趋势相同,但稍有差异。在平水1 型中,80%的年份通过距平值划分为丰水年,但可以从径流过程发现,这些年份在枯水期同其他平水年具有相似的特征。所以基于SOM 神经网络的结果同传统的划分趋势相似但存在差异,并且结果可以从枯水年、平水年与丰水年中划分出更加细致的类型。
表4 SOM结果与距平值的结果比较 %Tab.4 Comparison of SOM results and anomaly results
在划分类型后,通过在每一小类中分别对每月径流序列求均值,以此来确定每个划分类型的代表年。在代表年方面,从密云水库的径流分类结果来看,不同类型的代表年在年内的分布具有较明显的差异。从图4 可以看出,丰水3 型在枯水期径流相对较大,其余两种类型在枯水期径流变化相对一致,在汛期,丰水2 型和丰水3 型两类分别在7月与8月达到最大径流量。
图4 丰水型代表年Fig.4 Low-water type representative year
图5 反映了在平水型分类,平水型的代表年在年内分布规律相对一致,突出的形式是平水2 型在6月时径流量小,可能在当年发生短暂的气象干旱,导致径流量降低。同时,该类型的在其后的径流量也较其他两种类型相对较低。
图5 平水型代表年Fig.5 Flat-water type representative year
图6 表示枯水型的3 种分类情况,枯水型的总体特征为径流量小,区分这3种类型的主要因素汛期径流量,以及径流集中度与集中期。枯水1 型在全年的径流量都相对较低,在枯水型中属于最枯的类型,而其他两种类型都是在分别在7月与8月到达月径流量的最高值。
图6 枯水型代表年Fig.6 The representative year of abundant water
划分的径流结果在统计属性也具有很大的区分性质,不同的划分类型将年内不均匀系数、集中度与变化幅度都表现出不同的特征。首先讨论年不均匀系数,图7 为了年内不均匀系数CV的箱线图,从枯水1 型到丰水3 型,不均匀系数的分布范围逐渐减小,系数值呈现出增大趋势,划分为枯水型的年径流系列的系数分布范围最广,但系数值低。而丰水型的系数范围分布低,但系数值较大。
图7 划分结果的年内不均匀系数分布Fig.7 Distribution of uneven coefficients within the year of the division results
集中度的大小与年内分布不均匀系数为类似的趋势,但在分布范围与年内不均匀系数相反,在枯水的3 种类型中集中度的分布范围小,随着集中度值的升高,集中度分布范围变得更大,图8为集中度的箱线图。
图8 划分结果的集中度分布Fig.8 Concentration distribution of the division results
图9在年内绝对变化幅度(极差)是描述径流量在一年中最大月径流与最小月径流量的差异程度,其分布同前两种属性都具有类似的分布趋势。但在同大类的情况下,年内变化幅度在分布范围与前两种都有所区别,并在枯水型与平水型中每一小类的极差分布较为集中。
图9 划分结果的年内绝对变化幅度分布Fig.9 Distribution of the absolute change range of the division results during the year
5 结论与展望
过去的研究中,有人通过主成分分析,投影法进行年径流丰-平枯水划分,这些方法在因子(指标)权重中存在主观的定义,其结果着重反映大权重的因子的特性,划分种类同传统的基于距平值的方法类似。故本文将SOM 神经网络与应用较多的距平值分类的方法进行了结果的对比与分析,基于SOM 神经网络的结果能够在传统的划分结果中,突出了其他指标(如集中度与集中器,极差等)的差异,使得划分结果更加细致。通过本文对密云水库的径流序列的年径流划分,说明SOM 神经网络能够对径流序列进行更精细的划分。但对于应用层面来说,需要在SOM 神经网络划分结果的基础上,根据流域与设计工程特点进行更具体的工作。
径流序列属于时间序列,对于河流断面的径流序列值,修建水库,引(调)水工程,使得测量的径流序列受到了很大的干扰,较天然的径流产生了较难还原的变化。序列从在变化的气候与下垫面变化作用下,形成的时间序列,已经不具有遍历性与平稳性。从统计学讲,将年径流序列作为多元随机变量处理,由于难以求得其分布函数,很难对在统计学角度进行预测与分析。神经网络可以作为机器学习的一种方式,仅仅针对现有的样本空间,通过不断地更新内部的神经节点,来分析样本中的规律,这样水文数据的不一致性可以通过这样的方式进行概况,在水文数据分析中具有很大的潜力。
对于径流序列的划分,也应当考虑人类活动与生态环境造成的影响。不同的气候形成了不同的降水类型(1.降水在全年的“均匀分布”;2.在夏季多雨;3.在冬季多雨),而我国的季风气候形成了夏季多雨,冬季少雨的分布格局,由于在时间上的巨大变幅,对我国的社会发展与生态环境存在一定的影响。如果在径流的低值序列(枯水期)中考虑需水量,水库的蓄水量等因素形成划分指标体系,构建出可以描述该地区水资源紧缺程度的径流划分,那么该结果具有很大的实用价值。□