基于主成分分析的三种中长期预报模型在柘溪水库的应用

2016-12-20周建中卢韦伟姚翔宇

水力发电 2016年9期

李薇，周建中，叶磊，卢韦伟，姚翔宇

(1.华中科技大学水电与数字化工程学院，湖北武汉430074；2.华中科技大学数字流域科学与技术湖北省重点实验室，湖北武汉430074；3.中国建筑西北设计研究院有限公司，陕西西安710018)

李薇1，2，周建中1，2，叶磊1，2，卢韦伟1，2，姚翔宇3

基于柘溪断面历史旬径流资料，选择1980年～2012年共33 a的降雨和流量数据经主成分分析处理后，分别作为多元线性回归模型、BP神经网络模型、Elman神经网络模型的训练样本，对模型参数进行训练；然后对样本进行模拟预报，统计模拟绝对误差和相对误差，同时预报柘溪断面2013年、2014年和2015年的年、汛期、季节和月尺度的流量，预报结果可精确到旬尺度，对比分析三种模型各时间尺度的预报结果，最终确定各模型在柘溪流域中长期水文预报过程中的作用。

多元线性回归；BP神经网络；Elman神经网络；中长期径流预报；主成分分析；柘溪水库

0 引言

准确及时的中长期径流预报，对于争取防汛、抗旱的主动权，制订科学的水资源调度方案，确保水利设施的安全并发挥其经济效益具有重要意义。孙冰心[1]采用多元线性回归方法预报年最大流量；吴超羽[2]指出因人工神经网络是以神经元为基本单元，具有良好的非线性映射能力，故在对同样是高度非线性的水文系统进行拟合时将会取得良好的效果；丁晶[3]将人工神经网络模型应用于兰州水文站点过渡期月径流的预报，证明了利用人工神经网络模型预报过渡期径流是有效的，且效果好于多元回归方法得到的结果；屈亚玲、周建中[4]提出一种改进型Elman算法神经网络方法，将该方法应用于水文预报中，证明了该方法是确实有效的。综上，多元线性回归、BP神经网络、Elman神经网络模型被广泛应用于中长期水文预报。

通常挑选预报因子，首先考察不同预报因子与预报对象之间在物理成因上的联系程度；其次要进行统计分析处理，挑选与预报对象相关性较为显著的因子，且各因子之间的相关性要小，以避免采用重复的预报因子。因此，挑选合适的预报因子对提高水文预报精度具有重大意义。赵铜铁刚[5]采用互信息方法确定预报因子，王思如[6]应用单相关系数法和相关概率法确定预报因子，农吉夫[7]采用主成分分析方法确定BP神经网络模型预报因子，为预报因子选择提供了方法基础。主成分分析方法能对所有与径流量相关的预报因子进行处理，朱永飞[8]采用主成分分析方法进行洪灾损失影响因子的评估可以减少统计分析的工作量，同时又可以全面的考虑相关预报因子的影响。因此，本文通过引入主成分分析的方法对预报因子进行重新组合，选取满足贡献率的主成分，根据模型内部结构特点，将主成分输入多元线性回归、BP神经网络和Elman神经网络模型，以更全面准确地进行中长期水文预报。

1 研究流域概况

柘溪水库位于湖南省中部资水流域中游，距安化县东平市12.5 km，水库控制流域面积22 640 km2。柘溪流域属东亚季风热带暖湿气候，夏季炎热多雨，冬季寒冷干燥，降雨主要集中在4月～6月，60%的雨季结束于6月下旬至7月上旬，流域年平均降雨量约1 400 mm。柘溪水库多年平均入流586 m3/s，实际运行正常蓄水位为169.5 m，相应库容30.2亿m3，调节库容22.58亿m3，死水位144 m，死库容7.62亿m3。

由于流域中长期历史资料匮乏，降雨资料缺测、漏测时间长，实测径流资料误差大，因而大大增加了中长期预报的难度；同时流域非汛期基流量少，流量时空分布不均，这些特点很容易加大预报相对误差；此外，柘溪水库没有完整的调度规程，汛期流量受人为、天气因素影响较大，难以进行准确的中长期预报。因此，开发满足柘溪水库和相关生产部门所需精度要求的柘溪水库中长期水文预报模型面临很大的挑战。

2 模型原理和步骤

本文采用主成分分析法进行中长期预报模型水文预报因子的选择，将重新组合的预报因子应用于多元线性回归、BP神经网络模型、Elman神经网络模型。

2.1 主成分分析原理

主成分分析(Principal Component Analysis，PCA)是研究多个变量间相关性的一种多元统计方法，通过少数几个主分量(原始变量的线性组合)解析多变量的方差，即导出少数几个主分量，使他们尽可能完整地保留原始变量的信息，且彼此不相关，以达到简化数据和降维的目的。

设初始的变量指标为X1，X2，…，Xp，新的综合指标为Z1，Z2，…，Zm(m≤p)，则主成分分析原理[6]可表示为

(1)

式中，Z1，Z2，…，Zm为X1，X2，…，Xp所对应的m个主成分；系数l矩阵L为载荷矩阵。其中，Zi与Zj(i≠j)相互无关；Z1为X1，X2，…，Xp的线性组合且在所有线性组合中方差最大，Z2为与Z1不相关的X1，X2，…，Xp的线性组合且在所有线性组合中方差最大，以此类推。

2.2 多元线性回归模型

对多元线性回归方程的建立方法为：假如经过分析，已经挑选到k个预报因子X1，X2，…，Xk，要求通过回归分析，建立这些因子与预报对象y的关系[1]，其数学模型

(2)

2.3 BP神经网络模型

BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络[2]。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)(见图1)。

图1 BP神经网络结构

BP算法由数据流的前向计算(正向传播)和误差信号的反向传播两个过程构成。正向传播时，传播方向为输入层→隐层→输出层，每层神经元的状态只影响下一层神经元。若在输出层得不到期望的输出，则转向误差信号的反向传播流程。通过这两个过程的交替进行，在权向量空间执行误差函数梯度下降策略，动态迭代搜索一组权向量，使网络误差函数达到最小值，从而完成信息提取和记忆过程。

表1 柘溪率定期模拟结果统计 %

2.4 Elman神经网络模型

Elman神经网络是一种典型的局部回归网络[4](global feed forward local recurrent)。Elman网络可以看作是一个具有局部记忆单元和局部反馈连接的前向神经网络。Elman神经网络一般分为四层：输入层、中间层(隐含层)、承接层和输出层，模型的特点是隐含层的输出通过承接层的延迟与存储，自联到隐含层的输入，这种自联方式使其对历史状态的数据具有敏感性，内部反馈网络的加入增加了网络本身处理动态信息的能力，从而达到了动态建模的目的。Elman神经网络学习算法采用的是优化的梯度下降算法，即自适应学习速率动量梯度下降反向传播算法，它既能提高网络的训练速率，又能有效抑制网络陷入局部极小点。

3 预报结果及分析

选择柘溪断面1980年～2012年共33a的流量和降雨数据作为训练样本，预报因子包括：前5年同期流量，前2年的年平均流量，前2年的所在月平均流量，前3旬的流量，前1年的年降雨量。经过主成分分析进行组合后的模型输入预报因子个数，一般情况下为7个或8个预报因子。月尺度和季节尺度，汛期尺度，年尺度是在相应旬尺度的基础上进行统计计算得到。

采用的BP和Elman神经网络模型输入层、隐含层和输出层神经元个数分别为t、7和1个，t为输入层神经元个数，是根据PCA进行预报因子组合取满足85%贡献率的主成分个数，视各旬的具体情况而不同。BP神经网络模型激活函数采用Sigmoid函数，规定的期望误差为0.05，最多迭代次数为3 000次，学习效率定为0.3。Elman神经网络模型、学习率0.48，最小误差0.001，迭代次数3 000次。检验期为2013年～2015年9月，表1为多元线性回归模型、BP神经网络模型、Elman神经网络模型模拟预报结果。

3.1 三种模型预报年平均径流相对误差对比分析

年平均径流的预报结果受径流年际变化，气候和人为因素影响较大，如2014年柘溪流域降雨量偏大导致径流量增大，各预报模型的预报误差均较大。另外，柘溪流域历史实测资料较短，水文预报模型模拟的样本数较少，给模型预报也带来一定程度的困难。综合表1和表2的预报结果，多元线性回归模型率定期模拟结果稍差，检验期相对误差在10%左右，预报结果很好，基本能够达到模型预报精度要求。BP神经网络模型模拟和预报效果都较好，能够满足预报精度要求。Elman神经网络模型预报与模拟的相对误差是一致的，预报效果较好，模型能够精确预报年平均流量。

3.2 三种模型预报汛期流量相对误差对比分析

柘溪流域汛期降雨受大气环流和季风影响较为显著，降雨在时间和空间上的差异性较大，除此之外，汛期流域水库的发电防洪调度都是水文预报误差存在的原因。多元线性回归模型预报相对误差最高为25.6%，最低为21%；BP神经网络模型和Elman神经网络模型汛期预报效果都在20%以下；考虑柘溪断面现有实测资料的精确度和资料长度有限，以及汛期流量波动大等因素，说明预报效果较好，三种模型都能够满足预报精度要求(见表2)。

表2 2013年～2015年柘溪检验期相对误差统计 %

3.3 三种模型预报季节平均流量相对误差对比分析

柘溪流域属东亚季风气候，降水有明显的季节变化，夏秋季节降水多且年际流量波动较大，预报模型的误差稍大，秋冬季节降水量较稳定，预报效果较好。多元线性回归模型相对误差较大；BP神经网络模型和Elman神经网络模型2013年、2014年和2015年正常季节预报效果都在20%以下，预报效果较好。2013年夏季和2015年春季预报效果次于其他季节。这是因为2013年夏季和2015年春季流量偏小，难以通过历史资料的统计规律进行预报。总体而言，春冬季节预报效果较好，夏秋因为年际流量波动较大，预报效果略次于春冬两季；整体来看除了异常年份以外，预报效果满足精度要求。

3.4 三种模型预报月径流相对误差对比分析

预报月径流时，多元线性回归模型模拟结果的平均相对误差在20%～30%；BP神经网络模型平均相对误差除7月和11月以外都小于25%，最小为6.7%，模型将大部分月份的径流预报相对误差控制在20%以内；Elman神经网络模型将大部分月份的径流预报相对误差控制在25%以内。

多元线性回归模型除汛期个别月份效果偏差稍大外，大部分月份预报结果相对误差稳定在30%左右，比其他两种模型要大。柘溪4月份模拟结果见图2，对比实测与模拟结果来看，模拟结果的总体趋势是一致的，但部分年份相对误差偏大。以7月份训练样本的实测值和预报值为例，BP神经网络模型和Elman神经网络模型模拟结果(见图3和图4)都能够达到精度要求。由图2～4可知，模拟值与实测流量的趋势一致，模拟效果很好，可以用于作业预报。由于汛期流量受天气因素、人为调控等的影响很大，因此流量波动幅度大，难以通过历史资料的统计规律进行预报，所以汛期各月预报效果稍差于其他月份，但仍然可以作为水库调度的参考依据。

图2 多元线性回归模型柘溪4月份样本模拟结果

图3 BP神经网络模型柘溪7月份样本模拟结果

图4 Elman神经网络模型柘溪7月份样本模拟结果

4 结论

本文采用主成分分析方法处理预报因子，应用多元线性回归模型、BP神经网络模型和Elman神经网络模型进行柘溪水库旬尺度的中长期水文预报，并统计计算年、汛期、季节和月尺度的预报结果。结果表明，三种模型可以准确预报柘溪水库中长期径流，可以应用于工程实际。对比三种模型预报结果得出如下结论：

(1)限于原始输入资料的匮乏，模型预报因子的选取范围受到较大限制。经过对预报因子的多次筛选，得到最优的对应于不同旬的预报因子。通过对三种模型预报结果的分析可知，采用主成分分析方法选取预报因子的方法适应于柘溪水库中长期预报。

(2)三种模型均能精确预报年和汛期平均径流量。对比季节尺度预报结果，夏秋季预报效果略差于春冬季节。月份平均流量预报则与月平均流量波动剧烈程度有关，夏季月份模拟和预报效果相对较差。

(3)对比三种模型预报结果，BP神经网络和Elman神经网络在年、汛期、季节和月尺度的预报效果要优于多元线性回归模型。这说明神经网络模型不仅简化了径流预报过程，而且预报精度较高，可用来解决实际工程应用中非线性水文问题。此外，Elman神经网络模型预报效果较BP神经网路模型预报精度更高，这说明Elman模型在结构上承接层的设置加强了模型对动态信息的处理能力。多元线性回归模型在平水年的预报效果较好，能够对柘溪流域干流断面中长期径流预报进行作业预报，具有流域适用性与工程实用性；建议参考其他中长期预报模型的预报结果进行综合使用。

[1]孙冰心，刘琦，金立卫. 采用多元线性回归分析法预报东宁站年最大流量[J]. 黑龙江水利科技， 2014(10)： 51- 53．

[2]吴超羽，张文. 水文预报的人工神经网络方法[J]. 中山大学学报：自然科学版， 1994(1)： 79- 90．

[3]丁晶，邓育仁，安雪松. 人工神经前馈(BP)网络模型用作过渡期径流预测的探索[J]. 水电站设计， 1997(2)： 70- 75．

[4]屈亚玲，周建中，刘芳，等. 基于改进的Elman神经网络的中长期径流预报[J]. 水文， 2006(1)： 45- 50．

[5]农吉夫，黄文宁. 基于主成分分析的BP神经网络长期预报模型[J]. 广西师范学院学报：自然科学版， 2008(4)： 46- 51．

[6]朱永飞. 基于主成分分析的洪灾损失影响因子评估[J]. 长江科学院院报， 2015(5)： 53- 56．

[7]王思如，陶凤玲，李若东，等. 水文预报因子选择中两种不同方法的对比分析[J]. 水电能源科学， 2012(11)： 18- 20．

[8]赵铜铁钢，杨大文. 神经网络径流预报模型中基于互信息的预报因子选择方法[J]. 水力发电学报， 2011， 30(1)： 24- 30．

[9]王日莲，董曼玲. 人工神经网络在水文预报中的应用[J]. 水利水电科技进展， 2002(5)： 33- 34．

(责任编辑陈萍)

Application of Three Kinds of Medium and Long Term Hydrological Forecast Models in Zhexi Reservoir Based on Principal Component Analysis

LI Wei1,2, ZHOU Jianzhong1,2, YE Lei1,2, LU Weiwei1,2, YAO Xiangyu3

(1. College of Hydropower & Information Engineering, Huazhong University of Science & Technology, Wuhan 430074, Hubei, China; 2. Hubei Key Laboratory of Digital Valley Science and Technology,Huazhong University of Science and Technology, Wuhan 430074, Hubei, China; 3. China Northwest Architecture Design and Research Institute Co., Ltd., Xi’an 710018, Shaanxi, China)

Based on the history runoff data of Zhexi Reservoir, a total of 33 years of rainfall and flow data in a period of ten days from 1980 to 2012 are selected and treated by principal component analysis as the inputs of multiple linear regression model, BP neural network model and Elman neural network model respectively to calibrate model parameters. The samples are then simulated, and the absolute error and relative error of simulations are counted. And at the same time, the annual, flood, seasonal and monthly scale runoffs in 2013, 2014 and 2015 at Zhexi Reservoir are forecasted respectively, and the forecast results can be accurate to the scale of ten days. The forecast results of three models are comparatively analyzed and the application of each model in the long term hydrological forecasting of Zhexi Basin is finally determined．

multiple linear regression; BP neural network; Elman neural network; medium and long term runoff forecast; principal component analysis; Zhexi Reservoir

2016- 02- 17

国家自然科学基金重点项目(51239004)；国家自然科学基金资助项目(51309105)

李薇(1987—)，女，河南渑池人，博士研究生，主要从事水文预报研究；周建中(通讯作者)．

P338.2

0559- 9342(2016)09- 0017- 05