数据挖掘技术及其分析方法在大通水文站降水规律分析中的应用
2020-03-24陈望琴
陈望琴 姚 文
(1、长江下游水文水资源勘测局,江苏 南京210011 2、南京理工大学计算机科学与工程学院,江苏 南京210000)
数据挖掘技术的分析方法主要包括分类,估计,预测,关联,聚类等。本文主要基于大通水文站的实际数据,使用数据挖掘技术的分类、估计和预测方法,对大通水文站的降水变化进行分类,估计,并对其变化规律进行总结,预测。
1 分析降水量的雨型分布状况
本文共使用61 年的实测降水数据作为分析样本集。通过数据预处理,取年最小雨量值789.5mm,年最大雨量值2074.9mm,步长100mm,将年降水量看成一个特征。绘制出矩形分布直方图和累积频率图。结果如图1 所示:
2 分析该区域降水量变化情况
2.1 降水量的年际变化
2.1.1 降水量的年代变化
根据大通站20 世纪的50、60、70、80、90 和21 世纪00 年代的平均降水量,以1950~2010 年多年平均降水量为参考,得出大通站不同年代年降水量的丰、枯变化情况,具体如表2 所示。
2.1.2 降水量的特征值统计
根据大通站1950-2010 年实测降水资料,使用数据挖掘分析方法,易知该区域最大年降水2074.9mm(1999 年),是平均降水量的1.48 倍;年最小降水量是789.5mm(1978 年),为平均降水量的0.56 倍, 最大年降水量比最小年降水量多1285.4mm,极值比为2.63。
2.1.3 变差系数
通过数据过滤,找到多年平均降水量和多年汛期与非汛期、季节、月份的值,具体如表2 所示。非汛期(11-12 月、1-4 月)的Cv=0.18 与多年总平均降水量的Cv=0.21 相接近,在季节上夏季与秋季的相差最小,整体与非汛期(11-12 月、1-4 月)相差最大。挖掘出有价值的信息如下:月份上的降水量值变动情况>季节的降水量变化情况>汛期的变化情况。
2.1.4 降水量的丰、平、枯频次
对年降水量总体样本按某一范围降水量在61 年中出现的频率划分,将年降水量的丰、枯程度划分为5 种年型。(1)平水年、偏枯水年出现的频次最多占比26.2%;(2)偏丰水年占比24.6%;(3)丰水年占比11.5%;(4)枯水年占比11.5%;(5)丰水年、枯水年出现的频次相同(表3)。
2.1.5 连丰、连枯期分析
(1)连丰2 年出现3 次是(1951-1952 年、1969-1970 年、2009-2010 年);
(2)连丰3 年出现1 次(1989-1991 年);
(3)连枯2 年出现3 次是(1958-1959 年、1997-1998 年、2000-2001 年);
(4)连枯3 年出现2 次是(1966-1968 年、2006-2008 年)。
再从以上数据中挖掘出有效信息即:连丰年出现的次数比连枯年出现的次数少。
2.2 降水量的年内分配
使用挖掘算法,可以发现大通站检测区域一年中降水主要集中在汛期(5-10 月),多年汛期平均降水量为872.3mm,占全年降水量的62.0%;多年非汛期平均降水量为534.3mm,仅占全年降水量的38.0%(见图2)。
表1 大通站各年代平均降水量对比表
表2 大通站多年各时期的变差系数值
表3 大通站降水丰、平、枯频次分析统计表
四季降水量的年内分配如图3 所示。
各月多年平均降水量及所占全年多年平均降水量的比例如图4 所示。
对数据的分析结果如下: 大通站年内各月分配呈偏胖单峰型,主峰居中。6 月份降水量最多,其次是7 月、5 月、4 月、8 月、3月、9 月,最少的是12 月。汛期中的5-7 月与其它各月之间相差较大,这可能是长江流域干流在5-7 月容易发生洪水或特大洪水的主要成因之一。
3 降水量变化的周期性
差积曲线法是分析一个地区的降水量丰、平、枯变化周期的方法。即根据每年的降雨量跟多年平均降雨量分别求每年的模比系数,再求其差值并逐渐依次累加绘成差积曲线[2]。
使用数据挖掘方法分析后,得出结论如下:丰水段共18 年,占总年数的29.5%,平水段14 年,占总年数的23.0%,枯水段共29 年,占总年数的47.5%,这与实际出现的平水段16 年(26.2%)比较接近,与枯水段23 年(37.7%),与丰水段22 年(36.1%)相差较大。这是因为在1992-1999 年之间丰枯水段出现趋势不明显造成的差距。同时从图5 中还可以看出,该地区一个完整的降水量丰、平、枯变化周期约在1965-1991 年(27 年),丰、枯变化周期约在1950-1968 年(19 年)和1979-1998 年(20 年)。
4 降水量变化趋势分析
本文使用Kendall 秩相关系数检验来判断时间序列趋势。对该方法简单说明如下:对时间序列X1,X2,···Xn(n 为样本数),所有对偶观测值(xi,xj,j>i)中xi<xj出现的个数为P。给定显著水平α,其检验临界值为序列趋势不显著;统计量称为Kendall 秩次相关系数,当增加时,统计量收敛于标准化正态分布,给定显著水平,其检验临界值为U1-α/2。当|U|<U1-α/2,序列趋势不显著;当|U|>U1-α/2,序列趋势显著;且U>0,序列呈上升趋势,U<0,序列呈下降趋势[3]。
图5 大通站年降水量模比系数差积曲线
取显著水平α=0.05,查表得U1-α/2=1.96。利用检验统计量公式,计算不同时段的年降水量的秩次相关系数,没有月份年降水量通过了Kendall 秩次相关检验,说明年降水量上升下降趋势不显著;夏季、冬季、1 月、2 月、3 月、8 月、11 月秩次相关系数为正,说明这几个时段年降水量变化呈上升趋势且趋势不显著;其余时段的年降水量Kendall 秩次相关系数均为负,说明这些时段的年降水量呈下降趋势,且下降趋势不显著。
根据以上数据分析的结论,认为在大通站检测区域多年年降水量与汛期(5-10 月)降水量变化趋势呈缓慢下降趋势。
5 结论
本文借助数据挖掘技术及其数据分析方法,分析了大通水文站检测区域61 年的降水情况相关数据,总结如下:
5.1 验证了大通站观测区域的降水量雨型为P-Ⅲ型分布,符合一般水文变量服从负偏的P-Ⅲ型分布的规律。
5.2 大通站年降水量年际变化较大,多年降水量的变化<多年汛期降水量的变化<多年季节降水量的变化<多年月降水量的变化。
5.3 大通站多年年内的降水量变化也较大。汛期与非汛期降水量各占全年降水量的62.0%和38.0%,各时期降水量分配极不均匀,汛期容易发生局部暴雨,给当地造成特大洪水,给上、下游造成洪涝灾害。
5.4 大通站降水丰、枯期变化频繁。多年降水量丰水年与枯水年出现的频次接近, 但连丰年出现的次数比连枯年出现的次数少,降水量一个完整的丰平枯变化周期约27 年,丰枯变化周期约19 年,这些结论可为长江中下游经济建设涉水项目提供参考。
5.5 通过(Kendall)秩次相关检验(显著水平α=0.05),说明年降水量上升下降趋势不显著。这此降水规律为长江大保护、长江中下游防洪抗旱、水资源规划等提供了科学依据。