APP下载

白杨河逐年流量变化过程K-均值聚类分析与定性预报

2021-07-05琪美格

地下水 2021年3期
关键词:组组水文站振幅

琪美格

(新疆维吾尔自治区水文分析计算中心,新疆 乌鲁木齐 830000)

每年年底,政府应急部门要求水文部门提供当地主要河流次年来水量年景分析成果,由于新疆水文站网稀少,水文预报因子挑选余地有限,预报精度受到影响。本文应用K-均值聚类分析和周期均值叠加分析方法,用五圣宫水文站历年年月流量样本建模并对其次年流量变化过程进行尝试性的定性预报,确保符合水文站网稀少特点和预报精度要求。

1 基本思路

1.1 K-均值聚类分析

K-均值聚类分析是研究某类事物“物以类聚”问题的一种统计方法,它是将一批大样本数据按照性质上的亲密程度在没有群组特征先验知识的情况下,通过用户指定类别数而进行的逐步聚类分析。可由SPSS实现:指定聚类数(如k类);确定k个初始类中心点;根据距离最近原则进行分类;根据聚类终止条件进行迭代(迭代一次,确定新k个类中心点一次);迭代停止,得到最终分类。最后构建由各样本所属类型值组成的时间序列。

1.2 周期均值叠加分析与定性预报

一个随时间变化的等时距水文观测样本,可视为有限个不同周期叠加而成的过程。从样本序列中识别周期时,可将序列分成若干组,如果组间各数据的差异显著大于组内差异,序列就存在周期,其长度就是组间差异最大而组内差异最小的分组组数。

那么,组内差异比组间差异小到什么程度才算是显著呢?通常用信度为α的F检验来判断:F > F(α),则表明这一信度水平上差异显著,有周期存在,对应的分组组数即为周期长度,各组的平均值即为第1周期振幅;F <= F(α),则差异不显著。

将所识别的第1周期振幅依序从序列起始年排至终止年,构成第1周期序列,从样本序列中剔除第1周期序列,便生成新序列,对新序列按上述步骤进行计算,可识别第2周期。其余周期的识别以此类推,直到不能识别或不想识别周期为止。最后对所识别的各周期外延叠加,即为类隶属定性预报成果。

2 建模与定性预报

2.1 逐年流量变化过程的分类

五圣宫水文站1980-2018年流量变化过程SPSS数据文件(仅显示局部)见图1。现进行K-均值聚类分析:

步骤1:打开图1所示数据文件。

图1 五圣宫水文站1980-2018年流量变化过程SPSS数据文件

步骤2:依次单击菜单“分析→分类→K-均值聚类分析”,在对话框中将“一月平均流量”至“年平均流量”选入“变量”列表框,将“年份”选入“个案标记依据”列表框;在“方法”选项组中选择“迭代与分类”;将“聚类数”设置为3(类过多,预报易失真)。

步骤3:单击“迭代”按钮,在对话框中将“最大迭代次数”设置为20,“收敛性标准”设置为0.01,勾择“使用运行均值”选项。

步骤4:单击“迭代”按钮,在对话框中选择“统计量”选项组中的“初始聚类中心”和“每个个案的聚类信息”。

步骤5:单击“保存”按钮,在对话框中选择“聚类成员”选项。

步骤6:单击“确定”按钮,执行聚类分析操作。

经分析SPSS输出的统计表格数据,5次迭代后,3个类中心的变化均小于指定的收敛标准0.01,聚类分析结束。

聚类结果见图1,类型值列是每个流量变化过程样本所属的类,即类型值序列。

2.2 类型值序列周期均值叠加分析

五圣宫水文站1980-2018年类型值序列样本容量n=39,最大分组组数m=(n-1)/2=19,即分组组数取值为2、3、…、m。对应每一分组组数,依次单击类型值序列SPSS数据文件中的菜单“分析→比较均值→单因素ANOVA”,进行不同信度下的F检验,结果为:

仅在分组组数为11时,方差比F=2.06>F(0.1)=1.84,通过信度为0.5的F检验,说明存在长度为11(年)的第1周期,周期振幅依序为:2、2.5、2、2.5、2.5、2.75、3、1、1、3和2.33。

仅在分组组数为13时,方差比F=3.75>F(α)=1.81,通过信度为0.5的F检验,说明存在长度为13(年)的第2周期,周期振幅依序为:0.167、0.083 3、0.5、0.25、-0.5、0.083 3、0.222、-0.333、0.389、-0.667、-1.44、0.833和0.417。

仅在分组组数为15时,方差比F=2.16>F(α)=1.8,通过信度为0.5的F检验,说明存在长度为15(年)的第3周期,周期振幅依序为:0.444、0.111、0.481、-0.167、-0.37、0.055 6、-0.044 7、-0.111、-0.204、0.417、0.097 2、0.25、-0.375、-0.833和0.083 3。

将上述3个周期振幅分别依序从1980年排至2018年,构成3个周期序列;3个周期序列振幅的叠加值即为对应类型值的拟合值。

2.3 模拟

计算1980-2018年3个周期序列振幅叠加值与对应类型值之间的相对误差,若其绝对值小于等于20%为合格,经计算,合格率达82.1%,说明拟合较好。

2.4 2019年流量变化过程类隶属定性预报

将3个周期序列外延1年,得2019年3个周期振幅依次为3、0.167和0.417,叠加值为3.58,接近类型值3,即五圣宫水文站2019年流量变化过程属第3类,检验如下:

用SPSS计算各类样本的总数和均值:

步骤1:打开图1所示数据文件,依次单击菜单“分析→报告→个案汇总”,在对话框中,将“一月平均流量”至“年平均流量”选入“变量”列表框,将“类型值”选入“分组变量”列表框。

步骤2:单击“统计量”按钮,将“均值”选入“单元格统计量”列表框。

步骤3:单击“确定”按钮,执行个案汇总操作。各类样本均值详见表1,其中,类1、2、3分别有12、3、24个流量变化过程样本。

表1给出了2019年实测月年平均流量与各类样本均值的类隶属情形,可见,绝大多数实测值类隶属为3(尤其是5、6、7、8月主汛期月平均流量和年平均流量),说明预报基本正确。

表1 2019年实测月年平均流量与各类样本均值的类隶属判断

3 结语

(1)应用K-均值聚类分析和周期均值叠加分析方法,用本站历年年月流量样本建模并对其次年流量变化过程进行定性预报,是一次成功的尝试。

(2)预报所用样本仅限于本站历年年月流量资料,不需要其它水文、气象站相关因子,适合干旱区水文站网稀少的特点。

(3)若周期振幅叠加值与类型值相对误差的绝对值小于等于20%为合格,则1980-2018年类型值序列模拟检验合格率为82.1%,说明拟合较好。

(4)从2019年实测月年平均流量与各类样本均值的类隶属情形来判断,绝大多数预报值接近实测值,说明该技术在长期水文定性预报方面有一定的实用价值。

猜你喜欢

组组水文站振幅
品学兼“忧”的好孩子
金沙江坝下水文站中泓浮标系数稳定性分析
SL流量计在特殊河段的应用——以河源水文站为例
西双版纳州水文站网合理布设及测验方法探析
组组通 通幸福
水文站缺测资料插补展延实例分析
贵州将研发“四好农村路”管理系统
合力破解“养护”难题
十大涨跌幅、换手、振幅、资金流向
十大涨跌幅、换手、振幅、资金流向