白杨河逐年流量变化过程K-均值聚类分析与定性预报

2021-07-05琪美格

地下水 2021年3期

琪美格

(新疆维吾尔自治区水文分析计算中心，新疆乌鲁木齐 830000)

每年年底，政府应急部门要求水文部门提供当地主要河流次年来水量年景分析成果，由于新疆水文站网稀少，水文预报因子挑选余地有限，预报精度受到影响。本文应用K-均值聚类分析和周期均值叠加分析方法，用五圣宫水文站历年年月流量样本建模并对其次年流量变化过程进行尝试性的定性预报，确保符合水文站网稀少特点和预报精度要求。

1 基本思路

1.1 K-均值聚类分析

K-均值聚类分析是研究某类事物“物以类聚”问题的一种统计方法，它是将一批大样本数据按照性质上的亲密程度在没有群组特征先验知识的情况下，通过用户指定类别数而进行的逐步聚类分析。可由SPSS实现：指定聚类数(如k类)；确定k个初始类中心点；根据距离最近原则进行分类；根据聚类终止条件进行迭代(迭代一次，确定新k个类中心点一次)；迭代停止，得到最终分类。最后构建由各样本所属类型值组成的时间序列。

1.2 周期均值叠加分析与定性预报

一个随时间变化的等时距水文观测样本，可视为有限个不同周期叠加而成的过程。从样本序列中识别周期时，可将序列分成若干组，如果组间各数据的差异显著大于组内差异，序列就存在周期，其长度就是组间差异最大而组内差异最小的分组组数。

那么，组内差异比组间差异小到什么程度才算是显著呢？通常用信度为α的F检验来判断：F > F(α)，则表明这一信度水平上差异显著，有周期存在，对应的分组组数即为周期长度，各组的平均值即为第1周期振幅；F <= F(α)，则差异不显著。

将所识别的第1周期振幅依序从序列起始年排至终止年，构成第1周期序列，从样本序列中剔除第1周期序列，便生成新序列，对新序列按上述步骤进行计算，可识别第2周期。其余周期的识别以此类推，直到不能识别或不想识别周期为止。最后对所识别的各周期外延叠加，即为类隶属定性预报成果。

2 建模与定性预报

2.1 逐年流量变化过程的分类

五圣宫水文站1980-2018年流量变化过程SPSS数据文件(仅显示局部)见图1。现进行K-均值聚类分析：

步骤1：打开图1所示数据文件。

图1 五圣宫水文站1980-2018年流量变化过程SPSS数据文件

步骤2：依次单击菜单“分析→分类→K-均值聚类分析”，在对话框中将“一月平均流量”至“年平均流量”选入“变量”列表框，将“年份”选入“个案标记依据”列表框；在“方法”选项组中选择“迭代与分类”；将“聚类数”设置为3(类过多，预报易失真)。

步骤3：单击“迭代”按钮，在对话框中将“最大迭代次数”设置为20，“收敛性标准”设置为0.01，勾择“使用运行均值”选项。

步骤4：单击“迭代”按钮，在对话框中选择“统计量”选项组中的“初始聚类中心”和“每个个案的聚类信息”。

步骤5：单击“保存”按钮，在对话框中选择“聚类成员”选项。

步骤6：单击“确定”按钮，执行聚类分析操作。

经分析SPSS输出的统计表格数据，5次迭代后，3个类中心的变化均小于指定的收敛标准0.01，聚类分析结束。

聚类结果见图1，类型值列是每个流量变化过程样本所属的类，即类型值序列。

2.2 类型值序列周期均值叠加分析

五圣宫水文站1980-2018年类型值序列样本容量n=39，最大分组组数m=(n-1)/2=19，即分组组数取值为2、3、…、m。对应每一分组组数，依次单击类型值序列SPSS数据文件中的菜单“分析→比较均值→单因素ANOVA”，进行不同信度下的F检验，结果为：

仅在分组组数为11时，方差比F=2.06>F(0.1)=1.84，通过信度为0.5的F检验，说明存在长度为11(年)的第1周期，周期振幅依序为：2、2.5、2、2.5、2.5、2.75、3、1、1、3和2.33。

仅在分组组数为13时，方差比F=3.75>F(α)=1.81，通过信度为0.5的F检验，说明存在长度为13(年)的第2周期，周期振幅依序为：0.167、0.083 3、0.5、0.25、-0.5、0.083 3、0.222、-0.333、0.389、-0.667、-1.44、0.833和0.417。

仅在分组组数为15时，方差比F=2.16>F(α)=1.8，通过信度为0.5的F检验，说明存在长度为15(年)的第3周期，周期振幅依序为：0.444、0.111、0.481、-0.167、-0.37、0.055 6、-0.044 7、-0.111、-0.204、0.417、0.097 2、0.25、-0.375、-0.833和0.083 3。

将上述3个周期振幅分别依序从1980年排至2018年，构成3个周期序列；3个周期序列振幅的叠加值即为对应类型值的拟合值。