基于模糊关联规则的海量气象数据动态挖掘

2023-11-21骆阳，张旗

电子设计工程 2023年22期

骆阳，张旗

（1.浙江省气象信息网络中心，浙江杭州 310000；2.浙江省气象服务中心，浙江杭州 310000）

在海量数据中，如何获取对决策有利的有价值数据以及通过海量历史数据来分析未来的发展趋势等，已经成为数据分析领域的重要研究方向[1]。在这样的需求背景下，数据挖掘技术应运而生。气象数据[2]是一种时间序列数据，气象数据挖掘是通过对气象数据进行分析和挖掘，来发现其中的规律和趋势，从而为气象预测、气象灾害预警等提供支持和帮助的技术。当前领域涌现出了诸多优秀的研究成果，例如文献[3]中提出的基于时间序列的体育产业数据挖掘方法，文献[4]中提出的时间序列数据深度挖掘模型。但这两种方法存在着样本对于挖掘规则的置信度和支持度较低的问题，因此提出基于模糊关联规则的海量气象数据动态挖掘方法。

1 海量气象数据动态挖掘方法

1.1 数据去噪处理

气象数据中噪声含量往往较高，为了有效去除噪声，结合EMD和MIC设计时间序列数据去噪算法[5]。

1）对原始的气象数据信号实施EMD 分解。具体步骤如下：

步骤1：假设Ht表示原始的气象数据信号序列，根据Ht的波动特征确定全部局部极值点，将极值点均值n0(t)作为原始气象数据[6]信号的均值包络线。

步骤3：重复步骤1、2，在迭代l次后，新信号序列符合经验模态分解的定义，则可以用式（2）表示Ht的一阶经验模态分解结果：

通过式（3）去掉其中的高频成分：

步骤4：重复步骤1、2、3，获取第二个经验模态分解分量IMF2,t。不断分解直至残余分量fm,t等于一个常数或变成单调函数[7]。用式（4）表示最终的EMD 分解结果：

式中，m表示总分解次数。

2）对于噪声含量比信号含量大的IMF 分量，将其称为噪声主导分量，反之则称为信号主导分量。此时通过一个阶数g就可以实现二者的区分。通过MIC 值确定g的取值：

3）确定g值后，对噪声主导分量实施阈值处理，去除其中的高频噪声，文中选择小波软阈值函数进行主要噪声成分的降噪处理[8]。

通过Sqtwolog 固定阈值准则来选取阈值，具体如式（6）所示：

式中，B表示待分析信号的对应序列长度；φ表示高斯白噪声标准差。其中，φ是通过经验小波系数求出的[9]。

4）假设pj表示滤波处理后的高频分量，对信号主导分量与pj进行重构，获取去噪后的气象数据信号序列，如式（7）所示：

通过上述过程，能够在保证不丢失有价值的信息前提下完成时序数据中噪声的去除。

1.2 缺失值填补

由于气象数据序列跨度较长，存在不同程度的数值缺失问题，因此设计基于结合生成对抗网络与时间指数的GAN-TRTI 缺失值补全函数，进行气象时间序列缺失值的填补，使气象数据变得更加完整[10]。

设计的GAN-TRTI 缺失值补全函数主要使用WGAN-GP 模型，该模型能够提高收敛速度，避免发生陷入局部最优的问题，提升网络训练时的稳定性。将其与TRLSTM-AE 相结合在缺失数据集上对原始数据的分布进行学习，从而补全缺失值。该系统由判别器与生成器两部分构成。其中，生成器由编码器与解码器构成，二者均由三层LSTM 网络构成。在各隐藏层网络中，LSTM 神经元总数大于输出层、输入层的神经元个数。生成器的数据生成过程可以用式（8）来表示：

式中，s()· 表示编码器映射函数；表示预填补数据；q()· 表示解码器映射函数；表示生成的完整气象数据序列[11]。

在生成时，上一时刻的输出和当前时刻的输入共同构成生成器当前时刻的输出，循环生成后，组合即得完整的气象数据序列。

判别器由两部分构成：LSTM 网络与全连接层，其输入为生成的补全数据，包括生成器生成的填补值与原始气象数据中的未缺失部分，其最终输入为各输入值的真实概率。其损失包括对抗损失与梯度惩罚项。

通过GAN-TRTI[12]缺失值补全函数实施气象时间序列缺失值填补的具体操作如下：

1）固定生成器参数，将x～输入其中。

2）获取生成补全数据后在判别器中输入，实施二分类训练。训练时在数据缺失掩码矩阵α中实施训练标签的采样。当判别器能够分辨输入样本的真假时，即可停止训练。

3）训练生成器。训练时利用判别器判断生成样本的真假。首先固定判别器参数，串接判别器和生成器，构成联合判别函数[13]。在函数中输入预填充时序数据进行训练。当判别器无法分辨生成数据的真假时，即可停止训练。填补后的数据可以用式（10）表示：

至此完成气象时间序列缺失值的填补。

1.3 数据动态挖掘

结合模糊关联规则[14]与粒子群优化算法[15-16]设计海量数据动态挖掘算法，实现海量气象数据的动态挖掘。算法运行步骤具体如下：

2）计算种群C中各粒子的支持度Sj、置信度Cj，从而计算得出适应度Fj，则以下关系式成立：

式中，Sj(X⇒Y)表示第j个粒子的支持度；X表示规则的前项集；u表示事务项集的个数；Y表示规则的后项集；z(·) 表示判断函数；Cj(X⇒Y)表示第j个粒子的置信度；Sj(X⇒Y)min表示最小支持度；Cj(X⇒Y)min表示最小置信度；Fj(X⇒Y)表示第j个粒子的适应度。

3）根据Fj(X⇒Y)更新种群与各粒子的最优历史位置，分别用gb、wbj来表示。

4）对满足Fj(X⇒Y)＜1 的粒子执行MmO 变异操作，生成新的粒子群C′。

5）计算C′中各粒子的支持度、置信度、适应度Fj。

6）根据Fj更新C′中的gb、wbj，分别用来表示。

7）获得新的粒子群：C"=C⋃C′。

9）消除C"内的重复粒子，在规则集中消除重复规则。

10）确认是否能够终止。当可以终止时，直接结束算法，输出数据动态挖掘结果；当无法终止时，更新各粒子的速度和位置，拉回搜索空间外部的粒子，返回步骤2），直至达到终止条件。

2 案例分析

2.1 实验操作

利用设计的基于模糊关联规则的海量气象数据动态挖掘方法在实验数据集中挖掘关联规则数据，以此测试所提方法的性能。

利用基于EMD 和MIC 的时间序列数据去噪算法实施实验数据集的去噪处理。接着利用基于结合生成对抗网络与时间指数的GAN-TRTI 缺失值补全函数实施实验数据集的缺失值填补。填补后实验数据集的均方误差达到0.12，说明达到了良好的填充性能。最后利用设计的海量数据动态挖掘算法实施温度、气压、降水量之间关联规则数据的动态挖掘。挖掘中的参数设置为：

初始种群粒子数5 685 个，加速因子2 个，最终设计方法挖掘到的规则数为230 条。

观察设计方法的数据动态挖掘性能表现，包括测试样本对于挖掘规则的平均置信度与平均支持度等挖掘结果。

在测试中，为取得更好的实验效果，将时间序列数据深度挖掘模型与基于时间序列的体育产业数据挖掘方法作为对比方法，共同进行性能测试，并分别用方法1、方法2 来表示。