APP下载

基于历史数据挖掘的战场气象环境数据模糊预测算法

2021-06-26徐清宇李克奇

火力与指挥控制 2021年5期
关键词:战场气象数据挖掘

陈 冲,徐清宇,程 欣,李克奇,甄 磊

(北方自动控制技术研究所,太原 030006)

0 引言

现今的模拟仿真训练系统中,对于温度、风力、云、雾、沙尘、降雨量等气象环境的仿真主要是以复现历史战场气象环境数据来实现的。主要是通过对历史战场气象环境数据的挖掘进行复现,主要方法包括基于K 均值聚类算法的气象数据挖掘、基于蚁群算法的战场气象环境数据挖掘,和基于气象预测相关数据挖掘模型的战场气象环境数据挖掘。其中最常用的是气象预测相关数据挖掘模型的战场气象环境数据挖掘方法。

在模拟仿真训练过程中,单一的对历史战场气象环境的再现,已经远远不能满足对于多变战场环境的仿真需求。针对陆军模拟仿真训练系统其在训练过程中对虚拟战场气象环境的干预,需要在合理可控的预测区间内对调理作出响应。本文所提出的基于战场气象环境历史数据的模糊预测算法,是在拟合区间内对气象数据的模糊预测拟合,满足陆战场仿真系统中对多变战场气象环境的要求。

1 战场气象环境数据处理方法

1.1 气象预报专家系统

对于气象环境预报来说,用到最多的是被广为熟知的气象预报专家系统。该系统是以气象环境学知识为基础,并以推理机系统产生的逻辑推断为依据来预报气象环境。通常包括知识获取、知识库、数据库、推理机、输出解释和资料处理与预报参数采集等6 部分分系统。知识获取分系统是利用压缩后的预报因子和因子群,将从气象环境预报员和气象领域专家得到的知识转变为系统可识别的形式,并将其寄存于知识库分系统中。推理机分系统是利用气象学知识产生的规则,对气象环境数据进行逻辑判断。知识库分系统是气象预报专家系统的核心部分,知识的获取、解析、推理和预报都建立在知识库分系统的基础上。数据库分系统是用来存储气象信息数据的,主要包括历史气象数据资料和实时气象数据资料两部分内容。输出解释分系统是通过人机互操作的形式将系统的各种信息提供给用户,使系统具备一定的可理解性。资料处理与预报参数分系统又可以称之为学习系统,通过与外界环境进行交互不断完善自身的性能。

随着数据处理技术的不断发展,对气象环境数据处理能力在不断提高,获取到的气象环境数据量也在不断增加,气象环境数据的残缺、冗余和混乱现象越来越明显。通过专家和人工获取的知识已经不能满足对复杂数据总体特性准确描述的需求,因数据量爆炸式增长而出现的知识匮乏现象也日渐显露。在气象环境数据量庞大的今天,知识获取逐渐成为制约气象预报专家系统发展的核心问题。

1.2 气象数据挖掘

数据挖掘是利用多种分析工具在海量数据中寻求构建模型和数据之间关系的过程,并利用这些数据和模型间关系对数据更进一步预测。数据挖掘在气象预报中首先要做的是对气象数据的描述,并对统计变量进行计算。随着数据库和数据挖掘技术的发展,数据挖掘在气象预报中的应用越来越多。从最早在气象环境数据处理中用到的统计学回归和聚类分析方法,到现今所用到的数据挖掘技术、气象环境数据处理技术也在不断变革。

由于气象数据和电力负荷数据之间存在着极大的不确定性关系,在计算机系统中的电力负荷预测上,开始出现了大量的研究和试验。大量研究表明,气象变化是导致计算机系统电力负荷变化的因素之一。

虽然上面所提到的两种方法对于战场气象环境数据都能起到预测作用,但是针对陆军模拟仿真训练系统,所要实现的不仅仅是对战场气象环境数据的准确预测,还有在仿真过程中在不影响整体系统环境数据的基础上,对虚拟战场气象环境在合理范围内的干预和调理。针对以上问题,本文提出了一种基于历史战场气象环境数据的模糊预测算法设计。

2 战场气象环境数据预处理技术

对战场气象环境进行精准的预测,是在对战场气象环境数据进行准确分析后的基础上完成的。原始气象环境数据中所存在的数据冗余、杂乱和不完整等问题,会直接影响到数据挖掘和模糊预测的效果,所以在对气象数据进行挖掘和模糊预测前,要根据气象数据特性,利用现有的数据清理、集成、变换和规约等预处理技术,可以提升战场气象环境数据的质量,提高挖掘和预测的效率。

数据清理主要是用来填补遗漏数据、消除异常数据和平滑噪声数据,能有效纠正错误数据。

数据集成是指将不同数据源的数据整合到一起,形成一个统一的数据集合,为数据挖掘和模糊预测提供完整的数据基础。以给出的两个属性A 和B 数据集合为例,其中n 是集合A、B 的元素个数,A与B 是集合A、B 的均值,σA与σB是集合A、B 的标准差。根据集合A、B 的数值属性,使用下式分析集合A、B 数值属性间的互相关关系:

数据变化是指采用规范化和属性构造等方法,将原始气象环境数据转变为适合挖掘和预测的形式。常用的规范化方法有最小-最大规范化、零均值规范化和十基数变换规范化。

1)最小-最大规范化法:假设minA和maxA为A 属性的最小值与最大值。最小-最大规范化是对A 的值线性变换,将其映射到区间[newminA,newmaxA]中,其映射公式如下:

2)零均值规范化法:将集合A 的数值属性值v基于A 的平均值和标准差进行处理,其中A、σA为集合A 的均值和标准差,利用下式规范为v':

3)十基数变换规范化法:通过移动集合A 的小数点位置,将集合A 的属性值v 规范化为v',其中j 是使得max(|v'|)<1 的最小整数。而小数点的移动位数取决于A 的最大绝对值。

数据归约技术是对气象环境原始数据集进行属性选择和部分采样等处理,得到原数据集的精简集合。该精简数据集不仅减小了原始数据集的数据量,还保持了原数据集的完整性。

对于模糊预测在历史气象数据挖掘应用来说,主流的是在K 均值聚类算法的基础上,引入隶属关系形成的模糊K 均值聚类的气象数据挖掘算法,其在一定程度上增加了数据挖掘的准确率。以主从隶属的依附关系,根据隶属度关系进行分类模糊,提高某几类数据挖掘的准确率。但在气象数据模糊预测中,所要求的是对于整个时间段内气象数据的挖掘预测,不存在隶属关系,就需要来寻求其他的关于气象数据挖掘的模糊预测。

3 模糊预测数据生成算法设计

本文所提出的基于模拟训练历史数据的气象环境数据模糊预测算法,其通过时间序列分析气象环境数据之间的关联性,通过模拟训练的历史气象环境数据挖掘时间序列变化的规律,来对未来气象环境数据进行模糊预测。模型计算的模糊带包络覆盖了实际值变化的曲线,能够在模拟仿真训练过程中满足用户在真实可能性的基础上,实现对虚拟战场环境数据定制。模糊时间序列曲线拟合预测过程主要包括以下内容。

3.1 原始数据模糊化

以某一虚拟战场环境数据来说,假设该战场环境某月的历史平均数据为一组实数x1,x2,…xT,利用它们构造一组模糊数,设当t=1 和T 时,

3.2 计算模糊时间序列的阶数

在给出的历史年份T 内取不同的正整数k 值,计算趋势方程:

3.3 计算趋势方程模糊系数pi 和边界线

设pi为三角模糊函数,则它的估计值p^i可以设为:

得到pi的估计值p^i,则得到趋势方程为:

此时可代入未来时间,SVt*()也是一个三角模糊数,当时间变动时SVt*(t)不是一条曲线,而是一个曲线带,曲线带的上下两条边界曲线分别为f1(t)=β(t)+S(t)和f2(t)=β(t)-S(t),中心线为f0(t)=β(t),

3.4 Box-Muller 算法得正态分布的随机数

Box-Muller 算法核心是先产生一组服从均匀分布的随机数,再将该组均匀分布的随机数通过变化转换为正态分布的随机数。

在(0,1]值域内生成u1和u2,且u1、u2为相互独立的两个随机数:

u1=rand()*1.0/RAND_MAX;

u2=rand()*1.0/RAND_MAX;

其中,RAND_MAX 为定义的字符常量,rand()为产生在0-RAND_MAX 区间值的函数,由此算出一个正态分布的随机数字Z:

Z=R*cos(a);

其中,R=sqrt(-2*log(u2));a=2*π*u1;

得到一个均值为0,标准差为1 统计量,映射到一个均值为β(t),标准偏差为S(t)的统计量X:

X =β(t)+ Z * S(t),即为默认的预测值函数。

4 实验结果分析

为了验证算法的可行性和有效性,本文采取战场环境中的天气温度数据来进行算法的可行性实现,并与历史数据挖掘到的温度数据进行比较,验证该算法的有效性。利用MATLAB 工具以虚拟仿真训练战场气象环境中的气温为例,来绘制战场环境的历史气温挖掘数据和本文设计算法得到的预测温度数据。

本文以中部战区某战场2020 年7 月份的日平均温度作为样本数据来进行预测,以1999-2019 年前20 年的该战场7 月份日平均气温数据进行挖掘获得7 月份日平均温度的历史数据,气温数据来源于中国气象数据网。由于数据繁多复杂,这里直接给出原始数据经过预处理后的2020 年7 月份和前20 年中部某战场的日平均气温数据,如表1 和表2所示。

表1 2020 年中部某战场7 月日平均温度

对于所要预测拟合的2020 年7 月份太原市的日平均气温本文以前20 年的温度为样本,利用本文算法给出预测拟合区间,并在该区间内进行预测拟合,同时与常用的历史数据挖掘得到的数据进行比较,分析该算法的有效性,所得到的结果如图1~图4 所示。

表2 前20 年7 月份中部某战场日平均温度

图1 2020 年7 月份日平均气温

图3 历史气温数据挖掘曲线

从上图中可以看出本文所提出的利用历史数据来进行战场环境的模糊预测模拟,相比历史数据挖掘所得到的环境数据更加贴合实际战场环境数据,且其在拟合区间内进行战场环境的数据预测拟合思想,更加符合在模拟仿真训练过程中对虚拟战场环境的实时战场干预和调理。

图4 拟合区间内算法预测拟合的曲线

5 结论

虚拟战场环境仿真数据通过模糊时间序列算法预测得出的是一个可能性区间,在该合理区间内可以进行预测拟合曲线的自定义。预测方程系数不是确定的数,而是一组模糊数;预测的是一个区间,而不是一个确定值,在该区间内可以对陆军模拟仿真训练过程中的虚拟战场气象环境进行合理的干预调理。

猜你喜欢

战场气象数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
气象树
战场上的神来之笔
《中国农业气象》征订启事
中国气象“风云”
探讨人工智能与数据挖掘发展趋势
贴秋膘还有三秒到达战场
大国气象
软件工程领域中的异常数据挖掘算法
赤焰战场RED2