APP下载

气象信息数据挖掘技术的应用

2013-08-15陈少斌

河南科技 2013年14期
关键词:降维数据挖掘气象

陈少斌 苏 彦

(广西崇左市气象局,广西 崇左 530001)

我国经济和社会发展迅速,导致气候和气象灾害对国家经济和社会带来很大影响,因此社会对气象服务的质量需求就越来越高。气象服务主要是对大量的气象探测数据进行分析整理,气象信息数据要保证规范化、准确化、丰富化和标准化,这是气象工作的首要前提。最近几年,地面自动气象站观测系统已经替代了原有的人工观测站,自动气象站成为气象观测主要方式,其探测的气象信息数据也成为天气预报和科研人员的数据来源。并且自动观测数据和人工观测相比时间和空间的密度都大幅度提升,在我国很多地区的气象部门使用自动气象站观测数据,尤其是以数据挖掘技术对数据进行存储和分析更受关注。

一 数据挖掘技术概述

1.数据挖掘技术起源

在如今的信息社会中大量数据中提取有用信息的能力是十分重要的,而数据库的应用就应用而生,使用数据库对数据存储、统计和查询等,但是数据库却无法发现数据间的联系和遵守的规则,也不能预测未来发展情况。主要是因为缺乏数据挖掘技巧,所以数据挖掘技术就逐步发展起来,主要对信息材料进行数据处理。

2.数据挖掘技术概念

数据挖掘也成为对数据库中知识的发现,目前被大多数人认同的定位是U.M.Fayyad等人提出的:从大量模糊、不安全、大量、随机的数据中,提取人们不知道、潜在的有用信息的过程,提取的有用信息主要为规则、概念、规律或模式等。数据挖掘技术主要对各组织原来就具有的数据进行分析,并整理、归纳和推理,从而为相关人员提供帮助和支持,实际上是一种决策支持的过程。

3.数据挖掘过程

数据挖掘过程包括在某个特定的数据库中提取模型,并围绕数据挖掘进行的结果表现和预处理过程,该过程具有反复性。对知识发现和提取的过程是由多个挖掘步骤构成,其中数据挖掘是一个重要步骤。而完整的步骤由目标定义阶段、数据准备阶段和数据挖掘阶段组成。

4.数据挖掘的要求和挑战

目前国际上对于气象数据应用在数据挖掘的技术是数据库信息系统研究的主要方向,这也引起了气象和学术界的重点关注,同时也吸引了很多研究人员和商业公司的关注。但是数据挖掘技术还需要面临很多无法避免的问题,为了保证数据挖掘的有效性,要检查数据挖掘的期望特性,还要考虑将面临的挑战:对并行挖掘的高度结构和分布式的数据挖掘算法的探究;保证数据挖掘结果的确定性、可用性和解释性;数据挖掘、数据仓库和分析处理结合的开发;在多层知识面和多个抽象等级上进行交互挖掘;数据挖掘建模语言和应用规范的统一性、灵活性和开放性。

二 气象信息数据挖掘技术探讨

1.时空分析

气象数据的时间和空间特性比较强,所以利用时间分析、空间分析和时间空间结合对气象数据分析,能够有效避开复杂的非线性动力学机制的数据,是分析气象信息数据很好的出发点。对于气象特征,要先通过空间分析,得到气象特征的描述,再进行时间分析,做出气象特征的提前预报。空间分析的过程为:首先,利用聚类分析手段对空间站点的数据信息进行分析,并通过地理位置进行划分;然后再使用主成份分析法对数据分析,获取气象特征明显的地区;最后使用聚类分析方法对非正常现象进行分析。时间分析的过程是:首先利用回归分析、趋势预测和奇异分析对数据分析;然后跟踪数据演变,最终得出结论。

2.降维分析

能够影响气象的因素很多,并且关系很复杂,目前的气象预报基本是通过卫星、台站观测和雷达获取数据,然后通过复杂的计算得出,计算能力要求非常高,需要高性能的大型计算机才可以承受。所以,如果对预测结果精确度没有影响的前提下,将数据维度有效降低,并降低对计算机资源的依赖,这样能够实现利用一般计算机对数据处理的目标。降维分析主要分为近似降维和精确降维两种,近似降维主要是主成分分析方法,主要是对数据进行简化,降低数据维数的同时保证数据集中对方差最大,分析中对高阶成分忽略而保留低阶成分,也就是保留数据的最重要部分,因此不够精确;精确降维主要是粗糙集分析方法,直接对数据推理并分析,获取潜在的知识和规律,其基本思想是将数据特性分为条件和结论两种,然后根据特性分为不同子集,然后对子集和结论划分子集之间形成近似空间,如果特性子集忽略某一属性而对结论属性乜有影响,那么就忽略此特性,这样能够精确降低数据维数。

3.分类预测

气象信息数据挖掘就是从复杂大量的气象数据和资料中,建立可描述的复杂非线性气象系统模型,对数据隐藏的知识和规律进行分析,并且对未来的气象信息进行预测,更好的为相关部门和研究人员提供数据。分类预测主要分为连续值预测和离散值预测两种,其中连续值预测是利用回归分析和神经网络对降雨量、温度等进行预测;离散值预测主要利用决策树、SVM分类算法、粗糙集、神经网络和分类统计等方法,对降雨、降霜、台风和暴雨等进行预测。

4.关联分析

关联分析主要是多个事物间如果存在关联,那么利用其中一个事物能够对其他事物进行预测,达到对数据间隐藏的关系进行挖掘。由于气象信息数据的多维性和时空性,所以气象信息数据的关联分析要从两方面进行分析:第一降低频繁集个数,对特定属性关联分析;第二是不同时空中对同一属性的关联分析。对于某一时空的气象会受到周围气象因素的干扰,而且具有时间上的连续性,所以频繁集的选取就要求跨地域、跨时间。对于气象信息的数据库中,气象要素字段非常多,考虑所有字段的关联就会导致频繁集很多,而这样复杂大量的频繁集只有一部分具有价值,所以要找到关键字段,将该字段和其他字段同时发生的频率进行分析,这样研究价值更高。

三 结语

总之,气象信息数据的领域和容量不断拓宽并增长,如何对气象数据进行利用和挖掘已经成为气象领域研究人员面临的重要问题。本文对气象信息数据挖掘技术进行分析,希望对相关人员有所帮助。

[1]李一平.数据挖掘技术在天气预报中的应用研究.内蒙古大学.2003

[2]韩涛.陕西省区域自动气象站观测资料分析系统研究与实现.西安电子科技大学.2012

猜你喜欢

降维数据挖掘气象
混动成为降维打击的实力 东风风神皓极
气象树
《内蒙古气象》征稿简则
探讨人工智能与数据挖掘发展趋势
降维打击
大国气象
美丽的气象奇观
基于并行计算的大数据挖掘在电网中的应用
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
一种基于Hadoop的大数据挖掘云服务及应用