数据仓库在航空气象上应用探讨
2015-01-17刘竹涛
刘竹涛 黄 南
(民航黑龙江空中交通管理分局,黑龙江 哈尔滨 150079)
数据仓库在航空气象上应用探讨
刘竹涛 黄 南
(民航黑龙江空中交通管理分局,黑龙江 哈尔滨 150079)
该文对数据仓库的含义和特点做出了阐述,针对机场气象台的实际情况和航空预报的特点对民航气象数据仓库的设计提出了方案。
数据仓库;航空气象;联机分析处理系统
1 引言
随着民航气象事业的不断发展,针对机场的气象资料也不断地完善,也呈现出复杂化和多样化的趋势。机场气象台每天可获得民航气象数据库的多种气象图形资料和报文,接收卫星云图数据,接收地方气象台提供的MICAPS原始数据、填图资料以及省台天气雷达资料,本场探测设备还可提供自动气象观测系统数据和多普勒天气雷达数据等资料。建立数据仓库可以有效地管理和高效地利用这些气象资料,对这些分散的气象资料进行集成、加工和分析,为气象预报的决策提供重要的帮助。
2 数据仓库的含义[1]
对数据仓库可以这样理解,它是对多个异构的数据源的有效集成,集成后再按照不同的主题进行重组,不断增添新的数据变成历史数据,存放在仓库中的数据不再修改,用来支持管理和决策。数据仓库具有以下特点:首先,它是面向主题的,主题是指用户进行决策时所关心的重点方面,而数据仓库中的数据是按照一定的主题域进行组织;其次,它里面的数据是集成的,数据仓库中的数据是对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理而得到的;第三,它里面的数据是相对稳定的,数据仓库中的数据主要供决策分析之用,如果某个数据进入到数据仓库后,将被长期保留而不被删除;第四,它可以反映历史变化,数据仓库中的数据通常包含历史信息,系统记录了某一主题从过去的某一时刻到目前各个阶段的信息,通过这些信息可以对该主题的发展历程和未来趋势做出分析和预测。
3 民航气象数据仓库系统的组成
建立一个气象数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。数据仓库环境最重要的3个环节包括抽取(extract)、转换(transform)及加载(load,把数据从源数据系统中加载到数据仓库),即ETL过程。根据民航气象业务的特点和需求我们建立独立数据集市的数据仓库体系结构,数据集市是范围受限的小型数据仓库,常用于特定终端用户群制定决策应用。在这种情况下,每个独立的数据集市内容都来自于独立的ETL处理过程。民航气象数据仓库体系结构如图1所示:
图1 民航气象数据仓库体系结构
3.1 数据源
数据源是数据仓库系统的基础,即系统的数据来源。民航气象数据仓库的数据源通常是本场所获得的各种气象资料和数据,主要包括本场的自动气象观测系统数据、本场的多普勒天气雷达数据、本场接收的卫星云图数据、本场接收的民航气象数据库数据和地方气象台向本场传送的MICAPS资料原始数据等。
3.2 主题确定与分析
数据仓库中所含的数据是按照若干特定的主题来组织的,主题是指在高层次上将业务数据进行综合、归类和分析利用的一个抽象概念,每个主题基本对应业务的一个分析领域,主题的确定与分析是数据仓库建立的重要过程。
民航气象数据仓库的主题可以针对民航气象的特点来确定,例如:根据对航班起降影响很大的因素(如能见度、风切变、降雪等)来确定主题,根据对航路影响很大的因素(如雷暴、强对流云团等)确定主题。在提出主题后还需要对数据进行分析,以确定数据流对主题支持的力度和强度,并在此基础上调整主题。
3.3 数据存储与管理
数据的存储与管理是整个数据仓库系统的核心。数据存储系统首先从本场的自动观测系统数据、本场多普勒天气雷达数据、卫星云图数据、MICAPS原始数据中抽取数据,然后对抽取后的原始数据进行整合集成,使同样的数据在量纲、精度和意义等方面达到一致,使之从原始数据转化成分析型数据,以便于分析。
集成后得到的数据要按照主题进行重新组织,将一个数据仓库划分成若干个主题域,并在数据仓库的数据库中存储起来,通过元数据对数据仓库中的数据进行管理。元数据是描述数据的数据,它对数据仓库所有数据的进行全面描述,如数据来源、时空特征、质量、精度、经过哪些变换和存储位置等,就像数据的目录一样。数据仓库的元数据除包含数据的信息外,还包含许多系统结构信息,如数据源和数据存储服务器的IP地址、数据具体位置(目录、文件名定义、数据格式或数据库的库名、表名、属性列表等)。通过这些参数,用户和应用程序可以快速地了解数据仓库中的海量数据情况,准确地定位数据,并将数据正确地写入、读出和使用。目前,WMO已经提出了WMO核心元数据标准[2]和气候数据的元数据标准[3]。
3.4 联机分析处理系统(OLAP)
数据的存储和处理后,通过建立联机分析处理系统将数据仓库中所存储的数据进行分析,来揭示多种数据之间的必然联系,从而找某种事物发展变化的客观规律,并生成相应的图形或图像来直观地展示给用户。由于高维空间的数据是无法直接显示的,可以通过联机分析处理系统的切片和切块操作进行降维处理。切片就是在多维数组中在其它维取固定值的情况下取一个二维子集,切块就是在多维数组中其它维取固定值的情况下取一个三维子集;还可以根据用户的需要进行旋转和钻取操作,钻取可以看成是交换多维数组中各维的顺序,使朝向用户的二维坐标改变,钻取是改变显示粒度大小。
联机分析处理系统可以对得到的数据进行多维分析[4]。多维分析中的维包括空间维和要素,空间维一般是指要素存在的时空,包括经纬度、高度、时间等,是自变量,而要素这里指的是各种气象要素的物理量数据,是因变量。以雷暴主题为例,对航路内多个观测站点的实时和历史的观测数据以及卫星云图资料的实时和历史数据等相关数据进行聚集,获得分析型数据,用户(预报员)对分析型数据进行多维分析,获得随经纬度、高度及时间变化的天气系统变化结果,来判断在航路上是否有雷暴生成以及发展的过程,评估对航班的影响程度。
针对机场预报的特点,可以在多维分析的基础上进行多元分析。多元分析是将空间的位置固定,只随时间变化的要素值作为维的多维分析。以能见度主题为例,自动气象观测系统可测量出的气象要素包括温度、湿度、气压、风向、风速、能见度、降水量、云高等,将每个气象要素看做分析中的一维,对本场的气象要素进行多元分析。将能见度视为因变量,其它气象要素视为自变量,通过切片、切块和旋转操作可以向用户展示能见度随一种或几种气象要素变化而变化的图形,从而揭示能见度与其它气象要素之间的变化关系,分析哪些气象要素与能见度的变化关系比较密切,哪些次之。
4 结束语
数据仓库技术可以将离散的、毫无关联的原始数据和历史数据转化成分析型数据,通过用户所需求的主题域进行重新划分,用户针对主题利用联机分析处理系统对数据进行多维分析和多元分析,以便对影响航班飞行的重要气象因素进行准确地预报。数据仓库技术很多时候与数据挖掘技术相结合,通过各种数据挖掘算法(关联规则、决策树、聚类算法、贝叶斯网络、神经网络以及遗传算法等)自动寻找数据的发展趋势、数据中隐含的模型以及数据之间的关联关系,使预报员快速积累经验,对航空气象预报的决策提供有力的帮助。
[1]陈志泊主编.数据仓库与数据挖掘[M].北京:清华大学出版社,2009.
[2]Metadata Standard(incl ET-IDM Report).ICT-ISS 2002/Doc.7(1),http://www.wmo.ch/web/
www/TEM/ICT-ISS2002/7(1)-metadata.doc,2002.
[3]WMO Core Metadata Implementation for Climate Data.ETIDM-IV/DOC.3-1(7),http://www.wmo.int/web/www/WDM/ ET-IDM-4/Doc-3-1(7).doc,2004
[4]谭晓光.数据仓库技术在天气预报决策中的应用[J].应用气象学报,2006,17(3):325-331.
TheApplication of Data Warehouse inAviation Meteorology
Liu Zhutao Huang Nan
(HeilongjiangAir Traffic Management Sub-bureau of CAAC,Harbin 150079,Heilongjiang)
This paper introduces the conceptions and characteristics of data warehouse,and proposes the design scheme of aviation meteorology data warehouse according to the airport meteorological station and the characteristics of aviation meteorology.
data warehouse;aviation meteorology;OLAP
TP311.13
:A
008-66609(2015)04-0066-02
刘竹涛,男,福建福州人,硕士,高级工程师,研究方向:模式识别与信号处理。