基于SPSS Modeler的气象数据分析
2017-11-02宋薇郭东恩范玉龙南阳理工学院南阳473000
宋薇, 郭东恩, 范玉龙(南阳理工学院, 南阳 473000)
基于SPSSModeler的气象数据分析
宋薇, 郭东恩, 范玉龙
(南阳理工学院, 南阳 473000)
随着信息化的普及,气象信息化的程度日益提高。气象部门积累了大量的气象数据,如何充分利用这些数据,获取其中蕴藏的价值,已经成为大数据时代面临的主要任务。基于SPSS Modeler对某站点的气象数据进行分析,介绍了数据加载、数据抽取、离群值极值处理、数据分析、数据挖掘等步骤。
数据分析; 时间序列模型; ARIMA模型; 气象数据预测
0 引信
随着信息化的普及,气象信息化的程度日益提高,气象部门积累了大量的气象数据。海量的数据隐藏着很多重要的信息,如何充分利用这些数据,获取其中蕴藏的价值,顺利摆脱“数据丰富,信息贫乏”的困境,已经成为大数据时代面临的主要任务。气象数据的研究与分析对于生产实践与社会生活具有越来越重要的意义[1-2]。本文是基于SPSS Modeler对某站点的气象数据进行分析,主要包括数据加载、数据抽取、离群值极值处理、数据分析、数据挖掘等步骤。
1 SPSS Modeler简介
SPSS Modeler(12.0以前叫Clementine)是企业级的数据挖掘工作平台。SPSS Modeler封装了最先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益[3]。SPSS Modeler是一个业界领先的数据挖掘平台,全面支持数据挖掘CRISP-DM的标准流程。SPSS Modeler拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,可提供数据挖掘相关的数据理解、数据抽取加载转换、数据分析、建模、评估、部署等全过程的功能[4]。IBM SPSS Modeler以图形化的界面、简单的拖拽方式来快速构建数据挖掘分析模型著称,它提供了完整的统计挖掘功能,包括来自于统计学、机器学习、人工智能等方面的分析算法和数据模型,包括如关联、分类、预测等完整的全面挖掘分析功能。
2 气象数据分析
2.1 数据预准备
数据预处理是指在主要的处理以前对数据进行的一些处理。高数据质量是数据分析的前提和分析结论可靠性的保障[5-6]。通过预处理数据提高数据质量,从而提高数据分析、数据挖掘结果的质量。本文是基于SPSS Modeler对某站点的气象数据进行分析。数据源文件是Excel文件,分别是该站点采集的1990年-2010年地表温度数据、湿度数据、日照时间数据、气温数据。本文数据预处理的步骤是从源文件读取数据并对数据进行合并、对日期时间数据进行处理、对无关数据进行过滤、通过数据审核节点对离群值和极值进行处理。数据预处理过程,如图1所示。
首先通过源节点读取Excel文件的内容,使用合并节点对多个文件的内容进行合并,通过站点编号、年、月、日、经度、维度等字段对文件进行合并。源文件中日期是通过年、月、日三列的值进行表示。通过导出节点增加新的字段,字段名称为date。导出节点的导出公式为datetime_date(to_integer(year),to_integer(month),to_integer(day))。源文件中包含很多字段,通过过滤节点对无关的字段进行过滤。对字段进行过滤之后,主要保留时间平均地表温度、最高地表温度、最低地表温度、平均湿度、最低湿度、日照时间、平均气温、日最高气温、日最低气温等数据。通过数据审核节点查看数据质量。操作部分选择强制替换离群值/丢弃极值,然后在生成选项离群值和极值的超节点,运行之后生成超节点用来丢弃数据集中的离群值和极值。
图1 数据预处理
2.2 数据分析
本文分析气象数据主要是分析前十年和后十年,该站点的地表温度数据、湿度数据、日照时间数据、气温数据有无明显的变化或者有无什么规律。以平均地表温度为例,数据分析过程,如图2所示。
图2 数据分析过程
以平均地表温度为例数据分析过程:通过选择节点选取前十年数据以及后十年的数据,选取条件为datetime_year(date)<2000或者datetime_year(date)>=2000。选取之后通过直方图、统计量、数据审核节点查看前后十年数据分布情况。通过平均地表温度分布直方图可以看出2000年以前数据较2000年以后数据范围广,而且2000年以前平均地表温度前4名分布的集中在较低的地表温度,2000年以后平均地表温度前4名分布集中在较高的地表温度。
2.3 数据挖掘
数据挖掘是一个交叉学科领域,受数据库系统、统计学、机器学习、可视化和信息科学等学科的影响。它是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取其中隐含的、未知的、潜在有用的信息和知识的过程[7],对知识库、商务策略、生产控制、科学研究等诸多领域做出重大贡献。在数据挖掘领域,时间序列数据的挖掘技术取得了很大的进展。时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法[8]。时间序列分析法是根据过去的变化预测未来的发展,前提是假定事物的过去延续到未来。根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,进一步推测未来的发展趋势[9]。时间序列的数据变动存在着规律性与不规律性,因此时间序列数据的变动分为趋势性、周期性、随机性、综合性四种类型。季节变动指时间序列在一年内重复出的有规律的周期性变动。有以一年为周期,也有以一月、一周、一日为周期的。
本文以平均地表温度为例,对该站点的气象数据进行预测。时间序列建模,如图3所示。
图3 时间序列建模
首先通过时间区间节点构建时间区间,以月为单位,查看每月的平均地表温度的平均值,数据显现明显的季节性,周期为一年。因此时间序列分析时需要选择带有季节性模型,本文使用专家模型选择适用的ARIMA模型[10]并且专家建模器考虑季节模型。将数据集中其他数据用来建模考虑这些数据对平均地表温度的影响,包括最高地表温度、最低地表温度、平均湿度、最低湿度、日照时间、平均气温、日最高气温、日最低气温等数据,通过类型节点选择这些字段为输入,平均地表温度作为目标,生成的模型的部分统计量,如见图4所示。
其中“固定R**2”列是固定的R平方值,该值越高,表示模型拟合得越好。用该模型对2010年到2012年月均平均地表温度进行预测,在时间区间节点预报选项勾选将记录扩展至未来36,在预报中使用未来值里指定最高地表温度、最低地表温度、平均湿度、最低湿度、日照时间、平均气温、日
图4 模型的部分统计量
最高气温、日最低气温这三年的数据,模型预测序列图,如图5所示。
图5 模型预测序列图
其中图形中平均地表温度为原始值,TS-平均地表温度为每列原始数据的生成模型数据,TSLCI-平均地表温度为每列生成模型数据的置信区间下限值,TSUCI-平均地表温度为每列生成模型数据的置信区间上限值。从图5可以看出图形拟合效果良好,预测的数据误差较小。
3 总结
本文主要围绕基于SPSS Modeler进行气象数据分析,主要从数据预处理、数据分析、时间序列模型建模等方面展开。本文以某站点气象数据为例进行分析,下一步可以完善数据,研究更多站点的数据以及研究气象数据和其他数据之间的关联。
[1] 李社宏. 大数据时代气象数据分析应用的新趋势[J]. 陕西气象, 2014(2):41-44.
[2] 姜文瑞. 基于数据挖掘的气象数据分析[D]. 西安:西安建筑科技大学, 2012.
[3] 王国平, 郭伟宸, 汪若君. IBM SPSS Modeler数据与文本挖掘实战[M]. 北京:清华大学出版社, 2014.
[4] 薛薇, 陈欢歌. Clementine数据挖掘方法及应用[M]. 北京:电子工业出版社, 2010.
[5] 刘明吉, 王秀峰, 黄亚楼. 数据挖掘中的数据预处理[J]. 计算机科学, 2000, 27(4):54-57.
[6] 菅志刚, 金旭. 数据挖掘中数据预处理的研究与实现[J]. 计算机应用研究, 2004, 21(7):117-118.
[7] Jiawei Han, Micheline Kamber. 数据挖掘:概念与技术[M]. 范明, 孟小峰,译. 北京:机械工业出版社, 2001.
[8] 罗芳琼, 吴春梅. 时间序列分析的理论与应用综述[J]. 柳州师专学报, 2009, 24(3):113-117.
[9] 张美英, 何杰. 时间序列预测模型研究简介[J]. 江西科学, 2009, 27(5):697-701.
[10] 孙苗, 孔祥超, 耿伟华. 基于ARIMA模型的山东省月降水量时间序列分析[J]. 鲁东大学学报(自然科学版), 2013, 29(3):244-249.
AnalysisofMeteorologicalDataBasedonSPSSModeler
Song Wei,Guo Dongen,Fan Yulong
(Nanyang Institute of Technology, Nanyang Henan 473000)
With the popularization of information technology, the degree of meteorological information is increasing day by day. The meteorological department has accumulated a large amount of meteorological data. How to make full use of these data, and access to the hidden value has become the main task in the era of big data. This paper is based on SPSS Modeler analysis of the meteorological data of a site. It includes the steps of data loading, data extraction, outlier value processing, data analysis, data mining and so on.
Data analysis; Time series model; ARIMA model; Forecasting of meteorology data
TP311
A
2017.03.20)
国家自然科学基金(61572420)
宋薇(1987-),硕士,讲师,研究方向:数据挖掘。
郭东恩(1978-),男,硕士,副教授,研究方向:大数据相关技术。
范玉龙(1978-),男,博士研究生,讲师,研究方向:景观生态学。
1007-757X(2017)10-0005-02