APP下载

基于FCM的辽宁省气温聚类分析

2017-01-04宋英男

国土与自然资源研究 2016年5期
关键词:高维降维辽宁省

宋英男

(辽宁师范大学城市与环境学院,辽宁大连116029)

基于FCM的辽宁省气温聚类分析

宋英男

(辽宁师范大学城市与环境学院,辽宁大连116029)

基于FCM算法,对辽宁省22个气象站点的气温时间序列采用正交函数对数据进行降维处理,对并分3类降维后的数据进行聚类分析,聚类结果符合区域实际气温特征情况。

时间序列;FCM算法;降维;聚类

1 引言

随着地理信息系统与空间数据挖掘的发展,已经有大量的算法应用到了气象数据的分析中,时间序列已经频繁的应用在经济[1]、医学[2]、农业[3]、环境监测[4]等很多领域,并且已经取得了大量的成果。

由于时间序列的高维数特征为时间序列聚类带来了很多的计算困难,因此开展时间序列的降维计算是数据挖掘领域研究的重要问题之一。近年来,相继出现大量的降维算法。1974年J.C.Dunn提出模糊C均值聚类算法FCM(Fuzzy C-Mean clustering algorithm)[5],FCM算法具有简单,收敛速度快等优点,因此在实际中得到了广泛的应用。本文采用了通过正交函数系对原始时间序列数据进行非线性映射,再通过FCM算法对数据聚类。解决了时间序列的高维数特征在处理过程中的时间复杂度过大的问题,最终达到降维的目的,实现高维数特征数据处理的高效性。最后将该算法应用于实际的地理数据的分析中。

2 基于正交函数系的降维方法

2.1 正交函数系

正交函数系是由一系列正交基构成的一个正交系统。本文所使用的是基于Fourier三角函数系的正交函数系的变形。

Fourier三角函数系定义。该三角函数系是将k个变量用[m,n](m,n为实数)上的一条曲线来表达,这条曲线保留原数据的全部信息。定义为:

其中xk为k个变量,t为该曲线的自变量。

2.2 FCM模型

模糊c均值(FCM)是一种采用交替的更新质心和指派每个对象到最近的质心的聚类方法,其定义如下:

其中cj是第j个簇的质心,而p是确定权值影响的指数,在1和∞之间取值。

2.3 基于正交函数系的聚类算法

通过2.1所提到的三角函数系,将原始数据映射到二维空间的函数。根据定积分的思想,在函数自变量-π到π之间平均取n个值所对应的函数值组成新的序列,用n个点近似的代表原始数据高维数据的特征,从而达到降维的目的。

具体算法:Input:目标矩阵,类数c,目标维数n;Output:隶属度矩阵;Step1.对原始数据通过2.1所提到的三角函数系进行变换,并得到新的序列;Step 2.对得到的序列使用FCM算法。

3 实验分析

采用本章所提出的算法对辽宁省22个站点的实测气温数据进行分析,该数据为1960年到2009年之间月平均气温,将每个站点的气温数据看作一条时间序列通过基于正交函数系的聚类算法进行数据维度的压缩并使用FCM算法对降维后的数据进行聚类分析。其结果如图1所示。

从图中可以看出,辽宁省内的22个站点被分成了3类,其中蓝色代表沈阳、本溪、朝阳、阜新、黑山、建平、岫岩和彰武,其地理分布处于辽宁省内陆,气温属于同一类型;红色代表鞍山、大连、锦州、绥中、瓦房店、兴城、营口和庄河,其地理位置靠近海洋,属于受海洋因素影响较大的类型;其余黄色表示鲅鱼圈、抚顺、桓仁、开原、宽甸、清原,这些区域由于特殊原因气温的特征处于内陆性和海洋性之间,故将它们划为一类。其中鞍山的位置更靠近内陆,却分为海洋性气候区,据分析是受到渤海的内陆性特点所影响;抚顺靠近沈阳却没有成为一组,可能是受其附近的大伙房水库影响;丹东、岫岩一类的区域虽然没有处于海洋附近,但是受到鸭绿江的影响,气温类型不属于内陆型。

图1 辽宁省气温聚类结果

4 总结

在实际的生产生活中,时间序列数据集巨大且复杂,如何解决这一问题在数据挖掘专业一直是研究热点。本文采用基于正交函数系的算法处理数据,不仅降低了于高维时间序列的处理上的复杂度,并且对于数据聚类结果的影响非常小。本文提出的方法仅限于时间序列,对于其他数据集的应对方法还应做进一步研究。

[1]E.A.Maharaj,P.D'Urso,A coherence-based approach for the pattern recognition of time series,PhysicaA,389(2010):3516-3537.

[2]F.Gullo,G.Ponti,A.Tagarelli,G.Tagarelli,P.Veltri,A time series approach for clustering mass spectrometry data,Journal of Computational Science,3(2012):344-355.

[3]M.Debeljak,G.R.Squire,D.Kocev,C.Hawes,M.W.Young, S.Dzeroski,Analysis of time series data on agroecosystem vegetation using predictive clustering trees,Ecological Modelling,222(2011): 2524-2529.

[4]P.D'Urso,E.A.Maharaj,Wavelets-basedclusteringof multivariate time series,SciVerseScienceDirect,193(2012):33-61.

[5]J.C.Dunn,A fuzzy relative of the ISODATA process its use in detecting compact well-separated clusters,J.Cybernet,3(1974): 32-57.

The cluster analysis of air temperature in Liaoning Province Based on FCM

SONG Ying-nan
(College of Urban and Environment science,Liaoning Normal University,Dalian 116029,China)

Based on FCM algorithm,using orthogonal function to dimensionreduction22 temperature time series of meteorological stations in Liaoning province,then clusteringdata in 3 sorts, results are consistent with the regional characteristics of the actual temperature.

Time sequence;FCM algorithm; Dimension reduction;Clustering

P467

A

宋英男(1992-),女,满族,籍贯山东泰安,硕士研究生,主要从事农业生态气象与应用气象研究。

(2016-08-25收稿刘晓佳编辑)

1003-7853(2016)05-0004-02

猜你喜欢

高维降维辽宁省
有向图上高维时间序列模型及其在交通网络中的应用
混动成为降维打击的实力 东风风神皓极
降维打击
辽宁省各级工会收看十九大开幕会
辽宁省环境保护厅与辽宁省气象局进一步深化合作
基于矩阵模型的高维聚类边界模式发现
辽宁省推广“煤改气”供暖执行居民气价
辽宁省建环保举报奖励制度
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
高维Kramers系统离出点的分布问题