空间数据挖掘认识及其思考
2015-10-19李围成张雪萍祝玉华河南工业大学信息科学与工程学院河南郑州450001
李围成,张雪萍,祝玉华(河南工业大学 信息科学与工程学院,河南 郑州 450001)
空间数据挖掘认识及其思考
李围成,张雪萍,祝玉华
(河南工业大学 信息科学与工程学院,河南 郑州 450001)
在这个大数据时代,空间数据正在从各个领域飞速累计。空间数据挖掘作为数据挖掘的一部分,现已成为人们研究空间数据的重点学科。主要介绍了空间数据挖掘的基本概念、一般步骤及其最新的挖掘方法,表达了对当前空间数据挖掘的看法。最后对未来空间数据挖掘的研究方向进行了更加深入的探讨。
大数据;空间数据挖掘;挖掘方法
0 引言
空间数据挖掘(Spatial Data Mining,SDM)即找出开始并不知道但是却隐藏在空间数据中潜在的、有价值的规则的过程。具体来说,空间数据挖掘就是在海量空间数据集中,结合确定集、模糊集、仿生学等理论,利用人工智能、模式识别等科学技术,提取出令人相信的、潜在有用的知识,发现空间数据集背后隐藏的规律、联系,为空间决策提供理论技术上的依据[1]。
1 空间数据挖掘的一般步骤
空间数据挖掘系统大致可以分为以下步骤:
(1)空间数据准备:选择合适的多种数据来源,包括地图数据、影像数据、地形数据、属性数据等。
(2)空间数据预处理和特征提取:数据预处理目的是去除数据中的噪声,包括对数据的清洗、数据的转换、数据的集成等。特征提取是剔除掉冗余或不相关的特征并将特征转化为适合数据挖掘的新特征。
(3)空间数据挖掘和知识评估:采用空间数据挖掘技术对空间数据进行分析处理和预测,从而发现数据背后的某种联系。然后结合具体的领域知识进行评估,看是否达到预期效果。
2 空间数据挖掘的方法研究
空间数据挖掘是一门综合型的交叉学科,结合了计算机科学、统计学、地理学等领域的很多特性,产生了大量处理空间数据的挖掘方法。
2.1 空间关联规则
关联规则挖掘是寻找数据项之间的联系,表达式形式是X→Y,其中X与Y是两种不相交的数据项集,即X∩Y=Ø。KOPERSKI K等人将关联规则与空间数据库相结合,提出了空间关联规则挖掘[2]。空间关联规则将数据项替换为了空间谓词,一般表达形式如下:
令 A=(A1,A2,…,An),B=(B1,B2,…,Bm),A和 B分别表示Ai和Bj的谓词集合,A和B可以是空间谓词或非空间谓词,但是必须至少包含一个空间谓词且A∩B=Ø。SHEKHAR S和HUANG Y针对空间关联规则的特点提出了把关联规则的思想泛化成空间索引点集的空间同位规则的概念,在不违背空间相关性的同时用邻域替换掉了事务[3]。时空关联不仅涉及事件在空间中的关联,还考虑了空间位置和时间序列因素。国内的柴思跃、苏奋振和周成虎提出了基于周期表的时空关联规则挖掘方法[4]。
2.2 空间聚类
空间聚类分析是普通聚类分析的扩展,不能完全按照处理普通数据的聚类分析方法来处理空间数据。由于存在地理学第一定律,即空间对象之间都存在一定的相关性,因此在空间聚类分析中,对于簇内的定义,要考虑空间自相关这一因素。通过对空间数据进行自相关分析,可判断对象之间是否存在空间相关性,从而可合理判断出对象是否可以分为一簇。
基本的聚类挖掘算法有:
(1)划分聚类算法:存在 n个数据对象,对于给定 k个分组(k≤n),将n个对象通过基于一定目标划分规则,不停迭代、优化,直到将这n个对象分配到k个分组中,使得每组内部对象相似度大于组之间相似度。
(2)层次聚类算法:通过将数据不停地拆分与重组,最终把数据转为一棵符合一定标准的具有层次结构的聚类树。
(3)密度聚类算法:用低密度的区域对数据对象进行分割,最终将数据对象聚类成为若干高密度的区域。
(4)图聚类算法:用空间结点表示每个数据对象,然后基于一定标准形成若干子图,最后把所有子图聚类成一个包含所有空间对象的整图,子图则代表一个个空间簇。
(5)网格聚类算法:把空间区域分割成具有多重分辨率的和有网格结构特性的若干网格单元,在网格单元上对数据进行聚类。
(6)模型聚类算法:借助一定的数学模型,使用最佳拟合数据的数学模型来对数据进行聚类,每一个簇用一个概率分布表示。
仅采用一种算法通常无法达到令人满意的预期结果,王家耀、张雪萍、周海燕将遗传算法与K-均值算法结合提出了用于空间聚类分析的遗传 K-均值算法[5]。现实空间环境中,存在很多像道路、桥梁、河流的障碍物,张雪萍、杨腾飞等人把 K-Medoids算法与量子粒子群算法结合进行带有空间障碍约束的聚类分析[6]。
2.3 空间分类
分类,简单地说是通过学习得到一定的分类模型,然后把数据对象按照分类模型划分至预先给定类的过程。空间分类时,不仅考虑数据对象的非空间属性,还要顾及邻近对象的非空间属性对其类别的影响,是一种监督式的分析方法。
空间分类挖掘方法有统计方法、机器学习的方法和神经网络方法等。贝叶斯分类器是基于统计学的方法,利用数据对象的先验概率和贝叶斯公式计算出其后验概率,选择较大后验概率的类作为该对象映射的类别。决策树分类器是机器学习的方法,采取从上到下的贪心策略,比较决策树内部节点的属性值来往下建立决策树的各分支,每个叶节点代表满足某个条件的属性值,从根节点到叶节点的路径表示一条合适的规则。支持向量机也是机器学习的方法,思路是使用非线性映射把训练数据集映射到较高维,然后寻找出最大边缘超平面,将数据对象分类。神经网络是一种模拟人神经的网络,由一组连接的输入和输出单元组成,赋予各个连接相应的权值,通过调节各连接的权值使得数据对象得到正确分类。
针对融入空间自相关性的空间分类挖掘,SHEKHAR S等人使用空间自回归模型和基于贝叶斯的马可夫随机场进行空间分类挖掘[7],汪闽、骆剑承、周成虎等人将高斯马尔可夫随机场与支持向量机结合并将其用于遥感图像的信息提取[8]。
2.4 其他空间挖掘方法
空间数据挖掘的方法多种多样,其他还包括:空间分析的方法,即利用GIS的方法、技术和理论对空间数据进行加工处理,从而找出未知有用的信息模式;基于模糊集、粗糙集和云理论的方法可用来分析具有不确定性的空间数据;可视化方法是对空间数据对象的视觉表示,通过一定技术用图像的形式表达要分析的空间数据,从而得到其隐含的信息;国内张自嘉、岳邦珊、潘琦等人将蚁群算法与自适应滤波的模糊聚类算法相结合用以对图像进行分割[9]。
3 结论
空间数据挖掘作为数据挖掘的延伸,有很好的传统数据挖掘方法理论的基础,虽然取得了很大进步,然而其理论和方法仍需进一步的深入研究。伴随着大数据时代,面对越来越多的空间数据,提升数据挖掘的准确度和精度是一个有待研究的问题。同时现在流行的空间数据挖掘算法的时间复杂度仍停留在O(n log(n))~O(n3)之间,处理大量的异构数据,数据挖掘算法的效率也需要进一步提高。数据挖掘在云环境下已经得到很好的应用[10],对于处理空间数据的空间云计算是有待学者们研究的方向。大多数空间数据挖掘算法没有考虑含有障碍约束的情况,如何解决现实中障碍约束问题值得探讨。带有时间属性的空间数据呈现出了一种动态、可变的空间现象,时空数据挖掘将是未来研究的重点。
由于数据挖掘涉及多种学科,其基本理论与方法也已经比较成熟,针对空间数据挖掘,如何合理地利用和拓展这些理论方法以实现对空间数据的挖掘仍将是研究人员们需要长期努力的方向。
[1]李德仁,王树良,李德毅.空间数据挖掘理论与应用(第2版)[M].北京:科学出版社,2013.
[2]KOPERSKI K,HAN J W.Discovery of spatial association rules in geographic information databases[C].Procedings of the 4th International Symposium on Advances in Spatial Databases,1995:47-66.
[3]SHEKHAR S,HUANG Y.Discovering spatial co-location patterns:a summary of results[C].Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases,2001:236-256.
[4]柴思跃,苏奋振,周成虎.基于周期表的时空关联规则挖掘方法与实验[J].地球信息科学学报,2011,13(4):455-464.
[5]王家耀,张雪萍,周海燕.一个用于空间聚类分析的遗传 K-均值算法[J].计算机工程,2006,32(3):188-190.
[6]Zhang Xueping,Du Haohua,Yang Tengfei,et al.A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C].Advances in Swarm Intelligence,Lecture Notes in Computer Science(LNCS),2010:476-483.
[7]SHEKHAR S,SCHRATER P R,VATSAVAI R R,et al.Spatial contextual classification and prediction models for mining geospatial data[J].IEEE Transactions on Multimedia,2002,4(2):174-187.
[8]汪闽,骆剑承,周成虎,等.结合高斯马尔可夫随机场纹理模型与支撑向量机在高分辨率遥感图像上提取道路网[J].遥感学报,2005,9(3):271-275.
[9]张自嘉,岳邦珊,潘琦,等.基于蚁群和自适应滤波的模糊聚类图像分割[J].电子技术应用,2015,41(4):144-147.
[10]石杰.云计算环境下的数据挖掘应用[J].微型机与应用,2015,34(5):13-15.
Understanding and consideration of spatial data m ining
Li Weicheng,Zhang Xueping,Zhu Yuhua
(School of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)
In this era of big data,spatial data are accumulated from various fields rapidly.Now,the Spatial Data Mining(SDM),as a part of Data Mining(DM),has become the key subject of research on spatial data.In this paper,we mainly introduce the basic concept of SDM,the general steps and the latest mining methods,expressing the opinions of the current SDM.At last,we discuss the future research objectives in SDM deeply.
big data;spatial data mining;mining methods
P208;TP18
A
1674-7720(2015)22-0012-02
李围成,张雪萍,祝玉华.空间数据挖掘认识及其思考[J].微型机与应用,2015,34(22):12-13,21.
2015-06-21)
李围成(1991-),通信作者,男,硕士研究生,主要研究方向:空间数据挖掘等。E-mail:13598591208@163.com。
张雪萍(1968-),女,博士,教授,主要研究方向:空间数据挖掘等。
祝玉华(1965-),女,博士,教授,主要研究方向:地理信息系统、空间数据挖掘等。