APP下载

基于SQL Server Analysis Service(SSAS)的土地地类关系空间数据挖掘

2014-06-24任沂军刘玲玲邹艳红陈佳音

城市勘测 2014年6期
关键词:图斑图层数据挖掘

任沂军,刘玲玲,邹艳红,陈佳音

(1.江门市勘测院,广东江门 529000; 2.中南大学地球科学与信息物理学院,湖南长沙 410083)

基于SQL Server Analysis Service(SSAS)的土地地类关系空间数据挖掘

任沂军1∗,刘玲玲2,邹艳红2,陈佳音2

(1.江门市勘测院,广东江门 529000; 2.中南大学地球科学与信息物理学院,湖南长沙 410083)

基于SQL Server Analysis Services(简称SSAS)提供的Microsoft关联规则挖掘算法和事务数据挖掘功能,通过利用ArcGIS软件、空间数据库引擎ArcSDE和数据库SQL Server软件,提出了一种新的土地地类关系挖掘实现方案。首先结合空间数据挖掘(Spatial Data Mining,SDM)相关技术方法,以土地利用数据库为基础,实现空间数据提取;然后通过空间关联操作将空间信息转化为事务,最后在SSAS中创建多维数据集,完成相关数据挖掘任务。基于某市实例土地利用数据库,采用该方法探测相邻地类间的隐含关系,通过建立相邻地类图斑空间关联规则挖掘模型,设置不同的参数,得到了一系列比较实用合理的关联规则,通过实践证明了这种方案的有效性。

土地地类关系;SQL Server Analysis Service(SSAS);空间数据挖掘;关联规则算法

1 引 言

空间数据挖掘技术(Spatial Data Mining,简称SDM)能够从空间数据库中抽取隐含的知识和空间关系,发现其中有用的特征和模式,目前数据挖掘关联规则技术已广泛应用到许多领域[1~4]。随着全国各县市土地调查的开展,土地利用现状数据库中隐含有大量的信息,如何充分挖掘和利用这些土地空间数据,并提取感兴趣的知识或特征变得越来越重要。

数据挖掘是目前数据库领域研究的热点问题,然而很多数据挖掘工具只有精通数据挖掘算法的专家才能熟练使用,若对算法不了解,难以得出好的挖掘模型[5]。商用数据库SQL Server 2005及以后的版本提出了一种纵向数据挖掘解决方案,SQL Server Analysis Service(SSAS)作为其商业智能专业平台,可以应用在联机数据处理与分析、数据挖掘上,有效地协助企业建立决策支持。用户无需对数据挖掘技术和数据挖掘算法有太多了解,即可利用其提供的功能,结合具体的应用,对数据进行挖掘分析[6]。

本文结合实例土地利用现状数据库,尝试利用SSAS组件进行了相邻地类关系的空间数据挖掘,通过训练模型,得到了一系列比较实用合理的关联规则,并通过实践对模型进行了验证。

2 SSAS中的数据挖掘方法与土地地类关系挖掘流程

2.1 SSAS的数据挖掘过程与解决方案

SQL Server通过SQL Server Analysis Services提供各类OLAP(On-Line Analytical Processing)数据分析和数据挖掘算法,Analysis Services可以从关系数据源创建多维数据集,建立和应用数据挖掘模型。

SSAS数据挖掘的具体挖掘过程与解决方案[6~8]为:①确定数据挖掘主题:包括定义问题,确定业务对象;②数据准备:包括数据选择、数据预处理和数据转换等操作,将与挖掘目标任务相关的对象数据以及对象之间的关系存入相关数据库的属性表中。③数据挖掘:将处理好的数据存入SQL Server数据库中,并通过SSIS (SQL Server Integration Services(SSIS),SQL Server集成服务)录入相关的文档及文本数据,在数据库中抽取数据源,利用数据挖掘算法进行数据挖掘;④结果表达与分析:对挖掘结果进行表达分析,解释并评估结果。

2.2 土地地类关系挖掘算法与流程

随着数据挖掘技术的发展,数据挖掘算法也变得丰富多样。SQL Server中主要提供的挖掘算法有Microsoft关联规则、聚类分析、决策树、逻辑回归、神经网络、顺序分析和线性回归等。本文中土地地类关系挖掘主要用到了Microsoft关联规则算法。

关联规则是在数据库中对数据项之间所隐含的而又潜在有用的规则进行提取,是目前应用最广泛的一种数据挖掘方法。关联规则的概念由Agrawal等提出,目的是从事务数据项目集之间找出满足给定的置信度和支持度的多个项之间存在的依赖关系。其基本概念[9~12]如下:

(1)支持度(S%)是总事务数T中同时出现A和B的概率;

(2)置信度(C%)表明在事务集合T中,包含A的事务有C%的事务同时包含B。其计算公式是:A与B同时出现的概率/A出现的概率。在SQL Server 2008中,置信度被称为概率。

(3)重要性是表明规则重要性=0时,则表明A和B没有任何关联;若规则重要性>0,则表明当A发生时,B发生的概率会变大;若规则重要性<0,则表明当A发生时,B发生的概率会变小。

关联规则挖掘包含两个过程:

(1)扫描数据集,找出所有频繁项集。这些项集的支持度必须要大于等于最小支持度(Minimum_Support);

(2)由频繁项集产生关联规则。这些规则出现的概率(置信度)必须大于等于最小概率(Minimum_ Probability)。

本文实验选择SQL Server 2008关联规则算法进行土地地类关系空间数据挖掘,试图通过空间关联规则挖掘土地地类周围相邻区域最有可能出现的土地类型情况以及某种土地类型的周边地块出现的地类呈现的规律。但Microsoft关联规则算法是针对事务数据挖掘的算法,不能够对空间数据的空间信息直接挖掘,所以在挖掘之前需预先将空间数据进行空间关联分析预处理,将获得的空间信息转换为事务数据,然后使用Microsoft关联规则挖掘算法进行挖掘。土地地类关系挖掘流程如图1所示:

图1 土地地类关系挖掘流程图

3 土地地类关系挖掘数据预处理

本文实例数据来自某市第二次土地调查项目及其建立的土地利用数据库[13,14],土地利用数据集包含了耕地、林地、草地、园地、居民及设施用地、交通及其设施用地、水利及水利设施用地、其他用地8种不同的土地利用类型,由于Microsoft数据挖掘算法不支持空间信息的挖掘,需要预先运用空间谓词对空间信息进行关联抽取,转化为属性数据。因此,其数据预处理过程主要包括:空间分析和空间谓词计算。

3.1 土地利用数据的空间分析

该土地利用数据库主要包含4个主要的面图层,分别是乡镇、行政区、宗地、地类图斑。通过图层之间进行空间叠置分析(如UNION,OVERLAY,JOIN等),可以建立起图层之间的相互联系,并转化为属性间的关系,为空间数据仓库的建立做准备。

乡镇图层与行政区图层进行UNION叠加,可以通过属性字段进行关联。表1为行政区与乡镇叠加前的属性结构表,表2为叠加后行政区的属性结构表,从两个表中可知叠加后行政区属性里含有乡镇行政区代码(XZQDM)(乡镇的XZQDM)和乡镇行政区名称(XZQMC)(原为乡镇中的XZQMC),乡镇与村行政区为一对多的关系,实现了两个图层的关联。地类图斑与宗地间的关联则包括不同数据图层的叠加及相关属性的继承。地类图斑继承宗地属性,需要在宗地中增加标示字段ZDY_ID与图斑中的字段ZD_ID进行关联,进而产生了一对多的关系。

行政区属性结构表 表1

叠加乡镇图层后行政区属性结构表 表2

3.2 相邻地类空间谓词的计算

空间关联规则可包含各类空间谓词,表示空间实体间的拓扑关系谓词主要有:disjoint(分离)、intersects (相交)、inside/contains(包含)、adjacent-to(相邻)、covers/covered-by(覆盖/被覆盖)、equal(重合)[9]。在数据挖掘过程中,这些空间谓词可以通过相关的技术进行概化被挖掘所用,如:预先计算不同图层间的空间拓扑关系或抽取单个图层中属性间的关系,可以以数值或文字的形式表达相邻图斑或属性间的包含、邻接和重叠等拓扑关系[15]。

将处理好的土地调查数据进行空间分析后,由于在后阶段的空间数据挖掘阶段,需要采集相邻图斑之间的关系,这个过程可通过ArcGIS中的ArcToolbox工具或应用ArcEngine编程实现[16]。

ArcToolBox工具箱中Spatial Join是一个强大的叠置分析工具,可进行多种操作。用它进行分析时可以同时对图层要素与属性表进行操作,对图层要素的操作主要是为寻找满足条件的要素并添加到一个新图层,对属性要素的操作主要为增加有需要的字段并写入相应数据。比如在土地图斑中增加字段为“Touches”,可以进行图斑相邻分析,把每个图斑相邻的图斑标识码放在其中,如图2实例所示。

图2 图斑相邻查询结果

本文在图斑图层的属性中增加了空间谓词touches,contain,within等字段,分别保存相邻、包含、被包含的图斑标识码。

将处理好的数据,采用空间数据库引擎ArcSDE导入至SQL Server 2008数据库中,作为SSAS的地类关系挖掘的数据源。

4 土地地类关系空间数据挖掘实例模型

4.1 相邻地类图斑空间关联规则挖掘模型建立

根据挖掘目标,对相邻地类图斑间的关系进行关联规则挖掘,选择该市的8个乡镇作为图斑数据挖掘的事实表,剩余的2个乡镇作为预测事实表。挖掘模型的具体设计如下:

(1)关联模型必须包含一个键列、多个输入列以及一个可预测列。输入列“DLMC”为图斑的一级地类名称。采用图斑属性“touches”确定的相邻地类“XLDLMC”作为预测列,设置图斑标示TUBAN_ID为键列。

(2)训练模型及模型参数的设定

在模型训练阶段,由于关联规则挖掘算法是对模型参数设置最敏感的算法,因此,需要对设置不同参数后模型的结果进行评估,以期找到最优的模型。反复训练实验后,确定的模型参数,最小支持度为80,最小置信度为20%,大于这两个参数的项集将被筛选出来并形成规则,并且使生成的最大项集数的参数设置为0,不限制生成项集的大小。

4.2 挖掘结果解读

在SSAS中设置参数,工程部署并运行模型后,进行关联规则挖掘,从而进行土地利用数据关联规则提取,得出一系列土地地类周边相邻区域可能出现的地类。

关联规则的挖掘结果主要表现为若干通过数据归纳的规则以及与之附带的概率和重要性。概率说明出现规则结果的可能性。重要性用于度量规则的用途。挖掘结果如图3~图5所示。

图3 土地地类关联规则挖掘结果

图5 土地利用地类与相邻地类的关联图

尽管规则出现的概率可能很高,但规则自身的用途可能并不重要。重要性越高,规则越重要。表3是以0.2为概率阈值,按重要性排序的挖掘结果。

地利用地类与相邻地类间的空间关联规则表 表3

DLMC=城镇村及工矿用地→XL DLMC=耕地3.945.818.2DLMC=园地→XL DLMC=耕地0.345.315.7 DLMC=交通运输用地→XL DLMC =林地2.229.915.1DLMC=草地→XL DLMC=林地5.027.011.8

从上面的分类结果看,其中一部分中体现出我们比较感兴趣的规则。如:

(1)DLMC=耕地→XL DLMC=林地,支持度为11.2%,置信度33.9%,重要度32.9%。这条规则表明在8种地类中耕地和林地相邻支持度和重要性指标最高,说明耕地的相邻地类是林地的可能性很大,该地区林业绿化程度高。通过调查验证,该实验地区有“一带”“两山”,“一带”指防护林带,涉及5个乡镇45个村,全长50 km,带宽100 m~200 m,“两山“绿化总面积20万亩。

(2)DLMC=水域及水利设施用地→XL DLMC=耕地,支持度为2.5%,置信度50.8%,重要度22.5%。该条规则置信度最高,最能说明一条自然规律:河流周围是耕地的可能性最大。而实验数据地区有13条河流,情况基本属实。

(3)DLMC=交通运输用地→XL DLMC=林地,支持度为2.2%,置信度为29.9%,重要度为15.1%。实验数据地区有“三道”,高速公路绿色通道,主线全长37.6 km,公路两侧20 m内,栽植各类树木174万株;通道以外两侧各拓展林带80 m,栽植各类树种102万株。二级公路绿色通道,全长44.2 km,公路两侧种植了树木13万株;省道路绿色通道,全长21 km,公路两侧种植树木8.4万株。如果挖掘出的各项指标越高,说明交通运输用地的相邻地类是林地的可能性很大,在道路绿化方面越重视。

4.3 模型评价

依据建立的模型,设定预测值为耕地,选定剩余的两个乡镇作为预测事实表,查看预测结果,进行模型评价。由该模型获取的提升图如图6所示,提升图中横轴表示预测总体的百分比,纵轴表示预测准确的百分比。图内红线代表理想情况下只需要32%左右的总体便能100%的完全准确地预测出相邻耕地的数量;而蓝线指在随机情况下50%的总体只能有50%的可能性能准确的预测耕地总体;绿线是所利用的模型的准确趋势线,从获得的趋势线中,可以得出,预测相邻耕地的正确率达80%,说明该模型在耕地相邻地类的预测上具有较高的准确性,可用来预测耕地。

图6 耕地相邻地类关联规则挖掘评价

5 结 语

本文根据大量的实验建立了相邻地类的关联规则模型,利用SSAS及空间分析工具等进行数据的预处理与分析,并进一步在建立好的土地利用数据库的基础上进行数据挖掘,得出了一些比较有用的结论,如在发现图斑周围相近的地类的关联规则挖掘过程中,发现不同地类之间的一些规律,如耕地与居民用地之间,耕地与草地之间等都有很强的关联性。通过建立和训练、解释及评价模型几个方面来说明利用SSAS创建数据挖掘模型的过程,能够挖掘出隐藏在大量数据中的信息,从而为土地利用数据挖掘提供一种新的解决思路。

[1] Han J,Kamber M.Data Mining:Concepts and Techniques [M].San Francisco:Academic Press,2001.

[2] DZEROSKI S,LAVRAC N.Relational Data Mining[M].Berlin:Springer Press,2001.

[3] 李德仁,史文中.论空间数据挖掘和知识发现[J].武汉大学学报:信息科学版,2001,26(6):491~499.

[4] 王树良.空间数据挖掘进展[J].地理信息世界,2009,7 (2):34~41.

[5] 李强.数据挖掘中关联分析算法研究[D].哈尔滨工程大学,2010.

[6] 刘欣颖,刘太安,范方.基于SQL Server 2005的数据挖掘系统应用研究[J].科技信息,2009(31):51~51.

[7] 王玲.基于GIS空间数据挖掘技术的应用研究[J].测绘与空间地理信息,2013,36(6):121~123.

[8] 黄兴荣,李昌领.基于SQL Server 2005的数据挖掘的研究[J].计算机与现代化,2010(5):195~198.

[9] 刘新,刘文宝.空间数据挖掘中关联规则的支持度和可信度研究[J].测绘科学技术学报,2007,24(2):93~96.

[10] 陈江平,黄炳坚.数据空间自相关性对关联规则的挖掘与实验分析[J].地球信息科学学报,2011,13(1):109~117.

[11] 陆新慧,吴陈,杨习贝.空间关联规则挖掘技术的研究及应用[J].计算机技术与发展,2013,23(5):26~29.

[12] 秦昆,李振宇,杜鹢.基于概念分析的空间数据挖掘研究进展[J].地球信息科学学报,2009,11(1):10~17.

[13] 邹艳红,刘玲玲,姚封.农村土地调查数据库的建立与土地利用分析[J].城市勘测,2010(2):13~18.

[14] 刘玲玲.怀仁县土地利用数据库的SDM研究[D].中南大学,2010.

[15] Murray A T,Estivill-cast ro V.Clustering Discovery Techniques for Exploratory Spatial Data Analysis.International Journal of Geographical Information Science,1998,12(5): 431~443.

[16] 刘仁义,刘南.ArcGIS开发宝典——从入门到精通[M].科学出版社,2007(2):242~255.

Spatial Data Mining for the Land Class Relationships Based on SQL Server Analysis Service

Ren Yijun1,Zou Yanhong2,Liu Lingling2,Chen Jiayin2
(1.Jiangmen Investigation and Surveying Institute,Jiangmen 529000,China; 2.School of Geosciences and Info-Physics,Central South University,Changsha,410083,China)

Based on Mining algorithm of Microsoft associated rule and transaction data mining functions provided by SQL Server Analysis Services(SSAS),a new implementation scheme for the land class relationships mining is proposed by using SQL Server,ArcGIS software,spatial data engine of ArcSDE.Firstly,Combined with related Spatial Data Mining (SDM)technologies,spatial data was extracted on the basis of the land use database.Secondly,the spatial data was transformed into transaction data by spatial associated rule.Finally,multi-dimension data set was constructed in SSAS and the relevant spatial data mining tasks were implemented.As a case study,the implement scheme was applied to discover the implied relationships between the adjacent land classes for the land use database of a county.Through training models and setting different parameters,a series of practical and reasonable associated rules were obtained.It shows that the scheme is feasible and efficient in practice.

the land class relationship;SQL Server Analysis Service(SSAS);spatial data mining(SDM);associated rule algorithm

1672-8262(2014)06-35-05

P208.1

B

2014—03—27

任沂军(1969—),男,高级工程师,主要从事大地测量、工程测量和GIS工作。

国家自然科学基金资助项目(41102204)

猜你喜欢

图斑图层数据挖掘
地理国情监测中异形图斑的处理方法
基于C#编程的按位置及属性值自动合并图斑方法探究
探讨人工智能与数据挖掘发展趋势
土地利用图斑自动检测算法研究
解密照片合成利器图层混合模式
巧用混合图层 制作抽象动感森林
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
跟我学添加真实的光照效果
基于ArcGIS 10的土地利用总体规划图斑自动化综合