基于DEM的空间数据信息挖掘及其应用
2016-10-12加那尔陈川吾克依拉吾铁朴
加那尔,陈川,吾克依拉·吾铁朴
(1.新疆大学地质与矿业工程学院,新疆乌鲁木齐830047;
2.新疆大学新疆中亚造山带大陆动力学与成矿预测重点实验室,新疆乌鲁木齐830047)
基于DEM的空间数据信息挖掘及其应用
加那尔*1,2,陈川1,2,吾克依拉·吾铁朴1,2
(1.新疆大学地质与矿业工程学院,新疆乌鲁木齐830047;
2.新疆大学新疆中亚造山带大陆动力学与成矿预测重点实验室,新疆乌鲁木齐830047)
基于ArcGIS应用平台,选择和什托洛盖镇白杨沟地区为研究范围,从Aster卫星影像数据上提取DEM(数字高程模型),进行空间数据信息挖掘,建立适于研究区的空间数据处理流程,并将其结果应用到水文流域特征的自动提取中。通过对比研究和野外调研,证明选择该套空间数据信息挖掘技术方法能有效提取DEM数据中隐含信息,提高工作效率。
数字高程数据(DEM);空间数据信息挖掘;ArcGIS
随着空间技术在各个行业的应用以及数据挖掘、空间数据采集技术、数据库技术的迅速发展,对从空间数据库发现隐含知识的需求日益增长,出现了用于在空间数据库中进行知识发现的崭新研究领域——空间数据挖掘[1-3]。
空间数据挖掘和知识发现这一学科起源于国际GIS会议。1994年,我国学者李德仁院士在加拿大渥太华举行的GIS国际学术会议上提出了从GIS数据库中发现知识的概念[4],并系统分析了空间知识发现的特点和方法[5]。目前空间数据挖掘己成为国际研究的一个热点,渗透到数据挖掘和知识发现、地球空间信息学和一些综合性的学术活动中,成为众多著名国际学术会议的重要研究专题。Koperski,Adhikary和Han[6]总结了空间数据挖掘的发展,认为巨量的空间数据来自从遥感到GIS、计算机制图、环境评价和规划等各种领域,空间数据的累积已经远远超出人们的分析能力,数据挖掘已经从关系数据库和交易数据库扩展到空间数据库。
1 研究区及数据源
勘查区位于新疆维吾尔自治区西北部托里县、额敏县、和布克赛尔蒙古自治县、克拉玛依市四个行政区交界处。地势北高南低,北部为低山、丘陵,南部为古尔班通古特沙漠,中部为山前冲积平原;调查区处于天山—兴蒙造山系,东西准噶尔弧盆系,赛米斯台—三塘湖复合岛弧带与唐古巴勒—卡拉麦里复合俯冲增生杂岩带过渡地带。区内沉积岩、火山岩、侵入岩广泛发育,区内断裂以北东—南西向、近东西向为主,地质构造十分复杂。
本文以Aster卫星影像数据中提取的和什托洛盖镇白杨沟地区15m×15m空间分辨率的数字高程模型(DEM)为主要数据源,空间数据挖掘信息引用到水文流域特征提取中。
2 空间数据挖掘的流程
空间数据挖掘是空间数据库中知识发现过程的一个基本步骤。主要步骤是通过将有趣的模式提供给用户,或者新的知识存储在知识库中,与用户和知识库交互的方式来进行的知识发现过程的最重要的一步,因为它可发现隐藏的不为人知的模式;是一个多步骤相互连接、反复进行的交互过程。一般可以分为数据准备、数据挖掘、结果的解释与评价3个部分[7],本文建立了适于研究区的空间数据处理流程,如图1所示。
3 空间数据挖掘及数据分析
3.1洼地填充处理
洼地指的是低于周围栅格的区域。研究者普遍认为,被高程较高的区域围绕的洼地是使用DEM进行水文分析的一大障碍,因为这些洼地的存在会阻碍自然水流朝流域出口流动,因此,在DEM提取水系特征之前要进行“填洼”预处理。其原理是:扫描每个网格时,比较该网格与相邻的8个网格的高程,如果中心网格的高程比相邻的8个网格的高程都低,则将相邻8个网格中高程最低的那个网格的值赋予中心网格。
图1 研究区空间数据处理流程
3.2水流方向提取
在填洼后的DEM中,每个栅格单元都有一个可以定义的水流方向值,某一个栅格单元的水流方向是指水流离开此单元格时的指向[8]。这一概念最早是由Mark等提出的[9]。
地表径流在流域内总是从地势高处流向地势低处,最后经流域出口排出流域。流向的确定建立在流域3×3的DEM格网的基础上。水流方向是指水流离开每一个栅格单元时的指向。它决定着地表径流的方向及格网单元间流量的分配,是基于DEM的分布式水文模型中的一个十分关键的问题。水流的流向是通过计算中心栅格与邻域栅格的最大距离权落差(即取距离权落差最大的栅格为中心栅格的流出栅格)来确定。如果邻域栅格对中心栅格的方向值为2、8、32、128,则栅格间的距离为2的开平方根,否则距离为1。在ArcGIS中通过将中心栅格的8个邻域栅格编码,水流方向便可以其中的某一值来确定。
3.3河网的提取
得到每个网格流向与水流累计值后,以flowacc数据作为基础数据,生成河网。预先设定一个阈值,该阈值表示河网中点的最小积水面积,将水流方向累计矩阵中数据高于此阈值的网格连接起来,便可形成排水网络,当阈值减少时,网络的密度便相应增加[10]。河网的生成基于如下假设:如果某单元格的汇流累积量大于阈值,则该单元格是河网的一部分[11]。阈值的设定在河网的提取过程是很重要的,并且直接影响到河网的提取结果。首先应该考虑到研究的对象,研究对象中的沟谷的最小级别,不同级别的沟谷所对应的不同的阈值;其次考虑到研究区域的状况,不同的研究区域相同级别的沟谷需要的阈值也是不同的。栅格河网的形成是利用所设定的阈值进行整区域的分析并生成一个新的栅格图层,是利用设定一个河网生成阈值来计算出所有大于设定阈值的栅格,这些栅格就是河网的潜在位置。最终提取矢量形式的河流网格。
3.4河网分级的生成
河网分级的建立在提取的河网基础上[12],分级的时候首先确定流域的出水点,找到出水点之后,沿水流向上游搜索,一直搜索到了流域边界[13],生成整个流域的河网系统后,不同的支干流连接怎样用数字表示带入分布式水文模型计算,即河网计算优先顺序问题,就要考虑河网分级问题。河网分级是对一个线性的河流网络进行分级别的数字标识,利用地表径流模拟的思想,不同的级别的河网首先是它们所代表的汇流累积量也不同,级别越高的河网,其汇流累积量也越大,那么在水文研究中,这些河网往往是主流,而那些级别较低的河网则是支流。
流域河网的分级编码方法有多种[14],本文采用Strahler[15]的河网分级系统对产生的河道进行分段和分级处理。
根据STRAHLER分级法可知,该区域河网分布较密集,河流等级可分为5级,河流方向主要为北西向至东南向。区域南部由于第四系隐伏断层的影响,河流方向发生变化,形成似三角形。
3.5流域的提取
流域又称集水区域,是流经其中的水流和其他物质从一个公共的出水口排出而形成的一个集成的排水区域[16]。提取子流域的第一步是确定子流域的出水口位置,出水口即流域水流的出口,是整个流域的最低处[16]。ArcGIS中以2个河道的交汇点作为流域出口,从出口沿河道向上游搜索每一河道的上游给水区,分别对搜索到的上游给水区边界进行勾画就得到了各个小流域的边界。
3.5.1流域盆地(大流域)的确定
流域盆地是由分水岭分割而成的汇水区域。它通过对水流方向数据的分析确定出所有相互连接并处于同一流域盆地的栅格。利用流域盆地分析,可以从很大的一个研究区域选择感兴趣的流域并将该流域从整个研究区域分割出来进行单独的分析[17]。
在实际情况下,河流等级高低并不能准确表示河流流量的多少,还需要计算流域盆地的分布情况。流域盆地值8500~10500区间是河流网络最发育的地段,但其中可能包括一些时令河流,主要汇水区域主要分布在流域水系等级最高的部分,反映了该处流域盆地是研究区内较优化的候选地。
3.5.2集水域(Watershed)的生成
在ArcGIS中,对于低级的集水区的生成,可以使用hydrology工具集中的watershed工具以水流方向和河网节点数据作为输入,输出分割后的集水区域。
集水水域是指地表水及地下水分水线所包围的集水区域的总称。根据计算结果,研究区集水水域值为98~170区域,分布在研究区的南部,呈东西走向的矩形。与实际野外调查结果一致。
4 结语
从GIS中发现知识是GIS研究的一个重要方向,本文对空间数据挖掘技术以及地理信息系统进行系统的研究和探讨的基础上,结合地理信息系统的空间分析功能和数据管理功能及空间数据挖掘的特点,通过对比研究和野外调研,进行空间数据挖掘,实现了从GIS中进行空间数据挖掘的具有可行性技术方法。
本文利用DEM提取流域水文特征可以较快地提高工作效率并保证结果的准确性,为野外工作开展提供了极大的指导意义与科学依据。在此,以水流方向数据和自然水系的分级标识数据为依据,将同一级别每一条水系回水盆地内的栅格自动识别出来。然后根据不同水系回水盆地的栅格的标识数据,自动搜索回水盆地的边界栅格。
该计算结果反映了该区域河网分布较密集,河流的等级,河流方向主要为北西向至东南向,区域南部由于第四系隐伏断层的影响,河流方向发生变化,形成似三角形,计算出了流域盆地的分布情况来反映了该处流域盆地是研究区内较优化的候选地,与实际野外调查结果一致。本次论文采用的Arc GIS软件的分析模块较依赖DEM数据的准确性,并且无法准确地分析出研究区内某些河流的时令性,在今后的工作中需要在研究区内开展野外验证工作。
[1]Shashi Shekhar,Yan Huang.Discovering Spatial Co-Location Pattens:A Summary of Results[A].In:Proceedings of the Seventh International SymPosium on SPatial and TemPoral Databases,Redondo Beaeh,CA,USA,2001:236-256.
[2]邸凯昌,李德仁,李德毅.空间数据发掘和知识发现的框架[J].武汉测绘科技大学学报,1997(4):27-31.
[3]刘君强.海量数据挖掘技术研究[D].浙江大学,2003.
[4]Li D R,Cheng T.kdg-Knowledge Discovery from GIS.The Canadian Conference on GIS,Ottawa,Canada,1994:1001-1012.
[5]李德仁,程涛.从GIS数据库中发现知识[J].测绘学报,1995(1):37-44.
[6]Koperski K,Adhikary J,Han J.Spatial Data Mining:Process and Challenges Survey Paper.SIGMOD.96 Workshop on Research Issues on Data Mining and Knowledge Discovery(DMKD.96),Montreal,Canada,1996.
[7]Fayyad U M.Advances in Knowledge Discovery and Data Mining.Menlopark CA:AAAI/MIT Press,1996.
[8]JENSON S K,D.J.O.,Extracting Topographic Structure from Digital Elevation Data for Geographic Information System Analysis.1988:1593-1600.
[9]MARKS D M,D.J.F.J.Atomated Basin Delineation from Digital Elevation Data.1984:299-311.
[10]叶爱中,等.基于数字高程模型的河网提取及子流域生成[J].水利学报,2005(5):531-537.
[11]TARBOTON D G,B.R.L.R.On the Extraction of Channel Networks from Digital Elevation Data,1991:81-100.
[12]冯杰,解河海,成丽婷.基于子流域的TOPMODEL模拟研究[J].长江科学院院报,2009(4):4-8.
[13]黄娟,申双,殷剑敏.基于DEM的江西潦河流域河网信息提取方法[J].气象与减灾研究,2008(1):49-53.
[14]李铁键,王光谦,刘家宏.数字流域模型的河网编码方法[J].水科学进展,2006(5):658-664.
[15]Strahler,AN.Quantitive Analysis of Watershed Geomorphology.Trans.Am.Geophys.Union.1957.
[16]唐从国,刘丛强.基于Arc Hydro Tools的流域特征自动提取——以贵州省内乌江流域为例[J].地球与环境,2006(3):30-37.
[17]刘淑春,李晶,张征,朱建刚,牟向玉.基于DEM的太湖流域水文特征提取[J].环境科学与管理,2009,34(5).
P31
A
1004-5716(2016)10-0154-03
2015-11-09
2015-11-18
自治区地质勘查基金项目,项目编号:S12-1-XJ02。
加那尔(1991-),女(哈萨克族),新疆木垒人,新疆大学地质与矿业工程学院在读硕士研究生,研究方向:地球探测与信息技术。