APP下载

地形特征与山地气候变化空间关联规则数据挖掘研究

2010-12-28何政伟

地理与地理信息科学 2010年1期
关键词:项集置信度栅格

陈 刚,何政伟,杨 斌

(1.成都理工大学地球科学学院,四川成都 610059;2.中石化西南油气分公司勘探开发研究院信息中心,四川成都 610081;

3.西南科技大学环境与资源学院,四川绵阳 621010)

地形特征与山地气候变化空间关联规则数据挖掘研究

陈 刚1,2,何政伟1*,杨 斌3

(1.成都理工大学地球科学学院,四川成都 610059;2.中石化西南油气分公司勘探开发研究院信息中心,四川成都 610081;

3.西南科技大学环境与资源学院,四川绵阳 621010)

以四川省的地形、气候为研究对象,针对山地地形特征与气候变化研究中,传统的统计分析、非线性拟合等方法缺乏分析处理海量数据和提取隐含信息能力的问题,提出将关联规则数据挖掘与栅格图像处理、地形分析相结合的研究方法。该方法利用栅格图像处理和地形分析技术,对地形和气候栅格图像进行坐标转换、裁剪、分类、因子提取、离散化等预处理,再用Ap rio ri算法对提取的地形特征因子和气候因子进行分析,得到反映两者之间相关性的强关联规则。通过对60余万组数据的分析,得到22条满足最小支持度和置信度的关联规则,并由此综合分析得到6条复合关联规则。实验证明,这些反映地形特征与气候变化幅度之间关联性的关联规则可信度较高。

地形;山地;气候;关联规则;数据挖掘

在山地研究中,地形特征是一个包括海拔、坡向、坡度和粗糙度等因子的多维变量,由于地形特征决定了太阳辐射、降水、气温的空间分布,从而决定了气候带的分布[1,2],除纬度与海陆位置外,地形特征是影响区域气候的主要因素。尤其是在内陆地区,地形特征对气候的主导作用尤为明显。研究表明[3],地形与区域气候变化具有一定的联系,因此,研究地形与山地区域气候的关系,减小气候变化对社会经济和生态环境的影响,具有重大的现实意义。

多年的山地研究积累了遥感、地质、生态环境、社会等方面的大量数据,而对这些数据的分析仍主要采取统计分析、非线性拟合等传统方法[4-6],在多元、多维、海量数据分析处理方面存在明显不足,导致大量信息(如特征描述、趋势、类别等)淹没于背景数据中,难以被发现。数据挖掘是从20世纪90年代发展起来的新兴数据分析处理技术,它能从大量、不完全、有噪声、模糊、随机的数据中提取隐含、潜在有用的信息和知识,并且近年来随着信息技术的发展,数据挖掘得到了有力支撑,发展迅速。因此,数据挖掘的应用可解决山地科学研究中数据分析处理这一瓶颈问题。本文以四川省为研究区域,通过栅格图像处理、地形分析与关联规则数据挖掘技术,研究山地地形特征与气候之间的相关性。

1 研究区域概况与数据处理

四川省位于东经97°21′~108°31′,北纬26°03′~34°19′,东西长1 075 km,南北宽921 km,面积48.41万km2。地形复杂多样,包含四川盆地、青藏高原、横断山脉、云贵高原、秦岭-大巴山山地等地貌单元,地势西高东低,由西北向东南倾斜,山地、高原和丘陵约占全省土地面积的97.46%。四川位于亚热带范围内,由于受复杂地形和不同季风环流的交替影响,东西部气候差异明显,东部盆地属亚热带湿润气候,西部高原以垂直气候带为主,寒冷、冬季长、日照充足、降水集中、干湿季分明,从南部山地到北部高原,由亚热带演变到亚寒带,气候垂直变化大,垂直方向上有亚热带到永冻带的各种气候类型。四川复杂的地形和多样的气候,为研究山地地形特征与气候的相关性提供了典型样本。

地形数据采用SRTM V 4.1数据,精度3 rad/s,水平分辨率约9 m,高程基准是 EGM-96的大地水准面,平面基准是 WGS_1984。通过插值方法对SRTM V 4.1原图中的空洞进行填补。覆盖四川省的SRTM图幅文件共6个,通过图像处理软件进行无缝拼接后,与四川省省界矢量图形进行裁剪,得到四川省的SRTM地形图,再用此图分别提取高程、坡度、坡向栅格图像[7,8]。文中所有的栅格图像均采用WGS_1984地理坐标系,以便在统一的坐标系统进行叠加和计算分析。

本文选用中国自然资源数据库中提供的1961-1998年气候数据作为实验数据,数据为经过栅格化处理的每年7月平均气温和降水数据。为量化反映气温和降水的变化波动程度,实验中用标准差对数据进行处理,计算公式为:S=SQRT[Σni=1(xi-¯x)2/n],得到跨度为38 a的气温(降水)标准差栅格图。其中,SQRT表示开平方根,xi为第i年7月平均气温(降水)栅格数据,¯x为1961-1998年7月平均气温(降水)栅格数据的平均值,S为标准差(S越大说明数据相对平均数上下波动越大,即变动幅度越大)。

2 关联规则数据挖掘算法描述

关联数据挖掘是数据挖掘的一个重要研究方向,它通过找出事物之间在特定条件下存在的某种强度联系的关联规则,发现事务之间的规律。关联规则模式属于描述型模式,基本算法有Ap riori和FP-Tree两种,其中Ap riori算法是研究和使用最多的算法,它是一种使用频繁项集性质的先验知识,生成关联规则的算法属于无监督学习,其核心是扫描数据,用逐层搜索的迭代方法求得所有频繁集,能有效地发现大量数据中的关联规则[9,11]。

关联规则的相关数学描述如下:设 I={i1,i2,…,im}是项集合,其中的元素称为项(item)。D是一个事务集合,在 D中每个事务 T是项的集合,且 T⊆I,对应每个事务有唯一的标识 TID。设 X是一个I中项的集合,如果 X⊆T,那么称事务 T包含X。本文将项定义为二进制数,值为0或1,每个事务中的唯一标识为每个取样点的编号 PO IN TID,关联规则挖掘的过程主要包括以下步骤。

2.1 确定关联规则算法的分析因子

将地形特征和气候作为关联规则数据挖掘的研究对象,分析因子由高程、坡度、坡向、降水、气温5项组成。由于算法性能对粒度的限制,在用关联规则算法进行分析前,需要对指标进行分类,5项栅格数据分别按照以下标准进行分类:根据《中国地貌区划》[12]记载的绝对高程分类方法,将高程分为5类:极高山(>5 000 m)、高山(3 500~5 000 m)、中山(1 000~3 500 m)、低山(500~1 000 m)、非山地(丘陵与平原)(<500 m)。根据国际地理学会地貌调查与制图委员会制定的坡度分级方法,将坡度分为7级:平原至微倾斜坡(<2°)、缓倾斜坡(2°~5°)、斜坡(5°~15°)、陡坡(15°~25°)、急坡(25°~35°)、急陡坡(35°~55°)、垂直坡(>55°)。坡向以正北方向为起始方向,按顺时针方向计算,范围为0°~360°,以45°为间隔划分为8类。将气温和降水栅格数值的标准差,按照标准偏差分类法(standard deviation)划分为6类,数值越大表示变化幅度越大(地形和气候因子的分类结果如图1、图2所示)。

2.2 设定最小支持度和最小置信度阈值

支持度表示事务集合D中包含 X和 Y的事务数与总的事务数的比值(式(1)),说明了规则在所有事务中代表性程度,支持度越大,关联规则越重要,最小支持度Supmin用以表示这种规则发生的最小概率。置信度表示D中同时包含 X和 Y的事务数与只包含X的事务数的比值,是对关联规则准确度的衡量(式(2)),最小置信度 Confmin用来滤掉可能性过小的规则。支持度和置信度的阈值对能否找到满意的关联规则非常重要,如果生成的规则过多或过少,则需要对支持度阈值和置信度阈值进行调整,并重新生成强关联规则。

2.3 迭代找出所有支持度大于等于 Supmin的频繁项集

频繁项集是出现的频率大于或等于最小支持数,即满足最小支持度阈值的项集。关联规则挖掘的实质就是在给定的交易或事务数据库D中,发现所有的频繁关联规则[13,14]。找出频繁项集的基本过程如下[15]:设Ck表示候选k-项集,Lk表示Ck中出现概率大于或等于最小支持度阈值与事务总数的乘积的k-项集,即k-频繁项集或者是k-大项集。1)计算所有的C1;2)扫描数据库,删除其中的非频繁子集,生成L1(1-频繁项集);3)将L1与自己连接生成C2(候选2-项集);4)扫描数据库,删除C2中的非频繁子集,生成L2(2-频繁项集);5)依次推算,通过Lk-1(k-1-频繁项集)与子集连接生成Ck(候选k-项集),然后扫描数据库,生成Lk(频繁k-项集),直到不再有频繁项集产生为止。

2.4 根据频繁项集生成所有置信度大于等于置信度阈值的强规则

强规则就是满足最小支持度Supmin和最小置信度Confmin的关联规则。给定一个事务集D,挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则,即产生强规则的问题。对于每个频繁项集L,产生L的所有非空子集;对于L的每个非空子集S,如果Support(Y)/Support(X)≥Confmin,则输出规则X⇒(Y-X),Confmin是最小置信度的阈值。由于规则由频繁项集产生,每个规则都满足最小支持度。

3 空间关联规则数据挖掘实验及分析

3.1 分析因子的表示

为便于在数据库中表示,在计算前需要将分析因子的分类值二值化。在四川行政区域内,从气温栅格分类图上提取与栅格对应的点,以这些点的坐标为采样点,提取相同经纬度坐标的地形特征因子和气候因子的分类数值,共625 689组;然后对得到的每组分类数字进行二值化处理,组成由5段32个项组成的事务。项是二进制数,每段代表一个分析因子,段中不同位置的项对应不同的分类,每个段中项只能有一个位置为1,其他的均为0,整个事务集合由625 689个事务组成。

3.2 实验结果

从四川省的高程、坡度、坡向、降水、气温栅格数据中,共提取625 689组数据作为分析样本,经坐标转换、裁剪、分类、提取、离散化处理后,每组数据得到32个属性。采用Ap rio ri算法对数据进行分析,设定最小支持度阈值Supmin=5%和最小置信度阈值Confmin=60%,得到22条关联规则(表1),其中,一维规则4条,二维规则18条,这些规则按支持度降序排列,均具有较高的置信度。如表1所示,每条规则代表了一个关联关系,例如:规则 ①:F2=>H3,说明降水的标准差在0~20.1393(F2)和高程1 000~3 500 m(H3)存在关联,两者同时出现的概率为7.255%,而在此降水标准差变化范围内,高程1 000~3 500 m(H3)的概率为98.783%,F2、H3具有较高支持度。其他规则的解释同上。

表1 地形特征和气候因子的关联规则Table 1 Association rules of terrain feature and climate factors

3.3 实验分析

根据以上关联规则,通过交并运算,可以概括出6条复合关联规则:①高程为178~500 m(H1),气温标准差为5.2768~6.5576(T2),则降水标准差为22.9193~25.6993(F4);②气温标准差为5.2768~6.5576(T2),降水标准差为0~22.9193(F1/F2),坡度在 15°~35°(SL4/SL5)间的地形,则高程为1 000~3 500 m(H3);③气温标准差为6.5576~9.119(T3/T4),降水标准差为22.9193~28.4792 (F3/F4),坡度在5°~35°(SL3/SL4/SL5)间的地形,则高程为3 500~5 000 m(H4);④高程为178~500 m(H1),降水标准差为 22.9193~25.6993 (F3),或高程为1 000~3 500 m(H3),降水标准差为0~20.1393(F1),则气温标准差为 5.2768~6.5576;⑤高程为178~500 m(H1),降水标准差为25.6993~28.4792(F4),或高程为3 500~5 000 m (H4),降水标准差为20.1393~22.9193(F2),则气温标准差为6.5576~7.8383(T3);⑥高程为3 500~5 000 m(H 4),降水标准差为25.6993~28.4792 (F4/F5),则气温标准差为7.8383~9.119(T4)。

用布尔表达式分布表示为:

从以上结果可以看出,地形特征与气候变化幅度之间存在明显的复杂关联性。为证明以上结果的正确性,用空间分析与统计分析结合的方法进行验证。先将关联规则R的前项按照表达式中的逻辑关系,对涉及的要素图像进行栅格运算,得到满足前项条件的研究区域A;再按照区域A的范围,从关联规则 R后项对应的要素栅格图像中,提取后项表示结论区域B;对区域B中栅格单元用前述采样点提取数值,然后,分别统计区域B中采样点总数 PB(区域点数)和数值满足关联规则 R后项的采样点数 PR(有效点数),对比得到两组数据。从图3可以看出,满足关联规则结果的有效点在区域内占有较高比例,说明上述关联规则具有较高的可信度。

图3 区域B中点数与有效点数对比Fig.3 The comparison of area pointsand effective points in area B

4 结论

本文以四川省为研究区域,在用栅格图像和地形分析技术对地形、气候图像进行预处理的基础上,采用Ap rio ri关联数据挖掘算法,研究了地形因子与气候变化间的关联规则,在无假设模式的前提下,无监督的从大量信息中挖掘地形与气候变化间有价值的隐含知识、关系、规则。实验共得到22条基本关联规则,并通过综合分析提取了6条复合关联规则。经过证明,这些规则可信度较高,表明地形特征与气候变化幅度之间存在明显的复杂关联性。因此,关联规则挖掘算法作为山地环境研究的一种新方法具有实用性。

[1] 邵远坤,沈桐立,游泳,等.四川盆地近40年来的降水特征分析[J].西南农业大学学报,2005,27(6):749-752.

[2] 程路.秦岭山地辐射和气温空间分布研究[D].南京气象学院,2003.

[3] 倪永明,欧阳志云.基于地形因素的新疆荒漠植被-气候模型应用研究[J].西北植物学报,2006,26(6):1236-1243.

[4] 何思源,刘鸿雁,任佶,等.内蒙古高原东南部森林-草原交错带的地形-气候-植被格局和植被恢复对策[J].地理科学, 2008,28(2):253-258.

[5] 吉廷艳.贵州省低纬山地气候变化趋势[J].山地学报,2003,21 (4):422-427.

[6] 舒守娟,王元,熊安元.中国区域地理、地形因子对降水分布影响的估算和分析[J].地球物理学报,2007,50(6):1703-1711.

[7] 朱红春,刘海英,张继贤,等.基于DEM地形因子提取与量化关系研究——以陕北黄土高原的实验为例[J].测绘科学,2007, 23(2):138-140.

[8] 张照录,崔继红.基于栅格 GIS土壤侵蚀地形因子的提取算法[J].计算机工程,2006,32(5):226-228.

[9] AGRAWAL R,IM IEL INKSI T,SWAM IA.Mining association rules between setsof items in large database[A].Proceedingsof the 1993 ACM SIGMOD International Conference on M anagement of Data[C].1993.207-216.

[10] AGRAWAL R,SRIKANT R.Fast algorithm for mining association rules[A].Proceedings of the 20th VLDB Conference [C].1994.487-499.

[11] 周剑雄,王明哲.基于关联规则的数据挖掘技术的快速算法[J].计算机工程,2003,29(12):48-50.

[12] 中国科学院自然区划工作委员会.中国地貌区划[M].北京:科学出版社,1959.83-88.

[13] 李清峰,杨路明.数据挖掘中关联规则的一种高效Ap rio ri算法[J].计算机应用与软件,2004,21(12):84-86.

[14] 李新良,陈湘涛.数据挖掘中关联规则算法的研究[J].计算机工程与科学,2007,29(12):111-116.

[15] 李德仁,王树良,李德毅.空间数据挖掘的理论与应用[M].北京:科学出版社,2006.390-392.

Spatial Association Rules Data M ining Research on Terrain Feature and Mountain Climate Change

CHEN Gang1,2,HE Zheng-wei1,YANGBin3
(1.College of Earth Sciences,Chengdu University of Technology,Chengdu 610059;
2.Information Center,Exp loration&Production Research Institute,SW PB SINOPEC,Chengdu 610081;
3.College of Environment and Resource,Southw est University of Science and Technology,M ianyang 621010,China)

In this paper,aimed at p roblem s w hich commonly research means,such as statistical analysis,nonlinear fitting and so on,lack the ability of extraction hidden information and p rocessing mass data inmountain terrain feature and climate change research,the terrain and climateof Sichuan is taken as research object,and a researchmethod w hich combines association rules data mining,raster image p rocessing and terrain feature facto rs extraction is put fo rward.In this method,raster image p rocessing and terrain analysis technique are adop t to p re-treat terrain and climate raster image by coordinate transformation,clipping,classification,facto rs extraction,discretization and so on,and Ap rio ri algo rithm is used to analysis terrain features and climate factors extracted by above p retreatmentmethods for obtaining strong association rules w hich rep resent relativity law between terrain and climate change.By means of analysis on mo re than 600 000 group data,to tally 22 item s association rulesw hich satisfy minimum support and confidence are obtained,and 6 compound association rules are generalized by comp rehensive analysis as well. Experiment show s that those results have higher credibility in reflecting associated law s between terrain feature and climate change.

terrain;mountain;climate;association rules;data mining

P208

A

1672-0504(2010)01-0037-04

2009-07-09;

2009-10-30

国家自然科学基金(40972225);国家科技支撑“十一五”计划(2008BAK49B02);国家863重点项目(2007AA 120306);四川省杰出青年学科带头人培养计划项目(06ZQ026-014);四川省教育厅自然科学重点项目(2006A 116)

陈刚(1976-),男,博士研究生,研究方向为 GIS、空间数据库、数据挖掘。*通讯作者E-mail:hzw@cdut.edu.cn

猜你喜欢

项集置信度栅格
硼铝复合材料硼含量置信度临界安全分析研究
基于邻域栅格筛选的点云边缘点提取方法*
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
置信度条件下轴承寿命的可靠度分析
不同剖面形状的栅格壁对栅格翼气动特性的影响
基于CVT排布的非周期栅格密度加权阵设计
栅格中间层数据在数字地形分析中的应用
多假设用于同一结论时综合置信度计算的新方法✴
一种新的改进Apriori算法*