关联规则支持下坡面土壤侵蚀评价指标体系构建:以鄂西北丹江库区郧西县为例
2011-07-12鄢铁平张秋文龚兰兰
鄢铁平 ,孙 燕 ,廖 炜 ,张秋文 ,龚兰兰
(1.湖北省水土保持监测中心,430071,武汉;2.华中科技大学数字流域科学与技术湖北省重点实验室,430074,武汉)
目前的土壤侵蚀研究模型与方法,无论是物理模型还是统计模型,都有相对共同的特点,即各研究模型的建立及方法的应用,基本都是在各自尺度上随机选取某个或某些土壤侵蚀影响指标因子然后建立模型并进行实践方法研究,存在模型概念不清、适用条件模糊等情况;各影响因子间相对独立,相互之间缺乏有机联系。对土壤侵蚀评价指标进行综合分析并建立评价指标体系的研究,及对各影响因子侵蚀的贡献率大小及比重的分析研究,更是仅见到极少数学者的研究。
本次研究选择鄂西北丹江库区郧西县为研究区,以郧西县水保站11年大量系统科学的实测指标数据为基础,通过数据挖掘找出这些看似不相关的指标间的内在联系,从而确定影响研究区坡面土壤侵蚀的关键因子,建立研究区坡面土壤侵蚀评价指标评价权重体系,为后期研究区土壤侵蚀评价模型的输入参数选择提供有力的理论支持。
一、研究区概况
郧西县隶属鄂西北丹江库区。丹江库区属于我国南北气候过渡地带的秦巴山气候区,位于我国地形第二级阶梯和第二、三级阶梯的过渡带,坡地以黄棕壤为主。郧西县水土保持试验站位于县城东南部,全流域面积32.15 km2,属于高山地区,最高海拔1082.2 m,最低350 m。
陨西水保站于1982—1988年在站附近缓坡、陡坡地上(海拔400~500 m)设置了5组径流试验小区,分13个径流小区。其中12个小区蓄水池的容积为 2 m×2 m×1.5 m,1个小区蓄水池面积为2.5 m×4.0 m×2.5 m。径流小区周围用20 cm×25 cm水泥块埋在分水线上夯实,形成不透水墙,墙外设40 cm×40 cm的分水沟。小区内的土层深为10~30 cm,土壤花岗岩发育形成山地黄棕壤,小区周围地质条件较好,不会出现滑坡和崩塌现象。径流小区试验方法包括顺坡种植、土梯种植、石梯种植、陡围、林草、陡垦等。
本研究与土壤侵蚀相关性大的影响指标因子主要有降雨量、地形(坡长和坡度)、土壤、植被、耕作方法等。与土壤侵蚀相关系数最大的是降雨量因子,其与土壤侵蚀的相关系数高达0.85。
土壤因子是影响侵蚀的内在因素,土壤的性质与坡面侵蚀的过程密切相关。将土壤指标纳入本次坡面土壤侵蚀评价指标体系。本研究区坡向主要是南北向,有少数几个小区为西向,其坡向因子可以认为与土壤侵蚀程度无关。因此,不将坡向纳入本次坡面土壤侵蚀评价指标体系。通过分析郧西县1982—1993年月平均降雨量、月侵蚀雨量与月降雨侵蚀力、坡面径流小区平均侵蚀模数、坡面径流小区年平均土壤侵蚀模数与坡长关系、坡面径流小区植被覆盖度与多年平均土壤侵蚀模数的关系、不同耕作方式下的多年平均土壤侵蚀模数,可知降水量、地形、土壤、植被、耕作方式等与土壤侵蚀相关系数均在0.33以上,因此,纳入鄂西北房县和郧西县坡面径流小区土壤侵蚀评价指标体系的影响因素有降水量(侵蚀雨量、径流量)、地形、土壤、植被、耕作方式等,见图1。最上层为目标层,中间层为影响因素层,第三层为具体的影响指标因子。
二、关联规则理论
1.关联规则原理
关联规则挖掘模式是数据挖掘所发现的知识模式中非常重要的一类,由R.Agrawal等在1993提出,目的是找出大量数据中有用或有趣的相关关系,是最重要的数据挖掘方式之一,近年被各行业广泛使用。
关联规则相关的几个基本概念:
①项集。项的集合称为项集I(itemset)。K项集,即包含K个项的项集。
②事务。事务T是一组属性的集合(项的集合),并且T∈I。事务是数据集D的组成元素(类似于关系数据库中的记录),而项仅是为挖掘关联规则而规定的项组合(类似于字段)。
③事务集。事务的集合称为事务集D。
④关联规则。逻辑蕴涵A=>B,A、B 是项集,A∈I,B∈I,A∩B=Ф。 A 称为关联规则A=>B的前件或前提,B称为关联规则A=>B的后件或结论。用置信度和支持度描述其属性:
置信度 (A=>B)=包含A和B 的元组数/包含A的元组数。置信度表示:在出现项集A的事务集D中,项集B也同时出现的概率。支持度:支持度 (A=>B)=包含A和B的元组数/元组总数。支持度表示:A和B项集在所有事务中同时出现的概率。
图1 坡面径流小区土壤侵蚀评价指标体系
对于一个事务集,关联规则挖掘即是找出置信度和支持度分别大于给定的最小支持度和最小置信度的关联规则。置信度表达对关联规则准确度的衡量,支持度表达对关联规则重要性的衡量。支持度说明这条规则在所有事务中代表性的大小。支持度越大,关联规则越重要,应用越广泛。有些关联规则置信度很高,但是支持度却很低,说明这条规则不是那么重要。
2.Apriori算法
Apriori算法是基于两阶段频繁项集思想的使用最广泛的关联规则挖掘算法,是关联规则挖掘经典算法。鉴于本次研究的数据库记录非海量,在重复扫描数据库时不会耗费太多时间,因此引入Apriori算法,即能快速满足应用需求。
Apriori算法涉及两个基本概念:①频繁项集:所有支持度大于最小支持度的项集,简称项集、频集。②强关联规则:同时满足最小支持度阈值和最小置信度阈值的规则。算法总体分为两个步骤:①找出所有的频繁项集:项集出现的频繁性大于等于最小支持度,它决定关联规则的总体性能。②由频繁项集产生强关联规则:强关联规则必须满足最小支持度和最小可信度。
Apriori算法采用两阶段挖掘的思想,并且基于多次扫描事务数据库执行。算法描述如下:①从事务数据库中挖掘出所有频繁项集,使用递推方法。首先需要挖掘出频繁I项集;然后继续采用递推的方式来挖掘频繁K项集(K>I),具体做法是:在挖掘出候选频繁K项集之后,根据最小置信度来筛选,得到频繁K项集。最后合并全部的频繁K项集(K>0)。②基于第一步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。置信度大于给定最小置信度的关联规则即为频繁关联规则。在这一步,首先需要从频繁项集入手,挖掘出全部的关联规则(或者称候选关联规则),然后根据最小置信度来得到频繁关联规则。
三、关联规则支持下研究区土壤侵蚀评价指标体系研究
本文以鄂西北郧西县为研究对象,所引用的实验数据为郧西水土保持站1982—1993年坡面径流小区土壤侵蚀及相关实测数据。本次实验的目的是采用关联规则算法,分别及综合分析前文建立的研究区坡面土壤侵蚀评价指标体系中土壤侵蚀影响因子——坡角、植被覆盖度、土地利用状况(不同耕作方式)等与土壤侵蚀程度的重要性关联,即这些因子对土壤侵蚀影响的重要程度。
1.对各因子进行量化
为了提高研究结果的准确性,降低数据因为量纲的不同而引起的误差,首先对影响土壤侵蚀的各因子进行量化。
坡角数据量化为 4级 (8°~15°、15°~25°、25°~35°、>35°),分别用标识符Ⅰ1、Ⅰ2、Ⅰ3、Ⅰ4 表示。 植被覆盖度量化为 4级 (<30%、30%~45%、45%~60%、60%~75%),分别用标识符Ⅱ1、Ⅱ2、Ⅱ3、Ⅱ4表示。土地利用情况有3种即顺坡、土梯和石梯,分别用Ⅲ1、Ⅲ2、Ⅲ3来代表。植被种植措施有林草和陡垦,分别用Ⅳ1、Ⅳ2表示。参考《土壤侵蚀分类分级标准》中的土壤侵蚀强度分级标准,结合研究区的数据对土壤侵蚀强度分级,将土壤侵蚀模数(t/km2)分为 6 级(<50 微度、50~250轻度、250~500中度、500~800强度、800~1 500 极强、>1 500 剧烈),标识符分别为 N1、N2、N3、N4、N5、N6。
2.实验结果及其分析
(1)坡度、植被覆盖度、耕作方式、植被对应的措施等单因子分别对水土流失的影响
通过Apriori算法分别分析单因子(坡度、植被覆盖度、耕作方式、植被对应的措施等)对土壤侵蚀的影响程度,得到关联规则分析,见表1。
从表1中可以看出,植被因素(植被措施中的林草措施)是与土壤侵蚀关联程度最高的指标,支持度在50%以上,置信度为100%。说明凡是采取了林草措施的地区,发生的土壤侵蚀状况基本都是轻度侵蚀。其次是耕作方式(顺坡、土梯等)与土壤侵蚀的关联程度很高,支持度都在33%以上,置信度为100%。凡是顺坡种植,发生的基本都是强度侵蚀;凡是土梯耕作,发生的基本都是中度侵蚀。支持度都在33%以上,置信度为100%。说明凡是坡角在 8°~15°及 15°~25°时, 发生的侵蚀方式基本都是强度侵蚀;坡角在22°~35°时,发生剧烈侵蚀的概率是50%。
(2)坡度、植被覆盖度、耕作方式、植被对应的措施等综合因子对水土流失的综合影响
在多因子对水土流失的影响分析中,土壤侵蚀强度按照水利部制定的《土壤侵蚀分类分级标准》对土壤侵蚀强度的分级标准来划分。经实验发现,当最小支持度为0.1或者0.09,最小置信度为0.2时,可看到所有因子整体的影响结果。
①耕作方式与土壤侵蚀的关联程度非常高。顺坡耕作与土壤侵蚀之间的关联规则,支持度都在45%以上,置信度为100%。说明凡是顺坡种植,发生的基本都是轻度侵蚀。土梯耕作与土壤侵蚀之间的关联规则,支持度都在33%以上,置信度为100%。说明凡是土梯耕作,发生的基本都是轻度侵蚀。
②坡角因子与土壤侵蚀的关联程度很高。 坡角在 8°~15°及 15°~25°发生的轻度侵蚀,支持度分别在18%及36%以上。说明在这个坡角发生的土壤侵蚀方式基本都是轻度侵蚀;坡角在22°~35°,发生剧烈侵蚀的概率是50%。
表1 单因子与土壤侵蚀之间的关联规则集合
③林草与微度侵蚀、陡垦与轻度侵蚀,其支持度和置信度分别在18%以上及100%,说明凡是采取林草措施,发生的土壤侵蚀程度基本都是微度侵蚀;凡是采取陡垦措施,发生的土壤侵蚀程度基本都是轻度。植被因素中的植被覆盖度支持度在9%以上,置信度为100%,说明植被覆盖度小于30%时发生的土壤侵蚀状况都是轻度侵蚀,植被覆盖度为30%~45%和45%~60%时发生的土壤侵蚀方式都是微度侵蚀。
根据上述研究,做出单因子与综合因子对土壤侵蚀的影响图,见图2与图3。
综合分析,可认为在研究区对坡面土壤侵蚀有影响的因子中,按照重要性权重排列依次是:植被措施因子、坡角因子、耕作方式因子、植被覆盖度因子。后期建立土壤侵蚀分析计算模型,可参照此权重选择影响因子。
四、结 论
本文引入关联规则中的Apriori算法,以研究区陨西县1982—1993年的实测数据为基础进行鄂西北研究区坡面土壤侵蚀评价指标体系的建立研究。对坡角、植被覆盖度、土地利用类型、植被对应的措施等各种不同因子进行量化,以支持度和置信度为量化准则,挖掘在不同耕作方式、不同坡角、不同植被覆盖度因子条件下,这些单个因子与土壤侵蚀状况影响程度的重要性关系。然后对这些因子进行综合量化,以支持度和置信度为量化准则,建立综合因子与土壤侵蚀之间的关联分析,探讨综合因子与土壤侵蚀状况的重要性分析。最后,得到针对研究区各因子与坡面土壤侵蚀状况之间的重要性关系,为鄂西北地区坡面土壤侵蚀评价模型中参数的选择提供有力的理论依据。
图2 单因子对研究区土壤侵蚀程度的影响
图3 综合因子对研究区土壤侵蚀的影响
本实验不足之处:①该方法目前分析出耕作方式、坡度、植被等各因子与土壤侵蚀程度之间定性的关联关系,能否用定性的支持度百分比确定各因子与土壤侵蚀程度之间的定量关系,以便能够直接在今后的土壤侵蚀定量计算公式中得到应用尚待研究。②降雨、土壤因素和坡长等3个因素在研究区中也是影响坡面土壤侵蚀的关键因子之一,之所以没有将其列入上述实验中衡量土壤侵蚀重要性影响程度,是因为坡长数据在本次实验中不全面,土壤结构在各小区中基本一致。而降雨因素中土壤侵蚀与侵蚀雨量之间的联系十分密切,加入降雨因素进行关联规则分析,会整体降低其他因素的支持度。
[1]孙佳.紫色土土壤侵蚀评价指标体系研究[D].西南大学,2007.
[2]陈华,郭生练,柴晓玲,等.汉江丹江口以上流域降水特征及变化趋势分析[J].人民长江,2005(11).
[3]李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003.
[4][意]Paolo Giudici著,袁方,王煜,王丽娟,等译.实用数据挖掘[M].北京:电子工业出版社,2004.
[5]韩家炜,等.Web挖掘研究.计算机研究与发展[J],2001(4).
[6]水利部水土保持司.土壤侵蚀分类分级标准(SL 190—96)[S].1997.