粗糙集和决策树方法在土壤评价中的应用研究
2009-05-13马丽陈桂芬
马 丽 陈桂芬
【摘要】 应用粗糙集与决策树相结合的数据挖掘方法评价吉林省某地的土壤地力等级。研究数据共有161条记录,16个属性,使用粗糙集对土壤属性进行约简,去除了5个土壤冗余属性,得到属性约简集;使用决策树方法对土壤数据建立决策树模型,得到了土壤评价的决策树模型,并提取了分类规则。实验表明:将粗糙理论与决策树相结合的数据挖掘方法能去除冗余属性,同时保留了原始数据的内部特点,相对于单一使用决策树方法,决策树规模减小,规则集较精简,提高了分类的效率。
【关键词】 粗糙集 决策树 数据挖掘 土壤评价 地力等级
【Abstract】 In this paper, rough set and decision tree combination were used to evaluate the productivity grade of soil in somewhere of Jilin province. The research data had a total of 161 records and 16 attributes. The paper used rough set to reduce the soil attributes, removed 5 redundant attributes and obtained the attributes reduction set, then decision tree method was used to construct the decision tree model, after that classifying rules were withdrawn. The experiment indicates that the data mining methods that unify the rough set theory and the decision tree can remove redundant attributes and retain the internal features of the original data. Compared with the single—use decision tree method, the decision tree scale is smaller,the rule set is more streamlined and the mining efficiency is improved.
【Keywords】 rough setdecision treedata miningsoil evaluationproductivity grade
引言
土壤评价的影响因素较为复杂,传统的土壤评价方法需要领域专家的参与,有一定的主观性,而且较少考虑土壤各属性间的依赖关系,较难表达土壤性质和环境变量间的非线性关系。从数据挖掘的角度来看,土壤评价实质上属于分类预测问题。决策树方法是一种较好的分类方法,适宜处理非线性数据和描述数据,建立的树型结构直观,具有生成速度快,能得到简单易懂的分类规则等优点。决策树在土壤等级评定方面也有了一些应用,但决策树方法不考虑土壤属性之间的潜在关系,当数据集中的属性过多时,用决策树分类易出现结构性差,难以发现一些本来可以找到的、有用的规则信息等情况。粗糙集理论在处理大数据量,消除冗余信息等方面具有一定的优势,因此广泛应用于数据预处理、属性约简等方面。鉴于粗糙集和决策树具有很强的优势互补性,本文采用粗糙集与决策树相结合的方法评价土壤地力等级,即采用粗糙集方法对土地属性进行约减,得到低维训练数据,使用决策树方法构建决策树,产生分类规则集,形成评价地力等级的新方法。
1.数据挖掘方法设计
1.1粗糙集理论
粗糙集(Rough Set,RS)理论是新的处理模糊和不确定性知识的数学工具,其特点是不需要预先给定某些特征和属性的数量描述,而是直接从给定问题的描述出发,找出该问题的内在规律,其基本思想更接近现实情况。
粗糙集的基本思想是:称S=(U,A,{Va},a)为知识表示系统,其中,U为非空有限集,称为论域;A为非空有限集,称属性集合;Va为属性a∈A的值域;a:U→Va为一单映射。如果A由条件属性集合C和结论属性集合D组成,C,D满足C∪D=A,C∩D=Φ,则称S为决策系统。在一个决策系统中,各个条件属性之间往往存在着某些程度上的依赖或关联,约简可以理解为在不丢失信息的前提下,以最简单地描述表示决策系统的结论属性对条件属性的集合的依赖和关联。
可以利用C相对于D的任一约简来代替C,而不会对决策有任何影响,这就是粗糙集属性约简的原理。
1.2 决策树方法
决策树主要应用于对事物进行分类、预测以及数据的预处理等。构造决策树通常包括两个步骤:利用训练集生成决策树,再对决策树进行剪枝。决策树的生成是从一个根节点开始,从上到下的递归过程,通过不断的将样本分割成子集来构造决策树。
得到了完全生长的初始决策树后,为了除去噪声数据和孤立点引起的分枝异常,需要对决策树进行剪枝。决策树的剪枝通常是用叶结点代替一个或多个子树,然后选择出现概率最高的类作为该结点的类别。
1.3基于粗糙集的决策树模型
基于粗糙集和决策树结合的数据挖掘算法过程描述如下:不断地从条件属性C中取出相对于决策属性D较为重要的属性,使得决策属性D对其依赖度等于D对C的依赖度,得到属性约简集。然后,利用信息增益作为启发信息,选择能够最好地将样本分类的属性,创建一个分枝,并据此划分训练集,直到不存在可以再分割的属性,之后使用测试集对构建的决策树模型进行验证修正。
2.实验及结果分析
本文引用粗糙集理论和决策树方法,研究新的土壤评价方法,目的是对吉林省某地土壤等级进行分类预测,确定土壤的地力等级。该地地力等级划分为1,2,3,4,5,6共6个等级。研究数据包含15个条件属性和一个决策属性,共161条记录。粗糙集属性约简算法要求数据为离散数据,根据土壤数据特点,采用Equal Frequency Binning算法对数据进行离散化处理。将土壤数据的图上面积(m2) 、平差面积(mu)、 有机质、全氮、速效磷、速效钾、缓效钾、有效锌、有效硼、有效铜、有效铁、有效锰、有效钼、PH值、代换量15个属性作为条件属性输入粗糙集算法,形成条件属性集C,将地力等级作为决策属性D。使用粗糙集约简算法约简属性集C,得到约简属性集。得到的约简属性为有机质、全氮、速效磷、缓效钾、有效硼、有效铜、有效铁、有效锰、PH、代换量,共10个条件属性,共去除5个冗余属性。
利用粗糙集方法对条件属性进行约简之后,调入决策树程序,进行决策分类。在161条记录中,能正确分类的数据为137条,24条数据未正确分类,其中地力等级为1的数据共25条,全部正确分类,地力等级为2的数据18条,16条数据正确分类,地力等级为3的数据13条,10条数据正确分类,地力等级为4的数据63条,53条数据正确分类,地力等级为5的数据34条,29条数据正确分类,地力等级为6的数据8条,4条数据正确分类。
根据生成的决策树,可以提取出决策规则。提取出的部分决策规则如下:
if有机质 <= 2.964 and PH <= 6.5 and有效锰 <= 26.314 then 地力等级=3;
if有机质 <= 2.964 and PH <= 6.5 and有效锰> 26.314 then 地力等级=4;
if有机质 <= 2.964 and PH >6.5 and全氮 <= 0.1406 then 地力等级=3;
if有机质 <= 2.964 and PH >6.5 and全氮> 0.1406 then 地力等级=2;
if有机质 >2.964 and缓效钾 <= 713.31 then 地力等级=2;
if有机质 >2.964 and缓效钾 > 713.31 then 地力等级=1;
使用44条记录数据对得到的决策模型验证,正确率为85.3 %,模型预测结果较好。地力等级较低时,预测准确率较高,对于高地力等级的预测,还需进一步修正数据集和模型。
3.结语
数据挖掘中决策树方法适用于分类预测,在地力等级评价中已有应用。但是这种方法还有冗余属性存在,构造的树的规模较大,提取的规则较多。
本文提出了一种基于粗糙集和决策树结合的评价土壤等级的方法。先使用粗糙集进行属性约简,之后使用决策树进行土壤分类,得到评价规则进行地力等级评定,最后使用土壤数据进行算法验证。结果表明相对于单一使用决策树方法,使用粗糙集进行属性约简之后进行决策评价的方法,可以去除冗余属性,生产的决策树规模较小,提取的规则较少,分类精度较高,速度更快,提高了挖掘的效率。
从实验效果来看,模型评价的结果与实际情况基本符合,并且该模型可解释性较好,易于从中提取评价规则。运用决策树模型能够揭示该地区耕地质量状况,有利于提高对该区耕地的利用效益。该方法是土壤评价的有效方法。
【参考文献】
[1]黄健, 李会民, 张惠琳, 马兵, 孙宇新, 张国恩, 朱健菲. 基于GIS的吉林省县级耕地地力评价与评价指标体系的研究——以九台市为例[J]. 土壤通报, 2007,(03):422—426.
[2]薛正平,邓 华,杨星卫,等.基于决策树和图层叠置的精准农业产量图分析方法[J].农业工程学报,2006,22(8):140—144.
[3]PAWLAK Z, GRZYMALA—BUSSE J, SLOWINSKI R. Rough sets[M]. Communications of the ACM, 1995, 38(11):88—95)
[4]王玉珍.基于数据挖掘的决策树方法分析[J].电脑开发与应用,2007(05):64—66.
[5]田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004 (06):48—51.
[6]范洁,杨岳湘,温璞.C4.5算法在在线学习行为评估系统中的应用[J].计算机工程与设计,2006,27(6):946—948.
[7]ALEX BERSON, SETPHEN SMITH. Data Warehousing,DataMining & OLAP[M]. New York: Mcraw—HillBookCo.,1999:272—320.
马丽(1980—),女,吉林长春人,助教。研究方向:计算机农业应用。
陈桂芬(1956—),女,博士生导师,教授。研究方向:专家系统,精准农业。