数据挖掘中的决策树分类
2017-03-09于笑笑
【摘要】数据挖掘技术混合了以往传统的数据分析处理方法和处理大量数据的复杂算法,为探寻和分析新的数据类型以及用新方法分析旧有数据类型开辟了宝贵的新天地。数据挖掘被广泛应用于商务、金融、软件、医学、科学与工程等领域。本文对数据挖掘进行介绍,同时对决策树的定义、思想、工作原理及其算法进行介绍。
【关键词】数据挖掘 决策树算法 分类技术 信息熵
一、引言
随着社会的发展和人类科技的进步,各行各业都需要数据信息的存在,现如今的数据时代已经不同于以往的数据时代,随着数据收集和数据存储技术的快速发展,各组织各机构各地方都可以收集到大量的数据信息。然而,提取有价值的信息目前已经成为一项有挑战性的工作。
二、数据挖掘
数据挖掘是在大量的数据存储库中,发现潜在的有价值的信息的过程。数据挖掘与其他好多学科如统计学、人工智能、知识发现、数据库等都有交叉。数据挖掘利用了来自统计学的抽样、估计和假设检验的思想,来自人工智能、模式识别和机器学习的建模技术、搜索算法和学习理论,还有一些来自于最优化、信息论、信息检索。
数据挖掘的产生与和发展是分析和理解数据的实際需求推动的,数据挖掘涉及到好多学科,数据挖掘从工、农、商业、医疗卫生的需求中取得动力,从统计学、人工智能、科技等领域的长期研究与发展中获得养分。我国国内对数据挖掘的研究比较晚,还没有形成整体力量,而国外早就开展了对数据挖掘的研究。
(一)数据挖掘的步骤
数据挖掘的跨行业标准过程强调完整的数据挖掘过程,分为六个步骤:
1.商业理解。本阶段的主要工作主要包括制定目标,确定范围,选择方案,项目预算,估算样本。了解并确认企业需求,针对不同的问题和需求,并将其转换成数据挖掘的问题。
2.数据理解。数据理解阶段包括建立数据库与分析数据。先收集数据,观察数据的含义和特性,并找出所有可能有用或有价值的数据信息。数据的获取依赖于众多因素:数据对象;已有数据库;数据结构;可用数据源;成本与效益。同时,数据的收集还要注意以下问题:数据越多产生的信息不一定越多,有些属性不是用户想象的那样高度关联;选取的属性越多可能导致建模的准备时间越长;选取的属性越多说明我们将需要更大容量的数据集或数据库来支持。
3.数据准备。数据准备阶段和数据理解阶段都是数据处理阶段的核心,这是进行数据挖掘的核心阶段建立模型前的最后一步数据准备工作。主要内容包括:建立元数据;检查数据质量;填补缺损数据;对数据进行变换。缺失值,不合理值,数据不一致,异常值是影响数据质量的几个主要问题。填补缺损数据可以通过查询原始数据,跟进法,直接平均法,间接平均法来填补。对数据进行预处理的任务要反复执行多次,其目的是让数据更适合数据挖掘技术的使用。
4.建立模型。建立模型阶段是关键性的一个阶段,对预处理过的数据应用各种数据挖掘技术,建立分析模型。对于同一个问题,可采用许多种分析技术,各种技术的要求也不相同。数据挖掘中常使用的模型有决策树,神经网络,贝叶斯分类器。数据挖掘的模型分为三大类:监督模型,无监督模型和数据维规约。属于监督模型的有神经网络、C5.0、CART、回归以及Logistic回归,这些模型都是属于预测模型。聚类分析和关联分析属于无监督模型。第三类数据维归约主要包括主成分分析法、因子分析法等。
5.模型评估。模型评估包括数据检验、准确性检验、方法比较、商业检验。数据挖掘过程能进入这个阶段时说明已经建立了被认为是高质量的模型,但在实际应用中,情况却不一定。还需注意是否还有重要的问题没有全面地考虑到或一些问题缺乏充分地考虑,导致使模型的预测精度发生显著变化。一般来说,常使用准确度来评估分类预测模型的情况,评估模型分类是否正确。显然,准确度越高则就说明模型越好。但事实上,这样评估出来的模型并不是最好的。这就是数据挖掘模型评估中常常存在的错误观念。
6.模型发布。模型发布需要区分用户普通用户、决策者;发布频率即席、定期;发布方式门户、报告、邮件;模型建立成功并经过评估验证后可以将建立的模型提供给专门的人员,由专门人员查看和研究这个模型,提出行动方案策略建议;也可以把模型应用到不同的未知分类情况的数据集上,并不停监测模型的使用效果,收集用户反馈的信息。
(二)数据挖掘的任务
描述和预测是数据挖掘的主要任务。描述性挖掘任务以简洁的方式描述数据,通常是探查性的,并且通常需要后处理技术验证和解释结果。预测性挖掘任务对当前数据进行分析,建立一个或一组模型,并利用所得结果预测新数据集的行为,即是根据原有已知其他属性的值来预测另一种特定属性的值。
三、决策树
决策树是用于分类和预测的主要技术,是能够被看成一棵树的预测模型,其本质是通过一系列规则对数据进行分类的过程。采用自顶向下的递归方式,树的每一个分支都是一个分类问题,树上的每个节点表示在一个属性上的测试,并且该节点的每个分支对应于该属性的一个可能值。在决策树的内部节点进行属性值之间的比较,并根据不同属性值来判断从此节点该如何向下分支,最终会在决策树的叶节点得到结论。决策树算法是目前应用最广泛的分类方法之一,以实例为基础的归纳学习算法,是一种逼近离散值函数的方法,对海量数据集进行分类十分有效。
(一)决策树的思想
决策树的思想就是对不确定性进行分类,应用决策树算法的一个最大的优点是其原理容易理解,只要训练事例能够用属性的方式表达出来,不需要使用者了解太多的背景知识。与其他分类方法相比,决策树方法有很多优点:计算量相对较小,效率较高,且容易转化成分类规则;所得到的分类规则准确性较高,可更好的进行预测,从而指导人们的决策;分类模型的结果是用树状结构表示的,简单直观,使用方便;决策树算法既可用于小数据集,也可用于大的海量数据集;既适用于连续数据,也适用于离散数据。
(二)决策树算法
最早的决策树算法是CLS。随后是ID3算法和C4.5算法,这两种决策树算法是最具有影响力的算法。后来,又出现了改进版C5.0算法。
1.ID3算法。ID3算法是Quinlan于1986年提出的,是机器学习中著名的一个算法,是国际上最早最有影响力的决策树方法。其在决策树的学习算法中第一次引入了信息论中的信息增益作为选择分裂属性的标准,即引入了信息论中信息熵的概念,通过计算根据各属性分割数据集前后的熵来计算信息增益,作为判断标准。ID3算法的优点在于构建决策树的速度快,ID3算法的不足是其前提假设条件为属性值是离散值,但有很多属性是连续的,不能找到一个合适确切的标准来对连续属性进行划分。该算法生成决策树分支的数量取决于属性值的个数多少,对于属性值取值较多情况的处理有一定的复杂度。
2.C4.5算法。C4.5算法继承了ID3算法的所有优点并对ID3算法进行了改进和补充,但两者核心思想相同。C4.5算法是基于信息论概念和思想的方法,以信息论为基础,利用信息熵和信息增益度作为衡量标准,实现对数据的归纳分类。C4.5可以将连续型的属性划分成离散型的属性,从而能够建立合适的决策树模型。C4.5算法与ID3算法不同的是采用信息增益率作为选择分裂数据集属性的标准,克服了ID3算法中利用信息增益选择分裂属性时的缺点。
3.CART算法。CART算法也称二叉递归分类树。与前面ID系列算法和C4.5算法不同在于使用的选择分裂属性度量标准是Gini系数指标。CART算法与C4.5算法的最大不同之处在于其在每个节点上都是使用二分法,一次只能有两个子节点,而C4.5算法在每个节点上可以产生不同数量的子节点。
四、总结
决策树C4.5算法虽然对ID3算法进行了改进,但也存在一些不足,如对连续性属性的处理比较耗时,计算速度慢等。因此,还需要不断地学习与改进。
决策树虽然应用广泛,但决策树也存在不足之处:对连续性的字段预测较难;当属性类别较多时,错误可能会增加得比较快;基于分类的决策树算法没有考虑噪声问题,但在实际应用过程中,可能存在缺失值或某些必须数据造成了数据的不完整;一般的算法分类的时候只是根据一个属性分类,不能保证全局的最优。
参考文献
[1]黄文. 决策树的经典算法[J].自然科学.2007.
[2]朱建平,张润楚.数据挖掘的发展及其特点[J].统计与决策,2002.
[3]毛国君,段立娟,王实.数据挖掘原理与算法[M].北京:清華大学出版社.2005.
[4]Quinlan J R.Induction of decision tree[J].Machine Learning1986.
[5]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程.2009.
作者简介:于笑笑(1995-),女,安徽亳州人,安徽大学经济学院硕士研究生,研究方向:经济统计。