APP下载

浅析数据挖掘中决策树算法的分析与应用

2018-12-08刘文妍付叶蔷

新商务周刊 2018年12期
关键词:连续型剪枝决策树

文/刘文妍 付叶蔷



浅析数据挖掘中决策树算法的分析与应用

文/刘文妍 付叶蔷

河南大学

数据挖掘近几年来发展十分迅速,数据挖掘采用的一个重要的方法就是机器学习,就是经过程序积累经验。机器学习是计算机学与统计学的一个交叉学科,现在好多的数据挖掘作业都需要借助机器学习的算法来完成。随着数据挖掘近几年来应用的广泛程度加大,产生了大量不同类型各种各样的基本数据挖掘算法。在此文章中,首先简析一下数据挖掘中的决策树算法的概念,特性,以及它的软件实现,其次,再分析一下决策树算法的有关应用。

数据挖掘;决策树算法;分析与应用

1 基本概念

1.1 决策树算法的基本思想

决策树算法是数据挖掘算法中的一类用于处理分类问题的基本算法。决策树是一种基本的分类与回归方法。从名字上就可以看出,决策树其实就是一个树形结构。每个分支代表一个值范围内的此特征属性的输出,每个页面节点存储一个类型。使用决策树的基本过程就是从根节点开始,测试要分类的项目中的相应特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点寄存的类别作为决策结果。决策树的生成算法有很多的变形,如:ID3算法,C4.5算法,随机森林算法和CART算法。

2 算法特性

2.1 决策树剪枝

在决策树的生成过程中,会出现一些影响分枝的一些因素如数据异常以及噪音等。这时,我们就可以通过适当的剪去某一些节点来对这种数据的适应问题作出处理。修剪决策树一般有两种策略,先剪枝和后剪枝。望文生义,第一种先剪枝的策略,就是在决策树的生成过程中,在每一个节点通过某种选择策略选择某个属性划分数据集,我们计算在划分后决策树的测试误差是否有提升来决定当前节点是否需要划分其子节点。第二种后剪枝的策略,它就是在生成出一棵完整的决策树之后,再去剪枝的方法,通过删除分枝,剪除节点,来实现剪枝操作。

2.2 连续型属性

决策树算法一般都是用来处理离散型的数据的,对于处理连续型的数据,其困难程度就加大了。但是它能够处理连续型的属性,首先它将连续型属性离散化,在最大最小值之间设置多个分割点,将连续型的数据分割成不同的取值区间。

2.3 缺失值处理

如果待分类样本中存在缺失变量,而决策树决策过程中没有用到这些变量,那么这个决策过程和没有缺失的变量的决策过程一样,并不造成影响;相反的,若是存在缺失变量,则可以采取三种方式进行处理:采用抛弃缺失值,补充缺失值,该绿化缺失值。

2.4 规则集诱导

其实一棵决策树就是很多规则的集合,每个规则对应着决策树上一条从根节点到叶子节点的路径。现将现有的数据分为几个类别,然后依据决策树建立规则集,对每一条规则执行一个搜索看看是否存在一些决策条件可以被去除。

3 决策树算法的一些应用

决策树算法作为数据挖掘中的一类重要算法,它具有着理解和解释起来简单,执行效果好以及执行效率高的特点,从而使它在生活中具有了很大的应用价值。

3.1 决策树算法在股票领域的应用

选股问题其实就是分析与分类问题,往往人们在选取一只股票时,都会去搜集大量数据进行分析,用以判别这只股票的优劣,是否值得购入。在对股票进行分析选择时,我们往往会选择数据挖掘算法中的决策树算法。究其本质,选股本质是分类问题,选取一只股票要考虑的因素有很多,影响股票价格大因素都应该被考虑到,我们可以加每一个影响因子作为一个指标,这样就会产生一个多维的指标体系,从大量各种类别的股票中选择一只合适的股票,从根本上就被归结为统计分析问题,即可采取决策树算法进行分析。

3.2 决策树算法在统计毕业生就业信息中的应用

随着我国教育的逐渐遍及以及高校招生规模的不断扩大,我国高校的毕业生人数也在逐年的快速增加,随之而来的就业难的问题也逐渐显现。对以往的高校毕业生的就业数据进行整合分析,就可以得到重要的数据,从而为还未毕业的毕业生提供就业的科学指导。大学生的就业,其实就是毕业生与企业之间的一个双向选择问题,影响这一选择结果的因素有很多,比如英语水平,计算机水平和综合能力等。通过对决策树中属性取值的分析,在得到决策影响程度值的基础上,从决策树中获得属性的取值的“成功就业”与“未成功就业人数”。

3.3 决策树算法在犯罪预测中的应用

犯罪是公安治安问题中一直待解决的问题,其中有一个重要的观念就是关注罪犯本身要比关注犯罪有意义的多。犯罪预测是降低犯罪率的有效方法手段,对重点人员进行犯罪预测就成为了新时代警局部门要探索的一项新的难题。在这一新的任务中,数据挖掘就起到了很大的应用。具体应用过程就是通过采集犯案案子中对犯罪人的细致剖析(如年龄,性别,出生地等) ,得到一些有关犯罪人的真实的特征,从得到的这些特征中预判出引发犯罪的动机特征,如犯罪人的家庭是否存在离婚,家庭中是否存在暴力,个性是否存在精神缺陷等,将这些特征映射到分类器中形成随机森林的每一棵树,得出用于判断重点人员犯罪倾向的结果。

4 结语

数据挖掘这门技术,是计算机科学与统计学相结合的一门科学,它旨在通过一定的技术手段来获取数据之间内在的联系,进而找出一些数据规律,预测出未来的趋势走向,从而挖掘出有用的信息。数据挖掘中的决策树模型常常用以解决分类和回归的问题。因为它的特性使它在现实生活中有着比较高的应用价值。决策树算法仅仅只是数据挖掘领域里的冰山一角,数据挖掘又是当前的大数据分析领域的一大热点,尚且还有许多值得我们去学习和探究的地方。

[1]巩固,张虹. 决策树算法中属性缺失值的研究[J]. 计算机应用与软件,2008,(09):242-244. [2017-08-03]

[2]曹正凤.随机森林算法优化研究[D].首都经济贸易大学,2014.

[3]方亮.决策树算法在高校毕业生就业分析中的应用研究[D]. 湖南大学,2013. DOI:10.7666/d.Y2522827.

[4]孙菲菲,曹卓,肖晓雷.基于随机森林的分类器在犯罪预测中 的应用研究[J].情报杂志,2014,(10):148-152. DOI:10.3969/j.issn.1002 -1965.2014.10.025

刘文妍(1996.7-),女,汉族,河南巩义人河南大学软件学院2015级本科生,研究方向:软件工程。

付叶蔷

猜你喜欢

连续型剪枝决策树
人到晚年宜“剪枝”
思维建模在连续型随机变量中的应用
基于YOLOv4-Tiny模型剪枝算法
信息时代基于决策树对大学生情绪的分类
基于激活-熵的分层迭代剪枝策略的CNN模型压缩
简述一种基于C4.5的随机决策树集成分类算法设计
两个独立随机变量和的分布求解方法
连续型美式分期付款看跌期权
连续型广义乘法定理的辨析教学
剪枝