主成分分析对决策树算法精度的影响
2019-01-16武君
武君
摘 要:本文使用风投企业风险识别案例,用四种决策树算法,对比了提取主成分前后算法精度的变化。结果表明,提取主要成分后,四种算法中只有C5.0算法的精度获得了提高,而其他三种算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分时的精度已高于其他三种算法,可见在风险识别案例中先提取主成分再使用C5.0算法后精度较其他三种算法高。
关键词:风险识别;主成分分析;决策树算法
0 引言
数据挖掘中比较热门的就是分类算法的研究,而决策树算法是分类算法中最重要的。常见的决策树算法有四种:CART、C5.0、CHAID和QUEST。每种算法针对不同的数据类型,精度也不同。如何提升算法的预测精度,是许多学者都尝试解决的问题。有些使用集成学习算法,如boosting,Bagging,如赵敏等(2007)[1]研究Adaboost算法在决策树中的应用,刘余霞等(2012)[2]使用Bagging集成学习研究字符识别,李诒靖等(2016)[3]使用boosting算法解决分类问题。有些将决策树和其他模型结合在一起,如顾雨等(2010)[4]、张俊深等(2016)[5],都是将多种方法用于分类和预测。另一种提高精度的方法是在数据分析前将主成分分析法引入,先提取主要成分,然后做决策树分析。本文基于创业企业风险识别数据,从实证方面研究主成分分析对决策树算法精度的影响。
1 理论基础
1.1 CART算法
CART算法即分类与回归树,它包含了分类树和回归树,分类树用于目标变量是分类型的,回归树用于目标变量是连续型的。CART的生长是二叉树,如果目标变量是分类型,则以Gini系数来确认分割点,如果目标变量是数值型,则以方差来确认分割点。
1.2 C5.0算法
C5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类型变量,使用C5.0算法可以生成决策树或者规则集。
1.3 CHAID算法
CHAID算法其核心思想是根据给定的目标变量和解释变量对样本进行最优分割。利用卡方自动交互检测法可以快速、有效地挖掘出主要影响因素,它不仅可以处理非线性和高度相关的数据,而且还可以将缺失值考虑在内。
1.4 QUEST算法
QUEST算法是二叉树算法。它通过将判别坐标分配给预测变量类别,将分类变量转换为连续变量,然后利用二次判别分析QDA来确定分割点。QUEST树算法的一个优点是它是无偏的,不像CART算法那样偏向于选择允许更多分裂的分裂变量以及缺失值更多的分裂变量。
2 实证分析
2.1 数据来源及描述
本文研究数据来自某风投公司提供的所投资创业企业数据。风险投资是风投公司为创业企业提供的投资服务,一段时期后,创业企业将面临成功或失败两种可能,风投企业进行的风险识别是将创业成功与否的离散变量作为因变量,企业创业因素作为自变量,进行决策树分析判断,进而研究创业成功与否的影响因素。
2.1.1 指标汇总
对风投公司提供的数据脱敏、预处理后,整理指标如下表。
2.1.2 基本描述
剔除缺失值、无效数据后,得样本总量209,正样本99,负样本110。
2.2 主成分提取
2.2.1 KMO检验
对数据计算KMO检验得到如下结果。
2.2.2 提取主成分
主要成分解释总方差表如下表。
根据结果提取数据10个主要成分,主要成分占原始信息的69.830%。
2.3 实证结果对比
首先对未提取主成分的原始数据分别做CART、C5.0、CHAID和QUEST的决策树运算,再对提取了主成分的数据进行上述四种决策树算法,其结果对比
如下。
分析结果可得:
第一,与未提取主成分相比,提取主成分后四种算法中,只有C5.0算法的精度获得了提高;而其他三种算法,提取主成分后的精度反而有所下降。
第二,从上述8个结果中可以看出,C5.0算法在未提取主成分时的精度已高于其他三种算法,可见在该案例中先提取主成分再使用C5.0算法后精度较其他三种算法高。
3 结论
本文使用风投企业投资成功与否案例,利用四种决策树算法,对比了提取主成分前后,算法精度的变化。结果表明,提取主要成分后,四种算法中只有C5.0算法的精度获得了提高,而其他三种算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分时的精度已高于其他三种算法,可见在该案例中先提取主成分再使用C5.0算法后精度较其他三种算法高。
参考文献:
[1]赵敏,陈恩红,宋睿.基于集成学习的Adaboost演化决策树算法[J].计算机应用与软件,2007(03):1-2+21.
[2]劉余霞,吕虹,胡涛,孙小虎.基于Bagging集成学习的字符识别方法[J].计算机工程与应用,2012,48(33):194-196+211.
[3]李诒靖,郭海湘,李亚楠,刘晓.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(01): 189-199.
[4]顾雨,徐广军,夏训峰,席北斗,周素霞.基于最优组合预测模型的中国工业固体废物产生量预测[J].环境污染与防治,2010,32(05): 89-91+109.
[5]张俊深,袁程炜.基于BP神经网络与修正GM(1,1)模型的能源消费组合预测[J].统计与决策,2016(05):90-93.
[6]刘敏,赵璟,薛伟贤.“一带一路”产能合作与发展中国家全球价值链地位提升[J].国际经贸探索,2018,34(08):49-62.