基于Python的决策树算法在学生招生录取数据中的应用研究

2018-01-04黄雪华

电脑知识与技术 2018年29期

摘要：分类算法是数据挖掘技术中非常重要的一个研究领域，预测离散数据的分类标号。主要应用于客户分类、垃圾邮件处理、信用卡分级等。该文主要研究分类中的决策树算法，并应用于我校学生招生录取数据，采用Python语言建立分类模型，并验证了该模型的准确率。

关键词：决策树；Python；招生数据

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）29-0016-02

1 决策树理论介绍

决策树算法是一种典型的分类算法，它的分类过程是基于样本数据建立一棵倒立的树的过程。从树的根节点到叶节点的路径实际就是决策的过程，确定数据样本所属类标号的过程，它是一个递归地从上到下确定分支节点和叶节点的过程﹒叶节点存放的是数据样本所属的类标号；分支节点根据数据样本的某个合适的属性值进行数据集划分[1]。

2数据介绍

数据集为湖南城市学院从2013年到2016年的招生数据，部分数据如图1所示，包括考生的考生号、姓名、性别、录取专业、文化成绩、投档成绩、省份。根据考生的性别、录取专业、文化成绩、投档成绩来预测考生所来自的省份。

根据各个分类算法及数据集本身的特点，采用决策树算法建立分类模型。

3 建立分类模型

建立挖掘模型首先要对数据进行预处理，数据预处理主要包括数据清洗、数据集成、数据转换、属性选择几个步骤。

3.1数据清洗

3.1.1缺失值的处理

缺失值的處理方法主要由三种，包括删除缺失值记录；数据插补；有些模型允许出现一定量的空缺值，可以不处理。

确定文件中是否有缺失值以及缺失值的属性和缺失率的个数和缺失率。

通过以上代码判断是否存在缺失值。

3.1.2异常值的处理

异常值的处理主要包含有，删除含有异常值得记录；与缺失值一样的处理方法；平均值修正；不处理。