APP下载

基于数据挖掘的高职高专生源分析系统设计与实现

2011-09-19李云松罗斌

滁州职业技术学院学报 2011年1期
关键词:决策树生源数据挖掘

李云松,罗斌

(安徽大学计算机科学与技术学院,安徽合肥230039;滁州职业技术学院,安徽滁州239000)

基于数据挖掘的高职高专生源分析系统设计与实现

李云松,罗斌

(安徽大学计算机科学与技术学院,安徽合肥230039;滁州职业技术学院,安徽滁州239000)

本文根据目前高职高专院校存在的具体情况,将数据挖掘技术引入招生领域,分析了数据挖掘的各种方法,采用决策树的分类方法,对历年的生源数据进行挖掘,对生源数据的性别、成绩、所属类别、特长爱好、地区家庭收入水平等因素进行分析,找出学生所填报专业和其本身属性之间的关系,从而为高职高专院校的招生部门提供决策支持信息,使其更好地开展招生宣传工作。

数据挖掘;高职高专;生源;专业方向;决策树

一、引言

从近几年公布的数据来看,高职高专教育已成为高等教育中的半壁江山,而就安徽省而言更是如此。2010年安徽省省属普通高等教育招生计划安排296860人,其中普通本科计划133490人,高职(专科)计划183950人。但目前对全省的近70所高职高专而言,每所院校的平均学生人数并不多。高职高专院校对生源的争夺已是不争的事实,加之省外部分高职院校和民办职业教育的加入及部分考生选择复读或其他途径就业等情况使得生源状况更为紧张。

本文采用数据挖掘的方法,从近几年入学的学生学籍数据中找出规律性的知识。为学生提供报考专业方向的指导,为招生宣传决策提供依据,从而更好地服务于高职高专类院校的招生工作。

二、数据挖掘技术简介

(一)数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。在这个定义中包含了3层含义:首先,数据源必须是真实的、大量的、含噪声的;其次,发现的是用户感兴趣的知识;最后,发现的知识要可接受、可理解、可运用。

数据挖掘是一个多个步骤组成的复杂过程,一般意义上我们可以把它分成3个阶段:数据准备;挖掘操作(模样发现);知识表示和模式评估。数据挖掘得到的知识是相对的,有特定前提和约束条件,是面向特定领域的。由此也要求数据挖掘的结果必须是易于理解的,最好能用自然语言来表达。如图1所示。

图1 数据挖掘的一般过程

数据挖掘技术按其功能可分为概念描述、关联规则、分类、聚类和时序分析等。对于不同的数据挖掘目标,用户期望不同的数据模样,从而会采用不同的数据挖掘方法。

(二)选择决策树算法的原因

决策树是一种类似于流程图的树结构;其中,每个非叶节点表示一个属性上的测试,每个分枝代表一个测试输出,而每个叶节点存放一个类标号。树的最顶层节点是根节点。每一条从根节点到叶节点的路径就是一条规则。规则以if-then方式给出,用户可以很容易理解。决策树归纳的学习和分类步骤是简单和快速的。生源分析系统是一个实际应用的系统,执行的效率是一个比较重要的指标,所以学生生源分析系统选择决策树算法。

三、生源分析系统分析

(一)生源分析系统模型

生源分析系统提供数据清理与决策树的生成。决策树的生成用于从训练数据生成决策树模型以及规则集。整个系统的结构如图2所示。

图2 系统结构图

(二)数据挖掘模型

生源分析系统数据挖掘模型包括数据集和对数据集的操作两部分,表示为:{DataSet,OP1,OP2,OP3,OP4}。

其中DataSet是训练数据集,用来存储生源分析系统的业务数据以及数据字典,即{性别,考生特长,考生奖惩,考生类别,成绩,专业};OP1,OP2,OP3,OP4表示对DataSet的操作。其含义分别为: OP1:数据清理与转换,OP2:决策树建立,OP3:连续属性处理,OP4:决策树显示。

(三)对算法的改进

ID3决策树算法一般要求在数据十分理想的情况下进行的,而实际应用中的数据集在多数情况下不能满足算法所要求的条件。因此,应用中这些数据集不能直接应用于决策树算法,而应该在对算法使用的数据进行应用之前做以下几个方面进行改进。

1.属性的选择

本系统在实际应用中通过先期的计算将学生入学信息中对分类影响较小的属性进行了清理,如去除学生的姓名、出生日期、身份证号码等属性。

2.连续型属性的处理

本系统在实际处理时,把成绩属性划分为3个属性值:良好(400及以上)、较好(350-399)、一般(349及以下)。通过离散化数据提高了产生决策树的效率。

3.缺失值情况的处理

一般情况下,训练数据集中总是存在着缺失值的情况。对于缺失值的处理方法有以下几种:一是将缺失值看作属性的一种可能的取值。如果缺失值在训练数据集中大量存在的话,这种处理方法很恰当;二是将训练集中出现缺失值的实例都忽略掉的方法。这种方法简单,但是可能会导致出现一些规则的损失。

四、高职高专生源分析系统实现

以微软Visual Studio 2005和SQL Server 2005作为开发平台,实现了生源分析系统的设计。系统的使用过程如图3所示。

图3 生源分析系统操作流程

(一)数据集的清理与转换实现

生源分析系统的原始的数据来自学院的每年录取的考生数据表,它是一张微软Execl电子表格。其中包括所录取学生的基本信息。对于数据的清理与转换主要有以下几点工作:1.去除无关数据;2.将不可分类统计的信息进行规范化;3.数据转换。

(二)建立决策树

本文中决策树的建立是基于ID3算法实现的。其中关键的步骤是信息增益的计算。在属性列表中找出“最好的分类属性”的过程就是计算信息增益的过程。它的算法描述如下:

(1)计算每个分类属性的期望信息Info(D);

(2)计算每个分类属性的期望信息需求InfoA (D);

(3)计算每个分类属性的信息增益Gain(A)= Info(D)-InfoA(D);

(4)根据步骤(3)得到的每个分类的信息增益,找出信息增益最大的分类属性,即是我们要找的“最好的分类属性”。

(三)决策树的显示

决策树的显示是一个将决策树中的每一个节点输出到richTextBox中的过程。根据树的遍历方式不同而有不同的方法,主要有先序遍历、中序遍历和后序遍历方法,本文采用了先序遍历的方式。如图4所示

图4 生成的决策树

树的输出是一个递归的过程,首先判断树是否为空,空树不输出退出树的输出;如果树非空,则将根节点输出,再对根节点的每个孩子节点进行同样的操作。

(四)规则推导

决策树的规则是以if-then形式表示的。产生规则的方法是:首先为每个叶节点产生一个规则,然后把从该叶节点到根节点路径上的所有条件合并,这样就产生了一条规则[2]。其中,从根节点到某个叶节点前的路径上的条件用逻辑“and”进行连接形成一条规则的if部分,叶节点包含类预测,形成规则then部分。

本文中可以根据生成的决策树直观地给出规则。如图4所示的决策树可推导如下规则。

(1)如果学生的成绩好、类别是理科且受到过奖励,则学生报考的专业方向为信息工程类;

(2)如果学生的成绩高、类别是理科且受到过奖励,则学生报考的专业方向为机电工程类;

(3)如果学生受过奖励且类别是文科,则学生报考的专业方向为经济贸易类;

(4)如果学生没有受过奖励,则学生报考的专业方向为经济贸易类。

(五)运行结果分析

从本系统运行的结果来看,决策树生成和准确率存在一些问题,问题的产生经分析有以下几方面的成因:

(1)算法本身问题。本文所设计的算法程序在决策树的剪枝方面所做的工作较少,可能导致生成的决策树不准确;

(2)测试数据集问题。诚然本文所用测试数据集为学院近几年招生的真实数据的一部分,但几年来由于社会总的环境与就业压力等因素,可能造成了一些报考取向上的一些“噪声数据”。比如:总体上文科类学生占总量的比例多;就业方便的热门专业(土木工程、机电工程等)方向上报考学生多等。

五、总结

高职高专生源分析系统的系统设计与功能已设计完成,但它还有一些不尽如人意的地方,对它还可以进一步地修改与完善。如进一步完善生源分析系统的模型设计。以便在工程实践中补充更多的可能影响学生报考专业的因素。如已入学学生的学习状况、学生家庭所在地的经济发展水平等。从而完善、改进系统的可信度。

数据挖掘技术本身经过近几十年来的发展已在社会经济多个领域内有所建树,但数据挖掘应用仍然可以用“雷声大,雨点小”来形容,它的市场还相对较小。多数的应用集中于金融、保险、电信等等大型企业中。对大多数的应用程序设计和开发人员而言,数据挖掘看上去是复杂且不易理解的。所以数据挖掘技术如果要成为一种为广大用户理解并掌握的工具还需要解决许多问题,如模型、算法和开发工具等。

[1]屈志毅,周海波.决策树算法的一种改进算法[J].计算机应用,2008,(28):141~143.Improvedalgorithmbasedon decision tree.

[2]韩慧,毛锋,王文渊.数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004,(12):48-50.

G717

A

1671-5993(2011)01-0012-03

2011-03-15

李云松(1973-),男,安徽省全椒县人,滁州职业技术学院讲师,安徽大学在职硕士研究生在读。

罗斌(1963-),男,安徽合肥人,安徽大学计算机科学与技术学院教授。

猜你喜欢

决策树生源数据挖掘
新形势下提升传统本科专业生源质量的思考和认识
探讨人工智能与数据挖掘发展趋势
农村生源不是“摇钱树”
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
图表
基于决策树的出租车乘客出行目的识别
陕北红色学校与国民党在西安的生源争夺战
一种基于Hadoop的大数据挖掘云服务及应用