APP下载

基于糊模ID3算法的高校学生流失数据挖掘研究

2014-04-29赵永晖

计算机时代 2014年3期
关键词:决策树数据挖掘

赵永晖

摘 要: 目前高校不断扩招,生源却逐渐减少,于是预防和减少学生流失正成为各高校必须面对的问题。通过对高校学生流失情况进行数据挖掘,可发现一些有价值的信息,为解决高校学生流失问题提供帮助。基于糊模理论提出了糊模ID3算法,并将该算法运用于分析高校学生流失原因之中。通过实验证明,该算法生成的决策树更加合理,分类速度更快,为解决高校学生流失问题提供了理论依据。

关键词: 学生流失; 数据挖掘; 糊模ID3算法; 决策树

中图分类号:TP311.1 文献标志码:A 文章编号:1006-8228(2014)03-36-02

0 引言

我国高等教育历经十多年的改革发展,各高校不断扩大招生规模,学校也越来越多,而参加高考的人数近年来却逐渐减少,所以生源竞争日趋激烈,生源质量也有所下降,同时,学生流失在当前各高校是一个十分普遍的现象,这些对高校的管理和教学是一个挑战,而如何预防和减少学生的流失则成为各高校需要迫切解决的问题[1]。

高校在发展的同时,也积累了大量的学生个人信息数据。在这些海量的数据中隐藏着一些内在的联系和规律,对分析研究高校学生流失的原因有很大的帮助。从海量数据中挖掘出有价值的信息,是预防和减少学生流失的一个重要手段。传统的统计分析方法,只能获取一些表面的信息,有很大的局限性,分析和预测的结果不够理想。

目前,以ID3算法为代表的决策树算法是数据挖掘中一种重要的方法,该算法是1986年由Quinlan提出的[2],但该算法对不精确、不确定信息的处理能力较弱。糊模ID3算法基于糊模理论提出对ID3算法的一种推广,综合了模糊理论和决策树的优点,不仅具有很强的分类处理能力,而且能很好地处理模糊性和不确定性问题[3]。

1 模糊决策树

1.1 ID3算法

决策树的算法中最典型的是ID3学习算法,它采用分治策略,通过递归构造决策树,在树的结点上采用信息增益最大的属性作为分枝属性,具有容易理解、处理速度快等优点。

1.2 糊模ID3算法

模糊决策树学习算法有很多,比较常见的是糊模ID3算法,它是模糊理论在ID3算法中的运用,主要用于处理模糊和不确定的信息。它也采用了分治策略,在构造模糊决策树时,选取最小模糊信息熵作为节点属性选择标准。

设有经过模糊后的示例集合V={V1,V2,…,Vn},模糊特征属性A={A1,A2,…,Am},模糊类属性C={C1,C2,…,Cj},每个属性Ai的属性值K(Ai)={ai1,ai2,…,aiki}(i=1,2,…,m),隶属度umn表示第m个示例Vm关于第n个属性的值,它是K(Am)上的模糊子集。

对于数据集V的信息增益G(Ai,V)的计算公式如下:

公式⑴

其中,,j为分类个数,。

构建模糊决策树过程如下:选取一个结点中的任一个属性值Ai,根据公式⑴计算出每个属性Ai对于数据集V的信息增益G(Ai,V),从所有属性值中选取最大信息增益的属性作为测试属性,根据这个属性进行模糊分割,得到其他节点,并依次判别是否叶子节点,重复以上的过程,直到每一个结点都是叶子为止。

叶子节点产生的条件:①测试属性全部用完;②当前节点的模糊分割的隶属度之和小于给定的阈值α;③当前节点中仅包含一类的示例。

2 利用模糊决策树分析学生流失

各高校都有学生信息管理系统,积累了大量的学生考试成绩数据和其他学生基本情况信息,这为数据挖掘提供了基础条件。通过把糊模决策树算法运用于学生信息数据库中,利用数据挖掘技术,挖掘出有价值的信息,以供分析学生流失的原因。

2.1 数据模糊化处理

分析学生流失的原因,势必要讨论评测学生的各项指标,如学生专业课考试成绩、大学英语、技能水平和性别等。其中专业课考试成绩、大学英语是百分制数据,比较特殊,是离散型数据。

在以往的数据挖掘过程中,离散型数据划分成若干个区间,得到一个符号类属性,但在临界处会突变,从而增加误差。如规定大学英语成绩在90到100之间为优,若甲学生的成绩为90分,评价为优,而乙同学成绩为89分,评价为良,其实两个同学成绩非常接近,英语水平相差无几,现强行区分成两个等级,很明显增加了误差。这是采用决策树ID3算法的一个缺点,所以对于模糊数据,采用糊糊决策树算法是比较科学。

本文的原始数据是我校2006级到2010级学生的成绩和相关一些基本情况信息,主要包括学生的姓名、性别、身份证号、地址、民族、籍贯、各门功课的成绩、技能成绩等。收集数据后,把各门功课的成绩求出平均值作为学生的专业课成绩,抽取了一部分作为训练集,同时根据分析学生流失原因的需要,去掉了学生的民族、籍贯和地址等一些与流失不太相关的属性,并对数据进行了模糊化处理,处理后得到数据如表1所示。

表1 模糊处理后的训练集(学生信息表)

[编号\&性别\&专业成绩\&专业技能\&文理科\&是否流失\&男\&女\&优\&良\&中\&差\&强\&中\&弱\&文\&理\&是\&否\&1\&0\&0\&0.7\&0.2\&0.1\&0\&0.1\&0.6\&0.3\&0\&1\&0\&1\&2\&1\&0\&0.1\&0.7\&0.2\&0.1\&0.7\&0.1\&0.2\&1\&0\&0\&1\&3\&1\&0\&0.8\&0.1\&0.1\&0\&0.3\&0.6\&0.1\&1\&0\&0\&1\&4\&0\&1\&0.8\&0.1\&0\&0.1\&0.1\&0.2\&0.7\&0\&1\&0\&1\&5\&1\&0\&0.5\&0.2\&0.1\&0.2\&0.2\&0.3\&0.5\&0\&1\&1\&0\&6\&0\&1\&0.7\&0.2\&0.1\&0\&0.1\&0.3\&0.6\&0\&1\&0\&1\&7\&1\&1\&0.6\&0.2\&0.1\&0.1\&0.5\&0.3\&0.2\&0\&1\&0\&1\&8\&0\&1\&0.6\&0.2\&0.1\&0.1\&0.8\&0.1\&0.1\&1\&0\&0\&1\&9\&1\&0\&0.1\&0.2\&0.6\&0.1\&0.4\&0.1\&0.5\&0\&1\&1\&0\&……\&90\&1\&0\&0.8\&0.2\&0\&0\&1\&0\&0\&0\&1\&1\&0\&]

2.2 构造模糊决策树

采用1.2节介绍的构建模糊决策树过程构造模糊决策树,阈值α=0.7。由于计算过程比较复杂,在这里不详细叙述,仅给出糊模ID3算法生成的部分模糊决策树,如图1所示。

[D\&专业成绩\&][D∩优\&0.89\&][D∩良\&专业技能\&][D∩中\&0.34\&][D∩差\&0.27\&] [优][良][中] [差][0.72\&][0.90\&][0.46\&] [强][中][弱]

图1 部分模糊决策树

2.3 决策推理

一个严格决策树可以转变成一个规则集合[4]。模糊决策树与ID3决策树一样可以转变成相应的模糊规则。从根节点开始,沿着决策树的分支,通过属性值向下搜索到叶节点,即为一个规则。输入一个样本,依次从根节点到叶节点的顺序进行决策,由于模糊决策树中的样本可能同时被划分到多个叶节点上,因此结果为[0 1]之间的隶属度。

在本例中,根据模糊决策树转换得到的一组模糊规则挖掘到一些有价值的信息。

专业成绩优秀学生流失可能性小,这是因为专业成绩优秀的学生学习兴趣高,自信心足,学习目标明确。专业技能强但专业成绩良的学生也不太会流失,主要原因是这类学生动手能力强,学习技能热情高,就业前景好。专业成绩中等,专业技能一般的学生流失与不流失概率差不多,因此这部分学生是最需要关注的,要及时指导他们的学习,培养其学习兴趣,加强沟通,了解原因,防止学生流失。专业成绩和技能都比较差的学生流失可能性最大,主要原因是对专业不感兴趣,学习动力不足,基础较差等。

2.4 实验结果比较与分析

为了验证本文提出的模糊决策树算法的有效性,针对表1中模糊处理后的高校学生流失数据信息,分别采有ID3算法和糊模ID3算法进行了分析,结果如表2所示。其实验环境如下:Intel Core(TM2) Duo CPU 1.83GHz,2G内存,Windows Vista,Matlab7.0[5]。

表2 实验结果

[算法名称\&训练精度\&测试精度\&运行时间/s\&ID3算法\&0.86%\&0.72\&9.7\&糊模ID3算法\&0.84%\&0.79\&7.6\&]

实验结果表明,在测试精度和运行时间两个方面糊模ID3算法比ID3算法更优。由于ID3算法与训练数据过度适应,ID3算法比糊模ID3算法的训练精度更高。在各种现象中,往往存在着许多事物,不能简单划分到某一个区间,存在着不确定性,而糊模ID3算法能很好地体现不确性。ID3算法由于生成规则是明确的,没有反映出不确定性,所以糊模ID3算法具有较强的分类能力及稳健性,规则以一定的隶属度表示,知识的表示更为自然,更加容易理解。

3 结束语

为了解决ID3算法对不精确、不确定信息的处理能力较弱的问题,基于糊模理论提出了糊模ID3算法,并将算法应用于高校学生流失原因分析和预测,并利用我校的学生信息数据进行了实验。实验结果表明,糊模ID3算法用于高校学生流失原因分析中,生成的决策树更加合理,精度和速度更优,知识的表示更为自然,更容易理解。这些优势能很好地为高校管理提供准确的学生流失信息,为预防和减少学生流失提供了强而有力的理论依据。

参考文献:

[1] 杨清波.高校学生流失问题分析及对策[J].科学咨询(科技·管理),

2012.10:12-13

[2] Quinkm J R.Induction of decision tree[J]. Machine Learning,

1986.1(1):81-106

[3] 杨断利,张锐,王文显.基于模糊决策树的高校就业数据挖掘研究[J].

河北农业大学学报,2012.35(2):111-113

[4] 张朝杰.一种基于模糊决策树的软件工作量估算方法[D].国防科学技

术大学,2010:21-22

[5] 张化光,刘鑫蕊,孙秋野.MATLIB/SIMULINK实用教程[M].人民邮电

出版社,2009.

猜你喜欢

决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用