APP下载

决策树算法在高校就业中的应用

2014-07-24刘振

电脑知识与技术 2014年15期
关键词:数据挖掘

刘振

摘要:介绍了决策树ID3算法的基本原理和实现算法,针对部分学生就业数据,按照一定的流程和步骤,完整地实现了数据挖掘的全过程,建立了就业决策树模型,提取了分类规则,得出了有意义的结论,为促进高校毕业生就业提供了有价值的决策依据。

关键词:数据挖掘;决策树算法;ID3算法;分类规则;高校就业

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)15-3680-04

Application of Decision Tree Algorithm in University Employment

LIU Zhen

(School of Information Technology and Engineering, Tianjin University of Technology and Education, Tianjin 300222, China)

Abstract: Introduce the basic principle and algorithm of ID3, for part of our students employment data, according to certain processes and procedures, fully realize the whole process of data mining, establish a employment decision tree model, extract classification rules, draw meaningful conclusions, provide a valuable basis for decision making to promote employment of university graduates.

Key words: data mining; decision tree algorithm; ID3 algorithm; classification rules; university employment

1 概述

目前数据挖掘技术已成为一个新的研究领域,是机器学习、数据库、人工智能等多学科的相互交融与的产物。数据挖掘技术能够从海量的、无序的数据中提取有价值的信息和知识,已经被广泛地应用到各个领域。2013年高校毕业生达到699万,而2014年将达到创纪录的727万,净增长量多达28万,就业压力继续增大。怎样改革毕业生就业制度,改进学校的就业指导工作,促成毕业生顺利就业、搞好就业这项惠及民生的重大工程已经成为一个事关多方利益的突出问题。该文借助我校部分毕业生就业信息,运用决策树算法进行挖掘数据,探讨其与就业的内在联系,剖析制约毕业生就业的因素,从而为就业指导提供决策参考。

2 ID3算法

ID3算法[1]是最普遍的创建决策树的算法,基本思想:用信息增益衡量决策属性分类能力,选择决策节点属性。它拥有简单直观[2]、运算快捷、适用范围广等特点,影响较大。

2.1 ID3算法的决策属性选择方法

在ID3算法中,选择拥有最大信息增益的决策属性[3]作为当前节点,确保决策树分枝数目最少,从而冗余最小。计算方法如下[4]:

总共可以生成49条规则。限于篇幅,不再赘述。

4.2相关结论

从提取的规则得到部分结论如下:

观察决策树发现,专业是决策树的根节点,是最具分类能力的,是最为关键的因素,其次为生源地、政治面貌和学制,它们都是影响和制约大学生就业的因素,只有综合考虑,才能提高就业率。现在重点讨论教育技术学和计算机应用技术专业的情况。

通常地,不管生源地是华北、华东、西北中的哪个地区,教育技术学专业的毕业生都能就业,比来自东北、西南、华中的毕业生的要好就业。这从侧面反映了教育不公平,教育资源的配置不均衡,教育的区域差距比较巨大。西南、华中、东北地区的教育质量较其他地区低下,缺乏教育竞争力,与华北、华东等地区的差距明显较大。因此国家政策需要进一步向西南、华中等地区倾斜,加大教育投入,支持教育基础设施建设,积极利用信息化手段,优化教育资源资源配置,促进教育公平,扩大优质教育资源覆盖面,逐步缩小教育的区域差距。

总体而言,计算机应用技术专业毕业生比较容易找到工作,这或许与社会对其人才需求量大有关系。随着知识经济的高速发展和信息化的逐渐普及,社会对应用型技術人才的需求比较旺盛,高素质劳动者和技能型人才比较短缺,因此有条件的高校需要加快职业教育体系建设,把生产和教育进行有效融合,推动高校和企业的合作,努力提高他们的动手动脑能力,培养大批适应社会发展的高素质劳动者和技能型人才是当务之急。

5 结束语

本文从高校毕业生就业数据出发,详细执行ID3算法实现过程,创建了毕业生就业分析决策树模型,提取了分类规则,对指导就业工作有着一定的意义。该文只是利用决策树方法来进行数据挖掘,未将其与神经网络、遗传算法等技术相结合,今后考虑进行交叉研究。

参考文献:

[1] Quinlan J R.Induction of Decision Trees[J].Machine Learning,1986,1(1):81-106.

[2] 韩慧,毛锋,王文渊.数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004,21(12):5-8.

[3] 黄爱辉,陈湘涛.决策树ID3 算法的改进[J].计算机工程与科学,2009,31(6):109-111.

[4] 武森,高学东,M.巴斯蒂安.数据挖掘与数据仓库[M].北京:冶金工业出版社,2003:148-276.

[5] 李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003.

猜你喜欢

数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议