高职院校就业信息平台中决策树应用研究
2016-12-07黄荣喜
【摘 要】本文利用C4.5决策树算法构造就业决策树,对已毕业学生按计算机能力、英语等级、综合成绩、政治面貌、性格取向等决策属性进行相应分类,并分析其对毕业生的就业类别和方向的影响,从而在提高就业率、就业层次、改进现行培养机制等方面为管理人员提供决策支持。
【关键词】高职院校 就业信息平台 决策树 就业方向 就业决策
【中图分类号】G 【文献标识码】A
【文章编号】0450-9889(2016)10C-0179-03
随着高职院校毕业生人数的增多,就业工作及就业方向指导越发沉重,研究开发就业信息管理平台非常必要。在平台开发中引入决策树这一方法来分析研究,有利于明晰高职院校毕业生的就业方向、增强高职院校毕业生的就业水平。
决策树主要就是将大量的数据进行相应的分类。这些分类中的数据将是研究中给定的数据,通过数据的研究跟预测中的数据对比分析,找出其存在的规律属性,并从中找到潜在的、有价值的信息,并利用这些数据对工作上的问题做出指导。决策树方法主要应用的是(CLS)方法,经过研究摸索后来演化为ID3方法,最后经过多方的研究、努力,演化成了总所周知的C4.5算法,该算法也是本文中应用的一种算法。决策树技术主要是把相关的问题分解化,把复杂的问题简单化,从一些杂乱的数据中找出一些有规律的数据,并进行对比分类,产生出研究中所需要的结果,并根据相应的结果分析,指导现实中的工作,提高工作效率,强化学习能力。在数据的分析中,得出一些与就业相关的一些基本属性,如毕业生的综合成绩、英语等级、计算机能力以及高考成绩等,并通过对这些属性的分析来判断、预测其毕业后的就业方向与发展趋势。因此,本文设计决策树模型,通过对已工作的毕业生进行相应的分析,得出其实际有效的数据,并结合广西农业职业技术学院学生就业的实际情况进行决策树分析研究,最终指导毕业生的就业方向及就业层次。
一、就业信息转换与预处理
学生就业统计管理信息表主要包括的字段有:学号,姓名,性别,性格取向、院系,专业,综合排名,生源地,计算机能力,英语水平,政治面貌,工作单位,工作单位区域,本文采用的挖掘属性就是从该表中获取。挖掘出给定数据的单位性质,获取一些找到好工作、好单位的毕业生与其哪些属性相关,主要通过学生就业信息表中的数据来进行挖掘对比,由于挖掘的信息量比较大,在数据的挖掘中,首先要进行相应的数据筛选,找出与学生关联度比较大的相关维度属性。如实践能力、综合排名、英语水平、计算机能力、性格取向、高考成绩、工作单位等作为决策属性。在统计的工作单位中,对它们进行符号化,分成不同的层次,具体如下:国企(符号化G),其主要是一些大、中、小型的一些国有企业,一些事业单位、科研单位、政府单位等;外企(符号化W),其主要是一些在中国发展的外资企业;私企(符号化S),私企主要是一些私人企业,一些民企。在这三类单位中,又进行相关层次的分类即优秀(Y)与差(C),以便进行更好区分,把数据进行细化分析。在这些数据的细化后,现在可以把相应的工作单位分成以下几大类,即优秀国企(GY)、差国企(GC)、优秀外企(WY)、差外企(WC)、优秀私企(SY)、差私企(SC),在这些数据确定后,并把所有的数据都进行符号化,然后进行统计分析。
二、模型分析与设计
(一)模型分析描述
高职院校毕业生人数在逐年增加,就业问题也逐年突出。以广西农业职业技术学院为例,虽然加大了投入,千方百计提高就业率及就业水平,也取得了一定的成效,但离理想中的要求还有一定的差距,如何缩短这些差距,是作为学院的决策者必须思考的问题。因此,建立一个学院学生就业信息管理平台,解决就业问题非常有实际意义。在这些大量的数据中找出所需要的数据,给学院的决策者来做出决策支持。在通过对比分析后,数据挖掘能很好地解决相关的问题,它能从大量的数据中挖掘出所需要的相关数据,根据此特点选择决策树C4.5算法建立决策分类树,通过已给定的条件来找出学生属性的影响情况。并由相关规则找出就业单位的类别进行排列选取,通过这些属性的挖掘以及数据的整理分析,得到有价值的信息,为决策者进行决策支持。
(二)模型设计
决策树其实就是生成一棵倒立的树,其主要目的就是实现分枝归类,把具有相同属性的值,尽快与相应的分支对应属性,每片叶子代表的是类别的最终属性。通过以上的结构分析,决策树的构建在数据的分析上有很大的优势,很容易从叶子节点上分析得出所需要的数据。
通过C4.5进行对数据归类划分,并进行相应的最优属性值的评估,尽快在最短的分枝路线上进行分类选择,并能有效处理连续值的属性。因此,通过C4.5算法利用数据挖掘,分析出样本中所有的数据,并对所需要的数据,如综合成绩、计算机能力、英语水平、实践能力进行处理分析,并得出毕业生就业好的一些基本因数。这些因数主要通过算法递归分配到每一个节点上,通过数据的处理就可以看出学生的就业跟哪些属性关联性比较大,这样在学生的就业中,就可以做出正确的有方向性的指导。
C4.5算法主要产生所需要的增益率,其计算方法以及相应的计算公式步骤如下:
第一,在已选取的数据中,并把该数据集合表示是S,其中的项目数为s,并通过取不同的属性值,把它设为n,其对应的属性值也为n。另外,在就业信息数据挖掘系统中应用为Qi,(i=1,2,…,n)。假设Bi为类别Qi中的样本数据个数,为每个数据的属性信息计算增益率,并计算机出给定样本分类所需要的信息熵,其计算公式如下:
第二,在分类划分中,属性的值是非常多的,如何取出所有属性的值,并把它归类到每一个节点中,这样就需要取W个不同的值,即{w1,w2,…,wn}。并通过类别属性W值的不同,来获取划分其中的其他节点的分枝值为S,并记为:{ S1,S2,…,Sz }。通过这些子集对应所包含的集合S,并由S的节点产生出来所需要的分枝,通过属性划分的方式,把当前样本集合B,划分成子集的信息熵或信息期望,通过下列公式进行划分:
对于给定的子集S,通过类别属性的分枝节点来计算出每一个测试属性的信息增益量:如Gainration(综合成绩)、Gainration(英语水平)、Gainration(计算机能力)、Gainration(实践能力),相应的计算机公式如下:
第三,利用公式(1)-(4)测试计算每个属性即Gainration(综合成绩)、Gainration(英语水平)、Gainration(计算机能力)、Gainration(实践能力)的信息增益量,同样也计算出它们的增益率。通过增益率的测试计算,完成各个分枝的划分,最终确立决策树模型的建立,并得出各个分枝的支持情况,通过属性数据的分析来达到预测的效果。
三、用C4.5算法构造决策树
C4.5算法构造决策树主要有以下几个步骤:
(一)选取信息样本数据集
如表1所示,工作单位作为工作好坏性质类别,即三类工作分类中的类别。属性综合成绩、英语水平、计算机能力、实践能力、毕业去向为决策属性集。
(二)抽取信息样本
在信息样本数据集S中,一共有20条记录,其中GY、GC、WY、WC、SY、SC类所对应的子集中元组个数分别为:t1=6、t2=6、t3=5、t4=1、t5=2、t6=0。由于需要计算S分类集合决策属性的增益信息量,计算公式如下:
Z(综合成绩)=(S11,S21,S31,S41,S51,S61)+ (S21,S22,S23,S24,S25,S26)+(S31,S32,S33,S34,S35,S36)=1.86 (5)
因此,通过公式(5)可以计算出综合成绩属性的信息增益量为:
Gainration(综合成绩)=I(t1,t2,t3,t4,t5,t6)-E(综合成绩)=0.582
并依此测试计算得到英语水平、计算机能力、实践能力属性的信息增益:Gainration(英语水平)=0.256,Gainration (计算机能力)=0.245,Gainration(实践能力)=0.135。根据测试结果,比较各个测试属性值的大小,值大的作为根部节点[56]。重复上述相关步骤,完成各个分枝的划分,最终构造建立决策树。根据广西农业职业技术学院毕业生情况,由于该院的毕业生人数一年只有3000多人,因此,可以从中抽取出1500名毕业生的就业数据进行相关的决策树分析,并获得如图1所示的决策树。
图1 C4.5算法构造就业决策树图
四、生成分类规则描述
通过以上的决策树构成,可以分析得出各个单位的分类规则以及判断它们的属性关联性,分类关联情况如表2所示:
通过以上相关的规则以及分类的情况可以看出,综合成绩优良、外语水平较高、实践能力以及计算机能力比较好的学生,其就业单位普遍在比较优秀的企业;综合成绩不怎么好,但实践能力比较强的同学,在优秀私企工作的情况比较普遍,其他则基本是在一般的企业工作。
综合各方面的分析来看,在这三类单位中,要想提高优秀企业的就业层次,就必须提高学生的综合成绩及其计算机能力与外语水平,要想提高优秀私企的就业情况,也可以进行实践能力的培养,提高他们的实践能力。总之,在以上分析结果中,能很清楚地给定决策者的培养目标,当然也不能排除例外情况的发生,只要能把握大的发展趋势,就能为决策者提高决策支持。
五、小结
本文主要通过相应的数据属性,并通过决策树方法,对已毕业学生的就业工作情况,通过分类归纳,最终得出学生的哪些属性对毕业生的就业情况有比较大的影响。因此,对于高职院校,特别是在目前就业压力较大的情况下,如何调整就业方向,在激烈的就业竞争中,指导学生的就业方向,提高学生的就业层次及就业水平是决策者必须重视的。通过本文的分析,可以预测与就业相关的学生属性的关联情况,并对今后毕业找工作起到一定的指导作用。
【参考文献】
[1]邓自洋.改进决策树算法在高校就业管理中的应用研究[D].上海:华东理工大学,2013
[2]韩晓颖.基于决策树的数据挖掘技术在学生就业指导中的应用[J].科协论坛(下半月),2011(12)
[3]丁苗.决策树技术在毕业生就业数据中的应用研究[D].吉林:辽宁工程技术大学,2012
[4]杨断利,张锐,王文显.基于模糊决策树的高校就业数据挖掘研究[J].河北农业大学学报,2012(2)
【基金项目】基于WEB的高职院校就业信息管理系统的研发与应用(桂教科研[2016]3号)
【作者简介】黄荣喜(1979— ),男,广西桂林人,广西大学硕士,广西农业职业技术学院讲师,研究方向:软件开发及应用。
(责编 刘健华)