APP下载

基于知识挖掘的决策树规则对于工程管理学生个性化择业决策的支持研究

2014-11-30张新娟许倩楠

关键词:决策树决策因素

张新娟,许倩楠

(华北电力大学 经济与管理学院,北京 102206)

工程管理专业主要是为建筑业、房地产业培养具有专业技术基础的管理型人才,随着我国经济不断地发展,目前各种基础性建设如雨后春笋般不断出现,目前房地产业虽然受到国家宏观政策的调整,但仍然是目前最热门的行业之一。在这样的背景下,工程管理专业的人才在人才市场上的需求较为旺盛,建筑和房地产业相关行业对从事工程管理专业的人才的学历水平和专业素质要求的越来越高,尤其是对全面复合型的高级人才更是求贤若渴,工程管理专业是目前高校学生就业形势严峻下仍然具有较好就业形势的专业之一。工程管理专业的毕业生就业范围十分广泛,他们可在政府经济管理部门或建设单位、设计单位、建筑施工企业、工程建设监理单位、房地产开发企业、工程咨询公司、国际工程公司、投资与金融等单位从事工程管理等工作,也可在高等学校或科研机构从事相关专业的教学或科研工作,工程管理专业的优秀毕业生面临的选择较多。

但是我国一直以来受着计划经济和传统思想的影响,学生在择业的过程中一直希望能够找到终身可以依靠的一个职业,而现在就业的体制随着计划经济向市场经济的不断过渡已经发生了深刻的变革,学校已经打破“统招统分”的模式,转变为“市场导向,政府调控,学校推荐,学生与用人单位双向选择”的就业机制。就业机制的转变一方面建立了各地人才市场的雏形,一定程度上促进了人才的合理流动,使人才真正成为一种资源并得到重视,有效地促进了我国社会主义市场经济的发展,提高了我国经济的发展水平。但另一方面,一些毕业生还是不适应体制变革,毕业生心理上还会存在一些失衡。一些毕业生在面对自主择业时表现出来的机智、自信使他们在择业的大军中脱颖而出,顺利的找到了理想的职业。而有一些毕业生社会经历不多,经验不够丰富,与人交际的能力不强等原因使他们在同用人单位打交道的过程中逐渐丧失信心,没有正确地认识到自身的价值取向,不能客观地分析自己,不能协调好国家、集体和个人之间的利益关系,以至于给将来工作单位的选择和事业上的发展带来了负面的影响。

因此,研究工程管理专业人才的择业决策,对于工程管理专业人才的择业决策给予支持不仅可以帮助工程管理专业毕业生做出满意的就业决策,也可以为更好地实现其自身价值奠定基础,同时可以为工程管理人才的生涯教育提供理论和实践的支持,为提高教育教学质量,实现办学目标从体系上提供支持[1-4]。目前关于高校学生择业决策的研究中,常用的方法有SWOT方法和五what方法等[5-6],这些研究是从高校学生自身的特性出发,结合自身的特性对要从事的职业进行分析匹对,忽略了除自身之外的高校学生成功择业案例对就业决策的指导意义。因此,将国际上最新的智能算法和数据挖掘技术运用到高校学生的就业决策支持中成为目前的研究热点之一,如陈高波利用支持向量机对大学生的就业情况进行预测[7];吴亚娟利用因子聚类分析技术对大学生就业的满意度进行预测等[8]。这些文献对于智能算法和数据挖掘技术应用于大学生就业预测的相关研究中取得了有益的成果,证实了智能挖掘算法和数据挖掘技术在大学生就业预测相关方面研究的可行性,但是这些研究只能对高校学生择业给予相应的预测,不能够根据学生的特点对学生的择业给出相关的建议。因此,本文拟利用决策树技术对影响高校学生就业的因素进行分类分析,通过各因素和相应的取值情况形成就业决策相关的决策树,形成相应分类规则以指导工程管理专业毕业生进行择业决策。

一、决策树分类技术

绝大多数决策树的构建是一种自上而下、分而治之的归纳过程,本质是贪心算法,从根结点开始,对每个非叶结点,找出其对应样本集中的一个属性对样本集进行测试,根据不同的测试结果将训练样本集划分成若干个子样本集[9]。数据挖掘中的决策树分类技术可以实现以样本的属性作为节点,由属性的取值作为分支的树结构,它是利用信息化原理对大量的属性进行分析和归纳后产生的。决策树法是数据挖掘中非常有效的分类方法,其中一个较为经典的算法是ID3算法。ID3算法运用信息论将分类对象划分属性最小化的思想,算法如下[10-12]:

设S是训练集,其中类别标识属性有m个独立的取值,即定义了m个类Ci(i=1…m),Ri为数据集S中属于Ci类的子集,用ri表示子集Ri中元组的数量。S的期望信息量可以用以下公式计算:

设属性A有v个不同的取值{a1,a2…av},则通过属性A的取值可将S划分为v个子集,其中Sj表示在S中属性A的取值为aj的子集,j=1…v。如果用Sij表示Sj子集中属于Ci类元组的数量,则属性A对于分类Ci(i=1…m)的期望信息量为:

将A作为决策分类属性的信息增益为:

该算法需要计算每个决策属性的信息增益,具有最大信息增益的属性被选择为给定数据集S的决策属性节点,并通过该属性的每个取值建立由该节点引出的分枝。在建立由该节点引出分枝的数据子集中继续计算除去已计算的决策属性节点后的各分类属性的信息增益,以此类推,计算至最后一个属性进而生成决策树。

二、基于云模型的属性离散化算法

对工程管理专业人才择业决策的研究中,由于ID3算法需要将各个条件属性的属性值转化成离散型的枚举变量,因此需要将不是枚举类型的属性进行离散化,对于定量化的相关属性而言,可以采用区间分割法或者是统计分割法予以解决,但是对于定性描述的指标而言,很难准确地直接将其转化为枚举变量,例如对于学生的性格评价而言,需要考虑多个方面的结果,既不能单纯以心理学的测评问卷定义出其性格类型,也不能从某一个方面的表现对其下结论,必须是综合多方面因素考虑从而得出结论。这就需要引入一种方法对这样的属性进行转化。

云模型是用离散化的自然语言表示的某个定性概念与其定量表示之间的不确定性转换模型,在诸多领域得到了广泛应用。由于云模型可以方便的完成多属性定量化到枚举型的语言语义值之间的转化,因此,云模型同样也可以解决工程管理专业学生择业决策中某些属性难以转化成枚举型的问题。目前,由于正态分布与正态隶属度函数的普遍性,因此正态云具有普适性的理论基础,正态云和云发生器的应用极为广泛,因此,本文利用正态云模型对属性进行处理,其处理步骤如下:

1.假设一个属性评价所需要的因素集为U={u1,u2,…um},其对应的评价集为Vi={vi1,vi2,…vin},对于每个因素,可以根据专家意见或者数据库的统计资料建立一组样本作为云熵,用逆向正态云发生器可以生成每个因素的概念正态云模型,记为Cij=(Exij,Enij,Heij)。其中,Cij表示第i个因素对应于评语j的云模型,Exij为第i个因素对应于评语j论域中的中心值,即“云”的分布中心;Enij为第i个因素对应于评语j定性概念的熵,Heij为定性概念的超熵,即熵的不确定性度量,由熵的随机性和模糊性共同决定。其中,由期望Exij和Enij可以确定出云的期望曲线(MEC)可以由式(4)予以确定。

2.由于一个属性可以通过n个因素进行判断得到离散的状态结果,因此,可以通过提取这n个因素的状态组成决策矩阵,并且将这些因素的云特征汇总成这个属性的云特征,从而算出这个属性的云模型,对于数值型因素,可以利用下式计算云特征:

对于语言定性描述型,需要用下式计算云特征:

3.计算完数值型和语言型的云特征后,可以通过一定的权重将其加权平均后得到最终的属性云模型,其中权重的确定方法可以用层次分析法或者是熵权法等,为了方便使用,本文用均权法确定权重。

本文以分析学生的性格为例对属性的离散化算法进行说明:假设学生的性格需要考虑对其心理问卷调查的得分、班主任的评价以及同学的评价三个部分,其中,班主任的评价和同学的评价采用11个评语集:(无,非常差,很差,较差,差,一般,好,较好,很好,非常好,极好),分别表示该学生的外向程度,其语言值用云模型来实现,构成定性评测的云发生器如图1所示。

图1 11个评语集的正态云发生器

而心理问卷的分数利用学生管理数据库的统计分数作为因素的评价值,在转换中最大值取卷面满分273分,最小分取0分进行转换。

图2 测评得分对应的正态云发生器

假设有一个工程管理专业学生的评语集合如表1所示。

利用式(5)、(6)进行云计算的过程如表2。

表1 一个工程管理专业学生的评语集合

表2 评语集的云计算过程

综合上述评语,对于心理考核得分进行归一化,取均权计算可得Ex=0.675,En=0.06,反归一化对照图2可得,该学生在外向和极外向之间,但是更加符合外向,所以对该学生的性格属性评价结果为外向。

三、影响工程管理专业学生就业的因素

影响工程管理专业学生择业决策的因素主要有社会环境因素和个人择业因素两个方面,其中社会环境因素主要包括政策因素和经济因素两个方面,政策因素和经济因素的特点具有很强的不确定性;另一方面,影响个人择业的因素包括性别、性格、个人意愿、家庭意愿、岗位待遇要求、专业技能知识掌握情况、学习能力情况、英语水平、计算机水平等方面。这一部分是可以通过观察分析从而给出相应结论的,现对这些因素的影响分类分析如下。

(一)个人因素

传统的职业生涯规划中将个人的性别和性格作为影响个人择业的主要因素,并且已经在个人就业决策的实践中得到了证实,此外,自己是否有明确的职业定位对于大学生职业生涯的决策也有较大的影响,主要表现在有明确的职业定位的大学生对于自己所选的专业课有一定的目的性,对于自己所学的知识具有一定的兴趣,在选择职业时会有明显的定位和目的感,具有较明显的就业意愿;而没有明确职业定位的学生所学知识面较宽,对于自己所学的知识表现一定的强迫性,选择职业时伺机而动,无明显的就业意愿。

除上述传统职业生涯决策所关注的因素外,由于工程管理专业的特点,其影响个人就业的因素还包含是否具有一定的吃苦精神,这是因为工程管理一般需要到施工工程的现场,因此需要经常出差去施工现场,需要具备一定的吃苦能力,此外,由于工程项目管理一般是较复杂的多单位合作的管理模式,因此,个人的沟通能力也是关系到工程管理专业的大学生能否通过面试顺利融入工作单位的一个重要因素。

(二)家庭因素

由于当代大学生的年龄结构和自我传统的积淀,子女与父母之间依赖与被依赖、控制与被控制性较强。因此,大学生在择业时,在很大程度上受到家庭因素的左右。有的大学生缺乏独立自主的意识和勇气,在择业时完全由父母做主;有的父母出于对子女的溺爱或担心子女社会阅历浅,缺乏生活经验,不允许子女自己做主;家庭的经济状况以及家庭的背景也会影响大学生的择业选择,有的父母利用自己的社会关系,为子女就业铺平了一切道路,不用子女操心就业。

就工程管理专业学生从事的相关工作特点而言,工程管理专业的学生从事的工作大多是建筑业以及房地产相关工作,其就业意愿可以大体分为工程技术类从业人员和工程管理类从业人员两类,其中工程技术类的职业包括工程概预算师、工程造价师、工程监理师、房地产开发人员等等;而工程管理类的职业包括工程会计师,房地产营销人员、工程设备保管员,工程信息分析员等等。

(三)岗位待遇

岗位待遇要求是指工程管理专业毕业生对工作岗位待遇的确定,不同的毕业生选择不同,一般来讲,工程管理专业毕业生对工作岗位待遇的要求基本上是所定位岗位的平均工资待遇,但是也有些自视甚高的大学生要求的待遇较高,还有些不是很自信的工程管理专业学生要求的待遇偏低,这些情况都在一定程度上影响工程管理专业学生的就业情况。

(四)工作发展前景

当前的大学生群体较之以前计划分配工作的大学生群体对于工作的看法观点已经截然不同,其个人的工作自主感更强。除岗位待遇外,很多人更加看中个人的发展前景,在选择单位时,很多大学生会对以后的发展前景进行展望并予以对比,在岗位待遇相差不大的情况下,大多数大学生会选择最有发展前景的工作单位,甚至在岗位待遇相差较大的情况下,也会有少数学生选择较有发展前景的工作。

(五)专业技能知识及动手能力

工程管理专业毕业生的知识面是否广博,工程管理专业的基础知识是否扎实,学习成绩在班级的排名以及英语和计算机的水平如何,是否具有英语四级证、六级证、计算机等级证、奖学金证书等,这些都是大多数用人单位非常看重的,部分用人单位在招聘工程管理专业学生时明确要求英语要达到六级水平,否则不予考虑。此外,工程管理的相关资质证书更是表明工程管理毕业生专业能力的良好证明,也是工程管理相关单位更加看重的东西。

(六)工作环境

工作环境的因素也是影响大学生择业决策的一个重要的因素,在就业条件相差不大的情况下,很多学生愿意选择回家方便的地域进行就业,尤其是女学生,此外,一个较为常见的现象是很多学生在就业季节来临的时候往往会返回家乡去寻找合适的工作,并且在家乡寻找工作也比较容易。

另外,对于工程管理专业的学生而言,还有具体工作环境的因素影响个人就业决策,由于工程管理专业的特点,一般需要和建筑工地或者是新建建筑设施区域内工作,环境一般比较差,例如噪声、三废排放以及装修产生的大量工业污染会限制一些身体不好或难以容忍的学生就业。

四、实例分析

本文通过对某大学就业指导中心的2011年工程管理专业的就业情况进行数据筛选分析,经人工筛选出具有代表性的136条就业学生基本信息和就业情况,结合上文中的分析,形成决策数据表如表3所示。

表3中的序号是标识记录数用的,在决策分析时该属性不做参考,就业情况作为决策变量,用D表示,其余属性作为条件属性,分别用A1到A13标识。将上述数据表进行属性值转化,转化规则见表4。

表3 华北电力大学学生就业决策数据分析表

表4 属性取值和决策使用的属性值转化规则

利用matlab实现上文中提到的ID3决策树算法,将转换后的数据决策表代入进行计算,可以得到最终的决策树如图3所示(由于篇幅所限,仅列出置信度超过70%的分支)。从决策树的分析结果中可以看出,性格和专业情况对工程管理专业学生的就业规划影响较强,其中性格外向,专业学习较好的学生,大多能够达成自己的就业规划意愿,男生和女生之间的就业规划区别在于,男生在选择企业时,选择范围较广,不限于能否出差的限制,工程技术类的相关工作和工程管理类的工作都可以选,女生大多不愿意选择出差较多的工程技术类相关工作,而选择工程管理类的相关工作。学习一般的毕业生家庭意愿对于就业的规划影响较大;性格内向的工程管理专业学生一般自主择业的意识较强,家庭意愿对就业规划的影响不大,对于性格内向的工程管理专业就业生,如果专业学习较好的,择业的选择比较多;性格属于中间型的学生较多,情况较为复杂,因此生成决策树的规则较少,专业情况较好的学生的选择考研的较多,而专业情况一般的女生,按照家庭意愿择业的较多。

总结上述分析结果,可以得出工程管理专业情况较好的学生选择的范围较广,基本上都有选择上研究生的意向,而学习一般的学生按照家庭意愿进行择业的较多,这和实际情况基本相符,因此决策树生成的工程管理专业学生择业规则具有一定的合理性。

图3 实例生成的工程管理专业的就业情况决策树

六、结论

就业是每一位大学毕业生都要面临的人生重要选择,对大学生进行就业决策的研究是十分有必要的。本文结合高校的实际情况,利用挑选出的工程管理专业的就业数据集和数据挖掘中的决策树分类技术形成以供工程管理专业毕业生择业时参考的决策树规则,在形成决策树时利用云模型对难以离散化的变量进行离散化处理,可以为决策树算法提供数据基础。经过实例证明,生成的决策树规则可以为工程管理专业学生在择业时提供一定的决策支持,能为工程管理专业学生就业提供个性化决策的支持。

[1]Powell J P,Banks P L.Learningduringaprofessional career[J].InternationalJournalofCareerManagement,1989(1).

[2]Phil Hodkinson.Howyoungpeoplemakecareer decisions[J].EducationTraining,1995(8).

[3]Feldman D C,Whitcomb K M.Theeffectsofframing vocationalchoicesonyoungadults’setsofcareeroptions[J].CareerDevelopmentInternational,2005(1).

[4]Ganzach Y,Pazy A,Ohayun J,Brainin E.Social exchange and organizational commitment:decision-making training for job choice as an alternative to the realistic job preview[J].PersonnelPsychology,2002(55).

[5]Paul Greenbank,Sue Hepworth.Improving the career decision-making behaviour of working class students:Do economic barriers stand in the way?[J].JournalofEuropean IndustrialTraining,2008(7).

[6]赵北平.大学生职业生涯规划教程[M].武汉:武汉理工大学出版社,2007.

[7]张凤霞,范丽亚,张凡龙.基于支持向量机的大学生考研预测[J].聊城大学学报(自然科学版),2010(2).

[8]吴亚娟.基于因子-聚类分析的大学生就业满意度统计及预测[J].南京信息工程大学学报(自然科学版),2010(6).

[9]姚正.关于决策树分类模型的评分函数研究[J].管理学报,2005(9).

[10]刘小虎、李生.决策树的优化算法[J].软件学报,1998(10).

[11]Pawlak Z,Rough Sets:theoreticalaspectsof reasoningaboutdata[M].Netherlands:Kluw er A cadern icPublishers.1991

[12]吴艳艳.粗集结合决策树的一种数据挖掘算法[J].计算机工程与科学,2004(2).

猜你喜欢

决策树决策因素
为可持续决策提供依据
解石三大因素
一种针对不均衡数据集的SVM决策树算法
决策为什么失误了
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
短道速滑运动员非智力因素的培养
基于肺癌CT的决策树模型在肺癌诊断中的应用
关于抗美援朝出兵决策的几点认识
湘赣边秋收起义的决策经过