APP下载

数据挖掘技术在高校毕业生就业工作中的应用研究

2020-08-14王凯王娜郭利霞

现代信息科技 2020年8期
关键词:结点决策树数据挖掘

王凯 王娜 郭利霞

摘  要:随着近年来高校招生规模的不断扩大,高校毕业生人数逐年攀升,就业问题成为高校工作中的重点和难点,也是社会各界关注的热点。在计算机相关技术飞速发展的今天,数据挖掘技术在各领域的应用日趋广泛。文章将探讨数据挖掘技术在高校毕业生就业工作中的应用,利用C4.5决策树算法对高校毕业生数据进行分类和相关性分析,为高校毕业生提供精准的就业指导。

关键词:数据挖掘;高校就业;决策树算法;C4.5算法

Abstract:With the continuous expansion of college enrollment in recent years,the number of college graduates is increasing year by year. The employment problem has become the focus and difficulty in the work of colleges,and it is also the focus of the community. With the rapid development of computer technology,data mining technology is widely used in various fields. This paper will discuss the application of data mining technology in the employment of college graduates,and use C4.5 algorithm to classify and analyze the data of college graduates,so as to provide accurate employment guidance for college graduates.

Keywords:data mining;college employment;decision tree algorithm;C4.5 algorithm

0  引  言

我國国内知识发现和数据挖掘的研究处于不断的发展和提高过程中,从目前来看,现阶段国内对数据挖掘的研究主要集中在方法、应用和Web挖掘三个方面。发展至今,数据挖掘技术在国内商业、企业、办公等应用范围已经得到了广泛的应用,与此同时在教育、科研等领域的应用也日渐广泛。国内各个高校在推动高校毕业生就业工作方面做出了大量的探索和实践,特别是在高校信息化管理能力不断提升的今天,各级各类高校学生管理信息系统和高校毕业生就业信息管理系统被普遍应用。相关系统中存储了大量有关高校毕业生的各方面各类别的信息。但是,目前大多数高校使用数据挖掘技术对相关信息进行知识发现的意识还有待提高,有关高校毕业生的大量隐藏信息尚未得到充分发掘。因此,在具体工作实践中使用数据挖掘技术不仅是为了更好地促进高校毕业生就业相关工作的开展,也是将数据挖掘技术中的一些方法应用到高校毕业生就业工作中,有着十分积极的意义,还能为在校大学生选择目标行业或企业时提供有参考价值的信息。大学生就业问题不仅仅是教育难题,更是重要的社会问题。选择高校毕业生就业信息,并基于数据挖掘技术进行分类研究,目的是构建一套基于高校毕业生的就业预测模型,挖掘并提取就业数据的内在联系。本文基于数据挖掘技术,针对新乡职业技术学院2019届毕业生就业情况进行应用研究,旨在探索一种有助于对大学生就业情况进行预测的模式,推动本校就业指导工作,对现阶段促进高校大学生就业有重要的现实意义。

1  数据挖掘技术

1.1  数据挖掘与知识发现

数据挖掘,是在大型数据存储库中自动地发现有用信息的过程。这种技术主要用来探查大型数据库,用来发现先前未知的有用模式[1]。数据挖掘技术主要运用各种算法、统计或分析方法,对在数据库或数据仓库中累积的海量数据进行数据分析、数据归纳与数据整合等处理,提取出类似于趋势、模式或相关性等有用的信息,最后将其中有价值的信息提供给决策者,用于参考和决策。通俗地讲,数据挖掘就是从海量的数据中发掘出信息或知识的过程。

数据挖掘是非常复杂并且会反复出现人机交互的一个完整过程,可以划分为几个相互联系的阶段,其基本工作过程如图1所示。

第一阶段是数据准备阶段,为了保证结果的准确性和有效性,需要对初始数据中存在的大量冗余、有噪声的数据进行清理,为下一阶段提供较高质量的数据。主要包含数据集成、数据选择和数据预处理三个阶段;第二阶段是数据挖掘阶段,这是整个过程中的核心部分,其主要任务是根据明确的目标和任务,采用运行恰当的算法开展工作并得到预期的结果;第三阶段是结果表达与解释,主要针对结果进行反复的分析和验证,最终将可信度高的结果以简单、直观的形式呈现给用户。

1.2  决策树分类算法

分类技术(或分类方法)是一种根据输入数据集建立分类模型的系统方法,是数据挖掘过程中的一种常见技术。分类技术主要是针对已经建立的类别,对观察值进行统一划分。决策树分类方法是数据挖掘技术中进行分类分析的一种典型方法,通过对信息增益原理的利用构造一个决策树模型,并试图用于揭示数据之间的分类规则。由于具有生成模型简单易懂、分类精度高、处理速度快等优点,决策树算法得到了广泛的应用和推广。

在实际应用中,决策树更多被表示成一种类似流程图的树结构,根据层次的不同分为根结点、分支结点和叶子结点。根结点位于决策树的最上方,是整个决策的起点;分支结点由其上一层结点的属性分割,代表数据子集;叶子结点代表分类结果。决策树的每一条从根结点到一个叶子结点的路径都是一条预测路径,直观地将属性和结果的关系表示出来。

猜你喜欢

结点决策树数据挖掘
简述一种基于C4.5的随机决策树集成分类算法设计
数据挖掘综述
决策树学习的剪枝方法
软件工程领域中的异常数据挖掘算法
基于地理位置的AODV路由协议改进算法的研究与实现
基于R的医学大数据挖掘系统研究
决策树在施工项目管理中的应用
一本面向中高级读者的数据挖掘好书