APP下载

EDM用于研究生就业能力的预测

2017-08-19廖凤露周庆

教育教学论坛 2017年33期
关键词:学生成绩数据挖掘

廖凤露+周庆

摘要:研究生就業一直是社会、高校和学生关注的热点问题。本文基于教育数据挖掘(Educational Data Mining)技术,通过研究生的行为数据来预测就业能力,从而为研究生的就业工作提供帮助。首先对收集到的数据进行预处理,然后运用特征选择方法筛选出与就业能力相关的课程和网络访问类型,最后建立朴素贝叶斯模型进行就业能力进行预测。本文的模型可实现接近90%的召回率,说明该方法能准确地预测学生的就业能力。

关键词:就业能力预测;学生成绩;上网日志;数据挖掘

中图分类号:G643 文献标志码:A 文章编号:1674-9324(2017)33-0065-02

一、引言

在我国高等教育进入大众化阶段后,研究生人数逐年激增,研究生的就业能力和就业状况一直是高校和社会关注的热点问题。如果能预测每位学生的就业能力,不仅有利于了解学生的总体情况,有利于改进教学工作,也有利于学生及时调整个人的学习计划和目标。然而,研究生的就业能力受到多个因素的影响,因此准确预测研究生的就业能力是一个困难的问题。

教育数据挖掘(Educational Data Mining,以下简称EDM)是解决这一问题的潜在技术。EDM利用计算机科学、教育学、社会心理学和统计学等多门学科的理论和技术解决教育研究和实践中的各类问题[1],如辅助教学管理者进行教育决策、提高学生的学习积极主动性和帮助教师改进教学方式方法等。EDM的特点在于使用教育环境中产生的数据发现知识,并将产生的知识应用于优化教育环境的目的[2]。

二、研究方法

为了挖掘出学生就业能力和学生行为表现之间的关系,本次研究主要分为以下几个步骤进行:首先对原始数据进行采集,然后进行预处理和特征筛选,最后选取分类器建立预测模型。

(一)数据采集

本次实验数据来源于某大学计算机学院2013级专业硕士和学术硕士共计139人的基本信息,研究生阶段的所有课程成绩,2016年3月在校期间上网记录,就业单位信息以及在校期间发表的论文信息等。在数据处理过程中,我们首先对所有学生的学号进行加密操作,以保护学生的隐私。

(二)数据预处理

要对研究生的就业能力进行统计和分析,首先应对就业能力进行评价。评价的依据主要参照学生的就业单位和就业岗位。尽管这一依据并不能完全客观地反映学生的就业能力,但可以给教学管理者提供有价值的参考信息。将每个研究生的就业能力编码为1和0,分别代表“好”和“一般”两种情况。

由于原始数据里包含噪声数据情况,需要先对数据进行预处理,数据预处理的过程主要包括以下几个方面:

1.成绩数据处理。将其中成绩有缺失的项去掉,将成绩等级用数字型成绩替换,计算各学生的平均成绩。对每门具体课程,如果学生没有选修该课程,则用该生的平均成绩代替。

2.学生上网日志数据处理。学生上网日志原始数据存在大量冗余,需要过滤掉其中的无用信息,如IP地址、图像等。然后将网址按照类型不同进行分类,统计学生访问不同类型网站的时长和频次。

3.学生发表论文数据处理。根据发表期刊的不同,将论文分为5等,然后分别统计出学生发表论文总数以及发表论文的最高等级。

(三)特征筛选

计算就业能力与各项特征的相关系数,筛选出相关性较强的特征加入预测模型。其中与就业能力相关性较高的课程如表1所示,上网类型如表2所示。

(四)分类器

本次研究所使用的分类器为朴素贝叶斯分类器(Na?觙ve Bayesian classifier,简称NBC)。它是基于贝叶斯理论的简单概率分类器,假设实例的各个特征是相互独立的。在此假设下,如果某个类别在实例的特征集合上具有最大的条件概率,则认为该实例属于此类别。相比一般的分类模型,朴素贝叶斯模型具有简单、计算复杂度低和内存消耗小等优势。

三、实验过程及结果

本次实验采用朴素贝叶斯模型,分别在不同的数据集上对研究生就业能力进行预测。

通过前述的筛选方法确定的特征主要有学生平均成绩、论文类型、论文总数、性别、是否推免、本科是否“985”、是否为学硕、表1选出的3门课程、表2选出8类网址访问时长。将以上9类特征组合成3个数据集(参见表3),然后带入预测模型进行预测。

图1显示了采用(交叉验证)方法计算的召回率(recall)和预测精度(precision)分布情况。

根据上图我们可以得出以下几个结果:

1.随着数据集特征的增加,召回率呈上升的趋势,数据集C预测的召回率达到最大值89.66%。

2.随着数据集特征的增加,预测精度呈上升趋势,数据集C的预测精度达到最大值69.33%。

3.随着数据集特征的增加,召回率提升的幅度大于预测精度的提升幅度。

所以,数据集C的预测效果最好,且召回率和预测精度均达到一个较好的值,说明我的模型能较好地预测学生就业能力的情况。

四、结论

本文主要是基于学生成绩和上网日志,采用数据挖掘技术对其就业能力的预测。主要工作集中在数据预处理和特征选择上,对成绩和上网日志的预处理,并筛选出一些特征用于模型预测。我们采用朴素贝叶斯模型来对学生的就业能力进行预测,模型预测性能良好,召回率可达到89.66%,预测精度达到69.33%。这说明,本文提出的方法可以实际用于对学生就业的预测。

参考文献:

[1]Kisor Y. The state of educational data mining in 2009:A review and future visions[J].Computer Communications,2009,6(2):82-87.

[2]周庆,牟超,杨丹.教育数据挖掘研究进展综述[J].软件学报,2015,(11):3026-3042.

Forecasting System of Postgraduate's Employability Based on EDM

LIAO Feng-lu,ZHOU Qing*

(College of Computer Science,Chongqing University,Chongqing 400044,China)

Abstract:Graduate employment has always been an important issue for society,universities and students. In this paper,we predict postgraduate's employability through student behavioral data based on the technology of Educational Data Mining,thus providing support for post-graduate employment. First,we preprocess the collected data. Second,we use the feature selection method to filter out the employment-related courses and network access types. Finally,a naive Bayesian model is established to forecast the employability. This model can achieve a recall of about 90%,indicating that the method can accurately predict the employability of students

Key words:employability forecast;student achievement;web log;data mining

猜你喜欢

学生成绩数据挖掘
基于并行计算的大数据挖掘在电网中的应用
浅析数据挖掘技术在学生管理系统中的应用
一种基于Hadoop的大数据挖掘云服务及应用
学生成绩管理系统的开发与设计
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究