APP下载

基于LightGBM的高校就业预测模型

2020-11-18罗丹刘旋

电脑与电信 2020年8期
关键词:样本分类预测

罗丹 刘旋

(信阳农林学院信息工程学院,河南 信阳 464000)

1 引言

随着大数据时代的到来,教育领域积累了海量的格式化学生信息,利用数据挖掘来发现信息背后的知识,改进高校毕业生就业管理的工作模式,进而提高就业率和就业工作满意度,是高校教育信息化发展的必由之路。

目前,多数研究都是针对毕业生的学习成绩、日常活动和创新实践等信息进行挖掘分析,以此预测学生今后的就业去向,然后进行就业指导和决策。例如,Patuelli 等人采用神经网络动态调整参数,成功预测了德国部分区域的就业方向[1]。王亚如等人采用基本的决策树算法,根据大学生行为数据构建就业预测模型[2]。陈为景利用最新的调查数据,采用统计分析得到云南少数民族毕业生的就业决策及影响因素[3]。上述方法大多忽略了学生数据样本增加的速度、就业去向的多样化(多类别),因此难以处理大规模的复杂数据。其次,以往数据挖掘方法往往忽略了未就业的学生样本,只注重预测的整体准确率,虽然这些未就业数据样本所占比例很小,但却是高校就业研究的重点。

综上,本文提出了一种基于LightGBM 的不平衡数据多分类模型,根据某高校毕业生的各项信息,通过结合抽样算法,平衡样本数据量,更好地提升少数类的预测精度,然后根据该模型的特征重要度分析,得到各个特征对就业影响的重要度,从而量化就业因子,针对性地解决高校就业问题。

2 相关方法

2.1 LightGBM原理

LightGBM(Light Gradient Boosting Machine)[4]是一种基于梯度提升决策树(GBDT)[5]算法的开源框架,因其高效、快速和并行的优点被广泛用于处理分类、回归等问题,能够保证较好的分类和预测结果。

由于GBDT 采用预排序方法(Pre-sorted)进行迭代,所以需要遍历整个数据集多次,导致其空间和时间复杂度较大,而LightGBM的提出解决了GBDT无法处理大规模数据的问题,主要改进包括:(1)采用基于Histogram 的决策树算法把连续特征离散化,通过构造直方图来遍历数据并进行统计,以此寻找最优的分割点,大幅降低内存和计算消耗;(2)使用基于深度限制的Leaf-wise叶子生长策略[6],每次迭代从当前所有叶子节点中,找到分裂增益最大的叶子节点进行分裂,降低了误差;(3)多线程效率优化。LightGBM构建树的过程如下:

假设数据集为S={(xi,yi),i=1,2,…,n},xi=[xi1,xi2,…,xim],其中m为特征数目,yi为类别特征。首先对S中的特征进行归一化,并计算初始梯度值:

然后构建树:(1)计算直方图

(2)基于直方图计算分裂收益,并选取最佳分裂特征G,得到分裂阈值I:

(3)建立根节点:

重复上述步骤1 到3,直到达到叶子数目限制或者所有叶子节点不能继续分割为止,最后更新树的梯度值,完成所有树的构建,并对待分类样本进行处理。

2.2 ADASYN过采样

ADASYN[6]是一种过采样方法,根据原数据中少数类样本的分布自动生成新的少数类样本,以此降低数据集的不平衡度,具体过程为:

(1)计算数据集S的不平衡度和待合成样本数量:假设少数类样本为Sm,多数类为Sn,则不平衡度d=Sm/Sn,差异数量G=(Sn-Sm)×k,k∈[0,1]。

(2)采用欧式距离计算各个少数类样本的k个邻居,△为k个邻居中属于多数类的样本数目,占比r=/k,r∈[0,1]。

(3)根据少数类样本的ri,计算每个少数类样本周围多数类的情况

3 基于LightGBM的就业预测模型

本文提出一种基于LightGBM 算法的预测模型,通过引入ADASYN过采样方法,降低训练数据集中的不平衡性,然后结合贝叶斯参数优化训练得到最优模型参数,并对测试数据进行预测,最后根据预测结果计算各个特征的重要度。

3.1 不平衡处理

ADASYN 算法生成的少数类样本是通过线性插值得到,虽然扩张了少数类的样本空间,但原本属于多数类的样本空间被新生成的少数类干扰,使得少数类的预测结果过拟合。本文结合TomekLinks 算法,剔除ADASYN 生成的噪声点和边界点,对新扩充的少数类样本进行清洗,使得对少数类的预测结果更准确。其方法如下:

假设样本点x与y属于不同类别,如果不存在另一个样本点z,使得d(x,z)

3.2 LightGBM预测模型

LightGBM 与Xgboost[7]算法类似,能够很好地支持标签特征,但算法的初始参数较多,且取值直接影响预测结果的优劣。本文采用贝叶斯优化(Bayesian Optimization)[8]进行参数寻优,Bayesian Optimization 能够根据已有的采样点预估模型最优值,然后通过交叉验证确定最佳效果参数。假设一组超参数组合是X=x1,x2,…,xn(xn表示某一个超参数的值):

其中μ(x)和σ(x)分别为下一次采样x的均值与方差,而β为权重参数,通过循环选参数t次高效地调节超参数,使LightGBM预测的准确率最优。

3.3 特征重要度计算

根据预测结果,计算全体特征对预测结果的重要度,并度量影响就业预测的因素。LightGBM通过计算所有非叶子节点在分裂时加权不纯度的变化,以此选择减少最多、收益最大的特征进行分裂,通过计算各个特征的收益率,得到其对分类结果产生影响的重要程度,进而量化分类预测的影响因素。特征j的全局重要度计算如下:

其中,M是树的数量,L是树的非叶子节点数量是节点t分裂之后平方损失减少值。

3.4 高校就业预测模型流程

输入:测试数据集Test、训练数据集Train和LightGBM初始参数X

输出:Test的预测结果和特征重要度排序

步骤 1:先采用 ADASYN 和 Tomeklinks 算法对Train中的少数类进行过采样,生成新的少数类样本集Train1。Train和Train1形成新训练集Train2。

步骤2:设置LightGBM 的初始参数X,采用LightGBM算法对Train2进行首次训练。

步骤3:根据Train2的初始预测结果,利用贝叶斯优化对LightGBM 的参数寻优,直到满足指定次数,选取LightGBM的最优超参数X1,并计算Test的最终预测结果。

步骤4:根据LightGBM 的树结构,通过公式(6)计算所有特征的重要度并排序,度量影响分类结果的特征因子。

4 实验结果与分析

4.1 评价指标

针对不平衡就业数据集,本文采用查全率(Recall)、查准率(Precision)和F-measure作为评价方法。假设TP和FP分别表示少数类(正类)分类的正确数和误分数,TN和FN分别表示多数类(负类)分类的正确数和误分数,F-measure是一种衡量少数类分类性能的评价指标,只有当Recall和Precision值都较高时,才能得到较好的预测结果,其定义如下:

4.2 就业数据集

本文以某高校2015至2018届毕业生相关就业信息作为数据集,数据集存在严重的非平衡。数据集预处理过程:(1)首先采集教务处、招生就业处的学生信息,例如姓名、专业、学习成绩和就业单位等。(2)清洗掉数据中的敏感、私密特征(身份证号、家庭住址等)。(3)对标签特征进行独热编码(One-Hot Encoding),对连续性特征进行归一化处理,并删除重复缺失数据,最终得到11542 条、13 个特征、4 类的有效数据。数据集描述如表2和表3所示:

表1 数据样本分布

表2 数据特征描述

Class4为正类(少数类),Class1、2、3为负类(多数类),本文随机抽取20%的样本作为测试集,剩余作为训练集。

4.3 实验结果分析

本文实验环境为:python3.6、win10系统、内存16G、处理器i7-7400。针对该校的就业统计数据,为了使实验结果更具客观性,采用10折交叉验证进行分类,与GBDT、BalanceCascade[10]、SMOTE-SVM[11]、EasyEnsemble[12]等不平衡分类方法进行实验对比。这里,本文方法通过贝叶斯优化后的最优参数:num_leaves=15(每棵数的叶子数量),learning_rate=0.3(学习率),max_depth=11(最大学习深度),min_data=55(最小叶子数),bagging_fraction=0.85(采样比例),min_gain_to_split=0.2(切分的最小收益)。

表3 对比实验结果

从表3实验结果可知,由于数据的不平衡性和复杂性,导致上述对比算法对正类(少数类)的预测精度低于本文算法,虽然本文算法的整体准确率略低于BalanceCascad 算法,但对少数类的预测准确率较高,所以Recall和F-measure高于其他对比算法,说明了本文方法能有效识预测毕业生的就业去向,且对未就业学(少数类)的预测精度显著提高。由于本文算法加入了贝叶斯参数优化,所以耗时相对较高,仍须进一步降低其时间复杂度。

为进一步验证算法的鲁棒性,绘制出五种算法的ROC曲线,如图1 所示。在各指标中,本文算法的ROC 曲线最靠近左上角,预测的准确性最高,且AUC面积值也高于其他算法。由此可知,本文模型提升了少数类的预测精度,且造成较少的假负错误,证明了本文模型能够有效处理不平衡数据分类。

此外,通过表3 的特征权重排序(前五)可知,Academy(所在学院)、Average(成绩)特征对就业去向影响较大,主要原因在于未就业学生集中于个别学院,且综合成绩相对较低,其次Creative(创新学分)、Unqualified(挂科数)也对预测结果有一定影响。将权值较高的特征作为就业因子,以此加大对待就业学生的相关指导与帮助,针对就业因子的改善就业工作的重点,进一步提升整体就业满意度。

表4 特征权重

5 结语

智能化的高校就业分析一直是一个难题,本文通过对LightGBM 模型进行改进,提出了一种处理不平衡数据的高校就业去向预测模型,有效预测并分析了学生的就业去向,并得出影响就业的主要因素、特征。随着学生数目和特征的不断扩大,如何增量式地构建预测模型,动态分析学生就业数据,是本文今后的研究重点。

猜你喜欢

样本分类预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
用样本估计总体复习点拨
规划·样本
按需分类
教你一招:数的分类
说说分类那些事
随机微分方程的样本Lyapunov二次型估计