APP下载

基于多种机器学习算法的员工离职预测模型对比及解释研究

2021-11-05乔源陈梦帆

商讯·公司金融 2021年27期

乔源 陈梦帆

作者简介:乔源(2000— ),男,汉族,辽宁大连人。主要研究方向:供应链管理。

摘 要:人才是企业的核心,如何留住人才是人力资源的核心命题。基于此,本文首先建立了员工离职预测指标体系,接着使用7种机器学习方法对员工是否离职进行预测,并从准确率,f1得分,AUC,召回率,敏感度等五个评估指标进行综合评估。实证结果表明:XGBoost算法具有高准确率和稳定性,较其他算法更优良。进而,本文采用cover准则对特征重要性进行了分析,员工是否离职决策更满足社会人假说,员工往往更倾向于追求自我实现和工作的自我契合,企业应优先满足员工社会层面的自我需求,有效防止员工离职。

关键词:机器学习算法;员工离职预测;特征重要性

互联网时代下,人才流动频繁,核心员工的主动辞职,不仅会给公司正常运营造成影响,降低企业受益,而且会导致客户流失,商业机密泄漏等诸多危害,如何通过历史数据或员工标记准确判断员工的离职倾向是人力资源管理的新研究方向。企业不再满足于探究某一两个变量或者因素和员工的离职的关系,因为员工离职往往是深思熟虑,众多因素有机结合的结果,因此对员工大数据特征进行机器学习显得很有价值。

通过收集员工特征大数据对于员工离职的预测不仅是人力资源领域的核心问题,也是机器学习算法研究的重要方向,部分学者侧重某一或几种因素的研究,李扬研究国有企业员工幸福感维度对于员工离职的影响,叶仁荪等研究组织承诺的影响;而大部分学者则从机器学习的角度出发,并不关心内在的因素解释,反而通过大数据机器学习的方式,最快最好地预测员工离职的结果,如刘婷婷选取IBM平台样例数据,运用C4.5决策树预测员工离职倾向,张紫君则采用GBDT算法预测员工离职的问题,更多的是算法的纵向结合或者横向比较。

但是目前学界对于离职预测往往仅追求的算法的精度,且所采用的算法大多是黑箱算法,难以直观解释。为进一步提升离职预测模型的性能及可解释性,本文基于IBM数据科学公布的员工离职数据进行分析,横向比较机器学习主流算法,通过预测准确率,f1得分,AUC得分,召回率,敏感度五项指标对模型评价和对比,最后通过性能最优的XGBoost算法以及其特征重要性解释分析员工离职决策的成因,对降低员工离职率,改善企业人才资源配置,提高企业综合绩效等方面具有一定的参考意义。

一、变量说明及预处理

(一)数据来源与变量选取

本文数据来源DataFound平台(https://www.datafountain.cn)上发布的IBM员工公开数据,数据包括定性和定量数据,选取全数据集33个字段,2000多条数据,具体数据名称及含义如下表1所示:

(二)数据预处理

首先,本文对数据进行归一化处理:

其次,为防止由于最终标签的不均衡导致的误差采用SMOTE方法按照1:1进行均衡采样,SMOTE的原理是:对于少数类样本a,随机选择一个最近邻的样本b,然后从a与b的连线上随机选取一个点c作為新的少数类样本,基本公式如下:

首先生成一个0-1之间的随机数:rand(0,1)

其次选取一个少类样本X原,并选取其相邻最近样本X相邻,最终通过如下公式:

X新=X原+rand(0,1)*(X相邻-X原)

使得样本在标签特征是否离职满足处均匀分布。

二、研究原理

(一)传统机器学习方法

本文采用三种传统的机器学习方法:支撑向量机(SVM),其本质是一种线性分类器,是以训练样本为研究对象,通过某种事先选定的关系映射出一个样本的高纬特征空间,并在其中找到一个超平面对样本进行线性分类;决策树(DT)是一种树形分类器,即采用某种标准(如:C4.5,ID3等)通过搜索遍历每一个节点的特征选择,最终获得一种最优分类的过程;逻辑回归(LR)是一种线性分类方法,通过非线性变换的Sigmoid函数,采用梯度下降,或者二阶的步长因子等对样本进行二维空间的线性分类。

(二)集成学习方法

除了上述传统的机器学习方法外,本文采用四种集成学习的方法:随机森林(Random Forest)随机森林是一种将多棵决策树集成的算法,其中的每一个单元——每棵决策树都是一个分类器,对于一个固定的输入样本,随机森林通过Bagging思想,以一种算法投票的方式,从N棵树会的N个分类结果选出最终的输出,以提升相比于单一树模型的分类结果的准确度;梯度提升树(GBDT)也是一种组合树型算法,以回归树作为基分类器,其核心就在于,每棵树是从先前所有树的残差中来学习,以前模型中损失函数的负梯度值,作为新树的残差来对新树进行优化,具有较好的优化性能。xgbBoost算法是GBDT算法的升级版,其在分类过程中就是不断地添加决策树,通过特征分裂来生成新树,来拟合上次树预测的残差,从而达到优化的效果;LightGBM是一种基于决策树算法的分布式梯度提升框架,每次从当前所有叶子中找到数量较大,分裂增益较大的叶节点,分裂形成新树,如此循环,在xgb基础上有效地减少空间和时间的小号,对cache优化也更加友好。

三、实证结果

(一)相关性分析

进行机器学习算法测试之前,先进行变量相关性分析,结果如下:由图1可知,变量和目标都存在相关性,但双变量之间的相关性都不高,这体现了员工离职往往不是由一个或两个因素决定的,一般来说,离职都是一种深思熟虑之后的决定,说明本文通过大数据机器学习的方法统筹考虑所有变量整体研究具有一定的意义。