基于XGBoost的员工离职预测及特征分析模型
2021-05-07王志宁
王志宁
(新疆财经大学统计与数据科学学院,新疆乌鲁木齐 830001)
0 引言
当今就业环境、人力资源管理策略在科学技术发展的影响下呈现出新特点:一方面,重要人才成为影响企业核心竞争力、质量效益的关键;另一方面,员工离职的影响也在加剧,关键性人才的主动离职会对公司的运营造成损失,也增加了重新招聘及新员工培训的成本。而随着数据挖掘技术的发展,人力资源策略数据化的价值不断放大。基于员工情况、薪资等各项指标数据建立机器学习算法模型,预测员工的离职倾向逐渐成为人力资源管理的新方向[1]。员工离职预测能协助管理者提前介入员工的离职意向,调整管理策略,为保留人才赢得时机,也扩大为员工留任提供解决方案的空间。
员工离职是人力资源领域的核心问题,有不少学者针对员工离职问题进行研究[2-4]。而人力资源管理策略数据化的不断发展,针对员工离职问题的预测研究也颇受关注[5],刘婷婷运用C4.5决策树算法选取IBM分析平台样例数据,建模预测员工是否离职[6]。张紫君基于GBDT算法研究员工离职的预测问题,并根据特征重要性总结员工离职的影响因素[7]。李强等人结合Adaboost和Random Forest算法构建员工离职预测模型,取得了高于单一算法模型的预测准确性[8]。
为进一步提高离职预测模型的性能及可解释性。本文基于数据科学竞赛平台Kaggle中的员工分析数据集,运用XGBoost算法构建员工离职预测模型,与机器学习主流算法进行相应模型评价指标的实验对比,验证XGBoost模型的效果,并结合SHAP方法提升预测模型的可解释性,分析员工离职决策的成因。
1 模型方法
离职预测是二分类问题,设员工数据集为X,包含员工的工作满意程度、相对薪资等特征,Y为目标变量,即员工是否离职。基于XGBoost算法构建员工离职预测模型,XGBoost是梯度提升决策树的改进算法,其完整的目标函数如公式(1)所示,由损失函数和正则化惩罚项相加而成,正则化项用以控制模型的复杂度。其中yi为样本真实值,为预测值,ft为每一轮迭代所建立的树模型,最优化目标函数即求解出树结构。集成的基本思想是在每一轮迭代过程中,增加一棵决策树,使模型的效果能够提升,过程如公式(2)所示为第t轮迭代模型的预测值,为前t-1轮的模型预测,ft(xi) 表示第t轮迭代新加入的树模型。
XGBoost利用二阶泰勒级数近似目标函数,将目标函数转化为与树结构直接相关的形式,在节点分裂时,预先按照特征值大小进行特征排序,保存为block结构,迭代中会重复使用这个结构,减小计算量;并采用类似分位点选取的方式,仅选出常数个特征值作为其候选分割点,从候选分割点中选出最优的分割点,以实现预测准确、运算快速的目标。
2 实验测试及分析
本文选用准确率、F1值和AUC值三项分类算法评价指标衡量模型的优劣性。是否离职分类结果混淆矩阵如表1所示。准确率是指对于给定测试数据集,分类器正确分类的样本数与总样本数之比;F1值是综合评价指标,F1值越接近1,表明模型预测越准确。准确率和F1值是由混淆矩阵计算得到。可利用混淆矩阵绘制出ROC曲线,AUC值是由该曲线求得。AUC值越大,模型精度越高。准确率和F1值的计算公式如公式(3)、(4)所示。
本文所选取数据集包含的特征如表2所示,是否离职作为标签。预处理后的样本总量为14999,特征总数为9。将特征变量与目标变量输入模型,划分训练集与预测集数据,建模训练预测。模型最优超参数组合为:n_estimators=60,learning_rate=0.1,max_depth=5,其余参数为默认值。将所建立的离职预测模型与Logistic算法、朴素贝叶斯、支持向量机分类、线性判别分析算法进行相应评价指标的交叉验证实验对比,对比结果如表3所示。
表1 分类结果混淆矩阵Tab.1 Confusion matrix of classification results
表2 数据集特征属性Tab.2 Data set characteristic attributes
分析对比实验结果,本文建立的XGBoost模型的预测准确率为95.6%,F1值为92.8%,AUC值为93.6%,在三项指标上,相较于其他四种算法模型,都具有最佳表现。员工是否离职与其相对薪资水平、工作内容、满意度等特征之间存在复杂的非线性关系,基于集成方法的XGBoost平衡模型的复杂度与精确性,并基于贪心算法寻找最佳分裂点,具有优越性。
3 基于SHAP的模型解释分析
SHAP以博弈论思想为基础,被广泛用于解释复杂算法。核心是计算特征的归因值,每个特征计算的归因值反映该特征影响模型预测值的程度。归因值是特征对预测结果的作用力,正值表明该特征对模型预测有提升作用,负值表示该特征对模型预测构成负向作用,模型的预测值由模型预测的平均值与每个特征的作用力相加而得。
表3 模型性能对比结果Tab.3 Model performance comparison results
图1 SHAP特征摘要图Fig.1 SHAP feature summary diagram
表4 XGBoost,SHAP算法特征重要度对比Tab.4 XGBoost, SHAP algorithm feature importance comparison
如图1所示SHAP摘要图,根据每个特征对于员工是否离职的影响程度重要性进行排序绘制,颜色表示特征的具体数值,越接近红色,特征数值越大,越接近蓝色,数值越小;图中每个点为一个样本。如表4所示XGBoost特征重要度与SHAP特征重要度排序对比。
综合分析得出,对公司的满意程度、在公司工作的年数、同时负责项目的数量、平均每月工作时长、相对薪资水平是影响员工离职的关键因素。员工的满意程度、相对薪资水平越高,离职的可能性越低,符合员工期望的工作内容及状态,能够满足员工的认同感与获得感,并具有不错的薪资收入水平,是员工在工作岗位上长久、稳定付出的重要基础。工作年数较短如2至3年的员工,正处在发展适应阶段,对于当前工作的感受尚未完全,离职的可能性较低;员工在公司工作的年数越长,越趋于稳定,在公司工作7年以上的员工已经成为公司中的重要一员,离职可能性也较低。而工作年数在4至6年的员工,具有跳槽、寻找新工作环境的潜在倾向,其离职的可能性较大。此外,平均每月工作时长在300小时左右的员工,日常休息时间多被工作所占用,离职的可能性较大。同时负责项目越多的员工,对于工作的满意程度越低,员工的工作压力会受到同时负责项目数量的影响,较多的项目带来的工作压力较大,占用员工休息时间的可能性更大,员工的离职倾向也越高。
图2 SHAP特征交互图Fig.2 SHAP feature interactive diagram
SHAP模型不仅可以对样本特征总体分析,还可以显示两个特征的交互作用关系对于目标变量的影响。如图2所示satisfaction_level(对公司的满意程度)特征依赖图为基础,number_project(同时负责项目的数量)的特征数值大小着色表示的特征交互图。分析发现,同时负责项目越多的员工,对于工作的满意程度越低,其离职的可能性较大。员工的工作压力会受到同时负责项目数量的影响,较多的项目带来的工作压力较大,占用员工休息时间的可能性更大,员工的离职倾向也越高。
4 结语
人力资源策略管理数据化不断发展,员工离职预测问题的研究愈发重要。本文基于员工分析数据集运用XGBoost算法建立离职预测模型,与Logistic、朴素贝叶斯、支持向量机分类、线性判别分析算法进行相应分类算法评价指标的实验对比,并结合SHAP模型提高可解释性,分析影响员工离职决策的因素。下一步工作可以考虑增加新特征,进一步提升预测模型对于员工离职问题的应用意义。