APP下载

基于Stacking 集成学习的员工离职预测方法

2021-06-24李佳浩褚治广

关键词:流失率分类器准确率

李佳浩,李 昕,褚治广

(辽宁工业大学 计算中心,辽宁 锦州 121001)

如今大公司的人员流失越来越严重,尤其是一些专业的员工。但是,拥有不同追求的员工往往不满于现状,抑或是因为种种的原因,缺乏与企业的沟通交流,一时选择离职来解决问题[1]。员工的离职不仅会给公司带来收益降低,而且会给企业发展带来很多危害,比如商业机密的泄露,一些重要客户的丢失,在市场中失去了企业竞争力。因此一种能够提前洞悉员工离职想法的系统非常必要,通过IBM 公司提供的相关数据,对其进行大数据分析[2]。通过对数据进行数据清洗等预处理,数据可视化分析,本实验用了一种基于 Stacking 集成算法Adaboost 和随机森林算法一起构建的一种LRA 员工离职倾向模型。学习数据中蕴含的规律,对员工离职因素数据集进行分析。最后对可能影响员工离职的重要因素进行分析,从而减少员工想要离职的想法,减少企业的不必要的经济损失、让企业领导者做出正确的决定,来减少想要离职的员工人数[3]。

1 算法介绍

1.1 Adaboost 算法

Adaboost 是Boosting算法中最具有代表性的一种算法之一。算法过程如下:

假设训练集

M为样本的个数,(其中,i=1,2,...,M)。

带有权值分布的Dm训练数据集,在第m次运算后得到的基本分类器其中,m代表次数)。

计算Gm(x)的分类误差:

计算Gm(x)的系数:

更新训练集的权限分布:

其中,i=1,2,...,M,Zm是规范化因子,

其目的是得到最终分类器,

线性组合f(x)实现M个基学习器的加权表决,αm表示基本分类器Gm(x)的重要程度[4]。

1.2 随机森林算法

设样本有M个特征,随机森林随机抽取了K个 bootstrap 数据集,对应有K个 OOB 数据集,特征重要性排序的步骤如下:

(1)初始化k=1;

(2)使用第k个 bootstrap 数据集,训练决策树TK,计算第k个 OOB 数据集的分类准确率L_K^OOB;

(3)对OOB 数据集中的特征Xi,i=1,2,3...M施加扰动,重新计算准确率L_(K,I)^OOB;

(4)对于k=2,3,...K重复步骤(2)(3);

(5)计算特征重要性;

(6)对PI 降序排列,得到特征重要性排序,排名靠越前重要性越高[5]。

根据分类器特性及总特征个数设定特征数目上限,依据特征重要性排序,使用序列前向选择法,每次无放回地选取排序最前的特征加入特征子集,计算子集分类准确率,直到达到特征数目上限,最后选出分类效果好且特征数目少的最优特征集[6]。

2 数据分析

对一些重要的变量进行快速可视化及探索性分析,特别是与基础信息、收入、晋升、快乐的程度、家庭幸福、工作的热爱度。对数据集的特征属性进行汇总,将变量属性人为分为以下几类:

(1)基础属性:Age(年龄)、Gender(性别)、Education(学历)、EducationField(学历专业)、MaritalStatus(婚姻情况);

(2)年龄与工作时间挂钩:Age(年龄)、NumCampaniesWorked(任职企业数量)、YearsAtCompany(在目前公司工作年数)、TotalWorkingYears(总工龄);

(3)工作部门等:Department(部门)Jobrole(职位)JobLevel(职位等级);

(4)探索收入、投入等:OverTime(是否加班)、HourlyRate(时息)、DailyRate(日息)、MonthlyRate(月息)、MonthlyIncome(月收入)、JobInvolvement(工作投入);

(5)员工对环境等满意度:EnviromentSatisfa ction(环境满意度)、JobSatisfaction(工作满意度)、RelationshipSatisfaction(关系满意度);

(6)员工所受福利等:PerformanceRating(绩效评估)、StockOptionLevel(员工优先认股权)、PercentSalaryHike(工资涨薪百分比)、TrainingTimesLastYear(上一年培训次数)、YearsSinceLastPromotion(距离上次升职时长);

(7)工作和生活平衡相关:OverTime(是否加班)、Balance(工作与生活平衡情况)、DistanceFromHome(离家距离)、BussinessTravel(商务出差频率)。

员工对环境等满意度的分析,如图1 所示。

图1 员工职业关系环境满意度对离职影响图

从图中可看出:满意度的观察结果来说比较直接,3 个满意度变量都显示了低满意度是离开的原因。

员工所受福利数据探索性分析,如图2 所示为员工绩效分布图。

功绩越低或越高 越有可能离职。员工绩效对于员工的离职有着很大的影响,如图2、图3 所示。

图2 员工绩效分布图

图3 员工绩效分布图

工作和生活平衡相关数据探索性分析,如图4所示。

由图3 可知,没有员工优先认股权的员工流失率较高;上一年没有参与培训的员工流失率高,但相对其他有参与培训的员工的并不算特别高。从加薪、培训、和升职的角度看,好像并没有很强的关系说明能够影响员工的流失,也许正是因为这些手段在员工看到是理所当然的,应有的福利回报,或许有可能给得越多员工可能还是认为不够,适得其反。反观员工优先认股权对于员工来源是有效的手段,有认股权的员工相对来说较稳定,因为那是未来触手可及的利益,有利益的捆绑,重点在于捆绑。

由图4 可知,经常加班的员工相对于不加班的员工流失率非常高;认为工作与生活平衡水平为1的员工流失率较高;频繁出差的员工流失率较高;距离家较远的员工流失率较高[7]。加班是最为影响生活质量的因素,其结果也是最明显,在加班与不加班的员工中,流失率的差异非常大;工作与生活较不平衡的员工流失率也会高一点;出差比较频繁的员工也容易流失,上班距离较远的员工也容易流失,总体而言,工作与生活的平衡这一类因素对员工流失的影响较为严重[8]。

图4 工作和生活平衡与员工离职关系图

由此方法可以删选得到DistanceFromHome(离家距离)、Age(年龄)等20 个特征属性。

3 结果分析

通过得到的实验结果报告数据显示,Adaboost 和随机森林模型准确率比Stacking 算法构建的 LRA 模型所得到的预测结果准确率要低很多,从得到的实验结果上直观的证明了采用Stacking 算法构建的 LRA 模型可行性[9]。相对于决策树,随机森林,Adaboost 这3 个单独模型,LRA 的准确率,查准率,查全率和F1度量都效果优秀。各模型标准值如表1 所示。

表1 各模型的指标值

从查全率来看:决策数模型最低,为 20.43%;LRA 模型最高为54.38%,Adaboost 第二为46.53%,随机森林为22.36%,LRA 模型、Adaboost、随机森林的查全率均高于决策树模型[7]。从查准率来看:决策数模型最低为 19.10%;LRA 模型最高为55.67%,Adaboost 其次为46.59%,随机森林为43.67%,LRA 模型、Adaboost、随机森林的查准率均高于决策树模型。因此LRA 模型的稳健性更好,所以可以使用LRA 模型进行员工离职预测[10]。对离职有影响的因素为:薪资高低,福利待遇,假期长短,工作时间长短,加班时间等[11]。员工想要离职的想法和这些因素息息相关。因此企业管理者可以从这几个主要方面入手,根据员工需求来解决问题,更好地满足员工的条件。

(1) 减少员工加班时间,多给员工减压。

(2) 适当时间找员工谈话,满足员工的一些需求。

(3) 适当提高待遇,给予员工股份,来奖励员工。

(4) 平衡工作和家庭生活的关系,让员工没有后顾之忧。

(5) 完善一些制度,提升员工对企业的归属感,降低员工离职的倾向。

4 结论与展望

本文主要研究数据挖掘中的分类算法在员工离职预测中的应用,通过对初始数据集进行去重、删除冗余属性、连续属性离散化等数据预处理来精简优化数据,提高模型构建效率。之后通过有放回抽样的方式处理非均衡数据集,重构数据集获得均衡数据集用以模型的训练。本文从实际场景数据出发,对数据进行预处理。为核心算法提供干净、更具针对性、符合算法模型要求的数据集,把一些和数据分析无关的属性特征删除,去除冗余和不完整数据为数据挖掘提供更好的,更符合需求的高质量数据。数据进行探索性分析。对一些重要的变量进行快速可视化及探索性分析,特别是与基础信息、收入、晋升、满意度、绩效和工作与生活平衡等相关的变量。对数据集的特征属性利用R 语言进行汇总构图。做数据可视化处理。选用分类算法进行预测,选择其中常用的决策树作为基分类器模型,以随机森林、Adaboost 作为初级分类器,Logistic 作为次级分类器,折交叉验证构建模型并构建的LRA员工离职预测模型,达到预测员工离职的目的。这对公司人力资源分配具有意义,员工离职预测结果可以作为公司人力资源对员工离职判断的辅助手段,有利于公司做出正确的决策[9]。

猜你喜欢

流失率分类器准确率
学贯中西(6):阐述ML分类器的工作流程
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
基于朴素Bayes组合的简易集成分类器①
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
一种自适应子融合集成多分类器方法
酒店内部营销探讨
寿险公司个人代理人流失的对策研究
美国OTT服务用户流失率达19%