基于均值聚类的员工行为分析方法
2022-09-24李春生冯阳宵张可佳吴润桐
李春生,冯阳宵,富 宇,张可佳,吴润桐
(1.东北石油大学计算机与信息技术学院,黑龙江 大庆 163319; 2.大庆油田采油工程研究院,黑龙江 大庆 163453)
0 引 言
员工行为分析是一个较为前沿的领域,在大数据时代,员工行为信息对企业的发展愈发重要。掌握员工的行为信息能够为企业决策提供重要的数据支持,使得企业高效地完成对员工的监督工作,提高员工评价精准度和管理强度,实现员工科学化培养。关于行为分析,文献[1]采用决策树方式针对移动网络用户在电商方面的行为进行了挖掘、分析,但是用户电商行为具有一定针对性,行为模式单一,行为目的较为明确;文献[2-4]在数据方面,提出了一种基于网络日志的用户行为分析方法,该方式仅限于从网络日志文件中提取数据,数据来源较单一;文献[5]以多源异构数据为基础,在用户产品使用、移动轨迹、消费等方面分析用户行为,旨在挖掘出用户在“接受”“声音”“经济”等方面的能力,其数据要求以及分析方式并不能很好地适用于企业员工;文献[6]针对OA系统用户进行了行为分析,但是该文献中主要目的是检测用户异常行为,对于挖掘企业员工行为规律方面适用性不够好。综上所述,现有的行为分析模式大多以用户网站或用户软件使用为主,对企业员工行为分析、行为规律挖掘相关的研究较少,并且大量的员工行为数据导致难以应用人工监督或传统的数理统计分析模式去分析。为此,本文以企业员工行为所产生的数据为基础数据支持,采用聚类分析方式对员工行为特征进行挖掘,最终实现对员工简单分类的目的,并挖掘出其隐藏的行为特征规律。
1 行为分析模型设计
本文所采用的模型结构主要包括数据预处理、特征提取、行为分析3大模块,其中,行为分析包括工作态度分析与岗位分析2个子模块,如图1所示。
图1 模型结构图
1.1 数据预处理
数据预处理主要是清洗数据和解析日志文件,详细内容介绍如下:
1)清洗门禁刷卡数据。修正门禁刷卡数据当中的错误数据,补全缺失数据。例如,为了修正、补全某个员工刷卡数据,随机选取该员工一定天数当中相同时间范围的数据,求得此类数据的均值作为该错误数据的修正值或缺失数据填充值[7]。
2)解析专业日常办公软件操作日志。将操作日志依照日志记录规律进行解析,提取出日志中的信息关键字并存入数据库中。
1.2 特征提取
根据数据特点,重点分析员工行为数据的3个方面[8]:行为对象、行为类型和行为时间。行为对象包括门禁刷卡和专业日常办公软件操作。其中,门禁刷卡行为类型包括刷卡地点、入内刷卡、外出刷卡。专业日常办公软件操作行为类型包括操作模块(如管理模块、日常模块、专业模块等)和操作信息(包括操作标题和操作描述)。行为时间主要包括员工在各个时间段进行各种工作行为的比例,例如晚上加班(18时~22时)、周末加班等,而上下班行为时间的计算是利用员工门禁刷卡的信息得到,加班时间计算利用门禁刷卡时间和专业日常办公软件功能操作时间记录信息得到。
本文对各种行为特征进行筛选,依据每个特征的贡献程度不同[9-10],保留如下9个特征:
N1:打卡地点数量。
N2:专业日常办公软件每天使用次数。
R1:出勤率。
R2:准时率。
R3:加班率。
R4:专业日常办公软件使用天数比例。
R5:专业日常办公软件日常类功能使用占比。
R6:专业日常办公软件管理类功能使用占比。
R7:专业日常办公软件专业类功能使用占比。
1.3 行为分析
1.3.1 特征计算
根据所得到的数据信息以及特征规划,相应特征计算方式如下[11-12]:
1)加班率计算。门禁刷卡方面,某个员工加班率等于一定时间周期T内,其加班天数与总时间周期的比值,即:
ORDoor=OD/T
其中,ORDoor表示刷卡表示的加班率,OD是加班天数,T为总天数。专业日常办公软件使用方面,其加班率ORMDS等于非工作时间使用时长t与使用总时间T的比值,即:
ORMDS=t/T
2)准时率计算。某个员工准时率等于一定时间周期内,其准时天数与总时间周期的比值,即:
OTR=OTD/T
其中,OTR是准时率,OTD是准时天数,T为一定时间周期内的总天数。
3)出勤率计算。某个员工出勤率等于一定时间周期内,其出勤天数与总时间周期的比值,即:
AR=AD/T
其中,AR表示出勤率,AD是出勤天数,T为总天数。
4)对于专业日常办公软件使用情况,其特征计算如下:
员工某一功能模块使用率(Some Function Usage Rate, SFUR)等于该功能模块使用数量(Some Function Usage Numbers, SFUN)与总软件总功能模块数量(Total Function Number, TFN)的比值,即:
SFUR=SFUN/TFN
1.3.2 数据聚类分析
本文所采用的聚类算法为K-Means聚类分析算法,其算法思想为:先将数据大致分为K类记为Ck,找出这K个分类的均值或聚类中心,计算各个点到这K个均值点之间的距离,依据各点样本到K个聚类中心的距离再次将数据进行分类,重复计算各类别聚类中心,直至最后的聚类中心与上一次聚类中心值相同为止[13-15]。其算法模型为:
其中,C1,…,Ck为K个类别集合,mj为集合Cj的中心,n为样本总个数,x为集合内Cj的元素。K-Means聚类示意图如图2所示。
图2 K-Means聚类循环迭代优化示意图
给定2个员工行为数据集:门禁刷卡数据集D={D1,D2,…,Dn},专业日常办公软件操作数据集M={M1,M2,…,Mn},本文目标是从2个数据集当中提取出员工行为特征向量集Features={f1,f2,…,fn},对特征向量集做聚类分析[16-17],从而依照工作态度、岗位特征对员工进行分类聚类,并从中发现隐藏的行为规律特征。数学形式为:
C{c1,c2,…,cn}=K_Means(Features)
其中,C为聚类结果,即类别集合;c1,c2,…,cn为集合C当中的类别元素项;K-Means为聚类分析算法;Features为特征向量集。
2 数据准备
本文所用数据来自70个部门的7100名员工,包含门禁刷卡和专业日常办公软件2种主要行为的数据,时间范围从2021年7月1日—2021年10月31日一共123天。数据详细情况如下:
1)门禁刷卡数据。
门禁刷卡信息所包含的数据有员工姓名、刷卡时间、刷卡地点、员工编号、员工所属部门。数据记录了1459名员工刷卡信息。
2)专业日常办公软件数据。
该软件为科研院所日常办公所采用的办公平台软件,数据记录了7100名员工操作日志信息。软件总共包含了800个模块,其中日常类有318个,专业类161个,管理类321个。软件每一次被操作都会生成对应的日志信息存入日志文件中。专业日常办公软件所包含的数据有员工姓名、员工编号、用户账户、操作模块、操作编码、操作描述、操作时间。
3 实验及结果分析
3.1 特征数据
根据预先设定的特征,对门禁刷卡数据和专业日常办公软件操作数据进行特征计算,其部分数据结果如表1和表2所示。
表1 门禁刷卡特征数据
表2 专业日常办公软件使用特征数据
门禁刷卡与专业日常办公软件操作联合特征集(Joint Feature Set, JFS)表示方法为:以员工编号做映射链接,取两者特征集的并集[18-20]。联合特征集数学表示形式为:
JFS={f∈Feature|Feature∈Fdoor∪Feature∈Fsoft}
其中,JFS表示联合特征集,f为联合特征集当中的特征元素,用一组特征量Feature描述,Fdoor为门禁刷卡特征集,Fsoft为专业日常办公软件操作特征集。其中,特征项“加班率”用2个数据集加班率的均值表示。
3.2 行为分析数据
分析结果主要包含3个方面内容:门禁刷卡聚类结果、专业日常办公软件操作聚类结果、门禁刷卡和专业日常办公软件操作联合聚类结果。
3.2.1 门禁刷卡聚类
本文对1459名员工门禁刷卡信息进行聚类,结果如表3所示。
表3 门禁刷卡聚类分析结果
通过对表3数据分析可得到如下结果:
1)出勤率最高的簇,加班率也是最高的,约占总人数比例为9.8%。
2)刷卡地点多的员工,出勤、加班、准时率都不高,比例为5.2%。
3)出勤率最高的人其加班率、准时率都比较低,比例为14.2%。
4)簇人数最多的人特点是出勤率中等、准时率中等,加班率较低,比例为30.6%。
5)出勤率较高,准时率较高,但加班率较低的人约战总人数的21.0%。
经过对现场相关人员调研,考虑工作性质,对出勤率(即刷卡率)、准时率、加班率以20%、70%为界限划分等级:低于20%为低,20%~70%为中,大于70%为高。勤奋度同出勤率、加班率、准时率关系设定为:高出勤率,判定为特别勤奋型;中低出勤率、加班率,高准时率,判定为一般勤奋型;中出勤率、准时率,判定为普通型;出勤率、准时率、加班率都比较低,则判定为散漫型。
依照勤奋度对聚类结果划分如下:簇1、簇3为特别勤奋型,簇5为一般勤奋型,簇2、簇4为普通型,簇6为散漫型。簇划分如表4所示。
表4 簇划分
依照员工行为特征数据与聚类中心距离对员工进行分类统计,将员工划分到指定类别当中,最终分类人数统计结果如图3所示。
图3 门禁刷卡聚类人数统计图
3.2.2 专业日常办公软件操作聚类
本文对7100名员工的专业日常办公软件使用数据进行聚类,其聚类结果如表5所示。
表5 专业日常办公软件操作聚类结果
员工岗位分类标准制定为:对比功能模块使用占比,若某个功能模块使用占比明显高于其他模块且占比率大于40%,则该簇中的人员属于该功能模块对应的岗位类型;若某一功能模块使用占比在区间(40%,20%]之间,则该簇人员有属于该功能模块对应岗位类型的倾向。因此,对表5中的簇进行分析,所得到的岗位特征分类结果如表6所示。
表6 岗位特征分类表
根据聚类结果划分,相关人员统计结果如图4所示。
图4 专业日常办公软件操作聚类人数统计图
通过对表5数据分析可得到如下结果:
1)簇3有一定普通类功能使用占比,簇6、簇7有一定专业功能使用占比,簇9有一定日常型功能使用占比,但两者使用占比都不高,可能具有岗位调动的倾向。
2)使用天数最多的存在于日常类功能使用相关人员,平均使用次数最多的存在于管理类功能使用人员。
3)专业功能和日常功能使用较多的人员其管理类功能使用很少。
3.2.3 刷卡、专业日常办公软件操作联合聚类
同时具有门禁刷卡信息和专业日常办公软件操作数据的员工有1162名,对1162名员工进行联合聚类,其结果如表7所示。
表7 刷卡、专业日常办公软件操作联合聚类结果
通过表7数据分析可得到如下结果:
1)专业日常办公软件管理类功能使用占比最高的人员,其平均每天使用次数也较多。
2)高加班率、高准时率、高出勤率以及较多打卡地点现象一般出现在日常类功能使用人员当中。
3)专业类功能使用较多的人,其刷卡地点相对较少,但具有较高的出勤率、准时率和加班率。
联合聚类分析结果散点图如图5(“★”代表聚类中心,“·”代表数据分布)所示。
图5 刷卡、专业日常办公软件操作联合聚类结果
从图5可以看出,日常类、管理类、专业类功能使用界限比较明确,同一功能使用不同人员也有不同使用情况。其中有一些人员同时使用2种以上的功能,这类人可能与其工作性质有关,也可能有岗位变动的预兆。
K-Means聚类结果易受预先人为设定的阈值影响[21]。阈值大小决定了最终分类类别个数,从而影响聚类结果优劣性。因此,需要对聚类算法进行改进,以实现动态阈值设定,从而保证分类尽可能准确。
3.3 实验验证
经与现场相关人员调研了解并且结合数据库中员工岗位情况,与实验结果相对比,员工工作态度分类结果正确率约为89.6%,岗位分类结果正确率约为97.5%。采用此方式对员工行为分析基本正确,取得了较好的效果。
4 后续研究计划
1)对聚类算法进行改进。下一步研究计划通过设定合适的评估标准来自动设置聚类算法阈值,以排除因人为设定聚类阈值而对聚类结果产生的干扰[22-23]。
2)增加模糊度量。人的行为具有很大的不确定性,对应行为所产生的数据也具有很大模糊性,因此可以采用模糊聚类方式对数据进行处理,使得行为分析结果更加准确、贴合实际[24-27]。
3)采用多种算法。除了使用聚类分析方式外,尝试采用其他行为特征分析方式(如关联规则挖掘、过程挖掘、统计分析等)分析员工行为特征,对比行为分析算法优劣性。
5 结束语
员工门禁刷卡信息数据以及专业办公软件操作日志信息可以作为员工行为分析的数据支持,从某种角度上可以体现出员工的一些行为特性,对这些数据的分析总结能够挖掘出一些行为特征规律。聚类分析方式对员工进行分类是可行的,应用聚类分析算法对行为特征进行分析,从一定程度上可以对员工作一些初步的分类聚类,且能够取得较优的效果。
目前所采用的聚类分析方式存在一些弊端,如人为聚类阈值设定等,需要通过制定一定的评价标准来确保聚类阈值设定的动态性,从而排除静态阈值对聚类结果产生的干扰。另一方面,采用其他行为分析方式、算法结合员工工作岗位特点去分析,或许可以挖掘出不一样的行为特征规律。