APP下载

基于日志数据的研发工程师能力评价研究

2019-06-17黄阿娜

计算机应用与软件 2019年6期
关键词:特征词日志工程师

魏 忠 鲁 源 黄阿娜

(上海海事大学经济管理学院 上海 201306)

0 引 言

人事经济学中的一个核心问题是,当企业对员工行为和工作特征的了解有限时,该如何评估和筛选员工[1]。绩效评价指标往往被用于缓解由信息有限而引起的问题[2],因此员工评价问题通常从挖掘员工信息和确立评价指标两方面着手。

一方面,大数据的发展引发行为大数据的爆发,促使更多人展开对行为的分析研究[3]。行为大数据是指人们在生产活动中产生的行为数据集,而员工的行为数据则是在企业工作中形成的行为记录,比如考勤记录、工作日志、研发脚本等。其中,工作日志主要用于记录日常工作内容包括工作进度、问题分析、应对方法等。虽然是自由文本形式,但已被证明能够反映员工行为的隐性素质,成为深入了解员工行为特征的有效途径[4]。如Zacher等[5]基于日志数据验证双元领导对员工创新行为的影响;Hooff等[6]通过对工作日志的分析,讨论研究员工工作需要的满足感与工作状态恢复之间的关系[6];程鹏等使用统计法对员工日志进行统计分类,通过分类对员工进行归纳分析,总结员工的行为特征等。

另一方面,前人研究往往选择建立一套评价指标体系,从而减少直接评分的主观性、量化评价结果。如陈沛然[3]构建了包含6个指标的绩效考评标准指标体系,通过层次分析法赋予权重;樊文有[7]基于平衡计分卡建立了一套考评指标体系,通过4个维度对工作进行评价[7];吴红霞等[8]从三个角度创建了能力绩效的评价体系,并运用三阶段DEA分析方法进行测度等。

上述的方法虽然确立了评价指标体系,但直接定义的指标内容并非来源于管理者的统一意志,无法代表企业对员工的能力要求。因此,本文在前人研究的基础上,顺应大数据时代的要求,以某公司软件研发部门为例,对研发工程师的工作日志数据进行文本处理和特征研究;同时,采用德尔菲法确定企业管理者的能力评价标准体系,结合前景随机占优准则对员工能力进行量化分析,最终得出一个更加客观全面的研发工程师能力的评价结果。

1 日志数据预处理

1.1 数据准备

某公司日志系统用于记录员工日常工作内容,包括工作进度、问题分析、应对方法等。在日志记述中要求员工实事求是,并规定填写时限,极大保证行为数据的客观性和有效性[9]。本文的研究数据来源于该公司服务器上全部75位研发工程师入职至今的所有日志数据,保证了原始数据的完备性,降低丢失重要判别信息的可能性[10]。

与此同时,为了提高日志数据的准确性、确保数据分析的最终结果,采用Python对日志数据进行预处理[11]。首先对研发工程师的工作日志按照时间跨度进行排序整理,剔除重复数据和噪声数据,同时去除不满足条件的样本:

(1) 日志记录条数过少或每条日志内容过少;

(2) 日志文本时间跨度不够,即从事研发工作时间不长;

(3) 工作内容与研发无关。

经整理,研究的样本量减少为59。其次,通过数据清理过程为文本挖掘准备合格的数据,剔除高频非特征的词语、非中文词语(数字、符号、其他语言等),至此得到的所有日志数据均为干净可直接使用的文本。

同时,为了验证本文分析方法的准确性,预先邀请该公司管理层对研发工程师进行能力评分(0~10分),将其作为实际结果与本文的预测结果进行对比分析,如图1所示。

图1 软件开发人员能力初始评价图

1.2 特征分析

基于前文的可用数据,采用中科院汉语分词系统(NLPIR)对所有文本进行分词,并标注词性(包括动词、名词、形容词、副词等),统计词性比例。同时依据词频提取研发工程师的特征词,通过Python制作日志词云进行可视化展示。

本文选取开发型、操作型、管理型三类具有代表性的研发工程师词云进行示例,如图2所示。词语字号越大表示其使用频次越高,一定程度上反映该工程师某方面能力突出。比如“开始”、“进行”、“完成”等词体现工程师条理清晰,执行力强;“讨论”、“沟通”等词体现工程师协作配合能力强;专业词汇则可体现工程师的专业化程度等。

根据词云图片不难看出,研发工程师的工作方式特点各异、工作能力大相径庭。因此,基于日志文本对研发工程师进行能力评价具有很大的参考价值。

(a) 开发型

(b) 操作型

(c) 管理型图2 研发工程师日志词云示例

1.3 特征词选取

本文采用向量空间模型VSM,将每个员工的日志抽象为一个向量。假设每个向量由n个词组成,每个词的权重为wi(i=1,2,…,n),此时员工能力评分可表达为多维向量d=(w1,w2,…,wn)。采用词频TF(Term frequency)计算权重,公式如下:

(1)

式中:M表示文本的总词数,N表示特征词在文本数据中的出现的次数。

由于日志文本维数过多,需要降维处理,本文综合计算所有研发工程师日志中词频排名前100的词语,最终,确定具有代表性的特征词(即关键词)100维。

2 基于德尔菲法的能力调查

德尔菲法又称专家集体评价法,即专家以匿名的方式对调查者提出的问题发表意见和建议。通过多轮调查、反复总结和修订,使专家组的预测意见趋于集中,最终得出具有整合意义的结果。

2.1 指标量化

德尔菲法最关键的一点是挑选合格的专家[10]。为了保证价值判断的正确性和加权结果的客观性,本文在考虑专家的权威程度、实践经验、理论水平的基础上[11],邀请该公司7位高级研发部工程师组成咨询小组。

经过研究沟通,最终确定用于表达工程师能力的7项指标,即特征词、专业词、日志长度、名词、动词、修饰词、数词量词。专家问卷内容包括最佳比例、重要程度、熟悉程度、判断依据等。采用Likert测度法从弱到强将指标比例、指标重要程度等划分为5度,将特征词重要性分为7度,专家据实打分,进行指标量化,如表1所示。

表1 专家问卷指标量化与评分标准

2.2 统计分析

德尔菲法的统计分析过程是其量化过程中的关键部分,这一过程关系到是否保留预设指标。本次调查共向7位专家展开两轮咨询,经统计分析:

(1) 积极系数:即问卷的回收率,本文共咨询2轮,每一轮专家积极系数均为100%。

(2) 集中程度:即调查选用的专家对研究选定的各指标相对重要性的意见的集中程度。经两轮咨询,确定指标重要程度排名为数量、形副、动词、专业词、日志长度、特征词、名词。如表2所示。

表2 专家意见的集中程度

(3) 协调程度:专家协调系数的P值经过两轮咨询后数值小于0.05,表明专家对各指标的评价意见经过两轮咨询达到一致,如表3所示。

表3 第一、二轮咨询的专家协调系数

(4) 权威程度:指在这一领域接受采访的专家的理论和实践水平,反映调查的可信性。本研究的专家权威程度(Cr)为0.735~0.788,一般Cr≥0.70 即可。

综上,各项统计结果均在可接受范围内,专家评估意见的协调性好、可信度高,指标体系客观、合理。在此基础上,采用百分权重法,将专家对指标重要性评分的算术平均值除以所有指标总均数值。最终,通过德尔菲法确定的各指标相对重要性,即特征词、日志长度、专业词、名词、动词、形副、数量7项指标的权重分别为0.3、0.15、0.05、0.10、0.2、0.05、0.15。

3 基于前景随机占优的能力评价

3.1 问题描述

3.2 决策方法

针对研发工程师能力评价问题,员工属性的评价结果会呈现离散概率分布的形式,显然,评价结果可被视为一个离散型随机变量。本文给出一种基于员工日志文本和管理层期望的研发工程师能力评价方法。该方法包括3个部分:计算评价损失结果及其概率分布、构建两两员工比较的能力随机占优关系矩阵、选择优秀的员工。

i=1,2,…,m,j=1,2,…,n,l=1,2,…,k,ε∈[0,1]

(2)

(3)

式中:wj表示属性Cj的权重,yij表示针对工程师Ai关于属性Cj的评价的损失结果。

另外,为了判断该方法对研发工程师能力评价的准确性,引入下式计算研发工程师能力评价平均准确率:

(4)

式中:RC表示员工训练后排名,RI表示员工初始调查排名,M表示参与排名的员工总数。

同时,使用欧式距离度量所有研发工程师预测排名与初始排名的相似度,如下所示。欧式距离越小说明前后排名差异越小,即分析结果越准确。

(5)

式中:xi表示调查样本中每个研发工程师的初始排名,yi表示运用本方法计算而得的排名。

3.3 评价结果

根据上述的评价方法,计算易得每个研发工程师的能力评分结果,具体得分排名整理部分如图3所示。评分越高的研发工程师,说明其工作日志中各项指标更符合管理层的期望,即该工程师更符合管理层专家对于研发工程师的要求。

同时,根据式(4)求得开发人员能力评价准确率为83.76%。根据式(5)计算而得分析排名与初始排名的欧式距离为9.70。因此可得,该方法准确率较高,在样本数较少的情况下也具有一定的稳定性。

图3 开发人员能力评价图

4 结 语

针对员工能力评估的企业管理问题,本文基于研发工程师的工作日志,采用德尔菲法量化确定各日志指标的相对重要性,结合前景随机占优准则,设置参数,对比分析研发工程师的能力水平,最终得出研发工程师的能力水平得分排名,为企业选拔优秀研发工程师提供一定的借鉴意义。但本文同时也存在一定的局限性,比如本文仅局限于软件开发部门,所评能力较为单一。未来的研究可着眼于多个部门的多种能力,如数据部门、硬件部门等,这样不仅可以评估员工对当前岗位的胜任能力,同时还可以预测员工对于其他岗位潜力,如此将对企业管理培养人才提供一个更好的解决方案。

猜你喜欢

特征词日志工程师
《机械工程师》征订启事
基于Simhash改进的文本去重算法
环保工程师:生来为了“拯救地球”
一名老党员的工作日志
Kenoteq的工程师研发环保砖块
基于类信息的TF-IDF权重分析与改进①
扶贫日志
一种面向财务文本分类的TF-IDF改进算法
雅皮的心情日志
雅皮的心情日志