数据挖掘技术在员工培训结果中的应用
2018-07-28张琪琪
张琪琪
摘 要 在大数据背景之下,数据挖掘技术已经在商业、金融业和市场营销等方面得到了广泛的应用。本文主要介绍了分箱离散化技术处理连续数据,再使用改进C4.5算法去构建决策树,并且利用后剪枝算法进行模型优化,不仅减少运算的时间,提高运算效率,而且增加了模型的准确性。该方法应用于企业员工培训,对影响培训结果的员工年龄,性别,工龄,试卷难易程度,理论知识的学习以及实操课课时的安排情况等因素进行分析,找到影响培训结果的关键因素,从而为企业或者公司制定出合理的培训计划,提高员工培训的质量,进而提升企业的竞争力。
关键词 分箱技术 数据挖掘 决策树 C4.5算法
中图分类号:TP311.13 文献标识码:A
0引言
企业对于员工的培训,不仅能够提高员工的知识水平和技能要求,而且增加了本企业所具有的独特性,能够区别于市场,占据一定的市场份额,日积月累也会成为本企业谈判的筹码。培训质量的高低又关联到了诸多的因素,例如员工年龄,性别差异,工龄长短,理论知识的学习以及实操课课时的安排情况等。选取决策树C4.5算法进行深层次的内部挖掘,找出关键因素,让决策制定者可以有明确的方向去努力,从而制定出合理高效的培训方案。
1决策树
决策树是一种比喻的说法,因为其生成的形状类似于一棵倒立的大树,所以命名为“决策树”。决策树是由根节点,分支,叶节点组成。对于根节点而言,它没有父节点,只有朝下的各个子节点,叶节点作为最后一层节点没有子节点,在根节点和叶节点之外的所有节点都成为内部节点,每个节点都对应一个数据样本集。根节点和内部节点都包含有一个对于属性的测试,其分支用于将各个子节点连接起来,代表测试的结果,可以根据测试的结果将样本集划分为多个子集。每一个叶节点对应于一个类别标识符,表示对应样本集的类别。
2 C4.5改进算法
在计算信息增益率时,与ID3算法相比,C4.5算法用信息增益率代替了信息增益,找出其中信息增益率最高的属性作为测试属性,把候选样本集划分为若干子样本集,对于每一个子样本集用同样的方法继续分割直到不可分割或到达停止条件为之。
其中A是某一属性,D是样本数据,v是对应于A上测试的v个输出,可以用属性A划分v个分区或者子集。
ID3中计算信息增益的式子如(2)所示:
(1)
(2)
而在C4.5改进算法中,信息增益率代替了信息增益,其中Gain(A)=Grain(A)如下式(3)所示:
(3)
(4)
3分箱离散化技术在员工培训结果模型中的应用
在C4.5改进算法中,对于最佳分裂点的求取,即就是信息增益率最大的点的获取一般都是要经过对于划分的原始样本进行多次扫描才能得到。假设对于一个样本A,其属于连续属性,首先需要对于A中的值按照升序排列,就其一种比较典型的分裂方式来说,对于给定的A中的v个值,则需要v-1个可能的划分。A的值ai和ai+1之间的中点就应该是式子(5)所示:
(5)
这样分割点就将样本集划分为两个子集,分别是A≤v和A>v,分别计算每个分割点的信息增益率,选择具有最大信息增益率Gain Ratio(v)的分割点,而在序列v1,v2,…Vn中找到的最接近但又不超过局部阈值v的取值V成为属性A的分割阈值。按照上述方法求出当前候选属性集中所有属性的信息增益率,按照这样的方法,直至对于每个样本集不能分割为止。
针对以上方法在找取最佳分割点时,多次扫描数据的问题,提出的分箱离散化技术,对于样本数据提前进行分化处理,按照升序顺序后采用等量划分的思想,将数据存放入箱子中,每个箱子就看做一个新的样本点,这个数据的取值就是该箱子中所有数据的平均值,在遇到小数时采用四舍五入法,将其取整。
假设某一样本中的部分数据如下:
1,2,2,4,4,4,5,6,7,7,7,8,8,10,12,12,14,16,16,17
按照每箱5个数据进行分箱操作:
1,2,2,4,4 对应的数据点是 3
4,5,6,7,7 对应的数据点是 6
7,8,8,10,12 对应的数据点是 9
12,14,16,16,17 对应的数据点是 15
这样,这个部分样本数据就变为了3,6,9,15。与之前的一大串相比,确实简化了数据样本。这样的操作相較于C4.5算法中寻找最佳分割点的方法要简便许多,在同样大的样本下,经过比较,该方法因为前期的分箱预处理数据之后,减少了许多的噪声数据和冗余数据,使得运算的速度大大提高,准确率也更靠近样本原始数据,有所提升。
4结束语
分箱离散化技术的应用,使得改进的C4.5算法在使用性能等各方面更加的良好,改掉了以往C4.5算法在数据预处理阶段多次重复扫描数据的情况,减少了资源和时间的浪费。分箱技术也更简便快捷,没有大量复杂的计算过程,简便的计算就能快速的完成分箱造作,对于信息增益率的求取数目也大大减少,加快了决策树的形成。
参考文献
[1] 董晓娜.A公司人力资源培训体系优化研究[D].北京:北京交通大学.2017.
[2] 傅亚莉.数据挖掘技术C4.5算法在成绩分析中的应用[J].重庆理工大学学报:自然科学版,2013.
[3] 黄爱辉.基于决策树算法的考试成绩分析系统的研究与开发[D].长沙:湖南大学,2008.
[4] 韩家炜,裴健.数据挖掘概念与技术[M].机械工业出版社,2012.