APP下载

数据挖掘软件Clementine在干部培训教学评估中的应用

2015-06-27潘峰

常州工学院学报 2015年6期
关键词:教学评估项集结点

潘峰

(国家税务总局税务干部进修学院,江苏扬州225007)

数据挖掘软件Clementine在干部培训教学评估中的应用

潘峰

(国家税务总局税务干部进修学院,江苏扬州225007)

关联规则数据挖掘技术可以有效分析干部培训院校教学评估数据,发现评估指标之间的关联,为教学工作和教师发展提供良好的建议。介绍了关联规则挖掘的概念、算法、工具,并使用Clementine工具对实际数据进行分析而产生出强关联规则,验证了在教师培养和管理中,应着眼改进教学方法以及提高理论联系实际的程度。

数据挖掘;关联规则;Clementine;教学评估

Abstract:Association rule mining technology can effectively analyze evaluation data in cadre training institutes,find out the association among evaluation rules and provide valuable suggestions for teaching and teachers′ development.The paper introduces the concept,algorithms and tools of association rule mining.Clementine tools are used to analyze actual data set and strong association rules are thus generated.The paper proves that it is necessary to improve teaching methods and focus more on integrating theory with practice in teacher training and management.

Key words:data mining;association rule;Clementine;teaching evaluation

1 干部培训教学评估

教学评估有广义与狭义之分。狭义的教学评估是根据一定的评估标准,对教师的教学活动进行检测,并评定其价值及优缺点,以求改进的过程。

干部教育培训尤其强调理论联系实际。从实践层面看,参加培训的干部大多具有一定的工作经验,在实际工作中面临着不少需要解决的问题,参加培训学习的目的旨在找到解决这些实际问题的方法。干部培训要提高教学质量,必须开展教学评估,使教学指标可以量化、测评、评比,在比较中发现问题[1]。干部培训教学评估和一般的教学评估存在明显差异,尤其体现在评估指标的迥异,干部培训尤其注重教学中联系实际的程度和教学结果对实际工作的指导性。

2 关联规则与算法

2.1 关联规则挖掘

关联规则是描述数据库中数据项之间存在的潜在关系[2]。关联规则挖掘是从事务集合中挖掘出这样的关联规则:它的支持度和置信度大于等于用户指定的最低阈值(minSup,minConf)。

给定一存在的事物集D={d1,d2,…,di,…,dn},di(i=1,2,…,n)是一事物,ti={t1,t2,…,tk,…,ts},其中tk(k=1,2,…,s)是事物的项。假设I={i1,i2,…,ik,…,is}是事物集D的所有数据项的集合,X和Y是I的子集,Sup(X)=(D中包含项集X的事物数/D的事物总数)×100%。

若项集X和Y满足X∩Y=Ø,则称X⟹Y为关联规则,项集X∩Y的支持度称为关联规则X⟹Y的支持度,标记为Sup(X⟹Y)=Sup(X∪Y),关联规则X⟹Y的置信度Conf(X⟹Y)=(Sup(X∪Y)/Sup(X))×100%,如果置信度越高,则Y就越可能包含在X的事物集中。

在关联规则挖掘初始化时,先预设minSup和minConf的值,如Sup(X⟹Y)≥minSup且Conf(X⟹Y)≥minConf,则该关联规则X⟹Y是强关联规则。

2.2 Apriori算法

Apriori是一种著名的关联规则挖掘算法,这是一种基于两阶段频集思想的递推算法。该算法的基本思想是:找出所有的频繁性不低于预定义的最小支持度的项集,再由这些频繁项集产生不低于预置的最小支持度、不低于预置的最小可信度的强关联规则。

算法利用了Apriori的一条性质:任一频繁项集的所有非空子集也必须是频繁的。就是说,生成一个k-项集的候选项时,如果这个候选项有子集不在频繁(k-1)-项集中,那么这个候选项就不用去比对支持度了,而是直接删除。Apriori算法过程可分解为以下2个步骤。

1)挖掘事物数据库中所有的频繁项集。首先,挖掘频繁1-项集(L1);其次,递归挖掘频繁k-项集(Lk)(k>1),其中每次挖掘出候选频繁k-项集(Ck)之后都要根据比对最小置信度(minSup)来筛选,得到Lk;最后,合并全部的Lk(k>0)。

2)基于挖掘到的频繁项集,继续挖掘出全部的强关联规则。先挖掘出全部的关联规则(候选关联规则),再比对minConf来得到强关联规则。

3 Clementine在干部培训教学评估中的应用

在各种数据挖掘工具评估中,Clementine在技术创新方面遥遥领先。研究人员可以借助Clementine快速建立预测性模型的功能,帮助改进决策过程。Clementine广泛支持Apriori模型、GRI模型、可视化网络图、决策树、神经网络等各种数据分析预测模型。

本文研究的数据来源于某干部学院2014年3—8月间的“教学评估系统”。该系统用于在校学员对授课教师进行评估,具体评估指标包括仪态仪表、语言表达(包括普通话水平)、教学信息量、对工作的指导性、知识深度与前瞻性、教学方法、联系实际的程度等。数据格式为Effect表,操作系统为Windows 7 professional 32 B,内存4GB,软件工具为SPSS Clementine 12.0。

Clementine 12.0软件在干部培训教学评估的具体应用过程如下说明。

1)添加本地数据源(ODBC)。打开Windows 7“管理工具”,打开“数据源(ODBC)”,在“用户DSN”中点击“添加”,选择“microsoft access driver(*.mdb,*.accdb)”,选择数据库文件“C:〗***vote2014.mdb”,命名“数据源名”为“pinggu”。

2)添加数据库结点。打开Clementine 12.0软件,在数据流程区添加“数据库”结点,具体添加方法:在主界面下方选项面板中的“源”中双击“数据库”或选中“数据库”拖拽至数据流程区;鼠标右键移至数据库结点,点击“编辑”,命名结点为“pinggu”,提取所需的数据集合(表),这里是Effect,该表是学员对教学评价意见的数据。

Effect表中对应字段为effect_id、project_id、class_id、user_id、appearance、language、content_info、content_direct、content_depth、method、practice,id为数值型,评估指标选值为“优+”“优”“优-”“良+”“良”“良-”“中”“差”(如表1所示),记录数共8 429条。在Clementine中编辑“pinggu”结点的“过滤”设置,删除不必要的字段,如project_id,class_id,user_id等,这样就删除了表1中的3个字段(注:effect_id字段用于数据处理前后的对比,实际操作时也将删除)。

表1 教学评估意见原始数据表

3)添加类型结点。在数据流程区添加选项面板“字段选项”中的“类型”结点,并与之前的“pinggu”结点连接,具体操作:使用鼠标选中起始节点“pinggu”,用鼠标滑轮将其拖拽至目标结点“类型”(下同);鼠标右击“类型”,选“编辑”,点击“读取值”读取各字段数据,将各字段的“数据类型”设置成“集”(如自动形成,则不用设置),将“方向”设置成“两者”。

4)添加预处理结点。在数据流程区添加选项面板“记录选项”中的“选择”结点,编辑命名为“预处理”,并与之前的“类型”结点连接;在“丢弃”选项中键入“(appearance=language)and(language=content_info)and(content_info=content_direct)and(content_direct=content_depth)and(content_depth=method)and(method=practice)or appearance=″″or language=″″or content_info=″″or content_direct=″″or content_depth=″″or method=″″or practice=″″”,删除评价意见均为同一值的、不完整、有缺项的不合格数据。预处理后的总数据记录数为1 786(见表2)。

表2 数据处理后的教学评估意见表

5)添加表结点(可选)。“表”结点可以预览数据预处理后的情况,如图1所示。在数据流程区添加选项面板“输出”中的“表”结点,并与之前的“预处理”结点连接。此时可以鼠标右击“表”结点,选择“执行”,可以看到数据筛选后的结果。

图1 数据预处理结果

6)添加模型结点。在数据流程区添加选项面板“建模”中的“Apriori”结点,命名为“多前项”,并与之前的“预处理”结点连接;鼠标右击模型结点,选“编辑”,“字段”中的前项和后项均选择全部字段,“模型”中设置最小支持度30%,最小置信度80%,最大前项数5。执行该字段后,Clementine管理器“模型”中会显示“多前项”图标,鼠标右击,选“浏览”可以看到计算结果。

7)添加图形结点(可选)。将管理器“模型”中“多前项”图标拖拽至数据流程区,并和“预处理”结点连接;在数据流程区添加“图”结点,设置二维或三维字段名称,并与“多前项”图标连接。执行该节点,可以直观显示数据分析结果。

综上,Clementine提供了可视化和功能强大且易用的数据挖掘平台[3],数据挖掘的过程和结果都在数据流程区内图形化地显示(见图2)。箭头表示数据的流向,每一个结点定义了对数据的不同操作,各种操作组合在一起便形成了通向目标的路径。

图2 Clementine数据流程区

按上述步骤进行关联规则发现,生成了强关联规则。根据预先设置minSup=30%,minConf=80%,最终关联规则挖掘结果如图3所示。

图3 关联规则挖掘结果

4 关联性结果分析

通过对筛选出的强关联规则进行分析,可以发现教学评估意见指标之间的关联。例如:由method⟹practice可知,教学方法优秀的教师,其授课联系实际程度的可能性是82.73%,如果要提高学员对教师“理论联系实际”评估水平,则应该在提升教学方法方面下功夫;同理,由method∧practice⟹content_direct可知,如果教学方法和理论联系实际都优秀的教师,对工作的指导性也最强的可能性为80.22%,如果要提高对实际工作的指导性,则应该提升教学方法和加强理论联系实际的程度。

因此,教师培养和管理中应该重点着眼于改进教学方法及提高联系实际的程度,这也完全符合干部教育培训的“实践性”这一根本特点和要求。

5 结语

当前,各级各类干部培训院校积累了海量的教学评估数据,如何针对存量的评估数据进行数挖掘分析,是一项需要持续关注的工作。灵活应用包括Clementine在内的关联规则数据挖掘工具,发现隐藏于其中的关联规则,可以更好地指导干部培训教学工作和促进教师个人发展。

[1]潘民.加强教学评估,提高督导质量[J].考试周刊,2014(75):163-164.

[2]何楚,宋健,卓桐.基于频繁模式谱聚类的课程关联分类模型和学生成绩预测算法研究[J].计算机应用研究,2015,32(10):2930-2933.

[3]李阳,许培扬.如何使用数据挖掘工具Clementine:以我国图书情报类期刊学术影响力评价为例[J].现代情报,2012,32(1):146-149.

责任编辑:陈 亮

Application of Clementine in Data Analysis for Evaluating Cadre Training

PAN Feng

(Cadres Training Institutes of State Administration of Taxation,Yangzhou 225007)

10.3969/j.issn.1671- 0436.2015.06.015

2015-11-27

潘峰(1981— ),男,硕士,高级工程师。

TP311

A

1671- 0436(2015)06- 0067- 04

猜你喜欢

教学评估项集结点
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
中等职业学校英语教学评估存在的问题及对策
基于教学评估及反馈的住院医师规范化培训晨课改进
不确定数据的约束频繁闭项集挖掘算法
一种垂直结构的高效用项集挖掘算法
基于大数据的本科教学质量保障体系建设研究
“五个度”见证我国高等教育
分布式数据库的精简频繁模式集及其挖掘算法*