多种数据挖掘技术相结合的应用实例分析
2013-03-16张如
张 如
(福州职业技术学院 计算机系,福建 福州 350108)
多种数据挖掘技术相结合的应用实例分析
张 如
(福州职业技术学院 计算机系,福建 福州 350108)
利用限制性关联规则挖掘技术与粗糙集理论挖掘技术相结合,挖掘教学信息表,去除无关联属性后,最终得出影响教师教学效果的各因素及其各自的影响程度。
教学评价;数据挖掘;关联规则;粗糙集
随着计算机相关技术的飞速发展和教育模式的改变,各高职院校纷纷采用了科技化的管理方式,而在各种管理工作中,教学管理无疑是重中之重。各高职院校都会有自身的初级数据管理系统,这些管理系统提供了大量数据的存储、查询和报表的统计功能。但面对如此丰富的数据,我们似乎只能基于表面的数据得到简单的结论,而不能从中得到更加有用的信息来促进教学管理的改革。
教师是教学工作的主要承接者,也是主导教学质量的最关键因素。能否运用教师的教学评价数据,通过数据挖掘技术找出教师的课堂教学效果与教师本人自身综合素质的关系。而通过所得到的挖掘信息,相关部门就可以得出相应的决策信息,在进行班级排课时充分考虑不同素质的教师在一个教学班级的配置情况。本课题正是基于数据挖掘技术挖掘教学管理系统中的数据,从而提取出有利的信息帮助管理决策层进行相应的教学管理改革。
1 问题的提出
随着高职院校信息化建设的逐步深入,传统教学与管理模式己经远远不能满足高职院校建设与发展需要,高职教育的核心工作就是教学工作,而提高教学质量是促进院校进行改革与发展的关键,建立科学有效的教学质量评价体系是加强各院校教学管理和提高教学质量的重要举措。而利用数据挖掘技术为高职院校的教学管理与决策工作服务,是当今高职教学及管理改革的重要步骤。教学质量评价[1]是院校让学生共同参与教学管理监督的一种手段,让学生参与评价,能较公正地评价教师的教学能力。但学校对此评价结果的认识似乎还停留在评优评先的层面,这对于这些数据来说是大材小用了。学校的决策层远没有认识到其中隐藏的巨大的信息资源。
教师的教学效果与教师本身素质中哪些素质有关系?找出其中的规律,将有助于决策层在安排教学工作时能考虑到这些因素对于教师教学工作的影响,并促进教学安排工作事半功倍。研究教师教学效果与教师本身的综合素质中哪些素质有联系,联系程度又是如何,是本课题探讨的二个重要的问题。
2 解决方案的研究
2.1 解决思路的引入
将数据挖掘技术应用于教师教学评价体系中,将带来决策性的大革命。本课题要求研究结果能表达出教师的综合素质中的各素质对于教学效果有无影响以及如果有影响那么其联系程度又是如何的问题。只有回答了这些问题,决策者才能了解到有用的信息,并运用到教学安排工作中去。
但运用什么样的数据挖掘技术才能较好地实现这个研究目标,将是本文要解决的关键性问题。为了能找出合适的研究的方法,必须深入了解数据挖掘技术。
数据挖掘是从大量的现在及历史数据中挖掘出隐含的、未了解的、用户感兴趣的并能为决策提供潜在价值的知识和规则[2]。数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差监测、预测等。
数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:
(1)数据总结:继承于统计分析,是对数据进行浓缩,给出它的紧凑描述。
(2)分类:构造一个分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
(3)聚类:把整个数据库分成不同的群组,使群与群之间差别很明显,而同一群间的数据尽量相似。此方法通常用于客户细分。在开始细分之前不知要把用户分成几类,因此通过聚类分析可找出特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可制定一些针对不同客户群体的营销方案。
(4)关联分析:寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类似,寻找的是事件之间时间上的相关性。
(5)预测:用于掌握被分析对象发展的规律,由此对未来的趋势做出预见。
(6)偏差的检测:对分析对象中少数的极端的特例的描述,揭示内在原因。例如在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
以上的各项功能不是独立存在的,它们在数据挖掘中互相联系并发挥作用。有的数据挖掘项目,很难将其归属于哪个具体的挖掘方面。如信用卡欺诈的分析,一面可以说是偏差的检测问题,另一方面也可以说是分类问题。因此在挖掘中可以联合各种挖掘技术,让各技术充分发挥自身的挖掘特点,使它们为数据分析的准确定位发挥各自的特点。现在再看一下本课题研究的目标之一:要求能够表达出教师的综合素质中的各素质对于教学效果有无影响的问题。目标之二:如果双方存在联系那么其联系程度又是如何的问题。这就是要求找出数据间的值的相关性的问题,因此初步认定使用关联规则分析比较合适。
2.2 关联规则的应用理由与存在问题
关联规则挖掘就是从大量数据集中发现有意义的关联,它是用于寻找数据间关联的较好的方法。实现关联规则的技术主要是可信度和支持度分析。支持度和可信度是衡量关联规则的两个客观指标,支持度反映了规则的实用性,可信度反映了规则的有效性。用户感兴趣的对决策有用的关联规则一般必须是支持度和可信度均较高的关联规则。关联规则的计算消耗量是可预见的。其挖掘方法容易实现,产生的规则简单易懂。而关联规则在各个行业中的一再成功应用,使关联规则成为了数据挖掘中最成熟、最重要、最活跃的研究内容之一。
传统的关联规则算法存在一些问题:
第一,传统的关联规则挖掘方法未预处理原始的数据集,无视数据中存在着的噪音等问题,也就导致产生了挖掘结果不正确的现象。
第二,在“支持度—置信度”的衡量标准下,关联规则可能会挖掘出数以千计的规则,但真正有意义可能只是其中一小部分。而纯粹以最小支持度和最小置信度两个限制条件所生成的规则,本身的客观性值得研究者考虑。因关联规则没有对数据集进行属性的约简,导致冗余规则的出现,不利于决策者的分析决策。关联规则要找出所有的强关联规则,但强关联常常被证实并不是有趣的,有的甚至是错误的。这个问题缘于关联规则的产生完全基于事实数据,其定规则的自由度过大,又不去考虑规则之间的联系度和用户对规则的认同。规则是否有趣实际的决策权在于用户的,用户应加强一定的限制,因而在进行挖掘时要体现用户和领域知识的融合,这样才能真正挖掘出更加有效的关联规则。
第三,关联规则一般仅适用于布尔型(定性)数据的挖掘,不能进行定量的数据挖掘,挖掘出的关联规则也只能进行定性分析,不能定量分析。
关联规则挖掘是以Apriori算法为经典算法的。此算法在实际应用中存在一些问题。它把整个数据库作为问题源,通过多次扫描数据库的方法发现数据集中的频繁项集。随着数据库规模的不断扩大,此算法的计算效率自然就低下。
基于关联规则存在的问题,如果本课题只使用关联规则进行挖掘分析,似乎会不可避免地产生瓶颈。考虑到挖掘技术有多种并且可以互相合作发挥其各自的挖掘特点,本课题可以再引入其他方式的挖掘方式,填补关联规则的挖掘带来的分析局限性。
再次研究本课题探讨的二个目标,发现目标二的联系程度的问题可以认定为分类的问题。而用于分类的的数据挖掘技术有很多,但是其中的粗糙集理论可以说更适合于本课题的研究。虽说粗糙集理论并不是分类挖掘技术中的典型技术,但因其独有的风格也越来越受欢迎。
2.3 粗糙集理论的应用理由
粗糙集理论可用于分类,挖掘有噪音数据的内在的结构联系[1]。粗糙集理论基于数据内等同类的建立。它亦可用于特征归约,通过此法便可删除无利于分类的数据属性;它还可用于相关分析,通过此法,可以要据分类任务评价各属性的贡献的大小。可以看出粗糙集理论可以在删除噪音数据后很好地为数据集进行分类,并分析出有用数据属性的贡献度。这正适用于本课题的研究内容。
选用抗性品种;轮作倒茬,合理施肥浇水;施用充分腐熟优质有机肥,避免使用未腐熟粪肥,以免把虫源带入田间;优化农田生态条件,铲除地头、沟边杂草,降低蚜虫越冬基数。
粗糙集无需任何先验信息,就可从给定问题的描述出发,通过不可分辨关系和等价类确定给定问题的近似域,从而找出问题的内在规律。数据库中的数据不可避免存在一些缺陷,粗糙集能从数据中发现异常,排除知识发现过程中的噪音干扰。粗糙集还能进行传统关联规则算法无法进行的定量规则的挖掘。
针对不同的问题,属性会表现出不同的重要性。粗糙集理论中的属性重要性是指属性对分类的能力。从决策表中去掉一些属性后,如果分类发生了变化,说明去掉的这些属性的重要性高;反之这些属性的重要性低。属性重要性分析方法可以帮助分析不同属性对于分类结果的影响程度多与少的问题。
约简是一个重要概念。信息表中属性的多少直接影响到挖掘的繁简,冗余属性的删除可以大大简化分析过程。对于决策表有多种属性化简的方法,基于核的属性化简有以下几步骤:求属性化简集的核;计算化简集;确定最佳化简集。条件属性的化简集并不是唯一的,所有化简集的交集称为决策属性集的核,核是唯一的。约简过程比较复杂,约简依据的数学要求较高。如何提高算法的执行效率和降低复杂度是现今粗糙集要面对的问题。
2.4 最终解决方案
考查本课题,可确定研究的内容是属性关联与属性重要性问题。利用关联规则与粗糙集的属性约简都能找出属性关联性。但属性约简方法要基于核计算化简集后才能找出最佳化简,其计算量比较大,而约简所使用算法要求较高。而关联规则可以快速找出数据间的关联,并产生定性规则,因而其比较适用于处理决策表中条件属性与决策属性间有无关联这种问题。其方法比较简单,但使用时用户必须加入限制。对于其无法进行的定量分析,可以采用其他方法进行挖掘。针对研究的另一个目标,可以通过粗糙集属性重要性方法分析不同属性的重要度。
因此,将关联规则与粗糙集两种方法进行结合,以关联规则作为数据的前期处理算法,以粗糙集为后期处理算法。但在用关联规则挖掘前,先强制要求只挖掘教学良好(评定分数≥85)的教师数据,从中剔除无关属性,使挖掘更有针对性。去除冗余属性后的数据集再用粗糙集的属性重要性方法进行挖掘,得出教师各素质对其教学效果影响的重要度排序。这样不仅提高了各算法的执行效率并且降低复杂度。
2.5 与现有方法的比较
文献[3]、[4]中提到了基于粗糙集理论的关联规则挖掘方法,其挖掘特点是针对关联规则会产生大量的冗余规则,利用粗糙集属性约简方法去除决策表中冗余属性后,再进行关联规则的挖掘。
本文所用的方法与其它方法不同之处在于,以关联规则作为数据集的预处理,以粗糙集为最终研究算法。而上面的方法是用粗糙集约简方法作为数据集的预处理,最后再采用关联规则。在计算上,本文的方法避开了约简算法较繁琐的约简集求解过程,为了避免关联规则挖掘的盲目性,在进行关联规则定性挖掘前为其定义了挖掘限制,从而提高了挖掘准确性。以此挖掘方法剔除冗余属性后产生的二次数据集将较为精确。用关联规则进行定性分析与用粗糙集方法进行定量分析,使本文的算法对于本文的研究内容更有针对性,更有效率。
3 应用与结论
抽取教师教学信息表,获取教师工号、教龄、性别、职称、学历和教学效果几项内容,如表1。
表1 教师教学信息表
对此数据表应用限制性关联规则挖掘后发现:对于教学效果无效的属性是“性别”属性,所以将其剔除。保留数据集中的学历,教龄,职称三个属性作为下一步的研究数据集属性。
应用属性重要性分析方法对优化的(已去除性别属性)教师教学信息表进行重新挖掘分析。令a、u、v分别对应学历、教龄、职称。作为决策属性的教学效果有3种值对应3类,第1类为良好,第2类为一般,第3类为较差,分别对应1、2、3。设条件属性C={a,u,v},决策属性D={l,2,3}。最终运算得到的结果是:“职称”与“学历”都最大程度地改变了决策属性(课堂教学效果)的分类。而“教龄”的影响作用相对会小些。
最终的挖掘结果与现实世界是对应的。例如,无论男教师还是女教师都有优秀的,所以性别是与教学效果的好坏无必然联系。教师随着教龄的增长,经验也在不断地增长,处理教学也开始游刃有余,但是如果不能完善自身的知识水准,充其量也只是在教学方法上有所改进,却无法为学生输送更多的新知识。因为自身的知识所限导致教学上无法进步,是很多教师面临的瓶颈。因而很多的教师开始重视自身知识的提高,重新进入学校,进行学历的提升,同时提升了专业知识水平。职称的提升同样带动了教师知识水准的提高,职称越高,教师要钻研的东西会更多,这样就无形中带动了教师专业知识的提升。
决策者可从以上结论中得出有效的决策信息。比如职称与学历的建设对于教师自身素质的提高有着至关重要的作用,学校可大力促进教师的学历建设,重视教师的职称评聘工作。而有关部门在进行班级排课时,可以根据决策支持信息,充分协调一个教学班中教师的教龄、职称、学历的合理分配,使教师能够较好地保持良好的教学状态,使课堂教学效果达到最佳。而作为教师本身同样要认识到提高自身的学历知识,提高业务能力,将更有助于自身教学质量的提高。
[1] 柳炳祥,章义来,方俊,朱一平,孙志芹.基于数据挖掘的教学评价方法[J].计算机与现代化,2005,116(4):87-89.
[2] 韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2008:22,66.
[3] 童舟.基于粗糙集理论的关联规则挖掘研究[D].长沙理工大学,2007.
[4] 何田.基于粗糙集和概念格的关联规则挖掘研究[D].华中师范大学,2008.
(责任编辑、校对:田敬军)
Analysis of a Variety of Data Mining Technology Combined Application Instance
ZHANG Ru
(Department of Computer, Fuzhou Vocation Technology Institute, Fuzhou 350108, China)
The restrictive association rules and rough set theory was combined to analyze the teaching information table. After removing unrelated attributes, it eventually comes to the various factors affecting the effectiveness of teaching and their respective impact.
Teaching evaluation; Association rules; data mining; rough set
TP311.13
A
1009-9115(2013)02-0047-03
10.3969/j.issn.1009-9115.2013.02.016
2012-10-30
张如(1975-),女,福建福州人,硕士,讲师,研究方向为数据库、多媒体、网络。