数据挖掘方法在教学质量评价中的应用研究
2015-11-28郝勇智
郝勇智
(中北大学 计算机与控制工程学院,山西 太原 030051)
从上世纪九十年代初开始,数据库技术和网络技术得到了迅猛发展和广泛应用,人们收集和使用这些信息,并将这些数据继续用于管理,办公,研发等生活的方方面面,且这一势头仍将持续发展下去。在信息爆炸这样一个时代里,如何提高利用信息的效率,而不被浩瀚的信息海洋所淹没已成为众多研究领域的共同的研究热点。在教育领域,开展教学评估是保障教学质量的重要举措,对高校而言,教学评价是改进教学质量的有效的工具。教学评价的目的是检查教师的教学效果、教学过程对学生各个方面所产生的影响以及调查学生对教学手段的适应性、教学组织和管理工作所产生的影响等,据此完善和改进有缺陷的教学方法。随着系统管理数据库的广泛应用,在日常工作中收集了很多和教学相关的数据,但数据背后隐含的信息并没有被充分挖掘,教学管理部门不能从这些潜在的信息化管理教学中获益。鉴于此,我们对数据挖掘方法在教学质量评价系统中的应用展开研究。
1 背景知识
学者们对数据挖掘做了各种不同的定义。Fayyad 和Smyth 宣布,数据挖掘的过程实际上是发现特殊的、前所未有的、潜在有用的信息的过程。Curt 定义的数据挖掘是作为一个数据库的转化过程,其中信息是从无序的词汇和数据转化为有组织的数据,之后演变为知识并从其中可以做出决定。Fayyad 和Smyth 指出,数据挖掘是从数据中发现有效的、全新的、潜在有用的、全面的模式的简单过程。Hui 和Jha 定义的数据挖掘用于自动化和半自动化的分析发现数据库中大量数据中蕴含的有意义的关系和规则。Peacock 认为数据挖掘可以分为狭义和广义的。狭义的定义是限制于强调发现过程的使用人工智能的机器学习方法,如:神经网络,关联规则,决策树算法和遗传算法等。
只有根据数据自身的特点以及预计将实现的功能,同时选择合适的算法,才可以得出的数据中所隐含的模型。可选择的方法包括聚类,神经网络,分类,决策树,Web 挖掘,回归分析,关联规则等,它们各自侧重于对数据进行不同角度的分析和挖掘。
数据挖掘过程涉及以下步骤:
1)建立挖掘目标:利用领域知识来选择相关研究目标的数据。
2)选择数据:识别变量在可执行挖掘上的特性。
3)数据预处理:去除噪声和不完整的错误数据。
4)数据转换:将数据转换为新格式以便能挖掘附加信息。
5)通过数据挖掘,发现变量之间的相关性并在此基础上获取有用知识。
6)评价挖掘的结果:阐述和评价结果。
总之,数据挖掘是获取知识的过程。该过程的关键是能够理解所研究的应用,通过收集相关研究领域的数据,构造一个数据集,消除错误的数据,补充丢失的数据以便净化目标数据库中的数据。从而,简化和转换数据集,最后发现模式和在模式之间的数据并将它们作为有用的知识。
数据挖掘方法目前已经有各种各样的形式,究其原因是在数据挖掘的研究和发展过程中不断将其他学科领域知识、技术和研究成果结合起来研究。从统计角度来看,就目前而言,统计分析方法应用于数据挖掘的有最近邻算法分析、时间序列分析、多变量分析、回归分析、最近序列分析、非线形分析、线形分析、单变量分析、聚类分析等方法[1]。使用这些方法可识别出异常的数据,然后再使用一系列数学或统计模型来解释它们,揭示隐含在这些数据背后的潜在规则,模式和知识[2]。
完成整个数据挖掘过程后,用户就可以得到他们需要的,有价值的知识。对知识的充分利用是发现知识的终极目标,合理运用知识当然是非常重要的。有两种方法使用知识:一种是所发现的知识本身已经说明了需要得到结果或关系,从而能够提供直接决策支持;另一种是把所发现的知识应用到全新的数据中,这可能会出现新问题,所以仍需要更深入的研究和优化知识[3]。
所以,一个数据挖掘过程通常会需要进行反复的循环执行操作,其中任何一个步骤出现了与预期目标不一致的情况都必须跳回到先前步骤进行调整,再重新执行。
2 数据挖掘的分类
数据挖掘在发展过程中结合了各种学科领域的研究成果,因此产生了种类众多、多种多样的数据挖掘方法。例如,主要用于知识发现中的数据挖掘方法有关联规则、支持向量机、人工神经网络、粗糙集、决策树、遗传算法等。
为了方便用户选择最能满足他们需求的最合适的数据挖掘方法,我们需要对数据挖掘技术进行分类,具体分类如下:
2.1 按数据库类型分类
因为数据库本身可以按照不同类型的数据,不同的场景和不同的模型等标准进行分类,并且每个各自的类都可能需要不同的数据挖掘技术,所以根据数据库类型分类是概念清晰的。按照数据模型进行分类,包括事务型和数据仓库型、关系型、对象-关系型等。若按照数据类型进行分类,则包括文本型、时间型、空间型、Web 型、流数据型、异构型和多媒体型的数据挖掘方法[4]。
2.2 按知识类型分类
根据所挖掘的知识类型进行分类也就是根据数据挖掘的功能进行类别划分,包括关联分析、演变分析、聚类、预测、相关性分析、特征化、分类及离群点分析,一个全面的数据挖掘方法通常能够同时包括以上的多种功能。而且数据挖掘还能够按照抽象层次或者所需挖掘的知识的粒度分类,例如可分成原始数据层,即挖掘原始层的知识、高抽象层,即挖掘广义知识以及同时考虑多个抽象层,即挖掘多层知识。良好的数据挖掘方法通常能够完成多层次抽象层的知识发现。数据挖掘也可以按照其规则性和奇异性进行分类。一般来讲,数据的规则性可以通过聚类、分类、相关性分析、概念描述、关联分析和预测等方法挖掘,也能够起到检测和排除噪声的功能[4]。
2.3 按技术类型分类
数据挖掘采用的数据挖掘技术种类繁多,如统计学、模式识别、机器学习、面向数据仓库的技术或面向数据库[5]、神经网络[6]和可视化等,依据用户所采用的数据分析方法不同可以将其分成人工神经网络、遗传算法、规则推导、聚类和决策树等。大规模的数据挖掘系统通常综合利用多种挖掘技术,或者使用一些集成的方法从而综合多种方法的优势。
2.4 按应用分类
数据挖掘也可以依据其应用分类,不同的应用场景具有它们自己的数据挖掘方法,已广泛应用数据挖掘方法的行业,包括金融服务,运输,通信,股票市场等。可以说,特定的应用场景往往需要集成专门针对于该应用特别有效的数据挖掘方法。
3 数据挖掘的应用
为了验证数据挖掘方法对教学质量改革的作用,本文将决策森林方法应用于一个具体实例。该文的测试数据来源于中北大学2013 学年本科生所开选修课课程的相关信息。我们定义了如下三个变量,这三个选定的变量间接反映了本文研究的目的。三个变量的特性如下:
1)课程类别:在工科类课程包括精密成型,工业电子,数控控制器;在商业和管理类课程包括企业资源规划(ERP),市场营销,人力资源;而信息管理包括计算机图形设计,Linux 网络管理,网页设计,网络设计;语言课程有先进的英语会话课程。
2)完成状态:这是通常的情况下,课程计划可能会因为学生太少而关闭。此外,参与者有的往往无法完成课程。因此完成情况作为研究变量,分为两组:参与者完成课程,和参与者没有完成课程。
3)学生工作的行业:我们只取最常见的制造业和服务业。属于制造业包括五金行业,橡胶工业,电子制造业,纺织业。属于服务业包括信息服务,医疗服务,物流服务行业。
在应用决策森林的方法前需要指定目标变量并且定义预测变量。在这项研究中,课程类别,完成状态,以及这两个变量的特征被选为预测变量,学生工作行业及其特点被选为目标变量。该算法的目的是,找到课程偏好和课程完成率与不同的行业的完成状态的关系。
在决策森林方法中,制造业和服务业,基于行业特征聚集。每个部门,完成状态的进一步聚集取决于课程是否完成;完成状态也可按课程类别聚集。聚类的预测变量持续到规则被发现。
对聚类的预测变量的细节分割取决于分割的标准值设置的高低。在这项研究中,分割的标准值设置为4 和5。当该值被设置为4,聚类包括由实线和图1 中的虚线包围的区域。当该值被设置为5,则聚类只涵盖由图1 中的实线包围的区域。
图1 完成状态的概率
决策森林的应用结果表明:1)选修了商业和管理课程的学生,且完成了语言和其他课程的学生,42.5%来自制造业,57.5%来自服务业;2)选修了信息管理与工程课程且完成了该课程的学生,51%来制造业,49%来自服务业;3)选修了信息管理等课程,但没有完成课程的学生,5%来自制造业,95%来自服务业;4)选修了商业和管理课程,但语言和工程课程没有完成的学生,44.9%来自制造业,55.1%来自服务业。
决策森林表明参与者来自制造业主要选修课程为信息管理课程与工程课程,而来自服务业的参与者主要选修信息管理和其他课程。数据挖掘的应用拥有可靠的分析结果,课程决策者能够对课程结构进行调整,以便更好地服务于学生的个人需求和社会的公共需求。
4 结论
该文应用数据挖掘方法是用来寻找首选课程类别和学生职业之间的相关性的,使用决策森林方法发现,来自不同行业的首选课程取决于该行业学生首选课程完成率的高低。该文将决策森林方法引入到教学质量管理改革中,学校相关主管部门可以根据不同学生专业的需要来制定未来的课程计划。接下来的一些工作:可以根据学生所选课程成绩和教师实际教学效果之间的关系,探究教师教学方法与学生成绩之间的关系。
[1]陆化普.数据挖掘技术在智能交通系统综合信息平台中的应用[J].ITS 通讯,2004,3(1) :41-42.
[2]王桂芹,黄道.数据挖掘技术综述[J].电脑应用技术,2007,3(69) :10-11.
[3]蒋晖.数据挖掘及其一种关联规则算法[J].计算机与数字工程,2011,39(6) :38-42.
[4]Han J W,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.
[5]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004:137-139.
[6]寇雪芹.BP 人工神经网络在二传感器数据融合处理中的应用[J].计量技术,2003,11(2) :27-28.