APP下载

高职院校基于基础数据建设的数据挖掘研究

2015-01-01王春媚天津轻工职业技术学院

大陆桥视野 2015年24期
关键词:数据挖掘关联规则

王春媚/天津轻工职业技术学院

高职院校基于基础数据建设的数据挖掘研究

王春媚/天津轻工职业技术学院

今年,我院在新能源类专业教学资源库申报与建设中取得了非常大的成绩,近两年学生在资源库管理与学习平台的在线考试系统进行相关课程的考试以及职业能力鉴定已经得到参建联盟院校广泛认同和使用,积攒了大量的数据资源,为实施数据挖掘提供了基础。本文针对考试系统的大量数据进行数据挖掘,从而找到数据信息里的潜在规则以指导教学管理和教学决策。

数据挖掘;关联分析;在线考试

一、数据挖掘及其技术

(一)数据挖掘

数据挖掘(DataM ining),又称数据库中的知识发现(Know ledgeDiscoveryinDatabase,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

(二)数据挖掘系统

一个完整的数据挖掘系统包括规则生成子系统和应用评估子系统两个部分。规则生成子系统主要完成根据数据仓库提供的历史数据,统计并产生相关规律,并输出相关结果;应用评估子系统可以理解为系统中的挖掘代理程序,根据生成子系统产生的规则按照一定的策略对数据进行分类预测,通过系统的任务计划对数据产生评估指标。

(三)数据挖掘过程

数据挖掘过程包括对问题的理解和提出、数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示等过程,以上的过程不是一次完成的,其中某些步骤或者全过程可能要反复进行。

(四)数据挖掘的主要功能

概念/类描述、特征化和区分:对每个类的汇总、简洁、精确的描述可以通过数据特征化、数据区分和数据比较来实现。数据特征化是指目标类数据的一般特征或特征的汇总,如一年的成绩汇总;数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般性比较,如A学校和B学校的比较。

关联分析:是寻找数据库中值的相关性,揭示属性与属性值在数据集中一起出现的条件。这种关联规则可以是单维关联规则或多维关联规则。

分类与预测:利用某种数据挖掘算法的某种规则自动对海量数据进行分类,把握分析对象发展的规律,对未来的趋势做出预见。

聚类分析:聚类是根据最大化类内的相似性、最小化类间的相似性原则对海量数据进行聚类或分组,从而产生属性相近的各个类。

偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。

演变分析:可以根据数据的特征对数据的发展变化作出相应的预测与分析。主要应用于对时间序列数据的分析、序列或周期模式匹配和基于类似性的数据分析。

二、在线考试系统结构与数据分析

(一)系统结构分析

资源库管理与学习平台中在线考试系统结构采用四层应用模式,第一层为应用层(管理与学习平台),这一层主要由两部分组成,考生通过浏览器进行在线考试,管理员通过工作平台直接管理试题库及系统环境,同时对考生考试数据及考生行为进行数据提取、分析、评价等;第二层为Web层(WebServer),Web服务器接受应用层的请求与业务逻辑层的接口进行信息交换,以响应用户信息并提供用户界面;第三层为业务逻辑层用来实现业务逻辑,包括一些具体的组件模块。如:题库管理组件模块、用户考试组件模块、评卷组件模块、成绩管理组件模块等;第四层为数据层,使用SQLServer2008数据库系统来存储待处理的各种数据,包括各种记录用户行为的数据以及Web层与业务逻辑层之间进行通讯和信息传递时所产生的数据等。

本文要在考试系统的应用层中添加具有数据挖掘功能的“成绩分析系统",用以补充成绩管理模块的功能,使之能够对考生答题记录进行数据挖掘分析。

(二)系统数据分析

考试系统中的数据量非常大,其间必然存在大量的噪声数据。究其产生原因,如在考试过程中某些考题因被考生漏答而造成数据的空缺;管理人员或教师在测试系统时会留下大量的测试记录……这些噪声数据的存在会对挖掘的结果产生很大的影响。数据记录中还包括一些冗余的数据域,这些数据域在考试系统的正常运行中是不可缺少的,但是在进行数据挖掘中却会影响挖掘的效率,并产生毫无意义的规则。另外还有很多不确定因素也会使数据库中产生大量的噪声数据。噪声数据的存在会直接影响挖掘结果的有效性,尽可能的去除这些噪声数据才能提高挖掘的效率并得到有效性更高的结果和规则。因此,在进行数据挖掘之前,有必要对数据源进行清洗和处理,最终得到干净的、有效的、符合挖掘要求的数据。

三、数据挖掘算法应用

(一)关联规则挖掘算法应用

关联分析的目的是挖掘隐藏在数据间的相互关系。对于物品与事务的关系:事务1中出现了物品A,事务2中出现了物品B,事务3中出现了物品A和B。在数据库的发现知识中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说关联规则通过量化的数字描述物品A的出现对物品B的出现有多大的影响。

本文主旨在于通过对考生的答题记录信息进行数据挖掘,最终找到知识点间的关联关系。在关联规则的挖掘中,需要的数据是考生的具体答题正误的记录、所答题目内容以及题目所归属的知识点。根据挖掘的需要,应从庞大复杂的源数据库中生成不同的数据子表作为关联挖掘的数据源。本文选取了一份“光伏单片机控制技术”课程考试试卷,并将所有使用这份试卷的考生的答题记录进行归纳整理,再利用数据挖掘中关联规则算法进行分析、研究,找寻知识点间的潜在规则。

通过分析,最终得到了知识点之间潜在的关联关系,如:“单片机振荡频率”知识点与“计算定时器初值”知识点之间、“锁存器工作原理”知识点与“段选、位选控制”知识点之间,都存在着很强的关联关系。在教学中,强调这些知识点之间的关联关系,将有利于教学效果的提高。

(二)决策树挖掘算法应用

决策树是以实例为基础的归纳学习算法。它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性并且能够学习析取表达式。在这种方法中学习到的函数被表示为一棵决策树。一棵决策树的每个非叶节点均表示考察数据项目的测试或决策。根据测试结果,选择某个分枝,为了分类一个特定数据项目,我们从根节点开始,一直向下判定,直到达到一个终端节点(叶子节点)为止。这样,一个决策就形成了。

本文在分类模块中以学生期末考试的通过状态为分类属性,以第二学年第一学期、第二学期期末成绩为测试属性进行分类,从而分析学生期末考试的通过状态,为学校制定教学策略提供决策支持,同时也帮助广大考生对照检查自身情况,调整学习状态提供理论指导。

通过对考生的答题记录进行挖掘,最终找到了知识点之间存在关联关系,建立了本校学生首次参加课程考核通过情况的决策树,并得到了有效的预测考试通过情况的规则。最后,把挖掘的结果进行整理并导入到数据库中,使教学的决策者和教师可以随时察看,帮助教师提高教学质量,使我校的考试成绩可以得到提高。

课题项目:

本文为天津市高等职业技术教育研究会2013年度课题《高职院校基础数据建设与数据挖掘研究》(XIII418)。

猜你喜欢

数据挖掘关联规则
撑竿跳规则的制定
数独的规则和演变
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
奇趣搭配
让规则不规则
基于并行计算的大数据挖掘在电网中的应用
智趣
TPP反腐败规则对我国的启示
一种基于Hadoop的大数据挖掘云服务及应用