APP下载

基于数据挖掘的高校教学评估系统的研究

2016-03-27李莹罗娇敏闵芳

数码世界 2016年12期
关键词:数据挖掘预处理聚类

李莹 罗娇敏 闵芳

南京航空航天大学金城学院信息工程系

基于数据挖掘的高校教学评估系统的研究

李莹 罗娇敏 闵芳

南京航空航天大学金城学院信息工程系

对于高等院校来说,如何从众多的成绩数据中选取对于教育决策分析有用的信息,成为一个亟需解决的问题。本文通过深入研究数据挖掘的经典算法,寻找适合的算法,建立数据挖掘模型。然后以学院中某个专业的历史数据为研究对象,搭建数据仓库,设计整体架构。经过多次的调研和实践,最终确定采用聚类分析进行实施。将学生通过聚类而不是分数段分为五类,然后通过课程组、整体成绩趋势等多种方式加以分析,通过直观的数据图标加以呈现,更加准确及时的了解教学情况,以辅助教学。

数据挖掘 K-means算法 教学评估 聚类分析

1 问题提出

作为多年从事教育工作的笔者,常年面对学院产生的大量数据,例如学籍管理、学科管理、招生、就业、教职工管理等系统,其中包含了众多能够反馈出学院教学状况的信息,但是由于其数据量实在庞大,且涉及的部门众多,单纯靠人力来解读较为困难。因此,如何从数据中“掘金”,是本文讨论的主要问题。

2 教学评估系统的架构

本文设计的教学评估系统总体由三层结构组成:数据层、逻辑层和表示层。表示层主要负责数据的输入输出,作为界面展示;数据层负责数据的预处理;逻辑层则提供专业的数据分析和挖掘。

3 高校数据的预处理

本文选取的是某高校信息工程专业的课程成绩及设置,期望以该专业说明数据挖掘对高校数据分析的过程。由于不同专业间课程差异较大,核心课程各异,数据处理必须分不同专业进行,这也是教育领域数据挖掘较大的难点之一。但是其数据处理的思路与算法思想基本相同,仅是数据预处理的时候需要根据专业特色来制定。建议该预处理的过程寻求各专业内部人士给出参考意见,收集本专业中的核心课程。同时还需要其了解专业的课程设置和学生情况,如近年来是否存在较大课程改革,学生学籍调动等,以免产生较大误差及噪声数据。

最终选取的是信息工程专业的核心课程(共16门),形成两张关系表。其中“数据信息表”存放的是课程信息,定义专业课程的名称,学时,学分,课程类别,课程类型和考试方式等信息。而“成绩信息表”则存放了学生的成绩信息,将原有的教务数据进行数据重构,一行元组代表一个学生所有专业的成绩情况,每个属性代表一门专业课程的最终成绩,统一采用百分制。这样处理学生数据的原因是根据聚类的特性,将一个学生数据看成多维空间的一个数据点,成绩的差异可以通过计算数据点的距离绝对值,则根据该距离的远近可以可以实现学生的聚类。

4 聚类算法应用分析

经过多次调研和实践,最终选用聚类分析中K-means算法来完成分析。聚类分析属于无指导学习,其挖掘不需要预先定义的类标签,而是通过大量数据找到其分布规则。由于数据来源于真实的教育背景,其数据存在一定的噪声(如退学、留级导致的数据缺失等),预处理需要将这些数据删除。

在算法实践方面,选用WEKA作为算法分析工具,WEKA是当今较为先进的机器学习算法及数据预处理工具。由新西兰怀卡托大学开发,JAVA实现,几乎可运行在所有主流的操作平台。WEKA为预处理以及后处理提供了统一的方法,可以指定学习算法应用于给定的数据源,同时将不同的学习方案计算的结果给出评估。

K-means算法是基于划分的聚类,尝试找出最小平方误差函数值的K个划分。算法复杂度为O(nkt),其中n是数据集的数目,k是簇数目,t为迭代次数。算法需要预先指定簇数目k,而对于教务数据,由于学生的成绩好坏基本分成五大类,簇数目很好确定。同时,算法较容易受到“噪声”和孤立数据的影响,少量的误差数据会对计算的结果产生极大影响,这也是教务数据需要进行较复杂的人工指导下的预处理的原因。

综上所述,对于学生成绩选用K-means算法来进行聚类是较为合适的,根据成绩的绝对值差距将学生分为五类。通过主观观察和分析簇中心、簇占比等一系列数据,确定合适的算法参数(seed值等)作为先验知识,最终选取合适的聚类结果,再采用柱状图的方式加以直观的展示。

多次对比试验后,发现以下信息:

①一般情况下,平方误差的多少是评判聚类好坏的标准,该数据越小说明簇内数据距离越小,则簇内数据越接近,即学生的成绩越接近。因此在判定不同参数条件下聚类的好坏,该数据作为最重要的评判依据。

②为了找到更合适的聚类,在其他参数不变的情况下,更改随机种子值(seed值)。seed值是聚类随机选取的种子,一般在10%以内。基于本文的数据集为769条,seed值一般控制在80以下。随着seed值的改变,聚类的表现相对较稳定,有存在着一定的浮动。但为了得到最为合适的聚类结果,还是需要人为选择最合适的seed值。

③在seed值选为70的时候,产生了0%的聚类。究其原因是发现了单条记录作为孤立点被判为单独的簇,该簇占比太小,因此约等于0%。该条记录有三门课程为零分,但其他课程分数较正常,推测可能为学生换专业的原因导致。为什么仅在seed值为70的时候发现这种情况?由于K-means算法参数中的seed的选择与输入数据的顺序直接关联,因此该算法很大程度下会依赖于数据的输入顺序。

④通过观察簇中心,在学生成绩预处理合适的情况下,能够获得了较佳的聚类效果。但是如果数据预处理不够合理,可能会因为数据缺失等严重影响聚类效果。

综合考虑以上的聚类结果,对seed值不同产生的不同聚类表现,最终选择的数据结果参数如下:簇数目numClusters=5,seed=40。

5 聚类下的教学评估体系

最终聚类结果:聚类“0”为成绩最好的学生,占比17%,课程平均分89分;聚类“2”成绩次之,占比21%,课程平均分79分;聚类“4”成绩居中,占比25%,课程平均分68分;聚类“1”成绩较差,占比22%,课程成绩平均分56分;聚类“3”成绩最差,占比15%,课程平均分43分。

该学生划分也可以作为其他数据挖掘的分析依据,以下分别从课程组和整体成绩趋势来做分析:

5.1 按课程组分析

数学类课程组共四门必修课,通过对比数据可以发现,优秀学生各科表现都比较好,这也表示出数学类课程对于个人素质的体现。对于学院在新生选拔时选取数学作为考核科目,是较为合适的。

然而对于“差”和“较差”这两类学生来说,《高等数学(II)(下)》和《概率论与数理统计(II)》成绩则出现了明显下滑,这种下滑在其它簇的学生中并未出现,说明若这一阶段数学课程出现挂科,应引起学生和老师足够重视,督促学生端正学习态度,加重学习时间的投入。

分析专业课程,可以发现《信号与系统》和《数字电路》这两门课程在五类学生中都出现了明显下滑,说明该课程的学习具有一定的难度,辅导员和班主任在指导该门课程的时候可以对学生提出特别提示,学生学习时也要格外的加强学习!

5.2 整体成绩趋势分析

将成绩按照学期划分后,可以发现一些重要的信息。如大一上学期,学生的总体成绩不错,尤其是高等数学。成绩优秀的学生,四年来的成绩基本保持稳定,基本为90分上下;而成绩较差的学生,从大二上学期开始,成绩就明显发生了严重下滑,也就是该阶段成绩拉大了差距。而在大三上学期,这类学生有明显提升了成绩,基本与大一一致。数据表明,学生在大学后学习态度有明显的变化过程,针对这一变化,辅导员和班主任有必要对学生加以警示和指导,以更好的提升教学质量!

6 结束语

随着信息技术的发展,当今社会早已步入“大数据时代”,数据挖掘技术的研究和应用不断出现且日趋成熟,作为新技术传播者的高校更不能落后。笔者有多年高校的工作经验,结合具体的学院教学数据利用数据挖掘技术进行深入研究,使用K-means算法完成数据预处理和聚类,通过数据重构后的数据分析,将根学生分成五大类,而不是简单的分数段判别方式,进而评定教学质量。最后,根据不同学生在不同阶段的成绩情况,给出了课程学习的指导建议。

但是目前的工作还存在着很多不足之处,本文仅就单专业完成数据分析,要形成供整个学院指导用途的系统,还需要完善专业课程的数据处理信息。另外还可以考虑融入更多的数据挖掘技术,如关联规则挖掘,神经网络,决策树分析等,为学院提供更多的决策支持。

[1]Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005

[2]Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203~212

[3]王珊,萨师煊著. 数据库系统概论[M]. 北京:高等教育出版社. 2006. [22]王珊,萨师煊著. 数据库系统概论[M].北京:高等教育出版社. 2006

[4]S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998

[5]陈曦,王执铨著. 决策支持系统理论与方法研究综述[J].控制与决策. 2006(9):961~968

[6]G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999

[7]任明仑,杨善林. 智能决策支持系统:研究现状与挑战[J].系统工程学报. 2002(5):430~440

[8]维克托.迈尔.舍尔伯格,肯尼思.库克耶(英)著.大数据时代[M].浙江人民出版社.2013

[9]朱德利.就业信息的数据挖掘及其分析[J].重庆师范大学学报(自然科学版)2014. (31)120~125

[10]毛海军,唐焕文著. 智能决策支持系统(IDSS)研究进展[J]. 小型微型计算机系统

2015年江苏省高等教育教改研究“独立学院计算机类专业人才培养模式研究与实践”(课题编号:2015JSJG564)。

李莹(1983-),女(汉),湖南省常德市,讲师,硕士,主要研究方向为算法设计与分析,数据库原理,人工智能等。

罗娇敏(1984-),女(汉),江西省高安市,讲师,硕士,主要研究方向为操作系统,系统安全,计算机网络等。

闵芳(1980-),女(汉),江苏省宜兴市,讲师,硕士,主要研究方向为数据安全,虚拟化存储,数据结构等。

猜你喜欢

数据挖掘预处理聚类
探讨人工智能与数据挖掘发展趋势
基于K-means聚类的车-地无线通信场强研究
基于预处理MUSIC算法的分布式阵列DOA估计
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
浅谈PLC在预处理生产线自动化改造中的应用
一种基于Hadoop的大数据挖掘云服务及应用
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法