基于数据挖掘的高校教学评估系统的研究

2016-03-27李莹罗娇敏闵芳

数码世界 2016年12期

关键词：数据挖掘预处理聚类

李莹罗娇敏闵芳

南京航空航天大学金城学院信息工程系

基于数据挖掘的高校教学评估系统的研究

李莹罗娇敏闵芳

南京航空航天大学金城学院信息工程系

对于高等院校来说，如何从众多的成绩数据中选取对于教育决策分析有用的信息，成为一个亟需解决的问题。本文通过深入研究数据挖掘的经典算法，寻找适合的算法，建立数据挖掘模型。然后以学院中某个专业的历史数据为研究对象，搭建数据仓库，设计整体架构。经过多次的调研和实践，最终确定采用聚类分析进行实施。将学生通过聚类而不是分数段分为五类，然后通过课程组、整体成绩趋势等多种方式加以分析，通过直观的数据图标加以呈现，更加准确及时的了解教学情况，以辅助教学。

数据挖掘 K-means算法教学评估聚类分析

1 问题提出

作为多年从事教育工作的笔者，常年面对学院产生的大量数据，例如学籍管理、学科管理、招生、就业、教职工管理等系统，其中包含了众多能够反馈出学院教学状况的信息，但是由于其数据量实在庞大，且涉及的部门众多，单纯靠人力来解读较为困难。因此，如何从数据中“掘金”，是本文讨论的主要问题。

2 教学评估系统的架构

本文设计的教学评估系统总体由三层结构组成：数据层、逻辑层和表示层。表示层主要负责数据的输入输出，作为界面展示；数据层负责数据的预处理；逻辑层则提供专业的数据分析和挖掘。

3 高校数据的预处理

本文选取的是某高校信息工程专业的课程成绩及设置，期望以该专业说明数据挖掘对高校数据分析的过程。由于不同专业间课程差异较大，核心课程各异，数据处理必须分不同专业进行，这也是教育领域数据挖掘较大的难点之一。但是其数据处理的思路与算法思想基本相同，仅是数据预处理的时候需要根据专业特色来制定。建议该预处理的过程寻求各专业内部人士给出参考意见，收集本专业中的核心课程。同时还需要其了解专业的课程设置和学生情况，如近年来是否存在较大课程改革，学生学籍调动等，以免产生较大误差及噪声数据。

最终选取的是信息工程专业的核心课程（共16门），形成两张关系表。其中“数据信息表”存放的是课程信息，定义专业课程的名称，学时，学分，课程类别，课程类型和考试方式等信息。而“成绩信息表”则存放了学生的成绩信息，将原有的教务数据进行数据重构，一行元组代表一个学生所有专业的成绩情况，每个属性代表一门专业课程的最终成绩，统一采用百分制。这样处理学生数据的原因是根据聚类的特性，将一个学生数据看成多维空间的一个数据点，成绩的差异可以通过计算数据点的距离绝对值，则根据该距离的远近可以可以实现学生的聚类。

4 聚类算法应用分析

经过多次调研和实践，最终选用聚类分析中K-means算法来完成分析。聚类分析属于无指导学习，其挖掘不需要预先定义的类标签，而是通过大量数据找到其分布规则。由于数据来源于真实的教育背景，其数据存在一定的噪声（如退学、留级导致的数据缺失等），预处理需要将这些数据删除。

在算法实践方面，选用WEKA作为算法分析工具，WEKA是当今较为先进的机器学习算法及数据预处理工具。由新西兰怀卡托大学开发，JAVA实现，几乎可运行在所有主流的操作平台。WEKA为预处理以及后处理提供了统一的方法，可以指定学习算法应用于给定的数据源，同时将不同的学习方案计算的结果给出评估。

K-means算法是基于划分的聚类，尝试找出最小平方误差函数值的K个划分。算法复杂度为O（nkt），其中n是数据集的数目，k是簇数目，t为迭代次数。算法需要预先指定簇数目k，而对于教务数据，由于学生的成绩好坏基本分成五大类，簇数目很好确定。同时，算法较容易受到“噪声”和孤立数据的影响，少量的误差数据会对计算的结果产生极大影响，这也是教务数据需要进行较复杂的人工指导下的预处理的原因。

综上所述，对于学生成绩选用K-means算法来进行聚类是较为合适的，根据成绩的绝对值差距将学生分为五类。通过主观观察和分析簇中心、簇占比等一系列数据，确定合适的算法参数（seed值等）作为先验知识，最终选取合适的聚类结果，再采用柱状图的方式加以直观的展示。

多次对比试验后，发现以下信息：

①一般情况下，平方误差的多少是评判聚类好坏的标准，该数据越小说明簇内数据距离越小，则簇内数据越接近，即学生的成绩越接近。因此在判定不同参数条件下聚类的好坏，该数据作为最重要的评判依据。

②为了找到更合适的聚类，在其他参数不变的情况下，更改随机种子值（seed值）。seed值是聚类随机选取的种子，一般在10%以内。基于本文的数据集为769条，seed值一般控制在80以下。随着seed值的改变，聚类的表现相对较稳定，有存在着一定的浮动。但为了得到最为合适的聚类结果，还是需要人为选择最合适的seed值。

③在seed值选为70的时候，产生了0%的聚类。究其原因是发现了单条记录作为孤立点被判为单独的簇，该簇占比太小，因此约等于0%。该条记录有三门课程为零分，但其他课程分数较正常，推测可能为学生换专业的原因导致。为什么仅在seed值为70的时候发现这种情况？由于K-means算法参数中的seed的选择与输入数据的顺序直接关联，因此该算法很大程度下会依赖于数据的输入顺序。

④通过观察簇中心，在学生成绩预处理合适的情况下，能够获得了较佳的聚类效果。但是如果数据预处理不够合理，可能会因为数据缺失等严重影响聚类效果。

综合考虑以上的聚类结果，对seed值不同产生的不同聚类表现，最终选择的数据结果参数如下：簇数目numClusters=5，seed=40。

5 聚类下的教学评估体系

最终聚类结果：聚类“0”为成绩最好的学生，占比17%，课程平均分89分；聚类“2”成绩次之，占比21%，课程平均分79分；聚类“4”成绩居中，占比25%，课程平均分68分；聚类“1”成绩较差，占比22%，课程成绩平均分56分；聚类“3”成绩最差，占比15%，课程平均分43分。

该学生划分也可以作为其他数据挖掘的分析依据，以下分别从课程组和整体成绩趋势来做分析：

5.1 按课程组分析

数学类课程组共四门必修课，通过对比数据可以发现，优秀学生各科表现都比较好，这也表示出数学类课程对于个人素质的体现。对于学院在新生选拔时选取数学作为考核科目，是较为合适的。

然而对于“差”和“较差”这两类学生来说，《高等数学(II)（下）》和《概率论与数理统计(II)》成绩则出现了明显下滑，这种下滑在其它簇的学生中并未出现，说明若这一阶段数学课程出现挂科，应引起学生和老师足够重视，督促学生端正学习态度，加重学习时间的投入。

分析专业课程，可以发现《信号与系统》和《数字电路》这两门课程在五类学生中都出现了明显下滑，说明该课程的学习具有一定的难度，辅导员和班主任在指导该门课程的时候可以对学生提出特别提示，学生学习时也要格外的加强学习！

5.2 整体成绩趋势分析

将成绩按照学期划分后，可以发现一些重要的信息。如大一上学期，学生的总体成绩不错，尤其是高等数学。成绩优秀的学生，四年来的成绩基本保持稳定，基本为90分上下；而成绩较差的学生，从大二上学期开始，成绩就明显发生了严重下滑，也就是该阶段成绩拉大了差距。而在大三上学期，这类学生有明显提升了成绩，基本与大一一致。数据表明，学生在大学后学习态度有明显的变化过程，针对这一变化，辅导员和班主任有必要对学生加以警示和指导，以更好的提升教学质量！

6 结束语

随着信息技术的发展，当今社会早已步入“大数据时代”，数据挖掘技术的研究和应用不断出现且日趋成熟，作为新技术传播者的高校更不能落后。笔者有多年高校的工作经验，结合具体的学院教学数据利用数据挖掘技术进行深入研究，使用K-means算法完成数据预处理和聚类，通过数据重构后的数据分析，将根学生分成五大类，而不是简单的分数段判别方式，进而评定教学质量。最后，根据不同学生在不同阶段的成绩情况，给出了课程学习的指导建议。

但是目前的工作还存在着很多不足之处，本文仅就单专业完成数据分析，要形成供整个学院指导用途的系统，还需要完善专业课程的数据处理信息。另外还可以考虑融入更多的数据挖掘技术，如关联规则挖掘，神经网络，决策树分析等，为学院提供更多的决策支持。

［1］Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005

［2］Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203～212

［3］王珊，萨师煊著. 数据库系统概论[M]. 北京：高等教育出版社. 2006. [22]王珊，萨师煊著. 数据库系统概论[M].北京：高等教育出版社. 2006

［4］S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998

［5］陈曦，王执铨著. 决策支持系统理论与方法研究综述[J].控制与决策. 2006(9):961～968

［6］G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999

［7］任明仑，杨善林. 智能决策支持系统：研究现状与挑战[J].系统工程学报. 2002(5):430～440

［8］维克托.迈尔.舍尔伯格，肯尼思.库克耶（英）著.大数据时代[M].浙江人民出版社.2013

［9］朱德利.就业信息的数据挖掘及其分析[J].重庆师范大学学报（自然科学版）2014. (31)120～125

［10］毛海军，唐焕文著. 智能决策支持系统（IDSS）研究进展[J]. 小型微型计算机系统

2015年江苏省高等教育教改研究“独立学院计算机类专业人才培养模式研究与实践”（课题编号：2015JSJG564）。

李莹（1983-），女（汉），湖南省常德市，讲师，硕士，主要研究方向为算法设计与分析，数据库原理，人工智能等。

罗娇敏（1984-），女（汉），江西省高安市，讲师，硕士，主要研究方向为操作系统，系统安全，计算机网络等。

闵芳（1980-），女（汉），江苏省宜兴市，讲师，硕士，主要研究方向为数据安全，虚拟化存储，数据结构等。