APP下载

基于层次聚类的数据分析方法在MOOCs 中的应用

2019-10-30姜赛达

三门峡职业技术学院学报 2019年3期
关键词:聚类距离算法

姜赛达

(商丘职业技术学院计算机系,河南商丘 476000)

1 简介

数据挖掘技术,可以从大量数据中找到有价值的信息,为相关机构的决策提供客观依据。在许多领域,尤其是远程教育领域,随着教育信息系统中教育数据的持续增长,数据挖掘技术的应用日益成为在线教育模式或相关行政部门决策的必要条件。在这项研究中,作为中国规模最大的在线教育平台的中国大学MOOC 平台,其向大众提供中国知名高校的MOOC 课程,MOOC的教学质量越来越受到关注。MOOC 有一套类似于线下课程的作业评估体系和考核方式以评估教学质量。为了检验课程的教学改效果,应设计基于数据挖掘原理和技术的有效考试数据分析方法,以处理MOOC 课程实践教学考试数据。分析结果应揭示考试数据的内在变化,体现MOOC教学的效果,可以成为评估MOOC 教学效果的客观依据。

2 相关工作

聚类分析作为重要数据分析工具,适用于无监督的学习过程,可以完全根据数据本身发现隐藏在大量数据中的有价值信息。它根据特定的聚类算法原理自动将数据分类为聚类,以最大化聚类间距离,并最小化聚类内距离。数据聚类和异常值,作为聚类算法的分析结果可以揭示数据分布信息,可以服务于指定的社交应用程序。经典聚类算法主要包括划分方法,分层方法,基于密度的方法,基于网格的方法和基于模型的方法。

到目前为止,在将聚类技术应用于学生成绩分析方面,进行了多项研究,武森[1]应用K-means聚类算法分析分专业前的大学生成绩与专业及分专业后课程学习之间可能存在的潜在关系。总结其特点,指导学生的专业划分。专业化后根据每个集群的成就表现选择。茆汉国[2]利用校园网服务器存储的海量用户访问日志数据,应用K均值算法结合AGNES 算法分析行为,研究学生成绩与校园网络之间的关系。Robles[3]基于聚类分析学生的学习成果,以提供个性化和智能化的学习建议。Liu[4]将SPA 模糊聚类和DS 粗糙集分析应用于计算机文化基础测试系统,帮助教师对学生的成绩进行理性判断。

显然,像K-means 这样的聚类算法经常被用来分析学生的成绩。在本研究中,基于层次的聚类算法被选为,中国大学MOOC 平台课程成绩数据的分析方法,主要是由于这种方法不需要预先设定聚类数,两个数据元完全根据数据本身的差异,在每个循环中聚集在一起,具有准确的分类结果。能有效地检测异常值,更容易找到形状不同的簇。当数据量不太大,希望得到相对准确的结果时,选择这种方法进行数据分析是合理的。

3 课程考试数据分析方法

3.1 数据来源及分析指标,参见表1。

课程成绩数据由中国大学MOOC 平台课程开设团队提供,包括计算机应用基础尧Java Web应用程序开发等6 门课程的课程编号尧课程名称尧成绩评定办法尧开课时间尧学时安排和MOOC成绩尧试卷成绩。

成绩评定办法解释:MOOC 有一套类似于线下课程的作业评估体系和考核方式。每门课程定期开课,整个学习过程包括多个环节:观看视频尧参与讨论尧提交作业,穿插课程的提问和终极考试。

3.2 本研究选择的检验统计指标,参见表2。

下图是MOOC 课程基于层次聚类的成绩数据分析方法流程图。包括两个步骤,首先输入同一课程采用传统课堂教学的成绩数据和采用MOOC 教学的成绩数据,将两种数据进行聚类处理,确定相应的最小集群间距离,以便对传统课堂教学的成绩数据与MOOC 教学的成绩数据进行比较研究。其次在两种教学模式的测试成绩设置相同的收敛条件的前提下,将最小簇间距离设置为循环的终止条件,然后使用分层聚类算法处理检查数据,分别输出聚类结果。

表2 课程考试数据分析指标

这种设计的优点在于:

充分利用层次聚类适用无监督学习的特点,可以设置适合于传统课堂教学模式和MOOC 教学模式的成绩数据的循环统一终止条件,从而可以得到聚类结果的比较研究。可以揭示变化的纪律。

可以总结集群特征以制定相应的改革措施,以控制或调整五个统计指标的变化。

异常检测有助于在两种教学模式中发现异常情况。

基于层次聚类的成绩数据分析方法流程图

对于每个教学课程成绩,要聚集的对象是各开设的课程,设置是1 到n 的整数,n 是开设课程编号。并且每个开设课程的属性是上面提到的五个统计指标,可以表示为Xik,k 是从1 到6 的整数。课程元素Xi和Xj之间的距离是dij 可由公式(1)得到。

基本距离矩阵是初始课程元素之间的欧几里得距离。dbasic 可以从dii 矩阵计算出来,公式(2)。

这里,平均距离用作簇间距离,用于克服算法在聚类形成过程中存在的聚类错误和对异常值敏感等问题,具体描述如下。在聚类过程中产生聚类R 和聚类S,聚类R 包括班级元素XRa,这里a 是从1 到p 的整数值,p 是聚类R 中的班级元素数,聚类S 包括学生元素Xsb,b 是从1 到q的另一个整数值,q 是簇S 中的班级元素数,簇R 和簇S 之间的距离是dRS可由公式(3)得到。

同时,簇间距离矩阵可以描述为等式(4)。

建立簇间距离矩阵的优点是可以通过初始课程元素距离的求和操作完全计算新簇之间的距离。循环过程中省去了平方运算,提高了算法的效率。

基于层次聚类的检验数据分析算法关键部分的伪代码描述如下。

第一步:在传统课堂教学或MOOC 教学后输入课程成绩数据。

第二步:将每个课程作为基本元素,计算dij,根据每个课程元素的五个属性建立dbasic,找到最近的两个元素,为第一个聚类做好准备。

第三步:循环开始,因为我是从1 到n-1,这里n-1 是聚合时间形成一个完整的树形图,它是学生元素数减去1。

将最近的两个聚类融合,形成一个新的聚类,其标签为当前聚类数加1,计算dRS,建立dcluster,更新原始数据集的聚类标签。

从新的集合中找到最近的两个簇。

结束循环;

第四步:根据两个集群每次收敛的时间和距离,输出树形图。

4 实验结果和讨论

表3 给出了基于层次聚类的数据分析方法产生的课程成绩数据的聚类结果,包括6 个课程中采用传统课堂教学的成绩数据和采用MOOC教学的成绩数据的详细信息。课程名称以计算机网络基础为例说明分析结果,采用传统课堂教学模式班级数为47,采用MOOC 教学模式的班级数为46,统一最小群集距离,确定为40豫作为循环的终止条件。在采用传统课堂教学模式下,聚类结果是一个聚类和两个异常值,在采用MOOC教学模式下,聚类结果是两个聚类。可以分别总结群集特征以进行比较。

表3 基于层次聚类的数据分析方法产生的聚类结果

研究采用传统课堂教学的成绩数据分布和采用MOOC 教学的成绩数据分布,从而表明采用MOOC 教学模式进行教学的效果。在这种情况下,采用传统课堂教学的第一组与采用MOOC教学的第一组进行比较,每个组中的元素数比例和参加课程的班级数量足够大,几乎可以代表采用传统课堂教学的成绩数据和采用MOOC 教学的成绩数据分布情况。比较结果表明,采用MOOC 教学的实际测试率尧合格率与期末考试合格率,相较于采用传统课堂教学模式没有实际显著的提高,结果表明了采用MOOC 教学模式的有效性。同时,由于采用MOOC 教学模式线上教学的对象差异性,表现出了辍学率的显著差异。在班级教学中采用MOOC 教学与采用传统课堂教学的辍学率没有明显差异。在非班级教学中采用MOOC 教学的辍学率显著提高。

5 结论

笔者提出了一种基于层次聚类的成绩数据分析方法,用于处理中国大学MOOC 中教学课程成绩数据。在方法设计方面,充分利用层次聚类的适用无监督学习,准确分类,对异常值不敏感的优点。为了对采用传统课堂教学和采用MOOC 教学成绩数据分布进行比较研究,提出了两种聚类模式,以确定适合于传统课堂教学和MOOC 教学成绩数据的统一最小簇间距离。在方法实现方面,群集之间的平均距离用于使得方法对异常值不敏感,并且通过建立群集之间的距离矩阵,可以仅通过求和操作从原始元素的基本距离矩阵计算,从而提高逼近效率。

猜你喜欢

聚类距离算法
基于MapReduce的改进Eclat算法
基于K-means聚类的车-地无线通信场强研究
Travellng thg World Full—time for Rree
算距离
进位加法的两种算法
基于高斯混合聚类的阵列干涉SAR三维成像
一种改进的整周模糊度去相关算法
基于Spark平台的K-means聚类算法改进及并行化实现
每次失败都会距离成功更近一步
基于改进的遗传算法的模糊聚类算法