基于聚类算法的学生学业表现分析预测模型

2020-06-04□陈来，张华

山西警察学院学报 2020年2期

□陈来，张华

(福建警察学院，福建福州 350007)

一、引言

学生的学习表现受到NBA(National Board of Accreditation)、NAAC(National Assessment and Accreditation Council)等各委员会的高度重视，特别是科技院校。在线学习中，教师只有通过每门课程的考试才能得知学生的学习效果，教学过程中很难获取到每个学习者的具体学习过程，存在教学分离、监控难、距离远的问题。[1]为了分析和挖掘出更多潜在的教育信息，研究者深入探索学习分析的理论、框架、工具及实践。学生学业表现分析是教育机构管理决策和实施素质教育的重要内容。有关教育机构的数据正在迅速增加，挖掘这些大量的数据将有助于管理层做出学术决策。预测学生在课程早期的学习表现，将有助于教育机构识别三好学生，并将更多的精力投入到稍弱的学生及制定开发补救方案，以提高他们的表现。[2]聚类分析作为数据挖掘的一种重要方法，在识别数据的内在结构方面具有很大的作用，其目的是将数据集划分成多个子集(簇)，使得簇内对象彼此相似，簇间对象彼此分离。[3]目前聚类分析已广泛应用在模式识别、图像处理、关系挖掘和时空数据库应用(GIS等)等众多领域。迄今，大多数研究者利用分类或聚类技术从教育数据中了解隐含模式。Md.Hedayetul Islam Shovon运用k-means聚类算法对学生学业表现进行预测。研究了学生的课堂测验、期中、期末考试作业等评价因素。建议在期末考试前将所有相关信息传达给班主任。该研究将有助于教师将退学率降低到显著水平，提高学生的学习表现。Monika Goyal和Rajan Vohra应用数据挖掘技术可以大大提高高等教育机构的效率。将聚类、决策树、关联等数据挖掘技术应用到高等教育过程中，有助于提高学生的学习表现、生命周期管理、课程选择，衡量学生的保留率，提高学校的经费管理水平等，因而是一种检验高等教育中使用数据挖掘技术效果的方法。

Ayesha等研究者利用k-means聚类算法作为数据挖掘技术，对学生数据库中的学生学习活动进行预测，包括课堂测验、期中、期末考试和作业。挖掘出的信息对教师和学生都有一定的帮助。这些相关信息将在期末考试前传达给班主任。该研究旨在帮助教师在适当的时间采取适当的措施，以降低挂科率，提高学生的学习表现。目前国内的学习分析预测模型还停留在理论探索与构建的阶段，因此本文利用k-means聚类算法对学生数据进行聚类，并对结果进行分析及预测学生学业表现较差、平均表现好和表现好的比例，以此可以对教育机构提供决策帮助。

二、基于聚类算法的学生学业表现分析预测

(一)k-means聚类算法的实现

令给定的数据集DB={x1,x2,…,xi,…,xN},其中N为数据样本总数；xi=(xi1,xi2,…,xij,…,xiD)表示DB中第i个样本点(i=1,2,…,N，且特征维数是D)；xij为xi的第j维属性(j=1,…,D)。传统的硬划分聚类算法是将给定的数据集DB划分成K个子集(簇)的集合Π={π1,π2,…,πK}，πk为DB的第k个簇(k=1,2,…,K)，且任意两个簇的交集是空集，K(K>1)是给定的簇数目。簇πk包含的数据对象数目记为|πk|，vk是簇πk的中心，簇πk在第d维上的中心为vkd。

k-means是用于对数据对象进行聚类的无监督算法。k-means聚类算法将n个数据对象划分为k个簇(group)，其中每个数据对象都属于均值最接近的簇。每一组中的数据对象具有高度的紧凑性，而另一组中的对象是不相交的。k-means算法使用平方和创建k组不同的元素。该算法的输入参数为簇中心数。[4]然后计算出每个元素与每个簇中心的距离。将计算出的数据元素与每个簇中心的距离进行比较，并将数据元素分配到最近的簇中心。这样，所有数据元素都被分配到一个簇中心。最初，通过将数据元素分配到各自的簇中心来形成K集群。然后重新计算每个集群中分配的数据元素的簇中心。再次使用新的簇中心计算每个数据元素与新的簇中心之间的距离，并将数据元素重新分配到靠近的簇中心。这个过程一直持续到没有数据元素分配给任何新的簇中心为止，这意味着第n-1次迭代的簇中心等于第n次迭代的簇中心。[5]

k-means聚类中的距离度量是欧式距离。样本xi与xj的距离定义如下：

D(xi,xj)=(xi1-xj1)2+(xi2-xj2)2+…

(1)

利用公式(1)可以计算每个数据元素与簇中心的距离。数据元素以最小距离分配到簇中心。簇中心是该组所有数据点的均值，每个带有数据元素集的簇中心都称为集群。

在聚类分析中，定义簇为分散度最小(或紧凑度最大)的样本集合，其中分散度以样本到簇中心的距离来衡量。结合k-means距离度量公式，定义聚类优化目标函数为:

(2)

(3)

在求解k-means 型算法目标函数的问题上，常用EM算法进行优化：首先给定初始簇数目、簇均值(从一个初始状态出发)，通过计算数据样本与各个簇中心的距离来将样本划分到相应的簇；根据更新后的簇重新计算簇均值；采用迭代算法结构，直到满足停止条件，使得各个簇中数据样本与簇中心的欧式距离和取得局部最优值，从而满足簇内样本紧凑、簇间样本分离的聚类划分目的。[6-8]从数据分布角度来看，簇内样本越紧凑代表簇内样本的离散程度越低。聚类算法实现步骤如下所示：

1．输入：据聚类的数目K和从N个样本数据中任意选择K个样本，使得X={X1,X2,X3……Xk}；

2.输出：从数据对象集合中选取将要聚类的对象作为初始的聚类中也为c1,c2,c3……ckn；

3.数据集随机初始划分，计算每个簇的算术平均值。

4.根据公式(1)计算样本到每个簇中心的距离：

(4)

5.将样本划分到最近的簇，重新计算簇中心ck并划分样本，直到簇不发生变化为止。

(5)

(二)学生学业表现分析预测

在明确簇中心的基础上，与学习者学习相关的数据实行聚类分析，详细完成步骤是：

1.输入学习样本与参数

输入m个学习数据样本{y1,y2,…,ym}，按照学习数据混沌关联维特征，在学习数据样本里选取M个聚类中心，[9]并设成{θ1,θ2,…,θm}。

‖y-θi‖=min(‖y-θi‖)

(6)

3.使用方式(11)获取学习数据样本聚类中心值θi：

(7)

4.若迭代次数属于奇数，那么直接跳至步骤(6)。反之实行后续步骤。

5.分裂

(8)

当中，χ属于常数，若Φ>c1，并且上一次没有实行合并处理，那么跳至步骤(6)。

6.结束

把存在同一混沌关联特征的学习数据经过以上聚类分析后设成一类，以此获取学生学业表现分析预测模型。

Q=ckθji

(9)

三、实验分析

(一)实验环境

为验证学生学业表现分析预测模型的可行性，选取华中师范大学云课堂平台上一门在线课程“教育云计算”的相关学习行为记录，针对不同的预测需求，即从高精确度到高解释度，先后采取两种算法对学习者成绩进行分析预测。部分学生基本信息在数据库中的存储情况如图1所示。

(二)实验结果分析

依据学习者对在线课程的学习情况可以直观而清晰的了解学习者的学习态度，为此在构建的在线学习行为分类指标基础上，通过计算每一类别中各指标的权重，并按照给出的在线课程忠诚度公式计算出学习者对课程的忠诚度得分，来帮助教师及平台管理者及时采取教学策略及教学模式，提高用户在线学习的热度。忠诚度计算方法如下：

图1 部分学生基本信息在数据库中存储情况图

RFL(study)=βF′+γL′-αR′

(10)

上式中，β、γ、α分别表示指标观看视频、电子笔记、互动交流等行为的学习频度F、在平台中观看课程视频的学习长度L、登录平台时距离分析点的学习近度R的权重，F′、L′、R′表示每个类别中F、L、R的均值。各级别学习者忠诚度排名结果如图2所示。

图2 各级别学习者忠诚度排名

混淆矩阵比模型的精度的评价指标更能够详细地反映出模型的“好坏”。精确率指所有真实类别为正类的记录中，被预测为正类所占的比例，计算方法如下：

(11)

召回率指所有真实类别为父类的记录中，被预测为负类所占的比例，计算方法如下：

(12)

为了使模型的正确率达到最大，该算法使用精确率与召回率相乘的结果作为适应值F，此外，为确保每个预测类型的规则具有更好的可解释性，对于同样准确的规则，以保留条件最少最简单的规则为准则。计算方法如下：

各预测模评价指标比较结果如表1所示。

表1 各预测模评价指标比较

由表1可以看出，该模型的精确率以及召回率均控制在90%以上，F值以及ROC值均大于传统方法，保证了高精度的学业表现分析预测效果。主要原因在于本文模型利用k-means聚类算法对学生数据进行分析，提高了预测模型的准确率与召回率，保障了预测精度。

采用上述介绍的k-means聚类算法进行聚类，将笔者最终选择的看视频行为、做小练习行为、发帖行为及回帖行为作为聚类的变量，采用＂迭代与分类＂的方法，设置最大送代次数为10，获得3928人作为聚类分析结果如表2所示。

表2 K-means聚类结果

经过多次聚类尝试和调整及清洗异类值之后，将聚类数设置为4是最合理的，也就是最终将学习者总共分为四类。从每个聚类中的案例数表中看到，第一类学习者共316人，占比为8%；第二类学习者有63人，占比为1.6%；第三类学习者为3503人，占比为89.1%；第四类学习者有46人，占比为1.2%。其中第四类学习者各项行为的最终聚类中也较其他类型学习者大很多，尤其是看视频行为及做练习行为的平均频次非常高，说明这类学习者是为数不多的能够＂吃透＂该门课程的人。

四、总结

本文利用k-means聚类算法，对学生数据进行分析，预测学生学业表现较差、一般、好的比例。从实验可以看出50%的数据以绿色显示。管理部门可以采取适当的措施从一般和较差的类别中提高学生的学业表现。这一简单的分析工作表明，适当的数据挖掘应用于学生的表现可以有效地利用从大量数据中隐藏的知识信息检索，可以用于教育机构的管理决策过程。通过对在线学习平台的行为数据进行统计分析，可以深入了解学生，有助于提供自适应学习指导。提前预知学习趋势，便于采取适当的干预措施。