基于聚类集成的学生群体画像构建

2022-09-26王惠惠董永权和文斌范斐然

江苏师范大学学报(自然科学版) 2022年3期

王惠惠, 董永权, 和文斌, 范斐然

(江苏师范大学智慧教育学院(计算机科学与技术学院),江苏徐州 221116)

0 引言

近年来,随着在校学生人数的增加,班级规模增大,使得传统的班级教学模式难以兼顾全部学生需求,比如：对于学习能力相对较强的学生,课堂教学内容可能“难以吃饱”;而对于学习能力相对较弱的学生,课堂教学内容可能“难以消化”[1].为此,研究者提出了分类教学方法.分类教学能够突破传统班级教学困境,立足学生差异,促进学生的个性化发展[2].

学生群体画像采用机器学习方法挖掘学生的属性特征,形成数据化、语义化的特征标签,并对拥有共同特征的群体进行划分,是大数据时代实现分类教学的方法之一[3-4].它不仅能辅助教师实施差异化教学策略,而且能紧密跟踪、精准分析不同类别学生的学习情况[5],是当前教育领域研究的热点之一.已有的对于学生群体画像的研究多采用单一聚类方法,自动挖掘学生行为属性进行分类，如:Dinh等[6]采用KMeans算法识别具有相似学习动机和学习策略的群体,并画出5类不同特征的学生群体画像;肖君等[7-8]发现，KMeans算法能够帮助教师及管理者识别不同学生群体,并为学生提供个性化的学习过程评价或效果评价;乔惠[9]利用KMeans聚类方法识别具有高风险流失的学生群体画像;王萍[10]研究了不同国家学生的学习行为和特征,采用DBSCAN聚类算法将学生分为4类学习者;张弛等[11]使用GMM算法对学生的基本信息和学习偏好进行聚类分析;罗杨洋等[12]分别采用GMM、KMeans和DBSCAN 3种聚类算法对清华大学学生的学习行为进行群体画像分析.然而,单一聚类算法难以准确反映各类数据结构,且不同算法的聚类结果具有差异性.基于此,本文提出一种基于聚类集成的学生群体画像方法.通过分析学生的基础数据和行为数据,建立合理的学生群体画像特征标签,并运用KMeans、KModes和GMM 3种聚类方法构建基聚类器;最后,通过投票法对基聚类器的结果进行集成处理,并根据轮廓系数选取合适的类数构建学生群体画像;同时,分析每个群体的主要特征,为后续教师制定分类教学手段和策略提供参考.

1 构建框架

学生群体画像的构建框架主要包括数据采集与处理、群体画像特征标签构建、基聚类器构建、聚类集成、群体特征分析及学生群体画像6个部分(图1).

图1 学生群体画像构建框架

2 数据采集与处理

数据集采用阿里云天池“数智教育”大赛某中学高一至高三年级的学生成绩及行为数据(https://tianchi.aliyun.com/competition/entrance/231704/information),比赛任务是对学生基本信息和行为数据进行可视化分析.数据集共涉及学生基本信息表(student_info,已脱敏)、学生考勤表(kaoqin)、学生考勤类型表(kaoqintype)、学生成绩表(chengji)、考试类型表(exam_type)和学生消费表(consumption)6张表,表关系结构如图2所示.由于学生在校行为所产生的数据结构复杂且数量庞大,因此，必须先对各表中字段格式和内容进行清洗,减少噪声影响.数据清洗包括去除逻辑错误数值和填补数据缺失值,然后整合成统一标准的数据格式.

图2 表关系结构

3 学生群体画像的特征标签构建

从数据中挖掘和提炼学生的属性特征,并将属性特征标签化.学生群体特征包含显性特征和隐性特征,其中显性特征包括学生的性别、政治面貌、民族、住宿情况和出生地等,隐性特征包括违纪情况、月消费金额等.通过建立学生显性和隐性特征的标签维度,利用聚类算法将他们划分为不同特征的群体,精准分析他们的情况.在聚类算法中,特征选取直接影响聚类效果,因此,需要选择与学生成绩相关的重要特征[13].随机森林算法作为学生画像的特征选择工具,既具有良好的鲁棒性又能很好地处理异常数据[14].因此,将随机森林算法特征重要性排名前3的学生违纪情况(X1)、学生住宿情况(X2)和学生月消费总额(X3)作为学生群体画像的特征标签.

4 聚类集成

聚类作为无监督学习的一种算法,依据数据的自身特性可划分为不同类别[15].常用的聚类算法主要包括基于划分的聚类(如KMeans、KModes)、基于密度的聚类(如DBSCAN)和基于模型的聚类(如概率模型GMM)等[16].由于学生数据规格一致,离散程度较大,不适合使用密度聚类算法[13].因此,本文运用KMeans、KModes和GMM 3种聚类算法构建基聚类器,通过投票方法对基聚类器的结果进行集成.

4.1 KMeans聚类算法

KMeans算法是目前应用最为广泛的一种基于划分的聚类方法,通常采用欧氏距离作为衡量数据间相似性的指标,相似性越大,距离越小.其核心思想是随机设置K个初始聚类中心,依据每个数据对象与聚类中心之间的相似程度,不断地更新聚类结果,直至收敛[17].KMeans聚类算法简单、运算快速,适用于连续属性的数值型数据,对各种大规模、高频率的数据挖掘具有很强的扩展性.

KMeans聚类算法的伪代码描述如下:

输入:K:number of clusters,D={d1,d2,…,dn}:a data set

输出:Kclusters:C={C1,C2,…,CK}

1:center = initClusterCenter(K)

2:while center does not change do

3:C=assignPoint2Center(D,center)

4: center=reComputeClusterCenter(C)

5:end while

6:returnC

4.2 KModes聚类算法

作为KMeans算法的一种扩展,KModes聚类算法在处理离散属性的数据点中表现较好,很好地降低了噪声数据的影响,并减少了孤立点的敏感性[18].其核心思想是随机设置K个初始聚类中心,依据每个数据对象与聚类中心的不同属性个数重新划分数据对象,不断更新聚类结果,最终以每类的众数作为新中心点获得聚类结果.KModes聚类算法具有划分原理简单、操作简单、执行速度快等特点.

KModes聚类算法的伪代码描述如下:

输入:K:number of clusters,D={d1,d2,…,dn}:a data set

输出:Kclusters:C={C1,C2,…,CK}

1:center = initClusterCenter(K)

2:while center does not change do

3:C=assignPoint2Center(D,center)

4: center=reComputeClusterMode(C)

5:end while

6:returnC

4.3 GMM聚类算法

GMM算法是一种基于概率模型的聚类算法，其核心思想为预先假设存在K个聚类中心,且每个聚类均服从混合高斯分布,计算每个数据对象与聚类中心之间的分布概率、权重和方差,得出最大似然函数值,最终将数据点所属概率最大类作为其聚类结果.GMM算法采用概率方式,使不同数据自适应训练获取参数,增强了算法的泛化能力.它不仅能依据不同数据自适应训练获得模型相关参数[19],而且能快速地解决泛化能力差、群协迟钝等问题[20].

GMM聚类算法的伪代码描述如下:

输入:K:number of component,D={d1,d2,…,dn}:a data set

输出:Kclusters:C={C1,C2,…,CK}

1:P=φ

2:μ,π,Σ=initClusterParameter(K)

3:whilePis convergence do

4: fori=1 tondo

5: fork=1 toKdo

6:r(i,k)=computeComponent(di,k)

8:Σk=computeVariance(r(i,k),di,μk)

9:πk=computeWeight(|Dk|/|D|)

10:P=computeLikelihoodFunction(μk,Σk,πk)

11: end for

12: end for

13:end while

14:C= assignClassByMaxLikelihood(P)

15:returnC

从巢湖流域综合土地利用动态度数值（图2）可知，1985－2000年，土地利用综合动态度为0.08，2000－2016年，土地利用综合动态度为0.12。可以看出巢湖流域的土地利用程度呈上升趋势，表明区域内土地利用变化加剧。根据巢湖流域的单一土地利用动态度变化图（图1）可分析区域内各土地利用类型的变化程度。

4.4 聚类集成算法

运用KMeans、KModes和GMM 3种聚类算法构建基聚类器，使用聚类集成算法(clustering ensemble algorithm,CEA)进行数据挖掘.CEA算法的核心思想是:依次采用KMeans、KModes和GMM算法对数据对象进行聚类计算,分别得到3个聚类结果,之后通过投票法,选取次数出现最多的类作为该样本的类,以提高聚类结果的精确性和鲁棒性.算法流程图如图3所示.

图3 CEA集成算法流程图

CEA聚类集成算法的伪代码描述如下:

输入:K:number of clusters,D={d1,d2,…,dn}:a data set

输出:Kclusters:C={C1,C2,…,CK}

1:Lt=φ(t=1,2,3),Ck=φ(k=1,2,…,K)

2:L1=KMeans(D,K)

3:L2=KModes(D,K)

4:L3=GMM(D,K)

5:fori=1 to len(D) do

6: res=getBaseClusterClasses(di,L1,L2,L3)

7:j=getMaxOccurenceClass(res)

8:Cj=Cj∪{di}

9:end for

10:returnC

5 实验及分析

5.1 评价指标

1)轮廓系数

轮廓系数用来衡量类内样本的聚集程度[16].样本点di的轮廓系数Si的计算公式为

其中:ai表示di和类内其他点之间的平均距离,bi表示di与最近类中所有样本点之间的平均距离之和.轮廓系数Si越大,聚类效果越好.最佳聚类个数在轮廓系数最大时取得.

2)误差平方和

误差平方和衡量聚类算法中聚类划分结果的精确度[16].计算公式为

其中：di为样本点，ck为第k个聚类中心，d为样本点到类的欧氏距离.误差平方和越小，表明精确度越高，聚类效果越好.

3)信息熵

信息熵是依据聚类结果中某个类别出现的概率衡量算法鲁棒性的指标[16].第i个类别的样本集Di随机出现的信息熵H(Di)的计算公式为

其中：di为样本点，p(di)表示di随机出现的概率分布值.信息熵越小,表明聚类算法鲁棒性越好.

5.2 实验环境

Windows 10 操作系统;CPU,Intel core i5;32 GB内存.

5.3 聚类算法分析

为获取最佳的聚类个数,分别选取KMeans、KModes和GMM算法对实验数据集进行轮廓系数分析.图4为聚类中心点k取值2～9时的聚类轮廓系数图,可以看出,聚类个数为3时效果最佳.

图4 聚类轮廓系数图

为验证聚类结果的精确性,采用KMeans、KModes、GMM和CEA算法分别计算数据集的误差平方和,比较算法的聚类性能,结果如表1所示.可以看出,GMM算法的误差平方和最大,而CEA算法的误差平方和最小,精确性最好.

为验证聚类结果的鲁棒性,采用信息熵比较4种算法的性能.由于聚类算法初始聚类中心均为随机产生,因此,需要通过多次运行判断聚类结果的鲁棒性.本文对每个算法各运行10次,统计聚类结果的信息熵,结果如表1所示.可以看出,相比于其他3种算法,CEA算法的信息熵最小,鲁棒性最好.

表1 4种聚类算法的误差平方和和信息熵

5.4 学生群体画像及分析

选取学生违纪情况(X1)、学生住宿情况(X2)和学生月消费总额(X3)作为聚类特征.在聚类之前,使用Scikit-learn库中MinMaxScaler方法对所选特征进行最大最小归一化处理,以消除特征维度差异的影响.使用CEA算法对2018—2019年第1学期791名学生进行中心点k为3的聚类分析,得到3类不同特征的群体.为便于教师对学生群体进行识别,依据学生的具体特征和学习效果分为“自控型学习者”“常规型学习者”和“消费型学习者”3种类型.统计分析发现,“自控型学习者”中有13名学生的行为存在严重异常,将其定为离群点,并作删除处理.学生群体画像的聚类分析结果如表2所示.

表2 学生群体聚类分析结果

可以看出,在3类学习者中,“自控型学习者” 占14.01%,各项指标均表现最好:违纪次数最少,在校住宿,月消费水平最低,学期平均总成绩最高.

“常规型学习者”占70.95%,在各项指标上均表现一般：“违纪情况”在3类学习者中最高,月消费总额处于居中层次,学期平均总成绩处于中等水平.说明此类学习者自我约束性不高,没有将全部精力投入到课程学习中.针对此类学生,在纪律方面,学校应加强违纪违规情况的管理,并深入开展政治思想工作、德育工作,培养学生的自律能力和自育能力;在学习层面,教师应不定期与学生交流情感,聚焦学生需求,解决学生遇到的问题,并及时给予反馈.

“消费型学习者”占比15.04%,在各项指标上表现都相对较差:虽然在校住宿,学校违纪次数较少,但月消费总额在3类学习者中最高,学期平均总成绩最差.这可能是由于此类学生长期住宿,缺少家长的关爱和教导,没有形成正确的消费观念,自我约束性较差.针对此类学生,在消费层面,家长和教师应主动关心,引导其形成正确的消费观念;在学习层面,教师应给予足够的关爱与耐心,分析其存在的问题,从学习方法、策略等方面进行针对性的指导,促使其学习成绩有较大幅度的提升.

6 结语

为实现分类教学,本文通过对学生的基本信息和行为数据进行分析,提出基于聚类集成的学生群体画像方法,分析不同群体的学习特征,从而找到提高学生成绩的关键点,辅助教师制定更科学的分类教学策略,将因材施教落到实处.今后,还可以把学生群体画像和学习资源相结合,分析不同类型学生所需的学习资源,进行相应的学习资源推荐研究.