基于校园一卡通和成绩数据的学生画像研究＊

2023-08-22孙美娟

计算机时代 2023年8期

孙美娟，张俊,2，年梅

(1.新疆师范大学计算机科学技术学院，新疆乌鲁木齐 830054；2.中国科学院新疆理化技术研究所)

0 引言

随着数字化校园建设的推进，高校积累了大量师生基本信息、生活消费、学习读书等动/静态数据[1]，收集和整理这些历史数据，构建分类模型，建立学生标签，可以实现学生画像，从而全方位了解学生，为个性化教学提供支持。

国内已有一些关于学生画像的研究，如翟鸣宇等人采用基于汉明距离与欧氏距离混合度量的Kprototype 聚类算法,针对包含类别数据与数值数据的教育大数据，全面分析学生行为数据，构建学生画像[1]。高语蔚等人基于校园一卡通数据，主要考虑“早起”和“吃早饭”的情况，探讨大学生成绩与其消费行为之间的关系[2]。

高校教育大数据中，校园一卡通消费记录能如实反映学生在校食堂、超市的消费情况。通过对其分析能够获取学生基本生活行为信息，而成绩数据体现了学生学习情况。为了分析学生消费行为和成绩之间的关系，本研究利用K-means 算法对高校学生的校园一卡通数据与成绩数据进行聚类分析与关联挖掘处理，构建学生画像，从而帮助高校教育管理人员全面认识学生，精准预测学生的学习情况，提前制订从各方面优化个性化学习的措施。

1 数据处理与聚类分析

1.1 数据集

本研究数据集为某高校计算机科学技术学院本科生的校园卡消费数据和成绩数据，校园卡消费数据包括食堂消费、超市消费及洗澡消费数据。为保护学生个人隐私，上述数据均经过脱敏处理，原始数据中包含2018～2019 学年计算机科学技术学院本科生的六十五万条消费记录和成绩数据。消费记录字段如表1。

表1 校园一卡通消费数据字段

1.2 数据预处理

本文数据集中的一卡通消费数据和学生成绩数据格式不统一，并且存在缺失现象。首先对原始数据进行预处理，提高数据集的质量。数据预处理包括数据合并、数据清洗、数据转换等步骤[3]。为保证数据的完整性，成绩数据集中，对休学、缺考、及交换生等因素造成的数据缺失，需要删除对应的成绩数据，其他学生成绩为一年的成绩平均值。对一卡通消费数据，采用统计方法进行数据转换。例如以月份为周期，统计学生月均消费额、月均消费次数、月均早中晚餐消费次数、月均早晚餐消费金额、消费峰值等指标。学生各项特征属性如表2所示。

表2 学生各项指标

1.3 聚类分析

本文选取K-means 算法对学生一卡通数据和成绩数据进行分类，了解学生的消费行为与成绩之间的关系，为学生标注标签的设置提供数据基础。聚类首先需要确定最佳初始聚类中心数K，故本文利用肘部法作用于预处理数据集，根据不同k 的误差平方和(sum of the squared errors,SSE)确定最佳聚类中心值K[4]。实验结果如图1所示。

图1 不同k值下聚类结果的SSE

从图1 可以看出，随着聚类数K 的增大，簇的聚合程度提高，误差平方和SSE 逐渐减小。当K>=5，SSE的减小幅度非常小，基本不变，故选择K=5 为拐点。即本文聚类K-means 分析时将按照K=5 进行，最终得到A、B、C、D、E 五个聚簇。大学生是否正常就餐能体现学生是否具有良好的生活习惯，本数据集聚类的结果如表3 所示。五个簇分别体现了月均消费金额、月均消费次数和三餐就餐率方面的五种聚类结果。

表3 学生成绩和一卡通数据聚类结果

2 校园一卡通数据与成绩关联规则分析

通过本数据集，挖掘学生日常消费行为与成绩之间的关联关系。通过K-means 分别将学生早、中、晚三餐的消费次数，消费金额，日均消费额，月均消费额聚集成高、中、低三类，根据成绩分布特征将成绩聚类成优、良、中、差四类，将两者关联，从而将学生的消费信息和成绩信息聚类，聚类后的特征见表4。

表4 整理后的学生特征

最后继续使用Apriori算法对学生消费行为和成绩进行关联分析，设置最小支持度阈值Smin=0.1，最小置信度阈值Cmin=0.3，关联分析的部分规则见表5。

表5 部分挖掘规则

由表5 中规则1、2 可知，早餐以及三餐去食堂就餐次数较多的学生成绩平均分高，规则3说明，部分成绩平均分高的学生生活比较节俭，规则4、5 可以看出早餐、午餐的就餐次数高低会影响月均食堂消费次数的高低，即可说明早餐、午餐对学生生活规律度会产生影响。

3 基于数据挖掘的学生画像分析

3.1 学生画像分析

对数据集通过K-means 算法得到聚类结果，再使用Apriori算法对学生消费行为和成绩进行关联分析，结合实验结果，对学生标注特征标签，实现了对各类学生群体详细统计。结果如表6所示。

表6将学生划分为A、B、C、D、E五个类别，分别对五个类别的数据分析如下。

A 组类别学生占学生总数28%，是五组中人数最多的类别，成绩平均分中等，月消费金额在五组类别中等，说明此类学生符合大部分正常学生的消费情况和学习情况。

B 组类别学生占学生总数6%，是五组类别中最少的类别，在校消费次数最少，说明很少在食堂吃饭，可能经常点外卖或外出就餐。月消费金额最高，单笔消费高，这类学生很少早起，生活不规律，属于懒癌患者且平均成绩差[4]。其符合小富群体，老师也应重点关注此类别的学生能否顺利完成学业。

C 组类别学生占学生总数21%，人数处于五组类别中间，在校消费次数较少，一般规律，单笔交费高，成绩差。C 组学生情况与B 组学生相似，但C 组人数是B 组的两倍多，所以学校也应提前重点关注此类学生的学业情况，及时进行预警，提醒这些学生及时纠正不良习惯，避免无法毕业或者就业。

D 组类别学生占学生总数19%，类别人数在五组类别中次低，成绩优秀，生活规律，月均消费最低，就餐率最高，单笔消费低，生活节俭，学院可结合其他数据进一步判断是否为贫困生。此类别学生有着优秀的成绩、良好的生活及消费习惯，是学校优秀群体。

E 组类别学生占学生总数26%，人数在五组中排第二，此类别学生消费水平中等，生活规律，成绩良好，仅次于D 类别学生，学校也应及时督促此类别学生，帮助其设置长短期学习目标，使这些学生具备上进的动力和激情。

3.2 学生画像展示

构建学生群体画像，可以使用可视化的方式展示学生的特征，通过对学生消费数据和成绩数据使用Kmeans 聚类分析和关联分析，结合学生的基本信息，采用词云图的方法对学生群体画像进行刻画[5]。针对不同类别群体学生画像进行举例展示，如图2所示。图2的词云图反映了不同类别学生的差异情况。

图2 学生画像词云图

4 结束语

本文基于新疆某高校计算机科学技术学院本科生校园一卡通消费数据和成绩数据，通过SSE 科学的确定聚类数目后，采用K-means 算法进行聚类分析。根据聚类结果，为学生群体赋予了特征标签[6]，构建了五类学生群体画像，为学生教育管理者提供相应的决策支持。

本文研究受到数据来源的限制，仅对学生一卡通消费数据和成绩数据进行分析，后续还可以广泛收集学生的其他教育大数据和上网行为数据，不断增加数据分析的维度和内容[7]，构建更全面的学生画像，为学校进行个性化教育和学生管理提供基础。

猜你喜欢