基于数据分析的学生行为画像研究
2021-03-24关金名
关金名
摘要:学生作为学校教育的主要参与者与受益者,其身体状况、行为习惯以及心理健康状况都会对学生自身的发展产生重要的影响。从另一角度来说,通过各项数据分析对学生的行为画像进行研究,可以帮助学校及时掌握学生的行为动态,同时针对学生自身存在的不良行为习惯进行纠正,引导学生养成健康向上的行为习惯。学校应当根据大数据平台等作为基础,深入分析学生行为习惯,培育良好的学风。该文将对学生行为画像的构建以及数据处理和分析等环节进行研究,并对结果进行评估,从而为学生行为画像分析提出意见和建议。
关键词:数据分析;学生行为;画像研究
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)02-0024-03
1 引言
学生行为画像的分析需要基础数据收集、行为标签确定以及行为画像构建等环节作为基础,其次进行学生行为画像的深入分析,采用行为画像处理以及行为画像聚类等方法对数据进行分析与研究,最终得出正确结果。基于数据分析的学生行为画像分析可以帮助学校树立优秀的学风、校风,有助于学生自身的成长发展。接下来将就学生行为画像的分析流程进行叙述,并就实例的分析结果进行分析与评估,通过对学生行为的大数据分析,为当前高校建设与学生发展尽绵薄之力。
2 学生行为画像的构建
如图1所示,其为学生行为画像构建示意图。在进行学生行为画像分析之前,需要对学生行为画像进行构建,此次设计以山东某高校学生为例,针对学生在学校中的基本信息、成绩信息、日常表现以及门禁数据等各项信息进行收集,并采取合理的数据处理分析方法,构建基于数据分析的学生行为画像分析平台。在学生行为画像构建过程中,需要进行学生基本数据信息采集、学生行为标签化两个过程,只有按照步骤进行学生行为画像的构建,此数据才可以代表当前高校学生的实际状况以及学风建设情况。
第一步需要做的是对学生行为画像进行构建,首先,技术人员需要查阅档案或数据收集学生的信息,包括大学生基本信息数据、大学生成绩数据、大学生图书借阅数据、大学生消费数据以及大学生门禁数据等信息,在收集此类基础数据信息之后,由于学生行为画像需要参照一定的标准对其行为进行界定,标准即大学生行为的标签化,如学生的学院、专业、班级、姓名、性别、学号、学制、消费总额,学年绩点、综合测评数据、图书借阅次数、生源地、日均消费额、宿舍楼进出次数以及上课缺勤次数等标签,通过将学生的各项行为标签进行细化,学校可以通过数据显著观测学生行为的变化,便于技术人员从细微的变化中分析学生的行为。如标签学习成绩可以描述为大学生学期平均学习成绩,以成绩段为划分标准,分为不及格、及格、良好、优秀四个级别。体育成绩大学生学期平均体育成绩,以成绩段为划分标准,分为不及格、及格、良好、优秀四个级别;标签借书量可以描述为大学生学期借书量,结合全校学生的平均借阅量,划分为较多、一般、较少、太少、无五个级别。标签还书量描述为大学生学期还数量,结合全校学生的平均借阅量,划分为较多、一般、较少、太少、无五个级别。标签消费总额可以描述为大学生学期总消费额度,参考全校学生的平均消费总额,划分为较多、一般、较少、太少、无五个级别。
标签日均消费描述为大学生学期平均每天消费额度,参考全校学生的平均消费总额,划分为较多、一般、较少、太少、无五个级别。
在学生行为画像标签划定之后,需要进行学生行为画像的构建。按照学生的信息或档案数据对上述确定的标签进行填写,如计算机学院、计算机科学与技术、计科1802班、李XX、男、18110403022、四年、年消费总额10000元、日均消费额度50元、学年绩点专业第二、综合测评专业第二、图书借阅量一般、生源地山东、无上課缺勤记录。通过上述实例进行学生行为画像的构建,可以帮助学校全方面地了解学生的心理和思想状况,便于对下一步的学生工作指明方向[1]。
3 对学生行为画像的分析
在对学生行为画像进行构建之后,需要对上述数据进行分析和评估。而在分析过程中,可以将分析环节分为学生行为画像处理和学生行为画像聚类两部分。在对学生行为画像进行聚类之前,需要对第一步收集的学生信息和标签属性进行处理,由于北京高校的学生人数众多,其行为习惯与属性也各不相同,此次设计是基于数据分析的学生行为画像分析,因此,学生数据信息是进行评估的基础,学生信息在学院、专业、班级、姓名、性别、学号等方面不存在数量等级差异较大的问题,但在日均消费额、消费总额以及缺勤次数等方面存在着较大的数量级差异。如部分学生家庭环境较为优越,生活费较其他同学高出很多,如某位同学学期消费总额为15000元人民币,而其他同学学期消费总额大都在5000元左右,因此,在消费总额这个标签处存在数量级差异,使得此标签对整体的贡献度可以忽略,这就导致后续的聚类无法得出真实的数据结果。技术人员在学生行为画像聚类之前需要对数据信息进行归一化处理,使得各个标签都拥有与之相对应的贡献度,即将大学生的各项标签信息统一映射到[0,1]的区间内,如采用线性函数转换、反正切函数转换以及数函数转换等方法对其进行归一化,使其呈现相应的数据效果[2]。下式为转换公式:
在经过学生行为画像处理之后,需要对标签信息进行聚类,聚类的主要含义为针对学生的数据信息进行全方位的对比与分析,计算各项标签之间的相似程度,并根据不同标签之间的相似程度,将相似程度较大的标签归为一类,这样一来,可以减少同类型的标签差异,由于聚类缺少相应的先验知识,因此聚类不存在监督分类,在聚类之后,行为画像需要满足三个条件:①聚类之后的所有集合仍能构成全部的行为画像;②聚类之后两种不同类别的画像集合之间几乎不存在交集;③同一聚类类别中的两行为画像的相似程度应当大于不同聚类类别中行为画像的相似程度。相似程度也可以表示为最大相似度距离。即同一聚类类别中的最大相似度距离应当小于不同聚类类别中画像的最大相似度距离。
如图2所示,其为学生时间安排示意图。在经过聚类之后,可以明确把握学生的行为习惯,如早饭时间集中在6:00~8:00之间,由于存在两个下课时间,因此午饭时间集中在11:30与12:00两个时间段,晚饭时间集中在18:00左右,打水洗澡时间在21:00~22:00之间。通过聚类我们可以看出不同行为画像之间所存在的隐含的关系,而学校可以通过提取不同的类别信息,对学生的不良习惯进行矫正,以确保行为画像发挥应有的作用。
如图3所示,其为K-Means算法流程示意图。在此阶段需要采用K-Means算法对大学生行为画像进行分析,算法流程为当算法开始后,首先输入行为画像聚类个数K,同时为中心向量C1、C2...Ck初始化K个种子,将样本分配至距离其最近的中心向量,之后确定中心,用各个聚类的中心向量作为新的中心,检查是否收敛,若无法收敛,重复分组和确定中心的步骤,直至算法收敛,此为K-Means算法的流程,可以帮助寻找不同聚类类别之间隐含的信息,加上前一步的归一化处理,可以使学生行为画像分析更具代表性和说服力,从而在学校发展中发挥应有的作用[3]。
4 对研究结果的分析与评估
在对行为画像进行构建以及处理和聚類之后,需要对研究结果进行分析和评估,此次研究以北京某高校机械学院的全体学生作为研究对象,并对其构建行为画像,行为画像构建的依据为学生的基础数据、消费信息、图书借阅数据、上课缺勤次数以及宿舍门禁次数等数据,可以在学生日常学习、生活、思想品德、日常表现等方面对学生的行为进行画像,此次研究与学校教务系统以及校园一卡通等数据系统进行合作,收集到有关学生的基础信息以及消费数据,可以较为全面地对学生数据进行分析,在信息收集之后,我们利用数据处理方法对收集到的信息进行处理,首先确定行为标签,同时按照学生行为标签对其进行描述,描述完成之后,此时才算完成了行为画像构建前的准备工作,之后通过行为画像处理和聚类对数据信息进行分析和评估,得到较为完善的数据处理结果。最后对研究结果进行分析与评估,针对已经构建完成的学生行为画像,需要考虑数据误差等多种影响因素,如不同标签之间的取值范围各不相同,对整体数据的贡献度也会有差异,为了避免此类问题,可以对标签描述数据进行归一化处理,将其取值范围都固定在[0,1]之间,这样一来,可以有效调整数据的贡献度,使数据更具说服力[4]。
以学生日均消费额的数据分析为例,如图5所示,其为学生日均消费额统计图。此次研究将日均消费额分为10元以下、10~30元、30~50元以及50元以上四个级别,由聚类结果可以看出,日均消费额30~50元的学生占39%,50元以上的学生占32%,10~30元的学生占21%,10元以下的学生占8%,这也从侧面说明了北京所在地域的消费水平,同时学生的消费观念也发生了较大的变化,学生的消费水平在增加。通过大数据的分析,可以帮助学校准确把握学生的行为习惯以及心理健康状态,并采取针对性的措施纠正学生的不良习惯,培育良好的学风、校风,以便学生更加健康地发展[5]。
5 总结
学生行为画像是基于学生各类标签,如姓名、日均消费额、图书借阅次数以及违纪情况等多方面的信息综合来构建,构建过程中需要收集学生的基本信息、教务系统中的信息以及校园一卡通内的数据,同时对数据进行归一化处理,采用K-Means算法对数据进行聚类,并按照标签的属性对其进行描述,使学校可以准确把握学生的心理动态与消费情况,帮助学校更好地制定下一步计划,为国家培养所需要的人才。
参考文献:
[1] 董潇潇,胡延,陈彦萍.基于校园数据的大学生行为画像研究与分析[J].计算机与数字工程,2018,46(6):1200-1204,1262.
[2] 朱梓熙,刘文敏,徐宝焱,等.基于数据分析的学生行为画像分析[J].中国教育信息化,2018(23):21-23.
[3] 张丽娟.基于大数据分析的用户画像助力精准营销研究[J].电信技术,2017(1):61-62,65.
[4] 赵国亮,陈晓军,李思奇,等.基于数据分析高校学生自画像的初探[J].数字技术与应用,2017(8):233-234,236.
[5] 石敏,卢丹海,秦婷.基于大数据的高校学生分析与服务平台的研究[J].信息技术,2019,43(2):5-10.
【通联编辑:代影】