基于学生个人大数据的行为特征分析
2020-12-29舒江波彭利园胡茜茜刘三枒
舒江波,葛 雄,彭利园,胡茜茜,刘三枒,2
(1.华中师范大学国家数字化学习工程技术研究中心,武汉 430079;2.华中师范大学教育大数据应用技术国家工程实验室,武汉 430079)
21世纪以来,以大数据、云计算、人工智能为代表的新技术对教育的革新产生了深远的影响.大多数学者都认为,大数据具有变革人类的教育方式与学习方式的能力[1-2].有学者将教育数据分成五层架构,由上到下分别是国家层、区域层、学校层、课程层和个体层教育数据[2].本文主要关注个体层教育数据中的学生个体类数据,简称学生个人大数据.
学界在学生行为分析方面开展了大量研究.针对MOOCs平台上高辍学率的问题,有研究者专门对学生在MOOCs平台上形成的学习行为数据进行分析,对辍学学生的类别进行聚类,然后根据不同的类别进行针对性的引导和干预[3].有学者对美国乔治梅森大学的学生成绩进行分析,通过对各学期已经结束课程的成绩的聚类分析,识别出有学业危机的学生,再通过建立模型来预测这部分学生后续课程的成绩,达到提前预警的效果[4].张其亮等通过对翻转课堂教学模式进行研究,指出混合式教学能够帮助学生取得最优化的学习效果[5].刘智等以华中师范大学云课堂平台的论坛数据为分析对象,研究学习过程中互动话语行为与学习成效的关系,结果表明,学习者的互动话语行为表现与其学习成效存在着正相关性[6],且不同年级的学习者线上学习行为存在差异性[7].吕红胤等通过分析学生消费信息,研究学生消费行为与学生努力程度、生活规律性和社交性三个指标的关联关系,并基于这三个指标预测学生成绩[8].
高校大学生每天都会在学校各个业务系统产生海量的行为记录数据.这些学生行为数据中,不仅包括学生基础信息类数据、在线学习数据,还包括丰富的生活类数据和成长记录类数据.从学生的行为数据,可以分析出高校学生的学习习惯、生活规律和成长变化轨迹[9-10].
本文以高校学生日常行为表现为出发点,构建学生个人大数据分析模型,并重点研究饮食习惯与学业成绩两个维度的特征表现,探究优秀学生在校期间学习行为表现特征和生活规律,以期达到为学生自我发展提供借鉴,以及增强学校感知学生群体日常学习生活隐性行为表现新特点的能力.
1 学生个人大数据分析模型
本文主要从学生基本信息、在校学习、校园生活、毕业与就业信息四个层面对学生数据进行归类、特征提取,如图1所示.
图1 学生个人大数据分析模型Fig.1 Data analysis model of students’ personal big data
通过对学生各类数据的汇总研究,发现一卡通消费、在线学习两大类数据的活性最高,故分别对以上两大类数据进行深入的分析建模.
1.1 一卡通餐厅消费数据分析模型
1) 就餐时间段划分和餐别定义
学校一般以学生早、中、晚三餐就餐情况的表现来分析其饮食规律.本文认为,常规的早餐、午餐和晚餐的划分标准粒度较粗,且与大学生活作息不完全相符,学生在这三个餐次的表现并不能全面刻画学生的饮食规律,故提出就餐时间段和餐别类型的概念,如表1所示.
表1 餐别划分表Tab.1 Meal dividing table
2) 就餐时间稳定系数
就餐时间稳定系数是对学生年度就餐时间稳定性的描述,记为λ,计算方式如下:
(1)
其中,MTsdi表示第i个餐别就餐时间的标准差,其计算方法如下面公式(2)所示;Nmi表示第i个餐别就餐总次数;n表示餐别种类,本文取值为6.
(2)
3) 学生早起系数
学生早起系数是描述学生早起状态的指标,记为Vbre.计算方式如下:
(3)
4) 窗口选择稳定度
窗口选择稳定度是对就餐窗口选择的多样化描述,记为MTCL,计算方式如下:
(4)
5) 年度早餐就餐率&年度正餐就餐率
学生年度早餐就餐率和学生年度正餐就餐率是对学生饮食习惯在就餐频次上的描述,分别记为Rb和R.计算公式分别如公式(5)和公式(6)所示.
(5)
(6)
其中,Nb表示学生在不同学年的早餐就餐数,Nd表示学年总天数;Ngm表示每人每学年度在早餐、午餐和晚餐就餐总次数;Nbm表示每人每学年度在早中饭、下午茶、夜宵三餐就餐总次数;Nmax表示不同年级每学年的就餐餐次最大值;Nmin表示不同年级每学年的就餐餐次最小值.
6) 就餐消费水平和就餐消费稳定度
就餐消费水平指标是对学生就餐费用多少的描述,记为RCL,计算方式如下:
(7)
就餐消费稳定度是消费金额波动程度的描述,记为RCS,计算方式如下:
(8)
1.2 学生成绩数据分析模型
学生年度学业表现优秀度G,计算如下:
(9)
其中,Gi表示某学生在第i门课程中的学业表现优秀度,计算公式如下面公式(10)所示;Fi表示某学生第i门课程的学分值;n表示某学生年度选修的课程总数.
(10)
其中,Ri表示某学生在第i门课程中的成绩排名;Si表示第i门课程的班级人数.
2 基于学生个人大数据的实验分析平台
本文选择基于Hadoop处理框架搭建实验环境,且实验平台选择在阿里云ECS服务器(ubuntu 16.04)上搭建.实验平台架构如图2所示.
图2 大数据分析实验平台架构Fig.2 Architecture of large data analysis experimental platform
3 行为特征分析
本次实验一共采集到了学生基本信息、成绩信息、一卡通消费信息三大类数据集,时间跨度为2014学年至2016学年,共计17 899名学生.
3.1 学生一卡通消费行为分析
1) 学生整体就餐时间分布
从餐厅连续三个学年度四个年级学生的刷卡数据来看,大一学生就餐人次较高,消费人次为220万左右;大二、大三学生就餐人次次之,消费人次为180万左右;大四学生就餐人次最低,消费人次为106万左右.各年级学生年度刷卡记录如图3所示.
从2013级学生和2014级学生连续三年在餐厅不同时段的刷卡频次来看,高峰时间段[8,9]、[12,13]、[18,19],如图4和图5所示.
对2014级学生整体在一天之中的就餐时段分布,以及对三个学年就餐频次进行对比分析,发现存在如下特点.
①从早餐、午餐、晚餐就餐“高峰期”的前一个小时开始,餐厅会有一个“小高峰期”.
②中午学生用餐时间相对集中,但早晚餐用餐时间分布比较分散.此外,午餐和晚餐的“衰减期”比较“陡峻”,而早餐的“衰减期”比较“平缓”.
图3 不同年级、学年餐厅就餐总人次Fig.3 The total number of meals in different grades and school years
图4 2013级学生在各学年的就餐人次和时间分布图Fig.4 Distribution map of dinner number and time of class 2013 students in each school year
图5 2014级学生在各学年的就餐人次和时间分布图Fig.5 Distribution map of dinner number and time of class 2014 students in each school year
从不同时期学生就餐频次来看,大一新生的早餐“高峰期”比其他年级提前一个小时,在[7,8]之间出现.
2) 学生整体用餐地点与窗口选择
从用餐地点来看,用餐频次最高的餐厅依次为东一食堂、学子餐厅和桂香园餐厅.而且,上述三个餐厅,2013级至2016级的学生在每一个餐厅就餐的频次随着年级的增长而依次减少,如图6所示.
通过对2014级、2015级、2016级这三个年级学生在大一期间整体用餐频次进行对比,发现三个年级学生大一期间在餐厅就餐次数随着年级的增长整体上呈下降的趋势,尤其是2014级与2016级学生之间在就餐频次最高的那三个餐厅上表现比较明显,如图7所示.
通过对2014级学生大一期间在各餐厅或食堂窗口的就餐频次分布进行分析,发现学生整体就餐过的窗口数多达170个,且有4个窗口的就餐人次超过100 000人次.虽然绝大多数学生都会在多个窗口用餐,但这些学生在受欢迎度较高的窗口就餐的频率也更高一些,如图8所示.
图6 2013~2016级各餐厅就餐频次分布Fig.6 Distribution of dining frequency in grade 2013-2016 restaurants
图7 2014~2016级大一期间各餐厅就餐频次分布Fig.7 Frequent distribution of meals in restaurants during the 2014-2016 freshman year
图8 2014级学生整体大一期间在各窗口就餐的频次分布Fig.8 Frequency distribution of freshmen’s dining in all windows during the whole freshman period of grade 2014
3) 学生饮食规律分析
为探究大学生在校饮食规律特征,本文主要对学生就餐行为指标中的早餐就餐率和正餐就餐率进行聚类分析,按照聚类结果为学生添加饮食是否规律的分类特征指标.
按照学生早餐和正餐的就餐率,将学生饮食规律等级聚为两类,第一类标记为“饮食不规律”,表示早餐和正餐就餐率较低;第二类标记为“饮食规律”,表示早餐和正餐就餐率较高,聚类结果如图9所示.
图9 饮食规律Fig.9 Dietary pattern
4) 学生饮食消费水平分析
为探究大学生在校群体餐饮消费水平特征,本文对学生就餐消费水平、就餐消费水平稳定度进行聚类分析,按照聚类结果为学生添加消费水平高低的分类特征指标.
按照学生年度就餐消费金额和消费波动情况,可将学生饮食消费水平划分为六类,如图10所示.其中,消费水平类别1至6的含义分别为:“偏高且稳定性适中”“偏低且稳定性较差”“正常且稳定性较好”“偏高且稳定性较好”“偏低且稳定性较好”“偏高且稳定性较差”.
图10 饮食消费水平Fig.10 Dining consumption level
3.2 学生日常行为与学业表现相关分析
3.2.1 连续型行为指标与学业表现
1)各行为指标与学业表现的相关性分析
通过对早餐就餐率、正餐就餐率、饮食消费水平饮食消费稳定度等行为指标与学生学业成绩进行相关性分析,发现学业成绩与早餐就餐率、正餐就餐率、饮食消费水平、就餐时间稳定性等指标的相关性较强,如图11所示.
2)各行为指标之间的相关性分析
通过对早餐就餐率、正餐就餐率、饮食消费水平饮食消费稳定度等行为指标之间的相关性进行分析,发现两个规律.
①早餐就餐率与正餐就餐率呈正相关,且相关系数值较大,说明学生早餐越规律,饮食就越规律,在正餐用餐的概率就越大,并且在非主餐别用餐的概率就越小.
②饮食消费水平和饮食消费稳定度呈正相关,表明学生在校饮食消费水平越高,其用餐的稳定性就越强;相反,学生在校饮食消费水平越低,其用餐的稳定性就越弱,饮食不规律的概率就大.
图11 部分变量相关关系矩阵图Fig.11 Partial variable correlation matrix graph
3.2.2 分类型行为指标与学业表现
1)饮食规律性与学业表现的关联性
通过对学生的饮食规律性进行标记,并结合其平均学分绩,构造出三元组{<学生、饮食规律性特征、平均学分绩>}的数据集.通过对此数据集进行关联分析,得出不同饮食规律等级对学业表现的影响,结果如图12所示.
从图12可以看出,学生饮食越规律,学生学业成绩表现越好,学业表现稳定度越高.
通过对饮食规律性的数据分析,发现高校女生的早餐就餐率比男生高,如图13所示.
另外,随着年级的增长,学生早餐就餐率逐年降低,图14反映了大一至大四期间学生早餐就餐率的变化.
图12 饮食是否规律对学业成绩表现的影响Fig.12 The effect of regularity of diet on academic performance
图13 性别对早餐就餐率的影响Fig.13 The influence of gender on breakfast rate
图14 学段在早餐就餐率的表现Fig.14 The performanceof school period on breakfast rate
2)消费行为和学业表现的关联性
消费行为主要考察学生饮食消费水平和饮食消费水平的稳定性.
图15反映了6类消费行为特征的学生与其学业表现的对应关系.从图15可以看出,学生消费行为与学业成绩表现并没有较大关联.
4 总结
通过学生个人大数据的行为特征分析,客观地展示了学生的群体特征.这些特征可以为学校管理者优化管理服务或制定管理制度提供决策支持.例如,根据学生一卡通消费特征,学校管理者可以合理设定食堂的窗口设置和开放时间,既满足学生的用餐需求和饮食喜好,又节约管理成本和水电资源.根据图书馆的进出特征、图书借阅特征以及学生上网搜索学术资料的特征,学校可以加强图书馆在高峰期的管理预警,优化图书和电子期刊或学术数据库的资金分配.根据学生上网地点的流量特征,学校可以优化网络热点或基站的布局.
图15 消费行为对学业成绩表现的影响Fig.15 The impact of consumption level on academic performance
大数据的价值体现在“用”上.如何在以生为本的指导思想下,充分利用学生个人大数据,进一步分析和挖掘学生各个维度的行为特征,为学生的学习、生活、就业提供更优的管理和服务,需要高校管理者积极思考和实践.