基于在校行为轨迹的大学生学业预警机制研究
——以安徽工程大学为例
2021-06-04柏天燕
张 玥 邹 健 柏天燕
(安徽工程大学,安徽 芜湖 241000)
1999年,教育部因解决经济和就业问题出台了扩大普通高校本专科院校招生人数的教育改革政策,到2019年高等教育毛入学率达到51.6%,实现高等教育普及化。高校招生人数的剧增在使更多的适龄青年享受教育的同时也为高等教育管理和人才培养质量保障带来了前所未有的挑战。据数据检索显示,自2007年以来,由于各种因素每学年高校普通本专科约15-20万学生退学。基于此,“以学生为本”[1]建立科学的和人性化的学业预警机制是高校事务管理中亟待解决的问题。
传统的学业预警机制主要是通过通报在校学生各阶段学习情况来警示可能无法顺利完成学业的学生,同时实施针对性的防范措施促使学生顺利完成学业。教育管理部门所做的工作主要集中在学生以往学习成绩、学习态度问题等方面[2],这种事后预警机制使得在学业预警之前,“学困生”已成为既定的事实,预警机制没有真正发挥其人性化的警示作用。一方面,“学困生”以往的不良行为已成习惯难以改变;另一方面,学业成绩过低会导致学生情绪低迷、不自信和厌倦学习,更甚者会发生极端行为。因此利用学生在校行为轨迹数据对其在成为“学困生”之前进行学业预警是非常必要的。
一、学业预警指标选取
近年来,党中央国务院高度重视大数据战略的实施,而将大数据应用于教育教学领域,为教育数据的积累与收集提供了便利条件,也为学生教育管理变革提供了新的机遇[3]。高校可以借助各类数据中心采集到学生各方面的信息,如成绩信息、选课情况、图书借还信息、宿舍出入信息、校园消费信息、获奖信息、上网信息等,通过分析这些信息,实现对学生在校情况的评估。在当收集到的有效数据达到一定量级时,就能够挖掘数据背后隐藏的关联关系,实现对具有某种特性的群体情况的评估和预测,进一步指导教育实践。
本文依托安徽工程大学的联机事务处理系统面向该校2016-2019级在校学生收集其在大一的成绩信息与行为数据,总共获得1,200份有效问卷。数据集包含20个指标,其中指标学业成绩作为因变量,其余19个指标作为自变量,具体变量与取值如下:
(一)学习成绩
《高等数学》为安徽工程大学所有学生的必修课,依据各专业对数学要求高低的不同,该校分别开设了《数学分析》《微积分》《高等数学AI》《高等数学I》《高等数学II》《高等数学III》共六类高等数学课程。本文选取大学生在大一时的《高等数学》的成绩作为学业成绩能够很好反映学生的学业完成状况,具有较强的代表性。
(二)生源地
目前,我国高校招生的方式是按省分配招生名额,并且自2002年起高考开始自命题改革,这就使得各省份之间的生源质量出现差异的可能性增大。因此,本文按照地区繁荣程度将生源地分为三个大类,分别是:A.华东、华北、华南地区;B.东北、西北、西南地区;C.少数民族自治区。分别将它们设置为:“华东、华北、华南地区”—“3”,“东北、西北、西南地区”—“2”,“少数民族自治区”—“1”。
(三)二分类变量
指标中的二分类变量有性别、贫困程度、宿舍学习气氛和作业完成度。这里将这些变量进行哑变量化,性别上以1表示女生,0表示男生;贫困程度方面以1表示贫困,0表示不贫困;宿舍学习氛围方面以1表示学习氛围浓厚,0表示学习氛围不浓厚;作业完成度方面以1表示自己独立完成,0表示非自己独立完成。
(四)专业兴趣
以问卷调查的形式访问学生对其所学专业是否感兴趣,分为三类:A.感兴趣;B.一般(不讨厌);C.完全没兴趣。分别将他们设置为:“感兴趣”—“3”,“一般(不讨厌)”—“2”,“完全没兴趣”—“1”。
(五)数值型变量
对于学生来说,周早起次数、月均生活费、周晚睡次数、周运动次数、月逛街次数等变量的取值都比较清晰,故在问卷中均以填空题的方式出现,最后以学生所填数值作为最终结果。而对于学期学科竞赛次数、学期图书馆借阅书籍数目、周自习时长、月均恋爱费用、月均学习费用、学期活动次数、周网游时长、周看剧时长等变量的具体数值都比较模糊,因此,在问卷里均将其设为几个范围供学生选择,在处理这些变量时,均取学生所选的范围的组中值作为实际值处理。
表1 单个学生信息样表
对于学生的这些信息指标值,原始的非结构化、半结构化数据需要通过清洗形成结构化数据,以及缺失值、异常值和数据标准化等处理。表1展示了所选取的指标在数据处理后的取值状况。
二、学业预警机制的建立
针对数据集变量多的特点,本文利用了系统聚类法对影响学生成绩的19个因素,即生源地(第1个变量)、性别(第2个变量)、贫困程度(第3个变量)、学习氛围(第4个变量)、专业兴趣(第5个变量)、学期学科竞赛次数(简称学科竞赛次数,第6个变量)、学期图书馆借阅书籍数(简称借阅书籍,第7个变量)、周自习时长(第8个变量)、作业完成度(第9个变量)、周早起次数(第10个变量)、月均生活费(第11个变量)、周晚睡次数(第12个变量)、月均恋爱费用(第13个变量)、月均学习费用(第14个变量)、周运动次数(第15个变量)、学期活动次数(第16个变量)、周网游时长(第17个变量)、月均逛街次数(第18个变量)、周看剧时长(第19个变量),建立综合评价指标体系,得到综合预警指标。然后将获得的综合预警指标作为自变量,学业成绩作为因变量建立学业成绩预警的回归预测模型。通过实证分析验证了所建的学业成绩预警指标体系以及预测模型是有效的。
(一)系统聚类
将原始数据输入SPSS软件中,得到聚合结果——聚类表(表2)和平均连接的树状图(图1)。表2中第二列和第三列表示聚合类,比如第一阶段时,第8个变量和第14个变量聚合成一类,这时有18类(19-1=18)。因此,某阶段的分类数等于总的变量数减去这个阶段的序号。图1显示,当欧式距离约为14时,19个变量聚为10个综合指标:{综合指标Z1:学科竞赛次数、借阅书籍、周自习时长、作业完成度、月均学习费用};{综合指标Z2:专业兴趣};{综合指标Z3:月均生活费、月均恋爱费用、月均逛街次数};{综合指标Z4:性别};{综合指标Z5:周运动次数、学期活动次数};{综合指标Z6:生源地};{综合指标Z7:周早起次数、周晚睡次数};{综合指标Z8:周网游时长、周看剧时长};{综合指标Z9:贫困程度};{综合指标Z10:学习氛围}。
(二)主成分分析与回归分析
利用Matlab求出10个主成分(综合指标Zi,i=1,L,10)与学习成绩(y)的回归方程如下所示:
表2 聚类表
图1 树状图
(三)基于回归分析的学业预警
以建立的多元回归分析模型系数作为指标绘制雷达图(图2),用以体现不同综合指标在预警机制中的重要性。图2表明在我们构建的预警机制中影响最大的综合指标为学习习惯、生源、消费。
学习习惯包含了学期学科竞赛次数、学期图书馆借阅书籍数、周自习时长、作业完成度、月均学习费用等因素。该综合指标的系数(0.228,2)为正,说明该高校学生的学习行为与学生的成绩表现有很大关联,且学习行为良好的学生会在接下来的学习中大概率会继续维持好的学习成绩,这方面也符合大众的一般认知,因为学习好的学生普遍已经养成了良好的学习习惯,并且在学习上通过成绩获得了激励,相对于以往学习成绩较差的学生,更了解如何维持自身的学习状态,也更有动力努力获得更优良的学业成绩。
消费涵盖了月均生活费、月均恋爱费用、月均逛街次数等因素。该综合指标的系数(-0.161,7)为负,这很大程度上是由于学生追求“伪精致”生活所造成的。学生进行这类消费通常是因为互相攀比或一时的冲动下的行为。这势必导致学生将注意力分散在了对吃喝玩乐的追求上,从而降低了对专业学习本身的关注,也减少了在学习上的投入。
除此之外,生源也是影响学生成绩的一个重要指标。虽然我国已经实现了高等教育大众化,但仍然不能保证每个人都能接受高等教育。高考仍然是决定学生能否接受高等教育的主要手段。因此,在同一所大学里,学生往往来自全国各地,家庭背景差异很大。我国是一个幅员辽阔的大国,不同的地区不仅在地理上存在着差异,在经济和文化上也有着明显的不同。与西部地区相比,东部沿海地区的经济比较发达,城市基础设施和相应的配套设施比较完善,也有着较丰富的教育资源。因而,在这种情况下,来自不同地区的学生,学习上可能会有些不同。
图2 回归分析模型雷达图
三、结论与建议
学习行为分析有利于促进学生个性化学习,有利于实现教师差异化教学,有利于管理者实施精细化管理。本文对大学生在校行为轨迹的分析,挖掘出学生的学业成绩与学习习惯和消费观之间所存在的关系,为教学管理者和任课教师实施因材施教,进一步增强教学效果、提高人才培养的质量提供理论支撑。
针对安徽工程大学在校大学生建立的学业预警机制向我们展示若要提高学生的学业成绩以及高校的管理和教育质量,一是校方需要完善学业预警信息化支撑平台。利用平台管理者能够实时掌握学生在校的行为轨迹。二是培养学生养成良好的学习习惯。充分发挥思政教育的作用,用高尚的道德情操陶冶学生,教育学生树立正确的爱情观,用“四有”标准要求自己;从制度上规范学生学习习惯,从思想上端正学生学习态度。三是营造浓厚的学习氛围。采用“帮扶”措施,辅导员、任课教师、团委、班委、学生党员、寝室长和学习优秀者都可以从不同方面对被预警的学生进行帮扶,让帮扶渗透到每个细节;鼓励学生积极参加学科竞赛,引导学生学会借助图书馆培养自己解决问题的能力;大到校风,小到班风和寝室氛围都应是积极向上和互助友爱的。四是要抓早抓小、防微杜渐。对反映学生的苗头性、倾向性问题,及时谈话提醒、诫勉和教育。引导学生树立正确消费观,量入而出,理性消费;培养积极健康的休闲娱乐方式,坚持教育大学生不能过度沉迷于网络游戏和迷恋小说和影视。