大数据时代高校学籍预警机制的探索与研究*
2015-12-02韩凤霞
韩凤霞
(北京信息科技大学 工程训练中心,北京100192)
一、引言
当今大学生成长在以互联网和手机通信为代表的现代传媒手段蓬勃兴起的时代,虽然可以开拓国际视野,但也缺乏自制力,容易迷失方向,无法自拔;还有部分学生由于其人生观、价值观在成长过程中发生偏差,崇尚享乐主义,主要精力不放在学习上,学生的自主能力差,不能正确的处理学习和交友,学习与休息,学习与娱乐等的关系。自我控制能力差,纪律松懈,作风散漫。从而导致了多门课程重修,学习进入了恶性循环。2012年中国社会科学院在国内教育发展研究报告中指出,目前国内每年平均有50万大学生选择了退学,其达到了大学招生的0.75%左右。其中主要原因是由于成绩差,对个人学业或是对学校教学环境丧失信心[1]。大学生选择退学的结果给社会、学校、家庭带来了很大负面影响。
从学校的管理角度出发,若能建立动态的预警教育机制,对大学生的不良思想、行为做到事先警示教育、事后跟踪管理,对学生可以起到“扬鞭奋起”的警示与鞭策作用。学籍异常都是逐渐产生的,怎样在产生恶果之前及时介入干预和帮扶,怎样才能做到“防微杜渐”、是急待解决的问题[2][3]。
二、当前学籍预警体系的现状
目前,高校学籍管理一般分为校院两级管理模式,学校级别的管理主要靠建立规章制度和执行规章制度,而学院对学生的管理主要靠学籍监控及预警指导为主。教务工作与学生思想政治工作在学生管理方面相对独立,主要是事后预警。
(1)成绩预警:根据教学管理系统,统计学生完成的学分及学分绩点和教学计划要求的进程比对,评估学生学习情况,并预测学生完成培养方案的趋势,将可能无法完成培养方案的学生整理汇总,并将其交给学院辅导员。辅导员针对学生的具体情况进行干预并对其预警。
(2)日常预警:可以借助教师定期对学生考勤记录、作业是否按时完成、以及课堂学习状态等进行分析,学院教学管理者收集到相关信息后进行整理及筛选后反馈给辅导员,由辅导员进行预警处理。
由此可见,目前的预警主要是单方向的,孤立的事后预警,具有迟滞性。只有出现严重的学籍异常后,才采取相应的对策解决问题,但是对于一些潜在的问题,学生不能发现,比如对处于网瘾状态而上学期表现良好的学生不能及时发现。现有的学籍预警系统无法做到对学生的学习和生活状况的实时监管,对问题的根源无法追踪。要以“学生为本”构建全方位预警方式的构架,将大数据挖掘技术和传统的人力管理相结合,做到“防微杜渐”,减少产生恶劣的后果。
三、基于学生画像的学籍预警系统
随着大数据时代的到来,学生的所有行为在高校面前几乎全是“可视化”的。许多高校开始研究如何有效的利用大数据技术为人才培养服务,挖掘学校海量数据潜在的巨大价值,进而提出“学生画像”的概念。学生画像即学生特征进行标签化处理,是高校利用采集到学生的各方面数据,构建一个学生数据抽取模型。通过分析其个人基本属性、学籍信息、考勤信息、上网行为、借阅图书信息、校内消费行为及个人兴趣爱好等重要特征,进而抽象出学生的在校画像,该画像可以作为是学校教学管理的重要依据。学生画像可以为学校提供了充足的学生数据,对学生特征数据进行降维及聚类分析,能够帮助学校快速准确的了解各个学生的学籍状态,依据评价结果,有针对性的对相关学校有关部门、教师、家长和学生传递预警信号,必要时采取干预措施,对学籍状态出现异常的学生给予有针对性的引导,避免因各种原因导致学生无法完成学业或产生其他不良结果的事情发生。
1.构建学生画像的意义
随着信息化建设的不断推进,高校在各种管理系统中采集并保存了有关学生信息的海量数据,并逐步形成了一个从学生基本信息、学籍信息、校内消费、图书借阅到上网行为的多维度数据存储体系。如果能够根据学校管理决策的需要构建一个数据仓库,对该存储体系统的数据进行抽取、清洗、转换并载入数据仓库中,进而形成一个高质量的数据中心,学生画像是在学校数据仓库中进行数据挖掘,通过其中多维度的数据信息,分析学生的有关信息,还原学生的基本属性、学习成绩、上课考勤、图书借阅行为、上网行为以及校内消费行为等属性。了解学生的各种特征及需求,精准描述学生群体特征,针对特定场景进行学生不同维度的聚类分析,将杂乱无章的海量数据转变为栩栩如生的学生画象,进而监控学生的学籍状态,并预测学生学业走向,必要时管理者可以干预学籍异常学生行为,对其进行有效的管理。
2.学生画像的构建
学生画像的主要任务是给学生贴“标签”,标签是指可以准确精炼的描述学生的特征标识,比如性别、年龄、民族、兴趣爱好等,将学生的所有标签综合在一起,就可以构成学生的“画像”了。本文主要从学生的基本属性、学习成绩、上课考勤、图书借阅行为、上网行为以及校内消费行为对学生特征进行研究。学生画像主要分三步:①采集学生数据;②统计分析,生成学生特征标签;③生成学生画像。流程如图1所示。
图1 学生画像流程
首先,对学校各个数据源进行数据抽取、清洗、转换、装载入学生数据仓库中,采集到的学生数据分为静态特征数据和动态特征数据,所谓静态特征数据是学生相对固定不变的特征信息,如姓名、性别出生日期、民族等特征,动态特征数据就是学生随时间的推移不断变化的行为特征,如学习成绩、上课考勤、图书借阅行为、校内消费行为及上网行为等。
其次,利用收集到的学生特征属性信息,通过统计分析为学生在不同纬度特征上贴上标签。其中,对于学生静态属性,例如学号、姓名、性别、出生日期、民族籍贯等,通过对采集到的特征数据进行抽取、清洗及转换,可以直接为学生贴上标签。 对学生动态属性贴标签时,需要根据具体需求进行统计分析。比如对学生学习状况分析时,需要对学生学年学期不同课程性质课程获取的成绩标准化处理,然后进行统计分析,生成学生学期不同课程性质获取的平均成绩,从而为该生贴上学习状况标签。依据同样方式为学生贴上上课出勤特征、上网特征及借阅图书特征等。
最后,根据学生的所有标签为学生画像,通过画像可以直观地呈现学生特征属性。
图2 学生画像框架图
3.学生画像分析
高校为学生特征生成画像后,通过分析学生画像可以实时准确了解学生的各方面特征,掌握其基本学籍状态。考虑到学生画像中不同特征间具有某种相关性,而相关性会增加统计分析的复杂程度,采用主成分分析法对学生画像进行分析,将最初具有关系的属性用新的相互独立的属性来替代。选取尽可能少的属性来反映学生的所有特征。分析学生画像主要包括以下步骤:
(1)将n个学生画像数据按列生成矩阵S,如公式(1),该矩阵由n行m列组成
(2)对矩阵S每行(学生特征)进行标准化处理,即将学生特征值归一化处理,利用公式(2)进行特征标准化。
(3)学生特征矩阵计算,输出协方差矩阵R(公式(3));
对学生特征矩阵进行标准化处理后,用处理后的矩阵替代原学生特征矩阵S,从而使得统计分析输出的结果具有更好的质量,利用公式(4)计算学生特征矩阵S的相关系数。
(4)计算协方差矩阵R的特征值(λ1,λ2…λm)以及特征向量ɑi=(ɑi1,ɑi2,…ɑim),i=1,2…m,并利用公式(5)计算贡献率。
其中w表示特征值λi的贡献率。
(5)选择主成分
根据标准化的学生特征数据,根据特征贡献率将学生特征值按降序排列,根据统计需求取前若干行(特征),形成降维后的学生特征矩阵
(6)对矩阵进行聚类分析,采用KHM(K-Harmonic Means)对矩阵聚类,该算法将每个学生特征数据到各聚类中心的调和平均值的和看作目标函数公式(6)。
四、实验验证
通过对北京信息科技大学31个专业2个年级5367名学生静态数据及动态特征数据采集、整理、过滤分析,形成学生画像。其中包括静态特征(基本属性)24个,动态特征5个,总计29个特征信息。针对学生的特征数据生成学生特征矩阵,进而对学生特征矩阵进行主成分分析法进行降维处理,动态提取学生关键特征值,从而生成新的学生特征矩阵,然后利用基于距离的聚类分析法,将学生进行聚类,将严重偏离中心点的学生特征信息提取出来,如图3所示,离群点的学生信息有可能为学籍状态异常,进而生成学籍异常学生信息,通过将模型提取的学籍异常学生信息与学院核对,结果发现95%的学生确实存在学籍异常特征。
图3 学生学籍状态聚类图
在分析过程中产生了一些急待解决的新问题,为进一步动态地监控学生学籍的状态,需要教务处、学生处、学院、任课教师、辅导员及学生多方形成合力,缺少任何一方的积极推进,都无法顺利完成预警工作并取得实效。必须在以下几方面进行加强建设:①及时上报课堂考勤数据。任课教师考勤是考勤预警的最准确、全面的数据来源,数据汇总要及时,以免错失最佳干预期。②各个信息系统数据充分共享。各个应用系统之间的信息避免出现孤岛现状,实行实时的共享和同步。
五、结束语
采用学生画像的方法监控学籍状态,构造学生特征矩阵,并经过降维处理,简化特征,能够实时掌握学生学籍的动态生特征信息,及时的发现问题,未雨绸缪的采用预警措施,利于学校的学风建设,对于学籍信息不稳定的学生,采取实时预警措施。在有大量信息的教育领域,将基于学生特征画像方法应用于学籍状态监测,在高校学生管理中加以推广应实验结果表明,所得出的结论对高校教学和人才培养具有一定的指导意义。
[1]杨东平.中国教育发展报告2012[M].北京:社会科学文献出版社,2012.
[2]张红云.高校学习预警机制探索[J].科技信息,2010(1):801.
[3]章东飞.大学生学籍预警机制探索[J].教育学术月刊,2010(5):75-76.
[4]袁安府,张娜,沈海霞.大学生学业预警评价指标体系的构建与应用研究[J].黑龙江高教研究,2014(3):79-83.
[5]吴青芳,胡欣敏.高校学籍管理与学风建设关系研究[J].化工高等教育,2010(4):21-24.
[6]李爱凤,刘葵,唐连章等.数据挖掘技术在数字化校园共享数据中心的应用[J].实验室研究与探索,2013(11):232-236.
[7]黄晓霞,程论.综合评价与数据挖掘的比较[J].上海海市大学学报,2007(12):54-58.
[8]刘昕,郑莆燕,刘莉.学分制下二级学院学生预警机制的探索与实践[J].教育与职业,2013(1中):174-175.
[9]林静,陶爱萍.我国近二十年高校学籍管理制度理论研究综述[J].江苏高教,2012(1):60-62.
[10]曾丽.学分制条件下学籍管理的完善[J].鞍山科技大学学报,2006(6).
[11]张波,耿在丹,杜保强.基于数据仓库的学生信息管理决策系统[J].实验室研究与探索,2009,28(12):60-62.
[12]华金秋.台湾高校学习预警制度及其借鉴[J].江苏高教,2007(5):136-137.
[13]赵力,王涛,金代志等.高等院校学籍管理系统功能设计,2009(8):107-108.
[14]别红桂.高校学籍管理工作的改革与探索[J].教育探索,2011(1):88-89.
[15]赵雄辉,聂娟.高等学校学籍管理制度建设原则探讨[J].高等教育研究学报,2006(3):78-80.
[16]Li Y,Tang SD,Lu J,et al.A survery of contentbased image retrieval with high-level semantics[J].Pattern Recognition.2008,10(1):12-18.
[17]MORGAN STANLEY.Cloud Computing Takes O ff M arket Set to Boom as Migration Accelerates[R].2011.