基于大数据的学籍预警管理的关键技术与系统设计
2022-11-27周希宸代伟黄学佳
周希宸,代伟,黄学佳
(四川西南航空职业学院,四川成都,610000)
1 学籍预警制度的现状
学籍预警是基于各专业的人才培养方案,对学生的学习成绩展开研究。主要属于数据分析和数据挖掘领域。目前我国对于教育数据挖掘的研究更侧重于理论层面的探索以及对国外案例的介绍,对挖掘技术的应用研究相对不足。伴随信息技术与行业的深入融合,目前很多高校都在进行信息化数字化智能化的智慧化校园建设,联合系统集成类软件技术企业进行合作定制开发符合各自校情的系统。但这是一个系统且复杂的工程,也需要大量的流程再造和经费支持。而经费的来源,是大多数高校,尤其是民办高校的一大核心痛点。所以,信息化数字化智能化是一个漫长的探索过程。提升校本研究团队的科技成果转化能力具有重要意义。
目前,我校对于学生成绩管理及学籍预警制度的实施处于半自动化状态。在现有的教务管理系统中只能实现各学院各专业各同学的成绩查询,而不能进一步对学生成绩进行分析并可视化的展示。对于将要处于和已处于学籍预警状态的学生进行预警的处理更多的是手动处理。筛选出名单之后,由学院及班主任进行逐一通知。因此,对学籍预警管理流程与制度的信息化数字化智能化实施路径的探索非常必要。
2 学籍预警制度的重要意义
2.1 高校教学管理面临严峻考验
随着高等教育大众化进程的深入,招生规模不断扩大,学生的文化素质基础参差不齐。面对学习态度不佳,多门考试未通过的学生,必须按照相关的教育教学管理制度进行处理,如降级或退学等。高校的教学管理工作面临着日益严峻的考验。
教育的目标是为了把学生培养成行业需要的合格人才,让学生不断完善自我,创造美好幸福的生活。因此,学校需要对于学生在校的学习情况进行全面清晰的掌控,对于将要出现学籍风险的同学提前进行更科学和高效的预警,让他们及时掌控学校及各学院各专业整体的情况,对教育教学质量进行更好的监督和管理。
2.2 学生个人发展及成长需要
每个学生在自身的成长中,都会遇到各种挫折和困难,并且还会出现阶段性的反复。大学是学生世界观、人生观、价值观形成的重要阶段。让他们合理安排好自己的学习和生活,而不能在“享乐主义”中荒废学业,导致多门课程不合格而受到退学处理。科学完善的学籍预警可以引导学生良性发展。
2.3 加强大学生家庭教育需要
在大学阶段,家长不仅仅要从生活上关心孩子,也更要关注孩子的学习。因为大学阶段,学生的独立性及大多数学生异地求学的情况,家长无法随时获得学生的各种情况。而大多数学生只会报喜不报忧,导致家长无法真实了解学生的在校表现,最终导致学生与家庭之间教育脱节。科学完善的学籍预警可以加强学校与学生家长之间的联系,互通有无,共同帮助学生得到良好的发展。
3 基于大数据的学籍预警管理系统的功能需求
我校共有7大院系,各院系下分别下属专业1-8个,每个专业拥有学生人数从几十到上千不等。每名学生在校正考平均12科/学期,4学期共计48条成绩。原有的教务系统只是呈现了这些学科成绩,而对于管理者无法从整体上掌握各学院各专业各科的成绩情况,无法进一步自动化推进学籍预警管理流程。因此,本项目立足于以下研究目标:
(1)对全院学生的学业成绩进行整体画像
(2)对各二级学院,各专业,各班级的学业成绩进行整体画像
(3)对学生的补考科目和时间进行批量精准报送
(4)对学生的重修科目和实践进行批量精准报送
(5)对学生毕业前夕的学业完成情况进行清晰管理
(6)信息化支持教学管理线对学生学籍预警的制度化流程,进行一站式服务
4 基于大数据的学籍预警管理系统的关键技术
4.1 基于B/S的网络架构
为满足开放、互连、信息随处可见与共享、开发成本低廉的要求,本项目采用B/S型模式,即浏览器请求,服务器响应的工作模式。第一层是浏览器。不同的客户端进行简单的输入和输出呈现。第二层是Web服务器,实现信息传送。当学生、任课教师、管理者在浏览器输入特定的账号登入系统进行相关模块的访问请求。由Web服务器统一受理后向数据库服务器发送访问数据库的请求。第三层是数据库服务器。大量的学生成绩等数据信息存放在此。通过在数据库中查询检索后,将返回的结果发送给Web服务器。Web服务器将收到的收据结果转换为HTML文本形式发送给浏览器,进而向不同用户所使用的浏览器端呈现结果。
4.2 大数据技术架构
单从目前的学生成绩数据体量,不必要使用大数据技术。但本项目立足于大数据思想及大数据技术展开研究,更多是出于团队专业能力提升和项目未来的扩展性的要求。
本项目首先根据项目的具体功能需求和角色进行完整的数据库流程设计,并在原来的教务系统下载学生成绩数据进行整理,将学生成绩原始数据和存放在MySQL中的基础数据,通过sqoop开源工具将MySQL中的数据采集到Hadoop的HDFS中进行数据存储,再通过Hadoop的数据仓库工具Hive,对数据进行提取、清洗、转化、加载,随后使用分布式SQL查询引擎Presto连接数据可视化工具,对提取和筛选后的数据进行可视化的呈现。如下表所示,项目的整体架构从数据源、数据采集、数据存储、数据处理、数据应用等不同层级进行支撑。
5 基于大数据的学籍预警管理系统的系统设计
本项目主要对学生各学期的学习成绩进行分析与呈现,对数据信息的存储和处理是重要的环节之一。根据项目的研究目标进行需求分析。
5.1 系统的功能需求
5.1.1 参与者的确定及用例的获取
本项目涉及的参与者包括学生、教师、教研室主任、院长、管理员。不同的参与者有不同的需求,把这些需求转化成用例。学生查询自己的各学期的成绩,包括课程所属学期、课程性质、学分、周学时、正考成绩、补考成绩、重修成绩并能修改自己登录系统的密码;教师查询自己所教授科目的成绩,教研室主任查询本教研室所涉及专业课程的成绩,院长查询全院所有课程的成绩信息。管理员可对其他参与者进行权限管理,同时可以添加修改相关的学生、教师、课程、成绩等信息。
5.1.2 系统的模块划分
此项目存在一定的复杂程度,将其划分成以下几个模块。
(1)用户管理模块
用户管理模块的核心任务是提供用户的注册、登录、个人信息添加和修改功能。对于四种不同的参与者分别存在以下功能。
非管理员:通过本模块添加个人信息、修改个人信息;个人信息包括密码、手机号、邮箱等。
管理员:对已注册用户进行管理,包括对一些常常进行非法操作的账号进行封禁和销号等。
(2)成绩查询模块
成绩查询模块主要任务是管理学生的成绩,各个学期各专业已修科目的正考成绩,补考成绩和重修成绩。
(3)补考管理模块
补考管理模块主要任务是对学生正考成绩数据进行处理,对于特定时间段正考不合格的同学给予补考通知。
不同权限的用户可以查询不同的补考信息明细并进行可视化的呈现。学生可以查看个人的补考信息,教师可以查看自己所授学科的补考信息,教研室主任可以查看本教研室的补考信息,院长可以查看全学院所属专业的补考信息。
(4)重修管理模块
重修管理模块主要任务是对学生补考成绩数据进行处理,对于特定时间段补考不合格的同学给予重修通知。
不同权限的用户可以查询不同的重修信息明细并进行可视化的呈现。学生可以查看个人的重修信息,教师可以查看自己所授学科的重修信息,教研室主任可以查看本教研室的重修信息,院长可以查看全学院所属专业的重修信息。
(5)学籍预警管理模块
学籍预警管理模块的主要任务是对学生的补考次数,补考不合格门数达到一定数量,重修次数,重修不合格门数达到一定数量的同学发布学籍预警风险。
5.2 系统的非功能需求
由于目前本项目只是针对学生的成绩来进行分析。为了后期全面推进数字化校园建设。除了学生成绩的维度,还有其他的学生状态与行为数据也可以进行数据分析与挖掘。考虑到未来可能添加更多的功能,适当地提高系统的可扩展性。因此,该系统采用分层设计,把各个功能模块横向划分为显示层,接口层,实现层。在本项目中这些层次对应着以下组件。
(1)显示层:界面层;(2)接口层:业务工作层;(3)实现层:业务实现层;(4)其他实用组件:数据库。
5.3 系统设计的核心点
(1)数据源
本项目的设计初衷是因为现有的成绩管理对数据的分析与呈现不足。因此,对于数据的整合是本项目的第一个关键。原系统的数据主要存放在MySQL数据库中,几年前由一家系统集成企业为学校定制开发。从我们所拥有权限来看,我们拥有的常规权限是到教务系统中将各学院各年级各专业的学生的成绩数据以为Excel的形式导出。另外,还有一个方式可以省下一些精力。即请系统集成企业给一个接口,我们可以有权限连接他们的MySQL数据库。这样得到原始成绩数据的方式就更快捷一些。出于项目的未来用途,本项目主要研究用于未来的教学实战,辅助项目驱动的课程建设。所以,在获取数据源上采用了导出Excel数据的形式。
(2)数据采集
本项目采用大数据技术支撑研究。因此从数据源到大数据体系必须经历数据采集的过程。本次主要采用Excel文件类型的原始数据采集上传到HDFS存储。考虑项目后续的扩展性,例如增加一些新的功能,预留了从MySQL数据库采集数据。由于本项目不是单一的进行数据存储处理,而是要通过大数据的相关组件来数据进行清洗和分析。因此,本项目最终确定的操作路径是,把从原始教务系统下载的Excel表学生成绩存入到MySQL数据库中。基于对项目的需求分析,对数据的整合与规范进行初步的思考。
(3)数据存储
在已经搭建好的Hadoop环境下安装MySQL。然后运用Sqoop开源工具,将MySQL中的数据导入到HDFS存储,为后续进行数据处理做好准备。
(4)数据处理
在这个环节,需要用到基于Hadoop的数据仓库工具Hive。通过它对学生成绩进行提取、转化、加载。因为学生所属的学院和专业不同,为了后期能更具体的呈现学生的成绩情况并进行分析。因此,在本环节要充分考虑项目的整体需求和输出的结果的落地性和相关性,进而在第一个环节考虑的数据的整合和规范思路,在此环节中进行具体实施。在Hive建表时充分融入管理思维,为后续进行流程优化奠定基础。Hive处理好数据源数据的同时,借助Presto分布式查询引擎,对学生成绩数据进行限定条件的分析,在庞大的学生成绩数据中查询中存在补考重修并多门学科存在补考重修的数据,以在补考管理模块和重修管理模块中得以呈现。
(5)数据应用
研究此项目的初衷是原有教务系统学生成绩管理存在痛点。本项目以大数据的思维,采用大数据的相关技术栈进行技术重构的目标是体现数据的价值。基于前面的数据分析,在数据应用层,我们将接入数据可视化技术将Presto实时查询和分析的数据进行更加生动的呈现,如柱状图,饼状图等。这样,数据在各个职能部门的作用就变得更加鲜活,能够在各自的业务范围内更好的观察数据,并支持管理决策,实现学生成绩管理的流程闭关。
基于以上大数据思想及技术架构体系,通过原始数据的采集,解决数据存储的问题,然后对学生成绩进行数据提取、清洗、转换和加载,设计符合功能模块需求的hive表,再添加Presto分布式SQL查询引擎连接数据可视化工具。两相对比,此项目研究思路对于之前的半自动化的成绩管理的现状,将学生成绩管理流程的前后衔接,对数据进行有效地分析和管理,有力的支持管理决策,同时学生及学生家长对于学生的成绩也有清晰的了解。对学院的学风建设、教学管理,以及教学质量的提升和教学评价提供了有力的信息化保障。