基于教育大数据的高校成绩预警问题研究
2021-11-20鲁鑫施宏远李印
鲁鑫 施宏远 李印
(营口理工学院 辽宁省营口市 115000)
1 引言
大数据这一新词汇为世界带来了一个全新的革命,极大的推动了社会进步和变革。大数据的特点是一量大、二种类多、三价值密度低。国内外学者研究的热点问题聚焦在如何更有效、快速地存储、收集、处理和分析大数据。其中,教育领域也存在着大数据问题的研究通常称为教育大数据,同时面临机遇与挑战。随着网络的兴起,慕课、网络教学、移动终端教学、社交网络和各种信息系统在高校的教学中应用逐步加深,促进校园大数据的极速发展。各高校相继开发使用的教务系统中存在着数量庞大的教学相关信息数据。但是,这些数据只保存在教务系统中,未有良好的运用。如何有效的利用这些数据,将其转化为有用的信息,辅助提高教学效果,让教学管理者以及教师可以利用这些数据为教学决策以及课程优化服务,这是教育大数据时代到来时,我们要研究的重点问题。
在高校教学整体运行中,教务管理的重点之一是学生成绩的管理。学生的课程成绩一方面体现了学生的个人学习效果,同时也是高校教学质量的表现形式。学生的课程成绩能够指导高校的教学管理工作,同时也可以指导教师进行教学方法与手段的改革。随着教育大数据的兴起以及高等学校教学或教务管理系统的广泛应用,在系统中积累了大量原始数据,对这些数据进行有效的分析和挖掘对提高教务管理的能力和水平有着重要的意义。但一般传统做法是使用Excel等表格法统计汇总数据信息,该方法不能有效挖掘规律,不能形成一些指导性的原则。随着大数量兴起,数据量规模大、信息多,统计分析的方法缺点更加突出。基于以上的分析,本文以数据挖掘算法为基础以大数量环境为基准研究重点放在高校学生成绩预警模型的建立上,分析高校学生的课程成绩,来挖掘各学科与课程的之间的关系情况,并建立学生成绩预警模型,同时利用决策树算法,结合实际情况得出预警结论,这一结论同时可以帮助教师和学生预测课程成绩的一个未来趋势。再对预测结果进行有效的分析,可以有效支持学生、教师、教学管理者三方面人群所做的决策。
2 关于成绩预警模型的建立
预警的定义,指在事件未发生的时候对事件可能发生的潜在性进行预测并提供警示信息的过程[1]。根据教育大数据这一环境,基于现有的数据和知识,预警可以通过数据挖掘技术对事物的发展规律进行总结和分析,描述、预测事物的发展趋势,然后与目标阈值进行对比,判断是否发出必要的信号和警示,以便事件主体有足够的时间采取合适的决策。
教育信息的系统化、网络化已在我国高等院校广泛发展,高校大数据研究,即从教务系统中提取有用信息,并将这些信息进行有效的清洗处理,利用关联数据进行成绩预警,建立预警规则、模型,最后形成预警结论已成为高等院校教学管理者和教师的主要研究方向之一。自动成绩预警是得用教务系统中的原始数据,建立数据之间的关联关系,形成预警模型,最后根据预警模型得出未来的课程成绩预警信息。因这些数据都是教务系统中的真实数据,在实际应用中具有很高的价值。
本文主要工作是介绍以数据挖掘算法为基础的成绩预警系统。系统主要包括以下方面,一低层数据的导入、二数据清洗(预处理)、三建模挖掘数据关联、四成绩预警信息、五预警结论输出。其中三建模挖掘数据关联是系统核心功能。
成绩预警系统根据监测数据,第一步要设计好关联规则,并设计好进行预警的一个阈值。体现了关联规则并超过预警阈值的数据才进行预警输出,并且在输出模块上设计一些外部接品,可以与其它的功能一起控制。
3 关于学生学业成绩预警算法设计及实现
3.1 成绩预警规则介绍
成绩预警规则的定义是能够反映预警课程成绩与其先修课程成绩之间或关联或依赖的关系[2]。预警课程成绩依赖于其关联课程的成绩分布。预警规律的生成需要利用关联分析技术实现。首先对教务系统中的原始数据进行清洗,形成标准的数据格式,之后,寻找相应的预警规则,这些规则需要根据数据的特点在预警知识库中提取,最后是比较监测的数据和预警规则:第一步在规则集的前项中查找监测数据,若均无法匹配,则使用下一条规则重新比对;若匹配成功,第二步根据事先的策略产生综合预警信息。
3.2 基于关联分析技术的成绩预警算法介绍
关联分析技术是数据技术中的一种,该技术从数据集中挖掘频繁项集。关联分析会形成一系列规则,这些规则都是以X可得出结论Y、其中的前项发生的事件用符号X表示,得到的Y用来表示预警事件。关联分析生成的规则称为关联规则。关联分析技术是对预测事件之间的有关系的一种技术,通过掌握满足支持度和置信度要求形成预测结论。
算法词语解释:
(1)Support定义为置信度:表现如果X事件发生,Y事件可能发生的概率。
支持:表示所有事务中itemset{x,y}的概率。
(2)Confidence 定义为依赖度:表现如果X事件发生,Y事件可能发生的条件概率。
基于教育大数据的教务系统学生成绩预测模型,其建立的关键技术是关联分析。然而,当我们对关联分析技术展开研究过程中发现,传统的关联算法会导致数据中生成产生大量无用的、冗余的关联规则,这些无用、冗余的规则影响最终预警结论,并使预警精确度不高。对此,我们在关联算法中,对算法约束和优化以此清洗、冗余数据及规则,提高预警精神。具体加入的约束如下:
约束(1) 最小置信水平约束。预测结果是否准确要通过置信水平来决定。置信水平低会导致准确度低的规则也被认为是关联规则,显然会影响预测结果,并增加算法建模的压力以及时间。
约束(2)最小支持度约束。支持度反应项集出现在数据集中的概率,它反映了数据项集所具有的一般规律。进行数据挖掘时,为了保证所分析的规则和规则的通用性,有必要限制最小支持度,有最小支持度约束所得出的结果才具有实际意义。
约束(3) 前后课序约束。在以往的关联分析中,对规则的顺序不进行约束。但是,对学生的学业成绩进行预警过程中,因学生学习课程由学生培养方案和课程大纲决定,课程有前序课程、后序课程之分。因此,需要在课程预警算法设计中,加入前后课序约束。
根据已有的经典 Apriori 算法本文设计的成绩预警模型。通过算法分析和上述限制条件的约束,最终得到的规则和实际情况相比是比较符合的,经典的Apriori 算法会形成很多的规则,但其中有很多无用规则,本文在Apriori 算法的基础上对算法进行优化,对库内数据进行有方向的挖掘,因为进行了约束,得到的规则是用户需要的。算法的基本思想描述如下:
首先,输入预警事项,最小支持度,最小置信度,如果满足最小支持度和最小置信度,则最终输出成绩预警规则。
4 预警模型的设计与运用
通过上文的介绍,预警规则模型能够通过对教务系统数据库成绩数据的分析,挖掘数据中的潜在规律,建立成绩预警知识库,以辅助学校的教学管理和教务决策工作。这样就能够通过提前预警,预警规则可以同时指导学生和教师。对于学生,可以帮助他们及早发现学业问题,及早改进学习状态。对于教师,可以为教师优化教学流程、提前关注学业困难学生有针对性的进行帮助提供方便,对于教学管理者,能够使教务管理系统更合理、更科学。
随着我国高等教育由精英到大众教育的发展,学生规模迅速扩大。随着学生数量的急剧增加,高校对教学质量和教学效果更加重视,毕业后的学生,能否满足社会工作的需要成为社会焦点问题。因些,在学生成绩结果出现之前,提前对成绩有一个初步的预测,加强学生学习水平的评估和管理,使学生的学习效果和教师的教学效果达到良好水平,显得尤为重要。
我们可以利用课程之间的联系构造关联规则。例如,数学课程类中的高数 AII课程 与概率论与数理统计课程、线性代数课程之间存在着高关联性,它们同属于数学类基础课,课程相互之间必然存在一定的关联。而且在大部分的课程培养方案中,高等数学通常作为最基础的课程首先开设。因此,当学生出现“高等数学 AII-不及格”的情况时,预警模型就会对后续的概率论与数理统计 和线性代数课程给出预警提示,学生根据这一预警提示,要认真更改自己的学习、复习计划,并给予足够的重视,同时,此类学生也同样需要任课教师更多的关注,及时在学业上给于辅导。另外,高等数学AII与电工电子技术课程、大学物理课程之间也具有显著的关联性。这3门课程在内容上显然不是同一类课程,但它们之间在学生学习方法、学生理解问题的方式上具有相似的地方,因此,只是一条统计规则。此类规则,更具有现实意义,它能够为教师和教管管理部门的工作人员,提供有价值的信息,加深对信息的理解,为它们进行决策和管理提供依据。
5 结论
大数据技术在推动社会进步和变革方面发挥了巨大作用。在教育领域,教育大数据研究也受到研究学者的广泛关注。利用好大数据技术,将数据转化为教学与决策中有用的知识和信息,提升教学效果,帮助教育管理者和教师进行教学决策、优化课程设置等服务,是大数据时代教育数据挖掘研究的热点问题。
本文以数据挖掘理论和高校成绩预警现状为基础,对高等院校成绩预警算法进行了设计和优化,提出了一种以关联分析技术为基础的课程预警机制,通过我校某专业学生的期末考试成绩预警知识挖掘,得到预警规则集。根据预警规则集,生成预警信息,指导教育管理者、教师和学生三者做出合理决策,提高学习质量和效果。