APP下载

大数据背景下基于Apriori 算法的学生成绩与就业流向研究

2021-01-05周谊芬

四川职业技术学院学报 2020年6期
关键词:项集流向专业课

余 弦,周谊芬

(1. 南通大学 杏林学院,江苏 南通 226000;2. 南通大学 医学院,江苏 南通 226000)

0 引言

随着各项信息技术的加速发展,如今世界已经迈入大数据时代,大数据正在驱动很多行业产生前所未有的变革,它逐渐改变着人们的生产、生活方式,对技术的演变和社会的进步产生了重大影响。 大数据具有体量大、种类繁多、单个数据价值密度低、数据更新速度快、数据时效高等特点[1],大数据时代对各行各业从业者们的数据使用能力提出了新的要求,它是一种具有蕴含巨大潜在价值、表格特征多样化的海量信息资产,能够帮助人们通过数据提高对事物的洞察发现力,使人们更容易透过表面数据看到各项事物之间的内在联系[2]。如何充分利用大数据技术的优点,切实解决各行各业中的存在问题,是目前研究的一个热点。

大数据技术的快速发展也为高等教育行业提供了改革机遇,为传统的教学、管理注入了新的改革理念。随着我国高等教育在信息化时代的不断发展,互联网和云计算等高科技技术手段在高校教学、管理中被广泛应用,当前的高校教学过程已全面迈入了大数据时代。挖掘教学大数据的潜在价值,通过大数据发现规律,利用大数据技术优化办学要素的结构,可以有效提高高校教育管理的智慧水平,促进高等教育管理由增量发展向质量发展[3]。以各项教学过程数据大集中为代表的信息技术成为了高校教学改革的一个重要切入点。

海量的学生成绩数据是高校教学大数据的一个重要表现。课程成绩作为教学质量评价的一个重要指标,不仅与众多学生群体的切身利益紧密相关,也是高校人才培养的一个重要参考,对高校深化教学评价、改革教学管理具有重要指导意义[4]。如何合理引入大数据技术,分析海量学生成绩数据的隐藏规律,挖掘这些数据里的潜在价值,将其更科学地应用于教学管理各方面的改革,进而更好地服务于高等教学全过程,提升高校人才培养水平,是当前高等教育从业者的一个努力方向[5]。本文利用大数据背景下的Apriori 算法,深入分析学生成绩与就业流向之间的关系,对高校就业管理部门有效预测学生的就业流向,制定更科学的就业决策,从而更好地引导教育学生,具有重要的指导意义。

1 Apriori 算法及其实现步骤

Apriori 算法是一种经典的关联规数据挖据算法,它利用频繁项集性质的先验知识,通过逐层搜索迭代的布尔型关联规则从事务数据库或关系数据库中发现同时满足最小支持度和置信度的频繁项目集[6]。Apriori 算法的核心是统计各项数据的出现频率,利用一个层次顺序搜索的循环办法,使用频繁k 项集搜索频繁k+1 项集[7],来完成频繁项集的挖掘工作。

Apriori 算法分为连接和剪枝步两个步骤。连接过程主要采用类矩阵运算,剪枝过程是为了去除不符合条件的中间结果[8]。为了发掘用户感兴趣的关联规则,首先需要设置最小支持度,如果某个项集A 满足最小支持度,那么就称这一项目集为频繁项集。

在连接步骤中,假设所有的频繁项集集合为Lk,所有的频繁k-1 项集的集合为Lk-1,利用Lk-1与自身连接产生候选k 项集的集合Ck。首先执行第一次迭代操作,通过扫描所有事务得到所有侯选的项集C1,在C1中挑选出符合最小支持度的频繁项集L1,随后项集L1自我连接得到候选项集C2,在C2中再次选择满足最小支持度的频繁项集L2,依此类推,最终得到频繁项集集合为Lk。

在剪枝的步骤中要利用Apriori 算法一个特点:每个频繁项集的所有非空子集肯定也是频繁的。同样,如果某个候选项集的非空子集不是频繁的,则可以推断该候选项集也一定不是频繁的,那么就需要从候选项集CK中将其删除[9]。Apriori 算法中LK是被包含在CK里面的,因此,CK的里的某个项目存在不是频繁的可能性。根据对所有事务的统计结果,如果CK中某个候选项目的个数大于等于最小支持度计数,则认为该候选项目是频繁的。如果CK中某个候选项目的个数小于最小支持度计数,则该候选项目是不频繁的,可以将其从CK中剪除。

2 Apriori 算法在分析学生成绩与就业流向关系中的应用

2.1 数据的预处理及离散化

根据Apriori 算法的思想及实现过程,本文以某高校自动化专业2020 届毕业生的成绩数据和就业数据为数据来源,分析学生成绩与就业流向之间的关系。学生成绩数据数目众多,首先去除无意义的冗余数据,选择CET4 成绩、计算机二级考试成绩、专业课平均成绩、不及格课程数量等四个成绩指标为筛选对象,其中专业课平均成绩以自动控制原理、电机及拖动、模拟电子线路三门代表性的专业课平均成绩确定,整理得到的有效数据共156 条,并加入学生的就业流向,作为全部的数据挖掘对象,部分考取研究生和未就业的学生数据如表1 所示,为保护学生隐私,学生姓名用编号代替。

表1 部分考取研究生和未就业的学生数据

表2 离散规则

表3 离散化后的部分学生数据

为方便Apriori 算法处理,将以上学生数据做进一步的离散化处理。将专业课平均成绩记为项目A,低于75 分记为A0,达到或超过75 分记为A1;CET4 成绩编为项目B,小于425 分记为B0,大于等于425 分记为B1;计算机二级成绩编为项目D,未通过记为D0,通过则记为D1;不及格课程数量编为项目E,大于0 记为E0,等于0 则记为E1。离散规则和离散化后的部分学生数据分别如表2、表3 所示。

2.2 学生成绩与就业流向关系的分析

本文以考取研究生的学生数据为例来分析学生成绩与就业流向之间的关系。根据Apriori算法思想,通过以下步骤来完成学生成绩数据与就业流向的关系挖掘。

(1)在算法的第一次迭代操作中,每项都是候选项集的集合C1的成员,扫描全部学生成绩数据,对每个候选项计数,得到包含8 个子项的候选项集C1。

(2)设置最小支持度为10,在C1中挑选出符合最小支持度的频繁项集L1,L1共包含个4 个子项,随后项集L1自我连接得到包含6 个子项的候选项集C2,再从C2中筛选出满足最小支付度的频繁项集L2,L2共包含5 个子项,5 个子项之间再连接,得到包含4 个子项的候选项集C3,再依据最小支持度筛选,得到频繁项集L3。

(3)L3自我连接之后又产生候选项集C4,C4只包含一个子项且不符合最小支持度,故循环中止。L3即为最终所得频繁项集。这些候选项集和频繁项集的产生过程如图1 所示。

图1 候选项集和频繁项集的产生过程

通过图1 所示的候选项集和频繁项集产生过程得到L3为最后的频繁项集,据此分析,符合(A1 D1 E1)项或(A1 B1 E1)项的学生与考取研究生这一就业流向之间存在关联。由此可以得出,如果某学生满足自动控制原理、电机及拖动、模拟电子线路三门专业课平均成绩在75 分及以上、通过计算机二级考试且不及格课程数量为0,或者满足自动控制原理、电机及拖动、模拟电子线路三门专业课平均成绩在75 分及以上、通过CET4 考试且不及格课程数量为0,且该学生将来在就业流向中考取研究生的概率比较大。

针对就职国企业、就职外企、未就业等其他就业流向的学生,也可根据以上流程,扫描离散化后的全部学生数据得到候选集合C1,再依据最小支持度确定频繁项集L1,之后通过频繁项集的自我连接与最小支持度的筛选,循环产生候选项集CK和频繁项集LK,直至候选项集CK的成员均不满足最小支持度,则LK即为最终所得的关联规则。根据频繁项集LK所代表的成绩特征,可以推断出学生成绩与对应就业流向之间的关联。

3 结束语

本文指出了大数据时代给高校教学管理带来机遇和挑战,分析了Apriori 算法特点及其实现步骤,并以某高校自动化专业学生为例,通过将学生成绩数据预处理和离散化,并引入Apriori 算法进行分析处理,充分挖掘学生成绩数据与学生就业流向之间的潜在关系,得到了学生成绩数据与学生就业流向之间的关联规则。根据关联规则,学校就业管理部门可以很方便地预测在校生的就业趋向,为就业指导工作提供有力的理论依据,也能为可能存在就业困难的学生及时进行预警和干预,有效提高学校就业率。同时可以为毕业生在就业过程中明确自己的定位提供参考,减少应聘过程中的弯路,提高就业竞争力。

猜你喜欢

项集流向专业课
小溪啊!流向远方
“导入课”在高校专业课实施“课程思政”的实践与思考
十大涨幅、换手、振副、资金流向
服务学习在高职社会工作专业课内实践教学中的探索
流向逆转的启示
关联规则中经典的Apriori算法研究
研究生专业课学分制教学改革探讨
关于大学专业课排座位的思考
一种频繁核心项集的快速挖掘算法
秋天的流向(组诗)