基于频繁项集的学生选课行为分析
2018-10-27江君董显亮王相娥
江君 董显亮 王相娥
【摘 要】在大数据时代,数据分析深度融合到各行各业中,教育作为数据挖掘逐步涉及的领域,许多技术得到了快速的发展。当今大部分高校对学生行为的分析存在着较大的盲区,本文依据教育数据挖掘技术,通过关联规则挖掘,对学生课程选择的最小关联规则进行挖掘,以此进行学生的行为分析。基于APRIOR算法发现并生成频繁项集,从中挖掘出同时满足最小支持度和最小置信度的强关联规则,并建立学生选课关联特征模型,分析其中的特殊联系及潜在规律。最后,通过实验验证该算法具有实际意义,对提高学校的管理和教学以及对学生更好的认识自身提供帮助。
【关键词】数据挖掘;关联规则;行为分析
中图分类号: G642 文献标识码: A 文章编号: 2095-2457(2018)16-0132-002
DOI:10.19694/j.cnki.issn2095-2457.2018.16.060
【Abstract】In the Big data age,the data analysis is deeply integrated into all walks of life,education as data mining gradually involved in the field,many technologies have been rapid development.Nowadays,most colleges and universities have a big blind spot in the analysis of students behavior,based on the education data mining technology, this paper excavates the minimum Association rules of Students course selection by mining the association rules,in order to analyze the students behavior.Based on the Aprior algorithm,the frequent itemsets are discovered and generated,and the strong association rules satisfying the minimum support and the minimum confidence are excavated, and the characteristic model of the students elective course is established,and the special relationship and the potential rules are analyzed.Finally,the experiment verifies that the algorithm has practical significance,and it can help to improve the management and teaching of the school and the students better understanding.
【Key words】Data mining;Association Rules;Behavioral analysis
0 引言
隨着我国信息技术与教育深度融合工作的全面展开,以及互联网、大数据、云计算等新一代信息科学技术的高速发展,人们对客观世界的认识和数据管理水平的逐步提高。教育成为数据挖掘逐步涉及的领域[1],使得许多技术得到了快速的发展(例如关联规则挖掘,序列模式挖掘等技术),这也进一步促进了教育数据挖掘技术的发展。当前我国大学生的教育,存在着较为严重的学生行为分析盲区。我们需要从这些海量的数据资源中去挖掘出更深层次对学校和教师有意义的信息[2]。通过潜在的学生行为产生的数据,对学生的选课行为做出分析,进而教学管理者能够更好的制定管理策略和教学策略,这对学校的管理和教学有着十分重要的意义。同时进一步促进了教育与数据挖掘技术的发展。
1 APRIOR算法
APRIOR算法作为一种挖掘关联规则的频繁项集算法,其基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第一步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部都只有一项。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递归的方法。该算法已经被广泛的应用到商业、网络安全等各个领域。
2 基于APRIOR算法的选课行为分析
2.1 数据来源与预处理
本研究选取由辽宁省某大学选修教学课程管理中心提供的2014-2016级学生选修课学习数据作为数据源,其格式如表1所示:
为了有效的挖掘,需要对以上数据表进行数据清理,避免出现包含噪声、不完整、不一致的数据。例如采用忽略元组法将未开课程、中停课程的相应记录删除;个别学生没有正确录入课程的,把课程相应数据补录正确。同学们的ID,姓名,学号等隐私数据通过ExcelAPI中函数进行了合理的变形从而达到脱敏的效果。通过数据清洗和隐私数据脱敏处理后,最终采集到25860条有效记录。
2.2 关联规则挖掘
2.2.1 生成频繁1项集
在Python中,集合类型set是可变的,不存在哈希值。而frozenset是冻结的集合类型,不可变、存在哈希值。因此,使用frozenset类型存储的频繁项,可以作为字典的key保存下来,有利于后续创建频繁项集集合(key为频繁项,value为支持度)。由于频繁项的长度为1,我们可以通过统计data中各个元素出现的频次,直接生成频繁1项集。项集使用Python中的字典类型进行存储,key表示频繁项,value表示对应的支持度。我们将最小支持度设为15。
2.2.2 生成频繁k项集
从k>=2开始,根据得到的频繁(k-1)项集,生成频繁k项集。这个过程由函数getFrequentItemSetWithSupport()负责(简称gFISWS()函数),返回k频繁项集。反复调用gFISWS()函数, 得到完整的频繁k项集集合,直到达到停止条件,集频繁k项集为空。在连接步中,将频繁(k-1)项集与自身连结,生成k项候选集candidate_items。在剪枝步中,使用先验性质对候选项集进行过滤,减少运算量。这个性质就是:频繁项集的所有非空子集必然是频繁项集。
2.2.3 生成关联规则
我们从频繁项集中抽取关联规则,形如"如果学生学习过课程A,那么下学期还会去学习课程B"的结论[3]。我们针对每个频繁项集,生成关联规则(包括条件和结论),并计算出相应的置信度。生成频繁项集之后,可以得到同时满足最小支持度和最小置信度的强关联规则。例如,对于频繁项集{'X','Y'}来说,关联规则X→Y的置信度如下所示:
对于频繁k项集中的每个元素value,调用getAllSubsets()函数得到value的所有非空子集,对于非空子集中的每个元素condition,找到除去condition的所有剩余元素conclusion_items,根据置信度公式,计算confidence,將所有满足条件(>min_conf)的潜在关联规则[[condition,conclusoin_items],confidence]放入association_rules中.
2.3 规则与结果分析
2.3.1 关联规则转换
data.csv中存储了课程信息,通过附加ExcelAPI加载项,我们可以获取课程的具体信息,将关联规则中的课程ID信息,替换为课程名称。
2.3.2 关联规则结果分析
这一环节最终将抽取的关联规则计算出相应的置信度,数据结果如表2所示。从149门课程,9169名学生中我们用频繁项关联技术识别出每位学生身上最常见的选课行为,由于生成数据集的关联规则较多,为了便于展示截取一部分截图。在最小支持度为15的情况下,情形一大部分学生在选择“中医养生与保健1”“应聘与口语交际”两门课的前提下,第三门课程绝大多数会选择“易经与人生”。情形二大部分学生在选择“密码学基础1”,“人际交往心理学”两门课的前提下,第三门课程绝大多数会选择“影视鉴赏”。以情形一为例,不难得出“中医养生与保健1”与“易经与人生”这两门课的相关度是非常高的,而与之并列出现的“应聘与口语交际”课程反而显得更为有价值。结合所选高校校内规定课程库中所有课程分为艺术类A,素质类Q,人文类H,自然科学类N四大类,学生四年在校学习期间需修满AQHN四类学科,绝大部分的学生同一类的课程只会选一次。因此加上AQHN类型限制条件对数据结果进行重定义分析,数据集的结果变得更为的贴切真实情况。
3 结论
本文通过数据集的挖掘,选择最小关联规则以此发现大学生选课过程中的特殊联系以及潜在相关度。通过这些潜在信息和关联规则,管理者可以更好地制定管理策略和教学策略,这对提高学校的管理和教学以及对学生更好的认识自身都具有着非常重要的意义,也进一步推进了社会对教育类数据挖掘分析的进程。
【参考文献】
[1]孙云帆,齐美玲.数据挖掘在教育应用中的浅析[J].商场现代化,2012(24):161-162.
[2]刘建炜,张颖.基于学习历程数据分析的学生行为预测研究[J].阜阳师范学院学报(自然科学版),2016,33(01):68-72.
[3]姜永超.基于数据挖掘的学生选课及学习行为分析算法研究[J].现代电子技术,2016,39(13):145-148.