基于关联规则Apriori算法的学生成绩分析
2018-01-24王成勇
王成勇
摘要:关联规则挖掘是数据挖掘领域研究的热点问题,其中Apriori算法是经典的关联规则算法。将关联规则Apriori算法应用到学生成绩分析中,挖掘出课程与课程之间的相互关系,寻找各方面影响学生成绩的因素,发现隐藏在数据背后有价值的信息,从而为学生选课和教师教学以及教学管理工作等提供辅助性的建议与决策。
Abstract: Association rule mining is a hot topic in the field of data mining. Apriori algorithm is a classical association rule algorithm. This paper applies the association rule apriori algorithm to analyze student achievement data, digs out the relationship between the course and the curriculum, finds out the factors that affect the student achievement in all aspects, and finds the hidden information behind the data, so as to provide supplementary advice and decision-making for student course selection, teacher teaching and teaching management.
關键词:学生成绩分析;数据挖掘;关联规则技术;Apriori算法
Key words: student achievement analysis;data mining;association rule technique;Apriori algorithm
中图分类号:TP311.1 文献标识码:A 文章编号:1006-4311(2018)05-0171-03
0 引言
近年来随着信息技术的飞速发展,数据资源变得越来越丰富,在高校的教学管理系统中存储了大量的学生成绩数据信息,但由于缺乏必要的技术手段,因此只能对这些数据信息进行简单的统计、备份和查询。隐藏在这些大量成绩数据背后的信息不能得到有效的利用,不利于人才的培养和教学质量的提高,因而迫切需要有更新的技术方法对这些数据进行处理分析。
关联规则挖掘[1-2]就是一门从历史数据集中发现隐含模式,从海量数据集中发现潜在的有价值信息的技术方法,它反映了一个事件与其他事件直接依赖或关联的知识,这几年已经成为数据挖掘技术研究领域的热门话题[3]。本文运用关联规则Apriori算法挖掘学生成绩数据,可以挖掘出课程与课程之间的相互关系、影响学生成绩的因素等一些有价值的信息,这些信息可为教学及管理工作提供支持性的建议,同时也为更加合理的制定人才培养方案和提高教育教学质量提供科学依据。
1 关联规则基本理论
2 关联规则挖掘算法
2.1 寻找频繁项目集
在对学生成绩数据进行关联规则分析时,这里采用了Apriori算法来寻找全部的频繁项目集。Apriori算法是一种重要的关联规则挖掘算法,它使用了一种被称为逐层搜索的迭代算法,k-项集用于搜索(k+1)-项集。首先需要扫描事物数据库,累积每个项的计数,然后收集满足最小支持度的项,从而找出频繁1-项目集的集合L1。L1用于寻找频繁2-项目集的集合L2,而L2用于寻找频繁3-项目集的集合L3,如此下去,直至不能找到频繁k-项目集Lk为止[4]。
运用频繁k-项集用于搜索(k+1)-项集是Apriori算法的核心,该步骤分为连接步和剪枝步:
①连接步骤:为了寻找Lk,在k(k>1)次扫描数据库时,通过Lk-1与自身连接产生候选k-项集的集合Ck。
②剪枝步骤:由于Ck是Lk的超集,即Ck的成员可能是也可能不是频繁的。需要扫描全部的事务数据库,确定Ck中每个候选的计数,判断是否大于或者等于最小支持度计数,如果是,那么便认为该候选是频繁的。为了压缩Ck,可以运用Apriori性质:任何一个频繁项集的全部非空子集也一定是频繁的,若某个候选的非空子集不是频繁的,那么该候选项集肯定也不是频繁的,从而可以将其从Ck中删去。
Apriori算法描述如下[5-6]:
输入:数据库D;最小支持度min_Support
输出:D中的频繁项目集L
方法:
L1=find_frequent_1-itemsets(D);;
for(k=2;Lk-1≠Φ;k++){
Ck=apriori_gen(Lk-1,min_Support)
for each transaction t∈D{
Ct=subset(Ck,t);
for each candidate c∈Ct
c.count++;
}
Lk={c∈Ck|c.count?叟min_Support}
}
return L=UkLk
2.2 生成强关联规则
对于上面得到的每个频繁项目集L,生成强关联规则的步骤如下:
①生成L的所有非空子集;
②对于L的每个非空子集S,令R=L-S。
如果有
?叟Min_Confidence
即S?圯R满足最小置信度阈值,那么输出关联规则S?圯R。又因为这个规则是从频繁项目集L中生成的,因此一定满足最小支持度阈值,所以这个规则为强关联规则。根据上面的两个步骤,就可以得出事物数据库D的全部强关联规则。endprint
3 应用Apriori算法分析学生成绩
3.1 挖掘目标与流程
关联规则挖掘必须具有针对性,也就是说挖掘目标要明确,本文希望通过对学生成绩数据信息进行研究,找到满足最小支持度和最小置信度的强关联规则,挖掘出课程与课程之间的相互关系,并期望以此结果来指导教育教学工作。其中关联规则挖掘的具体过程如图1所示。
3.2 数据采集
关联规则挖掘需要丰富的数据信息作为基础。本研究选取学生成绩数据库中8门专业课程作为研究对象,选取1000条数据,用以挖掘课程之间的关联性。学生成绩信息数据如表1所示。其中Xuehao为学号,A~H分别代表8门课程。
3.3 数据的处理
通過对原始数据进行简单的泛化处理,可以得到更加丰富的数据信息[7-8]。在这部分将对成绩数据进行离散化,成绩达到90分及以上的代表“优秀”、成绩在80分(包括80分)到90分之间的代表“良好”、成绩在70分(包括70分)到80分之间的代表“中等”、成绩在60分(包括60分)到70分之间的代表“及格”、成绩在60分以下的代表“不及格”,其中“优秀、良好、中等、及格、不及格”分别用数字“1、2、3、4、5”表示,离散化后的数据如表2所示。
3.4 挖掘关联规则
这一步的关键是选择恰当的关联规则挖掘算法对数据进行分析处理。这里采用关联规则Apriori算法对离散化后的学生成绩数据信息进行挖掘。设定最小支持度为25%、最小置信度为60%。运行关联规则Apriori算法程序后,得到的部分实验结果如表3所示。
3.5 结果分析
对于挖掘得到的强关联规则,需要对结果进行分析。根据表3可知,规则1和2说明了学好B课程对于学好G课程有着重要的影响,在安排课程的时候,要将B课程排在前面,同时教师在教学过程中要督促学生学好B课程。
规则3说明如果A课程和C课程学的好,那么F课程也就学的好一些。从规则3的置信度来分析,其置信度为87%,说明A、C课程与F课程的关联程度比较强。在课程的设置方面,A、C课程需要排在F课程的前面。
规则4和5说明了D、E、H三门课程关联比较紧密,并且D课程是最关键的,教师在讲解时要仔细讲解,让学生打好基础。从表3中还可以得出,这三门课程的开课顺序应该为D、H、E,同时尽量要将课程安排在连续的三个学期。其它规则的分析方法也是如此,决策者可以根据具体的实际情况借鉴参考。
4 结论
关联规则挖掘技术是一种非常有用的技术工具,可以广泛的应用于教学管理过程中,它能够挖掘出学生各门课程成绩之间的影响程度,找到教学中各方面影响学生学习成绩的因素,发现隐藏在成绩背后的潜在规律,帮助我们更好地了解课程的设置顺序以及课时安排是否科学合理,从而为提高学校的教学管理和人才培养质量起到积极的促进作用。
参考文献:
[1]梁循.数据挖掘算法与应用[M].北京大学出版社,2006.
[2]Liu J, Liu B, Liu J. Association Rule Mining Algorithm Based On Fuzzy Association Rules Lattice and Apriori[J]. Journal of Convergence Information Technology, 2013, 8(8):399-406.
[3]Chen W, JiaNan. Teaching analysis based on association rule mining[C]// Conference Anthology, IEEE. IEEE, 2013:1-3.
[4]韩天鹏.关联规则挖掘算法研究及其应用[D].中南民族大学,2008.
[5]Cheng M, Xu K, Gong X. Research on audit log association rule mining based on improved Apriori algorithm[C]// IEEE International Conference on Big Data Analysis. IEEE, 2016:1-7.
[6]Yang Q. The Application of Apriori Algorithm in the Analysis of Excel Skill Test Results[J]. Guide of Science & Education, 2013.
[7]李忠哗,王凤利,何丕廉,等.关联规则挖掘在课程相关分析中的应用[J].河北农业大学学报,2010,33(3):116-119.
[8]黄秋勇.基于关联规则挖掘的课程设置合理性分析[J].智能计算机与应用,2010(5):57-59.endprint