APP下载

Apriori算法在学生成绩数据中的应用研究

2014-08-07田伟

赤峰学院学报·自然科学版 2014年18期
关键词:项集数据挖掘关联

田伟

(兰州商学院陇桥学院,甘肃 兰州 730000)

Apriori算法在学生成绩数据中的应用研究

田伟

(兰州商学院陇桥学院,甘肃 兰州 730000)

在高校的数据管理中,有很大一块是对学生成绩的管理,具体的处理就是:成绩的录入,成绩的查询,修改等就数据本身的一些操作,而成绩只是作为升留级,评优的参考依据,而就及占用的资源而言,利用率不是很高,造成了极大浪费.随着科学技术的不断进步,如何使成绩发挥它的最大效用,成为了当前高校重点考虑的问题.本文将利用Apriori算法,借助学生成绩数据库,挖掘出课程之间存在的相关关系,为相关部门合理、科学的安排课程提供理论依据.

Apriori算法;最小支持度;最小置信度

随着高校的不断扩招,学生人数增长迅速,对于学生而言,课程结束后的考试必不可少,作为各高校评价学生学习情况,及评优的重要衡量指标,经过长期的积累,每个高校都存储了大量的学生成绩信息,但对成绩的使用还只停留在查询和简单统计阶段,例如成绩录入、修改、删除,求和,计算平均成绩等操作,除此之外,再没有其他深层次的应用.然而,实际上成绩在某些方面,还能够反映出课程设置的合理性,通过对学生成绩的分析,我们可以看出课程的安排顺序对学生的成绩会产生一定的影响,从而说明了用成绩来判定课程设置的合理性是有科学根据的.

1 研究对象的选择

在本文中,我们从全院在校学生成绩数据库中,选取了我系10级信息管理与信息系统专业学生的《计算机网络》、《外语》、《高数》、《计算机基础》、《操作系统》等8门课程作为源数据进行分析,分析过程使用Apriori算法,利用此算法挖掘出每门课程对其他课程的影响程度,从而为排课的相关人员提供参考依据,也为学生今后的选课提供一定的指导.

2 学生成绩分析

通过对学生成绩的分析,可以揭示“教”与“学”这间的关系,从而判断出高校教学计划的制定是否存在问题,对教师的“教”和学生的“学”,以及相关部门的计划制定起到指导作用.

2.1 数据清理

原始数据是从我院的教务系统中得到,其中包含了全校各个专业、各个年级、各门课程的全部成绩,因为涉及的数据量巨大,所以存在部分错误,还有某些数据从本身的从教经验上看不可能存在关系,因此为了便于通过模型进行分析,在本文中,只选取了我系10级信息管理与信息系统专业学生的《计算机基础》等8门课程成绩作为对象,为方便后续工作的开展,剔除了空白以及数据缺失的记录.清理完毕的数据如表1所示.

表1 数据清理后的学生成绩

2.2 数据集成

所谓数据集成是将多个数据源合并到一致的数据存储中,方便进行统一的分析,依据以往经验思政类和体育类课程对我院本系课程的计划制定影响不大,所以剔除.通过分析整理,最终将所有数据集成到一个Excel中,最终数据包含488条56名学生的共八门课程的数成绩.

2.3 数据转换

将数据转化成适合于进行挖掘的形式,例如将属性数据按比例缩放,使其落入一个比较小的区间内.由于存放在学生成绩数据库中的数据都是以数值形式表示的,因此会对数据挖掘造成不必要的麻烦,为了解决这一问题,要对现有学生成绩进行离散化处理,也就是把数值型的成绩转换为优、良、中、差、不及格这五个级别.60分以下为“不及格”,60~70分之间的为“差”,70~80分之间的为“中”,80~90分之间的为“良”,90分以上为“优”.用“1、2、3、4、5”这五个数字,分别对应表示“优、良、中、差、不及格”这5个等级,另外用“A”表示计算机基础,“B”表示外语,“C”表示高数,“D”表示计算机网络,以此类推.并将各科目字段设置为字符型,运用Apriori算法对表1中的数据进行关联规则的挖掘,转换后的数据表部分数据如表2所示.

表2 预处理后的数据

3 Apriroi算法的应用研究

3.1 基本原理

Apriroi算法是一种基于两个阶段频繁项集的数据挖掘方法,在此算法中,寻找最大项目集需要对数据集进行多步处理.首先,简单统计所有含一个元素项目集出现的频率,并找出那些不小于最小支持度的项目集,即一维最大项目集.其次,使用第一步找到的频繁项集产生期望的规则.首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,算法停止.这里在第k次循环中,过程先产生侯选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频繁集做一个(k-2)连接来产生的.Ck中的项集是用来产生频繁集的候选集,最后的频繁集Lk必须是Ck的一个子集.如果Ck中某个候选集有一个(k-1)子集不属于Lk-1,则这个项集可以被修剪掉不予考虑.然后根据可信度的定义规则,产生关联规则.

①对于每个频繁项集L,产生L的所有非空子集;

②对于L的每个非空子集S,如果s-count(L)

s-count(s)≥Cmin

则输出规则“s→L-s”.

3.2 Apriori算法应用

在该程序中运用了Apriori算法模型进行分析.为了得到更有效的数据,进行了反复的验证.设最小支持度为30%,设最小置信度为60%,部分规则如下表3所示.

表3 挖掘结果

4 结果分析

当然,表3中的挖掘关联规则并非每一条都具有现实意义,我们还要进一步进行处理,将这些关联规则模型导出进行分析.结果如下:

4.1 从上面的挖掘结果可以看出,有些课程之间的关系与我们实际的教学经验是一致的.如《数据结构》这门课程的成绩在80~90分之间,《高级语言程序设计》课程成绩也在80~90分之间的支持度为64.8%,置信度为85.2%,通过此规则我们可以知道《数据结构》这门课程学习的好坏,直接影响到《高级语言课程》这门课程的学习,因此安排课程时应该将《数据结构》安排在前先上,教师在授课过程中一定严格要求学生,使其认真学习这门课程,为今后其他课程的学习打好基础.

4.2 公共基础课程《计算机基础》和《外语》这两门课程,对于学好计算机专业课也起到了很大的作用,同时可以看到对于我系学生而言《计算机基础》成绩和《外语》成绩相对偏低,需要引起高度重视.

4.3 《计算机基础》成绩在70~80分之间,《高数》成绩在80~90分之间的支持度为55.8%,置信度为87.2%,可信度和置信度虽然都达到了要求,但根据实际经验,两者并无直接关联,实际工作中可以不予考虑.其他规则同样如此,需要相关部门根据实际情况进行具体地研究,有分析地借鉴参考.

5 结束语

在本文中,我们利用关联规则中的Apriori算法,对信息管理与信息系统专业的学生成绩进行了挖掘,找出了隐藏在学生成绩背后的规律,可以对偏离正常轨道的学生,及时进行干预,从而帮助学生顺利完成学业,还可以对课程的管理者的决策提供参考,也为关联规则在其它学科的应用提供了思路.

〔1〕王海容.数据挖掘在学生成绩分析的应用[J].电子设计工程,2013,21(4):4-56.

〔2〕邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版杜,2003.

〔3〕史忠植.知识发现[M].北京:清华大学出版社,2002.

〔4〕崔学文.关联规则挖掘算法Apriori在学生成绩分析中的应用[J].河北北方学院学报(自然科学版),2011(1):44-47.

〔5〕李金忠.关联规则Apriori算法[J].电脑编程技巧与维护,2008(6):35~37.

〔6〕常朝稳,代永卫,等.关联规则在公安情报信息系统中的应用[J].计算机工程与应用,2008,44(5):75~78.

〔7〕赵辉.数据挖掘技术在学生成绩分析中的研究及应用[D].大连:大连海事大学,2007.

〔8〕陆楠.关联规则的挖掘及其算法的研究[D].长春:吉林大学,2007.

TP311.13

A

1673-260X(2014)09-0012-02

猜你喜欢

项集数据挖掘关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
不确定数据的约束频繁闭项集挖掘算法
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
智趣
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*