APP下载

基于Apriori 算法的数据关联规则在教务管理中研究

2015-08-16朱艳鹏王晓权

中国管理信息化 2015年17期
关键词:项集置信度数据挖掘

朱艳鹏,王晓权

(合肥工业大学(宣城校区)商学系,安徽 宣城 242000)

0 引言

云时代来临,大数据也引起了越来越多的关注。大数据具有Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)的特征,如何从这些海量的数据中挖掘出有用的信息以指导决策显得至关重要。目前,我国各高校普遍采用教务管理系统对学生成绩等信息进行管理。对于动辄上万人的高等院校来说,随着时间的积累,教务管理系统中必然存在着大量的数据,遗憾的是,这些数据目前只是一条条被搁置的记录,鲜少有人问津,更何谈从中发现规律并应用到教学实践中去。我们知道,大学基础课程的学习对于后续专业课程的学习有影响,但这种影响是确实存在,还是无端臆测,需要科学的理论予以支撑,需要严谨的方法予以检验。本文将关联规则挖掘中最经典的算法Apriori进行改进,并应用到高校学生成绩管理中,以发现某些学科间的关联关系,旨在为高校广大师生及教学科目的设置和教学计划的制订提供参考。

1 理论综述

信息时代,数据无处不在,数据挖掘作为一种数据处理的手段,也在飞速地发展。数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但有时潜在有用的信息和知识的过程。数据挖掘的产生可以追溯到20世纪80年代末,它是多学科交叉的产物,早期的理论基础主要源于统计、机器学习和数据库系统。经过近20年的发展,已逐步形成一套独有的理论和方法,包括聚类、神经网络、关联规则等。

关联规则是数据挖掘领域的热点之一,其概念由Agrawal、Imielinski、Swami提出。关联规则的典型问题是对超市中的购物篮进行分析,即通过分析顾客购物篮中的商品组合,发现商品间的关联关系,沃尔玛超市“啤酒+尿布”的故事,可以说是对关联规则最成功的运用。

关联规则挖掘算法有很多,大致可以分为3类:①Apriori算法;②频繁模式增长算法 (FP-growth);③垂直数据格式(ECLAT)。

(1)Apriori算法是关联规则挖掘中的典型算法,其思想简明、实现方便,由Agrawal和Srikant于1994年提出,它利用先验性质(频繁项集的所有非空子集也一定是频繁的),采用逐层迭代的方法进行挖掘。该算法对数据集进行多次遍历,其中k项集用于搜索(k+1)项集,直至不能发现新的频繁项集。

(2)FP-growth由Han提出,它通过构造一个高度压缩的FP-tree,生产频繁模式集,而不用生成候选项集,可以说是对Apriori算法最出色的改进算法。

(3)ECLAT由Zaki提出,它将Apriori算法中所使用的水平数据格式变换成可对TID集合进行求交集运算的垂直数据格式。

2 理论基础

2.1 关联规则挖掘

关联规则是在数据集中找出项与项之间的关系,也被称为购物篮分析(Market Basket Analysis)。 其定义为:假设 I={i1,i2,…,im}表示一个项集,D表示事务集,其中每一个事务t是一个项集,即t⊆I。每一个事物都有唯一表示TID。若X⊆t,则称事务t包括I的一个子集X。关联规则是一种蕴含形式X⇒Y,其中X⊂I、Y⊂I且 X∩Y=φ。在事务集 D中,规则 X⇒Y的支持度s(support)是 D 中事务同时包含 X、Y 的百分比,即:support(X⇒Y)=P(X∪U);规则 X⇒Y 的置信度 c(confidence)是 D 中事务已经包含X的情况下,包含 Y的百分比,即confidence(X⇒Y)=P(X|U)。关联规则的任务是产生所有不小于用户给定的最小支持度阈值(minsup)和最小置信度阈值(minconf)的关联规则。

关联规则挖掘过程大致可以分为两个阶段:

(1)找出所有的频繁项集,即找出所有支持度大于最小支持度阈值(minsup)的项集。

(2)由频繁项集产生强关联规则,即产生支持度和置信度分别大于或等于最小支持度阈值和最小置信度阈值的关联规则。

Apriori算法是发现频繁项集的基本算法,它使用支持度—置信度构架,但二者不足以过滤掉无趣的规则,可引入提升度(lift)来过滤掉无趣的关联规则。

若其值小于1,则X的出现与Y的出现是负相关的;若其值大于1,则X和Y是正相关的;若其值等于1,则X和Y之间没有相关性。

在Apriori算法的基础上,可以引入很多技术来提高其效率,包括哈希、划分、采样等。哈希技术通过哈希函数将每个项集散列到相应的桶中;划分是将一个大的挖掘问题转化为多个更小的问题,进而对每部分数据分别进行挖掘;采样简而言之是指从完整的数据集中随机挑选数据子集进行挖掘。

在对数据进行挖掘前,要对数据进行预处理,以使数据满足准确性、完整性和一致性的要求。数据预处理主要包括数据清理、数据集成、数据变换、数据消减等。在数据清理时若数据记录中存在缺失值,通常采用以下几种方法进行填补:①忽略元组;②人工填写缺失值;③使用一个全局常量填充缺失值;④使用属性的中心度量(如均值或中位数)填充缺失值;⑤使用与给定元组属同一类的所有样本的属性均值或中位数;⑥使用最有可能的值进行填充。

2.2 改进后的关联规则数据挖掘流程

传统的关联规则进行数据挖掘,一般包括数据准备、数据预处理、应用关联规则模型挖掘、生成频繁项集、产生关联规则、分析并得出结论。本研究中对生成的关联规则进行模式评估,并在原有的“支持度—置信度”框架之外,加入提升度,通过提升度来过滤掉用户不感兴趣的关联规则,从而对有意义的规则进行分析。

图1 改进后的关联规则挖掘流程

3 关联规则在成绩分析中的应用

3.1 数据准备

本文选择安徽省某高校商学系教务管理系统中学生成绩作为研究对象,时间跨度为2012年9月-2014年6月。从中选取概率论与数理统计、线性代数、运筹学、统计学原理、计量经济学、财务管理、投资学原理等经管类核心课程成绩,将该系102名学生上述7门成绩作为关联规则挖掘的原始数据信息。

3.2 数据预处理

数据预处理包括数据清理、数据集成、数据变换、数据消减等过程。教务管理系统中成绩数据主要问题在于存在缺失值,以及补考成绩只记为通过或者不通过,针对上述情况,采用忽略元组的方法进行数据预处理。

同时出于方便数据挖掘之目的,对学生成绩和课程名称进行转换,课程名称由中文名称转换为英文替换代码(如运筹学转化为Course3),学生成绩由百分制转换为等级制,[100,90]转化为 A,[90,80]转化为 B,以此类推,60 分以下记为 E。 特别地,补考通过记为D,补考未通过记为E。

3.3 应用Apriori算法及生成关联规则

依据改进后的数据挖掘流程,对经过预处理的数据应用Apriori算法生成侯选集,然后基于侯选集,根据给定的最小支持度判断并确定频繁项集。同时从频繁项集产生简单关联规则,然后根据指定的最小置信度阈值选出强关联规则,对这些关联规则只选取提升度大于1的规则,进而对过滤出的规则进行分析。本文中最小支持度为0.1,最小置信度定为0.8。

本例中,所得结果见表1。

表1 生成关联规则表

3.4 数据挖掘结果分析

依据数据挖掘产生的结果,结合选定各门课程的性质进行分析,可以得到如下结论:

(1)数学基础课程成绩关联密切,可以根据规则8看出,“概率论与数理统计”成绩为“优”与“线性代数”成绩为“优”关系支持度和置信度高,且提升度也较高,因此根据数据挖掘结果可以得出数学基础课程关联较为紧密。

(2)数学基础课程成绩优异是统计学和投资学成绩优异的基础。根据规则2、规则5可以得出,对于统计学、投资学这两门需要较多数学运算的学科,数学基础课程的学习和运算能力对学习这两门专业课产生重要影响。

(3)运筹学和财务管理这两门管理类学科需要较好的数学基础。从规则4中,可以看出基础课程较好的学生在这两门课中表现优异,反之亦然。

3.5 数据挖掘结果启示

(1)从学生角度,商学系学生如果希望能够在专业课程中有较为出色的表现,必须掌握数学基础课程,夯实数学基础,进而具备在专业课表现优秀乃至继续深造的可能性。

(2)从教师角度,数学基础教师应该在严格要求学生学好基础课程的同时,将专业课中案例等与基础课程相结合,使其认识到基础课程的重要性并感受到基础课程的魅力。而专业课老师则应该在教学过程中适当补充相应的数学基础知识,而不是默认学生们都已学过相关课程而不再讲解。

(3)从教务管理部门角度,教务管理部门应该合理控制、安排基础课程和专业课程的开课顺序、间隔时间等,同时不能够一味压缩专业课程或基础课程的课时量,致使课堂教学学时不足、学生掌握知识深度不够,给后续学习造成不便。

4 结束语

本文由当前高校教务管理中广泛遇到的数据得不到有效利用,无法为师生、教学管理服务的问题出发,建立关联规则数据挖掘流程,对选定的数据进行关联规则挖掘,并对结果进行分析及提出相应的对策。

本文主要完善了关联规则数据挖掘流程,特别是将提升度加入模式识别,使其区别于以往Apriori算法中 “支持度—置信度”的框架,剔除无趣的关联规则,使结果更为可靠。最后根据挖掘结果从不同角度提出相应的建议和对策。

[1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques[M].北京: 机械工业出版社,2012:157-183.

[2]Xindong Wu, Vipin Kumar.The Top Ten Algorithms in Data Mining[M].北京:清华大学出版社,2013:56-72.

[3]Efraim Turban Ramesh Sharda Dursun Delen.Business Intelligence -A managetical approach[M].北京:机械工业出版社,2012:128-130.

[4]姜晚云.关联规则在成绩分析中应用研究[D].合肥:合肥工业大学,2006.

猜你喜欢

项集置信度数据挖掘
硼铝复合材料硼含量置信度临界安全分析研究
探讨人工智能与数据挖掘发展趋势
正负关联规则两级置信度阈值设置方法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
置信度条件下轴承寿命的可靠度分析
关联规则中经典的Apriori算法研究
一种频繁核心项集的快速挖掘算法
基于GPGPU的离散数据挖掘研究
多假设用于同一结论时综合置信度计算的新方法✴