APP下载

基于关联规则兴趣度的课程设置研究

2014-02-11李佐军

大理大学学报 2014年6期
关键词:置信度专业课数据挖掘

李佐军

(临沧师范高等专科学校信息科学与技术系,云南临沧 677000)

基于关联规则兴趣度的课程设置研究

李佐军

(临沧师范高等专科学校信息科学与技术系,云南临沧 677000)

介绍数据挖掘和关联规则的概念,引入一个关联规则新的度量值——兴趣度,并使用Visual FoxPro开发了一个关联规则挖掘系统。在设定最小支持度、最小置信度和兴趣度的条件下,使用挖掘系统对计算机专业学生的专业课成绩进行关联分析,通过分析找出它们间的内在联系,为课程设置提供依据。

关联规则;兴趣度;课程设置

随着我国高校办学规模的扩大和竞争的加剧,学校如何实现“全面贯彻党的教育方针,坚持教育为社会主义现代化建设服务、为人民服务,把立德树人作为教育的根本任务,培养德智体美全面发展的社会主义建设者和接班人”〔1〕的目标,关键是看专业培养目标,而专业培养目标主要体现在课程设置上。本文以计算机专业的课程设置为案例,使用关联规则挖掘技术分析各课程间关系,确保课程设置合理,更好的为培养目标服务。

1 相关知识

1.1数据挖掘数据挖掘(Data Mining,DM),是从海量的历史数据中获取未知的,但又有利用价值的信息和知识的过程,是数据库技术、概率与数理统计、人工智能等多门学科综合而成的交叉学科〔2〕。从图1可看出,预处理、挖掘和评估表示组成了数据挖掘过程,也构成了知识发现的过程〔3〕。

图1 数据挖掘步骤

按照不同挖掘角度来划分,数据挖掘主要方法包括关联规则、估计、预测、聚类、描述和可视化、分类、复杂数据类型挖掘(如Text、Web、图形图像、视频音频等)等〔4〕。

1.2关联规则

1.2.1 关联规则的定义 关联规则是由R.A.Grawal等人在1993年的SIGMOD会议上提出来的,将关联规则描述为:设I={i1,i2,…,in}是项目集,D是事务集,T是I上子集,TÍI,TID标识单个事务,则关联规则就是形如(X⇒Y)的蕴含式,其中X∈I,Y∈I且,X叫做规则的条件,Y叫做规则的结果,表示为(X⇒Y)〔5〕。

1.2.2 关联规则的阈值 为了提高关联规则挖掘的准确率,引入了支持度(记为S)和置信度(记为C)两个参数,它们的计算式分别表示为(1)和(2)式。

其中D表示事务数据库,N表示事务数据库D中各项事务数的总和,Count(X)表示事务X在事务数据库D中的出现次数,Count(X∪Y)表示事务X与Y在事务数据库D中同时出现的次数。支持度S反映出了事务X在事务数据库D中出现的频率,置信度C反映出了事务X出现时事务Y中出现的频率。

在关联规则(X⇒Y)中,发现有用关联规则所必须满足的最小支持阈值叫做最小支持度,表示为Min-S;同样地,所必须满足的最小可信度值称为最小置信度,表示为Min-C。所以支持度用来衡量关联规则在整个数据集中的重要性,置信度则用来表示关联规则的可信程度。

1.3 Apriori算法

1.3.1 Apriori算法基本思想 Apriori算法是关联规则的最经典算法,是最有影响力的布尔型关联规则挖掘频繁项集的算法之一,是使用逐层搜索迭代算法由k项集探索生成(k+1)项集的过程〔6〕。Apriori算法的程序流程如图2所示。

1.3.2 Apriori算法描述 由Apriori算法思想知道,Apriori算法是使用逐层搜索迭代方法在候选项集基础上找出频繁各项集的过程,其算法伪代码如图3所示。

2 兴趣度

2.1兴趣度的提出背景在关联规则挖掘中,只使用支持度S和置信度C两个基本参数是不能完全衡量规则的价值的,会导致满足最小支持度和最小置信度的部分强关联规则无使用价值;当最小支持度阈值和最小置信度阈值太小时,会产生相互矛盾的规则;当太大时,则将会遗漏有意义的规则〔7〕。所以,人们提出了关联规则新的度量值——兴趣度,来弥补支持度与置信度的不足,提高关联规则挖掘的“抗干扰”能力。

图2 Apriori算法流程图

图3 Apriori算法伪代码

2.2兴趣度设计目前,关于兴趣度模型主要有概率兴趣度模型、Symth函数兴趣度模型、Gini指标兴趣度模型、Piantesky-Shapiro兴趣度模型、基于差异思想的兴趣度模型等〔8〕。将应用一种由文献〔9〕提出的兴趣度模型,其定义如下:

设I={i1,i2,…,in}是项目集,D是事务数据库,关联规则(X⇒Y)的兴趣度模型如(3)式所示。

其中,P(Y)=Count(Y)∕N,P(Y|X)=Count(X∪Y)∕Count(X),N表示事务数据库D中各事务数的总和,所以(3)式变为(4)式。

对于兴趣度值I(X⇒Y)来说,其值越大挖掘出的关联规则越有趣,参考价值也越高。

3 关联规则在课程设置中的应用

3.1数据准备数据挖掘采用的原数据是我校计算机专业学生专业课成绩,其结构如表1所示。

表1 学生专业课成绩表

3.2数据预处理采集的原始数据可能存在缺失、不合法等问题,不能直接作为数据挖掘的对象,必须对其进行预处理。对于成绩数据的预处理主要包括数据合法性判断、缺失数据处理、进一步离散化处理等操作。

对于合法性判断,学生成绩数据一般是0至100之间的数值数据,若不是则标记为缺失数据。对于缺失数据处理,采用平均值填充的方法处理。对于进一步离散化处理,以每个科目的平均分作为界点将学生成绩分为“优良”与“一般”两类,当成绩在此门课成绩平均值之上(含等于)的学生成绩标记为“优良”,反之则标记为“一般”。预处理后的学生专业课成绩如表2所示。

表2 学生专业课成绩离散化结果

3.3关联规则挖掘数据挖掘工具是采用以Visual FoxPro作为平台而开发的成绩分析系统,其主要包括系统管理、算法验证、数据预处理、数据离散化、关联挖掘、数据查看等功能模块。在关联规则挖掘时,设定最小支持度、置信度和兴趣度阈值后,显示满足阈值的规则,其结果如图4所示。

图4 关联挖掘结果

3.4关联规则挖掘结果分析

3.4.1 阈值选取 研究关联规则挖掘涉及支持度、置信度、兴趣度3个阈值参数,支持度是衡量规则的重要性,置信度是衡量规则的可信程度,用来弥补支持度和置信度不足的兴趣度是衡量用户对规则感兴趣程度的。当阈值设置得过低时,挖掘出来的规则越多,但是规则的有用程度就越低;反之,挖掘出来的规则就越少,但是却会失去比较有用的规则;所以设置适合阈值是非常重要的〔10〕。因此,在实验时多次输入阈值进行测试对比后发现当支持度、置信度和兴趣度阈值分别为10%、50%和2时显示规则效果最好,显示的科目信息比较完整,能反映出各专业成绩间的关系,具体测试阈值如表3所示。

3.4.2 结果分析 当最小支持度、置信度和兴趣度阈值分别为10%、50%和2时,其关联挖掘结果如图4所示。做进一步分析,可得如下结论。

第一,从规则1-10看出,数学基础、电路技术对计算机专业课程的学习很重要,如操作系统、C语言程序设计、数据结构、数据库技术等。所以在课程设置时将数学基础、电路技术作为其它专业基础课程的先行课安排在第一学期,或第一学期的前半学期,并适当增加数学基础、电路技术的课时。

表3 阈值对规则显示的影响比较

第二,从规则11-15看出,计算机导论作为第一门专业课,对操作系统、C语言程序设计、数据结构、数据库技术、动画设计等专业课学习影响很大。所以应适当增加计算机导论课时,任课教师也要正确引导学生学习计算机专业知识,提高学生学习兴趣。

第三,从规则16-24看出,操作系统、C语言程序设计、数据结构3门课程对其他专业课的学习影响比较大。所以在课程设置时应适当增加此3门课程的课时,任课教师也要强化这3门课程教学。

第四,从规则25-30看出,各专业课间也相互影响,所以在设置时应该充分考虑各门专业课间的关系,使其相互渗透、相互促进。

由以上分析可总结:在进行计算机专业课程设置时,首先将数学基础、电路技术、计算机导论作为专业课程体系第一阶段开设,其次操作系统、C语言程序设计、数据结构作为专业课程体系第二阶段开设,最后将数据库技术、网页制作等应用型专业课作为专业课程体系第三阶段开设。通过规则的分析就可以得出计算机专业所开设课程的相关性,可以知道哪些课程应该先学,哪些课程应该后学,要学好后续的课程必须把相关的先行课程学好,这就为教育管理工作者进行指定教学计划和教学方案提供了决策支持,也为学生选课和获取某门课程好成绩提供了方向性的指导意见〔11〕。

4 结束语

文章对关联规则挖掘技术在课程设置中的应用进行研究探索,并在分析中引入兴趣度阈值,大大提高了挖掘规则使用价值。文中以关联规则挖掘算法进行了挖掘,找出一些客观反映课程间关系的规则,并根据挖掘结果提出一些有益于课程设置的建议,为专业负责人进行课程设置提供新的依据。

〔1〕杨荣彬,李汝恒,胡永茂,等.论地方高校建筑学基础教育课程的教学设计〔J〕.大理学院学报,2013,12(10):81-85.

〔2〕陈京民.数据仓库原理、设计与应用〔M〕.北京:中国水利水电出版社,2004.

〔3〕李佐军.关联规则算法在招生中的应用研究〔J〕.普洱学院学报,2010,26(3):46-50.

〔4〕詹柳春.数据挖掘技术在高校招生录取数据中的应用研究〔D〕.武汉:华南理工大学,2012.

〔5〕石伟胜,陈涛.关联规则理论研究及其在教学中应用〔J〕.电脑知识与技术,2006(26):162.

〔6〕HAN J W,KAMBER Micheline.数据挖掘概念及技术〔M〕.范明,孟小峰,译.北京:机械工业出版,2008:147-154.

〔7〕董辉.基于兴趣度的高职课程关联规则挖掘〔J〕.吉首大学学报:自然科学版,2012,33(3):41-46.

〔8〕吴杰.基于兴趣度的关联规则挖掘〔D〕.长春:哈尔滨工业大学,2009.

〔9〕李永立,吴冲,王崑声.一种新的关联规则兴趣度度量方法〔J〕.情报科学,2011,30(5):503-507.

〔10〕刘独玉.关联规则挖掘算法研究〔D〕.成都:电子科技大学,2007.

〔11〕黄秋勇.基于关联规则挖掘的课程设置合理性分析〔J〕.电脑学习,2010(5):57-59.

〔12〕邵峰晶,于忠清.数据挖掘原理与算法〔M〕.北京:中国水利水电出版杜,2003.

(责任编辑 袁 霞)

A Study of Curriculum Setting Based on Association Rule Interestingness

LI Zuojun
(Department of Information Science&Technology,Lincang Teachers'College,Lincang,Yunnan 677000,China)

This paper mainly gives a general introduction to data mining,concept and algorithm of association rule and also introduces a new concept——association rule interestingness.Under the condition of defaulting minimum support,minimum confidence and interestingness,the author developed the software of association rule mining by using Visual FoxPro to make an analysis of computer majors'grades of their specialized courses with the hope that the relationship between the specialized courses could be found out,which can provide a scientific basis for curriculum setting.

association rule;interestingness;curriculum setting

TP311.1

A

1672-2345(2014)06-0020-04

10.3969∕j.issn.1672-2345.2014.06.006

临沧师范高等专科学校2011年度自然科学、基础应用研究基金资助项目(LCSZL2010009)

2013-12-02

2014-02-21

李佐军,讲师,主要从事数据挖掘技术和教学管理研究.

猜你喜欢

置信度专业课数据挖掘
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
探讨人工智能与数据挖掘发展趋势
中职《医护英语》与专业课的结合教学探索
“导入课”在高校专业课实施“课程思政”的实践与思考
正负关联规则两级置信度阈值设置方法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
置信度条件下轴承寿命的可靠度分析
研究生专业课学分制教学改革探讨