APP下载

教育信息化中课程考试成绩数据关联模式的发现

2014-10-15黄丽霞黄名选

计算机与现代化 2014年2期
关键词:项集关联规则

余 如,黄丽霞,黄名选

(广西教育学院,广西 南宁 530023)

0 引言

教育信息化的迅猛发展使教育系统积累了海量的教育信息化数据,如何从这些教育信息数据中发现潜在的、有用的教育模型、教学模式和数据间的各种关联,以便更好地为教育教学决策提供科学依据,是近年来一个重要的研究热点。针对这些问题,教育数据挖掘应运而生,并得到蓬勃发展,被国内外专家学者广泛关注和研究。教育数据挖掘是一个多学科的研究领域,是数据挖掘技术在教育系统领域的具体应用,涉及教育学、计算机科学和统计学等学科,是一种从教育系统中各种原始数据发现事先未知的,但具有价值的和有用的教育信息和模式的过程。不同学者从不同的角度和方法对教育数据挖掘进行研究,其中在教务管理[1-2]、成绩分析[3-10]、教育评价[11-12]等方面取得了丰硕的研究成果。文献[1]应用关联规则挖掘(Apriori算法[13])方法对高校研究生课程、学生计划、课程成绩等数据进行挖掘,试图发现数据间的相关性和依存性,为研究生课程体系设置提供有效的决策支持。文献[2]采用传统的数据挖掘方法挖掘教学环境数据中的学生行为模式,为教务管理提供科学依据。文献[3-8]利用传统的关联规则挖掘方法对课程考试成绩数据进行挖掘,发现和分析课程间的相关性,取得了良好的效果。文献[9-10]对课程考试成绩数据引入加权关联规则挖掘方法,克服了传统的挖掘方法没有考虑项目权值的缺陷。文献[11-12]将关联规则挖掘方法引入课程评价和教学评价,对网络课程资源和教学评价数据样本进行数据分析,试图发现有价值的数据模式和评价模式,为教学管理提供合理、科学的决策支持。

综上所述,数据挖掘技术在课程考试成绩数据分析中得到了广泛的应用。其所用的挖掘技术主要是传统的项无加权关联规则挖掘方法(如Apriori算法)以及项加权关联规则挖掘方法。这些方法都存在难以避免的缺陷,即所得到的数据关联模式会存在很多无效的和不准确的模式。主要原因是:课程考试成绩数据的一个显著特点是不仅课程之间具有不同的重要性,而且每门课程对不同的学生也具有不同的重要性。项无加权关联规则挖掘方法显然没有考虑课程成绩数据的这些特点,只考虑课程在数据库中出现的频度,并且将数据库中各个课程以平等一致的方式处理,不考虑课程之间和课程在学生中具有不同的重要性。项加权关联规则挖掘方法虽然引入了课程项目权重,以体现课程之间具有不同的重要性,但没有重视课程在学生中具有不同的重要性。针对上述问题,本文提出基于矩阵加权模式发现技术的课程成绩数据关联模式发现与分析方法,对课程考试成绩数据进行关联模式挖掘,不仅考虑课程在课程成绩数据库中出现的频度和课程间的不同重要性,而且还重视课程在不同学生中具有不同的重要性,有效地克服了现有课程成绩关联模式发现方法的缺陷,得到的数据关联模式更有效、更合理,通过模式分析发现课程教学中的教学规律和问题,为教学管理、教学改革与决策提供科学依据。

1 基本概念

1.1 课程成绩数据模型

教育信息化进程中积累了大量的课程考试成绩数据,这些数据的特点是每个学生选修了若干门课程,每门课程成绩随着学生的不同而变化。将课程成绩数据库中的课程当作项目,课程成绩当作项目权值,每个学生记录当作一个事务记录,则课程考试成绩数据模型可以描述如下。

设Course={s1,s2,…,sn}是课程成绩数据库(CD:Course Database),si(1≤i≤n)表示CD 中的第i个学生(student)记录,subject={c1,c2,…,cm}表示CD中所有课程(Course)项目集合,cj(1≤j≤m)表示 CD 中第 j个课程项目,r[si][cj](1≤i≤n,1≤j≤m)表示第j门课程cj在学生记录si中的成绩(权值),如 cj∉si,则 cj在该学生记录 si的成绩权值 r[si][cj]=0,课程成绩数据模型可以用表1表示。

课程项目权值随着学生事务记录不同而变化的课程成绩数据称为矩阵加权课程成绩数据,也称为完全加权课程成绩数据。

表1 课程成绩数据库(CD)

1.2 基本概念

考察课程成绩数据库(CD),设I1,I2是其课程项集subject的2个子项集,I1={c1,c2,…,cm1}(m1< m),I2={c1,c2,…,cm2}(m2 < m),I1⊂subject,I2⊂subject,且I1∩I2=Φ,参照传统的支持度和置信度概念,给出如下基本定义。

定义1 矩阵加权课程关联模式。矩阵加权课程关联模式指的是矩阵加权课程项目集(I1,I2)的关联规则:I1→I2。

定义2 矩阵加权课程项集支持度(matrixweighted course support,简称 mwcsup)。参照文献[14]的完全加权支持度定义,给出mwcsup(I)的定义。mwcsup(I)指的是矩阵加权课程项集I在课程成绩数据库(CD)各个学生事务记录中的权值之和与学生事务记录总数n和课程项集I的项目个数k乘积的比值,即:

定义3 矩阵加权课程关联模式置信度(matrixweighted course confidence,简称mwcconf)。参照文献[14]的完全加权关联规则置信度定义,给出矩阵加权课程关联规则置信度计算公式,即:

式(2)中,k1为项集I1的课程项目个数,k12为项集(I1∪I2)的课程项目个数。

定义4 矩阵加权课程强关联模式。给定最小矩阵加权课程项集支持度阈值minmwcsup和最小矩阵加权课程关联规则置信度阈值minmwcconf。如果矩阵加权课程关联模式(I1→I2)满足以下4个条件,就称为矩阵加权课程强关联模式:(1)mwcsup(I1)≥minmwcsup;(2)mwcsup(I2)≥minmwcsup;(3)mwcsup(I1∪I2)≥minmwcsup;(4)mwcconf(I1→I2)≥minmwcconf。

2 课程成绩数据关联模式发现算法

2.1 基本思想

课程成绩数据关联模式发现的基本思想是:首先对课程成绩数据进行预处理,建立矩阵加权课程成绩数据库和课程项目库;然后,在课程成绩数据库中挖掘矩阵加权候选课程1-项集,根据课程项集支持度与minmwcsup的比较得出频繁课程1-项集;从2-项集起,由候选(i-1)-项集(i≥2)进行 Apriori连接[13]生成候选i-项集,通过候选i-项集支持度与k-项集(k≥2)的k-支持期望[14]和最小矩阵加权课程项集支持度阈值minmwcsup的比较,采用逐层搜索的策略生成矩阵加权课程频繁k-项集;最后,根据矩阵加权课程关联模式支持度和置信度与minmwcsup和minmwcconf的比较,从矩阵加权课程频繁项集挖掘出矩阵加权课程强关联模式,并且对这些模式进行有效的分析。

2.2 算法描述

输入:课程成绩数据库(CD),minmwcsup和minmwcconf。

输出:矩阵加权课程强关联模式。

Begin

(1)对课程成绩数据进行预处理:为了让课程成绩权值在0至1之间,将成绩除以100;将没有成绩的课程一律设置为0,建立课程成绩数据库和课程项目库,课程项目库包括学生选修的所有课程,课程成绩数据库包括所有学生的课程成绩。

(2)从课程项目库中提取课程候选1-项集,计算矩阵加权课程候选1-项集支持度和2-项集的2-支持期望,将项集支持度与minmwcsup比较得出课程频繁1-项集。

(3)从2-项集起,通过连接候选(i-1)-项集(i≥2)进行Apriori连接得到课程候选i-项集。

(4)删除课程候选i-项集中含有i-支持期望的(i-1)-项集的所有课程候选i-项集。

(5)如果课程候选i-项集不为空集,计算其矩阵加权支持度和i-支持期望,同时删除其支持度为0的课程候选i-项集。

(6)将课程候选i-项集支持度与minmwcsup比较得出矩阵加权课程频繁i-项集。

(7)i加1后,重复步骤(3)到步骤(6),直到课程候选i-项集为空,频繁项集挖掘结束,转入步骤(8)。

(8)对于矩阵加权课程频繁i-项集I,如果存在项集 I1⊆I,I2⊆I,(I1∪I2)=I,(I1∩I2)= Φ,mwcsup(I1)≥minmwcsup,mwcsup(I2)≥minmwcsup,mwcsup(I1∪I2)≥minmwcsup,mwcconf(I1→I2)≥minmwcconf以及 mwcconf(I2→I1)≥minmwcconf,则得出矩阵加权课程关联模式I1→I2和I2→I1。

(9)输出矩阵加权课程关联模式。

(10)挖掘结束。

End

3 实验设计及结果分析

3.1 实验数据及预处理

实验数据来源于教务部门真实的课程考试成绩数据,选择历届毕业生在校考试成绩数据作为本文实验数据测试集,共500位学生,学生选修的课程有53门,经过二维处理,得出如表2所示的课程成绩数据库(CD)。

表2 历届毕业生课程成绩数据库(CD)

实验数据预处理如下:(1)将成绩都除以100,使成绩数据在0到1之间;(2)将课程名称用I代号表示,如现代文学用I1表示,文学概论用I2表示等。

3.2 实验结果及分析

编写了课程考试成绩数据关联模式发现方法的实验源程序,将传统的 Apriori算法[13]作为对比算法,2种方法挖掘出的课程关联模式如表3、表4和表5所示。

表3 两种方法挖掘出的课程候选项集数量比较

表3表明,本文方法和Apriori算法所挖掘出的课程候选项集数量基本一样,主要原因是本文方法中产生候选项集的方法和Apriori算法的一样,即候选i-项集都是由候选(i-1)-项集通过Apriori连接生成。

表4 两种方法挖掘出的课程频繁项集数量比较

表5 两种方法挖掘出的课程关联规则数量比较

表4和表5表明,本文方法挖掘出的课程关联模式数量(即课程频繁项集和课程关联规则数量)比Apriori算法的少得多,其中频繁1-项集的数量平均减少61.11%,频繁2-项集的数量平均减少66.48%,频繁3-项集的数量平均减少73.58%,关联规则数量平均减少80.62%,说明本文所使用的方法比传统的Apriori算法更有效、更合理。主要的原因分析如下:Apriori算法只考虑课程项目出现的频次,即课程是否被学生选修,或者说同一门课程被多少学生选修,并不考虑课程被学生选修后学习的效果(即学习成绩),因而,Apriori算法挖掘出的课程关联模式只能反映课程选修关系的关联模式,表明某门课或者某几门课的选修应该先选修哪些课程等。一般来说,在学校环境中,课程被选修的机会都会很多,因此,课程项目频度很高而且差别不大是教育信息化课程数据的显著特点之一,这样的特点导致Apriori算法挖掘出的课程关联模式特别庞大,无效的模式就会增多。另外,从实验中还发现,上述的特点使得课程关联模式的支持度都在0.9以上,导致表4和表5的频繁项集和关联规则数量在支持度为0.9以下都保持一致,没有发生变化。本文方法克服了Apriori算法的缺陷,不仅考虑课程的选修频次,还特别重视学生选修和学习课程的效果,即考虑课程成绩,把课程成绩当成权重处理,这样挖掘出来的关联模式不仅表明了课程的选修关系,还特别表明了课程之间的学习效果关系,即学好了某门课或者某几门课程就能学好哪些课程等。由于是以课程成绩作为项目权重,挖掘的课程关联模式显然少了,同时其模式能客观地反映课程学习效果关系。

3.3 矩阵加权课程关联模式实例分析

课程成绩数据关联模式发现方法挖掘出的关联模式实例及其对应的支持度和置信度如表6所示。

表6 课程成绩数据关联模式实例

从表6可以知道,在159位学生中,有80.06%的学生选修了《古代文学(一)》的同时选修了《文学概论(二)》和《古代文学(二)》,并且在选修了《古代文学(一)》的学生中,学好《古代文学(一)》课程就能学好《文学概论(二)》和《古代文学(二)》,其可信度高达99.08%。同理,选修《古代文学(一)》课程后再选修《文学概论(二)》的有80.9%的学生,学好《古代文学(一)》就能学好《文学概论(二)》,其可信度达100%。再如,学好《古代文学(二)》就能把《文学概论(二)》学好,并能把毕业论文做好等,通过这些关联模式分析可以发现教务管理以及课程教学中的教学规律和问题,为教学管理、教学改革与决策提供科学依据。

4 结束语

处于数字化时代的校园教务环境累积了海量的教育信息化数据,这些数据是研究教育系统领域中各种教育规律、教育模式等的宝贵资源。本文以真实的学生课程成绩数据为数据集,研究在课程成绩数据库中发现课程关联模式的方法,采用矩阵加权模式发现技术发现课程成绩数据中隐藏的数据关联规则。通过规则分析得出课程教学中的教学规律和问题,为教学管理、教学改革与决策提供科学依据。实验表明,与现有的数据关联模式发现方法比较,本文的方法更有效、合理。下一步的研究将不断地完善挖掘方法,加大实验数据量,扩展到教育领域的各种数据关联模式的挖掘,以便能发现更多、更准确和更合理的教育模式和规律。

[1]李芸,瞿伟,张文.数据挖掘技术在研究生教育管理工作中的应用[J].西安建筑科技大学学报:社会科学版,2009,28(4):70-74.

[2]Hogyeong Jeong,Gautam Biswas.Mining student behavior models in learning-by-teaching environments[C]//Proceedings of the 1st International Conference on Educational Data Mining.Montreal,Canada,2008:127-136.

[3]方毅,张春元.基于数据挖掘的多策略研究生教育课程成绩分析方法研究[J].计算机工程与科学,2009,31(6):106-108.

[4]Agathe Merceron,Kalina Yacef.Interestingness measures for association rules in educational data[C]//Proceedings of the 1st International Conference on Educational Data Mining.Montreal,Canada,2008:57-66.

[5]湛德照.基于关联规则的考试数据挖掘[J].五邑大学学报:自然科学版,2009,23(2):64-68.

[6]侯亚荣,万雅奇,张书杰.教育考试数据挖掘的研究与实现[J].计算机工程与应用,2008,44(16):132-134.

[7]Merceron A,Yacef K.Revisiting interestingness of strong symmetric association rules in educational data[C]//Proceedings of the 2007 International Workshop on Applying Data Mining in e-Learning(ADML’07).Crete,Greece,2007:3-12.

[8]Minaei-Bidgoli B,Tan P-N,Punch W F.Mining interesting contrast rules for a Web-based educational system[C]//Proceedings of the 2004 International Conference on Machine Learning and Applications(ICMLA 2004).Louisville,USA,2004:320-327.

[9]陈世保,徐峰,吴国凤.基于难度系数的加权关联规则在试卷评估中的应用[J].井冈山大学学报:自然科学版,2013,34(1):70-74.

[10]刘建炜,张颖.基于加权关联规则算法的学生成绩数据挖掘研究[J].福建教育学院学报,2012(3):122-125.

[11]王满,徐朝军.网络课程资源自动量化评价研究[J].现代图书情报技术,2010(1):88-93.

[12]李桥,阳春华.关联规则Apriori算法在教学评价中的应用[J].计算机与数字工程,2010,38(6):49-51,81.

[13]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[C]//Proceeding of the 1993 ACM SIGMOD International Conference on Management of Data.Washington D C,1993:207-216.

[14]谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003,39(13):208-211.

猜你喜欢

项集关联规则
撑竿跳规则的制定
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
数独的规则和演变
“一带一路”递进,关联民生更紧
不确定数据的约束频繁闭项集挖掘算法
奇趣搭配
让规则不规则
智趣
TPP反腐败规则对我国的启示
一种新的改进Apriori算法*