APP下载

基于兴趣度关联规则的在线学习行为分析方法

2019-05-25胡延雪怀丽波崔荣一

延边大学学报(自然科学版) 2019年1期
关键词:置信度学习效果数据挖掘

胡延雪, 怀丽波, 崔荣一

( 延边大学 工学院, 吉林 延吉 133002 )

0 引言

随着教育信息化的推进,数字化学习已经成为当今学习者的重要学习方式.同时,数据挖掘技术的应用促进了学习分析从传统的经验性向客观性发展,为研究学习者的个性化发展提供了新的技术支持[1].近年来,如何采用数据挖掘技术对全数据环境进行分析以获得直接、客观的教育评价和学习分析成为学者们关注的研究热点.

教育数据挖掘是基于大量的学生个体相关数据信息的基础上,分析挖掘出隐含于这些数据背后的各类信息,使其更加具有针对性和个性化[2].常用的教育数据挖掘方法有聚类分析、决策树、关联规则等.其中,聚类分析方法常用于学习行为特征分析[3]、判断影响成绩的因素[4]、寻找成绩评价中存在的问题[5]等.决策树算法常用于建立学生成绩分析预测模型[6-7].关联规则常用于对不同学生课程的成绩进行关联分析,找出课程间的相互影响关系,为学生推荐课程或分析影响成绩的重要因素等[8-10].目前,相关研究大多仅用数据挖掘中的单一算法对成绩进行分析,得到的结果不够明确,难以直接用于指导改善学习行为.例如,通过决策树可以找出影响分类的关键因素,却无法得知各项间的关联;而关联规则可得到各项间的关联,却无法说明它们之间的内在影响关系.本文以在线课堂环境下用户的学习行为数据为研究对象,采用含兴趣度指标的关联规则算法对学习行为数据进行分析,寻找学习者的学习行为与学习效果之间的深层关系,以为学习者提供明确的学习指导.

1 相关算法概述

1.1 聚类分析

聚类是将抽象对象的集合组成为由类似的对象组成的多个类的过程.聚类生成的类是一组数据对象的集合,聚类分析的原理是使属于同一类别的个体之间距离尽可能小,而不同类别的个体之间距离尽可能大.目前主要的聚类算法可以划分为:划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法[11].K-means算法是一种典型的扁平聚类算法,是划分法中应用最为广泛的算法之一.该算法的主要目标是最小化各元素到其簇中心的欧式距离平方的平均值,具有简单、快速的优点,可以对大型的数据集合进行快速分类.聚类准则函数用于衡量聚类结果,通常是用数据集中所有对象与各自所在簇的簇中心误差平方和来计算.当平方误差和足够小时,即表示可以结束聚类操作.聚类准则函数的表达式为

(1)

其中ci表示第i类数据对象的集合,p是簇ci中的数据对象,mi是簇ci的平均值,k表示该数据集可以划分为k个簇.聚类分析可作为数据挖掘的一个模块,也可作为其他挖掘算法的预处理步骤.

1.2 关联规则

传统关联规则[12]是表示项集X与项集Y的某种相关性,形如X⟹Y的蕴涵式,由支持度s和置信度c决定.规则X⟹Y在事务集D中成立.支持度s是D中事务包含X和Y的百分比,即概率P(X∩Y), 其表达式为

s(X⟹Y)=P(X∩Y).

(2)

置信度c是D中事务包含X的同时也包含Y的百分比,即条件概率P(Y|X),其表达式为

(3)

Apriori是经典的关联规则算法之一,其包括寻找频繁项集和寻找强规则两部分.寻找频繁项集是算法核心,包含连接、剪枝两步操作.Apriori算法的基本思想是通过多遍扫描数据库找出全部频繁项集,从1-项频繁集开始,递归地产生2-项频繁集、3-项频繁集,如此下去直到产生所有的频繁项集.最后,利用频繁项集构造出满足最小置信度的强规则.

传统关联规则算法主要考虑支持度和置信度指标,通过满足大于最小支持度和置信度来获得强关联规则,但该方法有时难以解释其规则的实际意义.因此,学者们引入了“兴趣度”度量值,修剪无用的规则.目前兴趣度模型主要有基于模板的兴趣度模型、基于概率相关性的兴趣度模型、基于信息量的兴趣度模型和基于差异思想的兴趣度模型等[13],这些模型由于是从不同的角度对兴趣度进行评价,因此只适用于不同的实际问题.

基于概率相关性的兴趣度模型[14]是从统计独立性检查的角度出发,在关联规则的置信度和支持度基础上增加一个新的相关性约束,以将不满足条件的关联规则删除.X和Y的相关性计算公式为

(4)

式(4)中的相关性计算值作为兴趣度,其体现的是X和Y的密切程度.In tr(X⟹Y)=1, 表示X和Y相互独立,它们之间没有相关性,此时P(X∪Y)=P(X)P(Y); In tr(X⟹Y)>1, 表示X与Y为正相关,X的出现会促进Y的出现; In tr(X⟹Y)<1, 表示X与Y为负相关,X的出现会减少Y的出现.在实际应用中,当关联规则的后件为单数据项时具有较为明确的决策指导意义,因此为保证规则的应用价值,在算法实现过程中只挖掘形如X⟹Y的关联规则,这样可以减少大量的冗余关联规则,提高算法效率.

2 基于兴趣度的学习行为分析方法

2.1 基于兴趣度的学习行为分析

传统的关联规则挖掘算法在分析学习效果的影响因素时,通常仅考虑支持度和置信度指标[15],而且置信度只考虑X出现时Y的出现概率,而未考虑X未出现时Y的出现概率,因此在挖掘时会得到大量的冗余规则,难以实用.因此,本文采用含有兴趣度指标的关联规则算法对学习行为进行分析,以获得属性间更多的信息.

假设学生的一系列学习行为属性为集合A={A1,A2,…,Am}, 每个属性有k个不同等级的具体取值.根据实际学习情况,属性不同k取值不同.假设学生的每条学习行为数据对应的学习成绩为Z, 并且Z按分数值划分为n个等级,即Z={Z1,Z2,…,Zn}.在分析学习行为过程中,本文引入基于概率相关性的兴趣度模型思想,通过计算兴趣度值分析学习行为属性与学习成绩之间的深层关系.一般情况下,学习行为总量为某一具体常数,则属性间的兴趣度计算过程可由式(5)所示:

(5)

2.2 具体算法步骤

数据挖掘的过程一般包括4个部分:数据收集、数据预处理、数据分析和结果解释.关联规则算法是通过挖掘频繁项集来发现属性间的联系,但若数据量大产生的规则也就越多,用户很难观察到某些细化区域的隐含规则,因此本文将聚类分析作为数据挖掘的一个步骤.首先对样本数据进行聚类将区域细化,然后对不同簇类的数据进行关联规则挖掘,以此提高挖掘效率.

本文采用基于兴趣度的关联规则算法进行学习行为分析的主要步骤如下:

1)获取用户的原始学习行为数据,并进行数据预处理,包括数据清洗、数据集成、数据离散化等操作,预处理后的数据存入数据库,形成样本数据集;

2)采用K-means算法进行聚类,利用公式(1)选取聚类簇数,将数据区域细则化,生成相互区分的类.以学习成绩作为学习效果的依据,对各类学习行为和学习效果进行归纳分析;

3)采用基于兴趣度的关联规则算法对各区域数据进行挖掘,利用式(2)和式(3)得到影响学习效果的学习行为因素,然后根据式(5)计算结果,分析学习行为与学习效果之间的深层联系.

3 实验结果与分析

3.1 数据预处理

实验数据来自edX平台提供的MITx的2013年春季编号为8.02x的课程学习记录,该数据集含有学习者从注册到最后结业成绩的所有学习数据,共计18 579条.实验主要提取的学习特征分别是:是否访问课件标签(A),访问课程是否过半(B),互动次数(C),视频播放次数(D),互动的章节数(E),论坛发帖数(F),是否获得证书(G),成绩结果(Z).为提高数据挖掘的效率,首先进行数据预处理操作,将原始数据离散化,获得的部分学习特征数据如表1所示.

表1 学习特征表

表1中,每一行数值代表某一名学习者的全部学习特征,各特征项的属性见表2.

表2 特征值的属性

3.2 聚类分析

实验以Eclipse环境为平台,用Python作为开发语言,采用K-means算法对获得的学习特征进行聚类分析.首先,通过聚类准则函数确定最佳的聚类簇数,其结果如图1所示.

图1 聚类的数目

由图1可以看出,曲线呈不断下降趋势,但结合实际情况可知聚类数不可能取无限小的值,否则失去研究意义.当簇的数目为3时,曲线变化率最大,即聚类效果最好,因此本实验选取聚类数为3.聚类结果如表3所示,表中列举了每类含有的主要特征项,括号内的数值为具体人数.

从表3可以看出,第1类消极型学习者几乎没有浏览过课件和视频等学习内容,并且几乎没有过互动,学习质量很差,没有获得证书.第2类被动型学习者虽然大多数浏览过课件和视频,以及有过互动学习经历,但大多数没能坚持学习到课程的一半,学习效果并不理想,也没能获得证书.第3类主动型学习者都浏览过课件和视频,互动和发帖数较多,而且能够坚持长时间学习,因此这类学习者的学习效果较好,大多获得了相应的课程证书.

表3 聚类结果

注:第1类约占总人数的25%,第2类约占总人数的70%,第3类约占总人数的5%.

3.3 关联规则分析

为找出影响学习效果的重要因素,分别采用传统的Apriori算法和含有兴趣度的改进算法对不同类型学习者的学习特征数据进行挖掘,获得的关联规则数目如表4所示.

表4 不同关联规则算法的实验结果

实验结果显示,采用含兴趣度的算法获得的强规则数目比传统Apriori算法减少了40.9%.学习成绩作为学习效果的重要体现,分析与其相关的强规则可获知学习者的学习行为与学习效果之间的关系.由于大多数学习者属于被动型学习类型,因此本文以被动型学习者为例进行分析.被动型学习类型的部分强规则如表5所示.

表5 部分强规则

由表5中的置信度可知,所选择的学习特征都是影响学习成绩的重要因素.由G0 ⟹Z0的兴趣度为1.0可知,是否获得证书和成绩的关系是相互独立的,不能以成绩优劣决定是否能获得证书.学习特征A、D与Z之间的兴趣度值均小于1,即访问课件、播放视频与成绩的关系为负相关,说明当增多访问课件、播放视频等行为时,成绩为0分的情况会减少;而特征B、C、E、F与Z之间的兴趣度值均大于1,即访问课程的次数不过半,互动次数少、学习的章节数少、不发帖讨论等与成绩的关系为正相关,说明这些情况的出现会增加成绩为0分的情况.

4 结论

本文以在线课堂的用户学习行为数据为研究对象,通过引入兴趣度指标的关联规则算法研究了学习行为因素与学习效果之间的关系.实验结果表明,相比传统关联规则本文方法可有效去除冗余规则,并且可得出规则前后件的具体联系,有利于指导用户改善学习行为.影响学习效果的因素较为复杂,本文仅对在线学习用户的部分学习行为因素进行了分析,今后将考虑网络环境、学习资源等其他因素对学习行为因素的影响,以及提高数据挖掘算法的准确率,以更有效地分析学习行为因素之间的深层关系,提高在线学习用户的学习效果.

猜你喜欢

置信度学习效果数据挖掘
疫情期间线上学习效果评价分析
“百词斩”对于大学英语四级词汇学习效果的实证研究
硼铝复合材料硼含量置信度临界安全分析研究
基于学习性评价原则提高研究性学习效果的研究
探讨人工智能与数据挖掘发展趋势
莲心宝宝有话说
正负关联规则两级置信度阈值设置方法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
置信度条件下轴承寿命的可靠度分析