基于改进的Apriori算法在网络教学平台中频繁访问路径研究
2018-12-27张珏
张 珏
(1.江苏省昆山第二中等专业学校,江苏 昆山 215300;2.昆山开放大学,江苏 昆山 215300)
当前网络教学平台的教学水平参差不齐,如何对其教学效果进行有效分析,通过利用数据挖掘技术在网络教学平台中发现学习者的一些行为规律,以此来改善网络教学平台中站点的结构的布置和网页超链接的设置,已经是势在必行,但是如何在现有的经典Apriori算法基础上进行改进分析,实现挖掘学习者频繁访问路径的算法是本文的主要研究任务。
1 Apriori算法的研究现状
1.1 教学平台的操作分析
开发的算法、为了分析数据而构建的框架或模型,需要对实践应用产生影响才真正有价值。如何将获取的数据进行分类整合,目前大部分的网络教学平台没有提供合适的工具来获取、分析或者存储数据,还有我们的平台管理者或者授课者也不知道如何获得数据、数据如何分析或者数据意味着什么。根据学习者在网络教学平台中的学习状态进行分析,分析点击浏览器上的按键回退到浏览过的学习页面,还有可以按照平台上的一些超链接进入浏览新的页面。学习者所有访问过的页面都是挖掘的重要信息。因此,就需要找出学习者的“最大向前访问路径”,即从学习者操作的第一个页面开始,直到学习者退回到前一个页面为止,这期间访问的页面所获得的页面序列[1]。
1.2 Apriori算法在教学平台中的应用
Apriori算法的实质使用候选项集找频繁项集,是一种基于挖掘布尔关联规则频繁项集最有影响力的算法。算法的大致意思是:算法使用的频繁项集性质的先验知识。Apriori算法是一种逐层搜索的迭代方法,k-项集用于探索(k+1)-项集[2]。
原本学习者频繁访问的操作路径中可以借鉴传统数据挖掘中的关联规则挖掘算法来发现,但Web数据存在一些复杂性,所以对关联规则算法进行必要的改进,从而适合网络教学平台中学习者频繁访问路径的发现[3]。关联规则挖掘算法与学习者频繁访问路径的发现算法的差别在于:关联规则频繁项集中的事务项目之间没有顺序的关系;但学习者频繁访问路径中,页面必须形成连续的序列,即页面之间有顺序[4]。
2 改进后的Apriori算法的分析示例
2.1 访问路径发现的两个问题
学习者频繁访问路径的模式发现可以分解为两个子问题:(1)从网络教学平台中的数据库中,用上述算法求得的最大向前访问路径的数据库D,求出所有满足最小支持度的频繁路径。(2)由挖掘生成的所有频繁路径中,找出满足最小置信度的频繁路径[5]。
2.2 改进后的Apriori算法分析
对经典Apriori算法稍加改进,就可以得到求满足最小支持度的所有频繁路径的算法。
算法中的符号说明:
k-itemset:k维页面项目集。
L[k]:具有最小支持度的最大k-itemset,该集合中每个成员有两项(itemset和support)
C[k]:候选的k-itemset(潜在的最大页面项目集),该集合中每个成员有两项(itemset和support)。
假设通过对Web访问日志的预处理,识别出某学习者的会话为{A,B,C,D,C,E,F,G,B,H,A,I,J,I,K},则用以上的最大向前访问路径标识算法对该学习者的会话过程进行分割后,就可以得到的事务集合为{ABCD,ABCEFG,ABH,AIJ,AIK},其分割过程如图1所示[3]。
图1 利用最大向前访问路径标识算法分割会话集
在上述分析的基础上,结合Apriori算法的优点,利用改进的Apriori算法挖掘学习者的频繁访问路径算法描述如下。
算法说明:
(1)最大项目集的子集必是最大项目集。在can_gen函数中,运用这一性质,除k项侯选集中那些(k-1)项不在L[k-1]在的项目集,从而减少了侯选中子集的数目。
(2)在can_gen函数中,a[2]=b[1] and a[3]=b[2], …,a[k-1]=b[k-2]是由L[k-1]生成C[k]的条件,发现这与传统关联规则中的连接条件不一样,它表示了页面之间的序列关系。
2.3 改进后的Apriori算法示例
假设结过数据预处理后,数据库D包含了10个学习者访问网络教学平台相关页面的记录,如表1所示(表中只给出和算法相关的字段,其余字段已被省略)。
表1 页面被访问记录表
由之前分析的算法,选取学习者频繁访问路径的最小支持度为5,算法运行后,得到该网络教学平台被频繁访问的路径为:{A,C,D,E},该算法的执行过程如下所示。
第一步运行结果:C1:
?
L1:
Itemset A C D E J support 7 7 8 10 5
第二步运行结果:
C2:
?
L2:
?
第三步运行结果:
C3:
Itemset A,C,D A,C,E A,C,J support 5 6 2
L3:
Itemset A,C,D A,C,E support 5 6
第四步运行结果:
C4:
?
L4:
?
算法运行结束,挖掘出学习者频繁访问路径{A,C,D,E},利用该路径来反馈网络教学平台,以改进站点网页间的链接,提高网络教学平台的访问效率。在这里需要指出的是,假设发现的A,B,C和D页面在链接结构上属于同层结构,那么需要在A网页中,给出B,C和D网页的链接地址。另外,可以为学习者提供推荐学习的页面,在上述示例中,如果学习者进入网络教学平台访问了A,E页面,那么系统就可以将C,D页面推荐给学习者界面[6]。
3 结语
通过改进后的Apriori算法得到的学习路径的挖掘结果是以文字或图形的方式提供给需要的用户。挖掘结果对授课者和学习者的帮助有:对网络教学平台的大多数学习者的学习路径的挖掘,可以提供给平台课程设计者对其设计的网络教学课件等进行优化调整处理[3],适量协调各个页面之间的链接关系,让其能更加符合学习者的习惯。并且系统动态生成某些链接,可以满足学习者的特定需求,以此来实现对学习者的定制化教学。另外,根据获取的学习者某些课程的学习状况和学习进度的情况,来对学习者提出一些学习建议。挖掘的结果能让授课者了解学习者学习课程的掌握情况,以此来提供给学习者一些比之前所学课程更加深入或者更加浅显的教学内容。可以使学习者全面地了解自己的学习状况,帮助学习者自主高效地学习。