Web数据挖掘在远程教育个性化中的应用研究
2010-07-25巫莉莉张波李涛
巫莉莉,张波,李涛
0 引言
远程教育是计算机技术和网络技术在远程教育领域中的应用。它是建立在现代信息技术平台上的一种教学模式,是传统教育的一种补充[1]。随着当今计算机网络技术的发展,远程教育正在逐步展示着它的优势。远程教育可以建构起一种理想的学习环境,在这种虚拟空间中学习,学生可以根据自己的需要进行有选择、有目的学习和提高。学生之间围绕当前学习的主题讨论交流,形成各自的理解,并表达自己解决问题的不同思路,相互分享各自的思维,相互评价,充分发挥了学生学习的能动性和自主性,也体现了教师在教学过程中的指导性。
远程教育作为一种学习手段,使用于高等教育、职业教育和成人教育,它更是一种提供终身教育的良好手段。其教育对象存在着极大的差异性,主要体现在:个人学习目标不同、学习能力不同、认识风格不同。这就必然决定了远程教育必然是一种个别化的教育,远程教学也必须是一种适应个别化学习需求的个性化教学[2]。
然而,现有的远程教育教学系统中仍然存在教学模式单一、动态交互能力不强、个人学习缺乏有效的引导等问题。现有的远程教育平台大多不能解决个别化学习的需求,所以也就无法对学习者实施个性化的远程学习服务。
1 Web数据挖掘
我们可以将Web数据挖掘一般地定义为:从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。一般地,Web数据挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘[3]。
1.1 Web内容挖掘
Web内容挖掘是对Web页面内容进行挖掘。主要包括:
(1)从WWW上智能地提取信息的搜索工具;
(2)数据库方法:把半结构化的Web信息重构得更结构化一些,然后就可以使用标准化的数据库查询机制和数据挖掘方法进行分析。
(3)对HTML页面内容进行挖掘,对页面中的文本进行文本挖掘,对页面中的多媒体信息进行多媒体信息挖掘。包括对页面内容进行分类、聚类以及关联规则发现。
Web结构挖掘
Web结构挖掘研究的是Web文档的链接结构,揭示蕴含在这些文档结构中的有用模式,处理的数据是Web结构数据。文档间的超链接反映了文档间的某种联系,如包含、从属、引用等[4]。其中比较有代表性的工具是Page Rank和CLEVER ,它们正是利用了文档间的链接信息查找相关的Web 页[5]。
Web使用挖掘
Web使用挖掘是对用户访问Web时在服务器留下的访问记录进行挖掘,即对用户访问Web站点的存取方式进行挖掘。挖掘的对象是在服务器上包括Server Log Data等日志。挖掘的手段是:①路径分析;②关联规则和序列模式的发现;③聚类和分类。
Web使用挖掘可以从Web服务器那里自动发现用户存取Web页面的模式,得出群体用户或单个用户的访问模式和兴趣[6]。
2 Web数据挖掘在远程教育个性化中的应用
基于Web的数据挖掘一般流程经过数据的采集、预处理、模式发现、模式的分析及其应用几个过程[7],见图1所示。
图1 Web数据挖掘流程
2.1 数据采集
远程教育站点能提供大量有用的信息。在远程学习中,学生以学号登录系统,系统根据学号记录学习行为,信息包括网络日志(学习者登录IP、学习者访问URL、访问时间、资源类型等)和相应的学习记录(学习者的学号、访问的课程、访问时间、停留时间等)[8]。
2.2 数据预处理
对数据进行预处理,去除原始数据中的无关信息,并识别用户,对用户的访问进行会话识别和事务识别,为数据挖掘做准备。
(1)滤掉多余的记录,合并相关数据并将不恰当的或冗余的数据项从数据集里清除。将Web服务器日志文件中记录的网页请求按照IP地址和访问时间排列,可以过滤掉对图形、图象、声音文件的访问,这可以通过判断文件的扩展名来实现,或者是将图形、图象等文件转换成可以进行分析的数据格式。其中要注意Web日志中status域的值是200才表明访问成功,可以只取这个值的记录;
(2)识别会话,标签通过惟一的会话ID关联点击流记录,验证事件次数与描述该会话的记录是否保持逻辑一致性。在对Web日志记录扫描过程中,对于每一个来自不同IP地址的请求,都分配在一个表中,不同的IP地址表明不同的用户。为了生成会话,我们可以设置一个阈值,例如,半个小时,如果对同一个IP地址,一条日志记录同下一条记录之间的时间间隔不大于该阈值,则认为这两条记录属于同一个会话;
(3)根据用户在每个页面停留的时间,依据一个时间阈值,小于20秒或者大于600秒就表示对访问的当前页面没有兴趣,大于20秒或者小于600秒就表示有兴趣,保留有兴趣的记录。
2.3 模式发现
(1)统计分析。通过分析学习者日志文件以及服务器数据库中的数据,读出各种统计分析描述,如学习者在某页面上停留的平均时间,学生作业及考试统计信息等等。
(2)关联规则发现。通过关联规则对学生学习行为和学习记录进行挖掘,计算出它们之间的关联程度,发现各门学科之间以及学习者兴趣知识点之间潜在的联系,并动态地呈现给学生。
(3)分类聚类。对用户进行分类聚类,根据聚类结果,可以将学生划分成不同的类型,将学习兴趣和学习习惯相似度大的学生划分为一组,教师可根据每组学生的具体明确的情况,对教学做出适当的调整,真正做到因材施教。
(4)序列模式。序列是指在时间戳有序的事务集中挖掘访问Web网页的先后顺序的模式,可以寻找用户频繁出现的序列,预测学习者行为,主动提供其需要的资源。
2.4 模式的分析和应用
通过模式发现之后,生成的规则数目庞大,表达晦涩,得不到很好的利用,这就需要对模式进行分析评价,通过模式分析和应用技术处理,选择学习者易于理解和接受的方式显现出来,在学习者学习过程中以可指导其学习和个性化的发展,具体应用如下:
(1)构建学习者个性特征库。根据学习者不同的特征参数,对学生学习活动进行跟踪,记录与学习相关的信息。包括经常访问的 URL、停留时间、访问次数等等,建立个性特征库,为不同的学习者提供个性化服务;
(2)为学习者提供个性化的学习资源。针对不同类型的学习者,在个性特征库的基础上,通过调整远程教育系统的网页结构,过滤与学习者无关及不感兴趣的资源。利用统计分析技术的可以根据学习者经常访问的页面来预测其进一步的学习行为,主动提供其需要的学习资源,减少学习者的等待时间;
(3)个性化学习指导。不同的学习者其个人学习能力、兴趣和学习习惯、努力程度等,都存在着一定的差异。对于每一个学习者,比如可以根据平时在学习某门课程时经常访问的知识点做出统计,然后定期或在考试前主动将这些知识点提供给学习者,增强其对该知识点的记忆,做到个性化的学习指导。
3 远程教育个性化模型
基于远程教育平台,结合Web数据挖掘技术,了解和掌握学生学习的兴趣、浏览模式、学习状况、需要的导航帮助等,获得有利于远程教育的新鲜模式和规则,指导教学材料的安排、课件的设计和改进,提高远程教育的质量,构建一个完善的网上虚拟教学系统,使学生的远程教育学习模式更加智能化、个性化。
设计目标
设计个性化的学习模式,优化现有远程教育平台。主要设计目标如下:
1.根据学生的浏览模式重构页面之间的超链接,根据访问流量情况,发现学生的需要和兴趣,对需求强烈的网页提供优化,将更快、更有效的访问方式展现给学生;
2.根据关联分析可挖掘出隐藏在数据之间的关联性,比如某些课程之间隐藏的某种相关性。教师以及教育管理者可根据这些重要信息来指导教学、修正试题难度系数等;
3.针对不同的学生,由聚类分析得知不同类型学生的兴趣和爱好,向学生动态提供浏览的建议,提供远程教育个性化服务。
体系结构设计
从设计目标来分析,个性化的远程教育平台在逻辑上可以分为三个层次,即数据获取/管理层、数据存储层与数据分析/应用层。
系统框架结构设计框图如图2所示:
图2 系统框架结构
1.数据获取/管理层
数据获取/管理层主要是是应用的用户接口部分,它担负着用户与应用间的对话功能以及实现对Web服务器的管理功能。通过用户访问远程教育系统,获取用户信息、Web日志信息等,实现数据采集功能;同时,系统管理员也可以通过Web服务器对系统进行管理。
2.数据存储层
数据存储层是进行Web数据挖掘的主体,用于存储用户信息库、Web日志库、试题库等数据。这些数据根据目标进行抽取,经清理、转换等预处理,并按主题组织存放。
3.数据分析/应用层
数据分析/应用层是面向系统的管理者,运用数据挖掘算法对已经预处理的数据进行分析,发现有利于优化远程教育以及学习个性化的模式,并对模式进行分析评价,应用于远程教育系统。
应用模型设计
根据系统设计目标,应用模型设计结构如图3所示。
图3 应用模型设计结构
根据设计目标数据来源于知识库,经过数据采集后,在将这些数据经过数据清理、转换等预处理,并结合Web数据挖掘技术进行模式发现,并分析和评价。再选取合适的规则应用到远程教育系统中,构建个性化的远程教育模式。其中与Web数据挖掘的结合研究是该模型实现的重点。
5 结论
将Web数据挖掘技术和远程教育充分的结合,利用现有的数据资源,运用数据挖掘算法找到课程之间、网络结构设计等之间的联系。通过研究获得有利的规则并应用到现有远程教育平台中,完善远程教育模式中出现的不足,使学生的学习从单纯的被动信息索取转变为主动信息获取,让远程教育更加个性化、智能化,发挥出远程教育更大的优势。
[1] 王开源.高校现代远程教育的发展现状分析与探讨[J] .科技教育创新,2009,(6):242.
[2] 刘彤.Web数据挖掘技术在个性化远程教育平台中的应用[J] . 科技信息,2008,(21):62.
[3] 韩家炜,孟小峰,王静,李盛恩. Web挖掘研究[J] . 计算机研究与发展, 2001,4(38):406-407.
[4] 宋爱波,董逸生,吴文明等.Web挖掘研究综述[J] .计算机科学,2001,11 (28):15.
[5] 李国慧.Web数据挖掘研究[J] . 电脑知识与技术,2008,(4):592.
[6] 王实,高文,李锦涛.Web数据挖掘[J] . 计算机科学, 2000,4(27):28-29.
[7] 张建宇,叶长青. 基于Web的数据挖掘在远程教育个性化学习授导中的应用[J] . 教育技术导刊,2005,(10):29.
[8] 邱晓辉. 基于Web数据挖掘的个性化远程教育系统的构建[J] . 中国教育技术装备,2007,(12):82.