基于Web挖掘的网络课程平台研究
2012-09-27李伟群
李伟群
(广州民航职业技术学院 计算机系,广东 广州 510403)
基于Web挖掘的网络课程平台研究
李伟群
(广州民航职业技术学院 计算机系,广东 广州 510403)
通过分析了目前网络课程应用中存在的问题,提出基于web挖掘的网络课程平台设计模型,并重点对Web挖掘系统模块关键技术进行介绍。论文对增强网络课程应用的实用性、可评价性有较大作用。
网络课程,Web挖掘,系统结构,挖掘方法
网络课程没有准确的定义,一般是指在先进的教育思想、教学理论与学习理论指导下的基于Web的课程,从教育技术手段来看就是在Internet上通过WWW浏览器来学习的课程。通过使用网络课程平台,使学员学习突破时空限制,并增强师生交互性,实现学习开放性,它成为课堂教学的有益补充,为教学质量的提高起到推动作用。在国家“教育信息化”和“学习终身化”的教育进程中,网络课程更是通过其教学资源的丰富可共享的优势得到教育机构的高度重视。
目前,网络课程主要包括以下功能模块:各类学习资源(主要以“发布”的方式出现,包括PPT、案例、作业等),自我测试(可以自动判分),公告栏,讨论区(聊天室、BBS等),站内消息,个别平台还利用虚拟现实技术增加了“模拟实验”模块等,这些立体化的学习资源为学生的学习提供了很大帮助。但是,在互联网资源无限丰富的今天,网络课程的学习给教学机构也带来了一系列值得思考的问题:
第一,在师生时空分离的环境下,学生良好的自我约束能力成为保障网络课程学习效果的前提。然而,事实证明,缺乏有效监控机制的学习其学习效果难以令人满意。因此,如何收集学员的在线学习时间、学习情况,并通过平台给予信息推送、学习监督显得尤为重要和有意义。
第二,“学习资源丰富,知识贫乏搜索”。近些年来,国家倡导建立“学习资源库”,将网络教学资源共享,面对大量的网络课程资源,如何让其变成“知识”是教育界关注的热点问题。自然语言处理技术为“智能搜索引擎”的实现提供了技术支持。
第三,资源完善,站点改进。根据学生对学习资源的学习频率和关注度,增加、完善、调整学习资源,解决学生学习问题,同时,根据学员行为记录和反馈信息为网站设计者提供改进依据。
根据对学生特征数据的分析,将学生进行分类,并进行管理,为其提供个性化服务。
因此,开发一个能解决以上问题的网络课程平台显得尤为重要。论文提出的基于Web挖掘的网络课程平台旨在解决以上问题。
1 基于Web挖掘的网络课程平台设计
1.1 平台设计原理
利用Web挖掘技术进行网络课程平台的数据挖掘,其系统架构如图1所示。
图1 “Web挖掘”网络课程平台系统架构图Fig.1 Structure diagram of the network course platform based on web Mining
除了搭建一般网络课程的功能模块,在线学习、资源库、交流互动、虚拟实验平台等之外,系统应重点解决网络课程“有效监控”、“资源调整”、“个性化服务”几个问题。其中,Web个性化服务是指Web站点能够根据用户的喜好和需求自动调整Web站点的信息组织和表示[1]。解决思路如下:当用户在Web界面发送请求时,Web服务器根据请求类型选择是向后台数据库存取数据还是通过Web挖掘系统提取相关数据,数据库和Web挖掘系统会向Web服务器发送响应数据,同时,Web挖掘系统也会根据挖掘情况向用户(学员)推送相关信息,例如一些学习建议等,为学员提供个性化服务。
1.2 Web挖掘系统
Web挖掘是指用数据挖掘技术在WWW相关资源和行为中发现潜在的、感兴趣的信息[2]。Web资源中蕴藏着大量的知识,但是Web数据由于数据的分布性、异构性、动态性,复杂性,其挖掘相对于普通数据挖掘来讲较复杂,因此,Web挖掘是目前数据挖掘领域及知识发现领域研究的重要课题之一。
Web挖掘可以根据挖掘对象的不同分为3类[3],即Web内容挖掘、Web结构挖掘、Web使用挖掘。Web内容挖掘是从Web上的文档内容或描述信息中获取潜在的、有价值的信息或模式的过程,有两种方式:Web文档挖掘,如Web查询语言Web Log,Web SQL等;搜索结果挖掘,如对搜索引擎的返回结果进行聚类。Web结构挖掘是指从Web的链接结构中获取有用知识的过程。对Web站点的结果进行分析、变形和归纳将Web页面进行分类,使其有利于信息的检索[4]。Web使用挖掘主要是利用是从Web访问日志 (如Web服务器日志、代理服务器日志、浏览器日志、用户profiles、注册数据、用户事务、cookies、用户查询、地址簿、鼠标点击和其它人机交互数据等)中发现用户的访问模式,预测用户的浏览行为,因此,有时又被称作Web日志挖掘[5]。通常,应根据挖掘对象的不同而选用相应的挖掘技术。当然,很多时候都是多种技术综合运用。
1.2.1 web挖掘系统结构
“Web挖掘系统”主要包括了3个过程:Web资源收集、数据预处理、挖掘算法执行。如图2所示。
图2 Web挖掘系统结构图Fig.2 Structure diagram of Web mining
Web挖掘的网络课程平台应该对学生的学习行为进行跟踪和收集。系统中的Web资源收集模块主要是记录学员访问系统的行为,包括学员登录的IP地址、访问频率、在线学习时间、日志文件、Web缓存等。其主要通过客户端、代理服务器端的数据采集的数据采集,这些数据将为有效的挖掘提供支撑。
数据预处理是指对Web数据进行数据清理、用户识别、会话识别和路径补充4个部分。其中数据清理主要是消解数据的不一致性,并将多个数据源中的数据统一为一个数据存储。用户识别指从访问日志中识别出访问网站的每个用户。较多见技术就是日志/站点的方法,并通过一些启发式规则来帮助识别用户。
接下来,在Web挖掘之前,信息检索和信息抽取很重要,前者主要是获取相关的Web文档,常见的有模板方式和网页库结构化两种方法。后者从Web文档中获取所需的感兴趣的信息,并对Web文档进行整理、排序。
1.2.2 Web挖掘方法
整个挖掘系统最重要的部分就是挖掘方法的选用。模式库由规则组成,用于对学员在线学习的活动进行分类、推理。这里对相关技术做简要介绍,为系统模式库的建立提供了支持。
关联规则用于发现用户之间、页面之间以及用户浏览页面和网上行为之间存在的潜在关系。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。另外,Agrawal的频集方法[6],主要是避免需要大量空间存储中间结果和需要反复扫描数据库而带来的算法上的缺陷。
Web分类是一种机器学习的方式,先按照预先定义的分类方法,将每一个Web文档归入某一类别。其优势是通过限制搜索范围提高搜索效率,同时方便用户浏览文档。典型有VSM方法,其分类效果较好,得到较多应用。
Web聚类在智能信息检索、自动文摘等诸多领域应用非常广泛。Web聚类不同于Web分类,其目标是将相似的文档尽可能聚在一起,而不相似的文档分到不同类。挖掘系统中,常采用的有3种聚类方法:基于词、基于知识、基于信息。其典型算法有层次聚类算法、平面划分法、基于密度的方法、基于网络的方法等。
朴素贝叶斯(NB)在Web挖掘中其思路是将Web文档中的词汇应用贝叶斯算法进行分类。它的特点是贝叶斯分类中所有的属性都参与分类,因此所有属性都潜在地起作用。除此之外还有其他的一些方法,例如支持向量机(SVM)方法等。
利用知识库对挖掘出来有用信息需要一定的处理,以良好的方式呈现给学员,一般来讲有可视化技术、知识查询等方式。统计分析以文字、数字的形式呈现给学员;可视化适合显示数据对象的各种统计值,如某页面的访问次数、页面跳转的频率或次数等或者是表现用户的访问序列。例如目前提出的几种适合在数据挖掘过程中使用的查询语言,如DMQL,WebSSQL、WebLQM 和 Squeal等。
2 结束语
对网络课程进行Web挖掘是一个有巨大应用前景的研究方向,同时也是推进教育信息化、提升网络课程价值,提高网络课程生命力的有效途径之一。本文提出基于Web挖掘技术的网络课程平台系统架构,并对其关键技术进行介绍。深入研究和改进Web挖掘技术的各种算法以及设计更高效的Web挖掘网络课程是今后努力的方向。
[1]朱志国,邓贵仕.Web使用挖掘技术的分析与研究[J].计算机应用研究,2008(1):30-35.
ZHU Zhi-guo,DENG Gui-shi.Analysis and research on web usage mining[J].Application Research of Computers,2008(1):30-35.
[2]郑岩.数据仓库与数据挖掘原理及应用[M].北京:清华大学出版社,2011.
[3]Madria S K,Bhowmick S.Research issue in web data mining[C]//Proc.of the lstlnt’l on Data warehousing and knowledge Discovery,Canada:AAAI Press,1999:303-312.
[4]龚汉明,周长胜.一种Web挖掘的框架[J].计算机工程与设计,2005(8):2118-2130.
GONG Han-ming,ZHOU Chang-sheng.Framework for Web mining[J].Computer Engineering and Design,2005 (8):2128-2130.
[5]高鹏,高岭,王峥.基于Web挖掘的个性化算法及其在网络教学平台的应用[J].计算机应用,2005(5):1012-1015.
GAO Peng,GAO Ling,WANG Zheng.Personal recommendation algorithm based on Web mining and its application in Web basededucation[J].ComputerApphcafions,2005(5):1012-1015.
[6] Cohen E,Datar M,Fujiwara S. Finding interesting associations without support pruning[J].Communications of ACM,2002,49(8):122-131.
Research of network course platform based on Web mining
LI Wei-qun
(Department of Computer,Guangzhou Civil Aviation College,Guangzhou510403,China)
By anaylizing the problems in the application of Network course,this paper proposed a network course platform model based on Web mining by analyzing the problems of the application of network course,then mainly introduced the key techniques on Web mining.This paper plays an role on enhancing the practicality and evaluation of the network course’s application.
network course; Web mining; system structure; mining method
TP391
A
1674-6236(2012)04-0133-02
2011-12-16 稿件编号:201112098
李伟群(1980—),女,山西襄汾人,硕士研究生,讲师。研究方向:计算机网络、图形图像。