试论基于数据挖掘技术的开放学习信息平台建设
2013-04-29赵乘源
赵乘源
摘 要 本文通过对现有可获取学习信息的系统和网络状况的分析,提出了一个针对所有学习者的开放的学习信息平台模型。使用计算机技术和网络手段将各类学习信息聚合和共享,并且嵌入数据挖掘功能。旨在方便学习者的交流和合作,提高获取学习信息的效率,实现知识发现,减少教育资源分配的地域差异。
关键词 Xml 数据挖掘 学习信息平台
中图分类号:G424 文献标识码:A
1 研究缘起
本文将探讨建立一个开放的学习平台,试图通过搭建一个开放的信息平台来进行学习信息资源的交流和积累,并试探在数据库中进行数据挖掘来实现将数据开发为知识,提供二次信息,使数据变得有意义和更加具有参考、使用价值。特别是对地处偏远的地方的学习者更加有意义,可以通过远程网络参考到相关的资料辅助学业。
以现在信息技术和网络的发展,在BBS或很多机构网站上都可以得到很多学习信息。但是内容往往多而繁杂,BBS参与讨论的用户不全是专业人士,所提供的内容不一定准确。因此,本文拟探讨建设一个专业的、开放的学习信息平台,审核和整合各种学习资源,实现对学习数据之间的统一管理、能够交流,被进一步开发和广泛利用。这样包括学者、教学人员、研究人员、学习者都可以共享平台的资源,并且平台要向已经投入使用的学习资源系统开放,提供相关接口聚合已有的电子学习资源。
2 信息平台建设
2.1 设计理念
(1)采用分布式应用和客户机/服务器模型作为学习信息平台整体架构。分布式应用通过在多层服务器上中心化处理业务逻辑,可以减少客户的工作负载,提高网络数据的安全性。在分布式应用中,客户端处理同用户的所有交互,而中间层服务器则提供客户的后台服务。WEB应用是分布式体系结构的一个应用模型,客户位于WEB浏览器中;各种构件位于服务器上的中间层,向下提供访问数据库的接口,向上提供客户端访问接口。使用分布式应用可以整合异构系统资源,提供统一的用户服务。
(2)使用XML进行文档的浏览和操作。XML有一个很显著的特点,就是将信息内容与表达形式完全分离开了。XML文档本身不描述数据的显示方式,而只是表示数据的本身。体现在它允许文档的编写者制定基于信息描述、体现数据之间逻辑关系的自定义标记,确保文档具有较强的易读性、清晰的语义和易检索性。这种特点使得XML能专心进行数据的处理和结构的描述,而不必考虑向客户传递信息表达方式。使用XML可以表达复杂的信息。
(3)嵌入数据挖掘模块,实现知识发现。数据挖掘是指按照既定业务目标,对大量的数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一种知识发现的过程,同时又是一种决策支持过程。决策支持是对信息系统的功能要求最高的系统,它主要基于人工智能、机器学习、统计学等技术,高度智能化地分析原有数据,做出归纳性推理,从中挖掘出潜在的模式和规律。在学习信息平台中嵌入综合使用多种数据挖掘方法的模块有利于信息综合分析、自定义分析和知识发现。
2.2 建模
模型的框架结构如图1所示。结构上分为三层;客户端、中间层、服务器。采用瘦客户机模型,客户端的服务仅仅限于XML数据的显示和操作;中间层服务,主要的业务处理过程都在中间层实现,在物理上和逻辑上往往不只是由单一的设备或模块来实现,分模块来实现系统的功能。但是这种结构使得系统功能的维护和改善变得更简易和方便。数据源作为三层结构的底层,必须对中间层提供强有力的支持。平衡数据源和中间层的负载也是不容忽视的一个方面。
(1)客户端功能描述。客户端是用户使用资源的接口,因此它的设计不仅要做到界面的美观、实用,更重要的是用户使用数据的安全、快捷和方便。还要具备易维护性、为平台上所有软件开发预留升级接口。
客户端的最重要实现方式是基于网络浏览器的方式(Web Browser)。采用这种方式可以支持XML文档的浏览和操作。XML充当客户端和中间层之间传递数据的承载者。采用XML表达信息的优点如下:a、XML结构化的组织方式适合表达复杂的信息资料,方便用户的使用;b、在中间层以XML文档方式返回检索结果集之后,XML文档本身可以作为一个临时数据源支持常用的数据操作,减少了远程网络的数据流动;c、XML的Internet应用环境提供了一些解决数据安全的手段;d、XML是一种标准的规范,实现了数据的结构和显示分开,数据不仅能够用来显示,还能为其他的应用程序提供数据源,与其他信息系统交换数据;e、XML有扩展性,和预留的升级接口便于系统以后的扩展;f、采用瘦客户机模型,客户端的功能简洁,易于系统维护。
客户端另外的一个实现方式就是传统的应用程序服务方式(Client Application)。这种服务方式主要用来弥补浏览器服务方式的不足。
(2)中间层。中间层是系统实现的核心,系统大部分工作都在中间层完成。信息服务器(Information Server)提供对浏览器方式的服务,接收来自浏览器的命令,与数据源或数据服务器(Database Server)交互(使用Vbscript或其他脚本语言),然后将结果封装为XML文档或HTML文档发送给客户端。应用程序服务器(Application Server)提供对应用程序服务方式的服务,一般以结果集(Recordset)方式接收或发送数据。应用程序服务器具有大量的服务组件,因此信息服务器中的Script同样也可以分享这些组件的服务。
中间层有一个进行数据挖掘的模块(Data Mining)。由于数据挖掘模式的复杂性和多样性,系统并不能提供所有的挖掘方法,但是可以提供一些面向信息、成熟的挖掘方案提供给客户端选择。
(3)数据源。数据源作为整个系统的底层,承担着数据存储和数据检索的任务。从系统结构上来看,数据源支持中间层,中间层也要有效的使用数据源服务,并且有以下服务原则:a、合理使用数据源提供的服务;b、中间层要尽量减少数据检索的重复次数,提高一次检索成功率;c、提高中间层自动优化数据库服务器资源分配的能力。
3 学习平台资源建设
学习信息平台资源的建设主要包括整合参与机构已有的学习资源和及时获取自由发布的资源进行质量审查,合格后加入平台资源库两个方面。前者保障学习平台资源的基本积累和资源数量,后者保障学习平台资源的及时更新和时效性。
(1)来自整合的资源。整合参与机构已有的学习资源,通过开发接口将不同机构的不同类型的学习资源整合在一起,实现统一检索,这是学习平台资源的基本保障和重要来源。
(2)自由发布的资源。自由发布资源的获取可以使用網络爬虫,采取类似搜索引擎的工作原理,定义抓取原则,及时抓取网络上符合抓取原则的资源。抓取后进行质量分析,对分析合格的资源进行描述,提供指向链接,采用这种学科导航的方式帮助学习者及时准确获取可靠的学习资源,减少个人整合分析的时间,提高学习研究的效率。
4 总结
本文就现有的网络和信息技术状况提出了一个帮助汇总和利用的开放性平台,试图最大可能的为所有对共享学习信息资源有兴趣的人员,提供最开放的服务。目的旨在为学习者和研究者提供一个交互的平台,提高获取学习信息的效率,实现知识发现,减少教育资源分配的地域差异。此系统的开发还存在一些需要探讨的问题:a、谁来实施这个开放学习信息平台? b、谁来组织资源整合?c、谁来进行内容审核?d、谁来进行日常管理?是政府、还是教育相关的单位联盟或其他机构,都是值得继续探讨的问题。
参考文献
[1] 张维明.语义信息模型及应用[M].北京:电子工业出版社,2002.
[2] 黄如花.数字图书馆原理与技术[M].武汉:武汉大学出版社,2005.