APP下载

语义web数据挖掘在电子教学上的实施

2014-08-15波,李

太原学院学报(社会科学版) 2014年3期
关键词:本体数据挖掘语义

杨 立 波,李 新 宇

(1.太原学院计算机工程系,山西 太原030032;2.山西省工业管理学校,山西 太原030012)

0 引言

随着互联网用户的不断增加,web页面和web服务越来越受欢迎。近十几年来在线门户网站、电子学习、电子政务、电子商务成为网络热门。为了能提供更好的服务质量和个性化服务,门户网站都要有一个语义结构和智能逻辑。它们是通过结合两个学科实现的:语义web和web挖掘。目前,web挖掘和语义web在web中被广泛研究,因为它们都被寻址,所以这两个学科可以同时被使用,并彼此履行理论或以自动化的方式检查大量数据,同时挖掘数据,发现和获取有意义的结果[1]。通过对教育目的的语义web挖掘的应用,特别是在远程教学和课程管理中,语义web挖掘可以作为对传统教育和远程学习的支持技术,二者都可以使用语义web挖掘来获取知识。在当前的电子学习门户和课程管理系统中,可以通过语义web服务和语义web代理,发现学生的学习模式和个性化需求。在早期的研究中,给出web挖掘的一个简要的解释,语义web挖掘和他们在教育系统的应用实例。在这项研究中,可以体现出电子学习的优势和劣势。尽管如此,语义web挖掘依然被认为是网上学习的重要部分。

万维网的开发是一个人类知识库,允许在远程站点的合作者分享他们的想法和一个共同的项目数据的各个方面。web2.0通过web服务实现自动化,它背后有一个语义结构。在通过web服务实现自动化的同时,根据用户兴趣实现个性化和数据可视化。这样的普及也带来了功能性和自身可用性。使得在电子商务、电子政务、电子学习领域中web变得普遍。考虑到电子商务、电子政务中这样的应用是不难实现的,而应用在电子学习中将会使教育领域中的专家体会从未有的,不同于现实生活中的面对面的互动[2]。

在传统教育的情况下,教育者应当了解每个学生的情况,还应当努力提高学生的学习方法,就是让他或她更成功。在电子教学中如果要实现这一个性化的需要,应该有相应的一些技术让网络用户依据他们的兴趣来进行个性化的配置。智能web代理或电子学习服务可以用来构建教育领域的语义学习机制。

在提供个性化的电子学习中,已经提出了将内容组织成独立的单元,成为学习对象(LO),并可以动态地结合建立个性化的学习门户网站。学习对象被定义为在技术支持的学习期间中的任何实体、数字或非数字。学习对象元数据(Learning Object Metadata)是由IEEE组织定义并命名的,称为一种元数据实例,主要是针对于学习对象而言的,它描述了学习对象的相关特性。在IEEE学习技术标准中,学习对象元数据还包括教学属性,如:教学或交互方式、年级、掌握水平和先决条件。对于任何给定的学习对象都有可能有超过一组以上的学习对象元数据。国际上建立有IMS全球学习联盟,不断尝试改善IEEE LOM的早期版本,并支持早期的数据模型草案作为IMS学习资源元数据规范的一部分。在IMS LRM第三版中,IMS数据模型和IEEE XML作为基础结构,IMS LRM还提供了一个实现导向和一个 XSL(从 IMS LRM XML迁移到 IEEE LOW XML)。一些学者使用本体来描述LO内容模型的规范化,而另外一些学者使用XML来描述LO的内容模型。本体基于人工智能和语义web构建了互联网的架构,并通过资源描述框架(RDF)和XML(万维网w3c)进行定义。基本上,本体代表构成域的基础的概念间的关系。随着本体论的使用,结合信息检索技术和web代理,数据的语义结构可以通过数据挖掘技术的应用被建立,这个目标是通过web挖掘(WM),语义web(SW)和两者的混合实现语义的web挖掘(SWM)。在此基础上我们可以提供个性化内容和个性化服务。

虚拟教育环境是在试图建立一个替代传统的教育环境,虚拟教育环境伴随着互联网技术的发展而快速发展。在20世纪90年代,虚拟教育环境是在单向结构中形成,但是可以看到,仅仅过去10年,虚拟教育环境已提出双向互动和完全三维的学习环境,它被视为虚拟教育环境。并且试图建立由虚拟图书馆、虚拟测验、指导服务组成的新的虚拟教育环境。智能内容系统和教育管理系统替代传统教育类环境,同时可以看出,在所有这些元素中最缺乏的无疑是知识。随着互联网技术的发展,更多的在线沟通和教育环境开始被使用,特别是新技术带来的便利,和被视为互联网革命的web2.0工具的使用。虚拟学习系统和学习管理系统都是web2.0工具下的应用程序,通过使用可以提高更多用户的满意度,web3.0技术是未来的发展方向,将提出更加人性化和更加有意义的web体系结构,在提供人性化的同时,还将形成一个社交网络和在线通信区域组成的重要实践平台。语义web应用程序提供这个实践平台的前端,该平台可用于在线交流和教育,被命名为社会软件。

1 方法论

我们简要描述了web挖掘,语义web和语义web挖掘的概念。在1.1节中,描述了web挖掘。在1.2节中,解释了语义web和语义web挖掘。在1.3节中,对在电子学习系统中语义web挖掘之前的应用与他们的优点和缺点进行了解释。

1.1 web挖掘

web挖掘(WM)是应用数据挖掘技术在web日志,web内容和web结构中。因此,它是“识别有效的非平凡的过程,以前未知的、潜在有用的模式”。在给出的定义,WM有三种不同类型的分析规格:web使用挖掘(WVM)、web内容挖掘(WCM)和web结构挖掘(WSM)。VM电子学习的具体分析类型是WVM和WCM。

随着web挖掘的深入,从电子商务应用到电子学习应用的分析,web挖掘是“试图从在线网站的内容中”得到有用的知识,从互联网中提取用户感兴趣的、有用的模式,web挖掘的使用在两个不同的领域中,第一个是有关内容的挖掘,第二个是基于用户的交互分析。web内容挖掘是对web页面和后台交易数据库进行挖掘;而用户交互指定为信息和内容有关的行为和用户访问页面的行为描述,分析用户访问行为可以得到有关用户的一些有用信息。包括,用户选择的课程,分析课程的时间等等。在之后的研究中,提出了一个新的思路,关系到释放基于文本的web用户访问寄存器,其中应用程序开发和程序编译开发是基于java的SAS基础软件环境,得到的有意义和有趣的信息,这在很大程度上促进了web挖掘技术的应用,从基于文本的web用户访问到寄存器文件,这是复杂的、不规则的和毫无意义的。

web使用挖掘试图找出用户在使用网络时正在寻找什么,同时web使用挖掘也有助于为属于某一地区的一类特定人群找到感兴趣的模式。网站内容挖掘是一种在web内容上的文本挖掘应用。该方法可用于创建学习对象元数据(LO)构建的本体和语义结构。

1.2 语义web

语义web是W3C中作为数据的通用媒介,完成信息和知识交换的媒介。它是web2.0的产物(第二代web)使得网络本身能够去理解和满足用户请求和web代理或机器使用web的内容。可以使用搜索引擎帮助用户上网检索有用的知识过程,建立网页之间的链接。语义web是将更加微小的信息互连起来,让他们产生直接的联系,例如一条街道与一份地图等。在语义网中,用户能够将两个没有任何联系的东西连接在一起,例如企业的报表和日历。用户可以直接将企业的报表拖动到日历上,也可以将日历拖动到企业的报表上,这样就可以知道什么时候进行提交报表。因此,语义网呈现给用户的是一个所有数据可以无缝的连接。但是面临的挑战是要找到一种好的方法来表示所呈现的数据,这样就可以在连接到网络时,数据可以被识别并建立和其他数据之间的联系,进而形成链接。

语义web可以提供各种依赖于语义的自动化服务,例如企业和客户的交易服务、企业和企业的交易服务、客户和客户的交易服务、分类和搜索服务、数据库服务、目录服务、天气预报服务、航班查询服务等等。通过对内容进行语义标注与分析,可以克服关键字查询产生的歧义性,提高了查询的精确度。斯坦福大学的研究人员对语义WEB进行研究发现,查询语言DBQ是一个很有影响的系统,它是基于DAML的体系。另一个基于DAML的语义web检索,它是美国Marylang设计和研发的HOWLIR系统,它采用了daml-jessdb,它是一个基于DAML推理的一个推理引擎系统,其中,关于语义web的文本检索和知识管理也是目前计算机领域的一个研究热点。

1.3 语义web挖掘和电子学习

语义web是以本体的形式来描述知识的,这样可以将语义知识用于web挖掘中,以实现不同的目的。在web内容挖掘中,通常是采用本体知识来选择源数据,得到相关数据、预处理输入数据,最终得到有用的模式过程,但是常常得到大量的冗余数据。而语义web在进行挖掘数据时,因为数据本身已经有了明确的语义信息,因此在选择数据时,就可以采用这些已知的语义信息来选择相关数据,除去冗余数据。此外也可以采用语义知识对web挖掘中的源数据事先进行预处理,这样可以减少算法的时间复杂度,提高算法的执行效率。同时web挖掘可以理解为强调这个范围的研究领域之间可能的相互作用。web挖掘能够进行语义挖掘,进而读取语义知识。同时语义web挖掘很容易通过web日志描述。“语义web挖掘的目的是结合语义web和web挖掘两个领域。设想如下,我们观察到的趋势收敛于这两个领域,用于提高web挖掘的结果。通过在网络上的语义结构开发,并利用web挖掘技术可以用于挖掘语义web本身。

针对所给出的定义,为任何可用的课程使用web日志在任何课程管理系统或电子学习门户网站的语义信息调查都是有可能的。在学者Moodle案例研究中,给出了数据挖掘技术的应用案例研究。在这些研究中,对数据的检索和管理的可能采用的技术,教育家必须运行第三方应用程序手动检索信息,为教育工作者进行简要的说明。一个语义的实时系统,web服务和web代理被宣布是有用的。同时可信的数据是非常重要的,因为它可以使算法或挖掘技术错误或导致不当的结果。在这一点上,我们获取数据的来源是多方面的,可以来自于学生的回答或语义实时系统中的信息数据。我们认为这些数据是可靠的,同时我们也可以运行数据挖掘算法来避免冲突,过滤有用的知识,解答疑惑。

使用LOM和本体是用户进行数据挖掘的要求。本体是体现用户共同认可的知识,它是反映某类本体有关领域大家公认的概念,是针对的团体不是个体。本体的目标是提取有关领域的知识,提供对这个领域知识的公共理解,明确该领域内大家公认的词汇,并且从不同层面上给出这些词和词之间的相关关系的定义。本体可以包括一个领域的知识,也可以包括各种领域之间的知识,因此这种方式使得知识本身越来越重要,提升了其价值。在形成知识系统时,不同本体将会扮演不同角色,例如,领域本体是针对特定的应用领域。通用本体是描述客观世界的一般性知识,通常用于多个领域。用于型本体是针对特定领域知识建模的定义。表示本体通常不会限制到一个具体的领域,仅提供一种表示实体的方法,但是没有规定其必须表示什么。语义web中的本体是描绘语义文档的一种方式,使得这些文档的语义可以被web使用和智能代理使用,使用本体构造和定义聚集和标准化后的元数据时非常有用的,在某种意义上可以达到人们的概念层次之上。本体对于要查找或合并信息的应用是很关键的,虽然DTD和Schema对于两个实现约定的协议应用是足够的,但是它们缺乏语义,这样使得机器是很难利用新XML词汇来执行我们所需的任务。RDF和RDF Schema通过联系和标识符的语义来处理相关问题,RDF Schema是一种非常简单的本体语义。为了使得许多独自发展和管理模式间的交互操作,丰富的语义是很重要的。同时我们还描述了每种技术的实现方式,可以看出XML被广泛用于执行LO,LOM甚至本体。它提到使用RDF或XML本体设计,但在许多RDF的应用中,它是用XML语法写的。而说到本体,本体论的需求必须定义好。我们看到,通常使用领域本体和学生本体。通过移动设备学习也被包括在电子学习中,我们可以使用另一个本体,优先命名为装置本体。教学信息比另一个被称为教学本体的应用可能更重要。

2 结论

本文介绍了当前web挖掘技术和语义web应用,在电子学习中web挖掘已经成为教育的一个基本组成部分。我们相信,以学生为中心的教育,选择其他个性化取决于学生的学习方式,这是教育领域的关键。在这种情况下,远程学习或电子学习被应用,个性化学习作为一个新的手段出现,因为它通过分析学习者先前的学习使用模式来预测将来的学习使用模式。根据这些学生的特征,web挖掘可以动态的根据学习者的情况推荐教学资源,为学习者提供学习内容链接。同时语义程序也已经被用于最小化传统学习和电子学习中。Demeo等人宣布了在电子学习现象中的优点和缺点,指出个性化和灵活的学习程序,可以动态构造满足这些差距。

电子学习门户网站对学生是无风险的,可以尝试新事物,不披露自己犯的错误,电子学习门户网站为所有学生提供更好的个性化的学习机制,信息被分布在同一水平的质量,学生可以使用服务于他们自己的时间表和可用信息中获取知识,在任何他们想要的时间,对于任何主题也更容易更新内容。

在教育领域,教育结果可以通过数据挖掘技术和更现实的教育来模拟(是理想的、更接近于传统学习机制)和归纳和分析。例如,教育者跟踪学习者的心理状况,了解学习者的学习障碍在什么地方,这样有助于提高学习者的学习能力。也试图通过一个强大的对LOM的支持或对教学本体论的支持来解决问题,把当前系统用更好的教学方式来表示。制订和实施这些教学信息和本体是不容易的,但还必须考虑到要超过他们现有的内容。考虑到学习者可能有不同的学习风格和能力,显示和强迫学生从同一内容中获取有用的信息,主要是文本或图像,基于此类获取信息的方法将不会成为在所有电子学习中的一个好的解决方案。在此基础之上,也是构建语义结构的一种思路。

[1]俞勇.语义web技术基础[M].北京:清华大学出版社,2012.

[2]何丰.语义web服务组合若干关键技术研究[M].北京:科学出版社,2013.

猜你喜欢

本体数据挖掘语义
眼睛是“本体”
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
语言与语义
基于本体的机械产品工艺知识表示
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
专题
Care about the virtue moral education