语义万维网的概念、方法及应用

2009-09-05蒋丹张彬

中小企业管理与科技·下旬刊 2009年2期

关键词：本体

蒋　丹　张　彬

摘要：近两年来，语义万维网(semantic web)的研究逐渐引起了知识表示、逻辑编程、信息系统集成、web开发等各个领域的广泛关注。语义万维网的研究将对传统web上信息的发布、存储和处理方式产生一场变革，但是语义万维网的概念、思想、和方法还处于形成阶段。本文分析了语义万维网的起源、概念、技术框架、总结了语义万维网及相关工具的现状，并讨论了语义万维网技术在智能信息检索、企业间数据交换、知识管理以及万维网服务中的应用。

关键词：语义万维网资源描述框架知识表示本体

0 引言

万维网创始人Tim Berners-Lee将万维网的演化分为两个阶段，在第一个阶段，万维网应该是一个有利于人们相互合作的强大工具。万维网最初十年的发展基本上实现了这个目标：它以HTML页面的方式向人提供了大量的信息。在第二个阶段，这种合作应该延伸到机器。也就是说，连接到万维网上的机器也应该能够分析万维网上的所有数据——包括内容、链接以及人与机器之间的交互。如何实现万维网的第二阶段目标正是目前学术界研究的热点。实现这一目标的难点在于传统的HTML语言本身的固有缺陷，这种标记语言的标签集只是对内容的显示格式做了标记，数据的表现格式和数据糅合在一起，缺乏针对数据内容的标签。HTML语言的这种特点决定了万维网上的信息内容很难被机器所理解，从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开发。Web上海量的数据要求以一种能够理解数据语义的方式进行交换和管理，当前基于HTML的web技术却很难满足要求。

1 语义万维网的概念

什么是语义万维网并没有一个严格的定义，Tim.Berners-Lee对语义万维网做了如下的描述:语义万维网并不是一个孤立的万维网，而是对当前万维网的扩展，语义万维网上的信息具有定义良好的含义，使得计算机之间以及人类能够更好的彼此合作。

2 语义万维网的组成

2.1 URIs和Unicode Web环境下的应用之间不可避免地需要相互通信，直接或间接地以机器可读的格式传递发布信息。这些信息中很大一部分是对Web上资源的描述，因此，首先应该以明确的方式来标识这些资源(对象)。语义万维网采用统一资源标识符(Uniform Resource Identifiers，URI)来标识资源及其属性，URI是一个Internet标准，记载于RFC2396。这一层是整个语义万维网的基石，它成功地解决了万维网上资源的定位和跨地区字符编码的标准格式的问题。

2.2 XML、NameSpace、XML Schema 在URI和Unicode之上，是XML及相关技术层。XML允许用户根据需要自定义一些“有意义的”标签对发布的内容进行标记，并使用文档类型定义(Document Type Definition，DTD)或XMLSchema来约束这些标签的结构。

2.3 RDF、RDF Schema XML层的上一层是数据互操作层——资源描述框架(Resource Description Framework，RDF)和RDF schemas。RDF本身并没有规定语义，但是它为每一个资源描述体系提供一个能够描述其特定需求的语义结构的能力。RDF Schema机制提供了RDF模型中使用的一个基本类型系统。

2.4 Ontology 在某种意义上说，RDF Schema本身就是一种简单的本体(ontology)语言。但是RDF/RDFS对特定应用领域的词汇的描述能力比较弱，需要进行扩展，我们把这个RDF/RDFS之上的扩展层称为ontology层。T.R.Gruber等人对ontology给出的定义比较适用于语义万维网的研究：ontology是一种明确的共享概念化的形式说明。概念化是指对现实世界中的一些事物进行抽象建模，所建立的模型确定了该事物的一些相关的概念。明确意味着所使用概念的类型以及它们使用上的约束都有显式的定义。形式说明则是指ontology应该是机器可以理解的。共享反映了这样的一种理念：ontology表达双方都认可的知识，也就是说，ontology并不会仅仅局限于某些个体，而应该被一个群体所接受。

2.5 Logic、Proof&Trust 到目前为止，利用RDF/RDFS以及对RDFS进行扩展的一些ontology语言可以对Web上的资源内容做出描述。仅有这些描述还远远不够，基于语义的web应用还需要根据特定的规则从这些描述性的知识中进行推理。逻辑层的目标就是提供一种方法来描述规则。描述逻辑标记语言(Description Logic Markup Language，DLML)就是这样的一种方法，它用DTD封装了描述逻辑中的逻辑连接词，可将基于描述逻辑的形式化知识嵌入到被描述的文档之中。Proof和Trust这部分内容在概念上目前还没有一个成熟的说法。但是语义万维网的研究者普遍认为Proof和Trust将是下一代Web的重要概念。在XML、RDFRDFS、Ontology以及Logic层和Proof层之上，我们就可以建立一些可以信任的应用了。

3 语义万维网开发的工具

语义万维网能否取得成功的关键因素在于是否有充足的工具来帮助开发人员建立体现其价值的应用。下面仅介绍一些RDF API的讨论和开发状况，目前实现的RDF API主要有GINF、Redland、Jena、Mozila等。通用互操作框架，GINF，使用RDF作为协议、语言、数据和接口的通用表示。它使用的RDF接口不仅可以创建和操作RDF模型，而且还可以通过一个类似SQL的查询界面来访问这些模型。Redland是支持高层面向对象的RDF接口库。Redland用它自己的类实现了每一个RDF概念。Redland的模块化，面向对象的本质使得终端的用户能够插入各种不同的解析器和合适的存储机制。Redland提供了C语言的接口。Jena，是由惠普公司开发的Java RDF API。它同时支持以声明和资源为中心的RDF模型的操作。并且在Jena所提供的工具箱中还提供了对DAML ontology的支持，但是目前只能对ontology进行一些简单的推理。Mozilla作为开放源代码Web浏览器的一部分而开发的Mozilla API，提供了用SWI-Prolog实现的RDF解析器。

4 语义万维网的应用

随着语义万维网概念的提出和相关研究的进展，将出现许多基于语义万维网技术的应用，面对海量信息，智能信息检索的重要方法之一就是整理和重新规范万维网上信息。如今万维网上保留有高速发展期间产生的大量普通HTML页面，整理这些信息的实质性问题就是如何从HTML页面中提取出语义信息，构建出能够描述这些页面的Ontology。可行的办法是采用ontology学习系统，实现ontology的自动或半自动提取。

5 结语

目前美国DAML（Tim.Berners-Lee领导）IEEE Standard Upper Ontology Study Group和欧洲的OntoWeb(Dieter Fensel领导)在语义万维网研究领域处于领先地位并推出了一系列的语言、方法和工具。国内在这方面的研究有成果的还未见报道，很多计算机工作者对语义万维网的概念比较陌生，积极开展这方面的研究，提高万维网数据的管理和智能化处理水平已经是迫在眉睫的任务。面临这些挑战，需要协同知识表示、逻辑推理以及万维网标准化团体、领域专家共同努力，共同创建万维网的美好未来。

参考文献：

[1](英)Tim Berners-Lee，Mark Fischetti，张宇宏，萧风译.编织万维网——万维网之父谈万维网的原初设计与最终命运.上海：上海译文出版社.1999.154~171.IEEE Intelligent Systems，2001.16(2):46~54.

[2]王继成，萧嵘.web信息检索研究进展.计算机研究与发展.2001.38(2):187~193.

[3]Tim Berners-Lee.The semantic toolbox:building semantics on top of XML-RDF.org/DesignIssues/Toolbox.html.

[4](美)Andrews S Tanenbaum.熊桂喜，王小虎译.计算机网络.北京：清华大学出版社.1999.474~480.

[5]陈禹六.IDEF建模分析和设计方法.北京：清华大学出版社.1999:249~254.