语义网理论研究
2010-10-09朱成兵
朱成兵
(台州职业技术学院 机电工程学院,浙江 台州 318000)
语义网理论研究
朱成兵
(台州职业技术学院 机电工程学院,浙江 台州 318000)
语义网是对当前万维网的延伸和扩展.本文首先阐述了语义网的概念,然后对语义网的体系结构进行了分析.最后,指出了语义网在智能信息检索、企业间数据交换及知识管理、Web服务等领域的应用价值.
语义网;本体;Web服务
1 引言
万维网创始人Tim Berners-Lee将万维网的演化分为两个阶段[1],在第一个阶段,万维网应该是一个有利于人们进行信息交换和相互合作的强大工具.万维网在最初十年的发展里,基本上实现了这个目标:它以HTml页面的方式向人提供了大量可阅读的信息;在第二个阶段,这种合作应该延伸到机器.也就是说,连接到万维网上的机器也应该能够分析万维网上的所有数据——包括内容、链接以及人与机器之间的交互.如何实现万维网的第二阶段目标正是目前学术界研究的热点.实现这一目标的难点在于传统的H T ml语言本身的固有缺陷,这种标记语言的标签集只是对内容的显示格式做了标记,由于缺乏针对数据内容的标签,其数据的表现格式和数据内容糅合在一起.HTml语言的这种特点决定了万维网上的信息内容很难被机器所理解,从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开发.虽然近年来人们在自然语言处理(NLP)、机器学习等领域做出了大量的努力,提出了基于概率统计、向量空间等多种方法来增强机器对文本信息的理解能力,但其最终的处理效果还不够理想.从上述分析可知:由于当前广泛使用的H T ml存在诸多的弊端,因此为了充分发挥万维网海量数据存储的优势,就需要以一种机器可识别和理解的规范化格式交换web资源信息.
2 语义网的概念
万维网的创始人Tim Berners-Lee提出的有关下一代万维网的构想——语义网.语义网是一个梦想:期望Web上的数据通过另一种不同于现在的方式描述和链接,使这些数据不仅能以各种灵活的方式展现出来,也能被不同的应用程序所自动处理、综合、重用.在语义网中,网页中所蕴含的语义信息能使计算机完成大部分的自动化处理工作.
Tim Berners-Lee并没有给出语义网的严格数学定义,只是在和当代万维网的对比中,给出了如下的描述:语义网并不是一个从无到有、孤立发展的万维网,而是对当前万维网的延伸和扩展,语义网上的信息具有定义良好的含义,计算机能根据概念的定义声明和逻辑推理规则发现资源对象的含义,使得机—机之间以及人—机之间都能够更有效地合作处理;在语义网中定义和链接的数据能被各种不同的应用以更为有效的方式查询、重用和集成.总结起来,语义网具有以下几个显著特征:
(1)文档对象VS现实世界对象:语义网不仅是一个存储文档对象集合的网络,它更是一个描述现实世界对象资源关系的网络.
(2)人可读VS机器可读:和当代万维网相比较,语义网的另一个显著特征就是其包含了更多机器可阅读和理解的语义信息.
(3)HTml和语义网的关系:万维网作为世界上最大的信息储藏所,其中蕴含的信息量超过世界上任何一个图书馆,在这一点上,HTml功不可没,正是通过HTml中的超链接,才得以将世界上的各种信息资源链接在一起.但丰富多彩的现实世界中还存在着各种复杂的关联关系,这就要求语义网不仅要能反映资源之间的超链接关系,而且还应能描述资源对象之间的丰富而又复杂的关联关系,对这种复杂关联关系的描述正是语义网的优势所在.
根据上面的描述,人们给语义网下这样的定义:语义网就是机器可以理解数据含义的下一代万维网,其上的“语义”信息蕴含在各资源节点的逻辑联系中.
3 语义网的组成
3.1 语义网的体系结构
信息资源根据其所处层次的不同,可以被划分成不同的阶或者势,其中现实世界中未经加工处理的信息属于零阶,在整个信息层次结构中处于最底层;网页资源信息处在第一阶;在对HTml页面经过初次加工之后,所获取的网页标引或索引信息处在第二阶;有关信息资源对象的元数据或模式信息则是属于第三阶的信息;而逻辑推理、真值证明等信息理应拥有更高的阶值,在信息层次结构中,阶值越低的信息越具体详实,较适合于人为处理;阶值越高的信息其抽象程度越高,则更适合于机器的自动化处理.因此,语义网首要解决的问题就是建立起合理的信息层次结构,使其上面的信息是结构良好且有序的.Tim Berners-Lee在Xml 2000大会上描述了语义网的基本体系结构,如图1所示.
3.2 UNI和Unicode(编码层)
WEB环境下的各应用之间不可避免地需要相互通信,直接或间接地以机器可读的格式传递信息.这些信息中很大一部分是对Web上资源的描述,因此,首先应该以明确的方式来标识这些资源对象.语义网采用统一资源标识符,URI (Uniform ResourceI dentifier)来标识资源及其属性,URI是一个Internet标准,记载于RFC 2396中.它和万维网常用的统一资源定位符URL以及统一资源名称URN的区别在于URI能表示所有可以字符串作为标识符的资源信息,它既能表示网络可达的资源,又能描述网络不可达的资源,URL和URN都是URI的子集.另外,由于语义网的最终目的是要构建一个全球信息的网络,在这个网络上应能涵盖各种语言和文字的信息资源,所以它采用编码层作为字符的编码解决方案.这一层位于语义网中的最底层,是整个语义网的基石,它成功地解决了万维网上资源的定位和跨地区字符编码格式的问题.
3.3 Xml、Name Space和Xml Schema(语法层)
说起当代互联网的蓬勃发展,HTml的确立下了赫赫战功.可是,HTml在制定之初就蕴藏了许多危机,随着万维网的不断发展,这些危机不但没有减弱,反而越来越突出,甚至已然成为制约H T ml继续发展的障碍.归纳起来,H T ml语言主要存在以下几个方面的问题:
(1)数据内容和数据表示不分,这是HTml最大的问题所在.
(2)HTml内部的结构性和条理性较差.
(3)HTml的标签固定僵化,用户不能自行扩展,导致很多的特殊信息无法表示,这就使得HTml很难满足信息共享最大化的要求.
源于对HTml语言现存问题的分析,人们在语义网发展之初,就决定将Xml作为其语法层.和HTml一样,Xml也是一种置标语言,都属于SGml的子语言集.但Xml最大的特点在于它是一种可扩展的置标语言,提供了一个标准,根据这个标准,用户可以根据实际需要定义自己的置标语言,并为你的这个置标语言规定它特有的一套标签.准确的说,Xml 是一种源置标语言,它允许你根据它所提供的规则,制定各种各样的置标语言,并可以通过文档类型定义或Xml Schema来约束这些标签的内部组织结构.但另一方面,由于X ml标签可以由用户自行定制,这样就可能会造成标签命名冲突的情况,为了解决这个问题,W3C的X ml小组制定了有关命名空间(Name Space)的标准[2].例如:用户可以声明如下
它表明author这个标签是在K所代表的Name Space:http://foo.bar.com/x ml/customer.dtd中详细声明的.这样即使其他人也自定义了author标签,只要它们的Name Space不同,也不会造成命名冲突.因此,这一层通过Xml的特性,实现了文档对自身结构的描述,实现了跨应用的语法互操作层,这是传统的H T ml语言所无法完成的.
3.4 RDF和RDF Schema(元数据层)
Xml提供了Web数据编码的语法依据,而RDF则规定了相关资源的语义描述框架.正如其名,RDF并不是一种新的语言,而是一个开放的元数据描述框架,它属于语义网络中的元数据层.在RDF资源描述框架中主要涉及到以下三个概念[3]:
资源:资源泛指可通过URI标识的任何事物.
特性:特性是描述某个资源的性质、特征、属性或关系.
陈述:陈述是有关具体资源对象特性的具体描述.
任何复杂的系统都可以通过合理的分解操作,简化成一组三元组(或陈述)集合.RDF是基于这一思想的:被描述的事物,具有一些属性,而这些属性各有其值,资源可以通过枚举该资源的相关属性及属性取值来描述.R D F通过特定的术语来区分陈述中的各个组成部分,基于RDF的资源描述是由若干条资源陈述组成,并把这些陈述用特定的语法(如Xml,N3等)表示出来.
和Xml类似,RDF描述模型只是提供了一种与领域无关的通用数据描述方式,有关特定域元数据的定义和它们的语义信息描述还需要制定额外的标准或规范.
这个额外的措施就是RDFSchema,实际上在RDF中只定义了少量常用的建模原语,如RDF:Resource、RDF: Property、RDF:Statement、RDF:Subject等,其并没有给出与具体应用领域相关的建模原语,而RDFSchema规范则进一步定义了与具体应用领域相关的建模原语,能为特定目标的应用提供一个共同的基础.在RDFSchema中,最基本的建模原语包括:Class,Subclass-of和Property等.有了这些原语之后,你就可以构建与具体领域相关的RDF数据描述模型了.此外,RDFSchema还可以对RDF数据给出一定程度的解释和合理性验证.
3.5 Ontology Vocabulary(词汇层)
RDFSchema可以定义类、子类、超类,并且可以定义特性和子特性,以及它们的约束,包括特性所适用的领域和特性的取值范围等,因此,在某种意义上说,RDFSchema本身就是一种简单的本体语言.但是RDFSchema对特定应用领域的概念关系的描述能力还比较弱,有必要进一步的扩展.因此,在语义网络体系结构中的第三层就是对RDF Schema层的扩展——本体层.
本体这一概念最初起源于哲学领域,古希腊哲学家亚里士多德从哲学的角度对本体做了如下的定义:“本体是对世界上客观存在物的系统地描述,即存在论,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质”.在近一、二十年来,本体论已逐渐被引用于知识表示、共享和重用以及其它相关领域.在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延和规则的定义”.Neches认为:“本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则.”后来在信息系统、知识系统等领域,越来越多的人在研究本体时,给出了许多不同的定义.其中最著名并引用最广的定义是由Gruber提出的:“本体是概念模型的明确的规范化说明”[4],这个定义主要包含以下四层含义:
(1)概念化:客观世界中现象的抽象模型;
(2)明确:概念及它们之间联系都被精确定义;
(3)形式化:精确的数学描述,便于计算机的自动处理;
(4)共享:本体中所反映的知识是大部分使用者所共同认可的.
虽然不同研究者对本体有不同的描述,但是从内涵上看,他们对本体的认识是一致的,都是把本体当作某个领域内(可以是特定领域的,也可以是更广的范围)不同主体(人、代理、机器等)之间进行交流(对话、互操作、共享等)的一种基础设施,即通过本体所提供定义良好的领域概念结构,来描述概念以及领域中的各种关系,以便在不同应用之间达成资源共享.
Ontology提供了语义交换的桥梁,能够在不同的智能体之间达成有关术语概念的共识,而对概念共享和理解恰恰是构建语义网的关键,因此,本体层在语义网体系结构中,处于核心支配地位,为其它各层提供基础服务.
3.6 Logic、Proof&Trust(逻辑层)
在语义网络体系结构中,逻辑层的目标就是提供一种规则描述方法,逻辑主要通过能由计算机自动推理的规则集来反映,这些规则集则通过各种机器可所识别的逻辑描述语言表示出来.描述逻辑标记语言(Description LogicmarkupLanguage,DLml)就是这样的一种方法,它通过DTD封装了描述逻辑中的逻辑连接词,可将基于描述逻辑的形式化知识嵌入到被描述的文档中.针对语义网上的各种不同类型的应用,逻辑层可能会采用多种逻辑语言的实现形式,这一点就和互联网中的TCP/IP协议的模型中的每一层都会针对不同的硬件和软件系统采用不同的实现类似.
目前有关语义网的研究主要集中于前三层的研究,对Proof和Trust这两部分内容在概念上目前还没有一个成熟的说法.但是语义网的研究者普遍认为Proof和Trust将是下一代万维网的重要概念,Proof层主要是计算机对其经过推理所得的结论,自动的给出一个合理的解释.由于Web所特有的开放性,使得任何人都能很方便的发布信息,因此,在语义网络中,还需要构建一个Trust层,用以对源信息以及推理的可信度提供有效的衡量和评价.
4 语义网的应用
目前,语义网技术正逐渐引起越来越多人们的关注,基于语义网技术的应用研究也越来越多,如智能信息检索、企业间数据交换及知识管理、Web服务等[5].
4.1 智能信息检索
海量信息检索一直是信息学领域的重要研究课题.但是,万维网上松散杂乱的信息描述方法使得信息检索面临了种种窘境.因此要改进信息检索效果,就必须对万维网上的信息进行整理和重新规范.当代万维网上保留有高速发展期间产生的大量普通HTml页面,整理这些信息的实质性问题就是如何从HTml页面中提取出语义信息,构建出页面内容的本体结构,并通过资源描述框架模型来建立页面的索引信息,前人对传统万维网信息内容模型、信息检索和信息提取、计算语言学、机器学习等方面展开了大量的研究,并取得了很多成果,为网络信息的整理奠定了很好的基础[6].一种可行的方法就是采用本体自学习系统,实现本体的自动或半自动提取,尽可能减少人的参与程度.
4.2 企业间数据交换及知识管理
企业间的数据交换和企业内的知识管理一直是基于万维网的电子商务和ERP系统所着重解决的问题,现有很多项目[7]都围绕着企业万维网知识管理而展开,这些项目潜在的假设就是:企业提供的万维网信息结构可以转化成为一个巨大的知识库,这种转化的重要基础就是利用基于本体的元数据结构来对企业发布的信息或企业的内部文档进行标注.围绕这一假设,需要开发一系列的相关技术和工具:如企业知识的建模、标注工具、本体的构建工具、本体的推理工具等.Ontoweb就是这样的一个项目,它的目标在于激励和支持语义网技术从学术界向工业界的转化,同时也向工业界证实本体在知识管理、电子商务以及企业信息集成方面所具有的潜在价值.
4.3 Web服务
当代万维网正在从一个文本、图片、音频、视频的静态信息提供者向服务的提供者转变,这种转变体现了“网络就是计算机,软件就是服务”的思想.产业界目前推行的WebServices技术,就是通过万维网向消费者提供了网络服务功能.由于在Web环境下的分布式计算涉及到平台的异构性,因此它的核心技术包括Xml作为数据传输和交换的标准格式,以SOAP作为发送和接收Xml数据的基本消息协议,底层的传输则采用HTTP、FTP、SMT P等Internet协议,服务的描述、查找和发布则采用了WSDL、DISCO、UDDI等协议.当前,WebService并没有以语义网络为基础,基本上还是采用固定的标准化分类方式来描述服务的功能、提供者以及获取服务的方式,由于WebServices技术只在语法层面上限定了服务描述所采用的协议,因此它们对服务的语义描述能力非常有限,而且缺少必要的灵活性.学术界在语义网研究中提出了一些基于本体的服务描述语言如O WL等[8],这些语言为Semantic Web和WebServices的结合提供了一个良好的契机.通过创建基于本体的服务描述,使得WebService能够透明的被计算机所理解,同时这种描述能够被A-gent程序自动发现和处理,增强了消费者和WebServices之间的可交互性.
5 结论
语义网的研究是人类探索如何有效利用知识信息的一次变革,它作为一种智能网络技术最终能理解人类语言,它的实现必将促进人类对知识的高效利用.
〔1〕Berners-Lee T ,Fischetti M.Weaving the web:The original design and ultimate destiny of the World Wide Web by its inventor.Harper,San Francisco,1998.
〔2〕T Bray,J Paoli,C Sperberg -McQueen.Extensible markup language(xml).W3C,1998.
〔3〕Frank Manola,Ericmiller.RDFprimer.W3C Working Draft[S].田春虎.国内语义Web研究综述.情报学报,2005,24(2):243-249.
〔4〕王竹晓,殷兆麟,张凝,渠本哲,邢宝燕.基于结构相似性的语义网信息检索.计算机工程与设计,2006,27(13):2438-2440.
〔5〕董慧,赵霞.基于语义网的本体转换模型研究.情报科学.2006,25(1):36-42.
〔6〕刘琴.语义Web上的Onto1ogy表示语言研究.计算机工程与设计.2006,27(12):2166-2168.
TP391
A
1673-260X(2010)04-0018-03