APP下载

基于本体的数字图书馆语义互操作模型

2009-10-13刘成山赵捧未刘怀亮

现代情报 2009年8期
关键词:本体语义定义

刘成山 赵捧未 刘怀亮

〔摘 要〕本文给出 了基于本体的数字图书馆5S模型并用5SL进行了描述,同时提出了一种基于本体的数字图书馆的层次模型:资源层、元数据层、本体层和互操作层,详述了各层的作用,并用OWL的抽 象语法描述了各层的概念与关系。最后探讨了利用语义Web Services实现数字图书馆的语义 互操作。

〔关键词〕数字图书馆;本体;5S ;OAIS;OWL

〔中图分类号〕C931.6 〔文献标识码〕A 〔文章编号 〕1008-0821(2009)08-0066-04

Semantic Interoperability Models

of Digital Library Based on OntologyLiu Chengshan Zhao Pengwei Liu Huailiang

(School of Economics & Management,Xidian University,Xi餫n 710071,China)

〔Abstract〕In this paper,a 5S model of digital libraries described by 5SL

based on ontology was given.A hierarchical model of digital libraries based on

ontology with four layers,i.e.,resource layer,metadata layer,ontology layer an d interoperation layer was proposed and the function of each layer was elaborate d.Then classes and their relationships in each layer were described by abstract

syntax of OWL.Finally,semantic interoperation of digital libraries achieved by S emantic Web Services was also discussed.

〔Key words〕digital librarie s;ontologies;5S;OAIS;OWL

数字图书馆的互操作是解决一个数字图书馆系统能够理解另一个数字图书馆的资源的问 题。而语义互操作是数字图书馆系统通过本体映射等方法,理解多个领域的语义表达,使资 源的语义外显化,从而能够使系统具有语义交互的能力。也就是说,数字图书馆需要在承认 环境无序的前提下寻求一种跨语义的解决方案。显然,解决语义互操作的核心在于建立一个 统一、公认的概念模型。本文分别在数字图书馆的5S模型和开放存档信息系统(OAIS)模型 的基础上,提出基于本体的语义互操作的模型。

1 基于本体的5S模型

5S模型定义了数字图书馆是具有5个模块的复杂系统:社会性模块(Societies,各个角色和 职能);情境性模块(Scenarios,提供相应的服务行为细节);结构性模块(Structures ,以有用的方式组织内容);空间性模块(Spaces,描述内容的内在属性和关系);流体性 模块(Streams,展示内容的外在表示)。5SL是一种基于XML的对数字图书馆5S模型进行建 模的语言,用于表达某领域各类实体及其相互关系,以及对问题进行抽象表述[1] 。

本体(Ontology)通过对术语的严格概念定义和术语间的关系来确定术语的精确含义,用于 表示共同认可的、可共享的知识,从而产生计算机可理解的语义,因此本体是解决语义层次上的信息交换和共享的基础,图1是利用5SL建立的基于本体的数字图书馆语义模型。

流体性模块包含了数字图书馆内容(Collection)的多媒体表现格式:文本、图像、音频和 视频等;空间性模块用于对数字图书馆内容属性和关系的描述;结构性模块主要由数字对象 (流体性模块所表现的内容)和元数据组成;情景性模块描述查询、浏览、推送等服务行为 的细节;社会性模块包含用户所需要的服务,通过管理员或代理实现。

在该模型中,将本体引入结构性模块中,利用5SL编码如下:

resource=″http:∥sigmakee.cvs.sourceforge.net/*checkout*/sigmakee /KBs/Merge.kif″/>

ture

schema=″http:∥purl.org/dc/elements/1.1″/>

……

本体的作用在于共享和重用语义,不同领域、不同应用系统之间通过本体映射进行交流、协 定并可以共享理解。以下是引入本体后,以情景性模块中的Search服务为例的5SL编码:

……

Search Agent

Semantic MatchMaker

query

Search Agent

Interface Manager

……

2 基于本体的层次模型

数字图书馆从海量的、分布式的资源中采集到有价值的信息,有效地提供给用户使用,它需 要提供一个规范信息描述和信息解释的系统环境作为一个统一框架,以适当的方法管理和使 用不同元数据和本体建立的语义系统,需要建立或对已有系统抽象出一个统一的能够进行互 操作的语义层次。本文借鉴OAIS模型[2],提出基于本体的数字图书馆语义互操作 的层次模型,分为4层:资源层(SIP)、元数据层(AIP)、本体层(AIP)和互操作层(DI P),如图2。上层通过接口访问下层,下层为上层提供服务。

2.1 资源层(Resource Layer)

资源层包括基本的对象数据,为系统提供海量的数据资源,建立动态的、跨平台的、虚拟的信息环境组成领域数据库或知识库。Unicode用于资源的编码,统一标识URI(Uniform Reso urce Identifier)负责标识资源。数字图书馆中的每个资源至少用一种元数据方案的一种 元素进行描述,元数据应用纲要(AP)通过URI标识在网上声明。AP要求元数据元素都取自U RI的命名域,不再定义新的元素,但可以定义相关的编码体系和规则,融合和复用来自于不 同元数据标准的术语,在一个共同的抽象模型中达到语义互操作的目的[3]。

2.2 元数据层(Metadata Layer)

如何将资源层的多种资源映射成数据库的数据实体是语义互操作要解决的首要问题,元数据 描述是将数字图书馆中的信息资源语义化的基本方式,它是数字图书馆的语义基础,可以对 资源进行语义描述,提供资源的微观结构。

该层主要包括XML/XML Schema、RDF/RDF Schema、AP以及元数据注册系 统(MDRS)等。XML/XML Schema表示数据的内容和语法结构[4];RDF/RDF Schema描述资源及其类型[5]。 XML可以由用户灵活定义在不同的应用中所使用的标记组合,是计算机之间共享数据的一种 有效方式,但它不具备语义描述能力。RDF提供了一个通用模型用于对任意类型资源的描述 ,它以一种标准化、互操作的方式来规范XML的语义,在XML中引用RDF可以将XML的解析过程 与解释过程相结合,即RDF可以帮助解析器在阅读XML时,获得XML所要表达的主题和对象, 并可以根据它们的关系进行推理,从而做出基于语义的判断。因而可以把XML看作为一种标 准化的元数据语法规范,而RDF是一种标准化的元数据语义描述规范。

该层用到的元数据收割模型(比如OAI-PMH)[6]能够从每个数字图书馆系统中采 集并提取元数据,经过处理、合并后集中保存在一个元数据库中,方便用户对元数据进行查 询。该方法有效地解决了各资源库在元数据格式上可能存在的异构性问题,实现跨库互操作 。元数据注册系统MDRS能够提供元数据术语的定义、属性和关系,用于进行查询、映射和转 换服务。

2.3 本体层(Ontology Layer)

本体是“元”元数据,可以从宏观层面上描述数字图书馆的语义模型[7]。模型中 的本体层用于描述数据的语义内容,封装数据的异构性,向上层提供语义服务, 同时提供逻辑推理的规则。包括对传输对象进行描述的语义本体、对服务过程和行为描述的 服务本体以及发布和共享相同或相似服务的机制(即注册体系和本体的建立/映射/融合机 制)。

该层是整个模型的核心,由本体代理、本体查询模块、本体库和包装器等部分组成。本体代 理用于提取该领域的本体,生成本体库。上层的查询送到该层,由本体查询模块分解成子查 询,与本体库进行语义匹配,通过包装器传递给下层。包装器的功能是与响应的信息源进行 交互,将代理所使用的查询语言翻译给相关信息源,并将查询结果送回上层。

不同的领域有不同的本体,即使是相同的领域也可能存在不同的本体,需要用本体映射的方 法解决本体的互操作问题,通常可采用直接翻译或者共享本体的方法。

2.4 互操作层(Interoperation Layer)

该层是整个数字图书馆面向用户的统一服务平台,由客户代理向本体层提出服务请求(本层 也可直接访问资源层的局部对象数据和元数据层的元数据),在本体层构造的逻辑集成信息 服务机制上提供数字图书馆各类分布式、异构资源的透明访问,为用户提供个性化的信息内 容和业务服务。用户可以通过单一的语义入口获取个性化服务,在单一的语义空间里获取共 享知识。该层还对下层送回的结果进行抽取、推理,然后更新知识库。

3 层次模型的本体描述

如上所述,XML/XML Schema提供了语法,但没有语义约束;RDF/RDF Schema是描述资源的类 和属性的词汇表,提供了这些类和属性的层次结构的语义。而本体描述语言OWL(Web Ontol ogy Language)[8]添加了更多的用于描述类和属性的词汇,可用来明确表示词汇 表中术语的概念以及术语间的关系。在表达概念和语义方面,OWL比XML(S)/RDF(S) 有更多的表达手段,因此在Web上表达计算机可理解的语义的能力也更强。

OWL的抽象语法[9]可读性强,易于修改,本文使用OWL的抽象语法来描述各层中主 要的术语的概念和关系[10]。

Ontology(Annotation(owl:imports http:∥sigmakee.cvs.sourceforg e.net/*checkout*/sigmakee/KBs/Merge.kif)∥仅为举例

Annotation(rdfs:label″SUMOnto″)∥IEEE的“建议上层共用本体”

……)

3.1 资源层的主要概念和关系定义

Class(Concept owl:Thing)∥Concept是根类

Class(Collection Concept)∥Collection分为3个不相关的子类:

Class(PersistentCollection Collection)∥静态收藏,也即数字图书馆的存储资源

Class(DynamicCollection Collection)∥用户服务时使用的动态数据

Class(TemporaryCollection Collection)∥临时数据,比如检索结果等

Class(DataCollection PersistentCollection)

DisjointClasses(PersistentCollection DynamicCollection TemporaryCollection)

ObjectProperty(derivedzfrom range(Collection)domain(Collection))∥内容派生

ObjectProperty(referzto range(Collection)domain(Collection))

3.2 元数据层的主要概念和关系定义

Class(Metadata Concept)

Class(Profile Concept)

Class(MetadataCollection PersistentCollection)

Class(MetadataProfile Profile)∥元数据应用纲要

Class(Actor Concept)

Class(Agent Actor)

Class(SearchAgent Agent)

ObjectProperty(haszmetadata domain(DataColletion)range(MetadataCollection))

ObjectProperty(haszrule domain(MetadataProfile)range(MetadataCollection))

ObjectProperty(uses domain(SearchAgent)range(MetadataCollection))

3.3 本体层的主要概念和关系定义

Class(Relationship owl:Thing)∥Relationship是抽象类,分为3个子类:

Class(Belongzto Relationship)∥隶属

Class(Relatezto Relationship)∥相关

Class(Create Relationship)∥产生

Class(OntologyAgent Agent)

Class(Synonym Concept)

ObjectProperty(uses domain(OntologyAgent)rang(Synonym))

3.4 互操作层的主要概念和关系定义

Class(Service Concept)

Class(Interface Concept)

Class(User Actor)

Class(ClientAgent Agent)

ObjectProperty(haszaccess domain(User)range(Interface))

ObjectProperty(haszservice domain(ClientAgent)range(Service))

ObjectProperty(uses domain(Service)range(Collection))

ObjectProperty(updates uses domain(Agent)range(Collection))

OWL通过把抽象语法转化为RDF图来定义RDF/XML语法。OWL所描述的术语之间的关系存在于层 中,也存在于层间,这些术语的概念和关系产生了本体。

4 数字图书馆语义互操作的实现

数字图书馆系统语义互操作的最终目标是使计算机能够自动处理语义,这需要在建立大量的 标准规范的基础上,还要一定的系统架构来保障语义功能的实现。面向服务架构(SOA)从 本质上说是一种理念,它是一种软件架构,由一组独立的、自我描述的服务组成,并能够通 过标准的方式进行访问。SOA非常适合解决分布式环境下的不同应用之间的集成问题,而数 字图书馆的异构信息系统都是具有独立功能的实体,相互之间只具有松散联系。SOA强调架 构中提供服务的功能实体的完全独立的自我管理和恢复能力,非常适合于实现数字图书馆的 语义互操作。目前SOA最普遍的应用是Web Services。

Web Services是一种动态的互操作方案,通过UDDI(统一描述、发现和集成)动态地发现、 绑定和使用服务[11]。在基于本体的互操作模型中,本体的引入使得软件代理可 以对Web Services的服务过程和行为进行语义描述,从而实现语义互操作。服务本体可分为 3个子本体[12]:ServiceProfile提供了服务的功能与接口,以便于服务代理能 够搜索与匹配该服务;ServiceModel详细说明了服务如何工作,进行语义匹配,同时协调不 同的源,实现互操作;ServiceGrounding指定调用服务的具体细节,解决代理通过什么样的 手段去访问服务的问题,比如RPC、CORBA IDL、SOAP、Java remote calls、OAA、Jini等。 以下是基于本体的语义Web Services的实现。

首先是服务提供者注册。各个资源和服务在现有基础之上增加一个Web Services的接口封装 ,转换成为Web服务。采用Web Services描述语言WSDL的元素来描述文档,常用的元素有:< portType>定义一种服务访问入口的类型;定义在通信中使用消息的数据结构;定义数据类型;定义访问入口与某一种具体的网络传输或消息传输协议相绑 定。然后把ServiceProfile发送到服务注册中心,等待调用请求。

然后服务请求者通过UDDI注册机制查找需要的服务(由ServiceModel描述)。软件代理提供 服务参数后,请求被送到语义匹配器(Semantic MatchMaker),在此被转换为ServiceProf ile文档,并利用ServiceProfile本体库中所描述的有效服务进行语义匹配,找到服务提供 者。

最后返回结果、绑定。组件根据返回的WSDL,生成SOAP消息,Web服务器得到SOAP应答后,把查询结果整理、合并,送回到客户代理。这样就可以远程调用该服务了。

5 结 论

要有效地利用数字图书馆各类信息资源和服务,需要在分布式环境下寻找一种跨语义的互操 作解决方案。建立领域本体是语义互操作不可缺少的工具,本文提出了基于本体的数字图书 馆语义互操作模型:5S模型和层次模型,分别用5SL和OWL进行了语义描述,并分析了利用语 义Web Services实现数字图书馆的语义互操作。

语义网格是在Web环境中再构建一个中间的环境,能够提供更高的语义和更强的计算能力[13],使得符合这个环境的信息体都具有语义互操作功能。其分布式环境与数字图 书馆的信息环境是完全一致,因此可以认为语义网格也将为数字图书馆提供语义互操作方案 。

参考文献

[1]M.Goncalves,E.Fox,L.Watson and N.Kipp:Streams,Structures,S paces,Scenarios,Societies(5S):A Formal Model for Digital Libraries[J].ACM Tra nsactions on Information Systems,2004,22(2):270-312.

[2]A Reference Model for an Open Archival Information System,Document Number: ISO14721:2003.

[3]Liu Wei.The Semantic Architecture for Chinese Cultural Celebrities Manus cript Library[C].ICADL 2004,LNCS 3334:245-254.

[4]XML/XML Schema[EB/OL].http:∥www.w3.org/XML,200 6-09-20.

[5]RDF[EB/OL].http:∥www.w3.org/TR/2002/WD-rdf-concepts-20021 108,2006-09-20.

[6]The Open Archives Initiative Protocol for Metadata Harvesting[J/OL] .http:∥www.openarchives.org/OAI/openarchivesprotocol.html,2 008-07-13.

[7]Keven餾 blog[EB/OL].http:∥www.kevenlw.name,20 06-09-20.

[8]J.Heflin,R.Volz and J.Dale:Requirements for a Web Ontology Language[R ].W3C Working Draft,July 8,2002.

[9]OWL semantics and abstract syntax[EB/OL].http:∥www.w3.org /TR/owl-semantics,2006-05-10.

[10]László Kovács and András Micsik.An Ontology-Based Model of Digital L ibraries[C].ICADL 2005,LNCS 3815:38-43.

[11]Habegger B,Quafafou M.Web services for information extraction from the W eb[J].Web Services,2004 Proceedings,IEEE International Conference on 6-9 July

2004:279-286.

[12]Service Ontology[EB/OL].http:∥www.daml.org/services/owl -s/1.2/Service.owl,2008-07-13.

[13]Zhuge H.Semantic grid:scientific issues,infrastructure,and methodology[ J].Communications of the ACM,2005,48(4):117-119.

猜你喜欢

本体语义定义
Abstracts and Key Words
对姜夔自度曲音乐本体的现代解读
语言与语义
“上”与“下”语义的不对称性及其认知阐释
《我应该感到自豪才对》的本体性教学内容及启示
认知范畴模糊与语义模糊
修辞学的重大定义
山的定义
语义分析与汉俄副名组合
教你正确用(十七)