APP下载

从叙词表到本体的转换研究

2009-07-15

现代情报 2009年1期
关键词:本体

米 佳

〔摘 要〕本文对叙词表向本体的转换做了综合性的讨论,并提出了一种基于概念的叙词表转换方法,从而实现叙词表的RDF/OWL描述。

〔关键词〕叙词表;本体;RDF;OWL

〔中图分类号〕G254.1 〔文献标识码〕A 〔文章编号〕1008-0821(2009)01-0038-04

Study on the Conversion from Thesaurus to Ontology

Mi Jia

(Library,Heibei University,Baoding 071002,China)

〔Abstract〕Thesauri provides a hierarchically structured set of terms about which a community has reached consensus.After discussing thesaurus,ontology and the relationship between them,this article put forward a concept-based method for converting existing thesauri and related resources from their native format to RDF(S) and OWL.

〔Key words〕thesaurus;ontology;RDF;OWL

1 叙词表和本体

1.1 叙词表简介

叙词表是指在特定的领域中专业词汇的受控集合,这些词汇之间具有层次、关联以及相关关系。根据国家标准GB13190-91,叙词表的定义为:“将文献、标引人员或用户的自然语言转换成规范化语言的一种术语控制工具;它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表”。叙词表也称为主题词表,可用于检索时的后控制和标引时的自动或辅助选择索引词,对提高查全率和查准率、实现多语种检索和智能化概念检索起到很大的作用[1]

由于叙词表适合于学科和专业性质较强的文献组织,因此许多典型的叙词表都是面向某个学科或专业的。各学科领域基本都有本专业的叙词表,如《美国国会图书馆标题表》(LCSH),《医学主题词表》(MeSH),《艺术和建筑叙词表》(AAT)以及我国的《汉语主题词表》等。在这些叙词表的基础上目前已经建立了很多的手工检索工具,并进一步发展成数据库检索系统,如三大索引以及各种专业的数据库等。

1.2 叙词表的结构

追本溯源,很多(但不是全部)叙词表的结构来源于ISO2788以及ANSI/NISO Z39.19标准。叙词表的术语由叙词和非叙词组成,叙词是在文献标引与检索中用以表达文献的主题而规范化的词,可以用于索引,非叙词是叙词的同义词或准同义词,在叙词表中规定不能用于检索和标引,只起指引作用。叙词的最高上位词称为族首词(Top Term),族首词揭示了其下方的所有下位概念,外延范围最大。ISO2788和ISO5964定义了被称为“用、代、属、分、参”等5种标准关系。叙词(也称作描述符)通过代(Use for)与非叙词相联系。USE用是这种关系的逆关系。叙词间的关系有3种:上位、下位以及相关。上位、下位分别对应属、分关系,指概念内涵相同、外延范围大小不同词汇之间的关系,参(相关关系)对应叙词之间属、分以外的相互关系,是叙词概念内涵之间语义联系的词间关系。此外范围定义(Scope Note)用于限制叙词范围。图1表示的是叙词间的基本关系,表1列出了叙词的语义参照系统。

从上面的介绍可以看出,叙词表结构简单,具有很高的灵活性、可扩展性(分面组配)和集成性(分类主题一体化),因此成为主题词表的发展主流,并成为图书情报领域非常重要的一种传统的信息资源管理的知识组织工具。但是叙词表中知识点的分布是线性、一维的,在网络环境下就显得过于单调,无论从概念的语义及关系描述上来说,还是从推理功能上来说,都不能满足未来语义网环境下对网络信息资源的语义要求,这就需要引入本体的概念。

1.3 本体概述

本体(ontology)的概念起源于哲学,用于描述客观现实的抽象本质。后来此概念被人工智能界引入并赋予了新的内容。本体最流行的定义是1998年德国的Studer总结前人说法提出的:“本体是共享概念模型的明确的形式化规范说明”。这个定义包含4层含义:概念模型、明确、形式化和共享。

Perez等人用分类法组织了本体并归纳出5个基本的建模元语:类或概念、关系、函数、公理和实例[2]。从语义上讲本体中基本的关系共有4种:part-of、kind-of、instance-of和attribute-of。

在图书情报领域,本体概念等同于人工智能领域,它强调相关领域的本质概念,同时强调这些概念之间的关联。本体可以有效地表达知识和知识之间的关系,基于本体的知识库系统可以建立有效的知识表达体系,揭示知识之间的内在关系。

1.4 本体描述语言

本体描述语言是用来描述本体的,它让用户可以为领域模型编写清晰、形式化的概念描述。本体可以用自然语言描述,也可以用框架、语义网络或逻辑语言描述和表示。据统计,主要的本体表示语言有28种,常见的也有10余种[3]。目前,W3C推荐的与本体语言相关的标准有3个:XML、RDF/RDFS、OWL。

1.4.1 XML

XML(eXxtensible Markup Language,可扩展标记语言)是一系列由W3C组织批准并推荐的相关协议的集合。它涵盖了从网络底层的数据表示、数据显示、数据的处理、交换和消息的传递等各个层次的Web应用。XML基于纯文本,具有自描述能力,能够自我解释数据的结构,有良好的可扩展性,并且实现数据内容与表现格式相分离,因而成为新一代的数据交换格式[4]

XML文档通过DTD和XML Schema 2种方式将文档的内容、结构和表现分开定义。利用DTD或XML Schema与本体相关联,然后再利用XML文档结构与XML内容之间的关系将XML内容与本体相关联,从而提供对数据内容的语义描述。

但是用DTD表示本体存在一些局限性,如DTD难以表示继承,kind-of、instance-of等关系也难以用DTD表示,因此在DTD和XML Schema的基础之上,W3C提出了采用RDFS来描述简单的本体。

1.4.2 RDF/RDFS

RDF(Resource Description Framework,资源描述框架)为基于元数据的语义表示提供了基础。为了描述机器可处理的数据的语义,RDF定义了一个基本的数据模型,其包含3种对象类型[6]

(1)资源:一个资源可以是一个完整或部分的网页、网页集合或者不需通过web访问的任意对象。通常资源用URI(Uniformed Resource Identifier)来命名。URI是RDF的关键技术之一,它是Web资源的惟一标识,URI通常描述下面的内容:访问资源的方法;资源所在机器;机器上资源的特定名称。它是更常用的统一资源定位符URL的超集。在RDF中,资源无所不在,资源的属性是资源,属性的值可以是资源,甚至于一个陈述也可以是资源,也就是说,所有这些都可以用URI标识,可以再用RDF来描述[5]

(2)属性:属性用来描述资源的一个特定方面、特征、品质及关系等。

(3)声明:一个RDF的声明是一个特定资源和一个被命名的属性加上这个属性的取值形成的集合。1个声明由3个部分组成:主语(一项特定的资源)、谓语(一个被命名的属性)、宾语(在该资源中该属性的取值)。

从其核心来看,RDF定义了一个“对象——属性——取值”三元组作为其基本的建模原语并在其之上引入了一套标准的语法,来描述网络上的各种资源。但是,RDF提供的建模原语非常基础,只是提供了一个模型,因此需要对其作进一步扩展。

RDF Schema在RDF基础上增加了许多语义原语,用来更进一步增加对资源语义上的描述能力,如类、属性、类和属性之间的隶属关系等[7]

RDF Schema机制提供了RDF模型中使用的一个基本类型系统,但是RDFS的表达能力仍然非常有限。针对RDFS在语义表示方面的不足,一些研究人员提出了其它一些不同的网络环境下的本体描述语言,最突出的就是在DAML+OIL上发展起来的OWL。

1.4.3 OWL

OWL(Web Ontology Language)是一种用于在语义Web上发布和共享本体的语义置标语言,由W3C的本体工作组开发,2004年2月10日成为W3C正式推荐标准,作为语义网(Semantic web)的核心技术之一,OWL是一种能够用于描述Web文档和应用中固有的类和类之间的关系的语言。

相对于XML、RDF和RDF Schema,OWL拥有更多的机制来表达语义而又与它们兼容。OWL语言提供3种表达能力依次增强的子语言,即OWL Lite、OWL DL和OWL Full。

OWL Lite是表达能力最弱的子语言,它是OWL DL的一个子集,它通过降低OWL DL中的公理约束,保证了迅速高效的推理。OWL Lite支持集的约束时,它只允许集的值为0或者1,支持的用户是那些需要一个分类体系和简单约束功能的人。

OWL DL(Description Logic,描述逻辑)将可判定推理能力和较强表达能力作为首要目标,而忽略了对RDFS的兼容性。OWL DL包括了OWL语言的所有语言成分,但使用时设置了许多约束,适用于那些需要在推理系统上进行最大程度表达的用户,这里的推理系统能够保证计算完全性和可判定性。

OWL Full包含OWL的全部语言成分并取消了OWL DL中的限制,它将RDFS扩展为一个完备的本体语言,支持那些不需要计算性保证但需要最强表达能力和完全自由的RDFS用户。在OWL Full中,一个类能同时作为对象的集合,它本身也可以作为一个对象,也就是说可以被同时表达为许多个RDF。由于OWL Full取消了基数限制中对可传递性质的约束,它允许在一个本体在预定义的(RDF、OWL)词汇表上增词汇,因此不能保证可判定推理,任何推理软件都不可能支持OWL Full的每个功能。

OWL Full是对RDFS的扩展,而OWL Lite和OWL Full可以看成是一个约束化的RDF的扩展。所有的OWL文档(Lite,DL,Full)都是一个RDF文档; 只有一部分RDF文档是一个合法的OW LLite和OWLDL文档。在表达含义和语义方面,OWL比RDF(S)有更多的表达手段。因此在Web上表达机器可理解内容的能力也比RDF(S)强一些[8-9]

2 叙词表向本体的转换

2.1 叙词表和本体的联系与区别

通过上面对叙词表和本体的介绍可以看出,本体和叙词表有着很多的共同点:

叙词表与本体两者的目的相同,都是试图通过词汇概念来描述某一领域的复杂知识关系,从而简化不同用户知识共享的方法;两者都包含人工语言,依靠概念系统规则表示高度复杂的知识;都涉及使用某一专业领域的大范围的概念系统,以及术语间的语义关系;都使用上下位等级关系来表示知识的分类体系;都可以用于信息编目和信息组织;都可以用于手工和机器的标引与检索;都是先进行构建,然后作为一种标准规范,被相关部门利用;都需要进行维护和修订工作[10]

因此有研究者认为:叙词表在本质上是一种知识组织体系,具有层次结构和分类等级,所以叙词表本身是轻量级本体。

但是,叙词表和本体之间的区别也很明显,主要体现在:

(1)叙词表中的术语均是规范的科学语言,而本体中的概念、术语可以用自然语言和半自然语言来表达。

(2)大多数叙词表只有有限的对外界知识的表达性,无相应的软件实现功能;而本体维护工具则提供了强有力的知识表示语言,并可对知识进行核对,对新知识进行推理,可以表达丰富的概念属性,可与用户进行良好的人机交互。

(3)叙词表中知识点的分布是线性的、一维的,而本体中概念的分布是网状的、多维的。叙词表着重描述“词汇”之间的关系,而本体则侧重于描述“概念”或“对象”之间的关系。

(4)本体和叙词表随着学科领域的更新和发展都可以进行更新。但是本体作为一个开放集成的体系,它的底层知识库与概念集可以随时进行修正和更新,而叙词表的更新速度和更新的频率比较缓慢。

(5)叙词表中只包含“用、代、属、分、参”这样的简单的语义关系;而本体中概念间的关系,则被描述得更为广泛、深入、细致和全面。这是两者的最主要区别。

(6)叙词表是一个词汇库(语料库)但不是知识库,它只有概念和概念间的关系,缺乏形式本体所要求的函数、公理和实例。而本体不仅仅是概念集、语料库,还可以构建知识库。

(7)叙词表的学科分类体系相对稳定,结构保守而单一。而本体系统的集成性和开放性则保证了它的知识库和概念集的更新。

此外,从用户角度看,叙词表主要面向人的使用,由领域专家确定使用人群。而本体主要为知识代理间的知识共享的开发,可同时用于人和机器。

本体和叙词表相比,尽管二者存在一些区别,但是这些区别主要体现在表达上的深入程度,二者不存在本质上的区别。本体具有叙词表所无可比拟的优越性,与基于词表的查询方式相比,本体是一个自备知识底层的、完备的知识组织体系,具有智能查询、机器翻译、预测知识增长点等卓越的功能。叙词表中有完整的术语和格式化的、简单的语义关系,可以为本领域本体中概念的创建和属性、实例以及关系的创建提供线索和指导。将叙词表中有的知识体系转化到本体中,既是对已有知识的科学利用,也保持了科学的延续和继承性,是叙词表的发展方向之一。

2.2 叙词表向本体的转换项目

自语义网提出之后,国内外很多学术团体相继开展了利用现有的叙词表建立本体的尝试,比较著名的项目有:

(1)联合国粮农组织(FAO)利用RDFS将Agrovoc叙词表转换为农业本体;

(2)阿姆斯特丹大学的Wielinga等将艺术和建筑叙词表(AAT)转换为本体;

(3)加州环境资源评估系统(CERES)和国家生物信息基础工程(NBII)联合开发的基于RDF格式集成的有关环境的叙词表和叙词网络工具。

从叙词表到本体的转换方法,总结起来有以下几种[11]

(1)用XML Schema构建叙词标记语言,如澳大利亚的M.Lee等所开发的叙词标记语言(TML),构建了叙词描述本体的框架。

(2)用RDF Schema表示叙词内容和关系,大多数叙词表采用的是这种方式转换,典型的是类似AAT的分面形式的叙词表,可以将叙词表某个子集作为本体某一类属性的值直接引入。

(3)用DAML+OIL、OWL表示叙词关系。

从XML Schema、RDF Schema到本体描述语言OWL,语言的表述能力不断增加。XML Schema语义描述能力过于单薄,OWL语言具有很强的描述能力,但是描述起来过于复杂,成本过高。RDF Schema虽然在表达能力和逻辑严格性方面不如OWL语言,但是用来描述叙词关系也可以胜任,因而应用于大多数叙词表的转换。

3 一种基于概念的本体转换方法

根据现有的ISO标准,叙词表到本体的转换是基于术语的,也就是说术语之间直接相联。本文提出一种基于概念的转换方法,根据此方法,术语只同它所表示的概念相关联。基于概念的转换方法更为清晰且易于维护。本方法分为3个步骤:叙词表分析,语法转换,语义转换。

3.1 叙词表分析

叙词表分析包含以下内容[12]

(1)明确原始文档的含义,如果感觉含义模糊,应联系叙词表的原作者以确认;

(2)分析叙词表的模型作为转换的背景知识;

(3)分析概念模型和数字模型之间的关系。

3.2 语法转换

本步的重点是语法的转换。通过这一步转换,可以将原始的文本格式、关系数据库或者XML的表示形式转化为RDF(S)。

3.2.1 在保持结构的基础上进行语法翻译

从源格式到RDF格式的翻译要保持结构不变,源格式中所有的语义相关的元素都被翻译成RDF。

在翻译过程中,要注意以下几点:

(1)翻译过程中应当使用RDF(S)的基础构件。只使用定义类、子类、属性(不包括域和范围)的构件,使用可读的rdfs:labels用于类和属性名以及XML的数据类型。这是定义概念模型RDF表示的基本部分。其余的RDF(S)和OWL的构件在语义转换中用到。

(2)使用XML的数据类型支持,比如xsd:date以及xsd:integer,不要使用自定义的XML Schema数据类型。

(3)尽量保持原始的实体名,这样转换更加清晰,而且易于追踪。类或者属性的含义可以通过增加rdfs:comment来详细说明。最好包括源文档的定义,如果源文档可以在线阅读,通过rdfs:SeeAlso或者rdfs:isDefinedBy之类的陈述就可以链接到原始的文档或定义。

(4)将三元或多元关系翻译为带有空节点的结构。三元或多元关系不能直接翻译成RDF属性,如果关系的参数互相独立,则建立这样一个结构:它包含链接源实体到空节点(代表关系)的属性(与源关系同名),关系的变量链接到一个空节点上,每个变量附有一个附加的属性。

(5)不要翻译无关语义的顺序信息。

(6)要避免冗余信息。如果资源的惟一标示符(UI)已经在rdf:ID里面记录过,那么就不要包含同样记录惟一标示符的属性了,这样就保持了结构的清晰和易维护性。

(7)避免直接翻译。在对原始资源进行翻译的过程中(也就是说无法找到原始文档)一定要小心,如果翻译错误会导致不一致或不精确的转换。尽量使用现有的叙词Schema(如SKOS)而不是建立一个新Schema(比如叙词元模型),SKOS已经定义了“概念”、“上位”这些定义,这比先建立一个Schema然后映射成SKOS要简单。

3.2.2 对语法进行详细描述,也就是详细解释源文件信息的深层含义

例如,艺术和建筑叙词表(AAT)虽然使用节点标签(在AAT中称为指导词),但是在AAT的源数据中,这些词同普通词汇的区别不过是加了个尖括号,因此可以为这一信息建立形如rdfs:subClassOf的类用来详细说明,并将此类分配给所有带尖括号的词汇。

3.3 语义转换

在语义转换过程中,需要使用更多的RDFS和OWL构件进行语义说明。如,上位词属性转换为owl:TransitiveProperty,相关词转换为owl:SymmetricProperty。可以将某些属性定义为专门词汇或者RDFS的预定义属性,如rdfs:label和rdfs:comment。例如,如果nameof这个属性很明确地指示了资源的标签,那么就可以将此属性定义为rdfs:label的子属性,RDFS工具可以将nameof翻译成想要的格式。

通过语义转换,此时叙词表就已经转化成了可在网上发布的RDF/OWL格式。

4 结 语

叙词表和本体的形式相近,功能基本相同,都是用来描述特定学科知识都可以用作特定学科信息(知识)的组织工具,都包含对概念及概念属性和概念之间关系的语义描述。利用叙词表构建本体是本体建设的重要方法。但是在叙词表向本体的转换过程中,还存在一些问题,如叙词表转换质量的保证,多语种叙词表的转换,不符合ISO或ANSI标准的叙词表映射方式等,都需要进一步研究解决。

参考文献

[1]孙倩,李景.叙词表与本体的区别与联系[J].中国图书馆学报,2004,30(1):36-39.

[2]Asuncion Gomez Perez.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[C].Proceedings of the IJCAI299 work-shop on Ontologies and Problem-Solving Methods,1999.

[3]李景.本体理论在文献检索系统中的应用研究[D].博士学位论文.北京:中国科学院文献情报中心,2004.

[4]Extensible Markup Language[EB].http:∥www.w3.org/TR/2000/REC-xml-20001006/

[5]毛军.基于RDF的叙词表研究[J].情报学报,2003,22(2):163-168.

[6]Resource Description Framework[EB].http:∥www.w3.org/RDF/

[7]RDF Vocabulary Description Language[EB].http:∥www.w3.org/TR/rdf-schema/

[8]OWL Web Ontology Language Overview[EB].http:∥www.w3.org/TR/owl-features/

[9]OWL Web Ontology Language Guide[EB].http:∥www.w3.org/TR/owl-guide/

[10]张继东.利用叙词表构建本体的方法研究[J].图书情报知识,2006,(4):82-85.

[11]唐静.叙词表转换为Ontology的研究[J].信息系统,2004,(6):642-645.

[12]Mark van Assem.A Method for Converting Thesauri to RDF/OWL[C].ISWC,2004.

猜你喜欢

本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考