APP下载

信息科学中本体理论的发展综述

2014-10-20袁国铭樊波成天华

微型电脑应用 2014年7期
关键词:本体工具定义

袁国铭,樊波,成天华

0 引言

本体(Ontology)的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多德(384-322b.c.)。它在哲学中的定义为:“对世界上客观存在物的系统描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。

Ontology这个哲学范畴,被人工智能界赋予了新的定义,从而被引入信息科学中,然而信息科学界对 Ontology的理解也是逐步发展才走向成熟的。1991年Neches等人最早给出Ontology在信息科学中的定义:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则”。后来在信息系统、知识系统等领域,随着越来越多的人研究 Ontology,产生了不同的定义;1993年Gruber定义Ontology为“概念模型的明确的规范说明”。1997年Borst进一步完善为“共享概念模型的形式化规范说明”。Studer等人对上述两个定义进行了深入研究,认为:“Ontology是共享概念模型的明确的形式化规范说明”,这也是目前对Ontology概念的统一看法[1-2]。

Studer等人的Ontology定义包含4层含义:概念模型(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)。“概念模型”是指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态;“明确”是指所使用的概念及使用这些概念的约束都有明确的定义;“形式化”是指Ontology是计算机可读的,也就是计算机可处理的;“共享”是指 Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而非个体。Ontology的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。

尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于 Ontology的认识是统一的,都把它当作是领域(领域的范围可以是特定应用中,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由 Ontology提供一种共识,如图1所示:

图1 本体层次

本体处于处于一种公共基本平台层次。而且 Ontology提供的这种共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中蕴含的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领域讨论Ontology,就要讨论如何表达共识,也就是概念的形式化问题。本体作为一种知识共享模式,为特定领域的人和应用系统的交流提供了极大的便利,也正因为如此,本体的研究和应用迅速延伸到知识工程、自然语言处理、信息检索系统、智能信息集成和知识管理、信息交换和软件工程等领域。而如何对这些不同领域内的知识进行抽取和描述并构建出合适的领域本体已经成为当前的研究热点之一。

领域本体(Domain-specific ontology)是对学科概念的一种描述,包括学科中的概念、概念的属性、概念间的层次和非层次关系、属性和关系的约束以及存在的公理等。由于知识具有显著的领域特性,所以领域本体能够更为合理而有效的进行知识的表示。领域本体一般用来表示某一特定领域范围内的专业知识,在各个领域的本体目前发展迅速[3-5]。

1 本体的描述语言

本体的有效工作需要使用高级本体语言来表达和描述本体信息,本体描述语言需要满足以下3条标准:

(1) 对人类用户应有较高的直觉,考虑到基于框架OO建模范例的成功,本体应该类似于框架建模。

(2) 应该有包含已定制的、推理特性的、定义良好的形式化语义,以确保其完整性、正确性和有效性。

(3) 应与现有的Web语言有着适当的链接,以确保其互用性。

自上世纪90年代以来,许多科研工作者在这个领域进行深入的研究,产生了许多种类的本体描述语言,如RDF(s)、OWL、OIL、Ontolingua、XOL等等。我们把它们简单的归类如下:

(1) 基于Web的本体语言(也叫做本体标记语言)有:RDF(S)、OWL、SHOE、OIL等等。其中RDF(S)、OWL、OIL之间有着密切的联系,是W3C的本体语言栈中的不同层次,也都是基于XML的。而SHOE是基于HTML的,它是HTML的一个扩展。

(2) 基于AI(Artificial Intelligence)的本体实现语言有:KIF、Ontolingua、CycL、Loom、OCML、Flogic。KIF己经是美国国家标准,但是它并没有被广泛应用于互联网,而是作为一种交换格式更多的应用于企业之间的交互。

常用的13种本体论语言的比较如表1所示:

表1 本体论语言的比较

通过对这13种语言在概念(Concepts)、多元关系(n-aryrelations)、函数(Functions)、过程(Procedures)、实例(Instances)、公理(Axioms)、产生式规则(Production Rules)和形式语义(Formal Semantics)的横向比较,得到相对结论:(1)Loom是定义最完备、功能最齐全的本体表示语言。(2) CycL,Ontolingua和OWL也能较好的表示本体语言。

2 本体的编写工具

在过去的20年里,已经出现了上百种本体构建工具,从最早的Ontolingua,Onto Saurus,Web Onto,到Protégé,Web ODE,Oil Ed,Onto Edit,以及KAON等,本体构建工具也日趋成熟。这些工具提供了友好的图形化界面和一致性检查机制。借助这些工具,用户可以把精力集中在本体内容的组织上,而不必了解本体描述语言的细节,而且避免了很多错误的发生,方便了本体的构建。但是,这些工具提供的仅仅是本体编辑功能,支持的仍然是手工构建本体的方式。即使使用这些本体编辑工具,用户依然需要逐个地输入和编辑每个概念的名字、约束、属性等内容。现有的大部分系统,例如Cyc和Mikrokosmos等,都是靠手工输入大量的知识,然后才能基于这些知识进行推理或获取新的知识。由于手工方法费时费力,使得本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。目前,国外在该方向的研究很活跃,把相关的技术称为本体学习(Ontology learning)技术,其目标是利用机器学习和统计等技术自动或半自动地从已有的数据资源中获取期望的本体。由于实现完全自动的知识获取技术还不现实,所以,整个本体学习过程是在用户指导下进行的一个半自动的过程。

本节将特别介绍WebOnto,OntoEdit,Hozo和Protégé这四个各具特色的本体开发工具。

2.1 本体编辑工具的介绍

(1) WebOnto

WebOnto是由英国Open大学的知识媒体研究所开发,可通过Internet访问基于Web的完全图形化工具[32]。它支持本体的写作浏览、生成和编辑,还提供直接接口以便通过大量的媒介显示出本体表示。不同的用户都可以生成本体注释并用不同的颜色对当前本体进行修改等一系列操作。

WebOnto的主要目标是简单易用且便于扩展到大的本体应用中,还是本体讨论工具Tadzebao的补充,对本体进行建模的语言是VITAL项目开发的操作概念建模语言。还有很多可用的功能是保存结构图以及浏览类、关系和规则等等。

(2) OntoEdit

OntoEdit是德国Karlsruhe大学AIFB学院的知识管理团队开发的本体论工程环境,该环境支持使用图形化方式来开发和维护本体[33]。OntoEdit将本体开发方法论(骨架法)与合作开发和推理的能力相结合,关注本体开发的3个步骤:收集需求阶段、提炼阶段、评估阶段。OntoEdit工具已是德国Onto Prise公司的商业化产品。OntoEdit建立在有力的内部本体模型上,此模型能用支持内部文件处理的XML序列化。环境架构中包含的图形化视图支持对本体论工程开发生命周期的不同阶段进行建模,还支持Frame-Logic、XML、RDF(S)和OIL等,并允许用户编辑不同抽象级别的层次化的概念或者类,允许对关系的属性进行集成和细化。

(3) HOZO

HOZO本体构建工具是日本大阪大学ISIR(The Institute of Scientific and Industrial Research)研究所Mizoguchi研究室开发的[34]。

HOZO是基于Java开发的本体编辑工具,其主要由四部分组成:Ontology Editor、Ontology Manager、Ontology Server和Onto-Studio。Ontology Editor是一个本体编辑图形界面,通过该界面可以对本体进行构建、修改等。Ontology Manager可以帮助用户管理本体,通过图形化的方式将本体A与本体B之间的区别表示出来,方便本体映射。Ontology Server用于管理本体的存储和使用,也可以利用本体中定义的公理对本体的一致性进行检查。Onto-studio是基于AFM(Activity-First Method)的本体构建,它可以帮助用户从文档中自动构建本体。

HOZO本体编辑工具与其它本体构建工具的显著区别在于HOZO引入角色概念。角色概念最早由John Sowa提出,并引入“firstness”和“secondness”概念,其中前者是指一些独立的概念,即不需要依赖于其它概念即可存在,同时不会产生歧义:如树、人、铁等;后者必须依赖于其它概念才能存在:如丈夫、妻子、学生等。Mizoguchi借助于这一思想,将第二种概念定义为角色概念,即将本体中概念一共分为3类:基本概念、角色概念及关系概念。基本概念是单独的概念,是不需要其它概念就可定义的概念,对应于firstness;角色概念是一个事物在特定语境中所扮演的角色,它需要由其它概念来定义,对应于secondness;关系概念用于描述基本概念的属性之间的关系及角色概念之间的关系。

(4)Protégé

Protégé是由美国斯坦福大学医学院医学信息中心(Stanford Medical Informatics,SMI)的Musen领导的开发团队开发的一个开放源码的本体编辑器,它是用Java编写的,可以免费下载[35]。Protégé界面风格与普通Windows应用程序风格一致,用户可以较容易学习使用。Protégé支持多重继承,并能够对新数据进行一致性检查,同时具有很强的可扩展性,主要表现在如下几点:

① Protégé是一个可扩展的知识模型,用户可以重新定义系统使用的表示原语。

② 文件输出格式可以定制。可以将Protégé的内部表示转换成多种形式的文本表示格式,包括XML、RDF(S)、OIL、DAML、DAML+OIL、OWL等系列语言。

③ 用户接口可以定制。提供可扩展的API接口,用户可以更换Protégé的用户接口的显示和数据获取模块来适应新的语言。

④ 有可以与其它应用结合的可扩展的体系结构。用户可以将其与外部语义模块(例如针对新语言的推理引擎)直接相连。

⑤ 后台支持数据库存储,能够使用JDBC和JDBC-ODBC桥连接和访问数据库。Protégé开放源代码,提供了本体建设的基本功能,使用简单方便,拥有友好详尽的帮助文档,模块划分清晰,提供完全的API接口,它成为国内外众多本体研究机构的开发工具[6-8]。

2.2 各种编辑工具的比较

目前,本体编辑工具种类繁多,它们的共同点是:设计界面采用GUI形式,方便用户使用,使用户不必要学习繁琐的本体编辑语言仍然可以构建所需要的本体。可以看出,以上描述的本体编辑工具都有各自特点,针对以上特点本体编辑工具仍有以下发展趋势:

(1) 目前本体编辑工具均为手工构建本体,不支持自动构建,而随着本体的发展,手工构建本体将会是一项庞大的任务。因此,需要对现有的工具进行改进,使其能够自动对现有本体进行更新。

(2) 目前国内还没有发布通用的本体编辑工具,以便更好的支持以中文为主的本体,因此,需要自行开发一个能较好支持中文的本体构建工具。

(3) 当前WEB和本体库中有很多本体可以直接利用,但如何将这些本体应用于当前本体编辑工具仍是需要解决的问题。

3 本体研究的国际化组织及其项目

如表2所示:

表2 本体标准化组织与项目

国际上大型本体标准化组织包括:美国国家标准化组织(ANSI)、电器与电子工程师协会(IEEE)、德国GMD公司IPSI研究所、美国斯坦福研究所人工智能中心、ISO Texas A& M Univ、斯坦福大学,荷兰阿姆斯特丹大学,贝尔实验室,AIFB研究所和ISO-STEP等,它们组织了专门的研究项目支持本体标准化的研究。

领域本体的构建研究是当前的热点之一,已经公布的本体库包括:

氨基酸本体:关于氨基酸及其性质的小型本体(其中,概念、属性和关系均备有中英文名称、同义词及缩写)。

基本形式化本体(Basic Formal Ontology):一部设计旨在为科学技术研究工作提供支持的形式化上层本体。

BioPAX:一部旨在促进生物学途径(细胞过程)数据之交换和互操作性的本体。

细胞周期本体(Cell-Cycle Ontology,CCO):一部用于表达细胞周期的应用本体。

CContology:一部旨在支持在线客户抱怨管理的电子商务本体。

CIDOC概念参考模型(CIDOC Conceptual Reference Model):一部关于文化遗产的本体。

COSMO:属于一部基础本体(当前版本为OWL),其设计旨在收录所有那些从逻辑上明确说明任何领域实体的含义之时所需的原初型概念(primitive concepts)。其旨在作为一部基础的本体,可以用于完成其他本体或数据库之中不同表达之间的转换。起初,它只是OpenCyc和SUMO本体之中基本构成要素的合并产物。目前,已经采用其他的本体构成要素(类型、关系) 对其加以了补充,从而便于收录朗文词典定义词汇表之中所有单词的表达形式。

Cyc:一部关于论域之形式化表达的基础本体。

疾病本体(Disease Ontology):在设计上旨在促进各种疾病及相关健康状况向特定医学代码的映射。

DOLCE:即语言学与认知工程描述型本体(Descriptive Ontology for Linguistic and Cognitive Engineering)。

都柏林核心:一部关于文档和出版方面的简单本体。

基础性核心语言学本体(Foundational, Core and Linguistic Ontologies)。

人类解剖学方面的解剖学基础模型(Foundational Model of Anatomy,FMA)。

有关内科学与外科学医学术语的GALEN本体(OWL-DL格式)。

基因组学领域的基因本体(Gene Ontology,GO)

通用上层模型(Generalized Upper Model):一部用于在客户系统与自然语言技术之间发挥中介作用的,带有语言学动机的本体。

Gellish英语词典:是一部包括有词典和分类法的本体;其中,收录有一部上层本体和一部下层本体(lower ontology),侧重于工程、技术以及采购方面的工业及商业应用。参见SourceForge的开源项目。

GOLD:即语言描述通用本体(General Ontology for Linguistic Description)。

IDEAS工作组:澳大利亚、加拿大、英国以及美国的国防部所正在共同构建的一部关于企业架构(enterprise architecture)的形式化本体。

LinkbaseLinkbase.[2009-03-05](英文):在基本形式化本体(Basic Formal Ontology)的基础之上,对于生物医学领域的一种形式化表达。

劳森模式语言(Lawson Pattern Language,LPL)。

开放生物医学本体铸造厂(OBO Foundry):生物医学领域的一套具有互操作性的参考本体。

生物医学调查本体(Ontology for Biomedical Investigations):用于描述生物学及临床调查研究活动的一部开放的集成化本体。

植物本体(Plant Ontology):关于植物结构以及生长/发育阶段等方面的本体。

POPE(Purdue Ontology for Pharmaceutical Engineering,普渡大学制药工程本体)

乔治敦大学有关蛋白质信息资源的蛋白质本体PRO。

程序抽象分类法(Program abstraction taxonomy)。

蛋白质组学领域的蛋白质本体(Protein Ontology)。

系统生物学本体(Systems Biology Ontology):描述的是生物学领域的计算机模型。

推荐上层合并本体:一部形式化上层本体

SWEET(Semantic Web for Earth and Environmental Terminology,地球与环境术语集语义网)。

思想财富本体。

医学教育标引主题(Topics for Indexing Medical Education)。

WordNet:一个词汇参考系统(Lexical reference system)。

中国的农业本体库、航天航空本体库、中医药本体库、石油勘探开发本体库等多个专业领域都建成或在建本学科领域本体库[9-10]。

4 总结

本体理论作为一种被广泛接受的信息学科基础理论,它就像基因一样是不同门类知识的基础理论,可以广泛应用于任何知识系统,相信在不就的将来,本体理论不仅仅用于理学、工学等应用学科,还能应用到社科人文学科领域并大放异彩。

[1]本体论,http://baike.baidu.com/link?url=7f4oPT2oUaMuh Qs3nxgYPFP-8FWypi0--o9hAHMC7GrazKKYet1ddm TBrZRrLTau.

[2]Gruber, T.R.(1993)."A translation approach to port able ontologies".[J]In: Knowledge Acquisition.5(2):199-220, 1993.

[3]张宇翔.知识工程中的本体综述.[J]计算机工程,2005.31(7):l12-114.

[4]袁国铭,李洪奇,樊波.关于知识工程的发展综述[J].计算技术与自动化.2011,30(1):138-143.

[5]孙雨生,詹萌.国内外本体论技术研究与进展[J].情报杂志.2005,(12).

[6]OntoEdit[DB/OL]:http://www.ontoknowledge.org/tools/o ntoedit.shtml.

[7]王长霞,李冠宇,陈布伟.语义网本体构建工具现状及发展趋势研究[J].计算机与现代化, 2009(7):26-31.

[8]WebOnto.http://eldroa.open.ac.uk:3000/webonto.

[9]陈科文,张祖平,龙军.多源信息融合关键问题、研究进展与新动向[J].计算机科学.2013,40(8):6-13.

[10]袁国铭,陈殊聪,辛盈,邓小亚.本体构建理论在石油领域的应用研究[J].计算技术与自动化.2011,30(3):113-118.

猜你喜欢

本体工具定义
眼睛是“本体”
波比的工具
波比的工具
准备工具:步骤:
“巧用”工具
基于本体的机械产品工艺知识表示
成功的定义
修辞学的重大定义
专题
Care about the virtue moral education