APP下载

基于范畴论的Web本体论描述研究

2011-07-05叶丹丹汪海涛

关键词:论域本体论范畴

叶丹丹,汪海涛

(昆明理工大学 信息与自动化学院,昆明 650500)

随着互联网的不断发展,人们不仅从互联网中获取到了信息,还进行电子商务、在线聊天等活动。它摈弃了传统方式在时间和空间上的局限性,让人们便利的获取各种信息。下面介绍一下Web的演变。

Web 1.0是Web的第一阶段,用户主要是阅览网站的内容。信息只是用户和互联网之间的单项传输。到Web 2.0时,用户既是网站信息的阅览者又是创建者。例如Blog、Wiki、RSS等为典型的运用,通过这摒弃了传统方式中由于时间和空间的局限性获取信息的模式。在Web2.0的环境下用户能够自己创建内容,此时互联网的信息日益增多。这时用户不能够非常便捷、高效、准确地获取自己所需的信息。于是Web3.0就以个性化、友好化等特点为核心应运而生。 Web3.0是在用户行为习惯和信息的集聚下产生的。它将在Web2.0的基础上向用户提供个性化、高效化等的服务。图1为Web的演变过程。

图1 Web演变过程Fig.1 Evolution of Web

实现Web3.0的关键是语义网。语义网的技术是得出本体实现的关键。本文还利用范畴论来进行本体论的研究。

1 语义网

语义网概念是互联网创始人英国科学家Tim Berners-Lee于2000年12月18日在XML2000的会议上正式提出来的。他对语义网的定义如下:“语义网是一个网,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,以利于机器的自动处理。”语义网是为了改变现有互联网依靠文字信息来共享资源的模式,而利用本体来描述语义信息,以到达语义级的共享,使得网络服务智能化。

语义网是运用一套通用的标签把数据信息进行结构化的。由于这些标签具有预定义的语义,当网络进行信息处理的时候,通过读取这些标签来关联数据,因此网页才具有了语义。一个典型的Web网页是用HTML标记语言来表现的。如下:

上面的信息用户通过浏览器,可以明白其表达的语义。但是对于处理其数据的计算机来说,它们是无法理解”name“、”birthday“等信息的语义的。

使用通用“标签”来标识数据则可以解决这个问题。它也逐渐成为了定义Web数据的通用语言,这称为元数据(metadata)。于是,上面用HTML标记语言表示的数据可以表示为:

应用上面通用标签的思想为描述Web数据定义一套通用元数据,从而形成了本体的概念。

2 本体概念

本体论最早是来源于哲学,它研究物质世界中存在的本质(nature of existence),即研究哪些客体是真实存在的,以及如何描述它们。在计算机科学领域中,本体被称为“对概念的显示和形式化的规格说明(explicit and formal specification of a conceptualization)”。下面是本体论形式化的描述定义。

本体结构O可以用一个四元组(C,R,Hc,rel)表示,其中,C表示概念集合;表示概念(c∈C),概念是特定领域中的一组或一类实体或者事物,每个概念可以由属于分别描述其不同方面的特点;R表示关系集合,r表示关系(r∈R),关系描述了概念与概念之间或者属性与属性之间的关系,关系可以分为2类:分类关系和连接关系;Hc表示分类关系,是概念与概念之间的父类、子类等上下位的层次关系,HC⊆C×C;rel表示连接关系,是除了上下位层次关系以外的其他关系,rel:R→C×C 。[1]

为了在Web中表现本体论的结构,则用描述概念和概念之间的关系——元数据来表示。万维网联盟提供了一系列定义元数据和元数据的推荐标准,如下:

XML(Extensible Markup Language):提供了机构化文档的表层语法,但是没有任何具体的语义限制。

XML Schema:用于限制XML文档的结构。

RDF(Resource Description Framework):用于定义对象(“资源”)和对象之间的关系,它提供了对象模型的简单的数据语义,并且使用基于XML的语法表达出来。

RDF Schema:是一种词汇描述语言,用于描述RDF资源所示的概念和属性之间的关系。

OWL(Web Ontology Language):它是一种用于描述元数据的本体语言,用于描述概念,属性,已及它们内部及之间的关系,包括概念的所属关系,不交关系,基数限制,属性的类型,相等,枚举等。

3 范畴论

范畴是从数学的各个领域中概况出来的一个高度抽象的数学系统。它的提出被普遍的运用到了计算机科学的各个领域,解决和解释其领域的科学问题。下面先介绍一下范畴论中需要用到的知识。

一个范畴C由下列内容组成:

(1)一个对象类ob(C),ob(C)的元称为C中的对象,通常用A,B,…等表示范畴的对象。

(2)一个态射类Mor(C),Mor(C)的元称为C中的态射。对于C中对象的每个有序偶(A,B),对应有唯一的一个集 HomC(A,B),简记作 Hom(A,B)。Hom(A,B)中的元称为C中以A为论域,以B为余论域的态射。

若f ∈Hom(A,B),则记作f:A→B.有时也用dom(f),cod(f)分别表示f的论域A,余论域B。

(3)对于C中对象的每个有序三元组(A,B,C)对应一个称为合成(或复合)的映射Hom(A,B)×Hom(B,C)→Hom(A,C),即(f,g)∣→ g。f,g。f称为f和g的合成(或复合)。

要求C中的对象和态射满足下列公理:

(1)若(A,B)≠(C,D),则Hom(A,B)∩Hom(C,D)为空;

(2)若f∈Hom(A,B),g∈Hom(B,C),h∈Hom(C,D),则(h。g)。f=h 。(g 。f);

(3)任意 A∈ob(C),存在 idA∈Hom(A,A),使得任意f∈Hom(A,B),任意g∈Hom(C,A)有f。idA=f,idA。g=g,idA称为A上的恒同态射。

图是定义范畴的基础,范畴是图加上满足某种条件的图中箭头的合成规则。于是范畴则可看成为一个有向图,如图2所示。图中的节点对应范畴中的对象,箭头对应范畴中的态射,每个箭头有一个源(source)(或论域(domain))节点和目标(target)(或余论域(codomain))节点。

图2 范畴图形表示Fig.2 Graph of category theory

4 用范畴论研究Web中的本体

现在我们用范畴论的思想来描述研究Web中的本体论,首先要构造范畴论中存在的对象和对象之间的关系。从本体论概念出发,我们知道本体论描述的是概念的集合和概念之间关系。通过概念的组合可以表现具体的事物,即我们可以把概念的组合关系看成是对象间的关系。如“小王是学生”,”小王“是姓名的概念,“学生”是教学方面的概念。但是把其两个概念组合成一块,“小王”具有了人的特征,“学生”也具有了学生中的某些特征。我们把人和学生是抽象化时,它们就是为类,通过类在把其实例化为对象。于是我们有理由知道,”小王“是人类的对象,并且“小王”还是学生类的对象。对本体概念的组合就是对象,表现了一个具体有意义的事物。而概念间的关系就转化为对应的对象和对象之间的关系,这个关系可以表示为范畴论中对象和对象的关系,即态射。

现在我们用形式化的方式来表示本体,根据本体论的定义我们设本体对象O1(C,R,Hc,rel),则c1∪c3∪…∪cn∈A,c2∪c4∪…∪cn+1∈B 为对象,而(c1,c2…)∈C。因c1,c2…概念中存在的关系R,于是A和B之间也存在着关系。A—>B的态射为概念之间的关系f∈R,即R是由概念和概念之间的关系来确立对象和对象之间的关系。如学校层次结构关系,“小王是学生”,“李xx是老师”。在学校层次结构中,概念“学生”和“老师”有明确的关系。老师是学校教职工,学生是学校的学员,他们之间有授课与听课的关系。通过这样的规则,此时用概念间的关系来对应对象间的关系“小王是李xx的学生”。这样就得到了一个通过集成的信息。

在本体论中存在了概念和概念之间的关系,如层次关系等,通过这些关系才能把实体数据给联系在一块。根据范畴的合成、推出和拉回,通过概念和概念之间的关系把对象和对象连接起来,使得世界就像一张网。如图3所示,实例本体的关系。

图3 实例本体关系Fig.3 The instance ontology relationship

当用户查询信息时,代理软件可以扫描和解释网页上的信息通过的就是本体论的概念。根据概念来查询信息,并把和其概念的相关信息进行筛选来得到用户想要的数据。

5 结束语

由于互联网的运用越来越广泛,并且推动着互联网的发展。人们对Web的研究也一直在继续,于是Web就经过了不断的演化来符合人们的需求。现在Web研究人员正热衷于Web3.0的研究。语义网是实现Web3.0的关键技术,而要使计算机能够解释网页则要通过本体来实现。因为本体是表示概念与概念之间的关系,于是利用范畴论的原理来对本体论进行了研究,为Web的研究提供了数学理论。随着人们的对Web的研究,将最终实现便利人们生活和工作方式的Web诞生。但是对于人类不断改变的需求,Web的研究也将不会停止。

[1]杨先娣,何宁,吴黎兵.基于范畴论的本体集成描述[J]. 计算机工程,2009,35(6):76-78.

[2]Jams,Hendler.Web 3.0:Chicken Farms on the Semantic Web[J].Computer,2008(41):106-108.

[3]Jams,Hendler.Web 3.0 Emerging[J].Computer,2009(42):111-113.

[4]Jams,Hendler.Web3.0:TheDawnofSemantic Search[J].Computer,2010(43):77-80.

[5]Malik Muhammad Imran Pattal,LI yuan,ZENG Jianqiu.Web3.0:A real person Web![J].2009 Third International Conference on Next Generation Mobile Applications,Services and Technologies,2009:125-128.

[6]罗泰晔.Web3.0初探[J].情报检索,2009(2):101-103.

[7]陈意云.计算机科学中的范畴论[M].安徽:中国科学技术大学出版社,1993:65-113.

[8]郑崇友,樊磊,催宏斌.Fram与连续格[M].北京:首都师范大学出版社,2000:1-38.

[9]Grigoris Anotoniou,Frank van Harmelen.语义网基础教程[M].陈小平,等,译.北京:机械工业出版社,2008:1-15.

猜你喜欢

论域本体论范畴
批评话语分析的论辩范畴研究
正合范畴中的复形、余挠对及粘合
基于变论域模糊控制的Taylor逼近型内模PID算法
Clean-正合和Clean-导出范畴
CP论题能为本体论论证提供辩护吗?
张栻的本体论建构及其体用逻辑探析
变论域自适应模糊PID控制系统仿真与应用
张载哲学的本体论结构与归宿
双论域粗糙集在故障诊断中的应用
微电影本体论辨析