APP下载

基于OWL的《中国分类主题词表》本体建模设计分析

2013-09-12德州学院图书馆山东德州253023

图书馆建设 2013年7期
关键词:主题词表类目附表

韩 洁 (德州学院图书馆 山东 德州 253023)

本体是一种可以在语义和知识层次上描述信息系统的概念模型建模工具。本体建模完全可以以传统的知识组织体系为基础,利用已有的知识成果,吸取其中的概念、词汇,将传统知识转化为新型的知识组织体系。《中国分类主题词表》是图书情报领域依据国际标准制定的一个术语控制工具,它选词多、范围广,很适合建立大型的本体。本文以《中国分类主题词表》为母体,以OWL(Web Ontology Language,网络本体语言)对《中国分类主题词表》转换本体进行形象化描述,构建基于OWL的知识组织体系。

1 OWL及OWL约束公理

1.1 OWL含义

OWL是W3C(World Wide Web Consortium,万维网联盟)开发的一种网络本体语言,用来对本体进行语义描述,是W3C推荐的语义互联网中本体描述语言的标准。OWL语言具有优良的定义语法和语义、高效率的推理支持、充分的表达能力和表达的方便性[1],可以将设计知识术语间的语义信息与关系精准地表达出来。

1.2 OWL约束公理

OWL约束公理是对概念所包含的各种约束和限制条件进行详尽的描述,是OWL类公理的核心部分。OWL约束公理可分为基数约束和值约束两种。基数约束包括以下3种:①owl:minCardinality:指被约束属性的取值范围最少应取owl:minCardinality所指定的数目的不同值。用符号“≥”表示。②owl:maxCardinality:指被约束属性的取值范围内最多能取owl:maxCardinality所指定的数目的不同值。用符号“≤”表示。③owl:cardinality:指认定被约束属性的取值基数,可以使用一组取值一致的owl:minCardinality和owl:maxCardinality来取代。用符号“=”表示。值约束包括以下3种:①owl:allValuesFrom: 用符号表示,相当于逻辑中的全称量词。每一个有指定属性的类别实例,其属性的值必须是由owl:allValuesFrom从句指定的类的实例。取值可以为空。②owl:hasValue:用符号“ ”表示。被约束属性的取值范围内至少有一个是owl:hasValue所规定的值或者与所规定的值语义相当。取值不能为空。③owl:someValuesFrom:用符表示,相当于逻辑中的存在量词。约束属性的取值范围内至少有一个是owl:someValuesFrom所规定的类别的实例。取值不可为空。

2 《中国分类主题词表》本体建构方案

《中国分类主题词表》的本体建构应依照两条标准:一是以词语为中心类(Class),以类号为类的属性(Property)值,以便与叙词表和自然语言系统实现互操作,这是本体或语义网的关键目标,这样做的好处是可以在语义环境中实现多个叙词表、分类表的语义集成[2];二是以《中国分类主题词表》主表的词语间关系作为本体处理的重点,以同一、等级等词语间关系作为本体处理的基本关系,这样做的好处是方便与一般语言关系的处理方法保持统一。

2.1 本体建构之主表

建立一个“中国分类主题词表本体”,这个本体把《中国分类主题词表》的一级类(基本大类)根据情况设为Top Class (最高类)、Group Class (类组,即几个并列概念共有一个类号,如《中国分类主题词表》的G类)、Double Scheme Class (双表类,即用双表列类的大类,如《中国分类主题词表》的法律类);二、三级类根据情况分别设置Subject Class (学科类,指可以成为“XX学”或分支学科的类)或Main Class (主类,指非学科性的知识部门);三级以下类采用Concept Class(概念类,即概念及其体系类目)。类间关系描述采用rdfs:subClassOf、owl:equivalentClass、owl:unionOf、owl:intersectionOf等OWL语句进行描述[3]。本文采用的方案如表1所示。

表1 《中国分类主题词表》主表的类框架及其OWL描述

表2 《中国分类主题词表》附表的类型及类本体关系

2.2 本体建构之附表

《中国分类主题词表》附表 (Appendix Scheme)应作为一般的概念表进行处理,即地区、民族和时代都要以语词为中心,再用值域号码作为其复分属性值。也就是说,我们可以采用一般的时代、国家作为本体的类别,然后用OWL 的定义域(Domain)定义该类应该在哪个附表内,用值域( Range)定义该大类的复分号。例如,英国的复分号是“565”,据上述分析可知其定义域是“CLC;WorldDistrictList”,其值域是“CLC-WorldDistrict SchemeCode; 565”。 当主表与附表联合起来使用时,我们可以将此看作是主表概念和附表概念的交叉组配,用<owl:intersectionOf>语句进行两概念的组配和类号组合[4]。其基本结构见表 2。

3 《中国分类主题词表》类目关系的OWL描述

3.1 主表类目关系的OWL描述

《中国分类主题词表》的类间关系主要有等级关系、并列关系、同一关系和相关关系。

3.1.1 等级关系的OWL描述

《中国分类主题词表》中类目之间的等级关系在本体中表现为“父类—子类”关系,用“A rdfs:subClassOf B”表示。OWL描述如下:

3.1.2 并列关系的OWL描述

3.1.3 同一关系的OWL描述

《中国分类主题词表》中类目之间的同一关系在本体中表现为交替关系,用“hasAlternativeClass”表示。OWL描述如下:

3.1.4 相关关系的OWL描述

《中国分类主题词表》中类目之间的相关关系在本体中表现为交叉关系,用“owl:intersectionOf”表示。OWL描述如下:

3.2 附表类目关系的OWL描述

《中国分类主题词表》附表主要包括总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、世界种族与民族表、中国民族表、通用时间和地点表等。笔者以世界地区表中上位类“南美洲”、下位类“巴西”为例,描述类目关系如下:

4 《中国分类主题词表》本体转换例证

本文选用Proté gé 3.2来构建《中国分类主题词表》中旅游领域本体。

4.1 旅游领域本体中的类及层次结构

旅游要求有服务提供机构进行支撑。流程类服务包括订票服务、租车服务、订旅馆服务和导游服务4个子类。根据服务流程规定,网络上应有旅游公司、旅馆和交通运输公司的信息。根据所选择交通工具的差异,交通运输公司应有子类:航空公司、火车站点、出租车公司和公交公司等。而旅馆按星级可划为:普通旅店和星级宾馆(包括一至五星级)。人作为旅游中信息交互的主体,在服务流程中主要包括导游和游客。因此,旅游领域本体应有自然人及其子类导游和游客。根据旅游服务,交通工具主要有:飞机、火车、出租车、公交车。景区主要分为自然景观和人文景观。其中,天象景观、水文景观和地文景观属于自然景观;而文物古迹、革命活动地、民风民俗、宗教建筑等归类于人文景观。地点包括出发地和目的地,按地区行政区划包括国家、省、城市(见下页表3)。

4.2 旅游领域类本体属性的创建及实例说明

人通过姓名、年龄、电话、E-mail等属性进行描述,同样的,服务机构也具有相应属性,并也可通过单位名、单位地址、电话、E-mail等属性进行描述。导游引导游客,即游客被导游引导,故用“引导”、“被引导”关联导游和游客,“引导”与“被引导”为互逆关系,因此设定“引导”的Facets为InverseOf,“被引导”的Facets也为InverseOf[5],其部分OWL描述如下:

表3 旅游领域类本体层次结构表

[1]Petrinja E.A Provenance Data Management System for Improving the Product Modeling Process[J].Automation in Construction,2006(4):485-497.

[2]中国科学技术信息研究所.国内外词系统发展情况调研报告[R].北京:中国科学技术信息研究所,2007:5-6.

[3]段荣婷.基于简约知识组织系统的《中国档案主题词表》语义网络化应用研究[J].现代图书情报技术,2010(10):33-42.

[4]Assem M, Menken M R, Shreiber G,et al.A Method for Converting Thesauri to RDF / OWL[EB/OL].[2013-02-01].http://link.springer.com/chapter/10.1007/978-3-540-30475-3_3#page-1.

[5]陈彦萍.基于OWL的旅游领域本体的构建[J].西安邮电学院学报,2011(1):78-82.

猜你喜欢

主题词表类目附表
《汉语主题词表》
附表4 湖南省饲料添加剂企业名单
附表4 湖南省饲料添加剂企业名单(2021 年1 月1 日—2021 年2 月28 日)
《〈汉语主题词表〉构建研究》
《汉语主题词表》
《〈汉语主题词表〉构建研究》
本期练习题类目参考答案及提示
附表3 湖南省2018年饲料添加剂、添加剂预混合饲料产品批准文号名单(二)
湖南省2017年饲料添加剂产品批准文号名单
《中图法》第5版交替类目研究综述