考虑空间关系的极地科学数据本体表达与构建方法研究
2018-03-03黄冬梅张倩王建魏泉苗史景聪朱建钢
黄冬梅 张倩 王建 魏泉苗 史景聪 朱建钢
(1上海海洋大学,上海 201306; 2国家海洋局东海分局,上海 200136; 3中国极地研究中心,上海 200136)
0 引言
极地科学数据作为极地科学考察活动所产生的原始性、基础性数据及其实验分析研究结果,具有重要的科学价值、经济价值和社会价值[1]。自极地考察以来,各国相继构建极地数据库存储和管理所获取的极地科学数据,如: 美国国家冰雪数据中心[2]、英国南极调查局[3]、澳大利亚南极局[4]等。同样,中国南北极数据中心(Chinese National Arctic and Antarctic Data Center,简称NADC)作为我国极地数据库的极地区域数据共享运行服务中心,已经收集了我国极地考察20多年以来的主要极地科学数据[5],这些数据得来不易、非常宝贵,有必要进行科学管理、深入挖掘和充分利用。
NADC是国家地球系统科学数据共享平台的一个特色分中心,自2009年进入运行服务阶段以来为广大极地科学工作者访问和获取极地信息提供了优质的数据资源,资源利用率大大提高,在极地科研建设中发挥着积极的作用。目前NADC采用的是考虑数据属性的元数据方式发布和共享极地科学数据[6]。研究人员查找数据时,主要依据极地数据库中提供的元数据进行关键词或主题词的搜索,采用的匹配算法是通用的字符匹配方式。由此查找出来的信息关联性较弱,会出现查不全和查不准的问题。同时极地科学数据具有多学科交叉、数据的属性信息与数据所处的空间位置直接关联的特点,而目前在极地元数据库中没有表达数据之间的空间关系的数据内容,不能实现空间关联信息查找。本体作为共享的概念模型的形式化说明,能对对象以及概念之间的相互关系进行明确的定义,考虑空间关系的本体能够清晰地表达空间数据之间的空间关系及语义关系[7],实现基于空间关系的数据匹配,提高数据的查全率与查准率。
目前对极地本体研究的文献少之又少,Cheng等[8]提出了考虑神经网络的自动查询模型,建立了极地本体,实现极地数据共享平台之间数据的一致性,但没有对空间关系进行研究。在考虑空间关系的本体构建方面,宋佳等[9]研究了考虑 GML的时空地理本体模型,此模型包括要素模型、几何模型和空间关系模型,并给出了应用实例,但是 GML语言的语义表达能力较弱[10],并且文章没有对概念分类体系和属性分类体系做具体说明。马雷雷等[11]提出了符合常识空间认知的空间关系本体模型,但在本体构建方法上却没有对空间关系的表达做详细的描述。He等[12]提出了一种模糊空间关系本体驱动的方法,其本体搭建的目的是用来检测复杂的地理空间特征,并非为了数据检索。Hudelot等[13]通过数学形态学和描述逻辑学构建空间关系本体,但构建的是针对医学图像的本体,其涉及的空间关系不能完全适用于极地本体。综合现有文献资料来看,目前还没有专门针对极地数据并考虑空间关系的极地科学数据本体构建研究。
本文从研究极地科学数据的基本概念着手,提出了考虑空间关系的极地科学数据本体构建方法,并对其中涉及的概念模型、空间属性、语义属性和空间关系的表达进行论述,最后利用protégé本体构建工具完成考虑空间关系的极地科学数据本体构建与 OWL表达,有效提高了极地数据的查全率和查准率,为极地科学数据的共享提供了有效的解决方案。
1 考虑空间关系的本体构建方法
常见的本体构建方法主要有骨架法、TOVE法、七步法等。骨架法[14]是一种构建企业本体的方法,其主要步骤为: 明确本体的应用目的和范围,分析本体,表示本体,评价本体,建立本体。TOVE法[15]是多伦多大学企业集成实验室开发研制的,其主要步骤为: 设计本体构建动机,非形式化的能力问题,术语的规范化,形式化公理,使知识本体趋于完备。七步法[16]主要用于领域本体的构建,其主要步骤为: 确定本体的领域及范畴,考察是否有可复用本体,列出重要术语,定义概念,定义概念的属性,定义属性的分面,创建实例[17]。骨架法和TOVE法没有详细描述关于如何获取概念和属性等的相关技术方法,七步法相对成熟,其更多考虑的是通用性,使得构建的本体针对性不强,没有详细描述具有空间位置信息的本体构建策略,并且以上 3个方法也没有考虑当本体具体应用发生变化后,需要进行本体维护和本体进化环节。
本文综合上述几种方法,以中国南北极数据中心的元数据库为基准,考虑到极地元数据仅包含了数据所在的空间位置信息,但是没有包含表达数据间空间关系的内容,提出了一种考虑空间关系的极地科学数据本体的构建方法,构建过程如图1所示。
具体步骤描述如下:
1.需求分析: 确定极地本体的应用目的、用途及用户群体;
2.信息采集: 收集极地的元数据信息及用户群体信息;
3.概念和属性的抽取: 对极地数据元数据项(比如空间范围、地点)进行分析,定义概念及概念的属性;
4.判断概念与概念之间的关系:(1)判断语义关系;(2)判断空间关系: 判断空间范围项是否有值,如果有则取出精确位置; 反之,根据地点项获得概略数据范围,根据精确位置信息或概略数据范围判断数据间的空间关系;
5.利用本体构建的5条准则对极地本体进行检验,检验是否符合标准,若不符合,返回3。直至满足要求;
6.用本体构建软件构建极地本体,通过NADC元数据进行实例数据库构建;
7.对极地本体进行归档;
8.如果极地本体有新的概念、属性及关系的加入,从步骤3开始对已构建本体进行扩充与更新。
图1 考虑空间关系的极地科学数据本体构建方法Fig.1.Construction method of polar scientific data ontology considering spatial relations
2 考虑空间关系的极地科学数据本体模型框架
本体是对数据共享概念模型的形式化说明,描述极地科学数据,需要对其有关的语义概念、属性和数据间的关系进行概括说明,除通用领域本体模型框架中包含的语义概念分类、数值属性分类和语义关系分类外,本文考虑极地科学数据所具有的空间位置特征,在数据间关系描述中增加了空间关系分类,构建了考虑空间关系的极地科学数据本体模型框架,如图2所示。
其中,极地科学数据语义概念分类体系是根据NADC元数据库中数据特征,并考虑本体构建的实践确立的,分为数据来源、数据本质和数据形态; 极地科学数据属性分类提取了元数据中只具有描述性的数据项并进行概括抽象后确定的,包括分辨率、采集高度深度、空间范围、采集时间和数据标识; 极地科学数据语义关系描述的是概念与概念、概念与实例、实例与实例之间的关联关系,分为父子关系、等同关系、互斥关系以及类与个体关系; 极地科学数据空间关系是极地空间实例之间存在的与空间特性有关的关系,分为拓扑关系、度量关系和方位关系。
图2 考虑空间关系的极地科学数据本体模型框架Fig.2.Model framework of polar scientific data ontology considering spatial relations
3 极地科学数据本体构建
构建完整的考虑空间关系的极地科学数据本体,需要将数据中的语义概念、数据属性、语义关系和空间关系进行清楚的表达。根据中国南北极数据中心的元数据库内容和极地科学数据现有的数据情况,目前,主要可获得的数据信息包括: 标识符、标题、空间范围、时间范围和搭载平台等。但是这些信息不能直接用来构建极地本体,需要对这些信息进行工程化和系统化的处理和扩展。
3.1 语义概念分类体系
概念是知识的基本单元,能反映事物特有的属性[18]。本文根据极地数据的类型格式、时间范围、空间范围、产生方式、要素内容等特征,结合极地元数据目录,按照“全面性、一致性”的原则,从数据来源、数据本质和数据形态 3方面对极地科学数据的语义概念进行了概括分类[19]。其中,数据来源为极地科学数据的可信度提供了重要的参考价值; 数据本质提供数据的具体信息;数据形态反映了数据的格式和语言特征。据此得到的极地科学数据语义概念层次关系如图3所示。
图3 极地科学数据语义概念层次关系Fig.3.Semantic concept hierarchical relationships of polar scientific data
3.2 属性分类体系
数值属性信息是极地科学数据的重要内容,是对极地科学数据概念的具体描述。对极地现有的元数据进行提炼,把具有描述性的数据项作为数值属性,比如元数据项中的“标题”、“标识符”等是对概念分类体系中“数据标识”的描述,得到极地科学数据数值属性层次关系,如图4所示。
图4 极地科学数据数值属性层次关系Fig.4.Numerical attribute hierarchical relationships of polar scientific data
3.3 语义关系分类体系
语义关系是用来描述实例与实例之间、实例与概念之间以及概念与概念之间在语义层次上的关联关系[20]。根据贾黎莉[21]的研究,相关的语义关系主要有12种。通过考察NADC中存储的数据内容,结合构建极地科学数据本体实践,本文将这12种语义关系进行了组合和筛选,认为考虑空间关系的极地科学数据本体的语义关系主要分为4类,如图5所示。
图5 极地科学数据语义关系Fig.5.Semantic relations of polar scientific data
1.父子关系。SubClassOf/SuperClassOf,主要用来描述极地科学数据概念之间的父子关系,如“极地海洋学”与“海洋地质学”;
2.等同关系。EquivalentTo,用来描述同级极地科学数据概念或实例之间的等价关系,如采集时间“第29次南极考察”与“2012年10月至2013年4月”;
3.互斥关系。DisjointWith,用来描述同级极地科学数据概念之间及相同性质实例之间的互斥关系,如“第20次南极考察”与“第30次南极考察”;
4.类与个体关系。Members,用来描述极地科学数据概念与相应实例之间的关系,如“数据采集者”与实例“李云海”。
3.4 空间关系分类体系
在本极地本体构建的过程中,着重考虑了空间关系对极地本体搭建的重要作用,通过分析数据库中空间范围数据项或地点项,将极地数据的空间关系分为度量关系、方位关系和拓扑关系[22]三类。其中度量关系分为定量描述与定性描述,由于与度量关系有关的研究已经比较成熟,故文中不再详细描述。极地数据空间关系如图6所示。
3.4.1 拓扑关系
拓扑关系是重要的空间关系,目前,具有代表性的拓扑关系模型有 4-交模型,9-交模型和RCC模型等[23]。通过对拓扑关系模型的分析,以及结合极地科学数据的特点,本文采用 9-交模型对拓扑关系进行表达。9-交模型一共可以表达512种可能的空间关系,实际有意义的拓扑关系有49种,可抽象为点、线、面之间的关系,分为点点关系、点线关系、点面关系、线线关系、线面关系和面面关系[24]。例如,站位与航线之间具有“点在线上”的拓扑关系。但这49种拓扑关系在极地科学数据间并不都存在或有研究意义,例如,点点关系中“一点在其他诸点的几何中心点”,这个关系在构建极地本体中并不关注,故可以去除此关系。通过对极地科学数据的分析,本文共保留如图6所示的22种拓扑关系。
图6 极地科学数据空间关系Fig.6.Spatial relations of polar scientific data
3.4.2 方位关系
方位关系主要是对空间关系的定性描述,本文采用锥形模型对极地科学数据的方位进行表达。针对方位关系的探讨,Haar[25]最早提出了四方位锥形模型。Frank[26]提出了八方位锥形模型。王中辉等[27]通过对空间方向的重新划分提出了一种改进的锥形方向关系模型。极地元数据中对具有空间位置的科考数据记录的是该数据的最小外接矩形范围,并且数据间存在相交的情况。现有的锥形模型考虑的是外接矩形之外的方位,不能表达两个要素在空间中相交的方位关系。本文在现有锥形模型的基础上进行了改进,以满足极地数据之间的方位关系需求,具体步骤如图7所示。在改进的锥形模型中,源目标K总会落在参考目标H的外方位区域Eo(东)、So(南)、Wo(西)、No(北)、NWo(西北)、NEo(东北)、SWo(西南)、SEo(东南)、Same(参考目标最小外接矩形),和内方位区域Ei(东)、Si(南)、Wi(西)、Ni(北)、NWi(西北)、NEi(东北)、SWi(西南)、SEi(东南)、I(内方位中心部分)中的一个或多个方位区域中,分别求源目标K和各方位区域的交,得到方位关系矩阵,如公式(1)所示:
式中,若源目标K与参考目标H的某一方位区域的交集非空,则矩阵中相应的元素为1否则为0。
以“中国南极中山站地区高分辨率平面卫星影像数据”(以下简称H)和“2013/2015年中国南极考察海冰浮标数据(以下简称K)”为例,其中,H的空间范围为: 68°S—71°S,71°E—78°E,通过改进的锥形模型得到H和K的方位关系如图8所示。根据式(1),图7中H和K对应的矩阵表达式如公式(2)所示:
图7 构建方位关系锥形模型流程图Fig.7.Construction process of azimuthal relationship cone model
图8 “中国南极中山站地区高分辨率平面卫星影像数据”和“2013/2015年中国南极考察海冰浮标数据”的方位关系Fig.8.Position relation between "high resolution planar satellite image data of the Antarctic Zhongshan Station" and"2013/2015 China Antarctic Survey sea ice buoy data"
4 考虑空间关系科学数据本体应用分析
本文以NADC为本体构建数据来源,NADC存储和管理了大量我国采集的南北极数据,包括极地海洋学、极地生物学和极地地质学等10大学科; 数据的地理位置覆盖了整个极区和历届科考船走航范围,包括普里兹湾、拉斯曼丘陵、罗斯海等重要考察区域; 数据内容包括地图数据、遥感影像数据以及南极长城站、中山站、北极黄河站等长期监测的数据[19]。NADC目前共有1 099条元数据(截至2017年4月)。
采用具有逻辑描述和演算能力的OWL语言,按照类和属性的形式描述了极地本体所包含的结构。并用本体构建工具 Protégé进行了考虑空间关系的极地科学数据本体构建。在Classes模块中构建极地科学数据对象概念及概念之间的语义关系; 在ObjectProperties和DataProperties中添加极地科学数据的属性概念,包括对象属性和数据属性; 在 Individuals中构建极地科学数据概念的实例,并把不同实例的关系、属性,以及规则约束进行了清楚的表达。
本文选取中山站和拉斯曼丘陵以及邻近区域的具有代表性的 500条数据作为实验数据,建立了考虑空间关系的极地科学数据本体库。使用查全率(式(3))和查准率(式(4))对本体库进行评价。
在NADC上根据地点检索“拉斯曼丘陵”,共得到13条数据(图9)。利用考虑空间关系的极地科学数据本体进行检索,检索到相关数据共 211条(图10),这211条检索结果不仅包括了与拉斯曼丘陵在关键词完全匹配的记录,还包括了与拉斯曼丘陵空间分布上存在包含、重合及相交关系的数据。通过计算,NADC的查全率为6%、查准率为6%; 在本体库中的查全率为100%、查准率为100%。
图9 NADC检索拉斯曼丘陵数据结果Fig.9.Retrieval results of the Larsemann Hills data by NADC
图10 本体库检索拉斯曼丘陵数据结果Fig.10.Retrieval results of the Larsemann Hills data by ontology library
另外,考虑空间关系的极地科学数据本体能够通过空间关系的推理实现空间关联信息的查找。例如,查找“2013/2015年中国南极考察海冰浮标数据”,其空间范围为: 纬度南界–70,纬度北界–68,经度西界75,经度东界79。通过极地科学数据本体库查找,共检索到97条数据(图11),其中包含于此空间范围内的数据有 90条,与此空间范围相交的数据有5条,包含此空间范围的数据有2条。
图11 本体库空间关系关联信息检索结果Fig.11.Retrieves results by ontology library based on spatial relation of association information
通过以上对两种检索方法的对比可知,极地科学数据本体的搜索方法,在数据查全率和查准率上比以字符串匹配为核心的搜索方法有较大的优势,而且由于在本体构建中考虑了数据的空间关系,可以实现空间关联信息的查找。
5 总结与展望
本文从极地科学数据的基本概念和基本特征着手,通过对NADC中极地科学数据相关概念的梳理,参照极地元数据库,对极地科学数据相关的概念、属性、关系和实例做了分析与分类,在关系中特别对数据间的空间关系进行了详细描述,提出了考虑空间关系的极地数据本体构建方法,最后根据此方法,搭建了考虑空间关系的极地科学数据本体。
本文通过建立极地科学数据本体库,实现了空间关联信息的查找,提高了极地科学数据查询结果的查全率和查准率。目前,本文只考虑了二维层面的空间关系,不能实现相同位置不同水深的科学数据查询。极地科学数据的三维空间关系的本体构建将是下一步的研究重点。另外,极地本体的研究和构建是一个庞大的工程,需要相关领域专家的参与,这样才能使极地科学数据空间关系本体构建更准确且完整,才能更有效地实现极地科学数据的共享。
1 李升贵.构建极地“三大平台”推动“数字极地”建设—— 908专项“数字海洋”极地研究中心节点成果与应用[J].海洋开发与管理,2010,27(6): 49—57.
2 [EB/OL].https://nsidc.org/.
3 British Antarctic Survey.[EB/OL].http://www.antarctica.ac.uk/.
4 Australian Government.Australian Antarctic division: leading Australia’s Antarctic program[EB/OL].http://www.aad.gov.au/.
5 中国南北极数据中心.[EB/OL].http://www.chinare.org.cn/index/.
6 程文芳,王伟,张洁,等.极地科学数据共享平台的设计与实现[J].海洋科学,2015,39(5): 75—84.
7 陈薇.面向语义信息检索的模糊本体自动化构建的研究[D].武汉: 华中师范大学,2010.
8 Cheng W F,Zhang X,Zhu J G.A novel Chinese polar knowledge repository based on polar data-sharing ontology[J].Wuhan University Journal of Natural Sciences,2016,21(4): 307—318.
9 宋佳,诸云强,王卷乐,等.基于GML的时空地理本体模型构建及应用研究[J].地球信息科学学报,2009,11(4): 442—451.
10 黄茂军.地理本体的关键问题和应用研究[M].合肥: 中国科学技术大学出版社,2006.
11 马雷雷.空间关系本体描述与推理机制研究[D].郑州: 解放军信息工程大学,2012.
12 He L L,Yue P,Jiang L C,et al.Fuzzy spatial relation ontology driven detection of complex geospatial features in a web service environment[J].Earth Science Informatics,2015,8(1): 63—76.
13 Hudelot C,Atif J,Bloch I.A spatial relation ontology using mathematical morphology and description logics for spatial reasoning[C]//ECAI-08 Workshop on Spatial and Temporal Reasoning.Patras,Greece: ECAI,2008: 21—25.
14 Uschold M,King M.Toward a methodology for building ontology[C]//Workshop on Basic Ontological Issues in Knowledge Sharing.Edinburgh: The University of Edinburgh,1995.
15 Grüninger M,Fox M S.Methodology for the design and evaluation of ontologies[C]//Workshop on Basic Ontological Issues in Knowledge Sharing.Montreal: IJCAI,1995.
16 Noy N F,McGuinness D L.Ontology development 101: a guide to creating your first ontology[R].Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880,2001.
17 徐安建,王海涛,尉伯虎,等.地理本体构建方法研究[J].测绘与空间地理信息,2013,36(7): 38—40.
18 马雷雷,李宏伟,连世伟,等.一种自然灾害事件领域本体建模方法[J].地理与地理信息科学,2016,32(1): 12—17.
19 罗侃,诸云强,程文芳,等.极地科学数据关联方法及应用研究[J].极地研究,2016,28(3): 361—369.
20 王东旭,诸云强,潘鹏,等.地理数据空间本体构建及其在数据检索中的应用[J].地球信息科学学报,2016,18(4): 443—452.
21 贾黎莉.Ontology构建中概念间关系的研究[D].北京: 中国农业科学院,2007.
22 吴华意,刘波,李大军,等.空间对象拓扑关系研究综述[J].武汉大学学报·信息科学版,2014,39(11): 1269—1276.
23 廖伟华.基于二元关系的GIS实体拓扑关系的粗糙表达[J].地理空间信息,2012,10(1): 97—98,106.
24 邬伦,刘瑜,张晶,等.地理信息系统: 原理、方法和应用[M].北京: 科学出版社,2001: 59—60,19.
25 Haar R.Computational models of spatial relations[R].Technical Report: TR-478,MSC-72-03610.College Park,MD: University of Maryland,1976.
26 Frank A U.Qualitative spatial reasoning: cardinal directions as an example[J].International Journal of Geographical Information Systems,1996,10(3): 269—290.
27 王中辉,闫浩文.一种改进的锥形方向关系模型[J].武汉大学学报·信息科学版,2014,39(2): 186—190.