地学数据本体支持下的科学数据集成方法
2017-12-13李威蓉诸云强5侯志伟王筱萱
孙 凯 贾 萍 李威蓉 诸云强5,6 杨 杰 侯志伟 王筱萱
(1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101;2.中国科学院大学,北京 100049;3. 国土资源部信息中心, 北京 100812;4.山东理工大学建筑工程学院,山东淄博 255000;5.白洋淀流域生态保护与京津冀可持续发展协同创新中心,河北保定 071002;6.江苏省地理信息资源开发与利用协同创新中心,江苏南京 210023)
地学数据本体支持下的科学数据集成方法
孙 凯1,2贾 萍3李威蓉4诸云强1,5,6杨 杰1,2侯志伟1,2王筱萱1
(1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101;2.中国科学院大学,北京 100049;3. 国土资源部信息中心, 北京 100812;4.山东理工大学建筑工程学院,山东淄博 255000;5.白洋淀流域生态保护与京津冀可持续发展协同创新中心,河北保定 071002;6.江苏省地理信息资源开发与利用协同创新中心,江苏南京 210023)
科学数据的语义异构是数据集成共享的主要瓶颈。数据本体是解决数据语义异构的有效方法。首先在系统分析地学数据特征的基础上,提出地学数据本体的总体架构,重点研究地学数据本质内容本体和形态本体,并构建了地学数据本体库。进一步结合科学数据集成的需求,提出基于地学数据本体的数据集成总体流程。在此基础上,以科技基础性工作专项产出的科学数据为例,开展地学数据本体支持下的科学数据集成方法应用研究,证明本方法的可行性和有效性。
地学数据本体;语义异构;科学数据;数据集成;映射关系
1 引言
科学数据包含基本科学技术数据、资料及其相关信息[1],通常分为两大类型,一类是行业部门按照统一的规范标准长期采集和管理的科学数据;一类是国家各类科技计划项目在研究过程和结果中产生的并为支持科学研究而通过观测、监测、试验等站点采集的科学数据[2]。随着国家逐步加大对科学研究的投入,科学技术迅猛发展,科学数据迅速积累。与此同时,科学研究逐渐向以数据为中心、以数据为驱动的数据密集型科研范式(“第四范式”)转变[3],科学数据的集成共享逐渐成为迫切需求。
有效的数据集成是数据共享、传播及应用的前提,是数据价值最大化的基础,它是指将分散的部分结合形成一个整体,将数据有机地关联起来[4]。数据集成不是简单地将数据合并在一起,而是数据集的重建模过程,集成时需充分考虑数据自身特征。数据的来源、格式、学科领域等的不同,使得数据间存在显著的异构性。常用的联邦数据库、中间件和数据仓库三种异构数据集成方法,可以有效解决数据的结构异构、语法异构和系统异构,但无法解决数据间的语义异构。
本体是对共享概念模型明确的形式化规范说明[5-6],可以用于描述全部数据源共同认可的、可共享的知识,因而本体可作为数据集成的语义基础。为了在数据集成过程中,充分考虑数据元素间的语义异构,有效解决语义异构问题[7],基于本体的异构数据集成方法已成为研究的热点[7-13]。Wache等[9]从本体角色、表示、映射和工程4个方面对基于本体的数据集成方法进行了综合分析,并根据本体在数据集成过程的使用方式将其划分为单一本体方法、多本体方法和混合本体方法。Fu等[8]以异构数据集成为目标,采用形式概念分析方法实现半自动化构建本体,并以工业数据集为案例证明了该方法的适用性。李星毅等[10]采用基于混合本体的异构数据集成方法,通过构建全局和局部本体以及它们之间的映射关系,实现了数据的集成。朱勤斯等[11]详细阐述了基于本体的数据集成方法的步骤,并采用语义网技术研发了数据集成系统。
地学领域的本体理论及其应用研究已取得丰硕的成果,形成了GeoNames[14]、Time Ontology in OWL等经典地理时空本体以及土地利用本体[15]以及Chinese Time Ontology[16]等领域本体,在地学本体的概念、形式化表达、应用等方面,为本文提供了坚实的研究基础。但上述成果或是基础本体而过于通用,或是应用驱动的领域本体而较为狭窄,均无法适用于地学数据的集成共享。多源地学数据的集成与共享,需要有专门的“数据本体”的支撑来处理数据间的语义异构,实现对数据信息的统一化、规范化描述,以达到数据集间语义的共同理解,实现数据真正的有机集中。
综上所述,本文提出通过构建专门的“数据本体”来解决地学数据集成共享中的语义异构难题。
2 地学数据本体构建
2.1 地学数据特征分析
地学数据是表达特定地理位置上,现实世界中地理现象或实体的状态、属性以及分布特征等信息的数据[17],呈现分布式、多尺度(时间多尺度和空间多尺度)、不确定性等特点。其具有时空、要素等基本特征,还有数据形态、来源等内容。其中,时空、要素特征是数据内容的决定因素和唯一性标识,称之为数据的本质特征[18]。形态特征[19]是对“数据形状”的描述,包含数据基准、格式、类型、比例尺、单位等内容。来源特征是指数据在完整的生命周期(数据从创建到销毁的过程)内,记录在数据活动(数据采集、数据加工、数据分发、数据管理等)过程中所涉及的数据源、责任人、责任团体、时间、空间等相关信息。
地学数据集成是在统一的数据基准下,不同类型和格式的数据时空、属性信息的有机集中,集成过程事实上是数据的本质和形态信息的集成。所以,基于地学数据本体的数据集成主要需要时空本体、要素本体和形态本体作为语义支撑。地学数据本体是对地学数据领域的共享知识(概念及其关系)的形式化规范说明,即地学数据知识框架是本体构建的基础。本文以下内容将提出地学数据本体的总体框架,并重点阐述支撑地学数据集成的本质和形态本体。
2.2 地学数据本体总体架构
地学数据本体实现数据本质、形态和来源等语义信息的规范化描述,形成对应的本质内容本体、形态本体及来源本体,三者呈现与数据本身依次递减的耦合关系,其总体框架如图1所示。本质内容本体是地学数据本体的核心内容和基本维度,反映数据的时空、要素等核心内容。形态本体是对本质内容本体的重要补充,描述“数据的形状”信息[19]。本质和形态本体共同构成了数据本身内容的语义描述。而来源本体是对数据来源信息的规范化描述,是从数据使用的角度,对数据的质量和可靠性进行辅助评估,包括数据源、责任者、采集方法和加工方法等。
地学数据本质内容本体由时间本体、空间本体和要素本体组成。时间本体是对地学数据中涉及的时间概念及其关系的规范化表达,可分为基础时间本体和领域时间本体。其中,基础时间本体包含时间单位、时间关系及时间坐标系等与领域无关的通用时间概念,而领域时间本体包含历史朝代、历史事件、地质年代等领域应用时间概念。时间关系是时间实体在时间坐标系上的相互作用关系[20],根据时间区间代数理论[21],可以分为相接、相离、相交、相等和包含五类关系。空间本体是地学空间实体及其位置、形状、大小、状态等属性,以及相互间关系的形式化表达,主要包括境界区划本体、陆地水系本体、陆地地形本体、海域本体等。空间关系主要有拓扑关系、方位关系和度量关系3种。要素本体描述数据所涵盖的专题内容。本文结合科技基础性工作专项产生的科学数据(以下简称“科技基础性工作科学数据”)现况,参考《学科分类与代码国家标准》[22],并根据其学科分类对要素特征进行分析总结。要素特征间的关系主要是指其在学科类别中的层次(包含)关系。
图1 地学数据本体总体框架
形态本体实现在数据表达与可视化、组织与存储过程中形成的内在结构特征和外在形状特征等概念及其关系的语义表达,主要由数据格式本体、数据类型本体、存储介质本体,数据基准本体、数据精度本体,数据单位本体、数据语言本体等组成。形态本体的概念间不存在统一的关系体系,其概念关系主要由各个子概念的实例间关系组成。例如数据格式间的版本关系、扩展限定关系、容纳关系、同一家族关系等。
来源本体主要由数据活动本体和数据责任者本体组成。来源概念间关系主要包含数据间、数据活动间、数据责任者间及其相互之间的多重关系。例如,数据间的融合关系、衍生关系,数据活动间的共生关系,数据责任者间的授权关系、合作关系等。
2.3 地学数据本体构建实践
本体构建是利用本体构建工具将本体概念、属性、关系、实例和约束等实现为本体文件的过程。目前,本体构建的方法主要有骨架法[23]、七步法[24]、企业建模法[25]、Methontology方法[26]和Bernaras方法[27]等。此外,为了避免由于领域知识不断扩展和更新而导致本体的大规模重构,出现了本体的模块化构建方法[28]。本文在七步法的基础上,融合模块化的构建原则,形成地学数据本体构建的总体流程(图2)。本体构建工具采用protégé。
本体模块划分是在考虑“模块内聚合度高和模块间耦合度低”的分解原则基础上,将地学数据本体的概念层次关系映射为本体的模块结构。首先,地学数据本体总体上划分为基础地学数据本体和领域地学数据本体。其中,基础地学数据本体包含通用的、领域无关的模块,例如时间关系、空间关系、度量单位、数据格式等。领域地学数据本体支撑领域相关应用,包括历史年代、地质年代、行政区划等。然后,依据概念层次关系逐层往下即可完成本体的模块划分。
按照地学数据本体的模块设计,逐个构建。在构建过程中,结合多种方式提升本体开发效率:(1)复用现有的本体。例如复用已有的行政区划本体、数据单位本体等。(2)结构化知识的半自动化构建。网络上存在的与地学数据本体相关的结构化知识,可以直接转换为OWL本体文件。例如,可将Access存储的EPSG数据集转换为空间基准本体,将《学科分类与代码国家标准》转换为要素特征本体。(3)手工构建。对于非结构化的知识,需要采用手工方式进行构建。本体模块构建完成后,使用protégé的本体引用功能,按照模块划分的逆过程,将本体模块进行集成,最终形成地学数据本体库。图3为已构建的地学数据本体概念结构图。
图2 地学数据本体构建流程
目前,已构建的地学数据本体库包含了近230个本体文件、450个概念、256个对象属性和112个数据属性以及9700多个实例。主要模块内容如表1所示。
3 科学数据集成流程
基于本体的数据集成方法是指通过明确无歧义的语义表达,利用机器可读的方式描述数据及其相互关系,建立多源异构数据间的相互映射关系,实现面向语义的数据集成。本体作为数据源的公共语义描述,能够实现数据间基于知识单元的匹配,发现数据间的隐含关系,因而可以辅助实现更为科学有效的数据集成。按照本体在数据集成中的角色划分,目前主要有3种方式,即单一本体方式、多本体方式和混合本体方式[9]。
本文结合地学数据本体和科技基础性工作科学数据的实际情况,采用混合本体的方式进行数据集成,并提出基于地学数据本体的科学数据集成总体流程(图4)。
(1)本体构建。本体构建的目的是为数据提供统一的、规范化的语义表达基础,实现数据在语义上的同构。本体构建需完成地学数据本体库和推理规则的建立。
(2)基于本体的数据标注。提取数据描述信息,与地学数据本体库中提供的概念语义知识进行逐层匹配,将描述信息以本体中概念的形式表示,构造明确且无歧义的、结构化的数据集特征集合,为下一步映射关系的生成提供基础。
图3 地学数据本体概念结构图
表1 已构建地学数据本体主要模块内容
图4 地学数据本体支持下的科学数据集成总体流程
(3)映射关系生成。映射关系指具有相同或相似语义的概念间的对应关系,有1:1、1:m、1:n、m:n等4种。此处主要指本体与数据集间的映射,实现本体概念与数据集特征集合间的语义对齐。映射关系生成过程为:以数据集语义标注的特征集合为基础,以地学数据本体包含的概念及概念间关系为语义空间,利用基于规则的本体推理机制实现语义扩展,从而生成标注数据集的特征集合与本体库中概念间的映射关系。数据与本体间的映射关系间接实现了数据间的映射。
(4)映射转换。根据生成的映射关系,将映射同一个目标概念的数据集成起来。重复此步,最终完成所有数据的集成。
(5)结果检验及评价。检查数据集成的结果,将其中由于本体库的不完善而导致的错误进行反馈,实现本体库的修正和更新。
4 案例分析:科技基础性工作科学数据的集成
4.1 科技基础性工作科学数据现状分析
科技基础性工作已积累了大量数据资料,产出了系统的科学数据、调查报告、科技资料、图书图件等成果。截止到2017年7月,仅本文所依托的科技基础性工作专项重点项目“科技基础性工作专项数据集成整编”已接收汇交的数据量达2.17 TB,涉及大气、材料、海洋、地理、生物、土壤、植物、动物等学科领域,涵盖了科学数据、志书典籍、自然科技资源、计量基标准、标准规范、文献资料等类型,时间跨度在20年以上,覆盖国内大部分地区以及俄罗斯、蒙古、吉尔吉斯斯坦等国家。科学数据具有来源多样、内容丰富、跨学科等特点,使得数据间存在显著的语义异构,导致数据未能得到有效的集成整编,也就无法产生可直接共享利用的数据产品,间接阻碍了科学数据的共享和传播。
4.2 科技基础性工作科学数据集成
本文在地学数据本体支持下对科学数据进行集成。图5表示数据先进行要素集成再进行空间集成的过程,表2和表3为数据集成前后的片段对比。首先,对数据信息进行要素语义标注,例如“长汀县资源环境调查数据平均降雨量”和“福安市资源环境调查地面降水观测数据”,这两个数据集可用本体概念“降水”来标注,同时也生成数据集与概念间多对一的映射关系,并按照此映射关系进行数据集成。按照该方法将要素本体中同一要素所涉及的数据(如图5中的降水、气温等)逐一集成。然后针对已完成要素集成的数据,逐要素按空间范围集成。例如,降水数据“长汀县资源环境调查数据平均降雨量”和“福安市资源环境调查地面降水观测数据”映射的空间实体为“福建省”,按照此映射关系进行进一步数据集成。至此,实现了数据在要素和空间上的双重集成,解决了数据语义异构导致的科学数据集成困难的问题。
5 结语与讨论
本文阐述了地学数据的本质、形态、来源特征,地学数据本体的总体架构及内容,本体的构建,提出了基于地学数据本体的数据集成方法。
图5 科技基础性工作科学数据集成过程
表2 数据集成前
表3 数据集成后
(1)现有科学数据普遍存在语义异构,阻碍了数据的集成。本文以地学数据语义为切入口,构建了地学数据本体库,提出了基于地学数据本体的科学数据的集成方法。经科技基础性工作科学数据集成的案例研究,证明了本方法的科学性和适宜性。
(2)在本研究中,地学数据本体库略显粗糙,尚需继续细化和完善其结构和内容,补充遗漏的概念、关系、属性等。此外,数据标注和映射关系的完成依赖于手工方法,但随着未来数据量的增大,其限制性将进一步显现。因此,数据标注和映射关系的自动化处理将是未来研究的重点。
[1]黄鼎成, 李晓波, 莫纪宏. 科学数据共享法规体系建设的若干思考[J]. 中国基础科学, 2003(6): 38-43.DOI: 10.3969/j.issn.1009-2412.2003.06.008.
[2]孙九林, 王卷乐. 探索分散科学数据资源共享之路:记“地球系统科学数据共享网”[M]. 北京: 中国科学技术出版社, 2008.
[3]HEY T, TANSLEY S, TOLLE K M. The fourth paradigm: data-intensive scienti fi c discovery[M]. WA: Microsoft Research Redmond, 2009.
[4]李军, 庄大方. 地学数据集成的理论基础与集成体系[J]. 地理科学进展, 2001, 20(2): 137-145. DOI: 10.11820/dlkxjz.2001.02.006.
[5]STUDER R, BENJAMINS V R, FENSEL D. Knowledge engineering: principles and methods[J]. Data &Knowledge Engineering, 1998, 25(1): 161-197. DOI:http: //dx.doi.org/10.1016/S0169-023X(97)00056-6.
[6]GRUBER T R. Toward principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-computer Studies, 1995, 43(5):907-928. DOI: https: //doi.org/10.1006/ijhc.1995.1081.
[7]蔡畅. 基于地理本体的空间数据集成研究[D].郑州:解放军信息工程大学, 2008.
[8]FU G. FCA based ontology development for data integration[J]. Information Processing & Management,2016, 52(5): 765-782. DOI: http: //dx.doi.org/10.1016/j.ipm.2016.02.003.
[9]WACHE H, OGELE T V, VISSER U, et al. Ontologybased integration of information: a survey of existing approaches[C]// Ijcai’01 Workshop on Ontologies &Information Sharing, 2002: 108-117.
[10]李星毅, 高文浩, 施化吉. 基于本体的异构数据集成方法[J]. 计算机工程与设计, 2009, 30(8): 1931-1933.
[11]朱勤斯, 虞慧群. 一种基于语义网技术和本体的数据集成方法[J]. 华东理工大学学报(自然科学版),2009, 35(1): 119-124.DOI: 10.3969/j. issn.1006-3080.2009.01.024.
[12]UITERMARK H T, OOSTEROM P J M V, MARS N J I, et al. Ontology-based integration of topographic data sets[J]. International Journal of Applied Earth Observations & Geoinformation, 2005, 7(2): 97-106. DOI: http://dx.doi.org/10.1016/j.jag.2005.03.002.
[13]王敬贵, 杜云艳, 苏奋振, 等. 基于地理本体的空间数据集成方法及其实现[J]. 地理研究, 2009, 28(3):696-704. DOI: 10.11821/yj2009030014.
[14]GEONAMES. GeoNames geographical database[EB/OL].[2017-06-25]. http: //www.geonames.org/.
[15]李厚银, 李景文, 朱文德, 等. 土地利用信息本体的构建方法研究[J]. 测绘与空间地理信息, 2015(6): 36-38. DOI: 10.3969/j.issn.1672-5867.2015.06.010.
[16]ZHANG C, CAO C, SUI Y, et al. A Chinese time ontology for the Semantic Web[J]. Knowledge-Based Systems,2011, 24(7): 1057-1074. DOI: http: //dx.doi.org/10. 1016/j.knosys.2011.04.021.
[17]李军, 周成虎. 地学数据特征分析[J]. 地理科学, 1999,19(2): 158-162. DOI: 10.13249/j.cnki.sgs. 1999. 02.158.
[18]ZHU Y, ZHU A X, SONG J, et al. Multidimensional and quantitative interlinking approach for Linked Geospatial Data[J]. International Journal of Digital Earth, 2017, 10(9): 923-943. DOI: 10.1080/17538947.2016.1266041.
[19]孙凯, 诸云强, 潘鹏, 等. 形态本体及其在地理空间数据发现中的应用研究[J]. 地球信息科学学报, 2016,18(8): 1011-1021. DOI: 10.3724/SP.J. 1047. 2016.01011.
[20]侯志伟, 诸云强, 高星, 等. 时间本体及其在地学数据检索中的应用[J]. 地球信息科学学报, 2015, 17(4):379-390. DOI: 10.3724/SP.J.1047.2015.00379.
[21]ALLEN J F. Maintaining knowledge about temporal intervals[J]. Commun ACM, 1983, 26(11): 832-843.DOI: 10.1145/182.358434.
[22]GB/T 13745-2009, 中华人民共和国学科分类与代码国家标准[S].2009.
[23]USCHOLD M, GRUNINGER M. Ontologies: principles, methods and applications[J]. The Knowledge Engineering Review, 1996, 11(2): 93-136. DOI: https://doi.org/10.1017/S0269888900007797.
[24]NOY N F, MCGUINNESS D L. Ontology development 101: a guide to creating your fi rst ontology[R]. Knowledge Systems laboratory, stanford university, 2001.
[25]GRUNINGER M, FOX M S. Methodology for the design and evaluation of ontologies[C]// Workshop on Basic Ontological Issues in Knowledge Sharing, 1995.DOI: 10.1.1.44.8723.
[26]GóMEZ-PéREZ A. Knowledge sharing and reuse[J].Handbook of Applied Expert Systems, 1998(10): 1-36.
[27]BERNARAS A, LARESGOITI I, CORERA J. Building and reusing ontologies for electrical network applications’[C]//proceedings of the ECAI, 1996: 298-302.
[28]林松涛. 模块化本体建设研究[D]. 北京: 北京邮电大学, 2006.
Scientific Data Integration Method Based on Geodata Ontology
SUN Kai1,2, JIA Ping3, LI Weirong4, ZHU Yunqiang1,5,6, YANG Jie1,2, HOU Zhiwei1,2, WANG Xiaoxuan1
(1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101;2. University of Chinese Academy of Sciences,Beijing 100049; 3. Information Center, Ministry of Land and Resources, Beijing 100812; 4. School of Civil and Architectural Engineering, Shandong University of Technology, Zibo 255000; 5. Center for Collaborative Innovation in Baiyangdian Basin Ecological Protection and Sustainable Development of Beijing-Tianjin-Hebei,Baoding 071002; 6. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023)
Semantic heterogeneity of scientific data is main bottleneck for its integration and sharing. Data Ontology is an effective way to solves mantic heterogeneity of data. On the basis of systematic analysis of geodata characteristics, this paper puts forward the overall architecture of GeoData Ontology (GDO) and mainly studies essential characteristics ontology and morphological characteristics ontology of geodata and constructs GDO. Then, combining with the demand of scientific data integration, this paper puts forward the overall fl ow of data integration based on GDO. In the last part, this paper takes the example of scientific data of National Special Program on Basic Works for Science and Technology of China, researches application of scientific data integration method based on GDO andvalidates the feasibility and effectiveness of the proposed method.
geodata ontology, semantic heterogeneity, scienti fi c data, data integration, mapping relations
G203
A
10.3772/j.issn.1674-1544.2017.06.007
孙凯(1990—),男,中国科学院地理科学与资源研究所博士研究生,研究方向:地学本体及数据关联;贾萍(1979—),女,国土资源部信息中心硕士研究生,研究方向:国土资源信息化;李威蓉(1991—),男,山东理工大学硕士研究生,研究方向:地学数据来源及数据关联;诸云强(1977—),男,博士,中国科学院地理科学与资源研究所研究员,研究方向:地学数据共享关键技术,资源环境信息系统(通讯作者);杨杰(1990—),男,中国科学院地理科学与资源研究所硕士研究生,研究方向:地学模型数据匹配方法;侯志伟(1989—),男,中国科学院地理科学与资源研究所博士研究生,研究方向:语义Web服务;王筱萱(1983—),女,硕士,中国科学院地理科学与资源研究所工程师,研究方向:科学数据共享。
科技基础性工作专项重点项目“科技基础性工作数据资料集成与规范化整编”(2013FY110900);国家自然科学基金重点项目“网络文本蕴含地理信息理解与知识图构建”(41631177);贵州省公益性基础性地质工作项目“贵州省岩溶地下水系统功能可持续利用性研究”(黔国土资地环函〔2014〕23号);贵州省公益性基础性地质工作项目“贵州省国土资源可持续发展战略研究”(黔国土资源函〔2016〕269号)。
2017年7月31日。