遥感卫星特定领域大规模知识图谱构建关键技术
2017-03-29罗知微王雨晨
谢 榕,罗知微,王雨晨,陈 文
(1.武汉大学 国际软件学院,湖北 武汉 430079; 2.华中科技大学 自动化学院,湖北 武汉 430074;3.上海航天控制技术研究所 上海市空间智能控制技术重点实验室,上海 201109)
遥感卫星特定领域大规模知识图谱构建关键技术
谢 榕1,罗知微2,王雨晨1,陈 文3
(1.武汉大学 国际软件学院,湖北 武汉 430079; 2.华中科技大学 自动化学院,湖北 武汉 430074;3.上海航天控制技术研究所 上海市空间智能控制技术重点实验室,上海 201109)
针对遥感卫星数据应用中的信息整合、系统集成等问题,提出建立遥感卫星特定领域大规模知识图谱的总体框架及其关键技术。在该技术框架中,构建基于国际卫星标准的标准化卫星数据集成元数据模型,并通过语义计算、语义映射与知识进化等手段进一步建立完备一致的遥感知识空间语义模型,在此基础上形成遥感卫星特定领域知识图谱及其应用模式。研究成果为海量卫星数据应用服务的语义集成与互操作、共享平台建设提供新思路、新方法与新技术。
对地观测数据;元数据模型;语义模型;知识图谱;语义;FCA-概念格;机器学习;应用模式
0 引言
在经济全球化和信息网络化发展背景下,快速获取、高效处理和有效应用卫星对地观测大数据成为世界各国的共同需求[1]。遍布全球的多个卫星数据观测中心积聚了巨大的海量数据,它们高度异构、分散自治和动态更新。另一方面,卫星应用信息系统的建设涉及到众多领域、众多部门,目前这些系统的子系统、组件和服务被独立地开发和部署,协调困难,难以实现卫星遥感信息资源在各领域和各部门之间的交流与共享[2]。因此,面临卫星对地面遥感所形成的地球空间海量信息流,如何提供一个高效的数据管理与信息整合的途径、方法或技术,在保留卫星应用各领域、各部门原有子系统、组件和服务的基础上,利用数据集成和语义技术,对卫星遥感数据、地面观测数据与仿真模型等多源、异构数据以及不同平台、不同归档系统等数据进行集成,支持这些大规模遥感数据的逻辑关联表达、信息语义集成、协同综合管理,最终实现海量卫星数据应用服务的语义集成与互操作、共享平台建设,成为迫切需要和亟待解决的难题[3-4]。
研究学者提出了多种异构数据集成方法[5-10],如联邦数据库、LINQ、中间件、数据仓库、Web Service和本体等。其中,基于本体的异构数据集成方法是近几年用得比较多的一种方法。该方法利用本体的规范化来消除各个数据源之间的异构性,并进行本体的知识推理来提高数据查询的准确率。基于本体的异构数据集成方法有3种思路:单一全局本体集成、多局部本体集成和混合本体集成。单一本体集成对多个异构数据源建立一个全局本体进行统一描述,并基于全局本体实现对多数据源的访问。这种方法较适合于来自同一个领域的多个数据源,通过多个数据源共同理解的概念来构建本体;多局部本体集成对每个异构数据源都建立一个局部本体,而不用建立全局本体,该方法适用于动态性较强的多个数据源;混合本体集成对每个数据源建立一个局部本体,然后再建立一个全局本体,这种方法的扩展性、自治性都较好。归结起来,基于本体的方法数据查准率较高,但本体的构建与映射过程相对比较复杂[10]。从现阶段遥感数据集成与共享的技术水平来看,一些技术手段仍停留在传统的领域本体建模方法上。一方面缺乏完备的语义融合机制以及缺乏对语义数据的自动更新,另一方面本体构建、本体更新的代价也很大。当前,语义技术和知识图谱[11-13]引起工业界和学术界的高度关注和研究热潮,正成为实现大规模异构信息语义集成与互操作的新兴手段和途径。然而关于领域知识图谱的概念尚没有形成,其研究还是一片空白,仅限于图书馆知识图谱[14]、地学知识图谱[15]和微博知识图谱[16]的研究探讨,基于语义技术和知识图谱的信息集成技术与方法尚未在遥感数据应用领域中获得广泛的研究与开展。
本文提出为卫星应用部门建立遥感卫星特定领域大规模知识图谱的技术架构。建立一种基于FCA-概念格的知识语义模型,将概念格与传统本体进行互补融合,通过异构数据整合、概念格表达和语义映射等手段实现概念构建与语义映射的自动化过程。通过主动学习结合半监督学习的知识进化方法与算法,解决现有关联规则、机器学习等方法在知识更新时需要人工干预、效率低的问题,实现及时发现新知识并动态更新知识库。采用混合描述逻辑的知识库融合方法,并通过全局概念格构建、基于规则的约束关系生成、基于公理的知识一致性分析,解决遥感领域数据应用服务的语义集成与互操作问题。
1 总体技术框架
图1 遥感卫星特定领域大规模知识图谱构建总体技术框架
2 集成卫星图像、地面观测数据和模拟模型的元数据建模
充分利用国际标准组织ISO TC/211[17-20]提出的一系列卫星数据国际标准计划,并对这些标准进行集成与扩展,构建标准化卫星数据集成通用元数据模型[21],对卫星图像、地面观测数据与模拟模型结果等异构数据以及各个部门、多个平台、不同数据归档系统之间的数据进行有效集成,通过建立共同的标准描述全球分布卫星遥感数据,确保卫星数据与服务的兼容性和互用性,使得所有的卫星遥感数据都可以实现规范化共享与应用。面向卫星对地观测数据集成及其应用系统的通用元数据模型如图2所示,包括核心元数据(图2(a))、扩展元数据(图2(b))和特殊元数据(图2(c))。
图2 遥感卫星元数据UML模型
3 大容量异构对地观测数据集成的语义计算
语义表达模型是对地观测数据综合集成的基础。语义表达建模必须面对以下三大困难:
① 数据存储层数据存储形式按照结构化程度主要有3种,即结构化、半结构化和非结构化,存在典型的异构性,因此需要解决多源异构数据的整合。
② 在当前语义表达研究中,本体占有非常重要地位[22]。但各种领域本体的构建方法主要还是依赖于专家智能和手工完成,所建立的领域本体易受领域专家主观因素影响且构建效率低下,数据集成需要更客观高效的能够由计算机辅助完成的半自动化乃至自动化的本体构建方法。
③ 概念之间的语义映射是建立语义关联的重要依据。但目前映射存在相似度计算方法不完善、计算量过高、概念相似度计算过于片面等问题,不能很好地反映语义相似度的相关因素。
本文将概念格与本体互补融合,采用FCA-概念格相关理论与技术[23]来解决这些问题。通过概念格及其语义映射进行统一知识语义表达与建模。利用Protégé工具遥感卫星,形成遥感卫星语义模型如图3所示,包括概念格、属性和关联等组成部分。
图3 遥感卫星Protégé语义模型
在该模型中,从语义角度解决异构,采用BP神经网络算法解决语义集成中的属性匹配问题。在属性匹配的基础上,采用基于属性信息熵和互信息确定属性权重比的方法来分配各个属性的权值,计算2个实体在各个属性值上的相似度并结合权重得到这2个实体的相似度,从而计算出实体的匹配结果。
(5) 血小板GPⅡb/Ⅲa类受体拮抗剂国内目前使用的GPI主要为替罗非班。应考虑在PCI过程中使用GPI,尤其是高危(cTn升高、合并糖尿病等)或血栓并发症患者(Ⅱa,C)。不建议早期常规使用GPI(Ⅲ,A)。
在现有本体映射方法的基础上设计一个语义映射层的自动构建算法[24],算法的主体部分为概念语义相似度的计算和基于贝叶斯网络的推理映射。其中,概念语义相似度是算法的基础与核心,其准确度直接影响映射算法最终的效果。① 利用概念节点在本体模型中的结构信息,定位概念词在WordNet中的词义。然后计算2个拥有具体词义的概念的语义距离,从而得到概念的语义相似度。② 利用贝叶斯网络基于已有映射结果发现新的映射。
4 主动学习结合半监督学习的语义映射与知识进化
目前本体技术用的比较普遍,可以解决不同本体间的知识共享和重用问题。但本体技术的运用大多由人工手动来完成,不仅过程繁杂,而且容易出错,极大影响本体的自动化程度和准确性。机器学习通过计算机模拟实现人类学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,因此可成为对地观测数据集成的语义映射与知识进化的有效手段。
机器学习有监督学习、非监督学习以及半监督学习3类方法。非监督学习直接对输入样本通过聚类办法进行建模,学习效果不高。有监督机器学习方法受限于标注语料的规模,在小规模标注样本中难以获取较高性能。因此,采用半监督学习方法,并结合训练特点,运用基于主动学习的样本优化策略,即整合主动学习与半监督学习的办法,可以在小规模标注样本环境中取得良好学习效果。
根据Web数据中领域若干种子术语,计算词语与种子词语的相对共现率,初步获得候选术语集合,筛选一定阈值范围内的候选术语集合,计算值并排序,获取结果中一定阈值范围内的候选术语集合作为最终结果。领域复合术语提取时,采用基于位置上的方法和基于词性上的方法,统计和领域基本术语常常一前一后组合出现的词语的频率,并过滤其中词性不符合要求的结果,从而得到领域复合术语[25-26]。
基于以上半监督学习策略和主动学习策略,对半监督学习和主动学习进行整合。将半监督学习的训练过程分成2个部分:半监督学习训练和半监督学习迭代训练。
① 从待标注样本集中选取任意样本进行标注;
② 训练半监督学习达到的分类器并使用该分类待分类样本集;
③ 使用主动学习策略从待分类样本集中抽取所有确定性样本,与前面取得标注样本组成训练集训练;
④ 训练得到的半监督学习对剩下的待标注集与全部待分类集重新分类,然后调用主动学习策略构建新的训练集,反复迭代直至指定步结束为止。
5 领域知识图谱应用模式定义
在遥感领域知识图谱建立中,除了定义语义层外,还需要定义应用模式层,需要解决以下两大问题:
① 实际应用中,遥感各个领域内所构建的知识库是相互独立的,因此需要对不同领域的知识库进行融合,本文采用混合描述逻辑的知识库融合方法来建立全局概念格。
② 语义表达模型包括了概念、概念层次、属性、属性值类型、关系、关系定义域概念集以及关系值域概念集,但还需要添加规则或公理来表示模式层更复杂的约束关系。
全局概念格对应知识库的逻辑结构,从局部概念格转化为全局概念格,需要建立二者之间相关的映射信息,通过全局概念格到局部概念格的映射完成领域知识库的语义集建立。具体地,提取局部概念格中的概念,采用语义映射方法进行相似概念匹配,在全局概念表中补充局部存在而全局不存在的概念,并根据匹配映射进行属性相似匹配以及全局概念格概念表的属性修正,建立局部概念格到全局概念格的映射集。
建立全局概念格和混合知识库后,从类内公理和类间公理2个方面建立一致性公理库。
① 类内公理将概念格类的值域限定在一个合理范围内,同时对类内属性、关系进行限定。
② 类间公理定义类属性之间的公理表示一个类的属性对另一个类的属性的约束,同时对类与类之间的内在联系进行约束。基于建立的公理库,可对知识进行一致性检查,包括知识完备性、值错误和知识矛盾等方面。还可以从已知概念出发,由公理库推出未知概念的知识;从概念的已知属性出发,推出概念的未知属性知识。
在构建遥感卫星元数据模型的基础上,进一步形成遥感卫星语义模型,并最终建立遥感知识图谱。遥感卫星知识图谱雏形如图4所示。
图4 遥感卫星知识图谱雏形
6 结束语
本文提出建立遥感卫星特定领域大规模知识图谱的技术框架。初步研究工作包括以下3个方面:
① 将概念格与传统本体方法互补融合,建立统一的知识语义表达模型,解决多源异构数据整合问题,并能克服领域本体易受领域专家主观因素影响且构建效率低下的不足,解决当前语义映射方法不完善、计算量过高以及概念相似度计算过于片面的问题,实现概念构建与语义映射的自动化过程;
② 针对现有关联规则、监督学习等数据挖掘和机器学习方法在知识更新时需要人工干预、效率低等局限性,将主动学习与半监督学习进行有效结合,在不需要人工干预的条件下对领域知识自动学习,实现及时发现新知识并对领域知识库进行自动更新;
③ 针对遥感领域内独立知识库进行异构信息融合的若干难点问题的解决方案,并通过全局概念格构建、基于规则的约束关系生成、基于公理的知识一致性分析,构建遥感知识图谱应用模式,彻底解决对地观测数据综合集成应用的语义集成与互操作问题。研究成果为海量卫星数据应用服务的语义集成与互操作、共享平台建设提供新思路、新方法与新技术。
[1] CRAGLIA M,BIE K,PESARESI M,et al.Digital Earth 2020:Towards the Vision for the Next Decade[J].International Journal Digital Earth,2012(5):4-21.
[2] 谢 榕,刘亚文,李翔翔.大数据环境下卫星对地观测数据集成系统的关键技术[J].地球科学进展,2015,30(8):855-862.
[3] 李德仁.地球空间信息学的机遇[J].武汉大学学报(信息科学版),2004,29(9):753-756.
[4] 李德仁,沈 欣.论智能化对地观测系统[J].测绘科学,2005,30(4):9-11.
[5] 邹卫国,郭建胜,刘建军,等.基于联邦数据库的数据集成体系研究[J].中国管理信息化,2009,12(13):86-88.
[6] WANG Y,ZHANG X.The Research of Multi-source Heterogeneous Data Integration Based on LINQ[C]∥ International Conference on Computer Science and Electronics Engineering,IEEE,2012:147-150.
[7] 张德文,徐孟春,马 慧.基于多中间件的数据集成方案[J].计算机工程与设计,2007,28(21):5 081-5 107.
[8] 张蒲生,苏运霖.基于政务数据仓库的数据集成及关键技术[J].计算机工程,2003,29(9):79-183.
[9] HAN J,TONG J,LI X.An Adaptive Heterogeneous Database Integration Framework based on Web Service Composition Techniques[C]∥IEEE International Conference on Granular Computing,IEEE,2008:265-268.
[10] KAVITHA C,SADASIVAM G S,SHENOY S N.Ontology Based Semantic Integration of Heterogeneous Databases[J].European Journal of Scientific Research,2011,64(1):115-122.
[11] NewScientist.Why Google Will Soon Answer Your Questions Directly[EB/OL].2012-05-30,http:∥www.newscientist.com/article/mg21428676.400-why-google-will-soon-answer-your-questions-directly.html#.VP-zK-Gb8th.[12] AMIT S.Introducing the Knowledge Graph:Things,Not Strings[EB/OL].2012-05-24,http:∥googleblog.Blogspot.co.uk /2012/05/introducing-knowledge-graph-things-not.html.
[13] 王昊奋.大规模知识图谱技术[J].中国计算机学会通讯,2014,10(4):64-68.
[14] 冉从敬,陈 一,李 莎.基于知识图谱的国外数字资源长期保存可视化研究[J].信息资源管理学报,2014(2):106-113.
[15] 许 珺,裴 韬,姚永慧.地学知识图谱的定义、内涵和表达方式的探讨[J].地球信息科学学报,2010,12(4):496-509.
[16] 杜亚军,吴 越.微博知识图谱构建方法研究[J].西华大学学报(自然科学版),2015,34(1):27-35.
[17] ISO/TC 211.ISO 19115.Geographic Information-Metadata[S],2002.
[18] ISO/TC 211.ISO 19139.Geographic Information-Metadata-XML Schema Implementation[S],2004.
[19] ISO/TC 211.ISO 19115.Geographic Information-Metadata-Part 2:Extensions for Imagery and Gridded Data[S],2005.[20] ISO/TC 211.ISO 19130.Geographic Information-Sensor Data Model for Imagery and Gridded Data[S],2005.
[21] XIE R,SHIBASAKI R.Imagery Metadata Development based on ISO/TC 211 Standards[J].Data Science Journal,2007,6(3):28-45.
[22] LIU L,ZHANG P.Modeling Ontology Evolution with SetPi[J].Information Sciences,2014,255(10):155-169.
[24] 任 鸽.语义映射层自动构建算法[D].武汉:武汉大学,2016.
[25] LUO Z,WANG H.Extract Domain Terminologies for Knowledge Graph Construction Using Domain Feature Vectors[C]∥2nd IEEE International Conference on Big Data Analysis (ICBDA 2017),2017:89-93.
[26] 叶泽韬.基于传统领域术语提取方法的改进[D].武汉:武汉大学,2016.
谢 榕 女,(1968—),武汉大学国际软件学院教授,博士生导师。主要研究方向:遥感、语义建模。
主持并参与教育部留学回国基金、湖北省自然科学基金、国家863计划、国家自然科学基金重点、中央高校基本科研业务费专项、苏州科技局国际合作、西门子公司国际合作、中国航天创新基金、上海航天创新基金、重点实验室开放基金等项目。曾担任CEOS WGISS成员以及ISO/TC211第6工作组EC成员、国际会议的PC Member和Session Chair以及Journal of Artificial Societies and Social Simulation、计算机科学、武汉大学学报等学术期刊审稿人。获软件著作权6项,发表研究论文50多篇,多篇论文被SCI、EI收录。
王雨晨 男,(1991—),博士研究生。主要研究方向:遥感、语义建模。
Key Techniques for Establishing Domain Specific Large Scale Knowledge Graph of Remote Sensing Satellite
XIE Rong1,LUO Zhi-wei2,WANG Yu-chen1,CHEN Wen3
(1.InternationalSchoolofSoftware,WuhanUniversity,WuhanHubei430079,China; 2.SchoolofAutomation,HuazhongUniversityofScienceandTechnology,WuhanHubei430074,China; 3.ShanghaiKeyLaboratoryofAerospaceIntelligentControlTechnology,ShanghaiAerospaceControlTechnologyInstitute,Shanghai201109,China)
To solve the issues of information aggregation and system integration etc.in the application fields of remote sensing,the paper proposes an overall framework and its key techniques for establishing large scale domain specific knowledge graph of remote sensing satellite.In this framework,standardized satellite data integration metadata model is constructed based on international satellite standards,then a consistent remote sensing spatial semantic model is built through the means of semantic computing,semantic mapping and knowledge evolution,and the remote sensing satellite specific domain knowledge graph and its application schema are further formed.The results can provide a novel idea,method and technology for semantic integration and interoperability as well as sharing platform construction of massive satellite data services.
earth observation data;metadata model;semantic model;knowledge graph;semantics;FCA-concept lattice;machine learning;application schema
10.3969/j.issn.1003-3106.2017.04.01
谢 榕,罗知微,王雨晨,等.遥感卫星特定领域大规模知识图谱构建关键技术[J].无线电工程,2017,47(4):1-6.
2017-01-03
上海航天科技创新基金资助项目(SAST2016082)。
P236
A
1003-3106(2017)04-0001-06