时空知识中心的研究进展与应用
2021-10-27刘万增王新鹏朱秀丽赵婷婷彭云璐
刘万增,陈 军,翟 曦,李 然,王新鹏,赵 勇,朱秀丽,徐 柱,赵婷婷,彭云璐,慎 利
1. 国家基础地理信息中心,北京 100830; 2. 西南交通大学高铁运营安全空间信息技术国家地方联合实验室,四川 成都 611756
时空数据是当代社会的重要战略性信息资源和生产要素,在国家信息化建设和社会化应用中发挥着重要作用[1-3]。随着大数据时代的到来,时空数据服务面临“数据海量,信息爆炸,知识缺乏”的突出矛盾[4],催生着传统信息服务向知识服务的转变。从测绘自身的发展看,2018年机构改革后,测绘工作逐步成为自然资源管理链条中基础性、支撑性的工作。其根本定位由单一的服务于经济社会发展转变“两服务,两支撑”[5-6],服务内容除了传统的数据和信息,还需提供面向自然资源精准决策和智慧管控的知识服务。传统的信息中心管理和服务模式难以实施时空大数据高效治理,无法满足管理决策对时空知识服务的需求,因此,实现从时空数据服务到时空知识服务的转型升级成为新时期测绘工作面临的新挑战[7]。应对这一挑战,必然带来时空数据管理、挖掘和服务方式的变革,从数据库上升到知识库,从传统的地理信息(数据)中心升级到时空知识中心将成为智能化测绘的必然选择。
如何建设时空知识中心,面临着从数据生产到知识创造等一系列的问题。从数据支撑的角度看,高质量时空数据是一切智能、智慧、规划、决策和管理的基础[8-9]。由于历史的原因,这些时空数据分属于不同部门生产和管理,造成数据空间基准不一致、分类编码不统一、数据格式不兼容、统计口径不统一、尺度和精度不协调等问题,导致成果一体化融合难、集成应用效率低,难以满足时空知识中心建设需求[5]。从知识生产的角度来看,由于缺乏时空知识建模、抽取、融合、存储、推理的一系列模型、算法和工程化的软件系统,尚未建立数量、质量、生态“三位一体”的山水林田湖草集成化数据治理模式,尚未形成“资源-资产-资本”为内涵的自然资源认知技术体系,导致自然资源领域普遍存在着数据海量,知识难求的现象[7,10],制约着时空知识中心的建设和发展。
为此,本文瞄准自然资源管理对时空知识服务的新需求,借鉴国内外知识中心建设的实践,融入智能化测绘的有关理念,提出时空知识中心概念、内涵、技术框架、主体实现方法及研究进展,最后从发展趋势、关键技术及工程应用3方面介绍时空知识中心未来的发展方向。
1 时空知识中心的概念与内涵
1.1 基本概念
时空知识是指对实体空间位置、空间分布、空间形态、空间关系、空间统计、空间关联、空间对比、空间趋势、空间运动、时空变化、趋势分析等信息进行概括和凝练,形成的具有时间和空间特性的知识[11]。时空知识库是结构化的时空语义知识库[8],通过统一的空间参考框架对时空知识进行组织关联,将其转变成为一种时空知识资源来协同提供服务[12-13]。时空知识中心是在时空知识库概念的基础上,借助专业领域能力以及空间分析、空间挖掘等专业技能,构建一个时空知识获取、积累、创造、演化和利用的服务平台或环境,提供智能知识进化和深度知识服务等[12]。
因此,时空知识中心在发展定位上以时空知识服务为目标,实现从数据-信息-知识-价值的深度增值服务;在技术实现上以GIS、大数据、人工智能、云计算技术为基础,提供时空数据获取与处理、时空知识挖掘与分析、知识图谱构建与表达、时空知识推理与模拟等功能。在组织管理上以跨领域合作为基础,通过聚合不同行业的知识资源,建立知识共享、服务和交换机制,提供数据、信息和知识共享与服务。
随着大数据、人工智能等信息技术的发展,时空信息服务也逐渐从以时空数据服务为主转向数据、信息与知识服务并重的阶段。一些以空间型知识服务系统为支撑的知识中心相继成立,如USGS从最初单纯提供各类基础地图,逐步拓展为以测绘、调查、科学分析为核心,综合利用多学科知识,围绕自然资源各类问题的认知、发现、研究、评估,形成解决方案,为管理部门精准施策提供基础信息和诊断型、方案型知识服务。美国国家航空航天局(NASA)从提供全球气候、海洋、陆地等大数据服务,转变为同时提供针对飓风、洪水、干旱等灾害分析预警服务及基于空间、时间的知识发现服务;美国大自然保护协会凝练了全球发展对大自然影响的若干知识点,并与遥感影像、地表覆盖等数据有机链接,形成了具有初步知识导航功能的“人类世”知识地图服务[2]。
不难看出,从数据中心到知识中心,以知识服务拓展数据服务,正成为当今各国政府管理支撑部门的新的业务发展方向。但总体而言,时空知识中心的建设还处在起步探索阶段,尚未形成成熟的体系框架、关键技术、标准规范和服务模式,无法为我国测绘行业智能化转型升级提供成熟的解决方案。
1.2 主要构成
综上,将传统的地理信息服务拓展到时空知识服务,完成从数据量测到信息提取再到知识挖掘的三级跨越,需要建立以时空数据库为基础,以序列化知识工程为支撑,以时空知识库为枢纽,以知识导航为门户的时空知识中心[2,14]。时空知识中心基本组成包括时空数据库、知识生产、时空知识库、知识服务等。图1给出了构造时空知识中心的技术框架。
图1 时空知识中心技术框架Fig.1 Technical framework of spatiotemporal knowledge center
1.2.1 时空数据库
泛在测绘是智能化测绘阶段时空数据的主要来源[3]。其产品除了测绘行业生产的基础测绘、国情监测、全球测图等时空数据,还包括系统内采用测绘技术生产的国土调查、林草、湿地、地表基质、水资源等调查监测数据,从泛在网络获取的动态的时空大数据,以及从其他部门共享的人口、经济等行业时空数据等。数据生产的主体包括测绘、地质、国土、林草、海洋、统计等行业数据生产部门;数据消费者主要包括政府部门、企事业单位和研究机构等;数据的管理者为数据生产的行业管理部门,负责制定数据分发、安全、共享等政策。这里由数据生产者、数据使用者、数据管理者及外部相关安全环境、技术环境、经济环境、发展环境等,共同构成互为补充、互相关联、互相制约、分建共享、持续更新的自然资源时空数据生态(图2)[15-16]。时空数据是管理者、生产者、消费者之间流动的“能量”,是整个数据生态系统价值实现的核心支撑,其“产生—利用—更新—再生”的整个生命周期就构成了“时空数据链”。由不同时态的“时空数据链”中的数据汇集和管理,并提供统一的数据存储和访问服务,称为“时空数据库”[15-17],它是支撑数据生态健康运转的核心,也是时空知识中心的知识创造的基础。
图2 时空数据生态Fig.2 Spatiotemporal data ecology
1.2.2 时空知识库
时空知识库是在时空数据库之上通过知识抽取、空间或非空间关联,形成领域知识网络,基于语义推理和空间计算,实现知识重组,为用户提供时空知识服务[18]。时空知识库针对抽取或收集的每一类时空知识,厘清其内涵、来源和用途,进行详细的粒度划分,有效地揭示和形式化描述领域的概念、实体、属性及其相互关系,构成时空知识图谱[8,19]。知识库在逻辑上分为概念层与实例层两个层次[20]。概念层为实体类型赋予层级结构,一般使用本体库的公理、规则和约束条件规范实体类别及类别间关系,如国家、城市、河流等都是地理概念。实例层即实体形成的语义网络,以事实(facts)为单位进行存储。事实可以RDF三元组〈主体(subject),谓词(predicate),客体(object)〉的形式表示。关系可定义在实体与实体间、概念与概念间以及实体与概念间,包括语义关系、空间关系和时间关系。空间关系可分为拓扑关系、方向关系及距离关系。时间关系用于描述时变特征较为明显的各类地理现象,如地理事件中实体间关系随时间动态变化[21]。
1.2.3 时空知识生产
不同于普通意义上的知识生产,时空知识生产是时空知识获取、处理和表达的过程[22-23],一般依托于知识工程来完成,其核心部分包括知识的获取、知识的表达和知识的运用[24]。本文将知识生产划分为领域知识建模、知识抽取、知识融合和知识表达4个部分,实现从知识加工、知识图谱构建到知识表达的深度序化。
领域知识建模是在专家指导下,基于多源知识进行结构化建模和关联化处理,构建领域本体模型,目的是实现实体、属性、关系的有序聚合,指导领域时空知识的抽取。时空知识建模除了用到语义关系,也要充分考虑时间和空间关系。实际上,基于多层级的行政区划进行时空知识建模,逐步成为空间型知识图谱构建的通用做法。
知识抽取是指将蕴含于信息源中的知识经过分析、识别、理解、筛选、关联、归纳等过程抽取出来,形成知识点存入到知识库[25]。与传统的文本知识不同,时空知识抽取除了从结构化、半结构化和非结构化数据中抽取地理实体及其概念、语义、关系和属性,还需利用空间分析、知识挖掘、深度学习等技术,从二维或三维空间数据中发现隐含的地理实体分布格局、空间关联、空间关系、时空演化等过程性知识[25-29]。
知识融合旨在消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库[30]。从多源异构文本中获取的知识,存在大量的数据冗余和空间或逻辑不一致性问题,需要借助实体链接、本体对齐、实体匹配、属性空间化等技术进行知识融合[31]。在知识融合前,应当进行知识归一化处理,清洗、规范知识表达。然后,通过语义相似度计算和实体相似度计算记录实体链接。经过知识验证,进行概念、属性、实例层次的语义对齐,达到知识融合的目的。
在计算机领域,知识表达是知识组织的基础,用于知识客体中的知识因子与知识关联[32]。不同于计算机领域对知识表达的定义,时空知识表达应当从时空的视角,将隐性知识同地图表达相结合,形成静态表达、动态表达以及交互式表达等模式,直观地反映格局差异、趋势特征、成因机理等系统性知识,便于人们识别和理解知识。
1.2.4 时空知识服务
时空知识产品包括行业概念知识(例如测绘学叙词表、测绘学名词等)、文献知识等存量知识,以及诊断型知识、方案型知识、预测型知识等通过动态知识计算挖掘形成的增量知识[33],另外还包括提供机器学习的数据标注知识等。时空知识服务是在时空知识分类基础上,根据地理知识字典、专业词条以及地理标签,构建专题导航、数据导航和知识导航,实现对时空数据库及其资源和服务分布的导引和深度搜索。同时,面向时空知识的应用需求,构建描述型、诊断型、预测型、方案型等知识应用服务。在此基础上,建立时空知识服务门户网站,为用户提供应需提供知识浏览、搜索、问答、推荐及特色知识应用等时空知识服务。
1.3 主要技术特征
时间、空间是地理实体(自然资源)存在的两种基本形式,是时空数据的基本属性[22]。与一般的信息中心和知识中心不同,时空知识中心侧重于时间、空间、语义概念建模,实现对时空知识的有效组织和管理。从空间角度来看,时空知识中心通过对地理实体进行空间维度的计算、分析和推理,挖掘地理实体本质特征、内在规律、分布格局、空间变化等知识。从时间角度分析,时空知识中心通过时间感知数据,展现地理实体的变化轨迹,揭示其内在变化规律,实现对地理现象成因、现状、趋势等因果关联的一体化描述。概括起来,时空知识中心一般具有以下技术特征:
(1) 在产品内容上,除了传统的基础地理信息数据和信息,还包括自然资源精准决策和智慧管控所需要的时空知识以及为特定决策类型提供的时空知识应用等。
(2) 在生产方式上,拓展了“信息中心”的生产链条,需要面向工程应用建立全时空数据生态,突破时空知识抽取与凝练、建模与关联、知识图谱构建与表达、知识推理与服务等关键技术,形成必备的标准、软件、平台和装备,支撑时空知识中心数据清洗、知识抽取、关联挖掘等知识创造活动,实现从空间数据库到时空知识库升级。
(3) 在服务模式上,从柜台式数据服务走向网络化知识服务;从被动式“申请-审核-提供”转向主动式应需精准推送;从作为原材料的数据支撑转向经过提取与精化的时空知识高效赋能。
2 主体实现方法
本文提出了适于时空知识中心构建的技术和方法,结合地理信息专业知识服务系统建设实践进行验证,形成了以知识工程序列化操作为核心,涵盖时空数据库构建、时空知识库构建、知识服务平台构建等全流程的时空知识中心主体实现方法,如图3所示。
图3 时空知识中心构建的主体实现方法Fig.3 The main body realization method of spatiotemporal knowledge center construction
2.1 时空数据库构建
支撑时空知识中心的时空数据库,不仅包括多时态、多粒度、多尺度、多维度的时空数据,也包括多种类型的文本数据(测绘专业叙词表、专题数据、文献专利等)。这就需要针对空间数据和非空间数据提供一体化的存储策略和多源异构数据的统一管理方法,解决数据冗余与不一致的问题[34]。针对非空间数据,通过空间化融合,添加地理标签,建立空间索引,将自然语言描述转换为空间查询谓词,与空间数据关联,实现支持人机交互的非空间数据与空间信息的关联索引和查询。例如科技文献中出现的地名、研究区等信息,建立索引后与该区域相关的地形、影像数据关联,构造基于空间知识图谱的数据推荐功能。时空数据库兼具存量数据和增量数据,保证了时空知识的鲜活性,同时也对海量数据的动态处理提出了挑战,采用高性能基础设施(spark、hadoop等)支持的分布式批处理和流计算能力,建立半结构化数据以及非结构化数据的清洗、分词、空间化、标准化、一致性等一系列数据处理模型和算法,为实体抽取和关系建立提供基础数据。
2.2 时空知识库构建
时空知识库构建的基本流程可分为领域知识建模、知识抽取、知识融合3部分,如图4所示。首先,在专家指导下基于多源知识建立领域本体模型,确定实体及其属性、关系等,形成拓展时间和空间维度的地理空间知识图谱的框架;然后,对非空间数据和知识进行空间化处理,与相应的空间数据进行关联挂接;最后,面向应用需求,基于空间化的数据和知识,进行时空知识抽取与融合,形成时空知识图谱[25,31]。
图4 时空知识库构建流程Fig.4 Construction progress of spatiotemporal base
利用本体对时空知识相关概念、实体、关系进行语义表达是领域知识建模的核心。时空知识中心知识库的构建应在地理本体的基础上,为时空知识库添加位置本体和时间本体,以更好地反映地理实体所涉及的时间属性和空间属性。按照应用需求从时空数据中提取、挖掘可获取有特定意义的信息,而后通过结构化、关联化处理形成领域知识体系[2]。
知识抽取除了要从结构化、半结构化和非结构化文本数据中进行实体抽取、属性抽取和关系抽取,还需要从空间数据中挖掘地理实体及其语义关系、地理属性、空间关系和时间关系等。针对多源异构数据存在大量的数据冗余和不一致性问题,采用语义支持的文本知识抽取方法和基于深度学习的空间数据挖掘技术,进行数据清洗以及知识提取。本文设计并实现了海量文献元数据清洗、基于语义对齐的地理实体抽取、基于叙词与词向量的测绘概念模型构建、基于深度学习的地图高精度提取、基于时序影像的地表分类信息提取等关键技术方法,开发了机构空间化众包采集工具,从而实现知识的标准化清洗、结构化提取与关联化处理。
对于提取出的知识,采用本体对齐、实体匹配、实体自动链接等跨领域知识融合技术,实现时空知识融合。针对传统实体消歧法存在的有效信息利用不足、精度低等问题,本文提出一种基于凝聚子群原理的实体消歧方法,通过K-核塌缩序列分析将实体消歧算法计算范围从社区尺度缩小到两个待消歧实体节点间的K-最短路径子网,极大地提高了计算效率,并通过在子网中提取凝聚子群来实现同名实体的快速消歧,提高实体消歧的准确性(图5)。将融合后得到的时空知识,构建知识图谱,纳入可执行的计算模型中,便于时空知识的快速获取、推理与利用。本文针对时空知识中心的应用需求,构建了测绘专业知识库、山水林田湖草知识库、行政区划知识库以及专家关系知识库等。
图5 基于凝聚子群原理的实体消歧方法Fig.5 Entity disambiguation method based on agglomerative subgroup principle
2.3 知识服务平台构建
时空知识平台兼具宏观和微观特点,需快速回答何时、何地、何事、何因等问题。但目前的知识服务体系存在效率不高、深度不够等问题,难以充分满足工作需要。需要基于领域本体、科学文献、研究报告、业务逻辑和标准规范等,构建多学科领域知识模型;设计兼顾非空间和空间型一体化知识图谱,实现对时空知识的一体化、系统化、关联化、结构化存储和表达;设计时空知识关联、知识推理、知识表达等算法,建立基于云原生的“纵向贯通、横向联动、整体协同”的时空知识服务平台。开展面向管理与决策的时空知识深度挖掘与格局认知、变化模拟、诊断分析等知识应用开发,提供科学合理的现状型、目标型、方案型与诊断型在线知识服务。
3 研究进展
自2015年起,国家基础地理信息中心承担了中国工程院地理信息专业知识分中心的建设工作。经过多年的努力,突破了多项时空知识智能化抽取、空间型知识图谱动态构建等关键技术,建成并上线运行了地理信息专业知识服务系统,逐步形成了以时空知识关联、推理、应用等为代表的新的服务模式,初步建立了以时空知识为主要服务内容的地理信息专业知识中心,面向领域应用需求,提供描述型、诊断型、预测型、方案型等4种类型的知识服务(图6)。自2017年上线以来,地理信息专业知识服务系统年度访问量达到百万次,用户达80余万人。
图6 地理信息专业知识服务系统主要功能结构Fig.6 Main function diagram of geographic information professional knowledge service system
3.1 构建专题空间数据库
根据平台建设需求,收集处理了全球1∶100万矢量数据、全国1∶25万公开版矢量数据、3期全球30 m地表覆盖数据等地理信息数据,集成天地图、百度地图等互联网地图服务;对6000万条文献元数据进行清洗、处理,将机构字段进行翻译、分词、判断、标准化,消除冗余信息,对数据进行符号分析、语义分析及规则分析,得到机构抽取规则,形成标准化机构字段,提取出150万条机构信息,基于研制的机构众包空间化平台,将提取的机构信息与地理信息数据的地名地址信息进行语义匹配,完成150万条机构信息的空间化处理,进而实现6000万条文献及其作者的空间化,建立了融地理信息数据和文献数据于一体的专题空间数据库。
3.2 构建专题时空知识库
面向知识应用需求,研制了专家关系抽取、机构关系动态计算、研究区时空数据关联等知识抽取算法。如针对专家关系提取,设计并实现了作者、机构映射关系计算方法,提取初步的作者-机构关系,通过实体消歧合并机构同类项,采用余弦相似度算法进行关系去重,进而构建交叉组合关系,对多作者多机构进行迭代提取。最后,对数据进行校验处理,得到精确的作者-机构关系,据此挖掘专家间的学术合作关系,实现面向研究主题的专家关系自动聚合和表达,在空间维度展示专家间的关联关系等。
研制了空间型知识图谱构建方法,实现空间数据和时空知识的一体化存储和表达。如基于空间化的全国省、市、县、乡四级行政区划知识,关联地理底图以及地表覆盖数据,构建地理实体与属性知识的混合关联模型,形成了具有系统性、关联性的行政区划知识图谱。从空间维度展示省、市、县、乡之间的关联关系和空间分布,在地图上直观展示各个行政区域实体相关的知识,包括地表覆盖、历史沿革、著名人物、交通运输、人口民族、名优特产、风景名胜、自然资源、社会事业等专题知识,为用户提供直观、全面的行政区划知识服务。
3.3 知识应用开发
基于专题时空知识库,先后开发了数据推荐、专家关系网、机构关系网等14个知识应用。在基于专家知识和深度学习的混合智能计算方面做了初步尝试,研制了“问题地图”智能辨识等诊断型知识服务(图7)。针对“问题地图”检测速度慢、劳动强度大的问题,利用审图专家凝炼出来的版图知识和“问题地图”的有关判定规则,提出并实现了多网络融合的多尺度“错误地图”的智能检测方法,实现了海量图片中地图图片自动筛选、地图错误智能检测与标识,识别正确率达到80%以上[35]。
图7 基于深度学习的“问题地图”诊断流程Fig.7 Flow chart of “problem map” diagnosis based on deep learning
4 展望与结论
面向“两服务,两支撑”的基本定位,测绘地理信息部门应抓住这一跨界融合和转型升级的机遇,适时建立以时空数据为支撑、以时空知识为核心的数据治理模式,逐步从数据信息中心走向信息知识中心,将数据信息服务提升为信息知识服务,以适应经济社会发展和自然资源“两统一”管理对时空知识服务的迫切需求。
就目前状况而言,构建时空知识中心,实现从数据生产到知识创造的跨越,对测绘地理信息部门仍是一项巨大的挑战,还需要大量引进计算机、人工智能和知识工程领域的人才,进行跨界融合,解决人才培养、知识储备、核心技术等短板问题。在此基础上,建立自然资源全时空数据生态,突破时空知识抽取与凝练、建模与关联、知识图谱构建与表达、知识推理与服务等在关键技术,形成必备的标准、软件、平台、装备和完善的运行机制,支撑时空知识中心的建设和高效运转,为自然资源及相关领域精准决策和智慧管控提供高质量的知识赋能服务。
未来,随着人工智能、大数据、物联网等信息技术的发展,时空知识中心的内涵、外延及服务的对象和范围也会进一步充实和拓展,不仅可为人类决策提供高效、精准的时空知识服务,还可为智能机器人提供按需“充电”,成为智能设备的时空知识“充电站”,从而实现知识赋能,更好地为人类提供各种服务。时空知识中心必将在智能化测绘、智慧城市及智能驾驶等领域发挥越来越重要的支撑作用。