APP下载

从地理信息服务到地理知识服务:基本问题与发展路径

2021-10-27李志林刘万增崔秉良

测绘学报 2021年9期
关键词:时空图谱语义

慎 利,徐 柱,李志林,刘万增,崔秉良

1. 西南交通大学高速铁路运营安全空间信息技术国家地方联合工程实验室,四川 成都 611756; 2. 西南交通大学地球科学与环境工程学院,四川 成都 611756; 3. 国家基础地理信息中心,北京 100830; 4. 广州市阿尔法软件信息技术有限公司,广东 广州 510630

1 信息爆炸呼唤智能化的地理知识服务

经过将近20年的发展,地理信息服务作为地理信息技术在当今网络计算时代的基本应用形式,已成为全社会重要的基础信息服务之一[1]。

地理信息服务实现了让用户通过网络随时随地便捷获取地理信息的目标,然而,面对未在已有地理信息服务中预先定义好的实际问题,现有地理信息技术缺乏根据情况从大量信息中自动整合相关信息,融合地理知识进行推理,形成高价值知识性输出以支持决策的能力,使科研人员面临数据海量、信息爆炸、知识难求的局面[2]。

究其原因,这是因为现有的地理信息技术缺乏知识和认知智能。不论是整合信息,还是形成认识、分析情况乃至决策,都需要知识和认知智能,而这是现有地理信息技术所不具备的。信息爆炸使得将主要面向信息检索的地理信息服务提升到具有一定认知智能的地理知识服务的需求变得十分迫切。实际上,文献[2—4]都曾指出由地理信息服务转向地理知识服务是必然的发展趋势。

地理知识服务以知识表示与包括知识推理在内的一定程度的认知智能为基础。近10年来,人工智能技术取得了广为人知的突破。笔者认为,融合深度学习、语义网、自然语言处理3项重大人工智能突破的知识图谱技术,促使知识获取、管理、应用及认知智能迅速发展,为发展地理知识服务带来了机遇。

基于这些最新进展,本文尝试从地理知识服务的内涵、地理知识服务需要及能得到什么样的人工智能技术支撑、发展地理知识服务面临的基本问题等角度,探讨从地理信息服务到地理知识服务的智能化升级。

2 地理知识服务的内涵及其辨析

虽然地理知识服务这一术语在国内外文献中已经提出,但它的内涵仍需进一步明确、辨析。特别是,对于什么是地理知识,地理知识服务是否以智能化的知识处理为前提,地理知识服务与地理信息服务的关系与区别都有待澄清。在此,笔者给出自己的理解,为后文提供概念基础,也供大家批评、讨论。

2.1 地理知识服务的内涵

笔者把本文所展望的下一代具有认知智能特征的地理信息技术的基本应用形式称为地理知识服务,它以地理知识为服务内容,以计算机中的形式化知识表示为地理知识载体,以地理空间认知智能为智能特征,以面向情境或问题或主动或应需准确提供地理知识为服务目标。进一步阐释如下。

2.1.1 信息与知识的辨析

本文所提地理知识服务中的知识既包括地理信息(事实性地理知识),例如“泰山在山东省”,也包括平常意义上的概念性、规律性地理知识等,例如“沙漠中昼夜温差很大”。本文所说的知识是工程意义上的知识,强调的是知识表示的形式,而非知识内容。例如“泰山在山东省”可以说是一条信息,也可以说是一条事实性知识,它到底是信息还是知识不在于它本身,而在于它是否与其他知识有效关联、处理它的智能主体能否利用知识的关联进行智能推理。对人而言,可以想象,一个有地理知识的人和一个年幼无知的小孩,他们对“泰山在山东省”这一事实的理解是不相同的。而对计算机而言,在它的内部表示中,如果“泰山在山东省”这个基本事实是一条孤立的数据,则它就是一条信息数据,仅能基于它回答“泰山在哪个省”这样直接的问题。而如果泰山在山东这个基本事实关联到了“山”“泰山是一座山”“省”“山东是一个省”等概念与事实上,并且计算机还能理解到“山”是有一定地域规模的高出周围地表的地形现象,“省”是一种由国家直接管辖的行政区划等,计算机可以在这些关联的概念与事实上作出很多推理,则“泰山在山东省”这一基本事实就成了一条知识。

因此,地理知识服务与地理信息服务的本质区别体现在计算机内部的数据表示及基于这种表示能做的运算上。地理信息服务基于结构化的信息数据表示,其处理主要面向信息查询或检索;而地理知识服务基于知识表示,其处理主要面向知识推理。

2.1.2 知识与智能的关系

与上述知识的界定相匹配,这里所说的地理知识服务必然要求计算机系统(更具体地说,就是地理知识系统/地理信息系统)具备有效处理知识的能力,即表示、理解和运用知识的能力——某种人工智能。按照现行文献中的一般用法,笔者把这种理解、运用(例如推理)乃至发现新知识的智能称为(计算机的)认知智能,以区别于现行文献中的一般用法(感知智能),例如语音识别、人脸识别背后的智能。与语音识别、人脸识别等比较成熟的感知智能应用相比,语义搜索、智能问答、聊天机器人、商品推荐等已经出现的认知智能应用虽然还不够成熟,但广受业界和用户的追捧,并被寄予厚望。

因此,本文中的地理知识服务既是以地理信息的知识化、地理信息技术的智能化为前提和基础的,也是作为当代地理信息技术智能化升级的具象目标来提的,还是作为未来智能化地理信息技术的主要应用形式来提的,以期避免简单地提地理信息技术智能化可能带来的笼统和泛泛。

2.2 与地理信息服务的联系和比较

本文通过比较地理知识服务与传统的地理信息服务,进一步澄清地理知识服务的内涵。表1列出了现行的地理信息服务与所展望的地理知识服务的主要方面的对比。

表1 现行地理信息服务与所展望的地理知识服务的比较

与地理信息服务相比,地理知识服务最大的不同是服务内容,前者提供信息,后者提供知识(包括在当前地理信息服务中以结构化信息型数据表示的事实性知识,即平常意义上的信息)。从内容来源上看,现行地理信息服务以空间数据库中的数据为主,而大数据时代的地理知识服务需要将富含地理知识的文本、地图等考虑在内。从数据表示和处理能力上看,地理信息服务基于结构化的信息数据表示,其处理主要面向信息查询或检索;而地理知识服务基于知识表示,除了语义检索,其处理主要面向知识推理。此外,构建这种表示的方法很关键。如果依靠人工方式构建大规模知识库,则成本很高,若成本过高,则方法不可行。专家系统作为上一代知识工程技术的代表,虽然有一些成功的应用,但难以推广的主要原因之一就在于难以构建大规模规则知识库[14]。从应用效果上看,现行地理信息服务通过针对特定信息查询设计、定制的用户界面帮助用户查询地理信息,而所展望的地理知识服务根据用户给出的相对开放、灵活的提问或指示,根据感知觉察到的情境,智能化地集成分析所涉及的知识,作出必要的推理,或应需或主动地提供知识服务。

为了强化地理知识服务和地理信息服务的不同,一定程度上把它们放在了对立面作比较,而实际上,通过这种可比性和类比关系,本文试图表明地理知识服务是对地理信息服务的继承和知识化、智能化升级。从这种升级的角度来看,笔者认为现行的地理信息服务正是实现地理知识服务的现实起点。而如果暂时抛开其中的复杂性与各种困难,也可以简单地认为地理知识服务就是对现行地理信息服务在地理空间表示上的知识化、在地理空间分析上的认知化、在应用服务中的情境化。

笔者用一个例子来说明地理信息服务与地理知识服务之间密切的联系和看似细微,实则具有根本性不同的区别。设想在新冠疫情期间,驾车到成都双流机场迎接亲友的地理信息服务场景。从驾车路线的导航来看,现有的导航服务可以准确、高效地实时导航,但它不能在导航开始前给出“到机场接机需要戴口罩,否则不能进入机场迎接大厅”这一重要提示。在这个例子中,如图1所示,现行地理信息服务由于不能整合有关信息、融合知识、自动推理,因而不具备情境化的智能服务能力。实际上,这样的智能服务需求非常普遍,包括雨季交通中对道路积水的提醒、郊野活动时对移动网络信号覆盖范围的提醒、隧道行车时对可能存在的路面暗冰的提醒等,都需要这样的基于知识的情境化推理智能。这些例子中,所提供的似乎仍然是地理信息服务,但由于其处理需要基于知识和认知智能来融合事实性知识(信息)和概念性知识,因此,本质上已经是智能化的地理知识服务。

图1 地理知识服务中知识推理示例Fig.1 Examples of knowledge reasoning in geographic knowledge service

3 地理知识服务的人工智能技术发展基础

地理知识服务以计算机有效地表示和智能化地处理知识为前提和基础。直到知识图谱技术的新近突破,当今发展水平的人工智能技术才为发展地理知识服务提供了让人有理由乐观的基础。

3.1 传统的知识工程不足以支撑地理知识服务

信息爆炸和不断发生的变化使得快速提升计算机理解信息、智能处理信息的能力变得日益迫切。实际上,这种缺陷并不是地理信息服务所单独面临的,而是信息服务普遍面临的,尽管地理信息有其特殊性。面对信息整合的困难,文献[5]于1998年提出构建语义网(semantic web),旨在通过显式表示数据语义让计算机自动整合互联网上的所有数据,形成语义数据之网(web of data)。文献[6]于2006年倡导了链接数据(linked data)工程。

在地理信息领域,已有一些关于运用知识工程方法与技术解决地理信息集成问题的研究,主要包含两个方面:①基于相对传统的知识本体的地理信息及地理信息服务的集成[7]。这方面的研究已有二三十年的时间,苦于传统知识工程仅具有符号逻辑智能的局限性,未有明显突破。②随着语义网工程的渐热,构建地理链接数据(linked geodata)和构建地理空间本体的研究与实践已经展开。文献[8]已经按照链接数据的方式开放其地理数据。

这些研究与实践是对地理信息服务智能化的有效尝试,但仅靠传统的知识工程并不足以推进Web规模的信息融合。这是因为,一方面,按传统方式构建语义网和链接数据需要大量人工干预,效率和成本上的制约导致难以完成大规模的信息融合[9]。另一方面,传统知识工程中仅用符号表示数据语义,仅采用符号逻辑进行语义推理,当数量规模很大时,推理的层次受到计算效率的限制,难以完成复杂的推理[10]。

3.2 深度学习一度不能用于处理语义信息和复杂结构数据

随着深度学习技术的突破,人工智能研究如火如荼,很多领域、行业的智能化升级已经启动。相比于紧密相关的遥感领域对深度学习的积极拥抱和快速发展,地理信息领域对于人工智能新近突破的响应显得不温不火,尚未形成大规模的研究热潮,智能化的地理信息服务更是缺乏令人为之一动的典型代表。文献[11]提出了一个“到2030年构建出能通过领域图灵测试的人造GIS分析员”的“大胆构想”(moonshot),以期引导地理信息智能化研究和发展。

笔者认为,地理信息领域在此番智能化热潮中的相对迟滞并非偶然。这主要是因为这一轮人工智能技术突破的核心在于深度学习,而深度学习特别适用于实现所谓的“感知智能”,包括视觉、听觉智能等,带来了在计算机视觉、语音识别乃至自然语言处理的突破。视觉、听觉信号以连续的数值类型数字化记录,可以采用数值优化的方法处理,实现从信号数据到信息数据的转换。而地理信息技术主要面向信息的管理与分析,地理信息中包含大量的非连续性的而且语义抽象的符号数据,例如各种地理实体名称、各种类别属性名称(如地表覆盖类型)、各种地理空间关系名称、各种地理语义描述词汇等,不能直接用深度学习技术处理。

从更深的层次来看,在数据—信息—知识—智慧(data-information-knowledge-wisdom)构成的知识层次体系(也被称为信息层次体系)[12]中,一定程度上可以说,感知智能负责处理从数据到信息的转换,而从信息到知识的转换及信息与知识的应用需要认知智能[13]。仅靠传统的知识工程或者面向信号数据处理的深度学习(例如卷积神经网络),并不足以推进地理信息智能化发展。

3.3 知识图谱为发展地理知识服务带来新机遇

融合传统知识工程与深度学习技术的知识图谱技术正迅猛发展[14]。本文中的知识图谱技术并非狭义上的由谷歌公司提出的知识图谱,而是当今大数据时代知识工程技术的代名词,它以向量式知识表示、向量空间知识推理及融合符号空间推理与向量空间推理为特征(见下文分析)。知识图谱这一术语或许将来会被取代(例如,已经有学者提出认知图谱的概念),但作为人工智能中关于知识表示与推理的知识工程技术将继续发展。

知识图谱在很大程度上是对语义网的继承,但又有重要的发展,语义网与知识图谱的对比见表2。这种发展首先体现在构建方式上。语义网给出了一种基于描述逻辑的知识表示方法[5],但是,它的技术体系中没有考虑怎样从非结构化、半结构化数据中自动提取知识、构建知识库。而知识图谱技术的一个重点领域就是图谱的自动构建,既包括从结构化的数据中转换,也包括从文本等非结构化数据中运用智能化的方法自动提取知识(语义信息)。此外,这种发展也体现在知识表示本身上。语义网的知识表示融合了传统语义网络(semantic network)和本体知识表示方法,并且基于描述逻辑,使得这种表示数学上严密。而知识图谱在此基础上吸收了自然语言处理领域嵌入向量空间的表示方法。向量语义表示比符号语义表示要丰富得多,向量表示让深度学习技术变得可用于语义与知识处理。这既打通了知识图谱构建的关隘,又打开了知识图谱应用的空间。

表2 语义网与知识图谱的对比Tab.2 Comparison of semantic web and knowledge graph

同时,知识工程与深度学习技术的融合带来了知识表示与处理的新方法。这种融合主要通过两种途径实现。①嵌入(embedding)[15]。通过把符号体系,例如语言文字、知识网络,嵌入低维稠密向量空间,使得原本离散的、仅支持逻辑运算的符号语义转变为连续的支持向量运算的向量语义,从而可以通过深度学习的方法来处理。②突破简单、规整的数据结构(例如一维序列结构、二维栅格结构)的限制,发展面向复杂的图结构的深度学习技术,例如图神经网络[16]。其中,嵌入表示与深度学习的融合已经在主要面向符号的自然语言处理中获得成功应用,带来了突破性进展[17]。知识图谱因而被广泛认为有望带来符号信息与知识的智能化处理及认知智能的突破[14],并通过在感知中融入知识反哺感知智能,克服完全依赖数据驱动所带来的性能瓶颈和缺乏可解释性的问题,形成两种智能的交替、迭代式演进[14]。

可见,融合了传统知识工程、深度学习、自然语言处理技术的知识图谱技术,已经在知识网络的向量化表示、向量式语义空间中的知识推理上取得了实质性的突破[18]。这些突破为发展地理知识服务提供了知识表示、知识库构建与推理技术基础。

4 地理知识服务的基本问题

上文从地理信息服务到地理知识服务升级转换的角度,阐释了地理知识服务的内涵,并指出实现这种升级转换的关键是引入知识表示和认知智能,而知识图谱技术作为大数据时代的知识工程技术,其取得的进展为发展地理知识服务提供了知识表示与推理技术基础。

然而,地理知识具有时空本质特性,当下常规知识图谱将时空作为一般属性,不能充分、精确地表示复杂时空关系,不足以充分关联、深入挖掘地理时空大数据中蕴含的丰富地理时空知识。这种情况类似于地理信息技术发展之初,一般的关系数据模型不足以表示复杂的地理对象,不足以处理地理对象之间复杂的空间关系。后来经过约20年(1980—2000年)的研究、发展,地理信息技术领域最终构建出拓展了关系数据模型的地理空间关系数据模型,研制出空间数据库引擎,支撑了当今大规模地理信息服务的实现。

类似地,针对目前知识图谱中时空建模的根本性不足,笔者认为发展地理知识服务的关键是要发展充分顾及时空知识表示与时空关系推理特性的时空知识图谱技术。正如当初空间数据库技术以当时的关系数据库技术为基础,有理由认为待发展的时空知识图谱技术宜以当前的知识图谱技术为基础,而扩展的关键是要向知识图谱中植入时空维度,如图2所示,发展时空型知识图谱的理论、方法与技术。为此,需要解决3个方面的主要问题。

图2 植入时空维度的时空型知识图谱Fig.2 Spatio-temporal knowledge graph implanted in space-time dimensions

4.1 空间表示的知识化

在常规知识图谱中,地理时空作为一般属性表示,不能充分、精确地表示复杂时空关系。为此,在常规知识图谱中时空属性的符号表示基础上,需要增加适合地理复杂时空关系计算、分析的向量表示,并实现向量表示与符号表示的严格对应和高效互转,向知识图谱中植入时空维度,全面支持地理大数据时空知识的充分关联、精确推理和深度挖掘。因此,需要研究“向量—符号”双重表示的存储结构[19]、时空索引[20]、互转方法。此外,针对仅基于符号语义来关联地学时空实体与对象的不足,需要研究时空大数据“图—文—数”中“向量—符号”双重语义信息提取、“地理时空—领域知识”双重约束下,实体与数据的精确匹配与充分关联,为精确推理、充分呈现、深度挖掘地理知识奠定关联关系基础。

4.2 空间分析的认知化

传统的地理空间分析高度依赖定制的“算法智能”,不具备基于地理知识的推理能力和空间认知能力[21],为此,需要发展时空叙词可计算模型、融合向量计算与符号推理的地理时空关系分析模型,以支撑时空大数据所要求的丰富时空语义和规模化高效时空计算。同时,针对仅基于符号表示的地理知识发现不充分与推理不精确,需要研究时空关系计算分析引擎与时空术词逻辑推理引擎的融合推理技术、融合地理时空关联与语义关联的地理知识发现,实现地理知识的精确推理和深度发现。此外,地理空间的多尺度性质要求多尺度的空间认知和分析,为此,需要研究基于多尺度空间表示的多尺度认知性空间分析、推理方法,并顾及尺度差异带来的数据不一致性。

4.3 知识服务的情境化

传统的地理信息服务通过硬编码(hard-coded)的方式实现若干事先设定情况下的信息分析与服务,不能根据实际情况灵活、智能地分析情况,提供服务。随着传感网、物联网技术和感知智能的发展,信息获取的实时化正在逐步成为现实[22]。为此,需要发展基于实时感知情况、融合智能分析的情境化服务[23]。对时空信息而言,要发展时空情境觉知的能力,融合认知化的智能分析,提供情境化服务。虽然基于位置的服务(location based services,LBS)也属于一种时空情境化服务,但时空情境的觉知远远不限于此[24]。情境化服务的关键不仅在于信息的感知,更在于如何把感知到的位置、时间、空间场景、地理行为习惯等时空信息有效融合,实现深度的时空情境觉知,并基于此驱动应景服务。

5 地理知识服务的分级发展和推进路径

地理知识服务是地理信息产业的一次智能化升级,其发展是一项长期而浩大的艰巨工程。下文就如何循序渐进地推进其发展,从分级发展和推进路径两个方面提出构想。

5.1 分级发展策略

前文为了强调与现行地理信息服务的区别和对其的升级,强化了地理知识服务的认知智能属性。然而,计算机的认知智能仍在发展中,还远不成熟。面对信息爆炸困境和人工智能技术的迅速发展,不同智能化程度的地理知识服务有现实需求。因此,宜分级推进地理知识服务的发展。本文从知识化、智能化程度的角度,尝试给出一种地理知识服务分级(见表3)。

表3 地理知识服务的一种分级Tab.3 A classification of geographic knowledge service

这里有意拉大级别之间的差距,以便于区分各个级别。第一级(L1)为现行的地理知识网站和地理信息服务,它们未采用知识表示方法,不具备知识智能化处理能力。在第二级(L2)中,引入了结构化或向量式知识表示,强调自动构建知识图谱的能力和知识推理能力,设想中的典型应用为地理知识语义搜索和智能问答。第三级(L3)强调结构化符号知识表示与向量式知识表示的融合,以及两种表示下知识推理的融合,在此基础上形成对地理空间的理解性认知,设想中的典型应用为地理场景“看图说话”、智能对话。第四级(L4)强调具备根据实际情况在较为开放的知识领域中自动整合知识、有针对性地提供知识服务或解释地理现象,设想中的典型应用为情境觉知的地理知识服务和人造GIS/GKS分析员,后者由文献[11]提出。

5.2 从理论研究到规模化应用的发展路径

从地理信息服务到地理知识服务的发展是一种根本性改造,涉及理论与方法研究、关键技术研发、基础工程建设、应用推广与产业化等方面。本文尝试勾绘其发展路径,如图3所示。理论与方法研究的基本问题在上文已经着重阐述,主要包含表示知识化、分析认知化、服务情境化3方面。在关键技术研发上,一方面,需要研发具备时空知识表示、推理、智能交互能力的时空知识图谱引擎;另一方面,需要研发从时空大数据自动构建时空知识图谱的工具。在地理知识基础工程建设上,一方面,需要构建具有广泛适用性的基础性地理时空本体,以及领域性、行业性地理时空本体,形成标准;另一方面,需要完成地理时空知识的标准化生产。在应用推广和产业化方面,需要构建基础性大规模知识服务平台以支撑全社会高效、经济的构建知识服务应用系统。

图3 地理知识服务的发展路径Fig.3 Development path of geographical knowledge service

6 总结与展望

本文认为从地理信息服务升级到地理知识服务既是一种必然的发展趋势,也是信息爆炸困境下的迫切现实需求,并将地理知识服务作为地理信息技术智能化升级的具象目标、未来智能化地理信息技术的主要应用形式。

本文从由地理信息服务到地理知识服务转换的角度,辨析了地理知识服务的内涵;分析了人工智能技术新近突破性进展为发展地理知识服务所提供的令人乐观的认知智能基础;在此基础上,从地理知识服务的时空本质特性的角度,指出了发展地理知识服务在空间表示知识化、空间分析认知化、知识服务情境化3方面面临的主要问题,进而提出了地理知识服务的分级发展策略和推进路径。

智能化时代正在到来,地理信息服务的未来会或者需要怎么发展是个大问题。计算机认知智能的研究方兴未艾,技术发展日新月异。本文旨在抛砖引玉,促进地理信息技术智能化的研究与发展。

致谢:陈军院士在本文酝酿与成稿过程中给予了诸多指导、批评、意见和关注,在此深表感谢!匿名审稿人对完善本文给出了中肯的批评和建设性意见,作者在此深表感谢!

猜你喜欢

时空图谱语义
跨越时空的相遇
绘一张成长图谱
镜中的时空穿梭
语言与语义
玩一次时空大“穿越”
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
“上”与“下”语义的不对称性及其认知阐释
时空之门
认知范畴模糊与语义模糊