APP下载

空间数据智能:概念、技术与挑战

2022-11-11高云君关庆锋孟小峰

计算机研究与发展 2022年2期
关键词:空间数据时空数据库

宋 轩 高云君 李 勇 关庆锋 孟小峰

1(南方科技大学计算机科学与工程系 广东深圳 518055) 2(浙江大学计算机科学与技术学院 杭州 310027) 3(清华大学电子工程系 北京 100084) 4(中国地质大学(武汉)地理与信息工程学院 武汉 430078) 5(中国人民大学信息学院 北京 100190)

空间数据是描述自然地理空间和人类活动空间所包含的人、物体、事件的信息.通常来说,空间数据具有空间位置信息、时间信息和属性信息.与土地一样,具有空间位置信息的空间数据是一个国家拥有的具有战略意义的重要资源.我国幅员辽阔、人口众多,加上这十多年来快速发展的数字化建设,空间数据的现有量级十分巨大.伴随着各类传感器和全球定位系统的更加广泛使用,诸如遥感数据、地图测绘、交通轨迹数据、手机信令数据、APP打卡数据等空间数据将持续增长,并带来巨大的价值.

面对海量异构的空间数据,传统的数据感知存储技术和处理分析方法显然已经不适用,亟需对应的科学技术的发展,这正是空间数据智能逐渐兴起的原因.空间数据智能是利用先进通信技术、人工智能方法、大数据分析、先进计算机技术等技术方法对空间数据进行更好地感知、采集、分享、管理、分析及应用的一个多学科交叉的研究领域.空间数据智能旨在通过相关理论和技术的突破,充分释放空间数据的潜在价值,让海量空间数据赋能于各行各业,服务于我国经济社会的发展.

随着空间数据智能的持续发展,空间数据智能逐渐形成了数据感知、数据管理、数据分析、数据安全等主要发展方向,分别专注于数据的获取与感知、数据的存储与管理、数据的加工和深入分析、数据的隐私和安全等方面.

1 空间数据智能的挑战和关键技术

1.1 技术挑战

空间数据的持续增长对于空间数据智能而言,既是机遇又伴随挑战.空间数据智能所面临的主要挑战包括数据感知、数据分析处理、数据应用、数据隐私与安全、高精度地图等方面.

1) 数据感知.如何全方位、高效、实时和可靠地感知空间数据,从现有海量的传感器中收集空间数据,打造一个海陆空一体化的空间数据体系,是目前面临的一个关键挑战.随着物联网的快速发展,无处不在的传感器每天都在高速生产海量的空间数据,急需探究一种能够满足在不同类型传感器和碎片化的数据生产过程中实现高效稳定采集数据的方法.

2) 数据分析处理.如何处理结构复杂、高维、高噪音和多源异构的海量空间数据是目前面临的一个主要挑战,传统的空间数据处理技术已不能满足现有的实时动态计算需求,迫切需要构建一套具备整合、清洗、储存和处理海量空间数据的技术体系.

3) 数据应用.面对多源异构的海量空间数据,如何利用大数据、云计算和人工智能等新一代信息技术实现数据价值的挖掘和分析,并针对不同的应用场景提供个性化、高效、实时和有用的价值服务,也是目前面临的一个主要挑战.

4) 数据隐私与安全.如何在充分利用空间数据的价值的同时做好空间数据的隐私和安全保护是一个非常重大的挑战,空间数据直接耦合了大量的位置信息,关乎个人隐私和国家安全,因此,做好空间数据的隐私与安全保护是未来的一个极其重要的研究工作.

5) 高精度地图.现有的位置服务往往存在精度低、基准差异大、延时高、稳定性差等痛点,无法满足人们对高效精准的位置服务的日益增长的需求,特别是在自动驾驶和出行导航方面,因此迫切需要构建一套具备高精度、统一基准和实时稳定的地图服务体系.

1.2 关键技术

1.2.1 时空数据库

时空数据库旨在存储与管理同时具备时间和空间属性的时空数据.时空数据是包含对象、过程、事件及其在空间、时间、语义等方面的关联关系.例如,对于移动物体,其在移动过程中产生的轨迹数据就属于时空数据.因此,时空数据库可以捕捉具有空间参考的移动对象的运动变化,即通过增加时间维度,将原先的空间数据模型扩展为时空数据模型,并为时空数据提供高性能的读写和计算服务.根据时空数据库的存储和计算特点,时空数据库可以分为分布式时空数据库、AI赋能时空数据库、新型硬件时空数据库等.

1) 分布式时空数据库.由于GPS定位设备的广泛普及和移动计算的快速发展,时空数据的规模呈爆炸性增长,这对大规模时空数据的存储和处理带来了巨大挑战.鉴于此,现有工作提出了基于批式或流式分布式处理平台(如Hadoop,Spark,Flink等)的分布式时空数据库系统、分布式时空索引及更新策略等.

2) AI赋能时空数据库.时空数据的核心价值是蕴含于其中的深层信息/知识.通过AI技术可以捕获时空数据中隐含知识和数据价值,能够实现更加智能高效的数据库管理与应用.为此,现有工作提出了基于神经网络的学习型索引、基于强化学习的参数调优、基于迁移学习的基数估计以及基于深度学习的异常检测等.

3) 新型硬件时空数据库.数据库系统大多依赖多级内存层次结构(如磁盘、主内存和多个级别的处理器缓存),而计算机硬件与各个级别的设备都直接影响到数据库性能.传统的以CPU为计算中心的数据库技术面临“能耗墙,内存墙”的限制.近年来,新型硬件(如GPU,NPU等)被广泛应用,借助其高吞吐、低延迟、易扩展的特点以及其与AI的强交互能力,新型硬件时空数据库正在快速发展.例如,现有工作提出了基于GPU的时空数据库系统,以提高时空数据的实时查询能力.

针对数据库系统的研究,除了需要提供高性能的读写和计算服务外,还要求数据库在与用户进行交互时提供高可用性.时空数据库可用性主要体现在为用户提供对预期之外的时空查询结果的解释,满足用户从时空数据库查询中得到精确和完整查询结果的期望.现有工作提出了针对反向top-

k

查询的why和why-not问题处理框架、路网中基于范围skyline查询的why和why-not问题处理方法、概率反向skyline查询的causality与responsibility计算方法等.

1.2.2 空间感知技术和时空数据挖掘

空间信息的感知依赖于传感器技术和网络技术,是空间数据智能的神经末梢.然而现实世界是复杂多变的,因此需要可靠的、泛在的、实时更新的感知层收集可靠的时空信息.空间感知技术可从传输网络和接口来分类,根据网络范围主要分为卫星网、互联网、物联网和无线传感网技术:1)卫星网可以通过航天卫星、航天飞机、无人机等装置进行卫星定位、对地观测、地图绘制,大气层云图绘制等;2)互联网通过智能手机、移动终端、智能穿戴设备等采集人的移动性数据、社交媒体等;3)物联网主要通过工业和家用网络中常见的RFID室内外定位,监控设备,监测传感器等低能耗消耗的传感器来收集环境数据;4)无线传感网可将其末段传感器采集的数据如地震、电磁、温度、湿度、噪声、光强度等借助物联网,广域网或者卫星网络传输给网络所有者.

由空间感知技术采集到的多源异构时空数据,经过有效强大的时空数据库存储和管理,最后由时空数据挖掘技术来探索发现数据价值并给各类应用提供有力支撑.空间数据中的数据挖掘技术进行简单分类如下:1)时空数据预处理方法:轨迹分段和压缩、地图匹配、区域划分和缺值补全等;2)传统的统计方法:回归分析、判别分析、因子分析、历史平均和自回归等;3)传统的机器学习方法:聚类方法、隐空间模型、条件随机场等;4)前沿的机器学习方法:深度学习、强化学习、元学习、迁移学习、持续学习和对比学习等;5)可视化方法:时序数据可视化、轨迹可视化、集体趋势时空可视化、聚类可视化、地图可视化和相似性探索可视化等.数据挖掘方法十分丰富,需要综合使用多种技术来挖掘空间数据中存在的价值,为人所用.

1.2.3 时空数据安全与隐私

为了更好地保障用户对其个人数据的使用知情权和处理权,欧洲政府于2018年出台了用户隐私保护政策《通用数据保护条例》(GDPR).中国在3年后也颁布了《中华人民共和国数据安全法》,加快填补国内数据安全保护的空白.其中,由于时空数据可以用于城市规划、智能交通和商业分析等应用,并且往往涉及到公共事件、政策等方面的敏感信息,因此保障时空数据的安全与隐私更是对维护国家安全有重要意义.在城市发展的过程中,依据空间数据的时空特性,我们认为在数据采集、数据处理和数据发布3个阶段有不同的隐私保护要求.

1) 数据采集.由于设备和环境的限制,采集到的连续数据在空间上和时间上都很强的不确定性.尤其是个人轨迹数据会更加稀疏,因为用户不会随时访问位置服务并贡献数据.为了保护这一阶段用户的隐私,同时得到高质量的时空数据,目前的研究工作提出了在神经网络模型中引入注意力机制;采用众感知框架的同时结合压缩感知等.

2) 数据处理.在挖掘空间数据包含大量可用信息时,安全和隐私面临的挑战更加严峻.如果研究者还是以普通的深度学习框架对数据进行处理,中心化地处理大规模的未脱敏数据,不仅会加重中心服务器的负担、浪费边缘计算资源,更重要的是大量用户的隐私安全得不到保障.目前,新型的联邦学习框架已经掀起了一阵研究热潮,致力于解决深度学习过程中隐私泄露问题.联邦学习具有极高的可扩展性,并能很好地与其他隐私保护方法相结合,例如同态加密和差分隐私等密码学方法.

3) 数据发布.在发布收集到的原始数据或是处理好的数据结果时,平衡好用户隐私和数据可用性之间的关系时非常重要的.常见的方法包括

K

-匿名和对数据进行模糊处理,保障了每个用户的敏感信息能够藏匿于打包的数据集中.

2 空间数据智能的典型应用场景

2.1 城市交通应用

国家“十四五”规划进一步明确了要大力推进智能交通的发展,促进交通领域的数字化和智能化提升.空间数据智能技术是实现智能交通的关键技术,通过依托无处不在的城市交通时空数据,借助物联网、移动互联网、大数据、云计算、人工智能和数字孪生等新一代信息技术,可以有效地实现交通时空数据的价值分析和共享,能够实时动态精准地提供道路交通状态信息、位置导航服务、出行客流情况和环境天气关联影响,在实现交通智能化管理的同时也可以进一步有效地促进自动驾驶和车路协同系统的发展.

未来通过借助空间数据智能技术,能够大大加快城市交通由信息化向智能化的转型,为广大乘客、交通机构和政府部门提供智能化的交通出行和管理服务.对广大乘客而言,空间数据智能技术能够为用户带来精准的位置服务和个性化的出行线路规划,为用户提供舒适便捷的出行服务,同时这也是满足了社会在出行过程中对时空服务日益增长的需求.对于交通管理机构,空间数据智能技术可以帮助其提升交通管理的效率,有效地解决交通拥堵和交通事故等问题.与此同时,空间数据智能技术能够有效辅助政府部门进行交通规划、商业选址和基础建设的相关决策,加快智能铁路、智慧机场、智能公路、智慧港口和智慧车站的建设,从而进一步促进智慧城市的发展.

2.2 城市防灾应急

除了在城市交通上的应用外,空间数据智能的另一个主要的应用方向为在城市尺度下的防灾应急应用.依据灾难发生的时间,可与将应用划分为三大类:灾难发生前的预测、灾难发生过程中的紧急调度、灾难发生后的灾害管理.

1) 灾难发生前的预测.通常而言,灾难可以划分为2类,即洪水、台风、地震、泥石流等自然灾难,以及车祸、踩踏事件等人为灾难.这些灾难绝大部分都不会毫无预兆的发生,在现有的研究中,依据土壤类型、降雨量、气候、海拔、经纬度、植被等可以观测的空间数据进行统计分析,包括地震、洪水、台风等灾难在内的自然灾害都能够被提前预知,从而提前做好预防的准备,减少突发的自然灾难所带来的经济损失.而在2.1节城市交通应用的基础上所衍生的交通故障预测,未来的交通拥堵预测以及人流的预测等方向也有着成熟的方法,通过城市尺度的空间数据准确地预测了未来的交通、人群流向,在有政府干预的前提下,交通事故、踩踏事件等人为灾难数量也能够得到有效的控制,从源头遏止不必要的经济损失.

2) 灾难发生时的紧急调度.在灾难刚刚发生的时候,救援人员难以提前到场,此时受灾人仅能够依靠自己逃离受灾地点,而不正确的应对行为以及撤离路线通常会引发二次受灾.在历史的空间数据,尤其是人群过往的轨迹数据以及相应位置的地理以及建筑结构数据的支持下,目前这一阶段较为成熟的应用方向包括了小范围的突发状态下(例如火灾现场)的人群疏散引导,以及城市尺度下的重大灾难时(例如突发的地震)的人流方向推导.相比于能够采集到大量数据的灾前预测方向以及灾难后的灾害管理方向,灾难发生时的应用由于缺乏足够的数据支持,目前还有更多的研究空间.

3) 灾难发生后的灾害管理.在2021年7月20日时,河南省郑州市连遭暴雨袭击,同时产生了严重的内涝现象,损失极其严重.但是在灾后的救援过程之中,一份收集受灾人员的空间位置以及受灾说明的数据的腾讯文档却发挥了极大的作用.在短短1天内其访问量超过了250万次,并且据不完全统计至少救助了超过85名受灾群众.这充分说明了空间数据在灾难发生期间能够发挥重大的作用.在现有的研究之中,灾后的灾害管理主要以救援路线的规划以及救援物资分配为主.依据灾后受灾人员的位置,各个地方的受灾情况进行规划,从而尽可能地减少灾难发生后的损失.

2.3 传染病防疫

基于人群传播网络的传染病给人类社会带来了广泛的影响,而传染病的传播和人的移动息息相关.通过整合人口迁徙相关的空间数据,比如个人GPS轨迹、交通轨迹、航班数据等,结合传染病物理传播模型和深度学习等方法进行建模,空间数据智能可以在疫情预警、疫情预测、疫情排查、疫情物资配置等方面发挥重要作用.

1) 空间数据智能助力疫情预警.基于区域间的人口流动数据建模,可以预测下一个可能爆发的疫情区域,为各个地区提前预防、防疫政策调整提供科学依据.

2) 空间数据智能协助疫情传播预测.在发生疫情后,根据该地区包括人口迁徙、交通运输在内的空间数据,进行空间数据驱动的预测模型的建立及传播模拟,可以对传染病的传播态势进行预测,了解疫情发展态势和峰值时间等,协助医疗专家对疫情发展做出更加精确的评估,辅助政府部门制定防疫政策.

3) 空间数据智能协助疫情排查,通过对包括个人轨迹在内的空间数据的整合以及密接判定模型的建立,空间数据智能方法可以快速锁定密接接触者.作为一种重要的“技防”,空间数据智能可以让传染病排查工作在传统的流行病学调查的基础上变得更加高效精准.

4) 空间数据智能优化疫情物资配给.传染病爆发区域对防控物资的需求量大,空间数据智能通过先进的计算机及通信技术整合各地的物资数据,利用算法优化物资配置并规划派送方案,并结合对潜在风险区域的挖掘,协助防疫物资科学储备.

2.4 智慧能源

为实现“碳达峰”和“碳中和”的目标,“十四五”期间我国将加快能源数字化转型,建设清洁低碳、安全高效的现代智慧零碳能源体系.空间数据智能技术通过利用物联网、云计算、大数据、人工智能和5G等技术,可以实时感知能源领域的时空信息,集成多种能源(电、煤、石油、天然气、供冷、供热等)的生产、传输、存储、消费、交易等时空数据于一体,建立能源体系的数字底座,实现风光储一体化、石油管道运输规划、电力供应、绿色能源交易、用户需求预测等能源全生命周期管理环节的价值挖掘和分析,构建能源价值的一体化智能服务平台.

空间数据智能技术可以大大提升能源领域的数字化、自动化和智能化,做到零碳能源智能生产,实现能源的脱碳生产和清洁利用;建立分布式智慧能源网络,提高能源的传输和利用效率;同时实现多能协同供应与调度管理,充分发挥多种能源相互配合使用的优势.除此之外,空间数据智能技术还可以提供能源的智能交易服务,实时高效地满足供需侧的多样化需求;打造低碳车联网能源服务,促进新能源汽车的快速发展,减少道路交通的碳排放和空气污染;同时提供一站式园区智慧能源服务,降低园区能耗强度和碳排放强度.因此,空间数据智能技术能够全面助力能源的数字化转型,加快双碳目标的实现.

2.5 国土空间规划

国家“十四五”规划提出要推进完善新型城镇化战略,构建国土空间开发保护的新格局.如何在可持续发展的目标下,研究土地利用变化过程,预测土地利用未来发展趋势,实现地区土地利用的数量、功能、布局、强度等系统性优化,是当前国土空间规划研究的重点.空间数据智能技术是构建国土空间开发新格局,实现土地资源高效利用和合理配置,为土地管理部门提供成熟决策方法的关键技术.

通过借助空间数据智能技术,将不同部门的多源地理数据(地形地貌、遥感影像、地表覆盖、测绘基准、土壤、植被、环境监测等)聚合在一起,实现统一数据访问接口,构建数据库集成管理和统计分析系统,逐步构建地理时空信息云平台,旨在实现国土空间规划“一张图”,为政府部门提供准确标准的数据支撑.

通过借助空间数据智能技术,构建融合统计方法和地理学定律的空间计量模型,可以评估土地储备潜力,预测未来土地储备需求量和土地价格;构建人类活动与基础设施的时空关联关系模型,可以自动提取城市边界,分析城市混合功能空间结构,实现城市功能区的精细化管理和动态监测;构建土地利用变化模拟模型,可以挖掘复杂驱动力因素对城市发展的驱动机制,分析主导影响因素,预测不同情景下的未来土地利用;构建多目标土地利用优化模型,可以提升用地强度利用效率,对土地资源进行空间合理调控,实现经济发展、环境保护、社会公平和区域协调的平衡,为国土规划部门提供有效的解决方案和决策支持.

3 未来展望

3.1 多模态数据融合和数据库的易用性

随着5G和物联网技术的快速发展、以及时空应用场景的不断变化,时空数据库在不断发展的同时,也面临了诸多亟需解决的挑战性难题,如多模态数据融合.真实世界中时空数据除了时间序列和地理位置数据外,还存在大量具有时空属性的多模态数据,如GPS文本、运动图像、交通视频等,如何在现有时空数据库中融合具有时空属性的多模态数据,以支持多模态时空数据融合处理,是时空数据库领域面临的新挑战.

此外,随着以博客、社交网络、基于位置的服务(location based service, LBS)等为代表的新型信息发布方式的不断涌现,以及云计算、物联网技术的不断发展,高精尖的数据库技术逐渐进入人们的视野,并帮助一般用户进行感知和决策.然而,用户并不精通数据库专业技术,但仍然需要对许多事务进行决策,因此需要高可用、易懂易用的数据库.“数据库平民化”已经成为数据库未来发展的一大趋势,如何利用即时查询、查询构造等提升时空数据库易用性是时空数据库领域面对的又一新挑战.

3.2 新一代时空数据数据挖掘算法

随着移动智能设备和移动通信技术的快速发展,空间数据的采集变得日益普遍,使得大规模空间数据在医疗、能源、交通等领域具有重要应用价值,然而与空间大数据相匹配的信息处理、知识提取算法仍是亟待研究的领域.此外,人工智能和数据挖掘算法在近十余年来取得了长足的发展,我国也在近年提出了促进人工智能和大数据国家战略,指出人工智能和数据挖掘技术将成为发展国民经济水平各领域的重要抓手.在空间数据智能研究中,如何有效地实现空间大数据和人工智能研究的深度融合、再创新是重要的未来发展方向.

然而,在空间数据智能中,应用并发展人工智能和数据挖掘技术也存在以下几点重要问题:首先,空间数据往往体量巨大且结构异质,这对发展、应用的人工智能模型的计算效率、空间复杂度和可并行度等性能指标提出了很高要求.其次,空间大数据由于物体在空间上重叠、包含等原因,往往缺乏也难以获取高质量数据标签.这使得现有算法模型大部分局限在非监督学习、弱监督学习范式下,难以从大规模无标签空间数据中提取出高质量知识.此外,空间大数据由于获取渠道多元、大规模感知设备的精度低等原因,存在数据质量差、单位数据价值密度低等问题.空间数据噪音在很大程度上受定位设备的影响,如GPS、蜂窝基站、WiFi热点等,且不同数据渠道采集的数据存在较大差异,难以有效融合.因此,在空间数据智能中设计数据挖掘和人工智能算法需要有效解决对数据质量的兼容性问题,从而实现稳健的空间知识提取.

3.3 时空复杂性与复杂系统

随着社会分工的不断深入,快速的城市化是过去数十年中贯穿我国和世界各国的主旋律.空间上的聚集和由信息技术发展带来的高频社交行为,使得复杂系统成为了研究人类社会及相关问题的必要范式.

在此背景下,人的行为模式在不同空间尺度下表现出完全不同的复杂行为模式.以交通规划领域为例,其在个体层面关注于出发地-目的地(O-D)的建模,在聚合层面要建道路截面流量,而在城市区域层面则要关注宏观人群流动规律.复杂系统的内在特性使得微观机制和宏观规律间存在难以预测的非线性效应,这位多尺度的空间数据智能研究提出了独特的挑战.

现有复杂系统研究主要采用演绎的研究方法,即基于一系列预设的微观机制推到、仿真宏观的行为规律.然而,这一研究范式无法有效利用日益丰富的空间数据,无法实现数据驱动的规律发现和知识获取.另一方面,单纯的数据挖掘算法无法有效地和已有复杂系统理论相结合,挖掘出的观测规律在理论完备性和可泛化能力上存在隐患.因此,空间数据智能的未来研究中,一个重要方向是提出能有效结合复杂系统理论与空间大数据的新研究范式,并且解决其在社会各领域的有效应用.

3.4 可解释的时空关系建模

近年来,机器学习领域取得了蓬勃发展,对于现有的机器学习方法来说,单纯追求预测精度是不够的,这类模型具有一个共同的特点,内部结构复杂,运行机制像一个黑盒子一样.且大多数预测模型根据相关性进行预测,但相关性并不意味着因果关系,模型输出结果也难以得到有效解释.因此,在未来,正确性和可解释性成为了机器学习特别是深度学习要实现的目标.

深度学习领域尝试开展具有可解释和分析能力的关系模型,这些模型的一致目标是探究能否找到一个原因,来对模型结果进行针对性的解释以及可靠的指导.因此,深度学习开始结合一些因果发现与因果推断方法,例如因果图、结构因果模型等,通过对观测的时空数据进行分析来揭示隐藏的因果信息.因果分析也是快速发展的可解释人工智能领域的一个重要课题,旨在构建可解释和透明的算法,解释如何做出决定.从以往研究来看,因果关系已经在无数领域和场景下得到学习,包括教育、医学、经济学、流行病学、气象学和环境健康等.

因果学习与机器学习领域有着密切的关系.机器学习领域的蓬勃发展促进了因果发现和因果推断领域的研究与探讨.例如,应用决策树、集成方法、深度神经网络等强大的机器学习方法,可以更准确地估计潜在的结果.因果学习是解释分析的强大建模工具,它可以使当前的机器学习做出可解释的预测.因此,如何更进一步将因果学习与机器学习连接起来,克服认识上的不透明性,从相关性最终获得因果性,是未来需要解决的难题.随着数字传感技术的进步与发展,以及时空数据库的不断丰富,发展具有因果关系挖掘能力的模型或许是破解黑箱模型的关键.

作者贡献声明

:宋轩负责论文思路构思、论文整体写作和修改;高云君、李勇、关庆锋和孟小峰进行论文写作和修改.

猜你喜欢

空间数据时空数据库
跨越时空的相遇
GIS空间数据与地图制图融合技术
玩一次时空大“穿越”
融入空间数据的地图制图路径探究
数据库
数据库
时空守护者之宇宙空间站
时空之门
数据库
数据库