点云场景认知模式<br/>——泛化点云

点云场景认知模式
——泛化点云

2022-04-25贾守军吴杭彬艾克然木艾克拜尔

测绘学报 2022年4期

刘春，贾守军，吴杭彬，黄炜，郑宁，艾克然木·艾克拜尔

1.同济大学测绘与地理信息学院，上海 200092；2.同济大学数学与科学学院，上海 200092

点云数据包含三维几何坐标和特定物理属性，是二维矢量和影像数据之后的重要地理信息时空数据，在场景数据的三维精细化观测和场景信息的几何结构化表达等场景感知方面具有显著的优势[1]。然而，地质灾害态势感知、自然资源定量调查和道路交通安全服务等国家重大战略需求的应用突破，因其高度复杂、强不确定性、持续动态演化的场景特性，促使对场景的理解从感知迈向认知[2-4]。场景认知是对物理环境中客观事物本质特征和空间关系的理解，其中，场景数据(观测数据)—场景信息(数据特征)—场景知识(特征关联)的全链路转化是实现场景认知能力“从现象到本质”提升的关键途径[5-6]。因此，场景观测模式需要从单一点位观测向多线全域观测突破，智能处理算法需要从特征提取为主的人类认知向能主动识别特征关联的机器认知突破，智能处理算力需要从事后精密计算处理向实时高效分析处理突破。

近年来，随着观测平台和传感器技术的迅速发展，点云大数据采集装备已经从专业级单一化向消费级集成化转变，为点云大数据的获取提供了便捷手段[7]。在点云观测传感器方面，已经形成了以激光雷达(单波段[8]和多波段[9])和摄影测量(传统视觉相机[10]、多光谱相机[11]、偏振相机[12]、深度相机[13]和结构光相机[14]等)为主导，全球卫星导航系统(GNSS)和惯性测量单元(inertial measurement unit，IMU)为辅助的多源传感器耦合观测模式[15]。同时，在传感器搭载平台方面已形成从星载、机载、车载、无人移动平台、仿生机器人、背包、手持、地基等多尺度、多分辨率和多平台协同观测方式[16]。目前，多传感器、多平台观测形成的高维点云已经在智慧城市、自动驾驶和实景三维等诸多领域得到广泛的应用[1，17-19]。然而，高维点云的多时相、多尺度和多属性等特性使得单一化、个性化的点云处理方式难以有效突破智能计算的算法和算力。

本文围绕点云场景认知的基本框架为主要线索，重点分析了多源点云耦合观测、点云场景认知共性处理和重大工程应用3个方面取得的研究进展，总结了点云场景认知研究当前面临的主要问题，最后面向点云场景认知的前沿挑战及发展趋势提出了“泛化点云”的科学概念和技术框架。“泛化点云”是指多传感器、多尺度、多时相遥感观测的单一个性化点云的共性聚合体，在属性维度上有效融合了个性化点云的几何位置、物理属性和辅助信息，并完成了时间维度和空间维度的泛化。在具体表现形式上，“泛化点云”将单一个性化点云的属性信息进行聚合，因而形成了一个高维点集，即“泛化点云”中每一个点都具备多尺度、多时相的空间坐标、物理属性、辅助信息和点云特征。同时“泛化点云”避开传统欧氏空间的低维局限，利用“高维张量流形空间”进行点云的高维属性表达，进而用于场景认知处理。希望能为突破点云场景认知的智能处理水平提供新的研究思路。

1 点云场景认知的研究进展

认知场景中存在大量跨域、高维、低秩、稀疏、隐式的信息[20]，这些信息中的知识，除了具有通用知识的语义内涵和特点之外，还与场景现象或事物的演化过程密切相关[21]。同时，点云观测数据存在的海量、散乱、冗余、不完整、弱结构、高动态和密度差异等特性给点云场景认知处理带来了很大的难度[22-25]。因此，需要以点云观测、数据处理和应用服务3个方面为点云场景认知的基本框架(图1)，在多源点云耦合、点云场景认知处理和工程应用服务3个方面进行深入研究，解决认知场景的动态观测、快速处理和人机协同等核心问题，有效支撑场景认知的科学研究和国家重大战略需求的应用突破。下文分别阐述上述几方面的主要研究进展。

图1 点云场景认知的基本框架

1.1 多源点云耦合观测

由于单一观测平台在其有限的观测视角内难以获取目标场景完整的点云数据，不仅需要进行单一平台的移动或者多站点云拼接，还需要进行多视角观测平台(如室内的地面平台、室外的无人机等)的点云耦合，以克服单一观测平台导致的点云残缺问题，进而实现目标场景空间信息的全方位获取和表达[26-27]。同时，一些观测传感器在特殊的场景下变得失效(如激光扫描难以观测玻璃材质的场景目标)而导致获取的点云数据完整性较低，需要进行多源传感器耦合观测，有效整合多源点云观测传感器的优势，使得多源点云能够完整地描述场景的几何状态[28-29]。此外，通过将GNSS/IMU和不同点云观测传感器集成在统一观测平台上，并进行传感器观测方程、位置和姿态信息的联合解算，解决点云获取中的少弱纹理、变化光照、运动模糊和相似部件等问题，实现目标场景三维点云的高效、稳健和精确获取[30-31]。目前，“广义点云”通过整合单一传感器采集点云间的优势，构建基准统一，且数据、结构、功能为一体的复合点云数据模型，解决了点云数据单一、质量差异大、采样粒度分布严重不均匀等问题[32]。

几何基准的统一是多源点云耦合的基础。点云配准是恢复两个或多个位于不同坐标系下具有重叠区域的点云之间的平移和旋转关系，在此基础上进行多源点云的几何基准对齐[33-34]。因此，点云配准是多源点云耦合观测的有效手段。目前，点云配准主要分为基于优化和基于特征的方法。基于优化的配准方法是利用迭代优化策略来估计最优变换和对应关系，主要包括局部优化[35-36]和全局优化[37-38]。现有的基于优化的配准方法具有较高的理论精度，但需要良好的初始化以缩小启发式搜索的参数空间。基于特征的配准方法是提取特征来确定点云之间的匹配，然后估计点云之间的变换关系，提取的特征主要包括人工设计特征[39-41]和深度学习特征[42-44]。尽管这些基于特征的方法对配准初始化具有稳健性，但其理论精度存在一定的局限性。此外，已有的一些研究集成了基于优化和基于特征的配准方法。这些集成方法[45-46]结合了基于优化和基于特征的配准方法的优点，以确保初始化和理论精度，但由于复杂因素对点云配准的准确性和稳健性提出了巨大的挑战。

多源点云耦合观测能够实现多平台、多传感器之间的优势互补，然而不同平台、不同传感器之间的观测模式、视角、尺度、精度等存在较大差异，导致获取的多源点云之间存在密度变化、尺度差异和低重叠度等问题，严重影响点云配准的效果，因而给多源点云耦合带来较大的挑战。此外，单一来源点云包含的特定物理属性的种类较为单一，而多源点云物理属性的融合能够有效提升对场景目标的描述能力。然而，目前多源点云耦合研究多关注于点云几何基准的统一，多源点云物理属性的融合研究很少。

1.2 点云场景认知处理

场景语义认知是对空间场景物理环境的理解过程，通过提取空间场景中实体要素的特征，并建立特征关联关系，进而揭示场景要素间的关联机制[25]。因此，点云场景认知的核心任务在于抽象与表征场景信息中的高维时空关联特征，其中特征提取、关联认知、特征学习是点云场景认知的共性处理技术，也是从场景特征感知向语义认知交互阶段迈进的关键。

1.2.1 特征提取

点云数据特征提取是通过特征关键点选择、特征描述子设计和特征空间变换映射，描述点云大数据中稀疏分布的信息[47]。点云特征能够有效表达场景几何结构和物理状态，因而成为点云场景认知处理的基础和前提[48]。目前，点云数据特征构建的范式是通过矩阵或者向量计算，将单个点实体对象进行三维坐标映射，然后根据欧氏空间中的分布特性计算和搜索三维几何邻域，实现点云原始数据到特征空间的有效映射[49]。这种范式中，特征的描述可分为基于特征值[50]、基于特征向量[51]、基于点特征直方图[52]、基于二维视角[53]、基于图[54]、旋转投影统计特征描述[55]、二进制形状上下文[56]等形式。然而，这种特征构建范式将点云数据中包含的高维信息降维为二维矩阵或向量，造成点云数据中几何结构形态的损失和属性关联关系的破坏[57-58]。因此，在特征构建过程中会造成高维信息的丢失与损坏，从而直接导致场景信息表达的残缺与失真。

1.2.2 特征关联

特征关联是通过提取场景要素的特征，建立特征之间的关联关系，揭示场景要素与空间全局上下文关系，进而实现场景认知[25,59]。当前，点云特征关联方法主要分为间接法和直接法。间接法是将三维点云投影为二维图像进行视觉影像特征关联，进而映射为三维点云的特征关联关系。典型的视觉影像特征关联方法有金字塔场景分析网络[60]、深度神经网络[61]、特征感知网络[62]等方法。直接法是直接确定三维点云特征的关联关系，研究进展包括通过场景要素邻域之间的优化迭代获取场景要素上下文信息[63]，基于三维金字塔模块的要素关联方法增强要素间多尺度特征的认知能力[64]，利用同质超体素组织实体要素上下文信息来增强场景语义的推理能力[65]。然而，目前点云特征关联研究多依赖于欧氏空间中几何特征的实体信息表达，难以支撑点云场景要素的有效空间认知。因此，有必要在新的特征空间中对全局、深层、时空不变的特征进行关联研究。

1.2.3 特征学习

深度学习凭借其优良的高层次的语义理解能力，在点云数据的场景认知上引起了广泛的关注[66-67]。目前，根据深度学习模型的不同，点云特征学习方法可以分为基于多视图、基于体素和基于原始点云的方法。基于多视图的方法是将三维点云投影为二维图像，进而进行深度学习处理，代表性的模型包括Multiview-CNN[68]和SnapNet[69]。基于体素的方法是将不规则的点云进行体素规则化，再输入神经网络中进行学习处理，代表性的模型有VoxNet[70]和SegCloud[71]。相比于基于多视图和体素化的间接处理方法，基于原始点云的方法是直接利用原始点云进行深度学习，避免点云转换带来的信息损失，代表性的模型有PointNet[72]和PointNet++[73]。此外，特征聚合的点云深度学习方法通过在学习网络输入阶段加入手工物理特征，以提升特征学习的效果[49]。然而，当前点云特征学习方法尚存在训练数据限制、模型缺乏可解释性、模型泛化能力不足、运算成本高等问题。此外，特定任务驱动的深度学习模型不足以实现高层次特征的准确描述，还需要开展进一步深入研究来支撑场景认知。

1.3 点云场景认知应用

点云场景认知在场景耦合观测和智能处理方面取得了较好的研究成果，在智慧城市数字底座、道路交通安全服务、基础设施健康监测、自然灾害态势感知、生态资源定量调查、文化遗产数字管理等国家重要战略中得到了广泛应用(图2)，实现了基础研究和应用研究的有效衔接。

1.3.1 智慧城市数字底座

点云场景认知集成空间数据、地理信息、场景知识，结合物联感知数据，为数字底座信息模型设计、数字底座数据治理模式设计和数字底座呈现能力建设提供多粒度、多层次、多细节的空间地理信息模型，在城市精细化管理、数字孪生城市建设、城市安全分析预警等方面得到广泛的应用[74-76]。

1.3.2 道路交通安全服务

面向大范围、多密度、高动态的道路场景，点云场景认知通过识别、拾取、关联等处理模块，可以高效、准确地获取包含几何结构、语义信息、拓扑连通、动态更新的高精度语义地图，实现交通路网的智能感知和多维监测，为在途驾驶人及自动驾驶车辆提供准确、及时、直观的安全交通策略[77-80]。

1.3.3 基础设施健康监测

面向重大基础设施服役状态监测及精细运维需求，点云场景认知能够高精度获取结构几何信息、多层次重构表面纹理细节、多维度表征健康状态指标，为大型建筑施工质量控制、城市道路关键要素健康检测、桥梁健康动态评估提供快速有效的感知模式，有力支撑基础设施健康状态科学诊断和全生命周期防护[81-84]。

1.3.4 自然灾害态势感知

在自然灾害态势感知方面，点云场景认知能够高效、精准、及时地获取不良地质体的三维模型，基于多时相三维模型计算不良地质体的形变和位移数据，分析不良地质体的态势演化规律，进而揭示自然灾害触发机制，为自然灾害区域的快速定位、抢险救援、风险评估及灾害预警等提供关键支撑[85-87]。

1.3.5 生态资源定量调查

点云场景认知通过点云耦合观测、三维结构信息精确获取、生态参数定量反演、空间格局动态演化分析，实现对生态资源的全方位、多层次、精细化、智能化的状态认知，大幅度地提升了自然资源定量调查的工作效率，为保护生态自然资源的可持续发展政策制定提供科学支撑[88-91]。

1.3.6 文化遗产数字管理

点云场景认知能够通过实际数据采集、处理和重构，为文化遗产的高精度三维建模、数字化存储、虚拟化修复、可视化展示、网络化传播提供可靠的、完整的、精确的数据信息资源，显著提升了文化遗产管理的工作效率和质量，为文化遗产修复、重建和后续的研究工作提供了宝贵的资源[92-95]。

点云认知已在许多重大工程和典型领域里得到了广泛的应用。然而，随着应用场景的复杂性、不确定性、动态演化性不断增加，点云场景的认知处理算法仍需加强多类别、多层次、多维度点云特征的融合、提取、关联、学习等方面的研究。同时，为了满足认识场景的动态观测、快速处理、应急建图、人机协同等技术应用需求，需要进一步提升点云认知处理的算力。

2 点云场景认知的当前挑战

在点云耦合观测、认知共性处理和认知应用需求的多重驱动下，点云数据的完整性、时效性和颗粒度显著提升，进而产生了多时相、多尺度和多属性的高维点云[1]。高维点云蕴含丰富的场景信息，不仅描述了场景的三维空间结构特征，而且包含了具有通用知识的事实型、规则型、决策型语义内涵及具有特定的时空特征，这些信息与场景的动态演化过程密切相关。尽管目前点云认知研究已经取得了一系列先进的成果，然而如何在有效的认知空间中对高维点云进行客观表征和高效处理，挖掘场景中深层次的信息并建立实体、语义、事件之间的关联关系，是智能获取场景知识面临的新挑战。

2.1 高维点云的属性聚合

时空基准的统一是多源点云聚合的基础，而多平台、多传感器、多时相耦合观测导致的点云密度变化、尺度差异和低重叠度等问题给多源点云基准统一带来了较大的挑战。因此，需要揭示多来源点云的误差分布和传播规律，研究稳健的点云配准方法，同时研究多尺度点云特征融合方法，实现多源点云的高维属性有效聚合和多维表达。

2.2 高维点云的智能处理算法

传统欧氏空间中，多源属性聚合产生的高维点云数据对物理环境感知的理论与方法因其本质上的局限而制约对物理环境的有效认知。因此，针对高维点云数据，需要突破传统认知空间的局限来探索对物理环境的有效认知空间，需要从数学描述和物理解释上去构造有效认知空间，并探索有效认知空间下特征提取、关联、学习的认知机制。

2.3 高维点云的智能处理算力

尽管多平台、多传感器耦合观测产生的高维点云能够聚合更多的场景信息，然而点云数据的存储容量显著增加，给场景认知处理的效率带来了更大的挑战。因此，需要探索点云大数据的储存与组织机制，研究高维点云学习加速方法，研发点云大数据的高并发计算优化技术，突破海量高维点云数据的运算限制，全面提升点云场景认知处理的算力。

3 泛化点云的场景认知模式

面向自然灾害感知、道路交通安全、自然资源监测等国家重大战略需求应用的前沿挑战，点云场景认知亟须从场景特征感知向场景语义认知进行关键突破，因而以需求导向提升点云智能处理的算法和算力是未来研究的重要课题。为此，本文提出“泛化点云”科学概念(图3)，把多时相、多尺度和多属性的点云属性信息聚合形成一个高维点云数据集，避开传统欧氏空间的低维局限，进而转换到“高维张量流形空间”中进行认知处理，这一学术思想是对传统在欧氏空间对点云进行降维处理的补充。

图3 泛化点云的科学概念

“泛化点云”是指由多传感器、多尺度、多时相遥感观测点云的聚合，是点云在来源、时间和空间维度的泛化，具备几何位置、物理属性和辅助信息的高维点集的有效统一，通过特征提取、特征关联、特征学习和运算加速等共性处理，可挖掘场景的要素状态、语义关联、事件演化、场景变化等知识。在具体表现形式上，“泛化点云”将单一个性化点云的属性信息聚合成一个高维点集，其中每一个点都具备多尺度、多时相的空间坐标、物理属性、辅助信息和点云特征，同时利用高维张量进行点云高维属性的数学表达。“高维张量流形空间”是传统低维欧氏空间的高维拓展，是高维点云数据的自然表达载体。在“高维张量流形空间”，泛化点云的属性信息能够得到完整和准确地表达，能挖掘高维数据内部隐含的低秩结构，显性表征具有特定物理含义的主要特征，并可从物理机理上解释特征学习的模型参数和认知规律，改变了传统空间认知的思路。

针对泛化点云的场景认知模式，需要探索泛化点云在高维张量流形空间的认知机制，研究泛化点云的场景认知理论方法，形成场景认知共性处理技术。为此，泛化点云的场景认知模式需要在张量模型探索、关联机制构建、智能处理算法和算力突破方面进行研究，如图4所示。

图4 泛化点云的场景认知模式

(1)开展泛化点云稀疏特征的高维张量流形空间表征研究，探索能够显性表达泛化点云的高维张量流形空间基础模型。探索欧氏空间与高维张量流形空间下泛化点云几何和语义信息表现的差异，探索建立泛化点云欧氏空间与高维张量流形空间的可逆映射关系；研究高维张量流形空间认知与表达理论，揭示高维张量流形空间下泛化点云高层次几何和语义特征的显性表征机制；突破泛化点云几何属性和语义信息的高维张量流形空间表达，实现泛化点云在高维张量流形空间下的有效表征；探索构建多元关系融合的高维张量分解模型，研究面向泛化点云的高维张量低秩逼近方法，实现泛化点云高层次几何和语义稀疏特征的有效提取。

(2)开展高维张量流形空间泛化点云语义特征关联研究，构建高维张量流形空间中语义关联的认知机制。研究泛化点云在高维张量流形空间中的时空不变关键特征，构建时空不变特征与实体要素语义的分层映射关系，研究深层特征的构造与增强机理，分析多任务多场景下共性特征关联关系，降低特征与特征之间，特征与任务之间的依赖相关性；研究跨任务时空一致的语义上下文关联机理，增强语义的上下文一致性，实现全局场景语义关系的有效约束；研究语义结构化关联与场景知识理解机制，探索实体关系抽取模式与结构化关联模式，实现实体要素语义关系向场景知识表征的过渡。

(3)开展泛化点云要素稀疏特征的韧性学习研究，建立算法可解释的认知学习机制。研究构建面向泛化点云及其稀疏特征的可解释深度神经网络语义标注方法，建立模块化语义表达的神经网络，提高神经网络模型的可解释性和透明性；探索面向泛化点云的小样本、弱标注、自适应新环境的上下文关联的迁移学习机制，提高复杂场景下深度学习的泛化能力；研究提高复杂场景泛化点云认知的韧性学习能力(训练稳定、模型抗干扰、变化环境自适应、可解释性强)，构建泛化点云实体要素知识图谱的协同推理计算方法，突破复杂环境下的空间要素特征的认知局限，实现对空间实体的理解从感知学习到认知智能层面的提升。

(4)开展泛化点云高并发学习的高性能优化算法研究，建立算力可加速的认知学习机制。研究基于非凸低秩分解的深度神经网络压缩与加速机制，并运用并行计算的网络计算模型，提升高并发学习的收敛速度；研究点云知识图谱的精化构建与优化更新方法，探索静态深度学习到时变迁移学习的转化机制，通过构建泛化点云实体要素不同时序的共性算子，高效抽取实体要素及实体对之间的关联知识，实现知识概念图谱上下文关系的快速更新与补全；探索建立要素实体和概念关系链接而成的网状知识图谱模型和数据的高效表示与存储方法，优化泛化点云实体要素知识图谱的协同推理计算机制。

4 总结

揭示智能体空间认知行为与判断机制，实现对空间场景的理解从特征感知向语义认知的迈进，是地球对地观测研究在新一代人工智能发展阶段的前沿问题与挑战。场景信息到场景知识的有效转化是实现认知能力提升的关键。点云大数据作为新型遥感的主要数据形式，逐渐成为智能体感知场景的重要信息载体。然而，对点云数据的计算范式目前是在欧氏空间中提取和关联几何特征，不能支撑场景中稀疏分布、物理属性复杂的高维时空关联特征的构建，难以有效挖掘数据内部隐含的场景语义知识。

本文在对现有研究进展进行比对分析、方法总结和问题凝练的基础上，提出了泛化点云的概念，它是具备空间位置、物理属性、时间序列和同步辅助信息的高维点集，蕴含真实场景的丰富知识。同时张量流行空间以其对非规则高维数据表达的原生支持特性，可为泛化点云的特征表征提供新的理论和方法支撑。在笔者前期探索中，已利用点云在张量流行空间中的特征表征显著提升了复杂环境中多类型要素的特征识别率，证明了对场景复杂几何形态精确表达的有效作用。

此外，迫切需要瞄准泛化点云的场景语义认知前沿科学问题，通过高维张量流形空间对物理环境在有效认知空间进行转换，揭示物理环境的泛化点云在新有效认知空间与要素语义知识的关联机制，从而推进泛化点云认知的基础研究。也需要围绕泛化点云对物理环境新认知空间中独有的基础性技术突破，建立泛化点云的韧性学习机制，突破面向泛化点云高并发计算的效率、收敛和优化技术，全面提升泛化点云运算效率和质量，并完成典型室内外场景高精度语义建图，实现基础和应用研究的衔接。