APP下载

室外动态场景图的构建及其三维重建方法研究

2023-04-29李健康景尧杨钧何斌

陕西科技大学学报 2023年2期

李健 康景尧 杨钧 何斌

摘要:合理有效的表示空间和场景语义信息是计算机视觉高级任务的基础之一.目前多数场景表示工作都是基于室内静态环境展开的,对室外场景表示时,存在三维建模结果易受到光照等干扰以及分层表示的属性、结构不适用的问题.故提出了一种针对室外环境的空间感知统一表示——室外3D动态场景图,根据室外场景中对象的不同尺度、种类等,对分层的属性及逻辑进行改进.特别针对现有三维重建方法易受到室外环境干扰的问题,结合深度特征度量改进稀疏重建中关键点调整和束调整步骤,通过改进后的关键点位置和相机位姿提高稠密重建的结果.在ETH3D数据集与自采室外图像上进行三维重建实验,并从准确率、完整率以及F1分数等指标上与其他多视几何方法进行了对比.实验结果表明,所提方法能够更精确的重建室外场景,并且在光照等室外条件不理想情况下重建效果更好.

关键词:场景理解; 室外3D动态场景图; 室外三维重建; 运动恢复结构; 多视图立体

中图分类号:TP391文献标志码: A

Research on construction of outdoor dynamic scene graphs and

3D reconstruction method

LI Jian KANG Jing-yao YANG Jun HE Bin(1.School of Electronic Information and Artificial Intelligence, Shaanxi University of Science & Technology,  Xi′an 710021, China;  2.College of Electronic and Information Engineering, Tongji University, Shanghai 201804, China)

Abstract:It is one of the fundamental problems in high-level computer vision tasks to represent the scene semantic information and spatial information comprehensively.Most current work aim at the indoor static environment.When representing outdoor scenes,there are problems that the three-dimensional modeling results are susceptible to interference such as lighting and the properties and structures of the hierarchical representation are not applicable.Therefore,a unified representation of spatial perception for the outdoor environment is proposed——outdoor 3D dynamic scene map,and the properties and logic of the layer are improved according to the different scales and types of objects in the outdoor scene.In particular,aiming at the problem that the existing three-dimensional reconstruction method is susceptible to outdoor environmental interference,combined with the depth featuremetric to improve the key point adjustment and bundle adjustment steps in the sparse reconstruction,the result of the dense reconstruction is improved by improving the key point position and camera posture.3D reconstruction experiments were performed on the ETH3D dataset and the self-production outdoor images,and compared with other multi-view geometry methods in terms of accuracy,completeness and F1 score.Experimental results show that the proposed method can reconstruct the outdoor scene more accurately,and the reconstruction effect is better under the unsatisfactory outdoor conditions such as lighting.

Key words:scene understanding; outdoor 3d dynamic scene graph; 3d reconstruction; structure from motion; multi view stereo

0引言

合理有效的將一个场景中不同层次的空间和语义信息统一表示并形成模型结构,是推动计算机在人机交互、自动驾驶、智能建造等领域应用的关键因素.Armeni等[1]针对室内场景,首先利用激光扫描获取室内场景的高精度三维模型,其次使用场景图[2]结构,建立了对象、3D空间和相机之间的关系;同样针对室内场景,Rosinol等[3]首先对采用双目相机获取到的图像和IMU(Inertial Measurement Unit)信息进行处理,使用Kimera这种方法[4]恢复场景的三维网格信息,然后提出了3D动态场景图(3D Dynamic Scene Graphs, DSG)作为可操作空间感知的统一表示,添加了动态对象的语义信息,通过五层不同抽象的层捕获场景的三维几何和语义信息.目前多数工作都是针对室内场景,相较于室外场景的规模,对象之间不同的尺度、种类,以及丰富的区域属性等特点,上述工作在进行室外场景表示时,可能会造成分层逻辑混乱、对象语义不完整等情况.

因此本文针对室外场景与室内场景的差异,在DSG[3]的基础上,提出了室外3D动态场景图(Outdoor 3D Dynamic Scene Graphs,ODSG),根据室外场景的规模、对象尺度、种类等特点,划分不同的层次,支撑对室外场景的表示,并且可以通过更改不同节点的属性关系,为其他计算机视觉任务提供不同级别的抽象信息特征.

三维模型作为3D场景图的基础,能够提供任意的3D、遮挡等信息,并且ODSG中不同计算机任务的执行也依赖一个精确的三维模型.为了从图像中重建出完整的场景三维模型,通用的方法是将重建分解为图像检索、图像特征点匹配、稀疏重建和稠密重建等步骤.特征匹配作为重建的上游任务,特征点提取的准确与否决定了最终的重建效果.而在室外场景中,由于光照、几何约束条件不理想等问题,会导致特征点的提取存在很大误差.因此本文结合深度特征的鲁棒性,通过深度特征度量优化传统重建方法,提高重建模型的精度.

综上所述,本文的主要贡献是定义了室外3D场景图ODSG的框架,并且对ODSG中的三维重建模块进行了改进,结合深度特征解决室外三维建模中由于光照和约束不足造成的影响,提高稠密重建的质量.

1相关工作

1.1场景图

场景图是一种流行的计算机图形模型,通过节点表示场景中的对象、边表示节点间的关系,并进而描述、操作和渲染复杂的场景.相较于其他图像的表示,场景图包含了更多的视觉、语义、逻辑等信息.传统的场景图通常用于描述计算机视觉中的2D图像内容,目前已经被用在图像检索、动作检测、视觉回答等领域.但传统的场景图出现于深度学习之前,因此缺少了高级语义理解.Kim等[5]开创了3D场景图在机器人和计算机视觉中的应用,但他们只捕获了对象,缺少多个可以操作的层次.Armeni等[1]设计了一个半自动的框架,构建了场景中对象、相机语义以及实体间关系的场景图,克服了手工制作耗时耗力的难题.目前多数工作的研究重点都是针对室内环境的,针对室外环境的工作还十分匮乏,但随着数字孪生、智能建造等概念的提出,面向室外的场景图表示也有大量的需求.

1.2三维重建

早期的三维重建方法通常使用图像检索、图像特征点匹配、稀疏重建和稠密重建等子步骤完成重建.其中稀疏重建是根据图像中的2D特征点进行匹配,获取稀疏点云和相机位姿,是三维重建的核心任务.稠密重建是根据场景中相机的位姿参数,获取更丰富的场景表达形式[6].但传统方法依赖于场景中的几何关系,对于弱纹理、光线不理想以及遮挡等情况的重建仍然有一定的挑战.

近年来,由于神经网络的发展,人们提出各种基于学习的重建方法.Eigen等[7]已经将基于监督学习的模型成功应用于单幅图像深度估计.但是利用监督学习方法训练这些模型需要场景准确的深度信息,而在室外场景中往往难以获得这些深度信息.为了解决这个问题,Mayer等[8]研究在合成数据集上进行训练 ,Chen等[9]通过收集相对深度注释,并且将图像映射到深度函数,表示成神经网络来学习.虽然这些研究在一定程度上克服了监督学习的问题,但是大量的数据集依旧是一个挑战,自监督学习方法因其能够从原始立体对(Godard等[10])或者单目视频(Zhou等[11]) 中直接学习单目深度估计模型的能力,而受到了很大的关注.自监督学习的核心思想是应用可微翘曲,使光度重投影的误差最小.Godard等[10]利用Spatial Transformer Networks将立体图像右侧和左侧图像所预测出的深度几何变化,合成为左侧图像.然后使用结构相似度和额外的深度正则化,以完全可微的方式定义合成图像和原始左图像之间的损失,从而允许深度网络以端到端的方式进行自监督.

但是在室外环境宽基线、深度范围较大的情况下,传统方法基于强烈的几何约束,重建结果准确率优于基于学习的方法.因此针对室外环境的三维重建,本文选择在传统方法上进行改进,通过融入深度特征,以提升室外场景三维重建方法的鲁棒性.

2ODSG与三维重建方法

2.1ODSG框架

室外3D动态场景图(ODSG)是一种针对室外场景的可操作空间感知的统一表示,它在不同的抽象层次上捕获场景的三维几何和语义信息,并对静态对象、动态对象、地点、结构以及其之间的视觉关系进行建模,其框架如图1所示.ODSG是一个具有分层结构的有向图,每一层均有一组节点,每个节点都包含一组具体实例空间坐标、形状或边界框信息的属性,节点之间均有一条表示关系的边.ODSG将场景的抽象级别从低到高分为:(1)度量语义网格层(Metric-Semantic Mesh Layer,M);(2)对象层(Objects Layer,O);(3)结构层(Structures Layer,S);(4)区域层(Reigon Layer,R);(5)建筑层(Building Layer,B).层次划分以及对应元素、属性、不同层次之间的关系如表1所示.

(1)度量语义网格层:ODSG的最底层是场景的三维模型,该层中的节点是三维点(区域顶点),每个节点均具有两个属性:(i)三维位置;(ii)全景语义标签,节点关系包括:本层节点之间的相对空间信息(M,M)以及节点与上层父级之间的关系(M,O).

(2)对象層:对象层主要由语义注释的图像分割与目标检测数据所构成,其中包含两种类型的节点:静态对象与动态对象.

静态对象表示环境中非结构化的静态元素(桌椅、路标等),该层中的节点是三维包围框中心点,每个节点均具有两个属性:(i)边界框;(ii)语义标签.

动态对象代表室外场景中的动态实体,包括非刚性类与刚性类.虽然存在许多类型的动态实体,但在这里为了不失一般性,ODSG主要关注两类:非刚性的人类,刚性的车类.本层节点具有两个共同的属性:(i)3D包围框;(ii)语义类.而非刚性类节点还具有3D位姿信息,3D位姿信息是由数学离散模型中定义的节点和边组成的,节点是某时刻的位姿,边是相对测量的位姿.节点关系包括:可见性、相对大小、距离、是否接触等同层关系(O,O)、上层父级关系(O,S)与下层子级关系(O,M).

(3)结构层:结构层是不同空间之间的分隔物,这一层的主要任务为:捕获不同空间之间的分割部件(道路、围栏、墙壁等).将场景分割成不同功能区域的结构集合,结构的节点属性包括边界框、语义标签与三维空间信息;节点的关系分为同层位置关系(S,S),以及集合内区域和结构关系(S,R)三种.

(4)区域层:区域层描述了场景中被分割的区域情况,节点分别对应着被分割的各个区域.每个节点均具有三个属性:(i)三维信息;(ii)边界框和(iii)语义标签(休闲区、施工区、饮食区等).节点关系包括:区域之间的空间信息(R,R)、区域与上层父级的关系(R,B)、区域与下层子级关系(R,S).

(5)建筑层:建筑层描述了不同建筑物的信息,以建筑物为节点.每个节点均具有三个属性:(i)三维信息;(ii)边界框;(iii)语义标签(如办公楼、住房楼).节点关系包括:建筑物之间的空间信息(B,B)、建筑物与下层子级关系(B,R)两种.

ODSG的基础是度量语义网格层,该层中的元素为场景中的3D模型.在对整个场景以及场景中的对象、区域、建筑等进行3D建模后,ODSG使用SMPL[12]模型对场景中的人类进行建模,之后用语义分割算法提取节点的语义信息,通过关系网络提取各节点的关系,将不同的层次连接起来,最终整合节点的属性和关系构建ODSG.由于度量语义网格层的模型精度会影响到ODSG后续的操作,因此本文接下来主要聚焦于ODSG中度量语义网格层的三维重建任务.

2.2三维重建改进

目前,使用最广泛的三维重建方法就是COLMAP[13].COLMAP不断对主流三维重建中多个关键技术进行改进和优化,用于稀疏重建、稠密重建和表面重建.但是Germain等[14]的实验表明,COLMAP使用的SIFT算子(Scale Invariant Feature Transform)在视觉变换强烈的室外环境会产生一定误差,基于深度学习的特征提取方法在光照和约束条件不足的情况下表现更加优异.本文受Lindenberger等[15]的启发,利用深度特征度量约束关键点之间的位置,对COLMAP方法进行改进,使得在光照和约束条件不足的室外环境场景三维重建中表现得更加优异.

本文方法框架如图2所示,对于一组输入的图像,首先执行SFM(Structure from Motion)以实现面向稀疏重建的特征匹配,同时提取输入图像的深度特征;在试探性匹配后,通过最小化稀疏关键点之间的深度特征度量,优化关键点的位置;之后使用优化后的关键点进行后续的SFM操作.完成SFM操作后,用深度特征度量代替传统束调整方法中3D点和重投影点之间的距离,通过最小化深度特征度量,获得更准确的相机位姿和关键点的3D位置.接着使用COLMAP中的MVS(Mulit View Stereo)方法实现稠密重建,输入优化后的相机位姿和稀疏点云,完成后续的稠密重建工作;最终使用更精确的三维点云构建ODSG.

在SFM稀疏重建的操作中,空间位置中的某一个3D点是由许多不同视角的2D稀疏关键点观察得到,这些2D稀疏关键点之间的对应关系被称为轨迹.SFM稀疏重建的几何验证就是通过2D关键点的对应关系进行的.由于3D点在每个图像平面上只有一個投影点,所以有效的轨迹在一幅图片中只能包含一个关键点.根据这一特性,本文借鉴Dusmanu等[16]的轨迹分离算法,在试探性匹配阶段采用贪心策略,设所有轨迹中的节点集合为V,对V中任意两个连接不同轨迹的节点u和v,以及边u→v进行精炼.只有当u和v的patch来自不同的图像时,连接这两条轨迹,该方法能够有效地删除大多数不正确的匹配,降低匹配中的噪声.下面重点对本文方法中不同于传统方法的关键点调整优化和束调整优化做进一步阐释.

(2)束调整优化.传统的束调整通过最小化关键点与重投影关键点之间的差值,来获得最优的相机参数和三维空间的关键点坐标.与传统方法不同,本文采用方法是通过最小化深度特征点之间的距离来进行优化.首先采用公式(2)找到一个与轨迹j中所有关键点距离最小的向量,

3实验结果与讨论

3.1数据集与评价指标

本文的定量与定性实验均使用ETH3D High-Res数据集[18]中的室外场景展开.ETH3D数据集提供了毫米级的相机位姿和激光扫描仪重建的稠密地面真实值,对于每个场景的地面真实值记录2 800万个点.ETH3D数据集使用专业的单反相机进行采集,采集图像为2 400万像素,分辨率为6 048×4 032像素.除此之外,为了验证本文采用方法的泛化能力,本文定性实验中还对自采的室外校训石图像进行了三维重建.

ETH3D数据集从完整率(ACC)、准确率(COM)以及F1分数三个方面对点云模型进行评估.输入生成的点云文件,通过和真值点云进行计算可以得到评估的数据.其中,完整率定义为:与最近重建点的距离小于一定阈值的地面真实点的数量;准确率定义为:在距离阈值内的重建点和所有点的比值;F1分数综合考量准确率和完整率,定义为:

3.2实验细节

3.3实验结果及其分析

3.3.1定量分析

本节通过与其他主流传统方法进行对比评估,以验证本文所用方法的有效性.实验结果如表2所示.可以看出,本文方法在1 cm和2 cm范围无论从准确率、完整率还是F1分数均优于其他方法,虽然在5 cm阈值内没有达到最好的结果,但是总体上趋向于最好的结果.在运行时间方面,Gipuma表现更好,本文方法与COLAMP方法耗时相近.

这是因为本文在COLMAP的方法中结合了深度学习的方法,因此表现优于COLMAP与Gipuma[19].而Gipuma方法首先使用SFM进行稀疏重建,获取相机参数,之后利用多视几何方法进行稠密重建,在多视几何的PatchMatch流程中,Gipuma采用了红黑棋盘的传播策略,能够充分利用GPU实现大规模并行操作,提高了算法的效率,但是Gipuma方法并没有使用视图选择策略,这会导致在视图选择中,没有优先选择具有足够基线、类似分辨率及非倾斜拍摄方向的图像,导致重建的鲁棒性下降.COLMAP方法同样首先使用SFM方法进行稀疏重建,获取相机参数,之后使用多视几何方法进行稠密重建,区别在于稠密重建时PatchMatch流程中选择的策略不同.COLMAP使用了从上到下、从左到右的传播策略,并且选择了基于马尔科夫链模型的视图选择策略,以运行时间为代价提高重建结果,因此在性能方面优于Gipuma.

3.3.2定性分析

为了进一步验证本文方法的有效性,本节对校训石和ETH3D数据集中的室外场景进行重建.实验结果如图3所示.其中,图3(a)为校训石的稠密重建,图3(b)为数据集中室外场景(facade)的稠密重建,可以看出COLMAP可以较完整的重建场景,但由于图3(a)中采集的图像处于逆光状态,导致红框中的细节受到噪声影响,而改进后的方法可以更好的恢复结果;在图3(b)场景中,由于重复纹理区域以及噪声干扰,COLMAP方法中的特征提取及匹配会出现一定误差,导致区域几何结构不正确,像素置信度降低,在结果中出现空洞,而本文方法在特征提取时结合神经网络,增加了方法在特征提取时的鲁棒性,同时能够剔除一部分有误差的匹配,因此表现优于COLMAP方法.验证了融合传统方法和深度学习方法在室外情况下的重建能力.

3.3.3消融实验

为验证本文引入方法的有效性,分析结合深度特征度量对重建的影响,本文从稀疏重建和稠密重建两部分进行关键点调整模块(EFKA)和束调整模块(EFBA)的消融实验.实验在ETH3D数据集中的6个室外场景上进行,最终结果为6个场景评估数值的平均值.

稀疏重建的实验结果如表3所示,第一行是无任何优化的稀疏重建结果,第二行是添加本文的关键点优化EFKA的结果,在1 cm、2 cm、5 cm阈值的条件下,准确率分别提升了13.89%、10.65%、6.06%,完整率分别提升了0.05%、0.17%、0.71%,准确率和完整率均有提高;第三行是添加本文的束优化EFBA结果,在1 cm、2 cm、5 cm阈值的条件下,准确率分别提升了16.8%、13.59%、8.59%,完整率分别提升了0.06%、0.22%、0.86%,准确率有较大的提高,完整率也有所提高;第四行是同时添加关键点优化和束优化的结果,达到了最好的效果,准确率较无任何优化的方法分别提升了18.37%、15.13%、9.27%,完整率分别提升了0.06%、0.24%、0.96%.传统SFM使用SIFT算子提取关键点,并利用关键点进行后续的步骤,因此关键点的准确与否对重建结果影响很大.本文方法采用深度特征代替关键点,实验的准确率提升较大.

针对稠密重建,为了验证束调整对相机位姿、3D关键点位置的影响,实验采用SFM估计的相机参数进行稠密重建,并使用ICP算法(Iterative Closest Point)与真值进行配准后,在1 cm、2 cm、5 cm的阈值内进行评估.实验结果如表4所示,其中第一行是未做任何优化的结果,第二行是添加关键点优化(EFKA)的结果,整体结果均有提升,F1整体结果分别提升了2.48、4.68、1.95;第三行是添加束优化(EFBA)的结果,准确率有较大提升,完整度也有提升,F1整体结果分别提升了2.02、4.28、7.74;第四行是联合优化的结果,准确率在1 cm、2 cm阈值均有提升,完整度有较大提升,F1整体结果分别提升了1.88、6.29、10.36.由于ICP配准算法的误差存在,可能導致某项指标结果上下略有浮动,但是整体结果趋势表明:结合深度特征度量的优化能够有效提高稠密重建的结果.

4结论

本文构建了具有五层空间感知表示支撑的室外3D动态场景图,根据室外场景对象的不同尺度、种类以及功能进行分层表示;并且通过结合深度特征,对度量语义网格层的三维重建进行改进,提升在室外视觉情况下重建的鲁棒性.三维重建的效果在ETH3D数据集中以及实际场景中都取得了一定的进步,但是重建的完整性仍然有提升的空间.在后续工作中,将结合基于学习的方法,利用其强大的数据先验能力进一步改进三维重建效果,提高重建的完整率.

参考文献

[1] Armeni I,He Z Y,Gwak J Y,et al.3d scene graph:A structure for un-ified semantics,3d space,and camera[C]//Proceedings of the IEEE/C IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:5 664-5 673.

[2] Johnson J,Krishna R,Stark M,et al.Image retrieval using scene graphs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:3 668-3 678.

[3] Rosinol A,Gupta A,Abate M,et al.3D dynamic scene graphs:Actionable spatial perception with places,objects,and humans[DB/OL].https://arxiv.org/abs/2002.06289,2020-06-16.

[4] Rosinol A,Abate M,Chang Y,et al.Kimera:An open-source library for real-time metric-semantic localization and mapping[C]//2020 IEEE International Conference on Robotics and Automation (ICRA).Paris:IEEE,2020:1 689-1 696.

[5] Kim U H,Park J M,Song T J,et al.3d scene graph:A sparse and semantic representation of physical environments for intelligent agents[J].IEEE Transactions on cybernetics,2019,50(12):4 921-4 933.

[6] 颜深,张茂军,樊亚春,等.大规模室外图像3维重建技术研究进展[J].中国图象图形学报,2021,26(6):1 429-1 449.

[7] Eigen D,Puhrsch C,Fergus R.Depth map prediction from a single image using a multi-scale deep network[J].Advances in Neural Information Processing Systems,2014,27(2):2 366-2 374.

[8] Mayer N,Ilg E,Hausser P,et al.A large dataset to train convolutional networks for disparity,optical flow,and scene flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:4 040-4 048.

[9] Chen W,Fu Z,Yang D,et al.Single-image depth perception in the wild[J].Advances in Neural Information Processing Systems,2016,29:730-738.

[10] Godard C,Mac Aodha O,Brostow G J.Unsupervised monocular depth estimation with left-right consistency[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:270-279.

[11] Zhou H,Ummenhofer B,Brox T.Deeptam:Deep tracking and mapping[C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich:Springer,2018:822-838.

[12] Loper M,Mahmood N,Romero J,et al.SMPL:A skinned multi-person linear model[J].ACM Transactions on Graphics (TOG),2015,34(6):1-16.

[13] Schonberger J L,Frahm J M.Structure-from-motion revisited[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Lasvegas:IEEE,2016:4 104-4 113.

[14] Germain H,Bourmaud G,Lepetit V.S2dnet:Learning accurate correspondences for sparse-to-dense feature matching[DB/OL].https://arxiv.org/abs/2004.01673,2020-04-03.

[15] Lindenberger P,Sarlin P E,Larsson V,et al.Pixel-perfect structure-from-motion with featuremetric refinement[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Montreal:IEEE,2021:5 987-5 997.

[16] Dusmanu M,Schnberger J L,Pollefeys M.Multi-view optimization of local feature geometry[C]//European Conference on Computer Vision.Glasgow:Springer,2020:670-686.

[17] Hampel F R,Ronchetti E M,Rousseeuw P J,et al.Robust statistics:The approach based on influence functions[M].New York:John Wiley & Sons,2011.

[18] Schops T,Schonberger J L,Galliani S,et al.A multi-view stereo benchmark with high-resolution images and multi-camera videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:3 260-3 269.

[19] Galliani S,Lasinger K,Schindler K.Massively parallel multiview stereopsis by surface normal diffusion [C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:873-881.

【責任编辑:蒋亚儒】