APP下载

模拟真实场景的场景流预测

2022-07-03梅海艺朱翔昱马喜波

图学学报 2022年3期
关键词:光流解码物体

梅海艺,朱翔昱,雷 震,高 瑞,马喜波

模拟真实场景的场景流预测

梅海艺1,2,3,朱翔昱2,3,雷 震2,3,高 瑞1,马喜波2,3

(1. 山东大学控制科学与工程学院,山东 济南 250061;2. 中国科学院自动化研究所,北京 100190;3. 中国科学院大学人工智能学院,北京 100049)

人工智能发展至今正逐渐进入认知时代,计算机对真实物理世界的认知与推理能力亟待提高。有关物体物理属性与运动预测的现有工作多局限于简单的物体和场景,因此尝试拓展常识推理至仿真场景下物体场景流的预测。首先,为了弥补相关领域数据集的短缺,提出了一个基于仿真场景的数据集ModernCity,从常识推理的角度出发还原了现代都市的街边景象,并提供了包括RGB图像、深度图、场景流数据和语义分割图在内的多种标签;此外,设计了一个物体描述子解码模型(ODD),通过物体属性辅助预测场景流。通过消融实验证明,该模型可以在仿真的场景下通过物体的属性准确地预测物体未来的运动趋势,通过与其他SOTA模型的对比实验验证了该模型的性能及ModernCity数据集的可靠性。

常识推理;场景流;仿真场景;物体物理属性;运动预测

现实世界被物理规律包围着,每个物体都有其独特的物理属性,不同物体不停移动并相互交互组成了物理世界。人类拥有对世界的基本认知能力,通过学习和观察可以估计出物体的一些属性,并根据这些属性预测出物体将来的运动趋势,例如行人在过马路时会通过观察估计出马路上车辆的体积、重量、位置、前进方向等,并判断其未来的运动趋势。随着深度学习掀起的第三次人工智能浪潮[1],以神经网络为核心的机器学习算法快速发展,大规模的数据让越来越多的人工智能任务成为可能,也有不少研究者将精力投入到常识学习中;认知与推理是人工智能的一个重要研究领域,推理物理世界中的常识是其中重要的一环;在理解并认知物理世界后,机器可以对物体的运动进行预测,对异常状况做出判断,帮助机器人自主移动等,这也是迈向强人工智能所必须解决的问题。

本文从预测物体的运动速度出发,使用物体的属性预测该物体下一时刻的三维速度,旨在探索人工智能理解物体的物理属性并预测物体运动趋势的可能性,并将其作为推理物理常识的基本问题。物体的属性被抽象为一个特征向量,且被称为物体描述子(object descriptor),物体的三维速度由场景流(scene flow)表示。本文将问题聚焦至在仿真场景下进行场景流预测,现有的研究工作多局限于简单的物体与物理场景,例如在纯色背景下预测简单几何体的运动趋势,在设计时少有算法从常识推理的角度出发;本文向真实迈进,在仿真的场景下对复杂的物体进行场景流预测。为解决现有数据集在该领域的短缺,本文首先提出了一个基于仿真场景的数据集ModernCity,提供RGB图像、深度图、场景流和语义分割图等标签;该数据集的设计从常识推理出发,还原了现代都市的街边景象,场景中的所有物体均遵循严格的物理规律。此外,还提出了物体描述子解码模型(object descriptor decoder,ODD),负责提取场景中物体的属性并通过神经网络将这些属性解码为场景流;ODD模型生成的场景流提供给基准模型作为迭代初始值,填补缺失的局部和全局信息,生成更加准确的场景流预测结果。基准模型的设计参考了主流的光流估计模型。通过实验证明ODD模型可以帮助基准模型对场景流进行预测,证明该模型可以在仿真的场景下通过物体的属性准确地预测物体未来的运动趋势。

1 相关研究

近年来,物理场景理解得到了研究人员的广泛关注[2-29],随着分类[30-38]、定位[39-41]、分割[42-43]等计算机视觉基础任务研究的不断完善,研究者们开始尝试突破计算机视觉的传统目标,其中一个任务是预测动态场景中物体的运动趋势;该任务有2种解决方法:①基于像素的方法[13-17],直接从像素中进行特征提取,预测每个像素未来的情况,由于图像中静态背景的占比往往更大,即图像中有很多冗余信息,这使得基于像素的算法往往缺乏泛化性;②基于物体属性的方法[7-8],将图像中的物体及其属性进行分解,建立物体间的交互关系并进行预测,可以更好地挖掘有效信息,泛化能力更强。

常识学习领域也有一些工作旨在通过物体的属性对物理场景进行理解[2-5],与从常识推理角度出发的常识学习方法不同的是,其算法是从物理规律出发进行设计的。文献[2]使用卷积神经网络(convolution neural network,CNN)学习物体的物理属性,并利用这些属性解决结果预测等任务;文献[3]使用物体检测算法生成物体区域,并使用CNN对区域内的物体进行特征提取,得到一个特征向量来表示该物体的物理状态,然后将其放入物理引擎中预测未来的运动;文献[4]设计了一种即插即用的模块Slot Attention,旨在与其他神经网络进行连接,生成以物体为中心的特征表示,并运用到预测任务上;类似的,文献[5]提出了一个框架,可以提取潜在物体的属性,并通过这些属性对动力学进行预测。

上述工作均局限于简单场景,即在单一的背景(通常是纯色)下预测固定的简单几何体的运动,且少有算法在设计时从常识推理的角度出发。本文将场景扩展至仿真场景,将物体扩展至现实生活中的实际物体(如人类、动物、车辆等),物体的运动趋势使用场景流表示,在此基础上还提出了基于物体描述子的场景流预测模型(ODD模型),如图1所示。该模型由2个阶段组成:①使用ODD模型先对场景中的物体进行特征提取,得到物体描述子后将其解码为场景流;②将ODD模型得到的场景流作为初始值代入基准模型中,预测得到场景流的预测结果。ODD模型使用反卷积神经网络,对物体属性进行解码生成场景流;基准模型的设计参考了主流的光流估计模型[44-47]。

图1 算法模型框架

2 场景流预测

在光源的照射下,连续运动的物体在成像平面上有一系列投影,根据运动物体的投影位移和时间差可以计算出该物体在投影平面上每个像素的二维运动速度,即光流(optical flow)。场景流(scene flow)是将物体的运动由二维拓展至三维,在平面二维速度的基础上增加物体与投影平面间的垂直距离变化,即深度(depth)的变化。

为方便计算,本文将轴的位移简化为深度值在某一像素位置的变化,即该点所在像素位置的深度值变化,而非该点在轴方向的位移,简化后为

综上,本文的任务场景流预测可以描述为:给定2张连续RGB-D图像PP+1,输出P+1未来的场景流。

3 数据集

不同于传统方法,深度学习方法需要大量包含真实标签的数据作为基础对模型进行训练,而场景流、光流的真实标签很难获得,因为现实世界中正确的像素关联无法轻易获取。表1列举了现有的数据集;现有的数据集缺少真实/仿真场景,且物体的运动未严格考虑物理规律;为弥补其不足,本文从常识推理和物理规律的角度出发,提出了新的数据集ModernCity,以推动向真实的物理场景推理迈进。

表1 现有的数据集与本文提出的ModernCity数据集之间的比较

注:ü表示数据集提供了此类型的标签;û表示未提供

3.1 现有的数据集

(1) MPI Sintel数据集[48]源自开源的3D动画电影,提供了光流的稠密真实标签以及视差图,训练集中包含25个场景,1 064张图像。作者花费了大量时间来验证标签的准确性,使其具有很高的可信度;但其数据量不大,不是真实场景,且物体的运动并未严格遵循物理规律。

(2) KITTI数据集在2012年被提出[49],并在2015年被扩展[50],其由立体相机在真实的道路场景拍摄组成,光流标签和视差图是由一个3D激光扫描仪结合汽车的运动数据得到的。然而激光仅能为场景中的静态部分提供一定距离和高度的稀疏数据,运动的物体以及稠密的标签是近似获得的,且其数据量太小。

(3) Scene Flow数据集[51]是迄今最大的光流、场景流数据集,其使用Blender生成虚拟数据,提供真正的场景流标签,包含FlyingThings3D,Monkaa和Driving 3个子数据集,训练集中包括34 801对双目图像。大规模的数据让深度学习估计光流成为可能,该数据集极大地推动了相关算法的发展;然而其未遵循物理规律,物理间的运动是随机生成的。

3.2 ModernCity

如上节所述,现有的数据集在设计时均专注于光流/场景流估计,而常识推理方面未被顾及。Sintel数据集为卡通风格的图像,与真实场景差别很大;KITTI数据集虽然取自于真实场景,但其稠密的场景流标签是近似得到的,且数据量过小;Scene Flow数据集虽然规模庞大,但与真实场景相差甚远,且不符合常识推理。

为解决常识推理在数据集方面的短缺,本文提出一个基于仿真场景的数据集ModernCity,使用Unreal Engine 4批量生成虚拟数据,该数据集包含有光流的稠密真实标签、深度图及语义分割信息,图像分辨率1280×720,训练集中包含14个场景,4 144张RGB-D图像,其中一个实例如图2所示。

图2 ModernCity数据集的一个实例((a)RGB图像;(b)稠密光流;(c)深度图像;(d)语义信息)

场景的设计从常识推理出发,目标是还原现实生活中的场景。本文将范围缩小至现代都市的街边景象,包含有人物、宠物、车辆、飞机、鸟类以及杂物等;不同的物体有不同运动方式和运动轨迹,物体间存在物理关系,被碰撞时会遵循物理规律进行运动,例如杂物被抛掷时会沿抛物线做落体运动。上述的情况均是为常识推理服务。基于上述的规则,本文搭建了一个大型虚拟城市,如图3所示。不同的场景取自虚拟城市的不同角落,并在视角上尽可能覆盖了不同的高度与俯仰角,与现实世界城市中不同路段的监控摄像头相似,如图4所示。场景的布置和镜头的摆放等方面本文参考了Sintel数据集[48]。测试集与训练集的视角间不存在重叠,并对不同场景中人物、物体的运动轨迹进行单独设计,尽量扩大生成内容的差异性。

图3 虚拟城市示意图

图4 不同场景的视角示意图

此外,为保证数据的准确性,在数据和真实标签生成参考了UnrealCV[52],光流、深度图、语义信息的数值经过了严格的验证。

4 物体描述子解码模型ODD

认知与推理物理世界是一个复杂的过程,以人类认识世界的方式为参考,人们往往从物体的角度出发认知世界:①发现物体,并确定物体在世界中的位置;②分辨物体的种类,并推测其物理属性,例如质量、密度、摩擦力等;③根据物体的属性预测其未来一段时间内的状态(运动轨迹、形态变化等)。本文以此为指导,设计了基于物体属性的模型对场景流进行预测。

为了表示物体的属性,本文将物体属性抽象为特征向量并由神经网络进行提取,这些特征向量被称为物体描述子(object descriptor);此外本文提出了ODD模型(如图1上半部分所示)对物体描述子进行解码,为场景中的每个物体进行运动速度的预测。

4.1 物体描述子

每个物体都具有自己的属性,如物体的质量、密度、摩擦力、位置、姿态、运动情况、物体的种类、是否有生命(决定了是否可以自主移动)等;为表示物体的属性,本文将物体的属性抽象为一个维的特征向量,称为物体描述子,向量中的数值可以是具有实际物理意义的、显式的,也可以是抽象的、隐式的。

物体描述子可以是人工标注的(对物体的属性进行标签标注),也可以是通过算法提取得到的特征向量。本文采用CNN作为特征提取算法对物体属性进行提取。CNN具有很强的特征提取能力[53]:浅层卷积核负责提取低级的、具体的特征,例如物体的边缘信息;中层的卷积核负责提取中级特征,例如物体的纹理信息;深层的卷积核负责提取高级的、抽象的特征,这些特征往往没有具体的物理意义,但可以高度概括物体的属性。神经网络具有强大的学习能力,不同物体间所提取出的特征差异巨大,这些特征可以很好地表征物体的属性,而且提取出的属性通常比人工设计的属性更加全面,这也是近年来深度学习迅猛发展的重要因素之一[54]。

4.2 解码模型

本文设计了一种基于物体描述子的解码模型,主体使用反卷积层构建神经网络,将维的物体描述子o解码为场景流。由于物体描述子是一个特征向量,将其解码为场景流的过程中需要不断进行上采样(upsampling)以推断其空间信息,不断丰富物体场景流的细节。反卷积(deconvolution)可以对输入信号进行上采样,其参数是由学习得到的,相比一些插值的方法(最近邻插值等),反卷积可以根据不同物体的特征更好地推断空间信息,生成更准确的场景流预测结果。

如图5所示,解码模型将物体描述子进行解码,输出该物体轮廓范围内的速度信息。该模型可以根据物体的性质做出不同的预测,例如无生命的物体(红色线框的箱子)倾向于静止,而有自主意识的物体(蓝色线框的人类和绿色线框的犬类)则倾向于运动。这说明该解码模型能一定程度上理解每个物体的属性,并根据前后2帧中属性的变化推测下一帧中每个物体的运动速度。这与人们认知中人类对常识的理解近似,可以认为ODD模型有一定的常识推理能力。

图5 解码模型的预测结果

4.3 作为基准模型的初始值

解码模型的输入只有物体描述子,其缺乏图像中的背景等全局信息,导致在单独使用该模型时泛化能力较差,如图6所示。预测的场景流中的物体轮廓大致正确,但存在明显的锯齿,边缘细节较差,运动速度的方向与大小也预测得并不理想。

图6 光流结果对比((a) ODD模型预测结果;(b)真实结果)

因此本文在使用ODD模型时,将其输出作为基准模型的迭代初始值,如图1所示。解码模型负责根据物体属性输出的结果,作为初始值为基准模型提供一定的局部信息,在基准模型预测全局结果时可以向更加正确的方向进行迭代,且局部信息会在迭代中不断增强,使得最终的预测结果在全局和局部都得到一定的改进。将基准模型和ODD模型进行结合后可以增强场景流的准确度,丰富预测结果的细节,例如人物的腿部、远处的人物等。

4.4 损失函数

5 基准模型

鉴于场景流与光流之间的相似之处,本文从光流模型出发,对现有的光流估计模型进行修改,以作为场景流预测基准模型。经过多年的研究,光流估计逐渐由传统迭代法转变为深度学习方法,深度学习算法从最初的FlowNet[44],FlowNet2[45],发展为PWC-Net[46],再到如今的RAFT[47](recurrent all-pairs field transforms)。本文参考RAFT模型设计了预测场景流基准模型,该模型的基本结构如图1下半部分所示,其由3个主要部分构成:①特征编码网络;②视觉相似度;③迭代更新。RAFT模型巧妙地将特征匹配与迭代更新进行了融合,兼顾了局部特征与全局特征。

5.1 特征编码网络

5.2 视觉相似度

其中

图7 计算相似度张量C((a)特征图M t;(b)特征图M t+1)

基于相似度张量,定义一个相似度查询操作,通过索引的方式提取相似度张量进而建立一个相似度特征图。具体地,定义p=(,)为M中任意一点,p+1=(′,′)为M+1中的一点,通过p映射得到

其中,1(,)和2(,)分别为点p的场景流在轴和轴方向的位移,在每个点p+1周围定义一个领域点集,即

5.3 迭代更新

更新步骤的核心组成是一个基于GRU (gated recurrent unit)单元的门控激活单元[55],输入为相似度特征图、场景流f-1和上下文特征图H(P+1),输出为场景流的更新差值Δ。该算法旨在模拟优化算法,通过有界激活函数鼓励其收敛至固定点,基于此目标对更新步骤进行训练,使序列收敛到固定点ff。计算过程为

6 实验与分析

为验证本文提出的物体描述子解码模型ODD的有效性,使用ModernCity数据集设计了若干组实验。

6.1 评价指标

EPE的值越小,光流/场景流的准确度越高。

6.2 实现细节

6.3 训练细节

为了验证ODD模型的有效性,在ModernCity数据集上进行训练,实现工具为PyTorch[58],模型中所有的参数都是随机初始化的。训练时使用AdamW优化器[59],学习率为1×10-4,最大迭代次数为1 000 000次,批大小(batch size)为6,梯度裁剪至[-1,1]的范围。此外在训练RAFT模型时,对于每次迭代f-1+Δ,本文遵循文献[60]建议,f-1反向传播的梯度置零,仅将Δ的梯度进行回传。

训练策略上,本文采用了分步训练的方式:①训练基准模型:对基准模型进行单独训练,设基准模型中场景流的迭代初始值0=0;②联合训练:对ODD模型与基准模型中的GRU单元进行联合训练,对训练后的基准模型中的特征编码网络E和上下文网络H进行参数固定,此时基准模型中场景流的迭代初始值0由ODD模型提供。

6.4 消融实验

为了验证提出的ODD模型是否有效,以及物体描述子是否可以帮助常识学习,本文设计了表2的消融实验。表中的第一行是单独使用基准模型的情况,其中场景流的迭代初始值0= 0;第二行是使用ODD模型的输出作为基准模型的迭代初始值。基准模型+ODD模型相比基准模型EPE指标提升5%,该结果从定量的角度出发,对模型的有效性上进行了证明。从图8可知,基准模型+ODD模型明显优于基准模型的预测结果,物体轮廓、局部细节与场景流的数值都更加准确。结合4.2节中分析ODD模型能一定程度地理解每个物体的属性,并根据前后两帧中属性的变化推测出每个物体的运动速度。图5和图8从定性的角度出发,证明ODD模型有一定的常识推理能力。

表2 消融实验结果

图8 消融实验对比图

上述实验表明ODD模型可以通过物体属性帮助物体运动的预测,说明物体描述子可以一定程度上帮助常识推理,证明本文从人类认识世界的方式(从物体的角度认识世界)出发有一定的合理性。

6.5 对比实验

为验证本文所提出算法的性能及数据集的可靠性,表3在ModernCity场景流预测任务中使用不同的SOTA模型进行对比,结果表明本文提出的模型效果最好,可以从常识推理的角度出发,更准确地预测场景流。

表3 对比实验结果

7 结 论

本文从使用物理属性预测物体的三维运动速度出发,将之前相关工作扩展至仿真的情景,提出新的数据集ModernCity以弥补相关数据集的短缺;设计了ODD模型,并通过实验结果证明ODD模型具有在仿真场景下通过物体属性预测运动的能力,为常识学习向真实迈进做出了贡献。

[1] 唐杰. 浅谈人工智能的下一个十年[J]. 智能系统学报, 2020, 15(1): 187-192.

TANG J. On the next decade of artificial intelligence[J]. CAAI Transactions on Intelligent Systems, 2020, 15(1): 187-192 (in Chinese).

[2] WU J J, LIM J J, ZHANG H Y, et al. Physics 101: learning physical object properties from unlabeled videos[C]//The 27th British Machine Vision Conference. New York: BMVA Press, 2016: 1-12.

[3] WU J J, LU E, KOHLI P, et al. Learning to see physics via visual de-animation[C]//The 31th International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 153-164.

[4] LOCATELLO F, WEISSENBORN D, UNTERTHINER T, et al. Object-centric learning with slot attention[EB/OL]. [2021-07-03]. https://arxiv.org/abs/2006.15055.

[5] ZHENG D, LUO V, WU J J, et al. Unsupervised learning of latent physical properties using perception-prediction networks[EB/OL]. [2021-05-30]. https://arxiv.org/abs/1807. 09244.

[6] ZHANG R Q, WU J J, ZHANG C K, et al. A comparative evaluation of approximate probabilistic simulation and deep neural networks as accounts of human physical scene understanding[EB/OL]. [2021-08-01]. https://arxiv.org/abs/ 1605.01138.

[7] CHANG M B, ULLMAN T, TORRALBA A, et al. A compositional object-based approach to learning physical dynamics[EB/OL]. [2021-04-28]. https://arxiv.org/abs/1612. 00341.

[8] BATTAGLIA P W, PASCANU R, LAI M, et al. Interaction networks for learning about objects, relations and physics[C]// The 30th International Conference on Neural Information Processing Systems. New York: ACM Press, 2016: 4502-4510.

[9] GUPTA A, EFROS A A, HEBERT M. Blocks world revisited: image understanding using qualitative geometry and mechanics[C]//2010 European Conference on Computer Vision. Cham: Springer International Publishing, 2010: 482-496.

[10] SHAO T J, MONSZPART A, ZHENG Y Y, et al. Imagining the unseen[J]. ACM Transactions on Graphics, 2014, 33(6): 1-11.

[11] EHRHARDT S, MONSZPART A, MITRA N J, et al. Learning A physical long-term predictor[EB/OL]. [2021-06-14]. https:// arxiv.org/abs/1703.00247.

[12] PINTEA S L, VAN GEMERT J C, SMEULDERS A W M. Déjà Vu: motion prediction in static images[C]//The 13th European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 172-187.

[13] LERER A, GROSS S, FERGUS R. Learning physical intuition of block towers by example[EB/OL]. [2021-05-07]. https:// arxiv.org/abs/1603.01312.

[14] PINTO L, GANDHI D, HAN Y F, et al. The curious robot: learning visual representations via physical interactions[C]// The 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 3-18.

[15] AGRAWAL P, NAIR A, ABBEEL P, et al. Learning to poke by poking: experiential learning of intuitive physics[EB/OL]. [2021-06-19]. https://arxiv.org/abs/1606.07419.

[16] FRAGKIADAKI K, AGRAWAL P, LEVINE S, et al. Learning visual predictive models of physics for playing billiards[EB/OL]. [2021-08-01]. https://arxiv.org/abs/1511. 07404.

[17] MOTTAGHI R, RASTEGARI M, GUPTA A, et al. “What happens if ···” learning to predict the effect of forces in images[C]//The 14th European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 269-285.

[18] HAMRICK J B, BALLARD A J, PASCANU R, et al. Metacontrol for adaptive imagination-based optimization[EB/OL]. [2021-07-15]. https://arxiv.org/abs/1705.02670.

[19] JIA Z Y, GALLAGHER A C, SAXENA A, et al. 3D reasoning from blocks to stability[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(5): 905-918.

[20] MOTTAGHI R, BAGHERINEZHAD H, RASTEGARI M, et al. Newtonian image understanding: unfolding the dynamics of objects in static images[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3521-3529.

[21] ZHENG B, ZHAO Y B, YU J, et al. Scene understanding by reasoning stability and safety[J]. International Journal of Computer Vision, 2015, 112(2): 221-238.

[22] BATTAGLIA P W, HAMRICK J B, TENENBAUM J B. Simulation as an engine of physical scene understanding[J]. Proceedings of the National Academy of Sciences of the United States of America, 2013, 110(45): 18327-18332.

[23] FINN C, GOODFELLOW I, LEVINE S. Unsupervised learning for physical interaction through video prediction[C]// The 30th International Conference on Neural Information Processing Systems. New York: ACM Press, 2016: 64-72.

[24] WALKER J, GUPTA A, HEBERT M. Dense optical flow prediction from a static image[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2443-2451.

[25] JI D H, WEI Z, DUNN E, et al. Dynamic visual sequence prediction with motion flow networks[C]//2018 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2018: 1038-1046.

[26] LÖWE S, GREFF K, JONSCHKOWSKI R, et al. Learning object-centric video models by contrasting sets[EB/OL]. [2021-06-13]. https://arxiv.org/abs/2011.10287.

[27] LI Y Z, WU J J, TEDRAKE R, et al. Learning particle dynamics for manipulating rigid bodies, deformable objects, and fluids[EB/OL]. [2021-04-28]. https://arxiv.org/abs/1810. 01566.

[28] CHAABANE M, TRABELSI A, BLANCHARD N, et al. Looking ahead: anticipating pedestrians crossing with future frames prediction[C]//2020 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2020: 2286-2295.

[29] DING D, HILL F, SANTORO A, et al. Attention over Learned Object Embeddings Enables Complex Visual Reasoning[C]// Advances in Neural Information Processing Systems. New York: Curran Associates, Inc., 2021.

[30] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.

[31] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[32] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-05-20]. https://arxiv.org/abs/1409.1556.

[33] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[34] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.

[35] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

[36] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4724-4733.

[37] LIU X, YANG X D. Multi-stream with deep convolutional neural networks for human action recognition in videos[C]// The 25th International Conference on Neural Information Processing. Cham: Springer International Publishing, 2018: 251-262.

[38] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[EB/OL]. [2021-06-10]. https://arxiv.org/abs/1608. 00859.

[39] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[40] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-07-19]. https://arxiv.org/abs/ 1804.02767.

[41] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[EB/OL]. [2021-07-15]. https://arxiv.org/ abs/1512.02325.

[42] HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2980-2988.

[43] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich: Springer, 2015: 234-241.

[44] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2758-2766.

[45] ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: evolution of optical flow estimation with deep networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1647-1655.

[46] SUN D Q, YANG X D, LIU M Y, et al. PWC-net: CNNs for optical flow using pyramid, warping, and cost volume[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8934-8943.

[47] TEED Z, DENG J. RAFT: recurrent all-pairs field transforms for optical flow[EB/OL]. [2021-08-19]. https://arxiv.org/abs/ 2003.12039.

[48] BUTLER D J, WULFF J, STANLEY G B, et al. A naturalistic open source movie for optical flow evaluation[C]//2012 European conference on Computer Vision. Heidelberg: Springer, 2012: 611-625.

[49] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: The KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.

[50] MENZE M, GEIGER A. Object scene flow for autonomous vehicles[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3061-3070.

[51] MAYER N, ILG E, HÄUSSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 4040-4048.

[52] QIU W C, ZHONG F W, ZHANG Y, et al. UnrealCV: virtual worlds for computer vision[C]//The 25th ACM International Conference on Multimedia. New York: ACM Press, 2017: 1221-1224.

[53] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//2014 European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 818-833.

[54] O’MAHONY N, CAMPBELL S, CARVALHO A, et al. Deep learning vs. traditional computer vision[C]//2019 Computer Vision Conference. Cham: Springer International Publishing, 2019: 128-144.

[55] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder–decoder for statistical machine translation[C]//The 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 1724-1734.

[56] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.

[57] CHEN X L, FANG H, LIN T Y, et al. Microsoft COCO captions: data collection and evaluation server[EB/OL]. [2021-06-09]. http://de.arxiv.org/pdf/1504.00325.

[58] PASZKE A, GROSS S, CHINTALA S, et al. Pytorch: an imperative style, high-performance deep learning library[EB/OL]. [2021-07-20]. https://arxiv.org/abs/1912.01703.

[59] LOSHCHILOV I, HUTTER F. Decoupled weight decay regulariza[2021-06-15]. https://arxiv.org/abs/1711.05101.

[60] HOFINGER M, BULÒ S R, PORZI L, et al. Improving optical flow on a pyramid level[M]//The 16th European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 770-786.

Scene flow prediction with simulated real scenarios

MEI Hai-yi1,2,3, ZHU Xiang-yu2,3, LEI Zhen2,3, GAO Rui1, MA Xi-bo2,3

(1.School of Control Science and Engineering, Shandong University, Jinan Shandong 250061, China;2. Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;3. School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 100049, China)

Artificial intelligence is stepping into the age of cognition, the ability of cognizing and inferring the physical world for machines needs to be improved. Recent works about exploring the physical properties of objects and predicting the motion of objects are mostly constrained by simple objects and scenes. We attempted to predict the scene flow of objects in simulated scenarios to extend common sense cognizing. First, due to the lack of data in the related field, a dataset calledbased on simulated scenarios is proposed, which contains the street scene of modern cities designed from the perspective of cognizing common sense, and provides RGB images, depth maps, scene flow, and semantic segmentations. In addition, we design an object descriptor decoder (ODD) to predict the scene flow through the properties of the objects. The model we proposed is proved to have the ability to predict future motion accurately through the properties of objects in simulated scenarios by experiments. The comparison experiment with other SOTA models demonstrates the performance of the model and the reliability of the ModernCity dataset.

common sense cognizing; scene flow; simulated scenarios; properties of objects; motion prediction

TP 391

10.11996/JG.j.2095-302X.2022030404

A

2095-302X(2022)03-0404-10

2021-09-14;

2021-12-21

14 September,2021;

21 December,2021

国家重点研究计划项目(2016YFA0100900,2016YFA0100902);NSFC-山东联合基金项目(U1806202);国家自然科学基金项目(81871442,61876178,61806196,61976229,61872367);中国科学院青年创新促进会项目(Y201930)

National Key Research Programs of China (2016YFA0100900, 2016YFA0100902); Natural Science Foundation of China Under Grant (U1806202); Chinese National Natural Science Foundation Projects (81871442, 61876178, 61806196, 61976229, 61872367); Youth Innovation Promotion Association CAS (Y201930)

梅海艺(1997−),男,硕士研究生。主要研究方向为计算机视觉、计算机图形学和深度学习等。E-mail:haiyimei@mail.sdu.edu.cn

MEI Hai-yi (1997−), master student. His main research interests cover computer vision, computer graphics and deep learning, etc. E-mail:haiyimei@mail.sdu.edu.cn

高 瑞(1975−),男,教授,博士。主要研究方向为混合动力系统、最优控制理论、分子生物学数学建模、系统生物学等。Email:gaorui@sdu.edu.cn

GAO Rui (1975−), professor, Ph.D. His main research interests cover hybrid power systems, optimal control theory, molecular biology mathematical modeling, systems biology, etc. E-mail:gaorui@sdu.edu.cn

猜你喜欢

光流解码物体
利用掩膜和单应矩阵提高LK光流追踪效果
基于改进Cycle-GAN的光流无监督估计方法
《解码万吨站》
一种多尺度光流预测与融合的实时视频插帧方法
基于自适应纹理复杂度的仿生视觉导航方法研究
深刻理解物体的平衡
解码eUCP2.0
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
揭开物体沉浮的秘密