基于注意力机制的行人轨迹预测生成模型

2019-07-31孙亚圣姜奇胡洁戚进彭颖红

计算机应用 2019年3期

孙亚圣姜奇胡洁戚进彭颖红

摘要：針对长短期记忆网络（LSTM）在行人轨迹预测问题中孤立考虑单个行人，且无法进行多种可能性预测的问题，提出基于注意力机制的行人轨迹预测生成模型（AttenGAN），来对行人交互模式进行建模和概率性地对多种合理可能性进行预测。AttenGAN包括一个生成器和一个判别器，生成器根据行人过去的轨迹概率性地对未来进行多种可能性预测，判别器用来判断一个轨迹是真实的还是由生成器伪造生成的，进而促进生成器生成符合社会规范的预测轨迹。生成器由一个编码器和一个解码器组成，在每一个时刻，编码器的LSTM综合注意力机制给出的其他行人的状态，将当前行人个体的信息编码为隐含状态。预测时，首先用编码器LSTM的隐含状态和一个高斯噪声连接来对解码器LSTM的隐含状态初始化，解码器LSTM将其解码为对未来的轨迹预测。在ETH和UCY数据集上的实验结果表明，AttenGAN模型不仅能够给出符合社会规范的多种合理的轨迹预测，并且在预测精度上相比传统的线性模型（Linear）、LSTM模型、社会长短期记忆网络模型（S-LSTM）和社会对抗网络（S-GAN）模型有所提高，尤其在行人交互密集的场景下具有较高的精度性能。对生成器多次采样得到的预测轨迹的可视化结果表明，所提模型具有综合行人交互模式，对未来进行联合性、多种可能性预测的能力。

关键词：轨迹预测;长短期记忆网络;生成对抗网络;注意力机制;行人交互

中图分类号： TP391.4

文献标志码：A

文章编号：1001-9081（2019）03-0668-07

Abstract： Aiming at that Long Short Term Memory （LSTM） has only one pedestrian considered in isolation and cannot realize prediction with various possibilities， an attention mechanism based generative model for pedestrian trajectory prediction called AttenGAN was proposed to construct pedestrian interaction model and predict multiple reasonable possibilities. The proposed model was composed of a generator and a discriminator. The generator predicted multiple possible future trajectories according to pedestrians past trajectory probability while the discriminator determined whether the trajectories were really existed or generated by the discriminator and gave feedback to the generator， making predicted trajectories obtained conform social norm more. The generator consisted of an encoder and a decoder. With other pedestrians information obtained by the attention mechanism as input， the encoder encoded the trajectories of the pedestrian as an implicit state. Combined with Gaussian noise， the implicit state of LSTM in the encoder was used to initialize the implicit state of LSTM in the decoder and the decoder decoded it into future trajectory prediction. The experiments on ETH and UCY datasets show that AttenGAN can provide multiple reasonable trajectory predictions and can predict the trajectory with higher accuracy compared with Linear， LSTM， S-LSTM （Social LSTM） and S-GAN （Social Generative Adversarial Network） models， especially in scenes of dense pedestrian interaction. Visualization of predicted trajectories obtained by the generator indicated the ability of this model to capture the interaction pattern of pedestrians and jointly predict multiple reasonable possibilities.

Key words： trajectory prediction; Long Short Term Memory （LSTM）; Generative Adversarial Network （GAN）; attention mechanism; pedestrian interaction

0 引言

行人轨迹预测是指根据行人过去一段时间的轨迹，预测其未来的轨迹，该技术在自动驾驶[1]和服务机器人导航[2-3]中都有着广泛的应用。行人在决策的过程中比较灵活主观，甚至完全相同的场景，不同的人都会采取不同的决策，其机动性和灵活性大大增加了该问题的难度，其具体的难点可以概括为以下几个方面：

1）如何预测出既符合物理约束，又符合社会规范的轨迹。符合物理约束指预测出的轨迹应该是物理可行的，例如一个人不能穿过另一个人等。符合社会规范指行人的一些社会学行为，例如结伴而行、相互礼让等。

2）如何对多个行人之间的相互影响进行建模。行人在作决策时不是独立的，而是存在例如躲避、追赶、跟随、超过等交互性的行为。

3）如何预测出多个合理的轨迹。在实际场景中，往往不只有一种轨迹符合条件，通常有多个轨迹都是合理的。

目前行人轨迹预测方法主要有4类：基于社会力模型、基于马尔可夫模型、基于循环神经网络（Recurrent Neural Network， RNN）和基于生成对抗网络（Generative Adversarial Network， GAN）的方法。

基于社会力模型[4]的方式根据引力与斥力的方式对行人进行建模，认为行人的目标会对行人产生引力进而吸引他们向目标走，行人之间产生斥力进而防止行人之间发生碰撞。该类模型具有模型简单直观、复杂性低的优点;但存在模型对模型参数过于敏感，模型能力不够强，泛化能力差，无法对于行人一些社会性的行为如结队而行等进行描述的缺陷。在基于社会力模型思想的基础上，为了可以概率性地预测轨迹而不是给出单一的轨迹，Trautman等[5]提出了交互式高斯过程IGP，利用高斯过程对每一个行人的轨迹进行预测，并根据社会力模型的势函数计算该预测的概率，进而在预测的过程中考虑了行人之间的相互影响，同时能够概率性地预测未来的轨迹。

Morris等[6]使用基于隐含马尔可夫模型的方法对不同类别行人的轨迹进行时空的概率性建模。Kitani等[7]使用基于隐含马尔可夫过程的方式对行人进行建模，并使用反向强化学习的方式训练模型参数，进而学习外界静态的物理环境对行人的影响。

近年来随深度学习的发展，基于数据驱动的建模方式成为研究热点，由于行人轨迹预测本质上是一个时序序列，故其主要以循环神经网络（RNN）为代表性的建模方式。但RNN无法进行高层次的空间关系建模，为刻画行人在空間的交互，Alahi等[8]提出了社会长短期记忆网络模型（Social Long Short Term Memory， S-LSTM），首先对空间进行网格化，并根据网格直接对每个个体附近网格中的其他个体的隐含特征池化，利用该池化结果对个体进行符合物理原理和社会规范的轨迹预测。但其假设对该个体的影响是由与该个体的位置远近决定的，而在实际中，一个个体的行为决策不仅与空间位置有关，还与其他个体的运动方向、运动速度有关，例如一个个体可能会提前行动躲避前面一位比较远的与他相对而行的个体，而对于他后面距离比较近的个体并不会采取什么行动。因此，Vemula等[9]中使用了结构化RNN对各个个体建模，并利用时空关系图来描述各个个体的随时间和空间的轨迹变化规律，时空关系图的每个节点代表每一个行人个体，每个节点与其他节点用空间边相连，与自己用时间边相连，空间边和时间边都用RNN来描述其随时间的变化，最后在每个节点更新时使用注意力机制来融合与其相邻的边的信息，该方法较好地对时空进行建模，但其计算复杂度相对较高。

Gupta等[10]将生成对抗网络引入行人轨迹预测中，提出了社会对抗网络（Social Generative Adversarial Network， S-GAN）模型，该模型提出了一种新的池化策略来描述该行人之间的影响，并利用了生成对抗网络的思想进一步强迫轨迹预测模块预测出符合社会规范的轨迹。

鉴于基于生成对抗网络方法预测的轨迹更加符合物理约束和社会规范，且通过生成器的采样可以产生多个合理的轨迹。故本文借助生成对抗网络的思想，并使用注意力机制来融合行人之间的相对位置信息进而对人群交互进行建模。实验表明该方法可以有效地提高预测的精度，并且可以对多种合理的可能性进行预测。

1 相关理论

1.1 注意力机制

注意力机制最早被用于图像处理的领域[11]，而后也被广泛应用在自然语言处理方向[12]。注意力机制的本质是对于一组感兴趣的特征中的每一个特征进行softmax打分，例如这一组感兴趣的特征可能是一幅图片，那么就是对图片中的每一个像素进行打分，例如这一组感兴趣的特征是一个句子，那么就是对该句子中的每一个单词进行打分。通常注意力机制的输入为当前状态ht和感兴趣的一组特征f=（f 1， f 2，…， f n），输出为对这n个特征的softmax打分s=（s1，s2，…，sn），在后续处理中可以利用该打分对特征进行过滤[13]或重新整合输入到系统中。

1.2 生成对抗网络

生成对抗网络（GAN）[14]由一个生成器（Generator， G）和一个判别器（Discriminator， D）组成。生成器的输入为符合某种先验分布的噪声，如高斯分布、均匀分布等，生成器学着把该分布变化为与样本分布一致的分布;判别器的输入为来自生成器中的样本和来自训练集的样本，判别器学着分辨一个样本是由生成器生成的还是训练集中的。通过同时对生成器和判别器的博弈训练，生成器最终可以生成类似训练集的样本。由于生成器学到的是一个和训练集类似的概率分布，每次采样都会给出一个不同的合理样本，故可以被用来对多种可能性进行预测。

1.3 长短期记忆网络模块

循环神经网络（RNN）被广泛用来对时序序列建模，每一个时刻，RNN根据上一个时刻的状态ht-1和当前的输入xt计算出当前时刻的状态ht，故每一个时刻状态ht包含了它之前时刻的所有有用信息。

为了解决传统RNN训练时后向传播存在的梯度弥散的问题，长短期记忆网络（Long Short Term Memory， LSTM）[15]被提出。通过加入输入门、遗忘门和输出门来在每个时刻有选择地遗忘，有选择地加入新的信息给当前状态ht，该策略使得后向误差可以向前传播很多步不消失。类似于RNN，LSTM网络也可以表示为：

2 行人轨迹生成模型

2.1 问题定义

2.2 整体网络结构

2.3 注意力模块

行人个体的行为决策不仅与他自己当前的位置信息Xti和过去的状态ht-1i有关，也与他周围的行人个体有关。为了刻画他周围的行人个体对他的影响，使用注意力机制来选择对当前行人有用的其他行为个体的位置信息Hti输入到编码器LSTM模块。

2.4 编码器模块

编码器模块LSTM的输入为注意力模块提取的对当前行人有用的周围行人的位置信息Hti和当前行人的位置信息Xti。

2.5 解码器模块

解码器模块LSTM的初始隐含状态htdi由编码器最后时刻t=tobs的状态htei和高斯噪声z决定。我们将htei经过一个多层感知机模块MLP（·）并与噪声z连接得到htdi。

2.6 判别器

2.8 模型训练过程

对抗训练过程中，生成器G根据过去的轨迹Xi以及从先验噪声分布中采样的z伪造出未来可能的轨迹G（Xi，z），该轨迹输入到判別器后得到D（G（Xi，z）），生成器尽力使其接近1，但判别器尽量使其接近0，在这样的博弈训练过程中，最终两者达到平衡，由此达到让生成器预测出符合物理约束和社会规范的轨迹的目的。具体的训练过程见以下伪代码。

为保证生成器生成轨迹的多样性，在计算位置偏移损失时，我们本文会进行k次采样，并选用损失最小的那组数据的对网络进行反向传播优化。由于训练时误差回传使用的是效果最好的一种猜测，该种方式可以促进模型大胆地对各种可能性进行猜测，而不是给出一个相对保险的轨迹预测，该策略可以有效地避免生成器预测的轨迹大都相似的问题[17]。本文中取k=10，在对模型评价的时候，同理也是随机进行k次采样选用最小的偏移误差作为模型在偏移误差指标上的最终表现。模型训练过程如GAN_LOOP所示。

网络训练过程GAN_LOOP：

3 实验仿真与结果分析

本文在数据集ETH[18]和UCY[19]上验证所提出的AttenGAN模型，这两个数据集包含五个不同的真实的行人交互的场景，ETH数据集包含ETH和Hotel两个场景，UCY数据集包含Zara1、Zara2和Univ三个场景。实验运行在Ubuntu 16.04 LTS 的操作系统上，GPU为NVIDIA GTX 1080TI，CPU为i7700k，采用Pytorch 0.4的深度学习框架，CUDA toolkit 8.0的运行环境。

为验证本文提出的模型的有效性，选取了经典的线性回归模型Linear、朴素的长短期记忆网络模型LSTM以及最近提出的社会长短期记忆网络模型（S-LSTM）和社会对抗网络模型（S-GAN）作对比。

3.1 模型参数与训练过程

网络训练采用批量训练的方式，每一批包含64组数据，每一组数据包含若干个行人，观测序列长度tobs=8，预测序列长度tpred=8，训练和预测阶段生成器采样次数k=8。使用Adam优化算法对生成器和判别器进行同时训练降低其损失函数。训练迭代次数设为8000，生成器和判别器的学习速率都设为1×10-3，每隔4000次将学习速率减小为原来的0.1倍，Adam优化器中的权重衰减系数设为1×10-5。

测试集与训练集的划分方式与文献[9-10]类似，每个场景中划分70%的数据为训练集，30%的数据为验证集。采用五折交叉验证的方式，用其他4个场景中的训练数据训练网络，选用在验证集上表现最好的网络在目标场景进行测试和精度计算，在5个场景中重复这样的操作。模型训练过程中生成损失，判别损失和位置偏移损失如图2所示。

由图2可知，随着训练过程迭代次数的增加，生成损失和位置偏移损失呈现缓慢下降趋势，判别损失呈现缓慢上升趋势，但可以看到最终都波动减小，趋于平缓。综合损失函数的变化趋势，实验中将训练的迭代次数设为8000。

3.2 预测精度性能比较

类似于文献[20]，选用平均偏移误差（Average Differential Error， ADE）和最终偏移误差（Final Differential Error， FDE）作为评价指标来刻画预测轨迹的准确性。

其中：平均偏移误差ADE用来刻画预测序列的在所有预测时刻t平均的准确性，最终偏移误差FDE用来刻画预测序列累计在最后时刻tpred的准确性。

各种轨迹模型的结果在平均偏移误差ADE上的对比结果如表1的ADE部分，在最终偏移误差FDE上的对比结果如表1的FDE部分，表中单位为米（m），表中每行描述一个方法在不同场景下的计算偏移误差。ADE和FDE数值越小表示模型预测与真实偏移越小，模型预测越准确，表中用粗体下划线标明了在每个场景上表现性能最好的模型。

从表1中可以看出，考虑平均偏移误差ADE时，所提的AttenGAN模型在Univ、Zara1和Zara2的场景上的预测精度性能均是最好的。相对于基于网格划分与“社会池化”的S-

LSTM模型，S-GAN和AttenGAN使用了对抗机制，因此预测精度更高。而S-GAN所提的基于“池化模块”融合的方式需要在观测序列结束的时刻tobs来融合周围行人的信息，AttenGAN则可以在每一个时刻t均进行信息融合，并且，不同于S-GAN在“池化模块”对于所有行人作全局性的最大池化操作，AttenGAN“有选择”地融合对当前行人有用的那些信息，因此模型具有更强的表现能力，进而可以精确地对行人交互模式进行刻画。故相比于S-GAN，AttenGAN的预测精度得以进一步的提高。

从表1的FDE部分可以看出，考虑最终偏移误差FDE时，所提的AttenGAN模型在ETH、Univ和Zara2的场景中预测精度性能均是最好的。

但是注意到在Hotel场景中，线性回归Linear模型在ADE和FDE指标上都表现最好，我们猜测这可能与Hotel场景中行人交互较少，大多为线性化的轨迹有一定关系。

综合表1可以看出，基于神经网络的模型比传统的线性Linear模型预测精度更高，这是由于神经网络模型更加复杂，表现能力更强;基于生成对抗网络GAN的模型如S-GAN和AttenGAN比直接对偏移误差优化的LSTM和S-LSTM预测精度高，这是由于生成对抗的训练方式提高了模型对概率分布的刻画性能，进一步优化了性能。由于注意力机制的引入，相比S-GAN本文提出的AttenGAN模型在预测精度性能上有进一步的提升，其预测精度性能在ADE和FDE指标上的平均水平均为最高平均ADE和平均FDE更低。

图3中给出了Linear、S-LSTM和AttenGAN在ETH数据集的Hotel场景上的预测轨迹对比，虚线为模型可观测的过去的轨迹，最后2张图为AttenGAN表现不好的情况。模型根据观测的8个时刻（3.2s）的轨迹，向前预测8个时刻（3.2s）。由于AttenGAN每次会预测10条轨迹，这里展示位置偏移误差最小的一条轨迹。从图3中可以看出，AttenGAN能够预测出与真实轨迹相近的轨迹。在图3（a）中AttenGAN成功地预测出该行人将前面的人超过并且又回到原路线的行为，Linear則无法对这样的场景进行较好的预测，而S-LSTM却给出了超过前面行人然后“向右”避让另一个行人的预测轨迹。在图3（c）中，AttenGAN预测出了两个行人并排行走面对冲突时，选择保持原方向等待对方让路的行为，而S-LSTM则预测该行人会采取“避让”的方式。这在一定程度上体现了AttenGAN可以进行多种可能性的预测的优势，如在上述情况S-LSTM预测的路线也是有可能的，但由于其预测的单一性，无法对真实情况正确建模。图3（e）（f）为AttenGAN预测失败的情形，在图3（e）中该行人向右转走向公交车，AttenGAN则预测其会继续向前走，在图3（f）中行人斜向穿过了人行道，AttenGAN则预测其会减速跟随前面的行人继续在人行道上行走，失败的情形说明AttenGAN缺乏对行人某些有目的的特定行为进行建模的能力，但AttenGAN仍然给出了较为合理的预测轨迹。

3.3 模型效率比较

本节对比基于神经网络实现方式的各种轨迹预测模型的时间性能，训练所用参数均和3.1节中的模型参数一致，每个模型训练的迭代次数都设为8000。为反映模型的实时性能，各个模型的预测时间平均为预测一组数据所需要的时间。

从表2中可以看出，从上到下，所提模型的复杂程度逐渐增加，模型训练时间和预测时间均增加。S-LSTM“社会池化”层需要融合网格中的多个隐含状态，故时间开销要大于LSTM。相比基于LSTM的方法，基于GAN方法的S-GAN和AttenGAN需要训练生成模型和判别模型两个模型，且要进行多次采样，而每一次采样生成器都会进行一次前向传播，故训练所用时间更长。同理，S-GAN与AttenGAN模型在预测时间方面相比其他方法更久也是由于其每次会预测多个合理序列而不是一个平均性的序列。相比S-GAN，AttenGAN训练时间更长一些，这是由于AttenGAN引入的注意力机制在每一个时刻都进行信息融合，而S-GAN只在观测了完整观测序列后进行一次全局池化，故AttenGAN时间花费更大。综上，AttenGAN牺牲了部分时间性能来保证其预测精度以及所生成轨迹的多样性，但模型的实时性能依旧可以保证。

3.4 定性分析

给定一个场景，根据过去的轨迹未来可能会有多种合理性的预测，不同于传统模型给出一个平均化的轨迹预测，得益于生成对抗的思想，每一次生成器从噪声取样AttenGAN都会给出一种合理性的预测。图4中为UCY数据集中Zara2场景在4分40秒时，AttenGAN给出的3种预测可能性，模型向前预测8个时刻（3.2s），其中实线是真实的行人轨迹，虚线是模型预测的行人轨迹，箭头方向指示行人的运动方向，箭头位置代表行人最终所在位置。图4（a）为模型预测行人之间保持原行走速度和方向不发生碰撞的情形;图4（b）为模型预测的右边行人通过减慢速度并改变方向来与避免与左边行人发生碰撞的情形;图4（c）为模型预测的行人之间采用“靠右”的社会规范进行避让的情形，该预测与真实的行人轨迹比较贴合。

可以看出，模型可以预测出的多种行人之间相互避让情形的合理轨迹，能够基本满足物理约束和社会规范。

4 结语

为对行人的交互性运动模式进行建模，本文提出了基于注意力机制的轨迹预测生成模型，并引入生成对抗网络对模型进行训练。实验结果表明注意力机制可以很好地描述行人之间的交互性运动模式，并可以对行人轨迹进行联合性的预测，在预测精度性能方面上优于Linear、LSTM、S-LSTM和S-GAN模型。同时，基于生成对抗网络的训练方式该模型可以对未来多种合理的可能性轨迹进行预测，而非仅仅预测一个平均的轨迹。

由于模型复杂程度的提高，可以看出，该模型在时间性能上与其他模型相比较差，且在行人交互较少的场景中表现欠佳，推测可能在用注意力机制进行信息融合时引入了部分噪声。

通过注意力机制，可以将其他模态信息例如图片等信息加入到该模型中，进而进一步提高预测的准确性。后续研究会考虑将其他模态的信息例如图片，视频信息融合到模型中来刻画外界物理环境对行人的影响，以此进一步提高模型的预测精度。

参考文献（References）

[1] LARGE F， VASQUEZ D， FRAICHARD T， et al. Avoiding cars and pedestrians using velocity obstacles and motion prediction [J]. IEEE Intelligent Vehicles Symposium， 2004： 375-379.

LARGE F， VASQUEZ D， FRAICHARD T， et al. Avoiding cars and pedestrians using velocity obstacles and motion prediction [EB/OL]. [2018-07-01]. https：//www.researchgate.net/publication/29642615_Avoiding_Cars_and_Pedestrians_using_V-Obstacles_and_Motion_Prediction.

[2] THOMPSON S， HORIUCHI T， KAGAMI S. A probabilistic model of human motion and navigation intent for mobile robot path planning [C]// Proceedings of the 2009 4th International Conference on Autonomous Robots and Agents. Piscataway， NJ： IEEE， 2009： 663-668.

[3] BENNEWITZ M. Learning motion patterns of people for compliant robot motion [J]. The International Journal of Robotics Research， 2005， 24（1）： 31-48.

[4] HELBING D， MOLNR P. Social force model for pedestrian dynamics [J]. Physical Review E： Statistical Physics Plasmas Fluids and Related Interdisciplinary Topics， 1995， 51（5）： 4282-4286.

[5] TRAUTMAN P， KRAUSE A. Unfreezing the robot： navigation in dense， interacting crowds [C]// Proceedings of the 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway， NJ： IEEE， 2010： 797-803.

[6] MORRIS B T， TRIVEDI M M. Trajectory learning for activity understanding： unsupervised， multilevel， and long-term adaptive approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2011， 33（11）： 2287-2301.

[7] KITANI K M， ZIEBART B D， BAGNELL J A， et al. Activity forecasting [C]// Proceedings of the 2012 European Conference on Computer Vision， LNCS 7575. Berlin： Springer， 2012： 201-214.

[8] ALAHI A， GOEL K， RAMANATHAN V， et al. Social LSTM： human trajectory prediction in crowded spaces [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2016： 961-971.

[9] VEMULA A， MUELLING K， OH J. Social attention： modeling attention in human crowds [EB/OL]. [2017-10-12] [2018-03-25]. https：//arxiv.org/pdf/1710.04689.pdf.

[10] GUPTA A， JOHNSON J， LI F-F， et al. Social GAN： socially acceptable trajectories with generative adversarial networks [EB/OL]. [2018-03-29] [2018-05-04]. https：//arxiv.org/abs/1803.10892.pdf.

[11] MNIH V， HEESS N， GRAVES A， et al. Recurrent models of visual attention [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2014， 2： 2204-2212.

[12] CHEN H， SUN M， TU C， et al. Neural sentiment classification with user and product attention [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin， Texas： [s. n.]， 2016： 1650-1659.

[13] 盧玲，杨武，王远伦，等.结合注意力机制的长文本分类方法[J].计算机应用，2018，38（5）：1272-1277.（LU L， YANG W， WANG Y L， et al. Long text classification combined with attention mechanism [J]. Journal of Computer Applications， 2018， 38（5）：1272-1277.）

[14] GOODFELLOW I J， POUGET-ABADIE J， MIRZA M， et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems， 2014， 3： 2672-2680.

[15] HOCHREITER S， SCHMIDHUBER J. Long short-term memory [M]// GRAVES A. Supervised Sequence Labelling with Recurrent Neural Networks. Berlin： Springer， 2012： 37-45.

[16] XU K， BA J， KIROS R， et al. Show， attend and tell： Neural image caption generation with visual attention [J]. International conference on machine learning. 2015： 2048-2057.

XU K， BA J， KIROS R， et al. Show， attend and tell： Neural image caption generation with visual attention [EB/OL]. [2018-07-01]. https：//arxiv.org/pdf/1502.03044v2.pdf.

[17] FAN H， SU H， GUIBAS L. A point set generation network for 3D object reconstruction from a single image [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2017： 2463-2471.

[18] PELLEGRINI S， ESS A， van GOOL L. Improving data association by joint modeling of pedestrian trajectories and groupings [C]// Proceedings of the 2010 European Conference on Computer Vision， LNCS 6311. Berlin： Springer， 2010： 452-465.

[19] LERNER A， CHRYSANTHOU Y， LISCHINSKI D. Crowds by example [J]. Computer Graphics Forum， 2007， 26（3）： 655-664.

[20] LEE N， CHOI W， VERNAZA P， et al. DESIRE： Distant future prediction in dynamic scenes with interacting Agents [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2017： 2165-2174.