基于时空网络的地铁进出站客流量预测

2021-09-26陈静娴郝宇辰甄俊涛

计算机工程与应用 2021年18期

刘臣，陈静娴，郝宇辰，李秋，甄俊涛

上海理工大学管理学院，上海200093

由于地铁具有安全、准时和环保等特点，已逐渐成为人们出行的首选交通方式。以上海地铁为例，2018年日均客运量为1 015.28万人次，总客运量达37.05万亿人次。大客流量已成为各地铁站的运营常态，精确的客流量预测不仅可以为出行者提供准确的路况信息，也有助于相关部门提前部署安保措施，因此预测地铁客流量具有重要的实际应用价值。

根据之前学者的研究，交通流预测大致可以分为模型驱动和数据驱动两大类。模型驱动是基于数学工具和物理知识，通过计算模拟来形式化交通问题，如排队论[1]、用户行为仿真[2]等。然而，上述模型往往需要大量的假设来简化问题，导致模型无法精确预测现实环境中复杂的交通流变化情况。数据驱动方法则是从统计学角度来分析数据的变化规律，不考虑其物理性质，因此具有良好的泛化性。早期的传统统计学方法如历史平均模型（History Average，HA）和ARIMA（Autoregressive Integrated Moving Average model）[3]等，虽然计算简单快速，但依赖时间序列平稳分布假设，无法表达具有高度非线性特点的交通流数据。

而机器学习方法如支持向量机[4]（Support Vector Regression，SVR）与人工神经网络可以自主地从历史数据中学习到这些非线性特征，从而能较好地反映交通数据。近年来，随着数据爆炸式增长以及计算机性能的提高，深度学习成功地应用于自然语言处理、计算机视觉、目标检测等领域，引起了学者的注意，为交通流预测提供了新思路。Ma等人[5]在2015年首次将长短期记忆网络（Long Short-Term Memory，LSTM）应用于交通领域，Liu等人[6]采用自编码器这种特殊结构来提取数据的非线性特征，从而实现无监督学习。

然而，交通数据是典型的时空数据，不仅具有时间维度属性，同时对道路空间结构有着较强的依赖性[7-8]。为了更好地刻画数据空间特征，一些学者尝试采用卷积网络（Convolutional Neural Networks，CNN）来捕获空间特征[9-10]。然而CNN各层之间的连接方式，使得其只适用于邻接点数量相同且有序的数据。Bruna等人[11]提出的图卷积（Graph Convolutional Network，GCN）能够较好地提取非欧数据的特征，为复杂拓扑空间特征提取提供了很好的解决方案。为降低计算复杂度，Defferrad等人[12]使用切比雪夫多项式来近似过滤器参数提出了ChebNet模型，Kipf等人[13]使用一阶近似来进一步简化该模型。Seo等人[14]将GCN与随机游走相结合，把交通流建模为扩散过程，提出的GCRNN模型能较为准确地预测车速。

之前学者研究大多集中于短时客流量预测（一般指30 min跨度内的预测），然而现实生活中，长期预测更具有实际指导意义和参考价值，如为人们出行规划预留充足时间等。为此，本文提出基于编码器解码器（Encoder-Decoder）架构设计[15-16]的地铁客流量进出站预测模型，其中解码器和编码器都由时空预测模块组成。同时采用进出站双时间序列作为输入，使得模型在长期预测上获得较高的精确度。

1 地铁客流量预测

1.1 地铁数据时间维度特征

地铁网络是一个开放的复杂大系统，随着时间的推进，网络上的客流量在稀少、拥挤与饱和等状态间反复转化，形成了客流量时间序列。以南京西路站2016年7月1日、8月2日和9月1日的进站数据为例，客流量随时间的变化如图1所示。

从图1中可以看出，在较长时间范围内呈现出一定的周期性与相似性，如反复出现的早晚高峰期等。而在短时间内，客流量除了表现出一定的相关性外，还具有时变性，如列车故障等突发性事件，从而导致客流量数据具有高度的非线性特征。

图1 南京西路站三天客流量数据Fig.1 Passenger flow of Nanjing West Road Station for three day

1.2 地铁数据空间维度特征

在地铁静态拓扑路网基础上，各站点客流量随着时间的推进不断变化，形成了客流量时空数据[17]，因此除时间外还需挖掘出客流量数据空间维度的隐藏属性[18]。然而，不同于邻接点相同且有序的网格数据，如图片和视频等，地铁站具有复杂的拓扑结构。一方面，地铁各站点的邻接点数不尽相同，如图2所示，世纪大道站有8个邻接站点，而杨高中路站只有1个。另一方面，各站点受城市地理环境、区域功能划分和道路网布局等影响，地铁站点在空间上呈现出不均匀与无序的排列特点。

图2 局部地铁站点的拓扑结构示意图Fig.2 Topological structure of local subway stations

1.3 地铁进出站客流量协同预测

站点的出站客流量除了在自身时间线上呈现一定规律，同时与其他站点的进站客流量紧密相关。因此，本文采用进出站双时间序列作为输入，协同预测各站点的进出站人数。为验证采用双序列作为输入的有效性，选用相关系数ρ[19]来衡量进出站序列间的相关性：

其中，cov(x,y)为x,y两条时间序列数据的协方差，D(x)、D(y)分别为x,y序列的方差；|ρ|≤1，|ρ|值越大，表明两条序列越相关。

选用莘庄站与陆家嘴站的早高峰时段客流量进行分析，由于从莘庄站出发至陆家嘴站需要一定的时间，因此将时间滞后值设为40 min。xin、xout分别表示莘庄站7：02—9：50的进站与出站客流量时间序列，yout表示陆家嘴7：42—10：30的出站客流量。通过公式（1）计算得出xin与yout的相关性系数ρ1=0.92，而xout与yout的相关性系数ρ2=0.64。相比于xout,xin与yout具有更为相似的变化趋势。由上述分析可知，采用进出站双序列协同预测能更好地捕捉序列潜在的非线性特征。

1.4 地铁客流量预测问题

基于上述对地铁客流量数据的分析，本文将地铁网络表示为图G=(V,E)，其中V=(v1,v2,…,vn)为顶点集，对应网络中n个地铁站点。E∈Rn×n为边的集合。由于地铁各相邻两站点间的距离较为相似，且相邻两站点间的距离并不会对乘客出行路线产生影响，故本文采用无权无向图，邻接矩阵A∈Rn×n只表示各站点间的连接关系。如图3，以东昌路站为例，其与世纪大道站直接相连，则邻接矩阵对应位置的值为1；与商城路不相连，则对应值为0。

图3 地铁站点邻接矩阵Fig.3 Adjacency matrix of subway station

将地铁客流量表示为图上的图信号X∈Rn×2，n表示地铁站点个数，节点特征数为2，分别表示进站与出站人数。令Xt∈Rn×2表示t时刻的图信号，客流量预测问题则可以转化为学习一个函数f(⋅)，给定m个历史图信号，预测接下来h个图信号：

2 地铁进出站客流量预测模型

总的来说，本文模型基于编码器解码器架构设计，编码器解码器均由时空预测模块组成。在该模块中，采用GCN来学习地铁站空间结构，再将带有空间特征的数据放入门控循环单元（Gated Recurrent Unit，GRU）中进行时间上的建模。

2.1 时间特征提取

编码器解码器架构允许输出与输入为不定长序列，因此常被用于序列到序列的学习。为了实现不同时间步长的预测，本文模型基于编码器解码器架构设计。在编码过程中，编码器将输入的不定长序列X=(x1,x2,…,xt)变换为一个定长的上下文向量C，该向量包含输入序列的全部信息：

其中，ht∈Rn、ht-1∈Rn分别为t、t-1时刻的隐藏状态值；f和q为自定义非线性函数，通过函数q将各个时间步的隐藏状态值变换为上下文向量。

在解码过程中，采用C初始化解码器，再结合之前预测的所有值，解码器被训练预测t′时刻的值：

其中，St′、St′-1分别为t′、t′-1时刻的隐藏状态值，yt′、yt′-1为t′、t′-1时刻的预测值；f和g都为非线性函数，前者表示解码器隐藏层状态变换函数，后者为输出yt′的概率函数。

为避免传统循环神经网络容易产生梯度爆炸或梯度消失等问题，本文编码器和解码器均选用GRU。即令上述式（3）和式（5）中的f=GRU。GRU单元中共含有两个门：更新门（update gate）和复位门（reset gate），各个门的计算公式如下：

其中，⊙表示哈达玛积，σ(⋅)为sigmoid激活函数，tanh(⋅)为双曲正切函数；u、r分别为更新门和复位门向量，C为候选值向量，bu、br、bc分别为更新门、重置门以及候选值的偏置向量；Θ为过滤器参数，Xt、Ht分别为t时刻的输入和输出向量。

2.2 空间特征提取

由1.2节分析可知，地铁网络具有复杂的拓扑结构，传统的CNN无法很好地处理此类数据。为此，本文选用Defferrad等人提出的ChebNet提取地铁数据的空间特征，简化后的图卷积可以被写为：

其中，p为节点特征数，取值为1或2；⋆G为双通道图卷积操作；Θ∈R2×F为过滤器参数矩阵，F为过滤器个数。

2.3 时空特征融合

目前的时空数据挖掘方法大多只是简单拼接时间和空间维度特征，会导致特征向量维度过高，并包含大量冗余信息，一定程度上约束了特征的表达能力。为解决上述问题，本文将GRU与GCN算法进行有机融合，构建了时空预测模块。该模块通过将式（7）~（10）的矩阵乘法置换为式（12）中的双通道图卷积⋆G，使得输入的数据先经过GCN捕捉空间结构，再将带有空间特征的数据放入GRU中进行时间上的建模，从而可以同时提取地铁数据的时空特征。该模块不仅可以减少模型训练参数，提升模型训练速度，还可以使时空特征结合更紧密，减少融合后的冗余信息，模块结构如图4所示。

图4 时空预测模块图Fig.4 Spatiotemporal prediction module diagram

在时空特预测模块中，输入的t时刻图信号Xt与t-1时刻的隐藏状态值Ht-1先经过图卷积⋆G捕捉数据的空间特征。再将带有空间特征的数据输入GRU，首先通过更新门和重置门，来决定输入的信息多少需要被遗忘，以及加入哪些有用信息：

其中，⊙表示哈达玛积；ΘC′、bC′分别为隐藏状态层的过滤器参数和偏置。

2.4 模型整体框架

为了减弱传统Encoder-Decoder的编码器在训练和预测时输入存在差异的问题，本文在解码器加入Bengio等人[20]提出的计划采样（scheduled sampling）。训练时，不再完全将真实观测值做为下一次的输入，而是在第i次迭代中，以概率εi使用真实观测值，以1-εi的概率使用模型自身的预测值。

模型的整体框架如图5所示，模型基于解码器编码器架构设计，包含编码与解码过程。在编码器中，输入历史t个时刻的进站和出站两条结构化时间序列，经过时空预测模块同时捕获数据的时间和空间特征。最终输出固定长度的上下文向量C。在解码过程中，首先用向量C初始化解码器，再结合计划采样，解码器被训练预测未来各站点的客流量。

图5 地铁进出站客流量时空预测模型Fig.5 Spatiotemporal passenger flow prediction model of subway station

3 实验

3.1 数据介绍与预处理

本文采用2016年SODA大赛所提供的一卡通刷卡数据作为实验数据，该数据集包含2016年7月1日、8月2日以及9月1日上海市一卡通的刷卡记录，共计约3 000万条记录。原始数据集共包括7个数据段：用户ID、日期、时间、站点名称等。

首先筛选出乘车类型为地铁的数据，由于地铁刚开始运营和结束时人流较为稀疏，故本文抽取7：30至21：58的刷卡数据。再根据刷卡价格来区分进出站，若票价为0则为进站，反之则为出站。最后，综合考虑实验的数据量与列车平均发车时间间隔，本文按照4 min的时间间隔对各站点的进出站人数进行聚合，三天共计654个时间段。以7月1日为例，处理后的数据样本如表1所示，每个站点均包含进站和出站两条时间序列数据。

表1 地铁站点客流量统计表Table 1 Passenger flow statistics of subway station

为消除单位时间内客流量波动较大造成的影响，分别对进出站客流量序列进行标准化处理，使数据按比例缩小至[-1,1]。编码器步长设为15，为此将原进出站时间序列滑动切分为15单位长度的短序列，经过处理三天共计612个时间段。再为该序列添加时间，最后得到四维数组。各维度分别表示样本数量、步长、站点数、特征数，其中特征数量为3，依次表示进站人数、出站人数和时间。最后将数据按7∶1∶2的比例划分训练集、评估集和测试集。整理后得到的最终数据集如表2所示。

表2 数据集Table 2 Dataset

3.2 评价指标

本文采用平均绝对误差MAE（Mean Absolute Error）与标准误差RMSE（Root Mean Square Error）来量化衡量模型的预测精度，计算公式如下所示：

其中，N为样本数量，yi为真实值，ŷi为预测值。MAE和RMSE越小，表明预测值的总体与真实值的偏差越小，即模型的预测性能越好。

3.3 实验介绍

为了评价提出的模型在地铁客流量预测方面的有效性，本文构建了4个模型进行对比：

（1）HA（History Average），即历史均值模型，仅将历史周期的加权均值作为输入预测未来客流量。

（2）VAR（Vector Autoregression），即向量自回归模型，基于数据的统计性质建立模型，利用客流量时间序列自身的滞后项来拟合预测未来客流量。

（3）SVR（Support Vector Regression），是基于机器学习的方法，核函数选择线性基函数，惩罚因子C=0.001。

（4）GCN-GRU模型，即本文提出的基于深度学习的客流量进出站预测模型。模型采用Tensorflow来搭建，学习率衰减，为了增强模型的泛化性能，batchsize设为16。隐藏单元数是模型的重要参数，直接影响预测的精度，因此通过实验来选取最优值。

以预测1 h客流量为例，进出站的MAE指标对比如图6所示，横坐标表示隐藏层单元个数，左、右轴分别表示进出站指标。从图中可以看出，当隐藏层单元数为64时效果最优，故本文隐藏单元数为64。模型的主要参数设置如表3所示。

表3 参数设置Table 3 Parameter setting

图6 不同隐藏单元数对模型性能对比Fig.6 Comparison of performance under different hidden units

3.4 实验结果与分析

3.4.1 各模型优劣对比

根据评价指标公式（17）、（18），计算得到4种模型预测未来4 min、20 min、40 min与60 min客流量的MAE、RMSE指标值，实验结果如表4所示。

表4 各模型预测性能对比Table 4 Performance comparison of different models

通过预测结果的对比分析可知，本文提出的客流量预测模型在短期和长期预测上均取得最好的精确度。GCN-GRU模型与SVR模型的预测精度均优于HA与VAR模型，这意味着机器学习相较于传统的统计学方法能更好表达非线性交通流数据，体现对非线性时间依赖建模的重要性。GCN-GRU预测精度优于SVR，表明同时考虑地铁站点空间结构的重要性。此外，各模型的进站预测均优于出站，可能是由于出站客流量相较于进站分布更为分散，并且存在较多客流量为0或为较小值的时间段，一个很小的预测差异可能会导致相对较大的误差。

3.4.2 长短期预测对比

随着预测步长的增加，三个模型的平均绝对误差和标准误差都在显著提高。各模型进出站预测结果的MAE值如图7（a）、（b）所示，当预测步长为15时，即预测未来1 h的客流量，GCN-GRU进出站的MAE分别达到了15.66和25.30，VAR进出站的MAE甚至达到了31.5和49.13。

图7 MAE指标对比Fig.7 Comparison of MAE indexes

值得注意的是，相较于VAR与SVR方法，GCNGRU模型的误差增速明显放缓。一方面由于GRU可以从输入的时间序列数据中递归学习长时动态特征，有选择地选取历史数据进行预测。另一方面，数据的空间维度属性的提取，使得模型能够将邻接站点的进出站客流量变化信息考虑进去，从而提高长期预测的精确度。

3.4.3 序列标准化与反标准化对比

模型在预测结束后，首先对输出结果进行反标准化处理，然后计算损失函数。为衡量此操作的有效性，进行了实验对比，从图8中可以看出，使用反标准化的模型4 min进出站预测精度分别提高了0.5%和1.6%，60 min进出站预测精度分别提高了4.3%和2.6%。这一结果表明将输出结果反标准化后计算损失函数能有效地提高模型预测的准确度。

图8 标准化与反标准化预测对比Fig.8 Comparison of standardized and anti-standardized prediction

3.4.4 典型站点分析

为更好地展示模型预测效果，本文对南京西路站预测结果进行可视化展示。图9、10分别展示了进出站4 min、60 min预测值与实际值的对比。其中，横坐标表示时间，纵坐标表示进出站客流量人次。从图中可以观察出以下几种情况：

图9 4 min客流量预测可视化Fig.9 Visualization results for prediction of 4 min

（1）本文提出的模型能较好地预测客流量的波动，表明模型能有效捕获时间序列的非线性特征。

（2）能较为准确地预测高峰的起始和终止，得益于模型的进出站协同预测，同时采用GCN捕获空间依赖，将邻接站点的客流量变化信息考虑进去。

（3）进站的短期和长期预测均优于出站预测，这主要是由于出站人数分布相较进站更为分散，数据的波动也较频繁，给模型的预测带来一定的困难。

（4）长期的早高峰较难预测，如图10（a）、（b）所示，7：30—8：02的预测结果存在较大误差，主要由于历史数据较少且人数短时间内波动较大导致。

图10 60 min客流量预测可视化Fig.10 Visualization results for prediction of 60 min

4 结束语

本文针对地铁站客流量预测问题，提出了基于时空网络的进出站预测模型。该模型基于编码器解码器架构设计，编码器解码器均由时空预测模块组成。在时空模块中，通过将GRU中的矩阵乘法置换为GCN中的双通道图卷积，实现了时空特征的融合提取。在上海地铁一卡通数据集上进行了对比实验，结果表明本文提出的模型在短期和长期预测上均取得较好的预测性能。

在下一步工作中，可以将车站周边用地性质以及天气、温度等外部因素考虑进去，这些都会对车站客流量产生影响。此外，由于条件限制，本文模型只采用三天客流量数据进行训练。在未来工作中，通过收集更多的客流量数据作为输入，进一步提高模型长期预测的精度。