APP下载

多源异构数据融合的城市私家车流量预测研究

2021-04-09

通信学报 2021年3期
关键词:私家车卷积建模

(湖南大学信息科学与工程学院,湖南 长沙 410082)

1 引言

随着世界城市化进程的快速推进,越来越多的人生活在城市中。联合国最新报告指出,目前世界上约有55%的人生活在城市中,2050 年该比例将达到68%。城市中的私家车作为人们出行的主要交通工具,其保有量也急剧增加[1]。以中国为例,截至2019 年年底,私家车保有量高达2.07 亿辆,占汽车总量的81.4%。近5 年,私家车年均增长1 966 万辆,其保有量的迅猛增长与城市空间资源之间的矛盾日益加剧,给城市带来停车困难、交通拥堵等问题[2]。

私家车流量预测作为智能交通领域的研究热点[3],旨在利用现有车流量预测未来车流量,具体可应用到智慧停车[4]、风险预警[5]和城市规划[6]等领域。一方面,全球定位系统(GPS,global positioning system)、车载自诊断系统(OBD,on-board diagnostics)和基于位置的服务(LBS,location-based service)等技术的高速发展,为实时收集海量的私家车轨迹数据提供了支持[7]。另一方面,与其他交通工具相比,私家车能够直接对应固定用户长期的出行需求,其轨迹数据从不同的粒度、层面和视角准确记录人们的出行行为。在日常生活中,私家车用户通常到达一个地点后停留一段时间以完成出行需求,再离开前往下一个地点。持续的停留行为,不仅包含了出行行为,其中的停留时长也体现了用户对地点的偏好[8]。

现有的车流量预测研究分为2 类:基于张量建模的方法和基于图建模的方法。在基于张量建模的相关工作中,研究人员通常将城市区域划分为规则的网格区域,如图1(a)所示。例如,Shen 等[9]将城市划分为网格,提出一种基于时空卷积神经网络(CNN,convolutional neutral network)的方法,来预测城市出租车移动事件的数目。Liu 等[10]结合长短期记忆网络(LSTM,long short-term memory)和CNN 预测城市出租车的数目。然而,此类基于网格划分的张量建模方法受到理想的欧几里得空间建模的限制,城市区域本是不规则的形状,各区域之间的关联也存在于非欧几里得空间[11]。规则的网格划分不仅破坏了城市区域本身的完整性,且划分后的区域缺少明确的语义信息。同时,LSTM 等序列模型将交通数据视为序列数据,仅能捕获时间相关性,而难以捕获空间相关性;CNN 方法仅能处理欧几里得空间的张量结构[12]。

图1 城市区域划分方式

近年来,图结构被研究人员证明了其在建模非欧几里得空间数据的有效性[13]。研究人员通常将交通数据建模为时空图,使用图神经网络(GNN,graph neural network)提取地理位置的空间相关性,并使用循环神经网络(RNN,recurrent neural network)提取序列时间相关性。Zhao 等[14]将交通数据建模为图,通过GNN 提取图的空间特征,并通过门控循环单元(GRU,gated recurrent unit)提取图的时间特征。这项研究中,图是基于顶点的单个属性(物理拓扑)构建,而对于顶点之间复杂的空间关联,并没有进行全局建模。Chai 等[15]将顶点之间复杂的关联建模成多图,提出了多图视角的GNN 预测自行车流量。Geng 等[16]基于多图视角的GNN 预测城市的打车需求。然而,这些工作仅仅关注静态的无向图,而忽略了顶点之间的动态交互,因此无法捕获图的全局空间关联。现有工作仅考虑区域的流入/流出量,忽略了区域原有的停留量,同时,缺少对天气、节假日和事件等因素的考虑,导致难以将这些最新的工作直接应用到城市私家车流量预测任务中。

城市私家车流量由车辆进入、停留和离开城市区域的总数组成。其出行受到区域功能和区域间流量动态交互的影响,例如,早高峰从住宅区前往工作区的私家车流量相对其他时间段的流量多[17]。区域之间私家车流量的动态交互也反映了私家车的出行规律以及区域之间的关联[18]。如何提取私家车出行的时空特征是首先面临的挑战。其次,车辆的停留时长可以体现区域的位置属性[19-20]。例如,在夜晚时间段,住宅区域的私家车平均停留时间往往比办公区域的更长,而在工作时间段则相反。如何充分利用私家车用户的停留时长表征区域的位置属性是第二个挑战。最后,天气、节假日和事件等其他因素也会影响私家车流量的分布[21],这些因素使预测问题变得更加困难。

为解决以上挑战,本文以研究城市私家车出行的时空特征为基础,提出一种多源异构数据融合的私家车流量预测方案。首先,融合私家车轨迹和城市区域数据表示私家车在城市中的出行分布。其次,通过多视角时空图建模私家车出行和城市区域之间的动态关联,其中图的顶点为城市区域,边为区域之间的联系,设计多图卷积-注意力网络(MGC-AN,multiple graph convolution-attention network),提取私家车流量演变的时空特征。最后,嵌入天气、节假日和事件等外部特征,结合时空特征与外部特征联合预测未来时间段内城市私家车流量。本文主要的研究工作如下。

1) 将私家车出行和城市区域之间的动态关联建模为多视角时空图,包括距离图、功能图、相似度图和转移图。

2) 设计MGC-AN 提取私家车流量演变的时空特征,其中多图卷积网络提取全局空间特征,多图卷积门循环网络学习序列时间特征,注意力网络捕获停留时长特征。

3) 将天气、节假日和事件等数据作为外部特征进行嵌入,将提取到的时空特征与嵌入的外部特征融合,进行联合预测。

4) 在长沙市和深圳市采集的真实数据上进行验证。实验结果表明,与现有的预测模型相比,MGC-AN 的均方根误差(RMSE,root mean square error)约降低了11.3%~20.3%,平均绝对百分误差(MAPE,mean absolute percentage error)约降低了10.8%~36.1%。

2 定义

定义 1GPS 轨迹。GPS 轨迹数据集G={G1,G2,…,Gn},其中Gi={g1,g2,…,gn}表示编号为i的私家车用户的轨迹序列,gn=(id,lonn,latn,tn),lonn和latn分别为轨迹的经度和纬度,tn为采样时间戳。

定义 2OBD 序列。OBD 序列数据集O={O1,O2,…,On},其中Oi={o1,o2,…,on}表示编号为i的私家车用户的OBD 序列,on=(id,v n,tn),v n为私家车的瞬时速度。

定义3停留点。停留数据集S={S1,S2,…,Sn}从GPS 和OBD 数据中提取,其中Si={s1,s2,…,sn}表示编号为i的私家车用户的停留序列,si=(id,lon,lat,ts,te,τ),ts为用户i停车熄火的时间戳,te为下一次启动车辆的时间戳,τ为停留时长。

定义4城市私家车流量。任意[t,t+ς)时间段内的城市私家车流量表示为Ft,计算式为

其中,为流入流量,为停留流量,为流出流量。

定义5兴趣区域(AOI,area of interest)。兴趣区域数据集a={a1,a2,…,an},其中每一个兴趣区域ai=(id,name,lon,lat,category),lon 和lat 分别为兴趣区域中心点的经度和纬度,category 为兴趣区域的类别。

定义 6多视角时空图。一个时空图G=(V,ε,A,t),其中V={v1,v2,…,vn}为顶点的集合,ε为[t,t+)ς时间段内图G中边的集合,A为[t,t+)ς时间段内的邻接矩阵。本文将城市区域间的动态关联建模为多视角时空图(详见3.1 节)。

本文的目标为通过φ个现有的私家车流量,预测出T个时间段的私家车流量,如式(2)所示。

3 数据采集

3.1 私家车数据采集

通过车载GPS 和OBD 终端设备[22]采集私家车轨迹数据,如图2 所示。为保护用户的隐私,在上传采集到的数据时,分配国际移动设备识别码(IMEI,international mobile equipment identity)给用户的GPS/OBD 设备,作为每辆车的脱敏身份标志号(如表1 的ID 字段)。车载OBD 终端设备主要包含GPS定位模块、OBD 读取模块和内置用户身份识别模块(SIM,subscriber identity module)卡的通用无线分组业务(GPRS,general packet radio service)通信模块[23]。OBD 模块从车辆OBD 接口读取车载传感器数据,结合GPS 模块和GPRS 通信模块(内置SIM 卡),将实时采集到的轨迹数据上传到云服务器。采集到的轨迹数据示例如表1 所示,其收集了全国范围内的私家车轨迹数据,目前数据量已经达到TB 级别。

图2 私家车轨迹数据采集设备

表1 采集到的轨迹数据示例

3.2 兴趣区域数据采集

兴趣区域是包含多类兴趣点(POI,point of interest)的区域状的地理实体[24],本文通过网络爬虫技术获取高德地图上的POI 和AOI 数据,其中POI数据用于获取AOI 的类别信息,例如风景名胜。POI和AOI 的字段及其含义如表2 所示。

表2 POI 和AOI 的字段及其含义

3.3 外部特征数据采集

私家车出行通常受到复杂的外部因素的影响,例如天气、节假日和事件等其他因素。本文考虑其他因素对私家车流量预测的影响,采集了天气、节假日和事件等外部特征数据,均以天为单位统计。天气数据通过百度地图天气查询API 获取,包含气温、风力级别和天气现象3 个字段,其中气温和风力级别为一天的平均值。事件数据采用网络爬虫获取,采集到的各字段及其含义如表3 所示。

表3 外部特征数据字段

4 数据融合

本文的整体框架如图3 所示。首先,将采集到的数据进行融合,具体分为停留点数据提取、城市私家车流量分布统计和外部特征嵌入。

4.1 停留点数据提取

相比海量的私家车轨迹数据,私家车停留点的数据量较少。私家车持续的停留行为同样包含了出行行为[3]。本文基于停留点数据统计城市私家车流量[25],停留点数据提取于GPS 轨迹和OBD 序列数据,提取过程如算法1 所示。提取后的数据字段如定义3 所示。

算法1私家车停留点数据提取算法

4.2 城市私家车流量分布统计

通过空间连接对提取到的停留数据与AOI 数据匹配,得到各个AOI 的私家车的流量分布。本节分别计算不同时间段内车辆进入、停留和离开各AOI 的流量,得到不同时间段各AOI 的私家车总流量,过程如算法2 所示。

算法2兴趣区域识别与车流量统计算法

4.3 外部特征嵌入

天气、节假日和事件数据在本文中作为外部特征数据。将外部特征数据的时间和行政区字段与私家车停留数据的时间和位置字段进行匹配,从而将数据进行融合。E tς+为在预测时间步长[t,t+)ς上外部因素的嵌入向量。这些与环境相关的特征在空间或时间方面没有明确关联,并且这些因素以复杂且非线性的方式影响私家车流量。如图3 中的预处理的右半部分,本文通过堆叠2 个全连接层嵌入外部特征,第一层为每类数据的嵌入层,第二层将嵌入后的向量进行升维,保持多源异构数据的维度相同。

5 多图卷积-注意力网络

5.1 多图建模

本文将私家车出行和城市区域之间的动态关联建模为多视角时空图,具体包括距离图、相似度图、功能图和转移图。图的顶点为城市的各个AOI,边分别为AOI 之间的距离、各AOI 历史流量的相似度、POI 功能和AOI 之间流量的动态转移。

1) 距离图

“地理学第一定律”认为,任何事物都是与其他事物相关的,相近的事物关联更紧密[3]。受此定律的启发,本文将各AOI 之间的地理距离定义为距离图,图的邻接矩阵定义如式(3)~式(5)所示。

其中,dist(vi,vj)为2 个站点之间的Haversine 距离,vi=(loni,lati)和vj=(lonj,latj)分别为AOI 对的中心点坐标,e=6371.004为地球的近似半径。

2) 相似度图

图3 方案框架

历史车流量相似的AOI 在未来时刻极大可能共享相似的车流量模式。本文基于AOI 之间的历史流量的相似度量化它们之间的相关性[26],相似度由皮尔逊相关系数进行度量,相似度图的邻接矩阵的定义为

其中,和分别表示2 个AOI 历史流量的平均值。

3) 功能图

POI 类别反映了AOI 的功能,具有相似功能的AOI 共享相似的流量模式[27]。本文对高德地图的一级POI 类别进行重新分类,共分为9 个类别,如表4所示。功能图的边为AOI类别向量P的余弦相似度,如式(7)所示。

其中,ai.c和a j.c分别为区域i和区域j的POI 类别,Pai和Paj分别为区域i和区域j的类别向量。

表4 POI 类别

4) 转移图

与以上3 种类型的时空图不同,转移图是有向图,图的边是不同时间段的AOI 之间的流量转移。在[t,t+)ς时间段内,vi和vj的转移流量的总和的计算式为

其中,Transij,t表示在[t,t+ς)时间段内区域i到区域j的转移总流量。

5.2 空间特征提取

为了提取多视角时空图的全局空间特征,本文采用多图卷积神经网络。在单个的图神经网络中,图中来自邻居的信息被汇总并用于逐步更新顶点的隐藏状态,其中该信息通过动态过渡网络进行传播。利用堆叠的卷积,顶点会捕获来自较大邻域的信息。单个空间图上的卷积为

将式(3)~式(8)的多图进行聚合,有

其中,fa为多图融合的聚合函数,θi为聚合参数。

将式(9)和式(10)结合,即为多视角时空图的空间特征提取过程。为方便表示,本文将这一过程简化为

其中,Am为多图的结合,fg为空间特征提取函数。

5.3 时间特征提取

将式(12)和式(13)输入多图卷积门循环网络中以提取序列时间特征,如式(14)~式(17)所示。

其中,Ht[i;]表示第[t,t+ς)时间段的输出,⊙表示逐元素点乘法。

本文将每个AOI 的私家车平均停留时长作为区域的权重,设计了基于私家车停留时长的注意力网络,为不同AOI 分配不同的注意力权重,以表征区域的位置属性。

对于时空图中的任意顶点vi,多图卷积门循环网络的输出序列H1[i,:],…,Ht[i,:]为注意力网络的输入。对每一个顶点进行注意力加权,如式(18)~式(20)所示。

其中,Wi,st为前τ个时间段顶点vi的平均停留时长,u为权重向量,,:]为每个顶点加权后的输出。

5.4 预测

本文将多图卷积门循环网络的输出与外部特征Etς+与进行融合,作为联合预测的输入,如式(21)所示。

模型训练目标是最小化真实流量和预测流量之间的误差。损失函数为

6 实验与对比分析

6.1 实验数据

如表5 所示,本文选择在长沙市和深圳市采集到的数据进行实验,表中轨迹数是去噪后的轨迹条数。实验选择有私家车停留记录的AOI 作为目标城市区域。

6.2 对比模型

本文选择以下6 种对比模型。

最小绝对值收敛和选择算子(LASSO,least absolute shrinkage and selection operator),为线性预测模型。

支持向量回归(SVR,support vector regression)[28],选择径向基函数作为核函数进行非线性预测。

多图卷积神经网络(Multi-GCN,multiple graph convolutional network),基于多图建模进行预测[29]。

堆叠门控循环单元(Stack-GRU,stack gated recurrent unit),通过堆叠的GRU 进行预测。

时间图卷积神经网络(T-GCN,temporal graph convolutional network),通过GCN 提取时间特征,通过GRU 提取空间特征[14]。

扩散卷积循环神经网络(DCRNN,diffusion convolutional recurrent neural network),通过双向随机行走提取空间特征,通过编码-解码架构提取时间特征[30]。

6.3 实验设置

实验的软硬件环境为Ubuntu 18.04 64 位系统,NVIDIA GTX 1650 4 GB GPU,模型基于Python 和Tensorflow 实现。实验数据的前80%数据作为训练集,后20%数据作为测试集;Adam算法作为模型的优化器;设置学习率的初始值为0.001 5,模型每迭代1 000 次自动衰减初始的90%;模型训练的批大小为64;设置τ=12,T=5 ;实验设置了早停策略,当测试集的损失等于训练集的损失时,模型训练达到最优,即停止训练,防止模型过拟合。

本文对私家车的停留时长进行统计分析,结果如图4 所示。无论在工作日还是周末,大部分私家车的停留时长均在2 h 以内,少部分持续到2 h 以上且不超过8 h,8 h 以上的停留时长稀少。因此,本文将ς的范围设置在2 h 内,分别为30 min、60 min和90 min,即在不同的设置下,一天分别被均匀划分为48、24 或16 个时间片。

表5 实验数据

图4 私家车停留时长分布

6.4 评价指标

实验选用RMSE 和MAPE 这2 个评价指标对实验结果进行评估,计算式分别为

其中,Fi为真实值,为预测值。

6.5 实验结果

首先,对城市中的所有AOI 进行预测。表6 和表7 分别为长沙和深圳数据集上的MGC-AN 与其他模型的预测结果。当ς=30 min 时,SVR 在2 个城市的数据集上均能很好地捕获短期的时间特征,从而表现出较好的性能。私家车的平均出行时长通常在30 min 以上,如图5 所示,在长期预测的情况下,SVR 和T-GCN 表现出的性能较低。在ς=60 min 和ς=90 min 的情况下,MGC-AN 的性能均优于其他模型,可能的原因是私家车用户平均的出行时长通常大于30min,小于60 min,如图5 所示。对于其他模型,由于私家车的流量预测是非线性预测问题,因此线性模型LASSO 无法捕获这种复杂的非线性关联;Multi-GCN 仅考虑了空间层面的特征,难以提取序列时间特征和停留时长特征;DCRNN 建模了单个视角的时空图,且忽略了停留时长特征。因此以上3 种模型无论在短期还是长期时内,均难以准确预测私家车流量。

表6 长沙数据集上MGC-AN 与其他模型的预测结果

表7 深圳数据集上MGC-AN 与其他模型的预测结果

图5 私家车平均出行时长分布

其次,隐藏神经元的个数对模型性能的影响非常大,本文分别基于不同范围的神经元数目对MGC-AN 进行实验。图6 为不同神经元数目对RMSE 指标的影响;图7 为不同神经元数目对MAPE 指标的影响,纵坐标为百分数。实验结果表示,在长沙数据集上,32 个隐藏神经元模型性能最佳;在深圳数据集上,64 个隐藏神经元模型性能最佳。

图6 不同神经元数目对RMSE 指标的影响

图7 不同神经元数目对MAPE 指标的影响

本文对提出的MGC-AN 模型进行了消融分析,即消融模型中的组件后评估模型的性能。“w/o”表示消融某个组件。表8 为在ς=60 min 的情况下模型移除转移图(T)、功能图(F)、相似度图(S)和距离图(D)组件的RMSE 指标。结果表明,消融转移图对模型的影响最显著,原因是转移图是动态有向图,能够从车流量转移的角度反映区域之间的动态关联。其次显著的是功能图,表明功能相同的区域的车流量模式较相似。相比距离图,相似度图能更直观地建模区域车流量的演变模式,因此相似度图对模型的影响比距离图更显著。

表8 消融分析

最后,可视化单个AOI 的预测结果。本文随机选择2 个AOI 的预测结果和真实结果进行可视化。图8 中选择的区域为长沙市某区域,类型为生活和办公场所,面积为2.8 万平方米。在2018 年9 月28 日上午9:00 至9 月30 日中午11:00,该区域的私家车流量的预测值和真实值如图8所示。由于该区域是集生活娱乐和办公于一体的场所,因此白天的车流量多于晚上,周末(9 月29 日和9 月30 日)的车流量多于工作日(9 月28 日)。

图8 在2018 年9 月28 日至9 月30 日长沙市私家车流量的预测结果

图9 中选择的区域为深圳市某区域,类型为公寓,面积为3.6 万平方米。在2018 年9 月28 日上午9:00 至9 月30 日中午11:00。由于该区域是公寓类型的场所,因此工作日的车流量明显少于周末,白天的车流量也少于晚上。

图9 在2018 年9 月28 日至9 月30 日深圳市私家车流量的预测结果

7 结束语

本文从私家车出行的时空特征出发,对私家车出行和城市区域之间的动态关联进行建模,提出了多卷积-注意力网络准确预测了城市私家车流量。在长沙和深圳这2 个城市采集的真实数据上进行了实验,与所选的现有模型进行了对比,多卷积-注意力网络模型表现出更优的预测性能。本文关注城市私家车用户群体,为智能交通的研究提供了新视角,旨在为智慧停车、风险预警和城市规划等应用提供新方案。下一步考虑在线学习,旨在采集数据的同时实现在线预测。

猜你喜欢

私家车卷积建模
乘坐私家车
基于FLUENT的下击暴流三维风场建模
基于3D-Winograd的快速卷积算法设计及FPGA实现
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
求距求值方程建模
卷积神经网络的分析与设计
从滤波器理解卷积
基于PSS/E的风电场建模与动态分析
图说
基于傅里叶域卷积表示的目标跟踪算法