基于时空残差网络的区域客流量预测方法
2020-06-29
(西安建筑科技大学 信息与控制工程学院,西安 710055)
0 引言
近年来,随着我国旅游人数的急剧增长,旅游景区景点饱和、游客拥挤等问题也日益突显出来,进而影响游客的出游体验和旅游业发展。因此,准确地预测区域旅游客流量能够为景区管理者快速决策提供帮助,从而避免游客聚集,提高游客的安全性,进一步推动旅游业的持续发展。
目前,流量预测的方法较多,主要分为传统方法和深度学习方法。传统的流量预测方法,如线性回归法[1-2]、灰色预测法[3-4]、ARIMA法[5]、人工神经网络[6-9]等,这些方法很难准确预测波动性强、复杂非线性的区域旅游客流量,并且无法学习空间相关性。
随着深度学习的发展,研究者将其运用在交通流量[10-12]、客流量[13-15]、燃气负荷量[16]等流量预测上。Y.F.Li等人[17]采用长短时记忆神经网络(LSTM)方法对旅游流量进行预测,实验表明LSTM方法比自回归集成移动平均(ARIMA)模型和反向传播神经网络(BPNN)有更好的预测效果,充分利用了旅游客流量数据的时间维度。但此方法没有利用空间属性,X.Zhan等人[18]提出了一种基于卷积神经网络(CNN)的交通流预测方法,使用浮动车的GPS轨迹数据来估算全市的交通量。X.Ma 等[19]提出了一种大规模交通网络速度预测的深度卷积神经网络,将时空矩阵转换为图像作为 CNN 的输入。可以看出,单一的神经网络无法充分利用时空数据的多属性特征。J.Zhang等人提出了一种基于深度学习的时空残差网络模型ST-ResNet,使用残差网络来模拟人群流量在时间上的相关性,将城市划分为均匀的网格并使用ST-ResNet模型预测每个地区人群流入量和流出量[20-21]。段宗涛等人也将出租车GPS数据和天气数据等转化为栅格数据,结合卷积神经网络、长短时记忆神经网络、残差网络构建了出租车需求预测模型[22]。
虽然以上方法考虑到了时空数据的多属性问题,但是,区域客流量易受季节性影响,短期相关性更强,且波动性强。针对以上问题,本文提出用于区域客流量预测的改进Quad-ResNet模型,利用残差网络模拟时空数据的时间与空间特征,并且利用全连接网络模拟季节性影响。为了验证方法的可行性,在陕西省宝鸡市扶风县法门镇真实序列数据集上测试了Quad-ResNet模型与LSTM、CNN、ST-ResNet模型的性能,发现Quad-ResNet模型性能优于LSTM、CNN、ST-ResNet模型。
本文的其余部分组织如下。第一节介绍基于时空残差网络的区域客流量预测方法。第二节讨论了几种选定模型的实验设计和性能。最后,第三部分是结论。
1 基于时空残差网络的区域客流量预测方法
1.1 区域客流量定义
htm,n= |{pi∈(m,n)∧pi∈P} |
(1)
式中,P是t时刻旅游景区中行人的位置点集合;pi是集合P中的一个位置点;pi∈(m,n)表示位置点pi在网格(m×n)内;|·|表示集合的基数。
1.2 区域客流量影响因素分析
1.2.1 空间影响
根据地理学第一定律可知,任何事物都是与其他事物相关的,且邻近事物之间的相关性可能更强,距离越近的事物关联可能越紧密[23]。因此,旅游景区相邻区域的客流量会因为人群的移动而相互影响,即存在空间邻近性。距离较远的区域之间也可能相互影响,两个相似区域的客流量变化情况呈现出一定的相关性,即为空间的相似性。
1.2.2 时间影响
旅游景区某一时刻区域客流量会受到前几个时刻的影响,根据时间间隔的长短可以具体分为邻近性、相似性、周期性、趋势性。
1.2.2.1 邻近性
图1为五分钟间隔所有区域总流量折线图,从中可以看到,0∶00~6∶00客流量较少且逐渐减少,6∶00~12∶00客流量不断增加,12∶30左右出现当日的一个高峰,然后不断振荡直到20∶00,之后客流量开始逐步减少。对于一天各个时刻的客流量来说,每个时刻的客流量均会受到邻近的前几个时刻的影响,而且它也会影响之后几个时刻的客流量,体现了区域客流量的邻近性。
图1 区域流量邻近性
1.2.2.2 相似性
图2将12∶00区域的客流量依次与11∶00、10∶00、9∶00区域客流量做差,差值大于10的区域用白色表示,其余区域用黑色表示。从图2中可以看到,白色区域从整体上看属于少数,说明大部分区域客流量相差不大,体现了时间上的相似性。
图2 区域流量相似性
1.2.2.3 周期性
图3显示了连续五天的区域客流量,从图3可以看到每天的客流量变化趋势是大体相同的,每天同一时刻的客流量与1天前、2天前的客流量存在相似性,呈现出区域客流量的周期性。
图3 区域流量周期性
1.2.2.4 趋势性
图4显示了时长为6个月,间隔为1周,每早8∶00的客流量,随着气温变暖,同一时刻客流量增多,体现了区域客流量的趋势性。
图4 区域流量趋势性
1.2.3 季节性影响
在区域客流量相关的研究中经常会提到“季节性”这个概念,它反映了由于天气因素、日历效应和时机决策的不同,客流量在时间分布上的不均匀,最终导致旅游市场具有明显的淡旺季。具体在区域客流量的研究上,需要考虑的因素分为天气和法定节假日等。
1.3 Quad-ResNet模型框架
基于时空残差网络的区域客流量预测方法Quad-ResNet模型的整体架构如图5所示,模型主要分为5个部分,通过4个残差网络分别来模拟时间的邻近性、相似性、周期性和趋势性,一个两层全连接网络模拟季节性影响。残差网络由一个卷积层、L个残差单元和一个卷积层组成,这种结构可以模拟空间邻近性和相似性。4个残差网络的输出op[L + 2]、oq[L + 2]、or[L + 2]、os[L + 2]通过参数矩阵融合为of,of与全连接网络的输出oe进行融合。最后,通过Tanh函数将融合后的输出映射到[-1,1]。
图5 Quad-ResNet模型整体架构
4个残差网络结构是相同的,以邻近性部分为例。应用BN(Batch Normalization)[24]后残差单元的计算如式(2)、式(3)所示:
a[l+1]=w[l+1]*g(a[l])
(2)
a[l+2]=w[l+2]*g(a[l+1])+a[l]
(3)
式中,*表示卷积操作;g表示激活函数ReLU;w[l+1]、w[l+2]是可学习参数。
邻近性部分、相似性部分、周期性部分与趋势性部分通过参数矩阵进行融合,融合后的输出of如式(4)所示:
(4)
式中,*表示Hadamard积;wp、wq、wr、ws是可学习的参数,分别用来调整邻近性、相似性、周期性、趋势性的影响程度。
(5)
模型采用MSE(Mean Square Error,均方误差)来计算损失,损失函数L(θ)如式(6)所示:
(6)
2 实验设计与分析
2.1 模型调优实验
2.1.1 实验数据集
原始流量数据来源腾讯位置大数据网站,爬取陕西省宝鸡市扶风县法门镇2018年1月1日~2018年6月30日的APP定位数据,时间间隔为5分钟,转换为区域客流量数据后,共包含52 128个时刻。
采用扶风县的历史天气数据作为法门镇旅游景区的天气数据,天气数据包含日期、天气状况、气温、风力风向这四个属性。节假日数据来源于开放API,工作日标识为0,周末休息日标识为1,法定节假日标识为2。
2.1.2 超参数设置
Quad-ResNet模型使用Adam优化算法进行训练,batch size设置为32,学习率设置为0.0001,损失函数设置为MSE。邻近性时间间隔的单位为1个时刻,相似性时间间隔的单位为1个小时,周期性时间间隔的单位为1天,趋势性时间间隔的单位为1周。由于数据集的时间间隔是5分钟,因此邻近性时间间隔p=1,相似性时间间隔q=12,周期性时间间隔r=288,趋势性时间间隔s=2016。
2.1.3 模型评估标准
采用RMSE(Root Mean Squared Error,均方根误差)对模型进行评价,RMSE的计算如式(7)所示。RMSE越小则说明模型的误差越小、精度越高。
(7)
2.1.4 参数选择实验
参数选择实验主要是对邻近性序列长度、周期性序列长度、相似性序列长度、趋势性序列长度与残差单元数量进行选择。
以邻近性序列长度选择实验为例,实验结果如图6(a)所示。从图中可以看到,随着lp变大,RMSE首先减小然后平稳最后增大。lp=0时,表示不使用邻近性部分,导致RMSE很大,说明邻近性部分有助于提高模型的精度。lp=2时,RMSE最小,表明此时模型的精度最高。lp=6时RMSE反而比之前更大,说明较长的邻近性序列不但无法提升模型的精度反而可能导致模型的精度下降。因此,最终选取邻近性序列长度lp=2,此时模型的误差最小,精度最高。根据图6(b)~6(e)所示,最终选取周期性序列长度lr=3,相似性序列长度lq=4,趋势性序列长度ls=1,残差单元数量为4。
图6 参数选择实验结果图
2.2 对比实验
2.2.1 实验设计
为了验证模型的有效性,本文选取了3个模型ST-ResNet,LSTM,CNN与Quad-ResNet做性能比较,其中深度学习模型ST-ResNet,LSTM,CNN设置的参数值与Quad-ResNet中的保持一致。
2.2.2 实验结果分析
各个模型的预测结果如表1示,从表可以看出Quad-ResNet模型的RMSE最小,说明该模型的预测精度最高。LSTM-3、LSTM-6、LSTM-12模型的RMSE只比Quad-ResNet模型的RMSE稍大一些,说明LSTM模型能够有效地捕获短期的时间相关性,并且得到较好的预测结果,但是空间相关性对于预测结果也有着重要的影响,不能只考虑时间相关性,否则无法进一步地提升精度。
表1 实验结果对比表
LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型的RMSE比较接近,明显小于LSTM-2016模型,同时,随着lookback的增加,模型的RMSE先减小后增大,说明LSTM模型可能很难捕获非常长期的时间相关性(例如,一天、一周)。
CNN模型的RMSE明显比Quad-ResNet、LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型大,仅仅略小于LSTM-2016模型,说明浅层的CNN可能很难捕获到足够的空间相关性,导致模型的预测精度不佳。
ST-ResNet模型的RMSE大于Quad-ResNet模型,这是由于ST-ResNet模型只考虑了时间的邻近性、周期性、趋势性,没有考虑时间的相似性,导致模型的精度无法进一步地提升,说明短期的时间相关性对区域客流量预测精度的影响明显大于长期的时间相关性。邻近性、相似性属于短期的时间相关性,周期性、趋势性属于长期的时间相关性。Quad-ResNet模型考虑了时间的相似性,因此实验结果好于ST-ResNet模型。
综合以上各个结论可以得出,本文提出的针对区域客流量预测的Quad-ResNet模型的预测结果较好,该模型对时间相关性和空间相关性的考虑比较周全,具有一定的泛化能力,同时该模型在训练和预测上的操作明显比LSTM模型更简单方便,证明Quad-ResNet模型是一个优秀高效的模型,适用于区域客流量的预测。
3 结束语
本文提出了一种基于时空残差网络的区域客流量预测方法,即根据行人定位数据、天气和节假日数据预测每个地区的客流量,从而找到旅游景区的客流量热点区域。本文选取了3个模型与 Quad-ResNet模型做性能比较,证明Quad-ResNe模型更适合区域客流量的预测。但是还有一些方面需要完善,本文的区域流量是通过行人数据得到的,如果可以融合更多的交通流量,比如自行车轨迹数据、出租车轨迹数据等其他数据,在此基础上预测的结果应该更符合真实情况。本文考虑的影响因素也并不代表所有影响,未考虑到突发事件或一些未知的原因,如果可以挖掘出其他影响因素进行分析,从而增强预测模型的实际意义,进一步提高模型的精确性。