APP下载

基于支持向量机的节假日进出站客流预测方法

2018-08-20叶红霞

城市轨道交通研究 2018年8期
关键词:历史数据客流量进站

谢 俏 叶红霞

(广州地铁集团有限公司, 510330, 广州//第一作者, 工程师)

随着城市轨道交通网络格局的逐步形成,网络客流规模持续攀升,运营压力日益凸显。运营管理部门需要提前掌握节假日期间客流量的变化趋势,以制定和实施合适的运营管理及客流组织计划[1]。因此,需要利用数据挖掘技术,深入剖析节假日客流特征规律,精准地预测节假日期间网络客流分布状态和趋势。

常用的进出站客流量预测方法分为线性预测方法和非线性预测方法。线性预测方法包括时间序列模型[2-3]、卡尔曼滤波模型[4-5]等,由于它们的理论基础是线性估计模型,当客流呈现非线性、随机性等特征时,模型的预测性能逐渐变差。

非线性预测方法包括非参数回归[6-8]、神经网络模型[9-12]、支持向量机[13-14]等,非线性预测方法理论上更加符合客流非线性、不平稳等复杂特征的场景。非参数回归主要依赖历史数据描述因变量和自变量之间的关系,寻找历史数据与当前点相似的“近邻”,把当前的状态描述为一个过去某种状态的“近邻状态”,并用这些近邻预测下一时刻值,模型对历史数据的要求较高,且需要大量历史数据以从中提取有用信息。神经网络模型存在局部最优、过拟合等弊端,且对样本量要求高,样本较少时,预测性能会大大降低。支持向量机与神经网络相比,其突出优点是依据结构风险最小化原则进行学习,可以在预测精度和推广能力之间寻找折中点,再加上核函数的巧妙利用,较好地解决了小样本、非线性、维数灾难、过学习及局部最优等问题。

节假日期间地铁的进出站客流是一种不稳定的并隐含着大量动态特征的非线性、非平稳时间序列,客流规律较为复杂,不易捕捉其特征,且存在数据量样本较少的情况。考虑上述节假日客流特征,本文选取支持向量机模型对节假日期间进出站客流进行预测。

1 节假日期间进出站客流特征分析

为对进出站客流进行较好的预测,需要充分挖掘进出站客流的规律,下文以广州地铁2014—2017年国庆假期期间各站点的进出站客流量的历史数据进行特征分析。

考虑2014—2016年国庆假期的放假安排相同,假期均为10月1—7日共7天时间,而2017年国庆假期为10月1—8日共8天时间(10月4日为中秋节),为了合理统计国庆假期的客流规律,对2017年的国庆假期进行压缩,将国庆假期的第四天和第五天客流量的平均值作为第四天的,第六天、第七天、第八天的客流量分别作为第五天、第六天和第七天的,通过该方法建立了2014—2017年国庆假期客流数据的历史数据库。

通过分析2014—2017年国庆假期各车站的进出站客流量数据可知,节日期间各站每天的进出站客流量与节日期间的平均进出站客流量的比例是基本稳定的。以西村站为例,如图1所示,西村站2014—2017年国庆假期中平均进出站客流量与每天进出站量的比例较为稳定。

a) 进站客流量比例

b) 出站客流量比例

图1 西村站国庆假期每日进出站客流量与节日期间平均进出站客流量的比例

此外,按车站分类建模有利于将规律相近的车站放在一起,便于机器学习规律,从而提高预测精度。节假日期间的出行者以休闲娱乐、购物、旅游等为出行目的居多,因此商业区、景点区等附近的地铁站的进出站客流量骤增,而办公区等附近的地铁站的进出站客流量则减少。同时市区车站、郊区车站的进出站客流量也呈现出不同的特征。基于此,在预测过程中将地铁车站分为商业或景点类、市区站其他类、郊区站其他类。

2 节假日进出站客流预测模型

2.1 模型框架

根据上一节对国庆假期期间车站进出站客流变化规律特征的研究,发现节假日期间每天进出站客流量与平均进出站客流量的比例较为稳定。因此,对于节假日期间的客流预测,本文构建节假日期间平均进出站客流量预测模型。考虑到节假日期间乘客出行较为自由,无论是出行时间分布,还是出行目的都表现出与平常日不同的特征,因此,建立节假日期间平均进出站客流量预测模型时,不仅要考虑历史节假日期间客流量均值与历史平常日进出站客流量之间的关系,而且要考虑历年节假日期间平均进出站客流量的特征。基于此,模型的输入选取为:① 历史某一年节假日前的平常日进出站客流量(包括节假日前2个月的工作日、周六周日日均进出站客流量);② 历史某一年节假日期间的平均进出站客流量;③ 历史次年节假日前的平常日进出站客流量(括节假日前2个月的工作日、周六周日日均进出站客流量)。模型的输出选取为:历史次年节假日期间的平均进出站客流量。

在预测过程中将分别针对每类站点建立进出站客流量预测模型,预测流程如下:

Step 1: 准备模型的输入、输出历史数据。

Step 3:选取最小二乘支持向量机(LSSVM)的核函数。由于径向基函数的应用范围最广,可以直观反映2个数据的距离,因此本研究选取径向基函数作为核函数。

Step 4:应用十折交叉验证法选择正则化参数C和核参数σ2。

Step6:根据Step5生成的预测函数预测未来年节假日的客流值,并对预测误差进行评价分析;如果误差较大则返回Step1,重新调整模型输入和LSSVM参数再进行预测。

其中,正则化参数C的初始值设为100,寻优范围设置为[e-1,e10];核参数σ2的初始值设为0.1,寻优范围设置为[e-3,e8];误差函数选取的是估计值与真实值的均方误差,当前后2次寻优的均方误差的减小量小于10-3时,结束寻优。预设误差要根据样本数据的特征而定。进出站客流量预测流程如图2所示。

图2 进出站客流量预测流程

2.2 模型参数标定

确定模型框架后,根据所预测的节假日历年数据,标定预测模型的参数。支持向量机模型所需标定的参数包括:正则化参数C和核参数σ2。在实际应用中,一般采用十折交叉验证法对参数进行标定。

以2014—2017年国庆假期的客流量历史数据为例,进行模型参数标定,标定结果如表1所示。计算中先以2014—2016年国庆假期的客流量为历史数据,并将正则化参数C的初始值设为100,核参数σ2的初始值设为0.1,采用十折交叉验证法,计算2017年国庆假期客流量的预测值;然后将预测值与实际值进行对比后,修正正则化参数C和核参数σ2后,再次进行预测;迭代执行上述步骤,直到预测值与实际值误差小于10-3。此外,考虑到在实际应用中,可能存在无法满足误差小于10-3条件的情况,因此将迭代次数限定为100次;当无法满足误差条件时,则以100次参数标定结果中,预测值与实际值误差最小的一套参数作为最佳参数。

然后,对各类模型的样本集进行训练,以各类车站进站客流量的训练拟合效果为例进行说明,如图3所示,各类车站进站客流量预测模型的训练拟合效果均较好。

表1 各类车站模型的最佳正则化参数C和核参数σ2

a) 商业类或景点类车站

b) 其他类(市区站)

c) 其他类(郊区站)图3 各类车站进站客流量的训练拟合效果图

2.3 模型验证

为了检验模型的预测效果,本文以2014—2016年国庆假期的客流数据进行训练,生成预测函数,进而预测2017年国庆假期的进站客流量,并与实际值相比较,分析模型的预测效果。图4为各站点国庆假期平均进站客流量的预测值与真实值的对比图。

由图4可见,散点(实际值)大都集中在45°线(预测值)上,说明各个车站国庆假期平均进站客流量的预测结果较好。对各类车站国庆假期平均进出站客流量预测的平均相对误差百分比进行统计,结果如表3所示。

图4 各车站国庆假期平均进站客流量的 预测值与实际值对比表2 国庆假期各类车站的客流预测平均相对误差

车站类型预测误差/%进站客流量预测出站客流量预测商业类或景点类7.705.43其他类(市区站)1.496.44其他类(郊区站)1.785.20

从表2可以看出,基于支持向量机建立的国庆假期平均进出站客流量模型的预测效果较好。进而,基于国庆假期平均进出站客流量的预测值、各车站每天进出站客流量与国庆假期客流量均值的比例数据库,预测2017年国庆假期七天各站点的进出站客流量。每天的客流预测平均相对误差百分比如表3所示。

表3 2017年国庆假期各车站客流预测平均相对误差

从表3可以看出,预测效果较好。进一步说明了基于该比例数据库分别预测各节假日每天的进出站客流量是可行的。同理,可以建立节假日前一天各类车站的模型,预测节假日前一天各车站的进出站客流量。

3 结语

本文以城市轨道交通进出站客流为研究对象,通过研究分析节假日期间进出站客流特征,对车站类别进行合理划分。然后,对模型的输入与输出样式进行研究,并基于历史数据确定样本集,计算预测模型的最佳正则化参数和核参数,分别构建适用于节假日进出站客流预测的支持向量机模型。最后,基于所构建的支持向量机模型,以2014—2016年的国庆假期客流历史数据,预测了2017年国庆假期各车站的进出站客流量,并通过与实际数据进行对比分析,检验了预测模型的精度。结果显示,该模型预测的进出站客流量的绝对百分比误差在8%以下,由此表明该模型具有较高的精度,可以为城市轨道交通运营组织管理工作提供重要的决策依据。

猜你喜欢

历史数据客流量进站
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
基于故障历史数据和BP神经网络的接地选线方案研究
进站口上下行载频切换时引起ATP制动问题分析
2018年中国地铁客流量年度总结篇
春运期间北京西站共有154.8万人次刷脸进站
地心游记(四)一位向导
基于嵌入式系统的商场客流量统计算法
基于Hadoop技术实现银行历史数据线上化研究
用好细节材料 提高课堂实效
基于AFC数据的城轨站间客流量分布预测