APP下载

基于SVM-KNN的降雨条件下短时公交客流预测*

2018-12-14刘欣彤黄小龙谢秉磊

交通信息与安全 2018年5期
关键词:客流公交降雨

刘欣彤 黄小龙 谢秉磊

(哈尔滨工业大学(深圳)研究生院 广东 深圳 518055)

0 引 言

随着城市的不断发展,公交优先及公交都市等理念越来越深入人心,而更加高效及更具前瞻性的公交调度策略是公交优先战略的保障。短时公交客流作为公交资源配置及公交网络规划的重要依据,其精确程度关乎公交运营调度策略的成败[1-3]。研究表明,居民出行行为受降雨等不利天气条件的影响较大,从而影响公交客流的变化规律。据统计,北上广深四大一线城市的降雨天数占全年的占比都超过了20%,可见降雨是生活中最为常见的不利天气。因此,研究雨天短时公交客流的变化规律,进而提高短时公交客流的预测精度,是提高公共交通系统运力和服务水平,满足居民精细化多样化交通需求的有效方式。

国外相关学者对于天气对公交影响及短时公交客流预测等方面都开展了比较深入的研究,取得了较为丰硕的理论成果。部分学者从不同角度探究不利天气与居民出行需求的联系,如Cools等[4]从描述性分析和独立性测试2个方面研究了天气对出行需求的影响,结果表明不利天气对居民的非刚性出行需求影响较大;Khattak等[5]研究了不利天气条件对出行行为的影响,得出了出行者遇到不利天气会改变其原有出行方式的结论;短时客流预测方面,Xue等[6]及Ma等[7]都提出了多模式深度融合的预测模型,事实证明混合预测模型预测精度优于单个预测模型;Bai等[8]提出多模式深度融合的(MPDF)方法,将AP聚类分析与DBN相结合,提高了短时公交客流预测的精度,Teng等[9]分别用ARIMA模型和RBF模型预测短时公交客流的线性与非线性部分,实验证明此种方法比单一的预测模型具有更高的准确率。

反之国内学者尚未将天气因素与短时客流预测统筹考虑,研究也不成体系。天气对出行行为影响方面,张本森[10]及王健等[11]研究了冰雪条件下居民的出行行为,指出冰雪天气会影响居民的出行行为。短时公交客流预测方面,薛红军等[12]提出一种基于决策树的非参数预测模型,具有较高的准确性和稳定性;邓浒楠等[13]和邹巍等[14]分别用最小二乘、遗传算法与小波神经网络结合的方法预测短时公交客流,具有良好的预测效果;袁坚[15]用贝叶斯模型从时间和空间2个不同角度进行预测,实用性较强。

短时公交客流预测作为客流预测的重要组成部分[16],近年来越来越受到国内外专家学者的重视,并取得了一系列研究成果。国内外学者的研究主要集中在公交客流的日变化规律,尚未考虑更短时间间隔的变化规律;对于不利天气对公交客流的影响研究较少,且主要集中在交通流方向。现有的研究都撇开具体影响因素而仅对数据进行简单非参数回归,时效性和准确性都有待提高。笔者提出了一种适用性强且时效性高的SVM-KNN预测模型,并用深圳市公交客流数据进行了效果验证。

1 数据的处理及分析

1.1 数据来源

笔者以2014年深圳市南山区的部分公交线路前10个月公交IC卡数据为基础数据,通过对数据的预分析处理建立初始数据库,其中日类型用“0”,“1”分别表示工作日及周末;天气类型则记为无雨(“0”)及有雨(“1”);以0,1,2,3,…表示不同线路名称;降雨等级记为w(1),w(2),…,w(n),时间间隔为15 min,分别用0,1,2,3,4,5代表6个等级代表雨量的大小,从0到5雨量依次增大;相应时段的客流量记为V(1),V(2),…,V(n),得到的分类标签见表1。

表1 公交客流历史数据库

1.2 相关性分析

通过计算Pearson系数来探究降雨天气对公交客流的影响,计算见式(1)。

(1)

其中,r>0,r<0及r=0分别表示正相关,负相关及不相关。为了消除时变性引起的差异,采用Kalkstein等[17]及Singha等[18]提出的“小时客流偏差率”eth为客流量。具体计算见式(2)。

(2)

按上述方法对数据进行分析,得表2。

表2 降雨天气与客流量的相关性分析

由上表可知,工作日降雨天气与公交客流存在较强的负相关关系,周末存在极强的负相关关系。对比r可知,不同日类型中,降雨对非工作日公交客流影响较大,这是因为工作日出行多为以工作为目的刚性通勤需求,刚性需求几乎不受外界因素影响;而周末出行主要为旅游、购物等弹性需求,一旦出现降雨等不利天气情况,居民大多会改变出行方式或者取消出行。

1.3 降雨天气对公交客流的影响

采用控制变量的方法从不同方面分析不同降雨量对公交总体客流的影响,并用平均差及显著性进行检验,其中自变量为降雨强度,因变量为客流偏差率,此外,列出了m299及m369两路公交车进行对比,见表3~4。

表3 不同日类型公交线路偏差客流量与各降雨等级的多重比较结果

表4 不同降雨量对公交客流的影响分析

由以上表3~4可以看出:在总体上,降雨天气会减少居民的出行需求,随着雨量的增大,对客流的不利影响也越大。从不同日类型分析,周末客流受降雨的影响较大,这是由于居民周末出行多为弹性出行,较易更换或取消;从不同出行时段分析,非高峰时段客流受降雨的影响较大;从不同公交线路分析,不同性质及重要程度的公交线路的客流受到降雨天气的影响程度不同。

2 SVM-KNN算法

(支持向量机)SVM是一种基于统计理论基础上的有监督机器学习算法,其具有良好的分类效果,能将大量的数据进行快速有效的分类,但由于其在分界面上的分类具有易错性,所以不能单独用于预测短时公交客流;(K近邻算法)KNN是一种较为成熟也容易实现的非参数回归算法,其不仅可分类也可用于回归预测,且预测精度高,无需参数标定,在各领域的非线性参数回归分析中有广泛的应用,但其需寻遍整个空间寻找K个最近邻,计算量大且效率低下,在大数据样本上的预测上效果不佳。

因此,本文采用SVM与KNN二者相融合的算法,将两者的优点相结合,既降地了错误率,提高了预测精度,又大大提高其计算效率。具体步骤如下。

1)子数据库的生成。选用LibSVM对上文建立的历史数据库进行分类,其中核函数选取RBF核函数,在训练过程中采用GirdSearch寻找最佳的罚系数c和参数γ,将相同标签的数据定义为一个子数据库,并用SVM算法来识别搜索子数据库,RBF核函数见式(3)。

(3)

2)基于KNN的模式识别。

(1)定义状态向量。状态向量一般指影响预测客流的相关影响因素,选取预测时段t的前m个时段的客流量为状态向量1,用X1(t)表示,m的取值由自相关系数得出;由于本文考虑天气因素,选取与客流关系较为密切的天气变量定为状态向量2,用X2(t)表示见式(4)~(5)。

X1(t)=[V(t-m+1)V(t-m+2) …V(t) ]

(4)

X2(t)=[w(t)w(t+1)…w(t+n-1) ]

(5)

(2)定义距离准则。采用加权欧氏距离,状态向量1与状态向量2的加权欧氏距离见式(6),其中d为总状态向量的加权欧式距离。

(6)

3)客流预测。

(1)近邻搜索。采用基于聚类分析的变K近邻搜索算法,寻找K个最近邻值;

(2)客流预测。各近邻的权重大小取决于其对预测值的贡献的大小,各近邻权重见式(7)。

(7)

式中:di为第i个近邻与状态向量之间的欧式距离;d为各加权距离倒数之和。

(8)

依据上述算法原理及算法的基本步骤,在结合前人算法设计的基础上,得出本算法流程图,见图1。

图1 SVM-KNN预测算法流程示意图Fig.1 Flow diagram about SVM-KNN prediction algorithm

3 短时公交客流预测

3.1 预测结果分析

据深圳市南山区气象统计资料,选取降雨时长均超过8 h的7月18日、8月19日、8月20日和9月16日的长时间降雨天气作为研究日期。同时为了避免片面性,除了选取m299路为主要研究对象之外,另外选取深圳市南山区36路、74路及m369路进行对比研究。

短时公交客流预测的目是优化公交发车间隔,提高服务水平及居民出行的幸福感,因此需确保短时公交客流预测的时效性及准确性。基于以上考虑本文采用平均绝对误差(MAE)、平均相对误差(MAPE)、均方误差(MSE)及均方相对误差(MSPE)大误差指标来评价预测结果的可靠度。

为了分析预测结果,本文选取的预测时段为06:30—22:30,时间间隔为15 min。按照上述预测步骤,分别进行了实时预测。图2为m299路公交车预测客流量与实际值对比结果图,图中横坐标为6:00-22:30中每隔15 min的预测次数(横坐标为1时代表6:15,依此类推),纵坐标为客流量;表5是根据预测各线路在不同日期的评价指标值对比结果。

图2 m299路公交车预测客流量与实际值对比示意图Fig.2 A schematic diagram of the comparison between the forecast passenger flow and the actual value of m299

公交线路MAEMSEMAPEMSPE7月18日366.2218.0360.0980.132748.72610.3710.0810.103m2996.0087.1640.0860.106m36911.74814.0260.1150.152平均8.1769.8980.0950.1238月19日368.74411.1190.1050.129748.75410.7170.0640.083m2996.5788.2120.0860.111m36912.07615.2320.1020.126平均9.03711.3210.0890.1138月20日366.9148.3380.0850.098749.44310.9740.0670.076 7m2997.2759.1150.0880.103m36912.82220.0670.0950.119平均9.11312.1240.0840.0989月16日366.2588.0810.0980.152747.7069.4690.0670.096m2994.1856.3510.0520.065m36911.54914.3270.1190.148平均7.4259.5570.0850.114 9

由表5可以看出,预测数据的MAE和MAPE都相对较小,结果具有较高的可靠度,可用于预测降雨条件下的短时公交客流预测。

3.2 与其他预测模型的对比分析

(自回归积分滑动平均模型ARIMA)及(径向基函数RBF)也常用于短时客流预测,为分析SVM-KNN预测方法的优劣,需要与以上2种方法进行横向对比。本文选取m299路短时公交客流进行ARIMA及RBF预测,将预测结果与SVM-KNN算法进行对比,图3和图4分别为基于ARIMA和RBF对m299路短时公交客流预测的结果,表6为3种预测模型评价指标的对比。

图3 ARIMA模型预测m299路 公交线路客流结果示意图Fig.3 The result of passenger flow prediction about m299 by ARIMA model

图4 RBF模型预测m299路 公交线路客流结果示意图Fig.5 The result of passenger flow prediction about m299 by RBF model

预测方法MAEMSEMAPEMSPEARIMA(不考虑降雨因素)Min17.61920.7080.1830.220Max19.02424.9260.2290.292平均18.53823.1450.2110.268ARIMA(考虑降雨因素)Min12.63314.9040.1380.180Max14.44517.7690.1580.197平均13.36216.1530.1510.187RBFMin12.02113.8430.1240.157Max12.20814.8380.1440.185平均12.08314.3560.1340.168SVM-KNNMin7.4259.5570.0840.098Max9.11412.1240.0950.123平均8.43710.7250.0880.113

由以上分析,并结合3种预测模型的特点,可以得出结论如下。

1)在降雨天气天气条件下,考虑降雨因素的ARIMA模型由于引进合理的折减系数,其各项评价指标明显比不考虑降雨因素的ARIMA预测模型低,可见要提高客流预测的准确性就必须考虑降雨天气。

2)从评价指标对比分析RBF和AMIMA 2种模型,RBF模型的预测结果的可靠度要高于AMIMA预测模型,可见RBF模型在精度上要优于AMIMA模型。

3)SVM-KNN预测算法的MAE,MSE,MAPE及MSPE值均小于其他2种模型,可见基于多模式深度融合的SVM-KNN的预测精度比单一预测模型的预测精度高。

4 结 语

将SVM与KNN算法的优点有机结合,分析了降雨与公交客流相关关系及不同降雨强度对公交客流的影响程度,提出了基于SVM-KNN的降雨天气下短时公交客流预测模型,最后依据实际数据对模型的预测效果进行了验证,结果表明,此算法具有较高的准确率,可以预测多条线路,且与其它预测模型(如ARIMA与RBF模型)相比具有更好的拟合效果。

由于空间上短时公交客流变化规律不尽相同,所以未来的研究可以结合公交GPS数据研究各个不同站点公交客流变化,进一步加强短时公交客流预测的模型的普适性。

猜你喜欢

客流公交降雨
客流增多
一元公交开进太行深处
城市轨道交通节假日期间大客流行车组织思考与实践
Veejet80150喷头特性及其在降雨机中的应用
龙王降雨
等公交
泥石流
基于自学习补偿的室内定位及在客流分析中的应用
人工免疫算法在电梯客流时段划分的应用