基于SVM+GA的客运车辆到站时间预测

2017-06-26张昕姜佳佳刘进

计算机与数字工程 2017年6期

关键词：客运车辆客运适应度

张昕姜佳佳刘进

（1.深圳市易行网交通科技有限公司深圳518040）（2.武汉理工大学信息学院武汉430070）（3.武汉理工大学自动化学院武汉430070）

基于SVM+GA的客运车辆到站时间预测

张昕1姜佳佳2刘进3

（1.深圳市易行网交通科技有限公司深圳518040）（2.武汉理工大学信息学院武汉430070）（3.武汉理工大学自动化学院武汉430070）

准确的客运车辆到站预测是城市智慧交通的基础服务，有助于减少信息盲区，优化车辆运营调度。提出了一种基于SVM的到站预测模型，考虑道路因素、大型节假日、天气、路况、运行距离、运行时间、排班信息七个因素的影响，改进道路路段为道路类型因素，使模型更适合于客运车辆。在此基础上，用遗传算法做参数寻优提高模型训练效率。以深圳-广州的客运班车GPS数据完成实验，对比证明SVM+GA模型应用于客运车辆行程时间预测具有更好的适应客性，准确高效。

智慧交通；客运车辆行程时间；支持向量机；遗传算法

1 引言

到站时间预测是实现智能化信息服务的基础，而目前客运行业的现实是全国数以万计的客运站，基本没有提供到站预测服务的；还没有省市出台客车延误给予乘客赔偿的规定，仍处于制度真空中。到站预测服务对于安抚乘客、优化车辆调度、节约社会资源都是有实际的意义的。

2 概述

道路旅客运输作为先进城市公共交通系统（Advanced Public Transportation Systems，APTS）中重要的一环，是社会经济发展的基础性行业。以广东省深圳市截止2015年10月数据为例，全市目前共有汽车客运场站51个，客运服务点21个，道路客运线路465条，其中省际线路188条，市际线路277条。现有道路班线客运企业33家，客运车辆2410辆；现有旅游包车企业68家，车辆2586辆，其中市际标志牌1370个，县际标志牌1216个。2014年度完成公路旅客运输量195597.00万人次，比2013年增长4.1%，占各种交通方式客运总量的44.96%。虽然道路客运旅客运输量略有增长，但由于受到高铁、城际等出行方式的冲击，占各种交通方式客运总量的比例呈现出持续下降的态势。然而长期以来，我国的道路旅客运输行业管理信息化、智能化水平不高，行业总体经营服务管理还处于相对粗放水平，行业监管手段原始落后，不能满足现代化交通管理需要。

随着GPS定位终端在公共交通工具上的普及，地理信息系统（Geographic Information System或Geo-Information system，GIS）技术越来越成熟，为到站延误预测提供了基本的要素和技术支持。国内外在公交到站时间预测领域开展了广泛的研究，既有的研究成果对客运到站预测具有借鉴意义。从到站预测的方法和模型方面分析，已有历史数据平均法、卡尔曼滤波模型、基于概率的模型、SVM模型等方法。Dihua Sun［1］等使用历史数据法，这种方法模型简单、易于理解，然而其实时性较差；Vanajakshi［2］等则选用了卡尔曼滤波模型，卡尔曼滤波模型能处理高维问题，且实时性好，但是做多步预测时精度下降明显；陈国俊［3］等提出基于概率的预测模型，考虑了不确定性因素的影响，只是模型的可移植性不太好。支持向量机SVM是一种应用较为广泛的模型，于滨［4］、Thissen U［5］等都用过SVM做行程时间预测，对比实验表明SVM是一种精度较高的方法。SVM可处理复杂非线性问题具有很强的学习能力，适合大规模数据，只是其核函数相应参数的确定比较困难。

综上所述，由于客运车辆和常规公交车不同，路线更长，预测的时间跨度更大，针对客运车辆到站预测问题，本文提出一种基于SVM的方法，选取更适用于客运的特征，并用遗传算法提高核函数参数寻优效率，以深圳-广州的客运数据为例，证明SVM+GA的客运到站预测模型准确且高效。

3 客运到站预测模型建立

客运车辆行驶的典型路线为从客运车站出发，在城市道路行驶一段路程之后上高速公路，车辆大部分时间在高速公路行驶，中途有可能会下高速在城市中行驶，路线大部分情况比较固定，在遇到特殊情况时司机会见机选择路线。SVM相比其他方法是一种出色的非线性算法，可以解决维数灾难、过学习等问题，适合大的数据量。本文的研究数据集庞大，也要尽可能多考虑各种类型的影响车辆运行的因素，提出基于SVM+GA的客运车辆到站预测模型。将数据输入SVM模型进行训练，遗传算法是模型参数寻优算法。

3.1 基于SVM的客运到站预测模型

参照文献［6～10］选择的特征，本文以大量的客运车GPS数据为基础，考虑道路因素、大型节假日、天气、路况、运行距离、运行时间、排班信息七个因素的影响。在文献［6，10］中，道路因素是道路分段的结果，本文考虑客运车辆运行特点，车辆路线不固定，且在高速上运行的路程是在城市道路中的数倍，因此改进道路因素为道路分类因素，并加入城市实时路况，提出基于SVM的到站预测模型，表达为式（1），式中符号含义如表1。函数关系f即为SVM算法运算。

表1 符号含义表

r：道路类型。城市道路受道路状况的影响较大，主要表现在道路的车道数、道路等级、机动车辆数、非机动车辆数及行人情况等。因此，在城市道路上客运车辆的行驶速度在很大程度上取决于道路速度。而上了高速道路之后，在无特殊情况发生时，车辆速度取决于司机的驾驶，并且必须在高速公路规定的下限速度和上限速度之间，客运班车一般为85km/h。r∈{0，1，2，3，4}，0～4分别对应高速公路、快速路、主干路、次干路、支路五级。

h：是否为大型节假日。在城市道路上，道路速度一般在工作日早晚高峰期比较慢，其余时间较稳定；而在高速公路则正好相反，特别在2012年国务院批准交通运输部等部门提交的重大节假日免收小型客车通行费实施方案后，每逢国家法定节假日高速公路入口出口处、服务区都有集中的拥堵，严重影响了道路的畅通水平。另一方面，客运班车为了缓解乘客的集中出行需求，往往会采取加班的措施。h∈{0，1}，其中0否1是。

w：天气。天气状况对道路交通的影响是有目共睹的。冰雪、大雾天气高速会封道；大雨天气造成道路阻力系数变小，道路容易打滑，为了安全，司机都会减速小心行驶。w∈{0，1，2，3}，其中0表示晴和阴天（无雨雪），1表示小雨，2表示中雨，3表示大雨。

l：离起点的路程距离，单位为m。

t：离起点的时间，单位s。

s：路况。当道路拥堵时，道路速度往往就是车辆速度；在道路畅通时，车辆速度约等于道路速度。本文的路况信息由本文项目组提供，该结果已上线深圳市交委的微信公众号“交通在手”实时路况。单位km/h。

a：客运班车排班信息，a∈{0，1，2}，其中0表示准时发车，1表示延迟发车，2表示提前发车。

3.2 基于SVM+GA的客运到站预测模型

在实践中，支持向量机的参数确定（主要指惩罚参数c和核函数参数g）是支持向量机在应用中的一个难点。最简单的一种思想就是让c和g在某个范围内取离散值，使得最终的分类或者回归结果准确率最高的参数作为最佳的参数。国际上通用这种方法，即交叉验证（Cross Validation，CV）的方法找最佳参数。这种方法的思想就是将c和g的值进行K组（一般是平均分成K组）离散化遍历查找，一般以2的指数范围网格内进行查找，即K-CV算法。虽然采用网格搜索能够找到CV意义下的最优解，然而如果要在更大的范围内寻找最佳的参数会很费时，本文选用了一种启发式算法——遗传算法（Genetic Algorithm，GA）作为参数寻优的方法，避免了全局遍历同时能保证找到全局最优解。

遗传算法中较重要的几个步骤是选择操作、交叉运算和变异运算：

1）选择操作：选择运算把当前群体中适应度较高的个体按某种规则或模型遗传到下一代群体中。一般适应度较好的个体将有更多的机会遗传到下一代群体中。先计算出群体中所有个体的适应度的总和（式（2）），再计算每个个体的相对适应度（式（3）），即为每个个体被遗传到下一群体中的概率。

其中，Ai为第i个观测值，Fi为第i个预测值，n为预测样本的个数，MSEi为第i组参数训练出的模型的均方差值，Pi个体被遗传到下一群体中的概率。通过这样的策略，适应度较高的个体将有更多的机会遗传到下一代群体中。

2）交叉运算：遗传算法中产生新个体的主要操作过程，它以交叉概率相互交换某两个个体之间的部分染色体。本文采用了单点交叉的方法，先对群体进行随机配对，再随机设置交叉点位置，最后相互交换配对染色体之间的部分基因。

3）变异运算：对个体的某一个或某一些基因座上的基因值按某一较小的概率进行改变，也是产生新个体的一种操作方法。本文采用基本位变异的方法来进行变异运算，首先确定出各个个体的基因变异位置，然后依照某一概率将变异点的原有基因值取反。

图1为基于SVM+GA的客运车辆到站预测模型的框图。图2为遗传算法嵌入SVM的具体的流程图。

图1 SVM+GA的客运车辆到站预测模型图

图2 SVM+GA处理流程图

4 实验结果

设客运车辆刚从起始客运站出发，现要预测车辆到达目的客运站的时间，给出全程路段的预测时间。本文实例分析使用的数据来源于路线为深圳宝安福永汽车站-广州白云广园汽车站的班车GPS记录。以粤BC3008车辆为典型，该车辆所属深圳市交委客管局宝安局辖区，归属深圳市福骏通汽车运输有限公司所有，为47座的大型客车。选择该车辆作为样本主要从以下几方面考虑：1）该车辆运行线路稳定，途径新桥三路、永泰西路、广深高速、西部干道、沈海高速、广州环城高速、广园快速路、广园中路。2）该车辆的常规班车路线全程106公里，路线长度适合做研究，运行时长2～3小时，城际交通的典型，高速公路占全程的70%路程；3）深圳-广州是热门路线，不会因为客流不够而休班，车辆每天来回四趟，数据完整。4）深圳-广州的线路客运受广深高铁的冲击最大，研究该路线有利于找出挑战城际高铁的方法。

实验使用的数据为客运班车来回深圳-广州的路线中所产生的GPS记录，训练集为2015年8月、9月、元旦、春节、清明、端午路线为深圳-广州的客运班车数据，共300组，76万条记录；测试集为2015年10月同线路班车数据，共124组，32万条记录。

由于SVM的预测模型对SVM的参数选择较为敏感，本文选择了遗传算法作为参数寻优算法，兼顾准确性和高效性。在参数寻优阶段之前还需要先设置好SVM的参数取值范围和Matlab支持向量机软件包工具libsvm［7］的参数，如表2。

表2 libsvm参数表

完成SVM的参数范围取值之后进行遗传算法参数寻优，即从{2-5，2-4，…，24，25}共11个值中选取c和g本文中遗传算法的参数取值见表3。

表3 遗传算法的参数表

对比K-CV算法和GA算法的实验结果，见表3，遗传算法（GA）做参数寻优在找到最佳参数值的同时还能比一般算法K-CV节约将近一半的运算时间，同时兼顾了准确性和高效性。寻优的适应度函数是交叉验证（CV）意义下的归一化的最小均方误差（MSE，式2），结果为c=0.5，g=4。图3是利用遗传算法进行SVM参数寻优得到的适应度函数曲线，x轴代表进化代数，y轴代表适应度函数，*形曲线代表最佳的适应度函数值作为参照，+形曲线代表对应进化代数的平均适应度函数值。随着遗传算法进化代数的增大，结果越来越接近最佳值，当进化到40代左右已经找到最优解。

表4 K-CV和GA的运行时间对比

将遗传算法寻优的结果参数作为预测模型的参数，图4为10月1日从深圳出发开往广州的班车粤BC3008当天第三趟班次的结果。对比文献［6］的变量选择，模型1道路未分类而是对全程道路做了十个道路分段，模型2则是对道路做分类。结果图中，*形线为真实值，左三角线为模型1的运算结果，右三角线为模型2的结果，横坐标是距离，纵坐标是距离当天零点的秒数。

图3 适应度曲线

图4 预测结果

定量分析本文提出的模型的预测精度，对道路未分类（分段）、道路分类两种模型做了实验研究，选择平均绝对误差（Mean Absolute Error，MAE）、平均绝对误差百分比（Mean Absolute Percentage Error，MAPE）和均方根误差（Root Mean Square Error，RMSE）作为评价指标，公式为式（4）～式（6），定义Ai为第i个观测值，Fi为第i个预测值：

根据公式计算两种模型的上述三个指标，结果如表5。

观察结果图4、表4和表5，可以得到以下结论：

1）观察图4，可以看出两种方法都能对客运行驶情况做出预测，本文的预测是在车辆出发时开始的。用道路分类代替道路距离分段的方法效果更贴近实际情况。

表5 三种模型的评价指标结果

2）观察图4的右三角形线（即道路分类预测），它与*形线（即实际情况）的拟合更出色，基本上是跟随*线的趋势。距离在40000m～60000m之间这段在整段过程中看来有不连续，是由于这段路程是在夹在两段高速路程中间的一段城市道路运行，因此能明显地发现这段路程的行驶特征不同于其前后的高速路段。证明道路分类这种做法是有效的。并且，由于高速道路的情况比起城市道路更为简单，因此在高速上的拟合效果更为出色。

3）观察图4的左三角行线（即道路未分类），它在全程看来线性特征很明显，这和实际行驶的总体趋势是一致的，说明这种方法能挖掘出目标的总趋势。但是这种方法由于只是对道路做了距离分段，而不是抓住道路的特征，因此，无法区分出不同路段的行驶特点。

4）观察表4，一般算法K-CV从单个初始值迭代求最优解，遗传算法从串集开始搜索，覆盖面大，利于全局择优，从本质上看，遗传算法变K-CV算法中的以点为单位寻优为以面为单位寻优，节约了50%的模型参数寻优时间，不仅保证了预测的准确性，同时减少了训练时间，提高了预测效率。

5）观察表5，本文从平均绝对误差、平均绝对误差百分比和均方根误差三个指标评价。模型2的三个指标均优于模型1，说明本文提出的变量选取更适合于客运车辆。一般人对于2.5h的行程，预测误差平均在300s左右是能接受的，说明本文做出的改进是可行的。

5 结语

综上所述，本文主要解决了以下三个问题：1）几乎所有研究对道路因素的把握都只考虑了路段的影响，而没有分析道路类型带来的影响。对路段的分析往往会导致研究太细，使影响只对在该路段上行驶的车辆，当研究车辆、路线范围扩大之后，就会失去一般性，而使已针对固定车辆和路线的训练好的模型变得无效。本文选择了使用道路类型替代道路分段，得到更适应客运车辆到站预测的模型。2）少有研究会考虑道路况对目标车辆行驶的影响，即使加入车流因素，也只粗略地停留在时段变化上。本文采用的路况信息是实时的路况。3）多数SVM建模方法的论文并没有指出如何进行模型的参数寻优，以更有效、高效地工作。本文利用遗传算法很好地解决了模型参数寻优的问题。

在以后的工作中，一方面考虑将司机因素、突发事件等因素加入模型中；另一方面，在研究中还可以考虑数据融合，参考城市计算领域的成果和经验，将看起来不相关的数据也融合在一起，兴许可以发生神奇的反应，得到惊喜的成果。

［1］Dihua Sun，Hong Luo，Weining Liu，et al.Predicting Bus Arrival Time on the Basis of Global Positioning System Data［J］.Transportation Research Record Journal of the Transportation Research Board，2007，2034（2034）：62-72.

［2］L Vanajakshi，SC Subramanian，R Sivanandan.Travel time prediction under heterogeneous traffic conditions using global positioning system data from buses［J］.IET Intelligent Transport Systems，2009，3（1）：1-9.

［3］陈国俊，杨晓光，刘好德，等.基于动态百分位行程时间的公交到站时间预测模型［J］.公路交通科技，2009，26：102-106.

CHEN Guojun，YANG Xiaoguang，LIU Haode，et al.Journal of Highway and Transportation Research and Development［J］.，2009，26：102-106.

［4］于滨，杨忠振，林剑艺.应用支持向量机预测公交车运行时间［J］.系统工程理论与实践，2007，27（4）：160-164，176.

YU Bin，YANG Zhongzhen，LIN Jianyi.Bus Arrival Time Prediction Using Support Vector Machines［J］.Systems Engineering-Theory&Practice，2007，27（4）：160-164，176.

［5］Thissen U，van Brakel R，de Weijer A P.Using support vector machines for time series prediction［J］.Chemometrics and Intelligent Laboratory Systems，2003，69（1）：35-49.

［6］谢玲，李培峰，朱巧明.一种动态和自适应公交到站时间预测方法［J］.计算机科学，2015，42（1）：253-256.

XIE Ling，LI Peifeng，ZHU Qiaoming.Adapitive Method Of Predicting ArriveTime Of Buses onDynamic Traffic Infornation［J］.Computer Science，2015，42（1）：253-256.

［7］崔萌，张春雷.LIBSVM，LIBLINEAR，SVMmuticlass比较研究［J］.电子技术，2015，42（6）：1-5.

Cui Meng，Zhang Chunlei.The Comparison Study of LIBSVM，LIBLINER，SVMmulticlass［J］.Electronic Technology，2015，42（6）：1-5.

［8］CAI Xue-song.Collaborative prediction for bus arrival time based on CPS［J］.Journal of Central South University，2014，21（3）：1242-1248.

［9］SV Kumar，L Vanajakshi.Pattern identification based bus arrival time prediction［C］//Proceedings of the Institution of Civil Engineers-Transport，2014，167（3）：194-203.

［10］O Cats，G Loutos.Real-Time Bus Arrival Information System：An Empirical Evaluation［J］.Journal of Intelligent Transportation Systems，2016，20（2）：138-151.

Coach Bus Arrival Time Prediction Based on SVM and GA

ZHANG Xin1JIANG Jiajia2LIU Jin3
（1.Shenzhen e-Traffic Technology Co.，Ltd，Shenzhen518040）（2.School of Information，Wuhan University of Technology，Wuhan430070）（3.School of Automation，Wuhan University of Technology，Wuhan430070）

Accurate coach arrival time prediction is one of the infrastructure services in intelligent urban transportation，which helps reducing information blind-spots and optimizating coach bus schedule.An arrival time prediction model for coach bus is proposed.It has 7 features including road factors，holidays，weather，road conditions，distance，time，scheduling information.And it change straditional feature road segments to road type factor，in order to make the model more suitable for coach.Besides，this paper uses genetic algorithm to find model's optimal parameters.The experimental results of coach bus from Shenzhen to Guangzhou show that the proposed model is more suitable to predict the coach arrival time with higher prediction accuracy.

intelligent transportation，coach bus travel time，SVM，GA

U491.1+4

10.3969/j.issn.1672-9722.2017.06.011

2016年12月14日，

2017年1月22日

国家自然科学基金青年项目（编号：4140012165）资助。

张昕，男，博士，高级工程师，研究方向：智能交通系统、交通大数据分析。姜佳佳，女，硕士，研究方向：交通数据分析。刘进，男，博士，研究方向：云计算和大数据。