APP下载

基于数据挖掘的市民出行公交线路预测研究

2017-04-22张聪聪李拥军

现代计算机 2017年8期
关键词:公交线路公交数据挖掘

张聪聪,李拥军

(1.华南理工大学数学学院,广州 510006;2.华南理工大学计算机科学与工程学院,广州 510006)

基于数据挖掘的市民出行公交线路预测研究

张聪聪1,李拥军2

(1.华南理工大学数学学院,广州 510006;2.华南理工大学计算机科学与工程学院,广州 510006)

近年来一些学者大多利用海量公交卡信息对整体客流进行预测,并无针对具体乘客在公交线路上的出行做出预测。基于数据挖掘技术,以广东省部分公交线路上的历史公交卡交易数据为基础,采用滑动窗口模型构造训练样本和测试样本,借助随机森林算法,对市民在公交线路上的出行进行预测研究,并用精度、召回率以及F1值进行评估,证明模型的可行性。

数据挖掘;公交卡信息;随机森林;市民出行预测

0 引言

随着我国经济增长以及城镇化率的不断增加,市民出行需求不断增长,同时交通拥堵也越来越严重。公交卡历史交易数据中存在大量乘客出行的模式和规律,对固定乘客的历史出行行为进行分析和挖掘,预测乘客在固定线路上的未来出行方式,为广大乘客提供信息对称和安全出行环境具有重要的指导意义。目前投入使用的公交卡多用于公交企业的收费管理上,其中蕴藏的很多信息都未被发掘。本文将数据挖掘技术运用于公交卡信息库,以广东省部分公交线路的历史公交卡交易数据为建模数据,将市民出行线路选乘问题转化为数据挖掘中二分类问题,对市民出行公交线路进行预测。

1 公交卡数据仓库

拥有大量的可用数据是进行数据挖掘的前提,因此必须建立数据仓库,数据仓库与数据库不同,它是面向主题、集成的、与时间相关的可修改的数据集合,将采集的公交信息经过清理、整合和转换后汇总,将这些数据分类存储在不同的主题数据库中形成公交卡信息数据挖掘的数据仓库,其数据表如表1、表2所示。

表1 乘客刷卡交易数据表

表2 公交线路信息表

2 公交卡信息库数据挖掘过程

实验数据为广东省五个月部分公交线路公交卡用户历史数据,将市民出行线路选乘问题转化为数据挖掘中二分类问题,采用一种滑动窗口的模型样本构造方法构造特征属性,进一步对模型做出训练等。

2.1 基于滑动窗口的样本构造

在对公交卡交易数据处理建模的实际问题中,为了避免构造的训练集和测试集的数据分布不一致的问题,受经典数据流处理模型滑动窗口的启发,本文提出采用一种基于固定大小的滑动窗口的样本特征集抽取方式,实验数据为2014年8月1日至2014年12月31日五个月广东省部分公交线路公交卡用户历史交易数据,使用139天固定时间窗口内乘客历史行为记录构造样本的特征属性,未来7天乘客固定公交线路上的出行情况确定样本的类别标签,通过多次滑动窗口,覆盖不同的时间区间来构造多份训练样本。滑动窗口设计如图1。

图1 滑动窗口样本设计方法

每个时间窗口内,从乘客历史出行行为特点的特征属性类、不同线路特点的特征属性类、乘客在具体公交线路上的交互特征属性类、乘客公交卡不同类型特点的特征属性类、不同乘客类型在具体公交线路上的行为规律的交互特征属性类、乘客公交卡发卡地点的特征属性类等几个方面设计特征属性。

(1)在每个窗口的样本特征属性,从以下几个方面进行具体设计:

设计乘客(每一个card_id)历史出行行为特点的特征属性类:

①所有公交线路上乘客行为的时序类特征:针对乘客最近在所有线路上的乘车情况的统计,对乘客乘车规律进行描述,距离时间越短,对未来出行的影响越大,随着历史交易时间距离越长,影响作用越来越小,提取的区间粒度越来越大,统计每个乘客最近12小时内、最近1、3、7、14、28、56、84、112、139天内在所有公交线路上乘车总次数。

②乘客时间类特征:给定时间窗口内乘客活跃程度的描述。乘客平均乘车间隔天数,乘客最近公交刷卡交易时间、用户的活跃小时数、出行次数大于1次的周数、行为次数大于2次的周数、平均刷卡时间间隔天数、平均每周刷卡次数。

③乘客出行变化的比值趋势类特征:考虑到乘客历史行为的变化趋势影响,乘客行为次数大于2次的周数占比、乘客最近1、2、4次刷卡数在最近2、4、8次刷卡数占比、周末行为次数在总行为次数占比、工作日行为次数在总刷卡行为次数占比等,此类特征能对乘客的乘车规律进行刻画。

④乘客不同类别属性的特征:不同类别的乘客对未来出行有影响,上班族出行有时间规律,老人出行受其他因素影响较大,将7种不同公交卡类型映射为不同的特征。

(2)设计不同线路特点的特征属性类:

①线路时序类统计特征:不同线路的历史客流量对乘客的出行存在影响,对每条线路分别在最近12小时、最近1、3、7、14、28、56、84、112、139天的客流量进行统计,给定的时间窗口内周末、工作日乘客总客流量统计,周末及工作日平均、历史最大客流量统计。

②线路历史乘坐量的变化趋势类特征:历史客流量变化对乘客的出行存在影响,对各线路最近1、2、4周在最近2、4、8周内客流量的比值构造特征。

③公交线路编码特征:不同线路所在地以及每天线路的站点数对乘客选择未来出行线路存在影响,主要有不同线路特征、每条线路站点数特征。

(3)设计乘客在具体公交线路上的交互特征属性类:

①乘客对有历史乘坐行为的每条线路的时序统计类特征:对乘客在每条具体线路上的历史乘坐的活跃度进行刻画,固定时间窗口内对乘客在有历史乘坐行为线路上最近12小时内、最近1、3、7、14、28、56、84、112、139天中的公交交易行为进行统计,记录乘客乘坐最大次数、周末乘坐次数、工作日乘坐次数。

②乘客对有历史乘坐行为的每天各线路的时间类特征:乘客在有历史乘坐行为上最近的乘坐时间间隔、给定时间窗口内乘客有乘坐行为的时间间隔、乘客有乘车行为记录的天数(活跃天数)以及活跃小时数、返乘最小天数、平均返乘天数等特征。

③乘客对历史乘坐线路乘坐行为比值趋势类特征:最近1周乘客搭乘具体线路次数在最近2周内搭乘行为数占比、乘客在线路子集中活跃小时数在线路全集中活跃小时总数占比、乘客在周末乘坐次数在总乘坐次数中占比、工作日乘坐次数在总乘坐次数中占比等特征。

(4)设计乘客公交卡不同类型特点的特征属性类:

①不同类型乘客时序统计类特征:不同群体乘客出行规律不同,对不同乘客类型的出行规律进行刻画,将不同乘客类型在所有线路上最近12小时、最近1、3、7、14、28、56、84、112、139天内的周末和工作日的行为次数作为特征。

②不同类型乘客趋势类特征:反映不同群体行为变化趋势,如老年群体会随着季节变化出行规律而发生变化、学生群体会随着寒暑假的变化出行规律发生变化,对不同群体人群最近1、2、4周在最近2、4、8周内出行量占比进行统计。

(5)设计乘客公交卡发卡地点的特征属性类:

①不同地点乘客时序类统计特征:不同地点乘客的出行规律存在差别,分别对各地点乘客在最近12小时、最近1、3、7、14、28、56、84、112、139天内行为总次数进行统计(按周末和工作日分别统计)。

②不同发卡地乘客的出行趋势类特征:不同地点乘客在最近1、2、4周在最近2、4、8周内出行量占比统计,周末出行次数在总次数占比。

③不同地点乘客编码类特征:不同公交卡发卡地的乘车规律以及存在的线路都不同,为了在样本中体现这些信息,将20个不同的公交卡发卡地点映射为特征。

具体的样本特征框架图,如图2所示。

2.2 随机森林算法预测

随机森林(Random Forest)是由统计学大师Breiman在2001年提出的一种基于Bagging(Bootstrap Aggregating)思想的分类树算法[1],其基分类器是决策树,它利用Bootstrap重采样的方法从原始样本中抽取多个样本生成森林中的每棵决策树,最后通过对组合森林中每棵树的预测结果采用多数投票的方式得出最终的分类结果。随机森林模型的训练过程中,通过在样本的选择以及决策树内部结点分裂的特征属性的选择两个方面引入随机性来降低单棵树分类器存在较高方差的问题,能对噪声和异常值有很好的容忍度,同时能够很好地对特征属性的多重共线性进行处理,不容易出现过拟合的情况。

构造的样本存在正负类不均衡的情况,负类样本(乘客在未来固定时间段内在固定公交线路上无出行行为)过多,处理问题的策略包括过抽样、欠抽样、阈值移动和组合技术等[2],我们采用对负样本进行欠抽样的方法。在后续的试验中,采用正负样本比1:3的抽样方式来生成模型的训练样本。

图2 样本特征框架图

随机森林能够对样本的每个特征重要性进行评估[3],通过按重要性排行,过滤低重要性的特征属性,对top20特征属性的重要性展示如图3。样本对应特征属性的说明如表3所示。

图3 随机森林特征重要性展示

表3 前20重要性特征

根据选取的特征,用随机森林算法来进行初步训练。

2.3 数据挖掘结果分析

根据建立的模型,我们来分析乘客出行行为命中的时间分布,结果如图4所示,可以看出,乘客在某条公交线路上的最后乘坐时间在56天内时,对乘客未来的出行有较大的影响力,所以在模型建立时,为了获得更高效的精简数据,我们尝试过滤掉过去56天没有出行行为的样本。过滤后总训练样本个数为11879368,其中正样本个数为1631236,正负样本比为1:7.3,我们对负样本抽样构造正负样本比为1:3的训练样本。对构造后的样本和特征属性进行选择后,我们尝试对随机森林模型的参数进行探究,生成鲁棒性好的模型。

随机森林要调节的主要控制两个参数:

(1)森林中树的数量n_trees

(2)训练每棵树抽取的特征数目M

图4 乘客行为命中时间分布图

图5 样本OOB错误率

由于随机森林在训练模型时的随机性,为了避免偶然性的发生,在模型构造中,对样本随机抽样时我们随机构造了多份样本,采用抽样后存在差异的训练样本训练多个随机森林模型分别在测试集合上进行试验,最终采用多数投票的方式来得出最终的预测结果,得到最优试验结果如表4。

表4 随机森林试验结果

可以看出,预测的结果比较可观,这对为广大乘客提供信息对称和安全的出行环境具有重要的指导意义。

[1]Breiman,L.Random Forests[J].Manchine Learning,2001,45(1).

[2]Han J,Kamber M著.数据挖掘概念与技术[M].范明,孟小峰译.北京:机械工业出版社,2004.

[3]Genuer R,Poggi J M,Tuleau-Malot C.Variable Selection Using Random Forests[J].Pattern Recognition Letters,2010,31(14):2225-2236.

[4]李航.统计学习方法[M].北京:清华大学出版社,2012.

[5]戴霄,陈学武,李文勇.公交IC卡信息处理的数据挖掘技术研究[J].交通与计算机,2006,01:40-42.

[6]胡郁葱,梁杰荣,梁枫明.基于IC卡数据挖掘获取公交OD矩阵的方法[J].交通信息与安全,2012,04:66-70.

Research on Public Transit Route Forecast Based on Data Mining

ZHANG Cong-cong1,LI Yong-jun2
(1.School of Mathematics,South China University of Technology,Guangzhou 510006;
2.School of Computer Science&Engineering,South China University of Technology,Guangzhou 510006)

In recent years,some scholars mostly use mass transit card information to forecast the overall passenger flow,but there is no prediction about specific passenger who travels in the bus line.Based on the data mining technology,explores and predicts the travel patterns of the citizens on the basis of historical bus card transaction data of some bus lines in Guangdong Province,and uses the sliding window model to construct the training and test samples.Moreover,uses random forest algorithm,proves the feasibility of the model by the precision,recall rate and F1 value.

Data Mining;Bus Card Information;Random Forests;Prediction of Public Travel

1007-1423(2017)08-0003-05

10.3969/j.issn.1007-1423.2017.08.001

张聪聪(1989-),女,河北石家庄人,硕士,研究方向为大数据分析与云计算环境

2016-12-27

2017-03-10

国家自然科学基金(No.61370228)、广东省重点科技项目(No.2014B090903008、No.2015B010109006、No.2015B0101280 08)

李拥军(1968-),男,湖南人,教授,博士生导师,研究方向为计算机网络协议、云计算等

猜你喜欢

公交线路公交数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
一元公交开进太行深处
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
等公交
基于GIS的公交路线优化设计
基于GIS的公交路线优化设计
软件工程领域中的异常数据挖掘算法
最美公交线路上的“最美司机”