APP下载

一种基于多源数据的出租车分布预测方法研究

2015-04-13张晓亮陈智宏刘冬梅龚翔李俊卫王文静

交通工程 2015年1期
关键词:出租车乘客交通

张晓亮, 陈智宏, 刘冬梅,3, 龚翔, 李俊卫, 王文静

(1.交通部公路科学研究院, 北京 100088; 2.北京市交通运行监测调度中心, 北京 100073;3.北京工业大学, 北京 100124; 4.深圳市交通运输委员会, 深圳 518000)



一种基于多源数据的出租车分布预测方法研究

张晓亮1, 陈智宏2, 刘冬梅1,3, 龚翔4, 李俊卫1, 王文静1

(1.交通部公路科学研究院, 北京 100088; 2.北京市交通运行监测调度中心, 北京 100073;3.北京工业大学, 北京 100124; 4.深圳市交通运输委员会, 深圳 518000)

为了改善传统的交通需求预测方法以居民出行OD调查为基础,得出的交通分布结果受样本量等因素影响,预测值与实际值相差较大的问题,本文提出基于现有出租车GPS数据、计价器数据和电召数据的一种基于多源数据融合的出租车分布预测方法,进行出租车出行分布预测. 该方法可以根据多源历史数据估计出租车OD分布,并可通过预测未来出租车OD分布,提高预测准确率.

交通工程; 出租车; 交通分布预测; 多源数据

0 引言

出租车作为城市公共交通的重要组成部分,截至2012年底,我国北京、石家庄、大连、哈尔滨、泰州、杭州、宣城、潍坊、郑州、深圳、成都、重庆、昆明、西安、兰州15个城市,共有出租汽车204 622辆,出租车对居民的出行承担着越来越重要的角色. 近年来随着我国对出租车信息化建设的重视和投入,上述一些城市的出租车上都安装了GPS车载设备、计价器,同时大部分城市已经开展了电召服务,包括电话招车和手机招车等方式.

这些先进设备的增加丰富了出租车的运行数据采集内容,打破了传统调查数据的局限. 传统的交通需求预测方法以居民出行OD调查分析为基础,预测得出的出租车交通分布受样本量等影响,预测值与实际值相差较大. 基于现有出租车GPS数据、计价器数据和电召数据,进行出租车出行分布预测将大大提高预测准确率. 除了样本量影响的问题,在东南大学王昊等[3]提到传统的集计预测模型只考虑了载客出租车的出行量,这种方法缺乏对出租车行驶状态的全面分析,缺少空驶车辆数据,结果当然是误差很大的.

本文利用出租车GPS数据、计价器数据和电召数据,针对出租车出行, 对出租车出行规律进行分析, 建立了基于多源数据的出租车出行分布预测模型,构建基于多源历史数据的出租车分布OD矩阵, 该方法可以根据多源历史数据估计出租车OD分布,并可通过预测未来出租车OD分布,对于提高预测准确率,改进传统方法数据准确性,有很大作用.

1 出租车出行分布预测

出行发生预测可以得知对象区域各分区出行产生量和出行吸引量. 出租车从出发点到目的地移动的过程即为1次出租车出行. 出租车出行主要包括载客出行、空驶出行和停驶3种状态. 载客出行主要以乘客的需求为主;空驶出行主要以司机避免空驶,试图以最小的成本找到新乘客为主要因素;停驶分为长时间停驶和短时间停驶,一般是由于其他因素,比如司机休息、车辆故障等. 利用采集的各种数据对各种出行状态进行分析,即可进行出租车出行分布预测.

出租车出行分布量是指:分区i与分区j之间平均单位时间内的出行量,单位时间可以是1天、1周、1月、1年等,也可以是专指高峰小时. 就一对分区i和j而言,它由2部分qij、qji组成:qij为以分区i为产生点(注:不一定是出行的起点),以分区j为吸引点(不是出行的终点)的出行量;qji为以分区j为产生点,分区i为吸引点的出行量. 其中同一个分区的产生量不一定等于吸引量.qij、qji共同组成出行分布矩阵,出租车出行分布预测实际上就是由已知矩阵求未知矩阵的过程. 而在求解过程中,传统的方法是基于传统OD调查法进行计算,再通过增长系数法、重力模型等方法进行预测;本文是基于多源数据进行多种信息优化OD分布矩阵,再运用增长系数法进行出租车未来年交通分布预测.

2 数据分析与处理

2.1 数据格式

根据目前出租车信息系统已接入的数据,本文将对出租车GPS数据、计价器数据和电召数据进行分析和处理,这部分内容也是整个研究的核心组成部分,以下是这3种数据的接入格式.

1)GPS数据

表1

2)计价器数据

字段类型备注交易类型String现金,刷卡交易金额number(10)单位(001元)交易顺序号number(10)交易时间String格式:yyyy⁃MM⁃ddHH:mm:ss应收金额number(10)单位(001元)等候时间String字符串格式:HHmm行驶里程number(10)单位(01km)空驶里程number(10)单位(01km)上车天数number(10)上车时间String格式:HHmm车牌号String如:BL7781单价number(10)单位(001元)车队编号String

3)电召数据(括电话电召数据、手机电召数据等).

字段备注arrange_channel约车渠道,0电话、1网站、2手机软件arrange_type约车类型,0:即时30min内用车,1:预约30min以上assign_type派车状态,0:自动调派,1:人工指派order_type 订单状态,0无应答:无司机应招、司机应招前乘客取消;1订单完成;2司机爽约:司机没去接乘客;3乘客爽约:有司机应招后乘客不用车/由于乘客原因司机没接上乘客cancel_reason爽约原因,1、事前告知,2、事后告知,3、无告知,4、其他order_time订单生成时间passenger_name乘客称谓passenger_tel乘客电话号码use_locale用车地点,行政区,路(区域),标志物use_lon用车地点经度use_lat用车地点纬度use_time用车时间destination目的地driver_code司机服务监督卡号driver_tel司机联系电话vehicle_code车牌号create_date创建时间,默认为系统当前时间reply_time短信或电话告知乘客约车信息的时间

2.2 数据分析

在出租车交通分布预测中关键是将所有的出租车OD信息提取并与选择的交通小区对应,并累计数据,从而得到基年交通出行分布OD矩阵.

目前大部分车载GPS 都是与计价器联机的,即可以通过这些设备实现对出租车各项运营指标的实时信息收集. 可以从上面所采集的数据抽取所有出租车实时运行信息(载客、 空驶、驻车OD位置信息、时间信息等). 在实际数据中采集的GPS数据会出现部分数据错误、丢失或延迟问题,而计价器数据受设备影响也会在回传的数据中出现个别不准的问题. 因此必须对数据进行补充和校正.

电召数据采集比较全面准确,但是只是部分数据,并不是所有的乘客都是通过电召方式乘坐出租车的,所以将电召数据与GPS数据和计价器数据结合使用将大大提高整个数据的使用价值.

2.3 数据处理

1) 数据预处理

首先根据研究需要,选取1年的出租车GPS数据、计价器数据和电召数据. 分别对数据进行预处理,包括数据标准化、噪声数据剔除、属性分离归纳、属性匹配等. 此步骤的目的是有利于3种数据的有效融合. 其中,出租车GPS数据的空、重车数据要与计价器的数据的交易时间和上车时间对应,电召数据要与出租车GPS数据对应.

2) 多源数据融合

多源数据融合分3个层次,即像素级、特征级和决策级,本文研究的基于出租车GPS数据、计价器数据和电召数据的应用采用特征级融合. 常用的特征级数据融合法包括:贝叶斯法、熵法、加权平均法、神经网络法、聚类分析法、表决法等. 由于本文提取的特征属性主要集中在出租车的时间属性与地点属性上,采用聚类分析法较适用,即将3类数据进行时间属性和地点属性的聚类分析,得出一组具有一致OD属性的出租车出行数据,以备接下来的模型运算.

3 模型与方法

3.1 模型对象描述

根据大量数据统计得出停驶状态在整个出租车行业存在的比例较小,并且考虑这部分小量的数据对于出租车出行分布影响较小,本研究将不考虑停驶状态,只考虑载客、空驶和短时驻车3种状态,下面是对出租车出行状态的描述:

1) 出租车载客状态:乘客上车的地点为出发点即出行起点, 乘客下车的地点为目的地即出行终点.

2) 出租车空驶状态:上一乘客下车的地点为出发点即出行起点,下一乘客上车的地点为目的地即出行终点.

3) 出租车驻车状态:对短时间(小于1 h)驻车,驻车地点为出发点即出行起点,乘客上车的地点为目的地即出行终点.

3.2 模型构建

3.2.1 研究假设条件

1) 假设研究对象满足出行产生吸引平衡规律,即小区对出租车出行的吸引量等于该小区出租车出行的产生量.

2) 假设交通区间出行分布量与交通区发生吸引量成正比.

3) 假设交通区间出行分布量与交通区间阻抗成反比.

4) 假设当交通小区i到交通小区j的阻抗趋近于零时i到j的区间出行量,趋近于j的吸引量.

5) 当交通小区i到j的阻抗趋近于无穷时i到j的区间出行量趋近于零.

3.2.2 模型建立

1) 选定研究交通小区,如图1所示.

图1 交通小区

选取第N年的出租车数据作为基年数据,提取出租车的OD信息,列出初始现状OD矩阵表示交通小区i到交通小区j之间的交通分布矩阵,qij表示由交通小区i到交通小区j之间的交通量,O表示出发地,D表示目的地,T为研究对象小区的生成交通量. 通过将出租车GPS数据、计价器数据和电召数据的融合,可以得到完成的出租车出行现状OD矩阵,如表1所示.

按照守恒原则,∑qij=Oi,∑qij=Di,∑Oi= ∑Oi=T.

2)选用增长系数法,进行交通分布预测. 在增长系数的确定上有2种方法:一种是根据经验预设每个小区未来目标年的发生增长系数为FOi和吸引增长系数为FDi;另一种是利用N+1年的历史数据计算增长系法,这种方法是基于实际数据进行,需要列出N+1年的出行矩阵,如表2所示.

表1 基年出租车出行分布现状OD矩阵

表2 N+1年出租车出行分布现状OD矩阵

每个小区未来目标年的发生增长系数可通过历史年的数据计算:F′Oi=Ui/Oi,吸引增长系数F′Dj=Vj/Dj,如果是多个历史年份的数据则可以求得平均值,或通过线性拟合推测,求出每个小区未来目标年的发生增长系数.

3)确定了增长系数,可对预测目标年的出租车出行分布进行求解,即反复迭代使得新计算的OD矩阵收敛,主要步骤如下:

(1)

步骤3:收敛判别

(2)

(3)

(4)

其中,ε为任意给定的误差常数.

反复迭代直到满足式(3)和式(4),即求得目标年出租车出行分布矩阵.

3.3 小结

上述方法通过全面的和准确的出租车现状出行矩阵,采用增长系数法,进行目标年的出租车出行分布预测. 2种确定增长系数的方法中,第1种是传统方法常用的方法之一,第2种本文建议在有充足的历史数据情况下应用,因为这种方法来源于大量的实际数据,具有更科学和准确性的特点. 同时,在应用历史数据的情况下,实际上已经将除了交通小区本身的发生增长因素和吸引增长因素考虑进来,同时也考虑了增长函数影响的其他的无形因素,从整体上提高了方法的准确性.

4 结束语

本文在交通规划四阶段法的基础上,提出通过对出租车GPS数据、计价器数据和电召数据的融合,得到全面的和准确的出租车出行矩阵,进行出租车出行分布预测. 该方法可根据多源历史数据估计出租车OD分布,并可预测未来出租车OD分布. 对于传统方法数据的局限性,本方法增加了出租车准确的位置信息,运行状态数据及乘客意愿数据,该方法对出租车出行分布的预测更为全面、准确、方便.

利用多源数据研究交通分布预测对于利用现有信息化设备产生的数据具有巨大的意义,本文只是做了初步探讨,今后还需进行深入研究:在数据清洗中的更加全面和优化的清洗方法;迭代算法确定是否能优化;能否通过分担率来进行更全面的综合交通规划交通需求预测等等.

[1] 邵春福. 交通规划原理[M]. 北京: 中国铁道出版社, 2004.

[2] 迟光华. 基于浮动车数据的出租车运行特点分析[J]. 交通世界, 2011(20): 84-85.

[3] 王昊, 王炜, 陈峻, 等. 城市出租车交通分布预测模型[J]. 公路交通科技, 2006(23): 145-148.

[4] 贾永基. 车辆调度问题优化算法研究[D]. 上海: 上海交通大学, 2004: 1-115.

[5] 邓明君, 王铁中. 居民出行分布预测的改进模型研究[J]. 交通信息与安全, 2010, 28(3): 71-74

[6] 李旭宏. 城市交通分布预测模型研究[J]. 东南大学学报, 1997(11): 152-155.

A Taxi Travel Forecasting Method Based on Multi-source Data

ZHANG Xiao-liang1, CHEN Zhi-hong2, LIU Dong-mei1, GONG Xiang4, LI Jun-wei1, WANG Wen-jing1

(1.Research Institute of Highway, Ministry of Transport, Beijing, 100088 China;2.Beijing Municipal Transportation Operation Coordination Center, Beijng 100073 China;3.Beijing University Of Technology, Beijing 100124,China;4.Transport Commission of Shenzhen Municipality, Shenzhen 518000, China)

The traditional method of travel forecasting based on the analysis of residents travel OD survey, is often limited due to the sample size and other factors. This paper proposes a travel prediction method based on the existing taxi GPS data, pricing data, and phone-call data. The method can estimate the distribution status of the city’s taxi traffic based on historical data and can predict the distribution of taxi traffic in planning year.The forecasting accuracy rate of taxi trip distribution will be greatly enhanced.

traffic engineering; taxi; traffic distribution forecast; multi-source data

10.13986/j.cnki.jote.2015.01.009

2014- 10- 31.

交通运输部应用基础研究项目(项目编号:2013319223210).

张晓亮(1983—),女,助理研究员,研究方向为城市交通智能交通. E-mail:zxl@itsc.cn.

U 491

A

1008-2522(2015)01-47-05

猜你喜欢

出租车乘客交通
嫦娥五号带回的“乘客”
繁忙的交通
乘坐出租车
最牛乘客
小小交通劝导员
凭什么
车上的乘客
高铁丢票乘客索退款被驳回
开往春天的深夜出租车
李书福炮轰出租车