城市计算:寻找出租车轨迹玄机
2012-04-29陈琼
陈琼
数万辆出租车几个月内的行驶轨迹数据汇集到一起,能有什么用?郑宇博士在做的研究,就是要找到其中的玄机。
2006年7月,刚刚在西南交通大学拿到博士学位的郑宇从成都来到北京,顺利通过了微软亚洲研究院(MSRA)的各种测试环节,成为MSRA的一名研究员,由此开始了他一直有着浓厚兴趣的轨迹数据研究。
那一年,中国基于地理位置信息的商业服务和应用还处于萌芽阶段,移动互联网更是只有朦胧的轮廓,郑宇所在的研究小组并没什么特定的应用型研究方向,他甚至还琢磨过候鸟迁徙轨迹,并为此做一些数据挖掘和分析。但也恰恰是那个时期的计算模型和算法积累,为其日后的研究课题做了扎实的铺垫。
后来有一天,郑宇看到了一组数据,并深感惊讶:在2006年,北京市区道路内每天的平均拥堵时间,竟高达11小时。而很多国内核心城市的规划者们一直相信,通过新建道路、大力兴建和提倡采用公共交通系统、加强交通法规监管等等途径,是治疗城市交通拥堵顽疾的“良药”。而除了这些猛药,还有其他办法吗?这个问题引发了郑宇的注意和思考:能否借助城市交通体系内的某些轨迹数据分析,为交通状况的改善做些辅助性的支持和贡献?一个极具普遍性和代表性的样本群体和数据载体——出租车,进入了他的视野。
下一位乘客
据郑宇提供的数据:北京市目前有约6.7万辆的运营出租车,这个数字能在全球排到第4位,位居墨西哥城、曼谷、东京之后,而在纽约之前;北京市市民采用出租车的出行比例约为4.2%。有接近一半的北京出租车中,已被监管部门植入了GPS芯片,该芯片不是给司机用的,而主要是为出租车公司的调度和管理部门提供呼叫服务和监管所用。这些GPS芯片会定时将其位置信息传至服务中心,由此汇聚而成大规模的出租车移动轨迹数据。
郑宇选取了北京市3.3万辆出租车在2009年和2010年,每年的3月~5月间所产生的所有轨迹数据,研究就基于这些海量数据展开。在这些数据背后,不仅可以客观表征当前城市道路上的交通流量,同时也能体现出一名普通的乘客在城市中从A点到B店的移动路线。
而在这些数据面前,则是现实中的种种问题:很多北京人抱怨打车难,这种抱怨无论对乘客还是对出租车司机而言,都同样存在——早晚高峰时,人多车少,街边四处是招手的乘客;平常时段,车多人少,路上随处可见空载出租车。
郑宇课题小组的研究首先就从解决这些问题入手。围绕这些数据,郑宇的小组首先将乘客的打车行为抽象成一个乘客移动模式,同时,通过对海量数据进行机器学习,对出租车载客、上客、下客的整个过程也抽象为一个出租车揽客行为模式。直白地说,就是分析每个路段上出租车揽客行为,把众多的数据集合到一起,计算出每个路段上乘客打到空车的概率。
通过分析乘客的移动模式和出租车司机揽客行为模式,郑宇所做的这项研究可以向出租车司机推荐更有可能迅速招揽到乘客的地点,并向乘客推荐更容易找到空驶出租车的地点。此项结果借由“停车地点侦测算法”以及出租车运行轨迹数据来获得(以概率代表),将此输入一个概率模型后,根据出租车司机提出推荐请求的时间和地点,该系统还可以评估某个停车待客地点可能带来的利润。
据郑宇介绍,这套面向乘客以及出租车司机的推荐系统,已经经过了1.2万辆出租车在110天产生的轨迹数据验证。其中针对乘客的“打车指南”系统,还被郑宇挂到了MSRA的内网上,并且有不少同事已经是其忠实用户。由于采用了机器学习的算法,这套系统给出的推荐是一种不断学习的结果,而且出租车也被作为移动传感器来感知路面流量,这样的思路应用在针对出租车司机的“揽客推荐”系统中,还演化成了一个路线设计功能,在这里,大量的轨迹数据结合在一起,从中可以分析得出一条最为优化的路线推荐给出租车司机。
一座城市级别的计算
其实,围绕出租车轨迹数据所设计的推荐系统仅仅只是郑宇研究课题的一部分,城市计算(Urban Computing)才是其全貌。
在该领域,郑宇通过分析市区运营出租车的GPS行驶轨迹,探测城市规划的缺陷,并验证当前实施的城市规划改善成效。由于他所采集的出租车轨迹数据为两个自然年度内的同期数据,所以研究结果的对照性更加直观,比如城市内新建的某条道路和某条地铁线路,对周边交通状况的改善等。
在研究方法上,郑宇所领导的研究小组将北京市区分隔成了若干个有集中性特点的小型区域,他认为,城市居民的出行往往有很明确的目的性,有比较固定的线路,而所有的线路总是以这些小型区域为端点。由此,再结合出租车的轨迹数据信息,来分析找出不能很好连接的两个区域。
而即便在出租车行驶中并没有减速的情况,仍然会有线索表明城市规划的潜在问题。比如,出租车司机可能会在从A点到B点的线路中,选择绕行而非直接抵达,这段多出来的距离往往表明,司机很可能知道这是AB之间最快的一条路线。
郑宇设计的算法能够直观地揭示出某两个区域间的路网设计问题,这将能为城市交通的规划和设计者提供较为准确的参考建议。在某些情况下,某些区域内出现的交通瓶颈现象,往往并不是这些区域本身的道路设计问题。比如人们必须通过区域2才能从区域1到达区域3,那么更好的解决之道,是直接打通区域1和区域3,而非拓宽区域2内的道路。
当然,像郑宇他们所做的研究只是城市计算庞大课题的冰山一角,作为城市中海量数据的其中一个载体,出租车轨迹数据所映射出的现实,更多集中于交通层面。而且,这些轨迹数据的采集过程中,出租车本身也已被抽象成为了一个个散落分布在城市系统中的传感器。