建设具有“公交优先”特色的上海智慧交通云服务平台方案
2018-07-25费晔
费 晔
(上海久事(集团)有限公司 上海 200122)
0 引 言
2010年以来,上海综合交通体系发展坚持“十二五”规划提出的“四个更加”要求,即更加注重“交通引导、管理优先、服务提升和城乡统筹”的基本思路,交通运输服务能力持续提升,交通综合管理水平逐步提高、交通设施建设有序推进,总体上,“十二五”规划目标推进有序,上海“枢纽型、网络化、功能性”综合交通体系架构已经基本形成[1]。
然而,作为一个国际性、特大型的城市,上海在交通发展中还有许多面临的困难和问题,我们试图依托于互联网+、云计算、大数据等新一代信息技术,来解决一些可提高和完善的交通问题,例如:提升交通运营企业的运行效能、做好对公众的交通综合信息服务、完善交通主管部门的科学决策等。
1 研究的内容
目前上海的交通信息服务平台呈现零散化和各自为政的特点,无法提供“一站式、全覆盖、个性化”的交通综合信息服务。
一方面,上海本土的政府和企业推出了不少围绕交通信息服务的软件产品,如“上海公交”、“地铁指南”、“智行者”、“乐行天下”、“上海停车”等APP应用[2]。另一方面,许多互联网企业都加入了“互联网+交通”的新业态,例如,针对自驾车服务的有高德地图、百度地图;针对网约出租车业务的有神州租车、易到租车、首汽租车等;针对定制公交的有嗒嗒巴士、小猪巴士等;针对骑行交通的有摩拜单车、OFO共享单车等;还有提供综合出行服务的滴滴出行。
但是,这些百家争鸣的交通信息服务平台都是零散化和各自为政的,无法向公众提供一个统一的信息服务入口,获得多种信息服务。另外这些APP应用大部分都提供单独的、非联动的交通信息服务,既缺乏交通运营企业准确的业务数据,也没有形成完整的出行链服务,而且基本没有提供针对公众定制化的公共交通实时性服务[3]。总体来说就是现在市场上的APP应用还无法提供“一站式、全覆盖、个性化”的交通综合信息服务。
2 项目总体框架
参照真实的上海交通的运输场景,我们需要结合多种先进的技术,设计出明确的云平台框架模型。
2.1 建设一个上海城市级别的智慧交通云服务平台
坚持“开放、互联、共享”的理念,推进落实“公交优先”战略,在“十三五”期间构建一个面向公众、企业和政府服务的上海智慧交通云服务平台(以下简称云平台)。云平台现阶段将由“一中心、一应用、一系统”组成,即上海综合交通大数据共享中心、上海智慧出行服务移动应用、上海交通监管和决策服务系统。云平台有如下特点:
(1) 交通大数据资源的统一管理。云平台将整合、汇聚、接入道路交通、公共交通、对外交通及其他行业的数据资源,并对这些大数据进行统一维护、处理,使其达到可发布、可共享的数据规范要求[4]。
(2) 交通出行服务更具精准化、智能化。云平台基于企业运营数据、道路通行数据、客流分布数据等交通大数据的分析,可以由系统自动形成多个优化的出行规划方案,并且提供的交通信息服务更加精准可靠。
(3) 更加符合监管精细化、决策科学化。云平台可以采集到最原始、最小颗粒度的交通数据,通过这些数据所构成的监管数据能反映出真实的交通现状,而且数据都可以溯源。同样基于这些数据的分析、比较、模拟等,也使得政府做出的决策更科学。
2.2 “一中心、一应用、一系统”的功能定位
2.2.1 上海综合交通大数据共享中心的功能定位
(1) 综合交通大数据共享中心(以下简称大数据中心)是云平台的大数据储存载体,它既储存城市道路、公共交通、慢行交通、停车、高速公路、对外交通等交通领域的数据,也储存通过数据交换等方式而来的公安、气象、环保、旅游、住建、安监、规划、测绘、电信等行业数据。
(2) 大数据中心在对数据的处理和分析上突出“公交优先”原则,即优先考虑对公共交通两网融合、地面公交线网优化、公共交通信息服务等方面的数据支撑。
(3) 大数据中心具有开放、共享、可流通的特性,在规则允许下,可以向政府其他非交通管理部门、企业等共享和交换数据,以此推动全社会的交通数据分析、数据增值等应用。
(4) 大数据中心与其他交通数据中心既有联系又具有不同的定位。目前上海已有两个交通数据中心,一个属于上海交通委员会信息中心,另一个属于上海交通信息中心。上述两个交通数据中心和将建的云平台中的大数据中心的定位和关系如表1所示。
表1 交通数据中心和云平台中的大数据中心的定位和关系
根据表1得知,云平台的主要汇聚数据资源和系统定位,与其他两个数据中心有所区别,目的为避免重复建设,共享数据资源,三个数据中心之间本着开放、互联和共享的模式共同发展[5]。
2.2.2 上海智慧出行服务移动应用的功能定位
打造代表上海的智慧出行服务移动应用,即智慧出行APP。
(1) 智慧出行APP是一个充分体现“公交优先”的移动应用,它将首先为用户推荐公共交通的出行方式,并且可以获得公共交通运营企业的实时运营数据,为用户计算出准确的出行时间和费用。这是智慧出行APP与类似滴滴、百度、高德等互联网应用的区别所在,它可以和交通运营企业提供的运营服务结合得更加紧密,因此提供的信息服务更加精准可靠。
(2) 智慧出行APP可以快速拥有用户数量优势,这些用户数来自于上海公共交通卡、沪通卡(ETC)的持有者,这部分持有者的日平均活跃数在近500万。因此,我们在初期就可以通过制定营销策略来争取这些持卡者成为APP用户,后期通过自身核心业务服务和其他衍生的、丰富的关联服务,来增加用户粘性,打造智慧出行服务的特色模式。
(3) 智慧出行APP是一款“一站式、全覆盖、个性化”的移动应用产品,即公众可以通过一个统一的访问入口去了解到各类交通综合信息服务,体现“一站式”功能;公众除了了解出行的交通信息外,还需要了解目的地周边的商业、办公、餐饮、娱乐等信息,并且能完成线上预定、线上支付等,这体现了“全覆盖”功能;公众可以获得个人定制的交通信息服务,如提供不同时耗、不同费用和不同舒适度的多个出行路径的选择,多种交通方式换乘的路径诱导,针对自己的出行计划设定消息提醒等,这体现了“个性化”功能。
2.2.3 上海交通监管和决策服务系统的功能定位
(1) 上海交通监管和决策服务系统(以下简称监管决策系统)为交通主管部门提供上海综合交通信息的监管服务,全面掌握上海所有的交通运行情况,可以基于交通大数据进行综合分析。
(2) 监管决策系统为交通主管部门的科学决策提供数据支持,如交通规划和交通政策的辅助支持,公共交通线网优化的决策支持,综合交通模型建设和应用支持等。
(3) 监管决策系统为交通主管部门在发生重大事件时提供应急处置能力,通过系统可实现相关部门的协同管理,政企联动指挥,应急预案的响应和演练等功能。
3 云服务平台系统总体设计实现
3.1 交通大数据共享中心
1) Linux系统安装 一般使用开源版的Redhat系统——CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。例如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。
2) 分布式计算平台/组件安装 目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
使用开源组件的优点:(1) 使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方);(2) 开源组件一般免费,学习和维护相对方便;(3) 开源组件一般会持续更新,提供必要的更新服务,当然还需要手动做更新操作;(4) 因为代码开源,若出bug可自由对源码作修改维护。
分布式集群的资源管理器一般用Yarn(Yet Another Resource Negotiator)。常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询,但效率略低,Hbase可以快速、近实时读取行[7]。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务,Yarn和Hbase需要它的支持。Impala是对hive的一个补充,可以实现高效的SQL查询[7]。ElasticSearch是一个分布式的搜索引擎。针对分析,目前最火的是Spark,此处忽略其他,如基础的MapReduce 和 Flink。Spark在core上面有ML lib,Spark Streaming、Spark QL和GraphX等库,可以满足几乎所有常见数据分析需求[8]。
值得一提的是,上面提到的组件,如何将其有机结合起来,完成某个任务,不是一个简单的工作,可能会非常耗时。
3) 数据导入 数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台,一般主要导入到Hive,也可将数据导入到Hbase。
4) 数据分析 数据分析一般包括两个阶段:数据预处理和数据建模分析。
数据预处理是为后面的建模分析做准备,主要工作是从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL、Spark QL和Impala[9]。
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。如前面所提到的,这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面[10-11],调用比较方便。
5) 结果可视化及输出API 可视化一般是对结果或部分原始数据做展示。有两种情况,行数据展示和列查找展示。在这里,要基于大数据平台做展示需要用到ElasticSearch和Hbase。Hbase提供快速(ms级别)的行查找。ElasticSearch可以实现列索引,提供快速列查找。
3.2 上海智慧出行服务移动应用和上海交通监管和决策服务系统
上海智慧出行服务移动应用和上海交通监管和决策服务系统都体现在上海智慧出行移动APP上。从图1可以看出,整个上海智慧出行APP可以分成三个模块,第一个模块主要用来实时显示线路界面,输入需要查找的出行线路。比如输入11号线,用户站在江苏路在等待11号线的到来,在开启了定位之后,界面上就会显示从11号线第一站到最后一站,每一辆地铁所在的位置,这样用户就可以准确地知道自己还有几分钟可以上车之类的信息。当用户查询的线路发生事故,比如11号线晚点5 min之类的会在第一模块的头部展示出来,并且在出行线路底部还会实时地展示上海市的天气情况以及穿衣指导。
图1 上海智慧交通移动端框图
第二部分是线路查询,输入需要到达的目的地,系统会接入谷歌地图和百度地图,用户可以选择自己信赖的地图,然后由第三方接口提供数据。
第三个部分是上海实时交通消息,以整张地图的形式展现,比如中环路距离李子园出口300 m的第一条车道发生交通事故,预计通行时间为5 min,用户可以实时进行查询。
以上所有的实时信息都是根据大数据平台进行数据分析,交通监管部门监管和决策系统处理之后发布的数据。
4 结 语
上海市智慧交通出行总共有数据大平台、智慧移动APP和交通监管和数据决策服务系统三个部分组成。大数据平台用来对各种移动数据进行收集,将数据收集之后传给交通监管和决策服务系统,再进行分析之后展示在智慧出行服务移动应用上。整个系统为上海用户的出行提供了极大的便利。