基于云存储的城市交通大数据可视化系统
2021-01-20张健钦王家川石睿轩
张 昊 张健钦 王家川 石睿轩 陆 浩 张 安
(1、北京建筑大学测绘与城市空间信息学院,北京102616 2、北京市交通信息中心 综合交通运行监测与服务北京市重点实验室,北京100161)
近年来,随着卫星定位技术、LBS 技术以及互联网的不断发展,位置数据被以各种方式收集,交通出行大数据呈爆发式增长。如何高效存储与管理交通大数据、解决交通数据多结构化难题已成为政府管理部门亟待解决的重要问题[1]。
1 关键技术
基于Hadoop 的分布式存储技术:
HDFS(Hadoop Distributed File System)是Hadoop 抽象文件系统的一种实现。它可以与本地系统集成并且可以通过Web 协议来操作[2]。在HDFS 中存储的文件分布在每一台集群计算机中,同时自动创建多个备份防止数据丢失。其设计目标为存储超大体积的文件,并且采用流式访问方式读取海量数据。其数据读取流程如图1 所示。
图1 HDFS 数据读取流程
HBase 以表的形式存储数据,数据存储逻辑模型如表1 所示。HBase 与NoSQL 数据库类似,HBase 由Row Key 作为检索记录的主键表中的每个列,都归属于某个列族,每个列是由名为单元格(cell)的最小存储单元组成。
表1 HBase 数据存储逻辑模型
2 系统设计
2.1 系统总体框架设计
本系统整体框架总共由4 部分组成,主要采用B/S 架构,如图2 所示。主体分为数据库存储层、后台服务层和基于Web 浏览器的表现层。
图2 系统框架图
2.2 系统功能设计
通过对多源交通大数据的整理及分析,现将系统划分为公交车数据分析模块、出租车数据分析模块、共享单车数据模块和地铁数据模块共4 个模块。
2.2.1 公交车数据分析模块
本模块通过对原始刷卡数据的站点字段进行提取,然后结合线路站点经纬度,最后通过MapReduce 计算每个站位的上车刷卡总量,即该站登量。
图3 公交站点OD 查询
2.2.2 出租车数据分析模块
通过对出租车的时空轨迹挖掘及基于区域的OD 分析,实现更准确的掌握本市的出租车运营特征,如各时段载客热点区域,为出租车管理分析提供技术支撑。
图4 出租车时空轨迹
2.2.3 共享单车数据模块
通过对南锣地区共享单车数据进行OD 提取、骑行时长分布以及某月租车数量分布日历图进行可视化展示与分析,为共享单车投放点与回收点、投放数量等提供辅助决策,从而一定程度上缓解用户找不到车、找错车等现象。
图5 共享单车图表
2.2.4 地铁数据模块
通过地图服务在地图上展示各个站点的位置及其信息,站点的大小由该日的客流数量确定,同时设计多站点同时段客流比对以及单站点多时段比对,为实现优化站点服务能力提供辅助决策。
图6 地铁客流模块示意图
2.3 系统实现
系统开发采用B/S 架构,同时在服务端结合了Mapreduce 计算框架,在存储中使用PostgerSQL 与Hadoop 分布式存储框架结合的存储方式。结构数据如地铁客流数据采用Postgresql 进行基础业务数据的存储,非结构数据如公交车刷卡数据、出租车轨迹数据采取使用HDFS 分布式文件系统进行存储,通过搭建SSM后台框架实现数据库管理。最终在Web 浏览器端采用开源地图库Mapbox、Openlayers,以及ArcGIS API 和Echarts 图表等前端开发技术进行北京市各类交通数据的展示与数据分析结果的表达。
3 结论
该平台使用Hadoop 分布式存储与PostgreSQL 数据库相结合的存储方式,解决了多源数据存储时的数据结构与数据容量扩展的问题;建立Mapreduce 分布式计算框架,挖掘出租车、公交车等交通数据的信息价值,为城市交通大数据的信息挖掘及可视化分析等提供关键技术。