基于大数据的公交车GPS历史轨迹的数据处理
2016-04-29张庆
张庆
摘 要:公交物联网产生的数据具有量大且冗余数据多、处理所需专业性强、对数据处理准确性要求高、城市路况结构复杂等特点。文中通过hadoop建立分布式数据仓库将每辆车的GPS数据、报警数据、温度数据、班次车次数据、乘客IC卡数据在各自站点的数据仓库中进行保存与管理,对海量公交数据进行实时分析。然后根据得出的路况信息和车辆客流高峰时段等数据来优化公交调度策略,动态调整车辆调配,从而为满足公交车辆、线路、业务不断拓展和智慧城市建设提供一个可借鉴的平台。
关键词:数据挖掘;GPS轨迹;智能公交系统;hadoop
中图分类号:TP391 文献标识码:A 文章编号:2095-1302(2016)04-00-02
0 引 言
交通数据采集的范围、广度和深度急剧增加,随着智能交通系统建设规模的不断扩大,正在形成以微波、线圈、GPS、车牌等交通流检测数据,交通监控视频数据,以及系统数据和服务数据等为主体的海量交通数据。动静态海量交通数据的挖掘分析成为智能化交通信息处理分析的核心内容,交通数据的深层价值有待于进一步挖掘和开发。以智能终端为服务窗口的、以云计算和大数据分析技术为支撑的智能交通信息服务正逐步成为主流,与我们的生活息息相关。本文将结合智能公交系统的特点,通过对公交物联网的数据挖掘,进行规律路径挖掘。
1 公交物联网数据处理体系结构
Hadoop平台下智能公交系统数据处理的总体架构主要由数据采集层、数据存储层、数据挖掘分析层、应用服务层组成,其中数据存储层是总体架构的核心。
1.1 数据采集层
公交车辆数据类型按采集频率分为实时数据与历史数据。该数据采集层通过车载传感器对GPS、监控视频、乘客IC卡数据等进行采集,提取实时车辆位置、速度、视频、客流等动态信息,并借助无线通讯(3 G /4G)方式实时传输到大数据处理中心。
1.2 数据存储层
数据存储层通过MapReduce分布式程序设计模型把数据批量写入HBase分布式数据库,数据主要存储在计算机集群的HDFS分布式文件系统中,由一个管理节点(NameNode)和若干个数据节点(DataNode)组成。
1.3 数据挖掘分析层
数据分析层是项目核心,通过对大量数据进行挖掘分析,从而揭示数据之间隐藏的关系、模式和趋势。根据公交行业数据挖掘分析的需求,对数据进行清洗、聚类、分析,得到数据间的内部联系。
1.4 应用层
将挖掘结果转化为商业成果和应用,根据不同服务对象的不同应用需求,应用服务层把数据挖掘分析层计算获得的所有信息资源以服务的形式提供给公交调度中心,为公交监管、优化调度、城市出行信息提供数据支撑和参考依据。
2 轨迹数据的预处理
针对车辆在信号丢失情况下导致采集到的数据出现中断的情况,我们根据数据的间隔规律,对数据进行插值补全操作。对所有GPS数据点坐标与研究区域外包形状进行空间关系判断,若点在范围区域内则认为点位在正常区域中,并对GPS数据中的速度与加速度进行过滤,如果速度和加速度超过道路限定则将数据剔除。对于误差操作我们使用地图匹配算法进行GPS轨迹处理。根据GPS数据采样点的定位精度构建缓冲区,计算当前轨迹点可能位于的路段,通过车辆行驶的交通约束与道路段的几何连通性,进行总体待匹配路径的构建与更新,按照曲线相似度准则找出与整体浮动车运行轨迹最为接近的总体路径,实现地图匹配。
3 基于历史GPS数据的研究分析
3.1 公交路线中拥堵区域检测
3.2 线路平均速度
通过对车辆历史GPS的处理还可以获取到与车辆相关的速度v和时间t,我们提出路段平均速度和车站平均等待时间两个指标。
路段平均速度即由GPS数据可获得公交车的即时速度,路段上所有即时速度的均值为本路段的近似平均速度,假设对于某个时段j,已知所有落在路段i上的m个点的GPS数据,则表示时段j路段i上的第r个数据点的公交瞬时速度,依据道路拥堵情况远程监控车辆当前路段的平均速度,动态规划发车间隔与车辆进站时间。
3.3 站点等待间隔
3.4 停留区域分析
由于公交车辆的特殊性,公交车在行驶过程中遇到道路拥堵,站点停靠,突发事故等情况时会在某一位置停留。分析停留位置和停留时间可以帮助调度人员优化车辆运营,监控突发事件。
一个停留区域满足S{pm,pm+1,pm+2,…,pn}T,满足d(pm,pn)<δ且d(pm,mn+1)>δ及pn*t-pm*t>τ,其中δ为停留区域半径的合理区间阈值,τ为停留时间的合理区间阈值。
4 结 语
本文首先提出公交物联网系统的大数据体系结构和四大组成部分介绍,接着重点介绍数据挖掘层对GPS历史轨迹的挖掘,数据处理过程中对海量数据中冗余和错误数据的剔除与矫正后提出四种GPS历史轨迹的可用于对公交调度进行优化的分析指标。本文提出了大数据环境下智能公交系统数据处理框架体系,为构建智能公交大数据处理系统提供参考,也为其他行业基于大数据的实时交互应用提供了案例。
参考文献
[1] 杨新苗,王炜.准实时信息的公交调度优化系统[J].交通计算机,2000,18 (5):12-15.
[2] 黄溅华,关伟,张国伍.公共交通实时调度控制方法研究[J].系统学报,2000,15(3):277-280.
[3] 黄溅华,张国伍.公共交通实时放车调度方法研究[J].系统工程理论与实践,2001(3): 107-111.
[4] 关伟,中金升,葛芳.公交优先的信息控制策略研究[J].系统工程学报,2001,16(3):176-180.
[5] 张飞舟,晏磊,范跃祖,等.智能交通系统中的公交车辆动态调度研究[J].公路交通科技,2002,19(3): 123-126.