基于大数据的智能交通资源中心体系建设研究
2019-06-26吴小刚彭文惠申圣兵
吴小刚 彭文惠* 申圣兵
(1.北京易华录信息技术股份公司,北京 100043;2.阳江职业技术学院,广东 阳江 529500;3.湖南高速铁路职业技术学院,湖南 衡阳 421002)
20世纪80年代,我国开始公路收费系统的应用,这是我国第一次将计算机技术、通信技术和电子技术用于交通监控和管理系统[1]。从此以后,我国全面推进智能交通系统的建设,同时,我国在卫星定位、GPS车辆定位、道路车流检测设备、视频检测设备、RFID设备、车辆信息化管理等系统逐渐应用与完善。21世纪初期,随着网络技术与智能化硬件技术的跨越式发展,助推了智能交通在我国迅速发展[2]。
21世纪初至今,在交通基础设施规模飞速发展的同时,交通管理和服务的信息化、智能化水平也有显著提高,智能交通在许多城市和交通运输的各个行业得到了广泛的应用,并开始进入快速发展的轨道。初步形成了智能交通基础建设遍地开花、科技引领智能交通发展的局面,智能交通应用发展显著。
1 大数据与智能交通
随着数据存储技术与数据处理技术的发展,为大数据应用奠定了软硬件基础,大数据技术的逐步成熟助推了智能交通应用创新,对智能交通的应用业务形成内在的强大驱动力,推动智能交通应用服务的升级与改革。交通大数据从广义上讲,具有以下几种内涵[3]:一是数据量巨大,结构化数据与非结构化数据需长期存储;二是数据形态多样,来源广泛,类型丰富,结构化数据、半结构化与非结构化数据并存;三是处理快速,交通数据具有时变性,交通管理与服务具有时效性数据处理的及时性,对数据处理速度要求极高;四是真假数据共存,数据存在冗余、遗漏、错误等现象。五是价值丰富,具有时间(过去、现在与未来)、空间(点、线、面)等多维特征。目前,大数据在教育、医疗、政务等各个领域产生革命性的影响,在信息技术发展的基础上成长起来的交通智能化,将在大数据时代发生质的改变。
1.1 交通大数据定义
所谓交通大数据按状态可分为静态数据与动态数据。静态交通数据主要包括交通设备、设施,道路等;动态交通数据主要包括通过各种手段采集的数据,如:视频、线圈、微波、地磁、浮动车、GPS、卡口、违法等数据,以及城市交通相关的行业和领域导入的数据(气象、环境、人口、规划等数据),还包括来自互联网的数据(通过互联网地图服务商、交通参与者、广播电台等提供的文字、图片、音视频等数据)。交通大数据中同时包含了来自交通行业的和交通行业之外的格式化和非格式化数据。按数据来源可以划分为交通领域直接产生的数据、公众互动交通状况数据、相关行业数据和重大社会经济活动关联数据这三大类。用传统技术难以在合理时间内管理、清洗、挖掘、分析交通研判的数据集。
交通大数据具有数据量巨大、数据种类多样、蕴含价值丰富等特征[4]。在智慧城市的建设背景下,交通大数据与各行各业的数据相互共享、相互关联,为智能交通的管理提供了更广阔的研究课题,从而探索交通参与者的规律,提供更多人性化的管理应用服务。基于数据关联性特性与变化趋势特性,对于挖掘分析交通大数据自身的价值,指导交通应用服务,是智能交通大数据的研究重点和方向。
1.2 大数据环境下的问题
1.2.1 去伪存真问题
交通大数据汇集动态采集数据与静态数据、行业内数据与行业外数据,数据来源广泛,形态多样,存在无效、冗余、错误、时间点漂移及丢失大量的脏数据[5]。脏数据的存在直接影响对交通状态的分析结果,导致错误的决策。因此如何对脏数据进行清洗、修复,去伪存真,是交通大数据应用研究的基础。在分析影响数据质量问题原因的基础上,给出交通大数据清洗的概念,研究“脏数据”的清洗规则与清洗步骤。
1.2.2 存储问题
交通大数据具有存在时间长、存储容量大的基本特征,特别是长时间、非结构化数据的存储给数据存储带来了巨大的压力。由于传统的磁存储设备的投入导致智能交通投入成本直线攀升,因此,目前各智能交通应用单位主要采取短时间存储、周期性覆盖旧数据的方式来降低存储成本,但直接后果就是数据流失量大,用于大数据挖掘应用的样本小,影响了大数据应用价值挖掘[6]。光磁融合存储技术的发展为交通大数据带来的新的存储解决方案,既能低成本实现海量数据冷热融合存储,也大大降低存储设备长期运行的能耗。对最新产生、使用频率高的数据可定义为热数据,一般采用磁存储。优点是速度快,轻便;而缺点是容量低、成本高、能耗高、寿命短;而大量历史的、低频使用的数据定义为冷数据,一般采用光存储的方式,光存储方式具有存储量大、能耗低、寿命长、安全性高等特点。用磁存储保存热数据,以光存储保存冷数据,使冷、热数据得以完美结合,将成为智能交通大时代数据存储的最优选择。
1.2.3 时效性问题
交通数据具有时效性,要求智能交通应用系统具有较高的计算效率。如:交流实时流量检测、交通态势分析、交通信号干预策略、交通应急指挥调度策略、交通诱导信息发布等均对交通大数据应用的计算处理效率提出较高的要求。大数据、云技术的发展为数据计算的时效性提供了解决方案。智能交通云概念的提出[7],基于云计算技术,使用存储设备、服务器设备、应用软件等得到充分的利用,为提升智能交通系统的运行效率奠定了基础。
1.2.4 应用开发
所有的研究都归于智能交通的应用。去伪存真算法、大数据光磁一体存储、云计算技术都为智能交通大数据的应用研发提供了基础。传统的智能交通应用存在交通流判态缺乏时效性与准确性、各系统关联性低、系统联动性差,对未来交通状态预判缺乏可靠性、系统智能化低等特征。未来基于大数据搭建的智能交通应用能提供更优质的综合服务,更具时效性、准确性、可靠性与联动性;更能感知现在、预测未来;实现多数据源的汇聚、清洗、融合、挖掘,进而为交通渠化规划、交通信息发布、交通分流控制、重点违法监测、查控分析、交通应急指挥等提供决策支持。
2 大数据环境下的智能交通框架
交通大数据通过对交管业务数据进行汇聚、清洗、关联、碰撞和挖掘,实现贴合实战的业务应用、灵活性的技战法、智能化分析研判、可视化展示,满足交管部门实战的需要。
采用云计算、大数据技术考虑和破解交通管理难题,建立“数据驱动交通管理精准决策”现代化交通管理工作机制新常态,提高海量数据的核查比对、数据查询、分析性能和数据管理的应用水平,可开展全方位、深层次、多视角的交通管理信息的分析研判,智能发掘交通安全隐患、工作薄弱环节,为车辆缉查、案件侦破、排堵保畅、事故预防、效能改进等实战需求提供数据支撑。
交通大数据逻辑框架如图1所示。在逻辑上划分为4个层次,分别为:数据接入层、资源中心层、业务应用层及用户层[8]。
图1 交通大数据逻辑框架
数据接入层:主要完成数据的汇聚接入,接入的数据主要包括公安六合一数据、卡点过车数据、电警设备数据、电子标识数据、违法数据、气象数据、规划数据、停车场数据、浮动车数据、互联网数据等。
资源中心层:主要完成交通大数据存储、处理及管理。由分布式消息队列、搜索引擎ElasticSearch、调度服务Zookeeper、分布式流处理引擎、离线计算引擎等实现对接入数据的处理;根据应用逻辑需要,采用内存数据库Redis、分布式文件系统Hdfs、分布式数据库Hbase、关系型数据库Oracle等进行接入数据的存储。并基于交通业务模型,针对业务应用,提供基于交通大数据的功能服务接口及数据服务接口,支撑上层业务应用系统。提供的服务接口主要有数据查询、数据接入、统计分析、缉查布控、比对报警、研判分析、数据转换、数据可视化等。
业务应用层:交通大数据的处理就是要对数据进行深层分析、挖掘数据所蕴含的深层知识,寻找数据内部隐藏的规律[9],这里主要包含居民日常出行行为、居民的出行模式、依据城市特点的交通运营决策及规划、城市的动态性特征、城市的空间分布规律等。采用模块化设计,注重展现与人机交互,提供车辆通行监控、缉查布控、实战分析、综合研判、拥堵分析、OD分析、信息发布、业务办理、信号优化等业务应用功能。
用户层:所有的研究都将应用服务,大数据为智能交通的进一步发展起到了极大的促进作用,同时,为交管、治安、刑侦、技侦等用户综合提供交通信息服务,完成日常业务工作。在智能交通方面主要产生了以下几个方面的应用:交通拥堵自动检测分析,道路通行状态分析,道路规划决策支持,交通通行预测,交通异常检测,智能停车诱导,出行信息服务,对外业务办理等[10]。
3 交通大数据资源中心设计
(1)技术架构。从技术架构分为数据接入层、数据缓冲层、数据存储计算层、数据服务层。主要采用Hadoop、Spark等分布式技术,满足计算能力线性扩展、数据汇总能力。资源中心架构如图2所示。
图2 资源中心架构图
(2)接入系统功能。考虑到交通数据量大且具有高并发特性,使用分布式队列机制完成,目前采取Kafka消息订阅机制,通过WebService或者其他方式将数据发送给Kafka,使用数据时,可以在Kafka中订阅不同的主题数据。
在接收数据层,考虑不同的接入方式,包括Webservice,JDBC,文件等方式,并支持Kettle、Sqoop工具导入。并为不同的数据源进行适当适配,形成可靠的数据接入通道。并对通道增加监控,提供不同的指标,例如对接成功率,错误排查等。
接入数据流按照四层设计:数据采集层、存储计算层、对外接口层,数据从数据采集层向上传递,分别经过数据层,并最终提供给应用层,详细数据流如图3所示。
图3 接入数据流向图
数据接入层根据数据源的已有存储形式,通过一定的适配工作,对数据进行采集。存储计算层根据不同业务与种类的数据源,选择合适的存储类型,目前,存储类型包括HDFS、HBASE、ElasticSearch、ORACLE、FASTDFS。 在使用存储类型时,可以根据自己的需要对数据进行存储,比如过车数据存储在HDFS,ElasticSearch用于后续离线分析与原始数据过滤查询。对外接口层的主要目的是为应用提供以HTTP接口的成果数据或者原始数据检索,包括一些算法模型产生的结果数据。
(3)分布式混合计算功能设计。针对不同交通应用对于计算的实时性、计算量的要求,资源中心采用实时计算和离线分析计算混合计算架构。
实时运算采用流式数据处理框架和内存数据库,主要采用Spark作为流式处理框架、采用Redis作为分布式缓存队列服务,采取流式数据处理框架保证数据处理无积压,分布式缓存队列服务采用内存数据库机制,保证数据访问、查询比对效率。
离线分析采用Spark、MR,开源Spark目前支持RDD、SQL、Mlib与HIVE,MR可以很好地支持离线计算,并用于大数据的定期结转、分拣、汇总研判分析。
(4)分布式混合计算功能设计。针对不同交通应用对于计算的实时性、计算量的要求,资源中心采用实时计算和离线分析计算混合计算架构。
实时运算采用流式数据处理框架和内存数据库,主要采用Spark作为流式处理框架、采用Redis作为分布式缓存队列服务,采取流式数据处理框架保证数据处理无积压,分布式缓存队列服务采用内存数据库机制,保证数据访问、查询比对效率。
分布式数据库采用Hadoop开源系统的HBase[11]。实现海量数据存储,数据存储容量可以线性扩容,数据量可达到PB级,用于快速检索。
(5)分布式混合存储功能设计。交通数据可分为静态数据和动态数据两个大类,其中,静态数据指代非实时更新的数据,例如机动车数据、驾驶人数据等,动态数据指代持续性插入的数据,例如过车数据、交通流数据等。
由于数据的多样性和对数据库的可扩展性的需求,在数据存储层面,使用了关系型数据库与非关系型数据混合部署的模式,以应对海量结构化和非结构化数据进行存储和快速处理的需求。
4 结语
数据是驱动智能交通发展的基础,大数据技术的开发利用将为智能交通的进一步发展带来质的飞跃[12]。本文对智能交通大数据存在的去伪存真问题、存储问题、时效性问题、应用开发等问题进行了探讨,建立了基于大数据环境下的智能交通逻辑体系框架与数据资源平台架构,该体系能够兼顾交通数据处理的强实时性和高效性,也兼顾了交通数据量大、异构且分散的特点,提出了分布式混合计算功能设计与分布式混合存储功能设计的观点。有望通过大数据技术解决这些关键问题,这也是各个大城市正在建设规划的智慧城市研究的重要内容。