基于大数据的交通管理系统
2017-08-08尚东方
尚东方
(深圳大榆树科技有限公司,广东深圳518000)
基于大数据的交通管理系统
尚东方
(深圳大榆树科技有限公司,广东深圳518000)
随着社会经济的快速发展,交通问题逐渐成为影响居民生活质量、加重环境污染、阻碍城市发展的“城市病”。当前,交通管理部门汇集了大量的数据,因此,设计了基于大数据的交通管理系统。它以交管部门现有的数据为基础,对数据资源进行管理、分析,建立交通数据管控体系和数据服务支撑平台,以提高交通管理的稽查布控、车辆技战、交通行为分析、交通流分析、数据查询、数据服务和数据管理的专项应用水平,建立新型交通管理工作机制,从而为交通管理部门提供辅助决策依据,实现信息化的跨越发展。
大数据;交通管理系统;数据资源管理;智能化
目前,我国机动车保有量已达2.64亿辆,每年仍在以1 500万辆的趋势增加。以上海为例,主干道高峰小时断面交通流量超过1万台标准车,交通流分布指向、路网行程车速等数据更是不计其数[1-4]。现阶段,上海交警总队掌握的各类数据总量约为2.41×106GB。这些数据既有宏观总量,也有空间和时间维度上的分布,如何利用好这些数据,充分挖掘大数据价值、开展大数据服务,不断提高道路交通管理的智能化和信息化水平,是公安交管部门面临的现实问题。本文将总结现有交通管理系统中存在的问题,并提出基于大数据的交通管理系统。
1 交通管理中的瓶颈
以深圳市为例,2013年正式建立的深圳市整合交通运输中心接入深圳市8大类(交通视频数据、城市公共交通等)交通行业的系统数据,初步构建了城市“交通数据中心”,日均数据条数超过4 000万。其中,数据主要有以下几种类型,具体如表1所示。
表1 现有智能交通管理系统
与北京、上海等交通拥堵情况严重的城市相比,深圳市中心城区运行车速为27.4 km/h,交通运行状况较好。实际上,深圳市中心城区交通状况并不乐观。以传统拥堵路段布吉关为例,平均每天交通量达8.2万辆,高峰时段尽管交通力量为5 732 pcu/h(每小时交通通行流量),但是,在轨道交通方面,地铁1号线高新园站、车公庙站,3号线布吉站等站点的饱和度均超过100%.
随着深圳的不断发展,交通拥堵已经成为制约深圳城市向更高水平发展的重要问题之一。在应用传统的交通管理系统的过程中,主要存在以下几方面的问题。
1.1 交通管理数据覆盖性不足
数据仓库初步汇集了警情、事故、违法结构化数据,但是,卡口、电子警察、视频和其他非结构化数据还未覆盖;没有有效利用全市基础数据,车辆、交通工具、管理设施、交通机构、交通干系者和卡口等数据共享利用不足。
1.2 传统数据仓库技术架构存在瓶颈
目前,数据仓库架构无法用于分析海量数据卡口、视频、电警,系统并发量和性能要求无法满足使用要求;交通管理数据抽取任务量过大,数据抽取不稳定、每日抽取方案无法完成、抽取效率降低、抽取自动化不足等问题时有发生;数据存储面临瓶颈,前期辅助决策应用采用的存储方式主要是传统的集中式存储,但这对于数据安全性、风险等问题的可控性低。
同时,当前交警数据应用难以满足大数据分析管理的要求,也未与市公安局大数据管理平台进行数据对接与服务调用,严重影响了交通管理数据的应用成效。
1.3 专题业务应用深度不够,实际业务决策支撑有限
随着业务数据量的增加,目前的搜索引擎无法支撑海量数据搜索,全文搜索无法进行,数据查询主要局限单条查询,对于批量数据查询、比对、关联分析无法进行。当前数据仓库与辅助决策系统的使用功能主要是常规统计分析,针对专题分析、业务模型分析、数据挖掘分析等应用不足,针对车辆技战、大数据检索、智能管理报告、缉查布控专题深度关联分析、车驾事故主题分析、交通流专题深度关联分析、交通行为专题关联分析等还没有有效支撑,基于批量比对、批量关联、自定义模型分析、可视化展现、智能报告、智能报告等决策分析还没有实现,难以适应日益复杂的业务决策分析需求。
1.4 未建立数据资源库
交通管理数据资源体系缺少统筹规范,数据资源库未建立,具体表现为以下几点:①数据覆盖面不够,交警内部数据缺少全面整合;②现有数据标准规范性不足,难以满足市公安局大数据管理平台的数据管理规范要求,出现数据口径不一致、数据冗余、数据不一致等问题;③交通管理数据仓库主要侧重关系型数据分析,但非结构化视频、图片、文档、网页数据没有覆盖;④业务基础数据、业务数据、业务主题数据等没有有效规划,尤其是基础数据缺少有效的清洗、比对,数据总体质量不足,难以满足实际业务分析与决策需求。
1.5 数据分析可展现水平不足
在智能报表分析、智能GIS地图展示、智能分析报告方面,数据分析可展现水平不足,暴露出了一些问题。
1.6 数据分析可自定性不足
交警每年的工作任务和重点具有较大差异性,每年度的重点工作不同,数据分析的方向和主题也会发生变化。现有数据应用与分析数据定义不灵活,数据分析层次也不够,难以满足交警日益复杂的分析需求。此外,现有工作情况无法自定义数据分析模型,无法满足快速分析的需求。在实际工作中,相关部门和人员要求能够根据数据分析任务,快速生成相应的分析模型,形成分析结论。因此,构建一套更加科学、有效的大数据交通管理系统,成为改善城市交通拥堵现象的主要方式之一。
2 大数据技术介绍
TDH Hadoop是针对大规模分布式数据而开发的软件框架,inceptor采用专有的高效列式内存存储格式和为内存优化的Spark计算引擎。与Map-Reduce框架相比,它消除了频繁的磁盘I/O。Spark引擎还采用了轻量级的调度框架和多线程计算模型,具有极低的调度和启动开销,执行速度更快,系统MTTR大大缩短。在实时在线应用方面,Hyperbase构建了全局索引、辅助索引和全文索引,扩展了SQL语法,满足在线存储和在线业务分析系统(OLAP)的低延时需求。Discover高效、快速的数据挖掘能力与TDH对主流可视化和BI工具的支持,综合在执行引擎和数据存储层上的优化,使得TDH性能全面领先开源Hadoop 2.0,比主流MPP数据库快1.5~10倍[5-6]。
2.1 HDFS分布式文件处理系统
HDFS是一个高效的分布式算法,将数据的存储和访问分布在大量服务器之中,在可靠、多备份存储的同时,还能将访问分布在集群中的各个服务器上,是传统存储构架的一个颠覆性的发展。
2.2 Hbase数据库
Hbase是运行在Hadoop上的NoSQL数据库,是一个分布式、可扩展的大数据仓库,也就是说,Hbase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。这意味着,在一组硬件上存储着具有数十亿行和上百万列的大表。同时,除了Hadoop本身具有的优势外,Hbase还是十分强大的数据库,它能够融合key/value存储模式,具有实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。总之,Hbase能够满足在大量的数据中查询记录的要求。
2.3 Hive数据仓库技术
Hive数据仓库技术提供了类似于传统SQL的编程模型,为海量机动车轨迹分析过程提供了友好的编程模型和方法,同时,它能利用Map/Reduce的高并发特性。
2.4 Storm
Storm是一个分布式的、容错的实时计算系统,可以方便地在一个计算机集群中编写、扩展复杂的实时计算。Storm保证每个消息都会得到实时处理,每秒可以处理数以百万计的消息。
3 基于大数据的交通管理系统
基于大数据的交通管理系统建设,需在遵循公安局大数据管理平台数据管理规范和技术框架要求的基础上,全面推进交警信息资源高度整合、共享和综合开发利用,构建面向公安交通管理的“交通管理大数据资源池”,建立交警数据管控体系,对接市局大数据平台,创新性地利用大数据管理技术,以提高交通管理海量数据的稽查布控、车辆技战、交通行为分析、交通流分析、数据查询、数据服务和数据管理的专项应用水平,为公安交通管理大数据决策、大数据分析、大数据作战、大数据服务奠定坚实的基础,建立新型交通管理工作机制,全面提升大交通管理数据治理能力,实现信息化跨越发展。
3.1 数据资源管理平台
基于公安局大数据管理平台框架和管理规范的要求,搭建交警数据资源管理体系,形成交警大数据处理平台,实现数据资源管理,整合交警内外部数据,构建大数据处理平台,并对数据中心的资源进行资源管理、数据服务管理、平台运行监控和数据共享交换等,搭建开放式数据应用环境。针对大数据开发各种查询、分析、统计应用服务,挂接到服务总线进行发布,通过统一的门户,面向交警工作人员,展现大数据的应用情况[7]。数据分析应用侧重综合性、异构数源的数据分析与辅助决策应用,分析的数据来源不仅仅局限于传统的结构化分析数据,包括卡口、警情图片、录音、视频、文本等非结构化、半结构化数据分析,重点是实现6大基础分析服务和8大专项主题分析应用。这一部分重点是抽取已经清洗、比对形成的交通管理数据分析专题库数据,实现交通管理结构化、半结构化、非结构化等全业务数据决策的分析应用,支撑平台大数据分析。
3.1.1 数据预处理
在实际工作中,运用专门的数据抽取工具来完成数据的整合;运用定义好的数据抽取方案,按照交警数据标准的要求,支持数据以定时或实时方式、全量或增量复制抽取至标准数据库和数据仓库,并保证不影响原有业务应用系统的业务处理。数据抽取工具应支持当前公安业务应用系统中使用的各种数据库类型(包括ORACLE、SQL、文件系统等),可根据业务需求定义数据种类、数据项等。
数据预处理具有非结构化信息采集功能,它可定制搜集公安网内的网页、word文件、PDF文件、文本文件、电子表格文件、信息发布系统发布的信息等各类非结构化信息,并自动加载到分布式文件系统中。
3.1.2 数据资源管理
数据资源管理能实现对数据库的资源管理、资源元数据管理、资源现状动态监测、代码表管理和资源多维检索等。
3.1.3 数据资源目录
资源目录主要是用来对外提供交警大数据资源情况的清单。它将需要对外提供的各类数据资源,按照一定的数据划分方式重新组织,对交警大数据的资源进行分类,这样,用户可以根据具体业务场景的不同、资源描述属性的不同、资源时效性的不同等维度在云端查找到自己想要的资源。
数据资源分类目录可以按不同应用专题建立信息分类体系,也可以按照数据资源的来源不同分类。通常情况下,数据资源目录是由描述信息资源的名称、专题、摘要或数据元素、分类、来源、提供部门等元数据组成的。
3.1.4 数据质量管理
在实际工作中,要制订相应的数据质量清洗规则,通过简单配置清洗、转换不符合要求的数据。现有数据是从多个业务系统中抽取而来的,包含历史数据。当初在建立这些数据库时,并没有考虑到统一数据格式或者信息代码规范,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,标准不统一,这些错误的或有冲突的数据显然是无法直接利用的,必须按照一定的规则清洗。
不符合要求的数据主要包括但不限于不完整的数据、错误的数据、重复的数据、多种释义、格式代码标准不一致等几类。对于清洗转换层,中标单位需要根据每种业务数据的情况来设定对应的清洗策略,包括自动清理和人工清理,保证交换后的数据达到相应的质量标准。
3.1.5 安全监控管理
为了保证系统的正常运行,需要实时监控系统各方面的情况,以便及时掌握系统的运行状况,并能对故障作出快速反应。系统状态监控是标准数据库和数据仓库的重要支持功能,由于基于标准数据库和数据仓库的主要功能对系统性能的消耗很大,都是峰值性能要求很高的非常规性操作,所以,提供完善的系统运行监控手段,利用监控数据合理调度系统是保证系统平稳运行的关键。
3.2 数据服务支撑平台
搭建大数据服务支撑平台,基于服务总线模式,实现各类数据资源的接入适配、授权管理、访问控制、路由调度,提供在线数据服务管理功能,允许数据用户在线进行数据申请、发布、订阅、审核等。另外,交警通过基础数据提供通用数据服务接口,以实现各类数据查询、比对、统计、下载和监控告警等功能[8]。
搭建大数据服务支撑平台,基于服务总线模式,实现各类数据资源的接入适配、授权管理、访问控制、路由调度,提供在线数据服务管理,允许数据用户在线进行数据申请、发布、订阅、审核等,针对交警通过基础数据提供通用数据服务接口,实现各类数据查询、比对、统计、下载及监控告警等。
3.2.1 资源服务总线
资源服务总线主要用于解决服务整合共享问题,通过服务治理形式有效改善现有系统之间服务共享调用的网状关系,使得系统之间的关系更加可视化,并提高管控能力。它的高性能、高可靠、高扩展和业务化给使用者带来高管控能力、高运营等能力,从而为提高服务质量和服务深度提供可能。交警数据资源服务总线需基于对交警信息化建设、分布式计算、应用集成能力的认识和技术积累,开发或采购配套软件应用,实现接入适配、授权管理、访问控制、路由调度和日志分析等功能。
3.2.2 资源服务管理
资源服务管理是面向服务提供者提供数据服务资源注册、审批管理,并面向应用开发者提供数据服务申请、授权管理的系统。资源服务管理既可以注册由本地数据仓库服务接口系统提供的数据服务,也可以注册来自其他系统提供的数据服务。
资源服务管理通过流程化管理大数据平台服务资源,请求方可在平台提出申请需求,由平台自定义管理员申通通过后方可调用。同时,对于平台暂时没有的服务资源,请求方可订制服务,待服务上线后方可直接调用。
3.2.3 通用数据服务接口
通用数据服务接口是提供给其他模块或者系统使用的一种约定或者规范,接口设计应遵循《公安服务总线体系架构标准》,保证接口的性能良好。
通用数据服务接口主要包括数据查询、数据比对、数据统计、数据下载等服务接口,通过接口配置功能实现对基础数据资源库和应用服务资源库的访问。运用接口配置功能,可以实现对基础数据资源库和应用服务资源库的访问,并能实现对上下级部门大数据平台的对接。
3.2.4 资源服务监控
针对服务资源运行状态和平台自身应用功能运行状态的自动监控功能,及时发现故障并报警。资源服务监控能对监控采集的汇总信息进行多维度统计,发现潜在的隐患;建立故障管理模块,在处理故障的同时,详细记录平台运行过程中发生的各类故障及其故障现象、故障原因、处理方法和发生时间等相关信息。
3.3 交通管理辅助决策系统
结合交通管理业务需求,开展交通管理海量数据的智能检索、报表服务、管理报告、数据展示、综合排名、稽查布控、车辆技战、交通事故违法、交通流分析、交通行为分析和交通指挥主题分析等,为公安交通管理大数据决策、大数据分析、大数据作战、大数据服务奠定坚实的基础。
3.3.1 智能检索
智能检索功能包括基于条件的分类检索和全文检索。按条件检索是当用户明确知道某份数据的具体属性时,系统可以快速找到符合条件的文件。条件可以是单个条件,也可以是包含逻辑运算的组合条件。而全文检索则是一种模糊查询的方式,通过内置的搜索引擎,用户输入某个关键字,系统就能将所有包含该关键字的文件全部检索出来。全文检索应支持自动的词法分析,自动完成索引的生成。另外,全文检索要力求保证检索的查全率、查准率和检索速度。
信息检索方式有智能检索和高级检索2种,其中,普通用户使用智能检索式,高级用户可使用2种检索工具。基于分布式索引、智能分词和精确匹配技术,能够实现对海量公安信息资源——驾驶员、地、车辆、违法、事故、组织的快速、高效关键词检索,满足公安信息资源的快速定位需要。
3.3.2 综合查询
综合查询是实现交警数据一般查询和批量匹配查询服务,主要实现本地交警信息资源的高精度匹配检索,提供多种高级查询检索方式。
3.3.3 可视化展示
在数据分析中,支持分析结果GIS可视化展示、报表展示、图表展示等功能。
3.3.3.1 GIS可视化展示
在数据分析中,引入空间地理位置,将数据实体与空间地理信息结合起来,在地图上展示出来,从而直观展示目标位置的时空关系。
3.3.3.2 报表展示
以图表的方式展现统计结果,支持导出EХCEL,方便用户临时业务在EХCEL中进行二次手工编辑。
3.3.3.3 图表展示
以动态图表的方式展示重要业务指标的实时变化情况,列表数据都可以缺省进行图表分析,可以支持2个维度的交叉分析,维度可以灵活修改,支持柱形图、饼图、条形图、网络雷达图、散点图、雷达图、曲面图、组合图等。
3.3.3.4 可视化情报分析
可视化情报分析是将大量的、未知质量的、低关联性的、低价值的信息集成起来,描述数据与数据之间的关联,以图形、图表的方式展现出来。它将调查分析人员从搜索数据的工作中解放出来,集中精力于情报分析,可以运用众多图形分析的方法(关联分析、网络分析、路径分析、时间序列分析、空间分析、社交网络分析、多重关联查询和多种布局方式等)来快速发现和揭示数据及其关联关系中隐含的情报线索,提高情报分析工作的效率,辅助案件侦破。
3.3.4 稽查布控主题分析
接入过车数据,对套牌、假牌、“失驾”仍驾嫌疑人员、“毒驾”嫌疑人员、伴随车辆、重点车辆等进行分析和预警,对接车辆布控申请、审核、撤控流程处理,对布控车辆进行预警和行驶路线预测,重点车辆的自动布控以及布控策略管理,并提供向移动警务推送接口。
3.3.5 车辆技战法
车辆技战应用数据主要来源于交警车辆管理业务数据和市公安局车辆基础设施数据。对于市局大数据管理平台提供的分析服务,将统一通过调用服务方式进行分析,本地存储分析结果。对于市局之外的业务数据,将统一依托本期平台建设。车辆技战法提供车辆轨迹查询、活动规律分析、车辆行驶路线预测、落脚点分析、撞车党甄别、昼伏夜出车辆分析、连续违法车辆分析、频繁过车车辆分析和无牌车辆监测等车辆技战分析功能。
3.3.6 交通流分析
利用分布式数据库构建海量卡口车辆信息库,依托智能交通采集设备,采集交通流量信息,实现海量卡口车辆数据的统计分析功能,辅助交警进行交通流量分析。在实际工作中,利用大数据平台套牌车分析、轨迹纠偏、过车流量分析、多轨迹流向分析和车辆基本信息统计分析能力,开展交通态势、常发拥堵路段分析,车辆属地分析,外地车/本地车道占用分析,进出区域平衡分析,工作日/非工作日车辆出行分析,上下班畅通指数评价、车辆活跃度构成分析等。
3.3.7 车架违法事故主题分析
对全市交通违法情况进行分析,主要包括驾驶人分析、机动车分析,对全市道路交通事故总体情况、较大事故情况、交通方式、时间规律、地点规律、重点违法行为与事故的关系进行分析,对违法主题和事故主题进行分析,实现驾驶人/机动车/违法/事故关联分析,并定期生成分析报告。
3.4 交通地理信息分析系统
引入地图服务引擎,实现交通地理分析结果展示、路况展示、路网展示和交通事件展示等,支撑路况应用,包括动态信息应用、静态信息应用。同时,基于地图的挖掘分析,实现对不同等级道路里程数统计、单行线统计、管制路统计、禁行路统计、断头路统计、节假日交通挖掘分析、交通安全监管分析和交通GIS挖掘分析等[9]。
4 结束语
文中设计了基于大数据的交通管理系统,该系统建立了交通数据管控体系和数据服务支撑平台,提高了交通管理的稽查布控、车辆技战、交通行为分析、交通流分析、数据查询、数据服务和数据管理的专项应用水平。建立新型交通管理工作机制,全面提升了大交通管理治理能力,实现了信息化的跨越发展。
[1]陆化普,孙智源,屈闻聪.大数据及其在城市智能交通系统中的应用综述[J].交通运输系统工程与信息,2015(05):45-52.
[2]徐红海.智慧高速交通大数据应用探讨[J].中国交通信息化,2016(03):80-84.
[3]顾承华,张扬,翟希.交通大数据关键技术研究[J].交通与运输(学术版),2015(02):49-53.
[4]陈美.大数据在公共交通中的应用[J].图书与情报,2012(06):22-28.
[5]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(09):1889-1908.
[6]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014(04):839-862.
[7]张桂刚,李超,张勇,等.云环境下海量数据资源管理框架[J].系统工程理论与实践,2011(S2):28-32.
[8]蒋昌俊,丁志军,王俊丽,等.面向互联网金融行业的大数据资源服务平台[J].科学通报,2014(36):3547-3554.
[9]林燕华,金峻峰.基于GIS平台的道路交通管理调度服务网系统[J].中国人民公安大学学报(自然科学版),2000(01):53-57.
〔编辑:白洁〕
TP311.13
:A
10.15913/j.cnki.kjycx.2017.15.027
2095-6835(2017)15-0027-05
尚东方(1984—),男,工程师,硕士,主要研究方向为公安大数据分析、警用地图应用、智慧交通等。