基于大数据分析的智能交通系统
2014-02-24成都师范学院物理与工程技术学院成都611130
李 晓(成都师范学院物理与工程技术学院,成都,611130)
基于大数据分析的智能交通系统
李 晓
(成都师范学院物理与工程技术学院,成都,611130)
大数据发展至今,已为众人所知,被众多行业和企业所用。尤其在天文、气象、医疗健康等领域已取得较好的应用价值。我国是汽车大国,快速发展的汽车行业也随之带来了城市交通拥堵和污染严重等诸多问题。如何将汽车与大数据有效的融合,通过大数据为政府决策提供数据支撑,为智能交通做贡献。
大数据;智能交通;隐马尔科夫
2008年,《Nature》推出Big Data专刊,首次提出大数据的概念。2010年4月21日,大数据首次列入“维基百科”条目。2011年2月,《Science》推出《Dealing with Data》,说明大数据对于科学研究的重要性。紧接着,2011年5月,麦肯锡全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,推动了工业界和学术界对大数据的关注;11月,IBM在产品发布会上主推大数据概念,这标志着大数据进入快速发展的时期。2012年,美国国家科学基金就发布了大数据指南。
随着大数据时代的到来,大数据的分析与利用已渗透到电子商务,公共服务与安全以及诸多实体企业等多个行业。在第十二届全国人民代表大会第二次会议上,“大数据”首次出现在政府工作报告中,这预示着大数据已经脱离“是什么”的概念阶段,正式进入“怎么用”的实施阶段。数据储备和数据分析能力将成为未来新型国家最重要的核心战略能力。
什么是大数据,简单地说,大数据就是海量数据加复杂计算。具体而言则是面对规模巨大、高速产生的形式多样的数据,只有通过复杂计算才能获取其中有价值信息的计算模式。其中,规模巨大(Volume)与高速产生(Velocity)反映出海量数据的特点;形式多样(Variety)与信息价值(Value)反映出复杂计算的特点。
物联网、云计算、大数据、移动互联等技术在交通领域的应用和发展,对智能交通系统的模式、理念将产生巨大影响。目前,国际智能交通领域的车路协同系统、公众出行便捷服务、车联网等热点技术领域,都在广泛研究和应用云计算、大数据、移动互联等新技术。随着研究和应用的深入,可运用大数据技术对交通需求进行全面客观的精准分析和分类研判,大数据分析在交通运行管理优化、面向车辆和出行者的智能化服务,以及交通应急和安全保障等方面都将形成巨大的市场。目前北京、上海、广东等地都在广泛地研究和应用大数据技术,其中广州、深圳已经利用大数据为本地市民出行提供了便利。
但城市交通仍面临诸多严重问题,以成都为例,成都作为西南地区的大型城市,路网体系日趋完善,承载能力不断加强,但汽车保有量也强劲增长,供需关系依然紧张,截至2014年3月,成都地区的汽车保有量突破268.59万辆大关,中心城区114.18万辆,仅次于北京。根据成都交管局数据,成都已连续62个月月均增2万新车。根据2011年至2013年的完整数据,2011年成都非私家车数量约为27万,到2013年达到31万,每年增加2万辆;而私家车的数量从2011年的166.82万辆,增加到2013年底的228.39万辆,占据了汽车总保有量的87.86%。根据增长数据,交通部门将汽车平均长度和道路公里数,进行了简单的加减法,得到的结果是:预计到2017年6月,成都人开车出门,会发现绕城以内的每一条道路上都停满了车。城市环境承载已趋于饱和,按年均标准统计,6类污染物中有4类超标,其中PM2.5超过标准浓度250%。因此必须采取更有效的措施,才能保证城市交通系统有效运行。
我国大数据在智能交通领域中的应用仅仅是开始,在大数据背景下,交通相关的数据量已从TB级跃升到PB级,大数据分析交通除了流量、车辆信息之外,还应该包括路面情况、突发情况、天气、周边环境等诸多因素。
1 异构数据的协同计算理论
采集各种交通基础设施数据,动态实时信息与天气、政策法规等影响交通的其他因素。数据种类繁多,数据结构多样,数据资源分散在各个部门。首先,大数据能够在最大程度上利用记录道路信息与人类出行信息进行分析。以传统建模方式处理的数据都需要前期进行结构化处理,并记录在相应的数据库中。而大数据技术对于数据的结构的要求大大降低,可以通过人们留下的道路信息、行为习惯信息、偏好信息等各种维度的信息进行实时处理,立体完整地勾勒出每一个个体的各种特征,来发现大量交通流信息中隐含的模式和规则。其次,大数据将分散在不同部门的交通数据,例如,个人信息、公交网信息、铁路信息、航空信息等各种交通相关部门的信息汇总整合,使各部门信息开放互通,实现多层次、跨部门的信息资源交换与共享。做到对交通网络的统筹规划,提高对交通系统的管控能力。最后,异构数据的协同计算是为了增强知识发现能力,不仅要解决信息的融合问题,还要解决多源数据的跨域关联问题,由此,实现多源数据的知识增强。
2 基于大数据分析的决策支持系统
大数据通过对海量数据进行分析给整个社会带来从生活到思维上革命性的变化:管理人员在进行决策的时候,会出现从“经验即决策”到“数据辅助决策”再到“数据即决策”的变化。利用大数据分析对具有时空特征的交通数据进行智能分析,可获取丰富的、有价值的知识,如:时空分布、时空关联规则、时空变化趋势等,这些知识能够为交通调度、路径规划、交通相关规则制定等提供决策支持。该项目存储大量交通数据,而一些动态实时的交通数据要求快速处理,因为有些数据存在时效性,而基于大数据的智能交通系统同时需要较快的处理速度。该系统通过大数据算法使对数据处理分析的速度大大提高.首先,以隐马尔可夫算法来预测天气为例来说明,用一个通俗易懂的故事举例说明:当一个隐士不能通过直接观察天气状态来预测天气时,但他有一些水藻。民间的传说告诉我们水藻的状态与天气有一定的概率关系。也就是说,水藻的状态与天气时紧 密相关的。此时,我们就有两组状态:观察状态(水藻的状态)和隐含状态(天气状态),这样在没有直接观察天气的情况下得到天气的变化情况。这一点也是和传统的数据挖掘技术有着本质的不同。其次,可以通过spark技术处理数据,这是一种优于Hadoop集群的梳理方式,它提供快速的信息交互处理,提高了对系统的输入输出速度,从而提高智能交通系统的响应速度,与用户的体验满意度。
3 基于复杂网络的智能交通分析及可视化技术
城市交通系统作为一个动态系统,在其中包括了众多复杂因素,如,人、环境、道路、交通规则等,这些因素相互关联又相互制约,是一个典型的复杂系统。社交网络中人的关系、不同地区之间的人口流动、道路上的交通流等等都可表达为复杂网络模型。智能交通的应用中更多会用到带有时空属性的复杂网络模型,每个节点都有空间坐标信息,并且边和点的属性(甚至结构)会随时间而变化。因此,基于复杂网络的数据管理和模式发现技术尤为重要。除此之外,可视化以直观的方式帮助我们理解获取的知识和模式。例如,将到达各个区域的人数画成热度图(颜色越深,人越多)。将不同时间段的此类热度图连续播放,便可以动态反映整个城市的人口流动规律。与单一数据可视化不同,智能交通中的可视化技术需要同时考虑多个维度,其中空间和时间是两个至关重要的维度。
交通数据由交通基础设施数据和动态交通数据构成。动态交通数据可以通过磁频、波频、视频和移动通信等技术采集。比如,通过在交叉路口埋设感应线圈或安装在固定地点的视频监控设备,可以获得路口的交通流量;用安装在车内GPS等移动定位设备,可记录车辆位置、瞬时速度、行程时间、行程速度、行驶轨迹等交通信息;基于RFID技术可采集关键断面的分车型流量、速度等信息,并获取车辆行驶轨迹;基于手机信令可获取用户运动线路和运动速度等。动态交通数据记录着随时间变化的空间和属性信息,具有动态、多源、连续、无限、时变等特征,是进行实时监控和动态分析的数据基础。
但是这些原始数据中信息多且复杂,噪声数据、缺失数据、冗余数据和不一致数据大量存在,严重影响了数据的质量。因而需要对基础数据进行清洗工作,主要步骤:
1)数据分析。利用团队已有的创新性大数据分析方法,对基础数据有针对性地详尽分析, 获得关于数据属性的元数据,从而发现数据集中存在的质量问题。
2)定义清洗转换规则。根据上一步数据分析得到的结果定义清洗转换规则与工作流。
3)检测属性错误并标准化。基于统计的方法、聚类方法、关联规则的方法检测数据集中的属性错误,并纠正错误,使数据标准化。
4) 数据回流。利用干净的数据替换数据源中原来的“脏数据”。
有效的交通数据组织管理和交通数据提取与分析是进行动态交通流和路网拥堵状态分析的两个关键环节。
根据交通管理部门和出行者对交通信息访问的实时性和智能化需求,以动态交通流和路网拥堵状态分析为导向,结合交通数据的时空特征和交通领域约束,深入分析数据之间潜在的相似性、相关性和关联性,并对交通数据进行聚类分析、预测分析、关联分析、异常检测等深度挖掘,从而发现不同特征维度、不同数据粒度隐含的知识,利用降维技术分析和处理数据。
基于大数据分析,可以利用隐马尔科夫模型建立智能交通预测模型。隐马尔科夫模型用于描述随机过程统计特性的概率模型,是一个双重随机过程,由马尔科夫链和一般随机过程两部分组成。其中,马尔科夫链用来描述状态的转移,一般随机过程用来描述状态与观察值之间的对应关系。一个可以用五元组
来表示,其中,描述了马尔科夫链,描述了随机过程模型结构如下图所示:
各参数描述如下:
2.O为一组可观察符号的集合,。
3.M为从每一状态可能输出不同的观察值数目。
道路的流量在时间上是一个马尔科夫过程,当前时间段的交通情况是受上一时间段的情况影响的。在地理位置上相关联的路段的交通情况也是一个马尔科夫过程,当前路段的流量会受到与之相连的路段的影响。
对采集的数据进行处理和统计,通过设定预测窗口,对预测窗口起始时刻测得值以及预测窗口内参数平均值和序列对比度离散化,构成隐马尔科夫模型的隐状态和观察状态集合。最后进行道路的流量进行预测。
采用预测准确度作为评价指标,考虑系统预测流量和实际流量之间的相似度。预测准确度的一个经典方法是度量系统预测流量和实际流量的平均绝对误差(Mean Absolute Error,简称MAE)。
与平均绝对误差相关的其它指标有平均平方误差 ( Mean Squared Error, 简称 MSE) 和标准平均绝对误差 (Normalized Mean Absolute Error,简称 NMAE)。平均平方误差定义为
[1] (英)迈尔-舍恩伯格,(英)库克耶 著,盛杨燕,周涛译.大数据时代[M]. 浙江人民出版社,2013.1
[2] 吴忠泽.迎接中国智能交通的新时代[J].科学,2010,62(1):3-6.
[3] 毕然,党梅梅.智能交通系统标准化现状及发展趋势[J].电信网技术,2011,4:44-47.
[4] 丛新宇,虞慧群,范贵生.基于组合模型的交通流量预测方法[J].华东理工大学学报(自然科学版),2011,37(3):340-345.
[5] 杨胜,李莉,胡福乔,施鹏飞.基于决策树的城市短时交通流预测[J].计算机工程,2005,31(8):35-36.
Intelligent transportation system based on big data analysis
Li Xiao
(ChengDu Normal University,College of physics and Engineering,ChengDu,611130)
Today,big data has been known for everybody,and is used by many industries and enterprises. Big data have got to a good application value in the astronomical,meteorological,health care and other fields.China is a major car producer,and the rapid development of the auto industry has brought many problems in city traffic congestion and pollution.How to integrate the cars and big data effectively,how to use the big data to provide data support for the government,and how to makes the contribution for the intelligent transportation.
Big data;Intelligent;transportation;Hidden Markov