大数据处理技术在智能交通中的应用
2019-09-10孙静
孙静
摘要:物联网、智能终端技术的发展使得各行业领域的数据飞速地积累及增长,数据的价值也越来越受到重视.在智能交通领域,传统的交通检测和以滴滴、百度等互联网公司开放的基于位置信息的轨迹数据形成了诸多结构化、非结构化和半结构化的交通大数据.本文从大数据及其相关方法发展分析入手,结合交通大数据和智能交通控制的原理及其对数据的需求,阐述了大数据尤其是轨迹大数据为智能交通控制带来的新视角和新策略,并对车路协同、无人驾驶环境下的交通控制发展做出了展望.
关键词:大数据;智能交通控制;轨迹数据;车路协同
中图分类号:TP274;U116.1 文献标识码:A 文章编号:1673-260X(2019)05-0052-05
1 引言
物联网及智能终端技术的发展引发了各行业领域的数据飞速地积累及增长,数据的价值越来越受到重视.从科学研究领域到产业应用领域,都逐渐意识到大数据是挖掘有效信息和知识,推进“互联网+”和人工智能战略发展的重要组成部分.同时随着智慧城市的建设,信息采集基础设施逐步完善,人类活动产生的数据也越来越多,数据总量也将从现在的GB、TB逐步增长到PB甚至EB级.同时,信息交换频度也越来越快.在1分钟内,Google就有200万次的搜索查询,Facebook有68万条帖文;百度每天要处理60亿次搜索请求,新增10TB,处理超过100PB的数据,产生一个TB的日志,而腾讯QQ和微信的用户数据经压缩后每天的总量要超过100PB[1].在城市交通领域,以大连市2017年的统计数据为例,交通流量的采集数据每月增长约3亿条,交警业务数据(车驾管、非现场违法、事故处理)等数据每月的增长量约为1500万条,而卡口、电警的车牌识别数据、车辆照片、视频监控数据每月的增长量分别为1.5亿条、60TB和1050TB.除传统的线圈、地磁、视频、卡口等检测数据外,以滴滴、百度等为代表的互联网公司逐步向各地交管部门开放其路况、脱敏后的车辆轨迹数据等,这些数据有着更大的覆盖范围、更长的存储周期等特点.为城市道路交通状态感知,交通事件发现、演变及影响分析,智能交通控制,交通出行信息服务等方面提供了比以往更有力的数据支撑.
大数据是新资源、新技术和新理念的混合体.带来了全新的资源观和思维角度,提供了新的分析技术.如何利用好大数据尤其是交通大数据的潜在价值,为智能交通系统的发展提供更好的支撑非常值得深入研究和分析.本文首先阐述了大数据的定义、特征及大数据分析方法和常用技术.其次,分析了交通大数据的特征和分类,简述了目前各类交通数据在城市智能交通系统中的支撑应用,并对当前交通数据可视化的研究进行了分析.最后对交通大数据,尤其是轨迹大数据在智能交通控制中的应用给予研究和探讨,进一步对车路协同和无人驾驶车辆运行环境下的智能交通控制系统做出了展望.
2 大数据技术
2.1 大数据定义
什么是大数据?目前还没有公认、统一的定义.维基百科对大数据的定义为:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集.即大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统的数据库工具对其内容进行抓取、管理和处理[2].但大数据不仅仅指数据的体量大,Gartner(2012)将大数据定义为体量巨大、数据更新速度快、数据种类丰富多样的数据集,大数据处理的时效性和方法相比于传统的数据来说也颇具挑战.全球知名咨询公司麦肯锡在报告中称“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”.总之,大数据不仅仅是一个商业术语,对于不同的行业领域,面向不同的业务需求,大数据有着不同的含义和意义.
2.2 大数据分析方法
大数据中蕴含着宝贵价值,是人们存储和处理大数据的驱动力.要挖掘大数据的价值就必然要对大数据进行内容上的处理、计算和分析.大数据时代促进了数据分析方法的变革与创新,其与传统基于数理统计的方式相比主要有三方面的转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果[3].
要挖掘大数据的价值必然要对大数据进行内容上的分析和计算.机器学习,深度学习和知识计算是大数据分析的基础,数据可视化既是数据分析的关键技术也是数据分析结果呈现的关键技术.机器学习是人工智能的一个核心研究领域,指计算机利用经验改善系统自身性能的行为[4],包括监督学习、半监督学习和无监督学习.大数据分析的核心是利用数据的价值,而机器学习是挖掘和利用数据价值的关键技术.对于机器学习而言,大量的数据可以提高训练模型的精确性,而复杂的机器学习算法也需要分布式计算和内存计算等大数据处理技术,机器学习和大数据相互依存、相互促进.深度学习是机器学习的进阶,是利用层次化的架构学习出对象在不同层次上的表达,可以帮助解决更加复杂抽象的问题.深度学习在语音识别、图像处理、机器翻译及自然语言理解等应用领域取得了一系列重大进展.知识计算是国内外工业界开发和学术界研究的一个热点.要对数据进行高端分析,就需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算的知识库.支持知识计算的基础就是构建知识库,包括3个部分,即知识库的构建、多源知识的融合与知识库的更新.数据的查询和分析的实用性和实效性对于人们能否获得决策信息起着至关重要的作用,决定着数据应用的成败[5].除此之外,信息和数据的表达也至关重要.大数据的可视化,不同于传统的信息可视化,面临的最大一个挑战就是规模,如何提出新的可视化方法能够帮助人们分析大规模、高维度、多来源、动态演化的信息,并辅助做出实时的决策,成为这个领域最大的挑战.
总而言之,大数据处理和分析的终极目标是借助于对数据的理解辅助人们在各类应用中做出合理的决策.在此过程中,深度学习、知识计算和可视化起到了相辅相成的作用.机器学习及深度学习可以提高数据分析模型的精度,知识計算可以增加数据挖掘的深度,社会计算可以提升系统的认知能力,而强可视化辅助决策更是在大数据发挥着重要的作用.
2.3 大数据技术框架
根据大数据处理的生命周期,大数据的技术体系涉及大数据的采集与预处理、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘、大数据可视化分析及大数据隐私与安全等几个方面[6-8].图1是大数据技术的主要架构示意:
在数据采集层面,大数据的一个重要特点就是数据源多样化,包括数据库、文本、图片、视频、网页等各类结构化、非结构化和半结构化的数据.因此大数据处理的第一步就是多源数据的采集、预处理和集成操作.现有数据抽取和集成方式可以分为以下4种类型[9]:基于物化或ETL引擎方法、基于联邦数据库引擎或中间件方法、基于数据流引擎方法和基于搜索引擎方法.数据经清洗、预处理后存入到分布式数据存储系统中,成为数据挖掘的基础.
大数据对于存儲系统带来的挑战主要包括存储规模巨大、存储结构复杂及数据服务提供要求高等.大数据存储系统面向的数据总量一般达TB、PB甚至EB级,且包括结构化、非结构化、半结构化的数据,数据之间的关联关系也较为复杂.同时由于现在技术驱动的发展,信息处理的实时性要求很高.目前大数据存储方面的代表性研究和技术主要有分布式缓存(mem-cached等)、分布式数据库(HDFS等[10])及各种NoSQL分布式存储方案(Redis、MongoDB等).
大规模计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立各种高层抽象或模型,它的出现有力推动了大数据技术的应用和发展.目前已经有很多典型的大数据计算模式和对应的大数据计算系统和工具,典型的计算模式和系统工具如图2所示.
离线计算指在计算开始之前,已知所有输入数据,且输入数据不会产生变化.在离线计算中,一般使用HDFS存储数据,使用MapReduce做批量计算,计算完成后的数据存储Hive,然后从Hive进行展现.而在在线实时计算中,输入数据是可以以序列化的方式一个个输入并进行处理的,在计算开始前无须知道所有的输入数据.在线实时计算对数据处理时间有着较高的要求,但对于延迟阈值大数据界一直没有统一的标准,默认是秒级.针对流式数据的实时处理,称为流式计算,代表的技术有Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql).总之,流式计算是将源源不断的数据实时收集,尽可能快地得到计算结果,然后用于决策支持.
3 交通大数据
数据是智能交通系统的基础,数据的质量和采集、处理方式直接影响到智能交通各个业务系统的应用效果,因此在大数据技术的背景下,明确交通大数据的基本特点,理解交通大数据的建模分析方法,探讨交通数据的数据挖掘方法及其在智能交通控制中的应用具有非常重要的意义.
3.1 交通大数据的特征及分类
按检测方式及信息内容,交通数据可以分为基于位置的交通数据、基于活动的交通数据和基于设备的交通检测数据.基于位置的交通数据主要包括智能手机、GPS定位设备等采集的包含位置信息的数据.基于活动的交通数据主要依托社交媒体如微博、微信等检测,这类数据经常用于聚集事件的发现与分类分析.基于设备的交通数据指的是传统的断面交通检测数据,包括地感线圈、地磁、微波雷达、卡口等.这类数据一般可以采集车辆的实时通过信息,并可以按照统计周期汇总为流量、占有率、平均速度等.与此同时,交通行业也存在着大量的结构化、半结构化和非结构化数据,数据总量也在逐渐增长,以大连市2017年的统计为例,交通信息的采集数据每月增量约30GB,而卡口抓拍的车辆照片及监控视频的每月增量分别为60TB和1050TB,数据体量巨大.同时,交通数据种类丰富,包含车、路、人的各种结构化和非结构化的存储数据,如车驾管数据、交通流信息采集数据、车辆违法数据、信号灯运行数据、各类交通服务媒体渠道采集的数据,如微信公众平台采集的微信数据等.如何有效整合、共享及充分挖掘利用这些数据的价值对智能交通系统的发展具有深远的意义.
3.2 交通数据可视化
当前对大数据特征的描述主要有:3V[11],4V[12]和5V[13]等,陆化普等结合交通大数据的基本类型及特点,认为交通大数据具有6V特征[14],即数据体量巨大(Volume)、数据处理、更新快速(Velocity)、数据模态多样(Variety)、数据真假共存(Veracity)、数据价值丰富(Value)及数据可视化(Visualization).即在传统公认的5V特性的基础上,增加了交通数据可视化.数据可视化是对数据的视觉表现形式的研究,数据可视化的前提是抽取数据的各种属性和变量.随着物联网等技术的发展以及互联网公司数据的不断开放,轨迹数据在城市交通领域的应用越来越多,如滴滴的盖亚数据开放计划以及其举办的智慧信号灯大赛,百度与北京市交管局共同合作的智慧信号灯平台,都在探索和尝试其轨迹数据或以轨迹数据融合其他数据计算后得到的路况数据在智能交通控制中的应用.
在数据可视化表达中,对于时间的表达包括线性时间表达、周期时间表达和分支时间表达三类.线性时间表达横轴为时间轴,纵轴为数据,如流量、速度、交通指数等.如图3为某区域一天24小时的拥堵指数变化图,为线性时间表达方式.
周期时间表达可以反映每天同一时刻数据的变化趋势,分支时间表达目前在交通数据的可视化表达中应用较少.
在数据的空间可视化表达中,以含有位置信息的轨迹数据为主.根据其聚合程度可分为基于点的空间表达、基于线的空间表达(对轨迹点的一阶聚合)和基于区域的空间表达(对轨迹点的二阶聚合)[15].如图4,5,6分别为轨迹点图、轨迹连线图和以车辆轨迹为基础数据生成的OD图.
在数据的时空表达中,有时空立方体(STC)和平行坐标系(PCP)等方法来兼顾数据时空演化、关联特性分析及展示.
4 大数据在智能交通控制中的应用
4.1 交通控制系统
交通控制系统是智能交通系统的核心之一.对组织、控制交通流的流向、流量,维护交通秩序及保障交通安全均有重要的作用.交通控制根据控制范围的不同,交通控制可以划分为单点控制方式、干线协调控制方式和区域协调控制方式.单点控制方式包括单点定周期控制、多时段控制和感应控制等;干线协调控制在有些情况下也称为绿波带控制,此外,还包括感应式线协调控制方式等;区域协调控制是指以区域交通性能指标(如总延误、停车次数等)为控制目标,构建信号控制参数(周期、绿信比、相位差、相位相序等)和交通状况(流量、离散性等)的数学模型.并依靠模型计算来优化信号配时方案和策略的控制方式,可分为定时控制、脱机自适应控制和在线实时自适应控制等方式.经典的区域自适应控制系统以英国的SCOOT系统和澳大利亚的SCATS系统为代表.根据检测器设计的位置、采集方式的不同,各个系统分别有自己的自适应控制模型和算法.如SCOOT要求检测器设计在路口上游距停车线80~150m处,根据检测数据预测每条进口路段上在当前放行阶段内的车辆到达、放行及车辆排队,称之为“排队模型”,如图7所示,在排队和放行预测的基础上,通过周期、绿信比、相位差三个优化器的协同工作,来实现区域自适应优化控制.SCATS系统利用停车线检测器,以“饱和度”,即绿灯使用率为控制原理,根据实时的交通检测信息,在方案库中选择最优控制方案实现自适应控制.
4.2 互联网大数据下的交通控制
大数据技术和交通大数据的发展为智能交通系统带来了新的机遇和挑战.大数据应用于智能交通系统尤其是智能交通控制中,不能仅仅是简单地将大数据分析方法和开发技术移植或者套用到交通系统里[16],而是要基于对交通控制基础环节、方法深入了解的前提下,首先分析交通数据的特征及交通控制的具体数据需求,进而考虑数据预处理技术的应用,如是否需要对多源交通数据进行融合处理等.进而按照控制需求组织数据,从数据中提炼有效特征信息、发现规律来反馈、指导控制,以实现区域最优化控制.
各类交通数据均可从不同角度、不同层次为交通控制提供基础支撑.线圈、地磁等断面车辆的实时存在性检测数据常用于车辆感应控制、系统的实时自适应优化控制;浮动车数据、卡口过车记录数据也可以在宏观程度和评价反馈的角度去影响控制方法.智能终端技术的发展使得轨迹数据在交通行业中的应用越来越受到重视.百度、滴滴和高德等互联网公司也在逐漸开放他们的移动导航或其他轨迹数据,使得关于轨迹大数据在交通中的应用也越来越受到重视.
在国内互联网大数据应用于交通控制的实践中,广州交警与高德地图合作,以海珠区、天河区为试验区,构建了全国首个“互联网+信号灯控制优化实验研究平台”,基于高德地图的导航大数据,主动监测路口失衡(各个方向拥堵不均)、出口溢出等异常交通情况,提供控制优化和建议方案.百度地图和北京市交管局共同研究构建了“百度地图智慧信号灯研判平台”,平台初期主要覆盖二环内以及上地、望京主要商务出行区域400多个路口的路况监测,实现信号灯路口拥堵分钟级发现、实时报警,将原来的人工监测转变为远程平台化监控,提高了信号灯路口异常拥堵的发现率.同时百度地图与北京交管局的信号控制系统已经实现大范围的“秒级数据互通”,也是国内首次信号控制系统与互联网平台进行数据融合.滴滴与武汉、济南、成都等交警部门签订了合作协议,基于滴滴的大数据平台和互联网云计算基础设施打造“智慧信号灯”平台,应用其持续可靠的轨迹大数据,探索信号灯配时优化的方法.
4.3 车路协同大数据采集环境下的交通控制
随着车路协同技术和自动驾驶技术的不断发展,使得车辆信息的采集由传统的断面采集变为车辆的全时空运行数据采集,因此,数据不再是制约交通控制方式和策略的瓶颈.现有的轨迹数据存在样本量相对较小、空间分布不均、连续性不好的缺点,因此,当前及目前可能的轨迹数据应用方向主要集中在信号配时的估算反推[17]、路口的关联性分析,控制子区划分等.当前大数据尤其是轨迹大数据在智能交通控制中的应用主要是现有轨迹数据+现有交通控制系统的模式,即利用轨迹的数据特征,为现有的区域交通控制系统提供必要的检测数据、模型参数修正、效果评价等.以SCOOT系统为例,其在实施优化前,需要人工标定诸如JNYT(上游检测器到停车线的旅行时间)、STOC(饱和通行能力)、QCMQ(最大排队清空时间)等,在SCOOT系统实施中称之为Validation,耗时耗力,而基于互联网的轨迹大数据,可以自动学习这些参数,甚至可以达到实时修正模型参数以提高控制精度的效果.
在未来的车路协同和自动驾驶时代,轨迹数据的采集将不再受样本量小、连续性不好等缺点的制约,因此,车辆检测数据的时空覆盖特性更好.同时,自动驾驶的发展也使得交通控制的对象特性发生了改变,彼时的交通控制系统将在更广的范围上去协调和管理车辆的路线规划、路网、路段和路口的时空资源调度,需要随着车联网、大数据和自动驾驶技术的不断发展去做更进一步的深入研究.
5 总结展望
车联网等技术的发展使得交通信息采集的时空范围进一步扩大,交通行业的数据积累也飞速增长,呈现了大数据的5V特性.交通数据可视化有助于挖掘数据背后潜在的价值信息.交通大数据扩展了传统智能交通控制系统的数据源,能够为各种交通控制策略和方式提供直接或间接的数据支撑.在轨迹大数据应用于交通控制方面,国内外的研究学者包括滴滴、百度等互联网厂商已经开展一定的研究和技术研发、验证工作.未来车路协同及自动驾驶环境下,由于信息采集手段的强化和交通控制对象的特性变化,如何构建新一代大交通控制系统是未来交通控制的研究热点之一.
参考文献:
〔1〕李德仁,姚远,邵振峰.智慧城市中的大数据[J].中国建设信息化,2014,58(3):1-12.
〔2〕方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报,2014(5):405-419.
〔3〕Mayer-Sch?nberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt, 2013.
〔4〕Tom Mitchell. Machine Learning. McGraw Hill Higher Education, 1997.
〔5〕程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.
〔6〕冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.
〔7〕孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
〔8〕中国计算机学会大数据专家委员会.中国大数据技术与产业发展白皮书[R].2013.
〔9〕ZHENG Y.Location-based Social Networks: Users[M].New York:Springer, 2011.
〔10〕HDFS Architecture Guide[EB/OL].[2014-08-25].http://Hadoop.apache.org/docs/stable/hdfs_design.htm,20130512.
〔11〕Zikopoups P C, Eaton C, de Roos D, et al. Understanding and streaming data[R].McGraw-Hill Companies,2012.
〔12〕Chen M, Mao S W, Zhang Y, et al. Big data related technologies, chanllenges and future prospects series[M]. Springer Briefs in Computer Science, 2014.
〔13〕李清泉,李德仁.大數据GIS[J].武汉大学学报(信息科学版),2014,39(6):641-644.
〔14〕陆化普,孙智源,屈闻聪.大数据及其在城市智能交通系统中的应用综述[J].交通运输系统工程与信息,2015,15(5):45-52.
〔15〕Chen W, Guo F, Wang F Y. A Survey of Traffic Data Visualization[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(6):2970-2984.
〔16〕《中国公路学报》编辑部.中国交通工程学术研究综述·2016[J].中国公路学报,2016,29(6):1-161.
〔17〕谭墍元,尹凯莉,李萌,等.基于移动导航数据的信号配时反推[J].交通运输系统工程与信息,2017,17(2):60-67.