APP下载

大数据处理与挖掘在智能交通系统中的应用

2019-09-10刘勇良

河南科技 2019年4期
关键词:智能交通云计算数据挖掘

刘勇良

摘 要:当前,互联网及通信技术的广泛应用为智能交通系统提供了大量的实时数据,亟需对其进行管理、交换、译制、汇聚和分析研判。互联网及通信技术大大提高了智能交通系统的用户友好度及有效性,提供了可观的经济和社会影响。在物联网和云技术的大背景下,软件架构的需求和智能交通系统新特性需要真实的应用场景来推导。本文主要阐述大数据处理与挖掘技术的应用对智能交通系统所产生的有利影响,并指出智能交通系统下大数据挖掘和处理领域新的工作方向。

关键词:智能交通;云计算;数据挖掘;计算统计

中图分类号:U495;TP311.13 文献标识码:A 文章编号:1003-5168(2019)04-0138-06

Big Data Processing and Mining Techmology which applied

in Modern Intelligent Transportation System

LIU Yongliang

(Henan Traffic and Communication Center, Zhengzhou Henan 450000)

Abstract: At present, the wide application of Internet and communication technology provides a large amount of real-time data for ITS, which needs to be managed, exchanged, translated, aggregated, analyzed and judged urgently. Internet and communication technology have greatly improved the user friendliness and effectiveness of ITS, and provided considerable economic and social impact. Under the background of Internet of Things and cloud technology, the requirement of software architecture and the new features of ITS need real application scenarios to derive. This paper mainly expounded the beneficial influence of the application of big data processing and mining technology on ITS, and pointed out the new direction of work in the field of big data mining and processing under ITS.

Keywords: intelligent transportation system;cloud computing;data mining;computational statistics

1 研究背景

近年来,日益增加的交通量和规律性的拥堵要求从基础设施和交通管理方面提出解决方案。随着交通系统的组件变得更加自主和智能(例如,车辆和基础设施的新通信能力),对运输管理和环境监测的智能运输系统之间的合作的需求日益增加,以便改进交通管理策略。此外,智能交通管理系统方面的投资量日益增加。在新一代的商业管理系统中,交通系统的管理与运输企业的商业战略紧密结合,使得企业在业务规划、服务质量和适应客户需求等方面的影响力不段增强。

所有智能交通系统的参与者作为数据的来源,会在短时间内产生大量可利用的、更新频繁的数据。数据的增长主要来自人们对社交媒体及网络的使用,如车辆和交通系统中新型传感器的使用,云计算和物联网等现代信息和通信技术的应用等。随着移动设备、航空感应技术(遥感)、照相机、麦克风、射频识别读取器和无线传感器网络等信息设备被越来越多地用于收集数据,数据集的规模越来越大。机器生成的和非結构化的数据如照片、视频、社交媒体提要等的比例也在不断增加。在该背景下,智能交通系统中出现了大数据问题。大数据通常包括数据集,其大小超出了常用软件工具在可容忍的时间内捕获、策划、管理和处理数据的能力。大数据能提供相关客户及其行为的详细信息,但应以分散(多代理)方式进行适当分析,同时避免传输大量信息。而云和网格计算基础架构非常适合存储、管理和处理大数据。

从本质上讲,大数据在物理和逻辑上是分散的,但实际上是集中的。所有信息源/存储都是互连的,原则上,任何信息都可以由系统的任一组件访问。大数据量通常在物理层上以分散的方式创建和管理。这会增加访问信息时的信息成本。

为了在分散的信息处理决策和数据传输决策协调之间寻找有效的平衡点,运用大数据处理和挖掘技术并提出相应的应用决策是必须的。这就需要采用创新的大数据处理及挖掘技术,并开发相应的决策算法,以支持智能交通系统应用程序查找、收集、聚合、处理和分析最佳决策制定所需的信息以及有效的用户行为策略[1]。

基于高度可扩展的分布式计算资源的云计算技术为大数据处理及挖掘提供了大容量存储和快速计算的能力。但是,实施交通云并非易事。从用户的观点来看,数据和算法的复杂性隐藏在云中。用户(交通管理机构、司乘人员)期望通过移动或嵌入式设备在互联网上使用相对简单的应用程序和界面。这些设备是连接的,并且(理论上)可以使用其他用户和系统元件提供的所有信息。

本文将从以下五个方面进行探讨:第一,分析以云为基础的结构和智能交通系统的应用场景;第二,考虑用于实施相应数据挖掘与处理技术的架构和用于运输操作的决策策略;第三,讨论三种情况下合适的算法;第四,对基于计算统计的分散式协同大数据处理与挖掘方法进行讨论,并在真实的交通数据中对其效率进行评估;第五,指出并讨论未来在智能交通系统中的大数据挖掘与处理领域的工作方向。

2 现状分析

2.1 需求与应用

目前,大数据已成为世界范围内信息与通讯技术领域主要的科研课题。智能交通系统研究与发展也与大数据处理技术紧密相连,因此智能交通系统也是大数据挖掘与处理的重要领域之一。从应用方面来看,智能城市物流运营对智能交通系统来讲是较为重要的,其对城市货物运输有很大的影响。

2.2 未来信息和通讯技术在智能交通系统中的应用

未来的信息和通讯技术可以满足用户需求,增强智能交通系统并为高性能计算提供大规模的基础架构,这些基础架构具有“弹性”性质[2]。

无线传输、移动互联网、移动传感器等现代移动和通讯技术为智能交通系统提供了良好的技术支持。目前,车辆大多都配备了具有强大通信和数据处理能力的移动设备、传感器等,以期为司乘人员提供环境信息。快捷、高质量的3G或者4G移动互联网连接时刻提供廉价方便的服务,这意味着大多数交通参与者已经实现实时的互联互通。而如何利用这些连接为交通参与者提供可靠有效的需求服务是当前亟待解决的问题。

环境智能这个术语是建立在普适计算、泛在计算分析、情境感知及以人为中心的计算交互设计。在计算机领域,环境智能(Ambient Intelligence,AmI)是指对一个人有感应和反馈的电子环境。

2.3 智能交通系统结构

云计算是个经常被提及的问题,在智能交通系统中,主要从设备、通信和服务层的角度考虑云计算。在车辆驾驶员和外部车辆之的交互,同时考虑车辆到车辆(V2V)和车辆到基础设施(V2I)的交互,以更有效的方式共享和利用外部资源。智能交通系统中的云架构如图1所示。

结构层包括云中可用的所有计算、存储、数据和网络资源。资源可通过资源服务访问,用于云计算、管理和测试平台。基于云计算的智能交通系统分层结构如图2所示。

统一来源层通过使用虚拟机定义对结构层的原始计算资源的统一访问来提供基础架构即服务。

平台层提供平台即服务,包括在统一资源之上的专用工具、中间件和服务的集合,以创建部署平台(例如,调度创建服务和人工测试床)。

应用程序层包含在云中运行的所有应用程序。云中的应用程序执行是分布式的:应用程序可以部分在客户端上执行,部分在云中执行[3]。

3 智能交通系统中的大数据挖掘和处理技术

3.1 大数据挖掘和处理方法

经典的数据处理和挖掘方法是集中式的。为了应用这些技术,数据必须立即就地可用。但是,大数据不断更新并收集在物理分布式存储中,并且数据集中化是不可能的。

使用集中式的处理方法,系统无法实时快速地进行情景适配,并且通过网络传输和存储大数据,在统一位置管理和处理大数据将会非常困难或者不可能实现。因此,开发一种有效的、考虑数据时间和空间分布的分散式结构大数据挖掘及处理算法成为急需解决的问题。

现今,从技术和成本的角度来看,分析和处理大数据已经变得可行。很多大数据框架围绕着商业交易、商业策略分析、识别价值且与结构的或非结构的数据息息相关。大数据处理和挖掘技术有助于将大数据以压缩(集群)的方式进行存储,并查找数据行为准则。接下来简要介绍几种主要的大数据挖掘及处理方法。

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照自变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。时间序列数据具有自然的时间顺序,这与典型的数据挖掘/机器学习应用程序不同,其中每个数据点是要學习的概念的独立实现,并且数据集内的数据点的排序无关紧要。

聚类分析是一组用于对对象进行分类的统计方法,这些对象将不同的组分成较小的相似对象组,其相似性的特征事先是未知的。由于不使用训练数据,这是一种无监督学习。

分类分析是基于包含其类别成员资格已知的观察(或实例)的训练数据集来识别新观察所属的一组类别(子群体)中的哪一个的问题。

3.2 云计算基础设施和大数据挖掘及处理

云计算架构的特点是用户与系统紧密集成,并根据物联网创建虚拟代理。由于数据与每一个用户紧密相连且数据在云上存储,因此,云计算系统会将数据自动进行分配。虚拟用户完全接入系统且对每一条数据都有访问权限。

云系统的用户通常具有有限的计算能力,因为其经常使用移动设备连接到云。因此,大数据的处理及挖掘部分在本地执行,部分由其他代理执行,其收集用户信息并将信息存储在云中。大数据挖掘及处理的主要问题是工作量和通讯费用。由于数据代理/中心的高连接性,云计算的实施处理了大量此类工作负载。

大数据挖掘与处理技术在云计算基础架构中应用时仍保持分布状态。然而,信息可用性的问题被信息成本问题所取代,信息成本问题将以下因素考虑在内,如信息位置、提取速度、质量、可靠性等。对云计算系统有大量的类似但不完全相同的需求用户有很多。为此,应建立不同级别的数据处理以及预先计算的特征,然后有效地与实际用户数据相结合。

在云环境中使用大数据挖掘及处理技术有以下优点:①在没有物理集成的情况下将数据源虚拟集成到系统中;②促进基于成本的选择性大数据挖掘及处理技术;③基于多目标大数据挖掘及处理技术的刺激;④支持多阶段大数据挖掘与处理技术和不同级别的数据处理。

3.3 大数据挖掘及处理技术的未来发展趋势:计算统计

云计算平台有助于数据收集和为计算统计运作提供必要的资源。计算统计是统计学与计算机科学之间的接口,其是统计学数学科学特有的计算科学领域,旨在设计用于计算机实现统计方法的算法,包括在计算机时代之前不可想象的算法(例如,引导,模拟),以及应对分析上棘手的问题。计算统计假设通过使用不同组合的可用数据来应用迭代计算而不是復杂的分析模型。由此产生的问题的解决方案是近似的,然而,在许多实际情况下(大量可用信息,分析系统的复杂和层次结构及数据的依赖性),其可能会比经典方法提供更稳健和精确的结果,甚至可以在经典方法不可行的情况下工作。此外,计算统计应用很简单,不需要复杂的分析或符号程序。

在大数据挖掘及处理方法中,广泛应用计算统计方法,如重采样、引导程序和内核密度,以便在分散式架构中进行回归分析和聚类。

4 交通运输中的大数据处理及挖掘参考架构

在前面章节中,笔者讨论了大数据处理及挖掘在基于云计算的智能交通系统中的应用。接下来,主要分析基于云计算的智能交通系统架构,并对其主要数据流进行解释。此外,笔者还还展示了如何使用大数据处理及挖掘技术处理数据流,并提供足够的信息来满足用户请求。

在云中执行的应用程序是数据密集型的。通过云提供的服务需要处理、汇总和分析大量数据。

综上所述,计算是云计算的瓶颈。因此,大数据处理及挖掘的一个非常重要的挑战是本地数据源(客户端)和云之间数据处理的合理平衡。如果客户端拥有足够的计算能力,则可将数据进行本地预处理,并将已处理的数据提供给云端,以减少云计算压力、节省网络资源。然而,如果客户端的计算能力不允许进行信息处理,则原始数据被提供给云端处理。数据流互联如图3所示。

接下来,笔者考虑用大数据处理及挖掘的参考架构和智能交通系统中的决策阶段。在这个架构中,笔者专注于说明数据流及其处理,以及使用结果来优化参与者策略并满足其要求。图4显示了大数据处理及挖掘的主要架构和智能交通系统中的决策阶段。

需要注意的是,可以使用来自不同提供商的多种云。一些问题对他们来说可能是相似的,他们之间的合作是可能的。智能交通系统的使用者(交通参与者,例如,车辆或行人,商业用户如物流提供商、公共交通工具或出租车,数据提供者如摄像机或探测器,以及交通管理员如交通管理中心或交通管制元件),使用稳定和永久的互联网通讯与云端连接。这创建了一个虚拟用户网络,实际上其是云中现实的镜像。该虚拟现实包含分布式用户数据(部分存储在用户设备中,部分存储在由云提供的虚拟存储中,但仍与用户相关联)。需要注意的是,断开用户与云的连接并不意味着消除其虚拟表示,这仅表示本地存储的数据在云中不可用。

在第一阶段,应对数据进行预处理。原始传感器数据需要非常大的存储空间,并且不能长时间存储。此数据可以在本地处理或上传到云端并在那里进行预处理。预处理的结果存储在用户配置文件中,并且可以在此阶段上载到云。

第二阶段是组织虚拟云信息存储。云数据挖掘是由代理商进行的,云数据挖掘代理收集信息,将其部分复制到云存储中,部分地引用用户配置文件(若其在云中可用)。这些代理商特别关注信息的成本,包括其可用性、可靠性和精确性。

基于云的系统拥有大量用户,应该快速响应其请求。由此,创建人工点对点网络,其面向具体的问题,由云系统解决。例如,可以创建面向最短路径计算、交通灯调节或乘客过境。在人工网络中解决了两个重要问题:估计其参数和预先计算用户策略。

对点对点网络参数的预估是大数据挖掘及处理过程中的主要阶段。其包括估计网络参数以获得网络的实际状态。基于虚拟存储器中的信息,执行参数估计,考虑数据成本并在必要时从物理存储器接收数据。这些参数可以是网络节点上的行程时间,交叉口上的队列或公共交通站点之间的行程时间。一个非常重要的方面是将信息的动态变化考虑在内,这是由数据挖掘客户端提供的。

5 智能交通系统中的决策支持

笔者考虑三种智能交通系统应用场景:第一,合作交叉路口控制,通过调节交叉路口控制器来优化交通网络中的车辆流量;其次,个人旅行伴侣,为旅行者、水面驾驶员和运输操作员提供多式联运的动态规划和监控;最后,物流服务伙伴,为受城市环境影响或依赖于货物运输的客户和利益相关者提供福利。

5.1 交叉路口虚拟化控制

此方案使用托管在云中的自适应,半分布式流量管理策略来监控交叉路口控制器,并在车辆集群和流量管理基础架构之间的云中创建点对点网络。其建议驾驶员使用保持交通流量平稳的最佳速度,并根据实时交通情况协助调整交通信号灯、标志。该服务使用实时交通信息和路线数据收集服务来制定优化网络运营策略。

第一步,处理数据流(历史和实时)。

第二步:创建点对点网络,其是用于解决特定问题的虚拟抽象网络(交叉口和区域流量模型、绿波模型、公共交通优先级、阻塞避免等)、估算网络参数(流量通量、密度和速度、行程时间估算等)。

第三步:制定交叉路口控制的静态策略(如增加流量、天气条件的改变、群体活动等)。

第四步:将动态实时信息与静态策略相结合,以便做出最新的控制决策(根据当前条件校正信号周期,协调信号控制器以解决诸如堵塞、事故等)。

5.2 动态多模式行程规划

此方案可帮助旅行者实时规划和调整多模式、门到门的行程。其通过识别最佳运输工具和强大的实时定位,为日常通勤者和其他旅行者提供改进的(即更快、更舒适、更便宜和更环保)的移动性。这种多模式旅程的规划考虑了当前的交通方式、旅行者的背景和偏好、城市交通规则及当前的要求和约束。旅程计划需要获得旅行持续时间的总体指示及适应资源的早期预订(火车或机票)。

第一步:处理数据流(历史和动态)。

第二步:创建点对点网络(中转站、公共交通协调、乘客运输选择等)和网络参数评估(不同运输方式的旅行时间取决于各种因素,如等待时间、乘客到达站点、价格模型等)。

第三步:基于历史数据和预期条件的多模式路线预先规划(热门路线的预先规划、预订路线的预先规划、预期事件的预先规划)

第四步:实际多模式旅程的预先计划路线的动态更新(实际旅行时间估计,在多模式链中先前行程延迟的情况下重新计划,重新规划其他旅行可能性或取消多模式旅程的一部分),以及公共交通时间表的动态更新(按需变更,不同交通方式的协调)。

5.3 行程预订和实时优化路线导航

这种情况有助于物流提供商基于最新信息以低成本保证快速(特别是按时)交付,实现每个车辆和车队效率最大化。优化物流车辆的运动,避免交通堵塞,并尽可能采用最短路线。

第一步:处理数据流(历史和动态)。

第二步:创建点对点网络(交付模型,物流提供商-客户交互模型等),根据网络参数估计(不同路段的行程时间、延迟概率,下降过程时间分布、概率)事故。

第三步:预计划(车辆的初步良好分配,每个车辆的客户的初步订单,每个车辆的初步路线,每个客户的初步时间窗口等)。

第四步:根据最新信息动态更新预先计划的路线(根据当前交通状况重新规划路线,在发生事故或交通拥堵时重新规划,剩余时间的预估等);物流车辆之间的合作;与客户的动态协议(关于下车地点的协商取决于车辆和客户的当前位置)。

6 未来的工作和结论

本文主要对基于云架构和智能交通系统的场景进行分析,并探讨用于实施相应数据挖掘与处理技术的架构和用于运输操作的决策策略,讨论三种智能交通系统情景采用适当的数学方法,以反映智能交通系统对企业和社会的需求和潜在影响。

参考文献:

[1]何晓群,刘文卿.应用回归分析[M].北京:中国人民大学出版社,2015.

[2]张春阳,周继恩,刘贵全,等.基于数据仓库的决策支持系统的构建[J].计算机工程,2002(4):249-252.

[3]刘智勇.智能交通控制理论及其应用[M].北京:科学出版社,2003.

猜你喜欢

智能交通云计算数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于物联网的智能交通系统架构
基于物联网的智能交通系统中的车辆通信网络
基于支持向量机的车牌字符识别方法
基于云计算的移动学习平台的设计
智能交通中的车辆检测专利技术综述
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
一种基于Hadoop的大数据挖掘云服务及应用