数据挖掘技术在交通控制领域中的应用探讨
2017-09-10王倩
王倩
摘 要:本文主要研究交通大数据的信息挖掘关键技术,研究了如何从海量的结构化的、半结构化以及无结构化的交通数据类型中挖掘出有用的知识,充分分析后加以整合,应用在城市道路交通控制中,作为决策时的依据。本文探讨了城市交通控制中各个系统产生的海量数据的数据特点,以及数据挖掘的关键技术在道路交通控制领域中的应用,从理论上的可行性进行了有益的探索。
关键词:数据挖掘; 决策支持; 交通控制;
1 引 言
城市道路管理系统的信息来源的多样性,导致各类数据库中累积了大量的结构化、半结构化和无结构化的数据类型,还有其他动态的复杂的数据信息。而道路交通系统时刻都产生了大量的数据,仅就城市的某一个道路交叉口而言,卡口系统、路口的实时监控系统、超速检测系统、闯红灯违章拍照系统、埋设在地面下的环形线圈车辆检测器等,这些设备产生了海量的数据,且随着交叉口流量的增多数据的增长速度也越来越快。因此,如何存储和处理这些数据,它们在整个交通领域中是否都是有价值的,成为了研究的重点。
目前处在信息大爆炸的时代,“数据爆炸,知识匮乏”,数据挖掘正是从海量的数据中发现潜在的可以描述或者预测数据的特性的知识,达到知识发现的目的。工信部发布的物联网“十二五”规划中,将信息处理技术作为4大关键技术创新工程之一,主要包括海量数据存储、数据挖掘和图像视频智能分析,可见数据挖掘在整个研究领域中的重要程度。道路交通领域作为图像处理和数据挖掘的重要应用领域,同样具备了应用大数据和数据挖掘技术的可能性。主要研究数据挖掘在道路交通控制中的应用,是本文重点要探讨的问题。接下来先从交通数据的数据特点开始探究。
本文第2节介绍了交通大数据的数据特点,第3节介绍了数据挖掘关键技术,第4节探究了数据挖掘技术在道路交通中的应用,最后,进行了小结。
2 交通大数据的数据特点
当前在交通领域,监控系统、通信系统、信息采集系统、综合管理平台系统无时无刻不在产生海量的数据。大数据都具备了“4V”特性:规模性(volume)、多样性(variety)、高速性(velocity)和价值性(value)。
其中规模性(volume)集中体现在数据的规模上,当前处在信息大爆炸的时代,在交通领域无时无刻不在产生着海量的数据,数据的规模也从PB、EB级甚至扩展到ZB级。由此可见在交通领域数据量巨大。
交通大数据的多样性(variety)主要体现在交通数据来源众多,数据类型多样,如车辆检测器采集到的交通流参数,监控系统采集到的图像和视频类数据,交通管控中心从不同的监控中心收集到的音视频以及图像等数据,闯红灯违章拍照系统采集的违章信息等不同来源的数据类型,共同构成了交通大数据的多样性。
交通大数据的高速性(velocity)主要体现在对交通数据处理的时效性上,即在规定的时间内及时处理,如交通异常事件检测系统中,一旦系统发出火灾、车祸等异常事件预警,一般都需要在很短的时间内进行及时的响应。
交通大数据的价值性(value)集中体现在决策支持上,即通过数据挖掘关键技术从海量的大数据中挖掘出能够支持决策的有用的知识。
同时,也必须看到,由于交通领域数据的特殊性,也具备了数据存储分散的特点,不同部门之间,不同城市之间,甚至不同地点之间都有可能存在着多种多样的数据,存储位置的分散性导致了在信息共享方面的不足。针对以上特点,第3节重点介绍数据挖掘关键技术。
3 数据挖掘关键技术
在通常的大数据挖掘技术中,一般都是指基于大规模文件系统的数据挖掘技术,例如基于数据库的数据提取、数据仓库集群处理等[1]。 相较于单纯的数据分析和处理,数据挖掘一般不预先设定主题,只需在处理后的数据上使用现有算法或改进算法进行计算或预测,实现数据分析的高级需求。数据挖掘可以看作是知识发现(KDD)其中一个步骤,针对有关数据选择合适的模型或算法。其中最为经典的算法主要有用于聚类的K-Means、用于统计学习的支持向量机SVM和用于分类的朴素贝叶斯(Naive Bayes),数据挖掘的算法原理都相对来说很复杂,计算量和数据量也很大。数据挖掘在具体应用时主要面临的挑战有大型的數据库,高维的数据,统计的有效性和准确性,数据的改变导致的模型的改变等一系列的挑战。
第3节主要研究数据挖掘的关键技术及其在交通控制领域中的应用探究。总体而言,在城市道路交通控制领域,数据挖掘技术可以应用在智能交通系统中的决策支持子系统中。
3.1 数据挖掘经典分析法
从功能上进行分类,数据挖掘主要分成两大类:分类和预测。
分类算法对特定的样本训练和学习,发现新的知识,并且能够在给定一个新的样本后,自动对其类别归属进行预测。具体而言,分类过程主要有两大步骤:首先,建立一个可以描述数据集和概念集的模型,假定每个样本属于一个预定义的类,由类标属性确定训练集,形成训练样本,单个样本可以由分类规则、统计学、判定树等方法提供。
其次使用在第一步中建立的模型,对新加进来的未知样本进行分类。首先评估模型的预测准确率,对每个测试样本,将已知的类标和该样本的预测类进行比较,统计测试集的被正确分类的百分比。其中,给定的测试集必须独立于训练集,以免出现“过分适应数据”的情况。
比较经典的分类算法主要有朴素贝叶斯、支持向量机、人工神经网络、J48等,从这些经典算法中也扩展了不少的改进算法,提升分类器的分类效果。
预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。和分类法相同之处在于都需要构建模型来估计未知值。只是分类法主要是用来预测类标,预测法主要是用来估计连续值,且预测更多的采用线性、非线性回归等统计学的手段进行,大都用在商业领域中。endprint
在数据挖掘过程中,对数据的预处理可以提高模型的准确性和有效性。预处理的方法主要有数据清洗、相关性分析、数据变换等。数据清洗主要是为了消除或减少噪声,减少空缺和错误值,减少学习时的混乱,对数据中的“脏数据”(冗余、噪声、错误、不相关等)进行处理,可以加快数据挖掘模型的学习速度,使得学习结果更加精确。从而提高模型分析的准确性。
3.2 大数据处理平台
在智能交通领域中,数据瞬息万变,时效性非常强,当一个或多个数据流到来,需要立即对数据进行处理或存储,并且很快,数据就会失效,失去利用价值[1]。随着大数据时代的来临,应对大数据的处理平台也应运而生,主流的平台主要有Hadoop、Apache Spark、S4, Storm等。Hadoop 本身存在的缺点是不能有效适应实时数据处理需求,为了克服该局限,一些实时处理平台如S4, Storm 等随之产生了,他们在处理不间断的流式数据方面有较大的优势[2]。
3.2.1 Hadoop大数据处理平台
Hadoop是一种分布式计算的大数据实时处理平台,实现了计算机集群中的分布式运算,在海量大数据分析处理中应用较为广泛。它允许用户在不了解底层细节的情况下,开发分布式应用程序,充分利用集群的概念和方法进行数据的高速运算。该框架的核心设计是分布式文件系统(HDFS)和MapReduce两部分组成,通过这两部分存储资源、内存和程序的有效管理。分布式文件系统(HDFS)为海量的数据提供了存储方法,允许以流的形式访问文件中的数据;MapReduce提供计算,二者相互独立又相互配合。通过Hadoop,可以轻易的将多台普通的或低性能的服务器组合成分布式的运算-存储集群,提供大数据量的存储和处理能力。MapReduce通过Map(映射)和Reduce(化简)来实现大规模数据的并行计算。通过Map(映射)函数,把一组键值对映射成一组新的键值对;指定并发的Reduce(化简)函数,达到分散运算的效果。
3.2.2 Apache Spark大数据处理平台
Apache Spark是Apache的开源项目之一,可以利用Java、Scala或Python语言编写程序的大数据处理框架,为用户提供了一个用于管理不同性质的数据集和数据源的大数据的处理平台,它可以提升Hadoop集群在内存中的运行速度。Spark的处理速度极快,而且支持多种语言为其编寫应用,能够轻松处理实时数据流,支持复杂的分析操作[3]。
4 数据挖掘技术在交通领域中的应用
在城市交通控制技术领域,从半结构化甚至无结构化的数据类型中挖掘出来的有用的知识或发现,可以广泛的应用在了智能交通平台的基础平台上,如交通诱导系统,决策支持系统;异常事件检测系统等。下面从几个方面说明数据挖掘技术的应用。
4.1 交通异常事件检测
交通异常事件检测主要是通过图像或视频数据中发现异常状况,也就是在数据集中和其他显著不同的异常事件,如交通拥堵、交通事故、逆向行驶、车辆违章等状况,通过对这些异常的检测,可以尽早的发现事件的发生,从而为后续的处理提供科学而准确的依据。
4.2交通运行状态分析和交通诱导
交通诱导是通过分析车辆检测器检测到的各项交通流的参数,根据实时采集到的数据和历史数据记录的区别,对交通的实时运行状态进行分析,如可以使用关联规则、聚类、分类等挖掘方法,挖掘出路网规划和交通拥堵、交通事故之间的关系,从而依据挖掘结果实现对当前交通运行状态的准确而有效的分析,为迅速而快捷的实现交通诱导做数据上的支持。
4.3 指挥中心决策支持
城市道路交通指挥中心是整个交通部门的核心,汇集了城市大小各个路口和道路的各项信息,因此信息量也很巨大,并且数据来源也比较广泛,在做出决策时,可以采用大数据平台对有用的知识进行挖掘,并将这些知识充分应用到决策支持中去,为更好的做出决策做充分的准备。因此进行决策支持时,大数据的处理、数据挖掘的算法应用,都可以有效的应用。
指挥中心在进行决策支持时,可以充分运用GIS地理信息系统,将整个城市的交通路网显示在电子地图上,通过对交通设施、交通状态、交通结构的分析,结合驾驶员信息、车辆信息、天气、路况等相关信息的综合整合,积极探索这些数据内部的规律性,进行深层次的数据挖掘,为提升整个城市的交通管理水平提供决策支持和数据支持。
5 结 论
随着我国社会经济的发展,交通领域也发生着巨大的变化,如数据来源的多样性,海量的数据类型,多源异构数据的树立,大数据的分析和处理等,这些变化带来的不仅仅是巨大的社会价值,更多的是挑战。本文探讨了数据挖掘技术在交通领域中的应用探析,通过对交通大数据特点的分析、数据挖掘关键技术、大数据平台应用的探讨,简要的分析了数据挖掘关键技术在道路交通控制领域应用的可能性,通过应用新的技术和方法,相信可以能够应对越来越严重的交通拥堵、交通事故和环境污染等一系列的交通问题。
参考文献:
[1]杨晓牧. 试述大数据在智能交通领域的应用[J]. 交通节能与环保, 2015, 11(1):76-79.
[2]周为钢, 杨良怀, 龚卫华,等. 大数据处理技术在智能交通中的应用[C]// 中国智能交通年会. 2013
[3]于硕, 李泽宇. 交通大数据及应用技术研究[J]. 中国高新技术企业, 2017(4).endprint