APP下载

大数据技术在智能交通系统中的应用研究

2020-08-27郑绍振辽宁金洋集团信息技术有限公司

消费导刊 2020年25期
关键词:体系结构交通预测

郑绍振 辽宁金洋集团信息技术有限公司

一、引言

近年来,随着信息技术的发展,互联网络应用的普及,人们的生活、工作方式发生了改变。智能手机带来的技术革命,每天在各行各业产生海量的数据。城市交通、高速公路、铁路、航空等交通运输业从传感器、感测移动设备、照相机等各种设备采集大量的交通数据。智能交通系统(Intelligent Traffic Systems, ITS)是将先进的信息技术、数据通信技术、传感器技术、电子控制技术以及计算机技术等有效地综合运用于整个交通运输管理体系,从而建立起一种大范围内、全方位发挥作用的,实时、准确、高效的综合运输和管理系统[1]。智能交通系统需要处理各种设备收集的大量数据,以进行分析处理,为交通运输、道路规划等提供辅助决策。

车辆的增多,使得城市交通拥堵日益严重,二氧化碳排放量严重超标,交通事故、环境污染等问题已经成为亟待解决的问题,传统的交通管理方式已不能满足现代交通发展的需求。智能交通系统利用现代信息技术、基于交通大数据分析,改善城市交通网络的效率,缓解城市交通问题,减少不必要的损失并改善公共交通效率[2]。目前,车辆中的新型传感器和通信功能交通基础设施的建设,现代信息应用和通信技术等运用在智能交通领域中,使得实时监控车辆行驶速度、行驶路径成为可能,使用这些数据实时评估城市道路交通状况得以实现[3]。感测移动设备、空中传感技术、软件日志、相机、麦克风、射频识别读取器和无线传感器网络等设备无处不在的收集着各种信息,数据爆炸式地增长,如何处理和建模这些非结构化的大量数据,为智能交通系统提出了挑战。

二、智能交通系统中的大数据特征

大数据一词用于表示非常大和复杂的数据集,使用传统的方法和工具无法正确处理。大数据代表资产具有高容量,高速度和多样化的特点,需要特定的技术和分析方法将其转化为价值[4]。

智能交通系统融合了很多先进技术包括电子传感器技术,数据传输技术和运输系统的智能控制技术等。智能交通系统包括六个基本组成部分:先进的运输管理系统、智能出行信息系统,先进的车辆控制系统,商务车辆管理、先进的公共交通系统和先进的城市交通系统。智能交通系统的数据每天在数以万亿的产生,而且数据越来越复杂,综合各种异构数据源的数据来看,可以从数据种类、数据量和速率三个方面来表示交通领域大数据的特点。

数据种类是指交通大数据的数据格式和协议具有多样性、异构性。交通数据采集设备种类繁多,包括传感器、探测器、社交软件等等,都能提供交通运输相关的数据,并且数据质量不一、类型不同,这为如何融合及协调交通大数据带来了困难。

数据量即数据体积,从收集到的不断增加的数据中得出数据数量。各种软硬件设备数据源采集的数据仍在不断地增长,随着交通工具、传感器等数量的增长,运输数据也已经大大地增长。此外,当定位装置被使用时,旅客、货物、车辆会生成更多的数据。来自基础设施、环境、气象等方面监测的数据也作为交通大数据中重要的一部分,为决策者提供数据支持。

速率指随着通讯技术的发展交通数据采集的速度增快,数据采集、检测和处理的能力和速度也增强。比如,目前应用的电子售票及收费交易系统,可以立即生成记录和报告,而传统的人工纸质售票,需要人工处理才能汇总交易数据。当前的智能交通系统极大地提高了各种数据的处理效率。

三、大数据技术及研究方法

(一)大数据技术

智能交通系统能够处理和建模大量原始流量数据,其系统体系结构需要考虑到数据质量,适应交通领域的现有数据标准,保证数据之间的协调,并且提供强大且可扩展的存储系统。开发大数据融合和协调异构数据、动态的智能交通平台,共享各部门提供的交通运输数据流,解决数据互操作性是智能交通系统架构首要解决的问题。

目前大数据技术应用较为广泛的框架是来自Apache的Hadoop,Hadoop是一个能够对大量数据进行分布式处理的软件框架,它运用一种可靠、高效、可扩展的方式进行数据处理。Hadoop的并行工作方式、多个工作数据副本、依赖社区服务等特点,使用户可以轻松、便捷地在Hadoop上开发、处理、运行海量数据的应用程序。Apache Spark是一个高级且完整的通用内存并行计算框架,它包含Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。它运行在Hadoop上,但使用了另一种工作数据集,以及弹性分布式数据集(RDD),RDD可在发生故障后提供有效的恢复。Spark的另一个巨大优势是可以在内存中运行,在某些操作中效率更高。Apache Storm是一种免费的开源实时分布式计算系统,专注于数据流处理或者一些调用复杂的事件处理。Storm用于实时分析,在线机器学习,连续计算,分布式RPC,ETL等。Storm 速度非常快,并且可扩展,确保数据得到实时处理,易于设置和操作。关于数据存储,常规SQL关系数据库并不支持当今的大数据,通常采用NoSQL技术。大数据存储方面,常用的工具有Hive,Cloudera,Cassandra和MongoDB。前两个是基于Hadoop,后两个基于NoSQL。

(二)研究方法

CRISP-DM是1999年首次发布的较为成熟的跨行业标准数据挖掘过程的方法论。它分为六个步骤,(1)业务理解:主要理解业务需求,理解数据采集目标和要求,及相关业务术语和技术术语。(2)数据理解:主要工作是数据收集,检查数据质量,发掘隐藏数据信息。对数据进行可用性评估,确定数据源级别。(3)数据准备:最终数据的选择和准备数据集。此阶段包括许多任务,例如记录,表和属性选择以及数据清理和数据转换。(4)建模:选择和应用建模技术,针对具体问题设置不同的参数,构建不同的模型。(5)评估:评估所建模型和决策的准确性及效率,给出模型算法使用结果,评估其是否实现了预期目标。(6)部署:确定获取的可能用到的知识和结果。这个阶段还着重于组织,报告和展示发现的知识。

四、智能交通系统体系结构设计

及时准确的交通流信息为运输管理提供有价值的数据参考。智能交通系统中的大数据分析能够进行交通流量预测。本文以交通流量拥堵计算模型为应用场景,提出一种有效提取、转换和存储数据的体系结构,体系结构满足以下技术要求:(1)能够处理多种格式和大小的原始数据;(2)确保数据质量;(3)高效的大数据转换和存储;(4)能够在数据级别解决互操作性;(5)强大而高效的分布式存储系统,可扩展,以便处理来自其他交通传感器的数据。

(一)工作流程

本模型的原始数据集来源于交通部门,数据集上传到Hadoop数据系统,并使用Hive数据转换以进行分析。本模型使用Python和Pandas库完成对6268个JSON文件的解析,导出两个CSV表文件,并将文件上传到Hadoop文件系统,使用HiveQL创建表结构,对数据进行清洗,为数据分析和采样创建汇总表,以便预测和输出结果。大数据预测及分析的体系结构如图1所示。

图1 大数据预测及分析体系结构

输出文件被下载到本地计算机后,能够可视化显示交通事故或交通拥堵状态。在预测模型中,需要对上传的样本数据集进行应用数据转换,并将数据集切分为训练集和测试集,建模,预测及评估模型准确性。大数据预测及分析的体系结构如图2所示。

(二)数据清洗

解析后的文件,上传并存储到Hadoop分布式文件系统中,用于数据分析。但是此时的数据文件中存在不准确、不完整或不合理数据,需要在数据集中发现并对这些数据进行修补或移除以提高数据质量。本体系结构中,分为五步完成交通领域数据清洗工作,首先定义错误类型,其次搜索并标识错误实例,然后改正错误,再次文档记录错误实例和错误类型,最后修改数据、录入程序。在数据清洗的过程中,特别注意数据格式检查、数据完整性检查、数据合理性检查和极限检查。

比如,采集的交通警报信息和个体车辆信息,两者具有不同的数据格式,因为交通警报信息可能是通过交通部门的应用程序采集,例如道路拥堵、道路封闭、危险路况、交通事故等数据;另一个信息可能通过用户的移动设备采集,比如车辆的位置、速度、路线等。两者设备和程序采集的信息格式不同,参数属性不同,因此需要进一步进行数据清洗,以便后续进行数据分析。本系统使用正则表达式,条件语句,子字符串,表联接,日期和时间格式以及时间转换等,清理并清除无关字段,使数据规范可用。此外,本体系结构中还创建了一个摘要表来描绘有关流量的基本信息,汇总表来显示按时间,天数交通拥堵的程度。

(三)数据分析及可视化显示

清洗后的数据用于准备进一步分析,本系统采用Microsoft Excel和Power BI进行数据可视化显示。在设计可视化显示过程中考虑不同的交互式视觉效果,来显示交通事件。包括3D地理地图显示,通过带有时间轴的动画地图和热图来显示交通堵塞情况,并报告事故数量和封路情况等。通过使用时间轴,我们建立一个随时间变化的动态地理地图,显示时间线在地图上的流量。通过分析不同设备采集的数据,可以显示用户端设备跟踪的交通拥堵情况,交通事故报告;也可以按周或者按小时来显示交通状况。可视化显示交通状况让用户更直观地了解交通情况。

(四)数据预测

智能交通系统中,交通堵塞数据集是从用户设备的GPS中捕获的,拥有超过9800万行数据。使用这个采样数据集训练机器学习模型,数据集大小为10MB,以CSV格式保存,将训练数据集上传到预测模型中。

对上传后的样本数据集计算和过滤不必要的列,选择一个标签列用来记录拥堵水平,用数字1―5来表示,1表示畅通无阻,5表示红色饱和,此标签类用来建立分类模型。采用数据中存在数据不平衡情况,即水平1到水平5所占数据比例差距大,导致预测模型不准确,因此对5类数据进行分组,分组后数据如果还存在偏差,则补充特殊时段采集的数据到数据集中。

在进行模型训练之前,我们分别选择数据集中90%的数据作为训练集,10%的数据作为测试集;和80%的数据作为训练集,20%的数据作为测试集。经过多次迭代模型和训练,得出90%数据作为训练集预测更为准确。通过调整模型参数,确定参数最优值。在评估验证阶段,选取了分类精度、精度/灵敏度、召回率三个指标来验证模型预测结果。

五、结论

通过介绍大数据特征,及大数据平台的相关技术,本文介绍了智能交通系统体系结构搭建过程,数据分析和预测过程。通过智能交通系统,用户能够了解城市公路及高速公路上交通更拥挤时间;识别交通早、晚高峰时间,识别易拥堵道路和路段。智能交通系统的数据集是不断变化的,因此本文智能交通平台支持扩展数据集,兵提供交互式工具,用于数据分析、处理和数据预测。未来进一步的工作是丰富更大的数据集和更多的分类模型,以便更准确地分析和预测交通情况。随着移动应用设备的普及,网络基础设施的升级换代,大数据处理和挖掘技术在智能交通领域的应用将会越来越广泛和深入,智能交通产业化发展将是未来的发展趋势。

猜你喜欢

体系结构交通预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
繁忙的交通
小小交通劝导员
不必预测未来,只需把握现在
基于粒计算的武器装备体系结构超网络模型
作战体系结构稳定性突变分析
基于DODAF的装备体系结构设计
基于云计算的航天器控制系统自组织体系结构