APP下载

基于CRISP-DM的交通大数据分析方法及实践
——以重庆市手机信令数据和RFID数据为例

2017-12-08赵必成

城市交通 2017年5期
关键词:信令基站车辆

周 涛,赵必成,俞 博

(重庆市交通规划研究院,重庆400020)

基于CRISP-DM的交通大数据分析方法及实践
——以重庆市手机信令数据和RFID数据为例

周 涛,赵必成,俞 博

(重庆市交通规划研究院,重庆400020)

随着交通大数据研究及应用日益广泛,其中存在的问题也越来越明显。很多分析结论存在概念模糊、数据质量不确定、分析方法不清晰等问题,导致分析结果经不起推敲,也缺乏可比性。究其主要原因是未能形成科学的大数据分析方法和统一的分析标准。提出基于CRISP-DM的交通大数据分析方法,包括目标要求、数据理解、数据准备、数据建模、模型验证、工程化应用(部署)6个阶段。结合重庆市交通大数据平台建设实践,以手机信令数据和车辆RFID数据为例,详细阐述数据理解、数据建模和模型验证三个重要步骤的具体做法,探索如何实现交通大数据分析的标准化、指标化和透明化。

交通大数据;大数据分析方法;数据理解;数据建模;模型验证;重庆市

0 引言

随着信息技术的迅猛发展和移动互联网技术的大规模普及,席卷全球的大数据时代已经到来。通过海量数据的挖掘与分析辅助决策,交通大数据已成为国内外交通行业研究与应用的热点,但随之而来的问题也日益明显。日前,高德软件有限公司、滴滴出行科技有限公司、荷兰交通导航服务商TomTom相继发布2016年中国城市拥堵排名。虽然几家机构均采用拥堵延时指数作为唯一的排名依据,但结果差异很大。例如,重庆市在三个榜单中分别排名第四、第二、第一。造成排名结果巨大差异的原因可能来自以下几个方面:

1)分析范围不同。例如,高德对重庆市的评价选择的是内环路以内(约280 km2)区域。如果采用主城区(约780 km2)作为统计范围,拥堵程度会变得小很多。

2)分析时段不同。高德为早晚高峰各2 h,滴滴为早晚高峰各3 h,TomTom为晚高峰。分析时段拉长,指标值可能降低。

3)参数取值不同。拥堵延时指数定义为高峰时段出行时间与畅通状态出行时间的比值。因此,路段畅通状态车速是影响指标最重要的参数。而重庆市由于干路上立体交叉口较多,导致绿波状态下的行程车速显著高于非绿波状态,造成不同统计机构的畅通车速不同。

4)指标单一。仅采用拥堵延时指数,无法准确描述城市交通拥堵状态,拥堵持续时间长短也应作为重要指标。除此而外,分析时长选取、指标加权方法、道路计算范围等,均会影响指标计算结果。

由此可见,大数据分析中,由于缺乏对一些概念的准确定义以及科学的分析方法,使得各家机构发布的结论差异很大、众说纷纭、莫衷一是。长远来看,这对交通大数据的应用十分有害。

1 交通大数据分析方法

1.1 CRISP-DM简介

跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining,CRISP-DM)提供了一个数据挖掘生命周期的全面评述,包括项目的各个阶段、不同阶段各自的任务以及这些任务之间的关系;关系存在于任何数据挖掘任务之间,这些任务依赖于最终目的、背景、用户的兴趣,但最重要的是数据[1]。

数据挖掘项目的生命周期由6个阶段组成(见图1)。阶段顺序不是严格不变的,经常会在不同阶段之间移动,这取决于每一阶段或其中一个阶段某一特定任务的结果,因为每个阶段的结果均对下一阶段起关键作用,箭头指出了阶段之间最重要和频繁的关联依赖。其中黄色代表数据挖掘过程中最为重要的部分。

1.2 CRISP-DM各阶段分析

图1中的外圈形象地表达了数据挖掘本身的循环特性,数据挖掘不是一次部署完就结束的活动。在项目进程期间和方案部署过程中获得的经验教训可能触发新的、通常更值得关注的问题。涉及的阶段包括:

1)目标要求。最开始的阶段从应用角度理解项目目标和要求,接着把这些理解转换成数据挖掘问题的定义和实现目标的最初规划。

2)数据理解。本阶段开始于收集原始数据,对数据进行装载,描绘数据,并且探索数据特征,进行简单的特征统计。接下来是熟悉数据、了解数据,例如,检测数据的量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形成对潜在信息的假设;检验数据的质量,包括数据的完整性和正确性,缺失值的填补等。这些活动的目的是熟悉数据、理解数据、甄别数据质量、发现数据的各种应用可能和适用范围。

3)数据准备。本阶段包括从最初原始数据构建到最终数据集(作为建模工具的输入)的全部活动。数据准备很可能被执行多次并且不以任何既定的秩序进行。其任务既包括表、记录和属性的选择,也包括为建模工具准备数据的转换和清洗。

4)数据建模。在这一阶段,会选择和使用各种建模技术,并对其参数进行调整优化。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这通常需要重新返回到数据准备阶段。

5)模型验证。这一阶段已经构建了一个(或多个)从数据分析角度看似高质量的模型。在最终部署模型之前,要对模型进行较为全面的验证,重审构建模型的步骤以确认能达到目标要求。另一关键目标是判断是否存在某些重要问题未被充分考虑。

图1 基于CRISP-DM的数据挖掘流程Fig.1 Data mining process based on CRISP-DM

6)部署。模型的建立通常并不意味着项目的结束,数据需要在部署之后,才能实时不间断的输出,从而达到大数据的工程化应用。

1.3 基于CRISP-DM的交通大数据分析方法

交通大数据往往是海量原始的时空数据,并不能直接得到应用于城市规划及交通规划的相关结论。必须采用正确的数据挖掘技术体系,得到科学合理的评价指标和分析结论,以支持交通规划及研究工作。下文分别以手机信令数据和车辆RFID数据为例,重点针对数据理解、数据建模和模型验证三个阶段,阐述基于CRISP-DM的交通大数据分析方法和应用实践。

图2 手机信令数据中的信号漂移Fig.2 Signal drifting in the cellular signaling data

图3 手机信令监测人口与统计人口对比Fig.3 Population estimated by cellular signaling data vs.the population estimated by statistical method

2 手机信令数据分析方法

2.1 数据理解

2.1.1 对手机数据信号漂移的认识

手机信令数据是一组非等时、等距回传,定位频繁跳跃且具有时间顺序的时空数据。与传统的GPS定位数据不同,手机信令数据采集包括主动和被动机制,并且通过基站定位实现位置追踪[2]。图2为某一志愿者用户在2016年5月12日15:50至13日07:59时间段真实的停留位置。通过追踪该用户的手机信令数据发现,数据并不是由同一基站服务,而是包含了在12个不同基站间来回250次的定位切换。因此,在构建信令分析模型(例如停留点模型、职住识别模型)时必须考虑这一特点,区分用户真实的出行发生和信号漂移现象。

2.1.2 对手机干扰数据的认识

通过手机信令监测得到的人口分布并不直接对应于真实人口分布,运营商采集得到的用户信令包含了流量卡、物联卡、移动座机、非活跃用户和一人多机等干扰数据。其中前三者可以通过运营商协调相应的登记信息在数据源头做数据过滤。非活跃用户则可以通过后期数据处理模型,识别出长期静止不动及不产生通信行为的用户。而一人多机则没有很好的办法实现数据清洗,因为使用相同登记信息注册的设备并不能保证真实是一人使用,一人同时使用的设备也并不产生相同的轨迹信息,而且同一人同时使用不同运营商的设备更无法识别。

通过数据分析得到2016年中国联通、中国移动在重庆市主城区常住人口用户分别是134万人和719万人(通过连续跟踪用户每日出现情况,并未做用户类型筛选)。由于并未开展基于中国电信数据的职住分析,但按照大致的运营商市场份额推算通过三家运营商的手机信令数据监测出的常住人口约1 000万人。而根据重庆市统计局公布的2016年统计年鉴人口约为851万人(见图3)。两组数据存在较大差距,也正说明在使用手机信令数据开展职住模型设计时建立相应的干扰用户清洗机制的必要性。

2.1.3 对4G上网信令数据的全新理解

传统的手机信令数据主要是通过采集2G,3G用户的手机通话、短信、开关机以及周期性位置更新和位置区切换等行为产生的控制指令[3]。随着移动通信网络的不断发展,如今更高速、更稳定的网络以及信令采集技术的提升,让人们在享受更优质便捷的移动通信网络服务的同时,也让基于手机信令的各种数据挖掘分析有了新的生命力,未来基于手机信令的居民活动规律分析将不再局限于职住分布的分析监测,必将延伸至更多更精细的分析方向中,如轨迹分析中的出行路径分析、出行方式分析,出行活动性质分析,出行链分析,活动空间分析。

1)4G采集频率大幅提升。

以重庆市中国移动、中国联通的2G,3G信令为例,用户的日均信令记录数约为30条,而4G上网信令的采集用户单日记录可达上百条,甚至超过1 000条,是传统2G信令数据量的10~20倍。图4为多名志愿者用户的日均记录数分布对比,可以看出绿色框内的4G用户记录数比红色框内的2G,3G用户记录数有显著提高。

从用户的信令平均采样间隔对比来看,4G上网信令的采样间隔显著降低,如表1中重庆市移动2G,3G间隔小于10 min信令占比约为46%,而4G上网信令的采集让这一比例提升至89%,说明4G用户的信令采集变得越来越密集。

2)4G基站定位精度提高。

手机基站定位主要是借助信令中的基站编号来确定手机用户所处的空间位置。该定位精度取决于基站小区服务半径大小:在城区基站布局较密,基站小区服务半径较小,定位精度可达几百米;在郊区或农村,基站布局稀疏,基站小区服务半径很大,定位精度从几百米至几万米不等[4]。4G基站的服务半径较2G基站明显降低,76.8%的4G基站服务半径在600 m以内(见图5)。随着4G网络的建设,4G基站布设更密集,服务半径更小,定位会变得更准确。

2.2 数据建模

2.2.1 模型建立

在有了明确的目标需求和深入的数据理解后,针对数据的质量、精度和特点设计算法模型和建立模型所用的数据集。在模型的建立过程中应根据整体数据分析流程,分层建模,高效利用各阶段中间成果。图6以手机信令的职住模型为例,说明职住识别分析流程,包含各子模型的设计,每个子模型都有中间成果的输出,这些中间成果的叠加、融合能产生更丰富的结果。

1)停留点识别模型:根据用户原始的轨迹识别出停留位置,形成用户每日出行OD,识别用户的停留位置、停留起止时间。

图4 2015年5月某周用户单日手机信令记录数分布Fig.4 Distribution of daily cellular signaling records of a user during one week in May 2015

表1 信令采样间隔对比Tab.1 Comparison on signaling sampling intervals %

图5 2G,4G基站服务半径对比Fig.5 Service radius of 2G and 4G base stations

2)多日稳定点训练模型:叠加用户多日的出行OD,识别出用户规律性出行OD,包括规律性出行的停留位置、起止时间。

3)居住地与就业岗位识别模型:在多日稳定点中识别出用户的居住地和工作地。

4)通勤时间训练模型:根据用户的居住地和工作地结果以及用户每日出行OD,识别出用户每日的通勤出行,综合用户多日的通勤出行起止时间计算平均通勤时间。

5)统计扩样模型:根据每年统计局发布的统计年鉴人口和每月手机信令监测人口,得到各类型区域对象每月的人口绝对量。

6)职住平衡评价指标体系:利用各阶段成果实现职住平衡评价指标的计算。

图6 基于手机信令的职住模型设计Fig.6 Job-housing model based on cellular signaling data

2.2.2 模型分级处理和管控

在模型的整体设计中应实现各子模型的分级处理、结果分层管控。以基于中国联通手机信令数据的职住模型数据管控方案为例,在数据类型上划分为原始数据、临时数据、基础数据、中间数据和结果数据(见表2)。根据每一类型的用途、数据格式、更新频率和数据大小设计不同的存储方式及存储周期。

2.3 模型验证

完成数据建模以后需要综合多种数据进行验证,判断模型是否达到要求。在基于手机信令的职住模型验证中主要采用两种验证方式,一种是通过志愿者信令数据计算得到的结果与志愿者真实情况做个体验证,一种是通过其他相关的调查数据做汇总级验证。

2.3.1 志愿者个体验证

图7为某一志愿者结果数据与真实位置数据对比,红色点表示职住模型最终计算得到的用户居住地位置,蓝色点是用户家的真实位置,两者相距约300 m。通过对多名志愿者数据的对比说明模型结果合理,并没有出现较大误差。

2.3.2 调查数据验证

图8红色的柱状图为通过职住模型得到的各组团居住人口占手机信令总人口的分布比例,蓝色的柱状图为人口普查得到的各组团人口占普查总人口的分布比例。两者具有相似的分布规律,只在部分城市新区所在的区域存在明显差距,该结果也很好地说明了模型的准确性。

表2 职住模型数据管控设计Tab.2 Data design of job-housing model

将通过职住模型得到的各组团通勤OD结果与居民出行调查OD结果对比(见图9),在420对跨组团OD中,369对(占88%)绝对误差不超过4%,两者吻合度较好。

2.4 监测指标体系

2.4.1 指标存在不同的含义

大数据监测的指标含义并不完全等同于传统的指标含义,需要一套适用于大数据分析的指标体系。以基于手机信令的居住人口、就业人口识别为例:

1)居住人口识别模型。

当前通过手机信令识别居住人口主要是通过连续多日的信令数据,发现用户在夜间时段具有规律性出现的用户,并识别出这些用户夜间的停留位置。基于此逻辑得到的居住人口分布无法保证用户是否离开原户口登记地所在的乡镇街道半年以上,也不包含外出不满半年或在境外工作学习的人,并不等同于常住人口的概念,该指标更接近于短期内的常住人口分布。

2)就业人口识别模型。

基于手机信令的就业人口识别,需要先通过类似居住人口获取的方法得到白天人口分布。由于白天人口分布包含大量非通勤用户,这部分用户往往与短距离通勤用户混合在一起,很难通过数据分析直接获取。目前主要通过经验参数和调查获取参数辅助计算:1)筛选出行距离大于一定距离阈值α的用户得到通勤出行用户,进而得到就业人口及人口分布;2)根据居民出行调查等途径得到就业人口比例β,通过这一阈值得到通勤出行用户,进而得到就业人口数量及其分布。

所以,基于大数据分析得到的监测指标,需要了解指标真实的含义才能理解数据表达的规律特点。同时需构建统一的指标计算方法和参数选择方法,才能让不同区域、不同机构产生的大数据指标具有更高的准确性和可比性。

2.4.2 指标体系的建立

图7 某志愿者职住模型结果验证Fig.7 Validation of job-housing model by a volunteer

图8 各组团职住模型结果与人口普查结果对比Fig.8 Job-housing model results and census results by different groups

图9 各组团职住模型通勤OD结果与居民出行调查结果对比Fig.9 Commuting OD results of job-housing model and results of resident travel survey by different groups

以基于手机信令数据的职住分布监测为例,城市规划需要掌握城市形态演变规律、内外部联系规律、职住分布特征、居民出行流动特征等,以便科学合理地制定发展策略、布局基础设施、提供支撑服务。传统获取数据的手段主要包括人口普查(每10年一次)、经济普查(每5年一次)、人口抽样调查、居民出行抽样调查等。传统抽样调查耗费大量人力与物力、抽样率低、精度不高、数据更新周期长且只能获取特定时间片段的数据,越来越难以适应新时期的规划管理需求。手机的广泛普及与海量手机信令数据分析技术为城市规划提供了一种高效便捷的数据获取手段。

职住分布监测指标用来描述不同大小区域的职住分布特征及平衡情况(见图10)。其中,需要从区域居住人口中剥离出就业人口和非就业人口,从区域内部就业人口和外来就业人口获得区域就业岗位,进而派生出如职住比、独立指数、外出就业比例、外来就业比例、对外通勤交换强度等职住评价指标。

3 RFID数据分析方法

3.1 数据理解

3.1.1 概述

图10 职住分布监测指标体系Fig.10 Monitoring indicator system of job-housing distribution

图11 RFID系统的工作原理Fig.11 Operating principle of RFID system

无线射频识别(RadioFrequency Identification,RFID)是一种非接触式识别技术,通过射频信号自动识别目标对象并获取相关数据,识别工作无须人工干预。RFID系统主要组成部件包括RFID电子车牌、天线、读写器、数据中心计算机。当安装RFID电子车牌的车辆通过采集点时,采集点的固定天线会检测到相关信息,并传输给读写器。由读写器读取电子车牌信息,最后传输给数据中心。数据中心结合“卡号—车辆”对应关系生成车辆通过相关信息,包括车辆ID、通过时间和位置信息等。从数据采集到车辆对应信息的输出总时耗不超过10 s(见图11)。

由于具有非接触、多目标及移动目标识别等优势,RFID技术已经逐渐成为交通智能化管理和物流供应链管理领域的重要信息技术手段,广泛应用于车辆自动识别、公交优先、集装箱管理、不停车收费等多个方面[5-8]。近年来基于RFID数据或其他类似车辆识别数据,开展车辆OD估计的研究越来越多。文献[9-10]提出基于车牌识别数据的OD矩阵估计模型,该模型利用车牌识别技术获得车辆的运动轨迹,分析车辆的出行特征,得到实时的OD出行信息,并在高速公路上进行实验,取得了满意的效果。文献[11]提出基于视频牌照检测的OD矩阵获取方法,并通过VISSIM交通仿真软件的COM接口构建了视频牌照检测获取OD矩阵的仿真实验平台,最后对其获取的OD矩阵数据进行精度分析。文献[12-13]提出利用车牌检测信息进行动态OD矩阵估计的新方法。该方法以粒子滤波算法思想为基础,通过车牌检测技术获取路径信息、动态行程时间数据等,获得基于车牌检测技术的初始OD矩阵;最后运用路段流量信息校正初始OD矩阵,得到最终的OD矩阵估计值。

3.1.2 数据重复检测

为提高检测精度,RFID检测器会对同一辆车进行连续多次采集,因此会产生同一辆车的重复检测记录。如表3所示,该车辆相隔1 s通过同一RFID检测点。在充分分析数据重检特征的基础上,建立了数据清洗算法。该流程包括:1)计算同一辆车相邻两次RFID检测记录数据的时间间隔;2)如果满足时间差小于1 min,且相邻RFID检测记录的检测设备相同则为重检数据,删除后面一条(见图12)。

3.1.3 数据漏检

尽管RFID检测器有连续检测的设置,但仍然存在漏检的情况。为了解重庆市主城区现阶段RFID检测点的漏检率,针对2016年11月52个检测点早晚高峰时段流量进行调查发现:其中34个检测点漏检率在10%以内,18个检测点漏检率为10%~30%。为进一步了解数据特征,通过对比不同漏检率的RFID检测点,发现现阶段的漏检原因包括:1)车辆RFID标签卡损坏,导致车辆通过时无法检测;2)天线安装角度不规范,无法检测特定位置的车辆;3)网络故障、电源故障,检测到的数据无法传输回数据中心;4)渝籍以外车辆不能检测(主城早晚高峰时段外省车比例约6.2%)。因此,在应用RFID数据时,应将检测结果与调查结果相互验证分析,获取更为准确的结果。

3.2 数据建模

3.2.1 模型体系构建

RFID通行记录数据是一种典型的时空数据。当带有RFID电子车牌的车辆通过RFID采集点时,系统会产生一条与该车辆相关的通行记录数据,可以实时获取车辆的行驶特征和运行状态。目前,重庆市的RFID通行记录数据包括七个属性:RFID检测点名称、RFID检测点方向、车辆ID、车辆通过时刻、车型代码、号牌种类和使用性质(见表4)。利用这些属性字段可以确定车辆的类型和使用性质,类型代码涵盖不同型号的客货车,包括大客车、中客车、小客车、大货车、中货车、小货车等;使用性质主要分为营运、非营运、公共交通和货运四大类。

为了将RFID通行记录数据更好地应用于城市规划和城市交通规划所需的数据指标,利用现阶段的数据特征,构建基于流式处理的模型体系(见图13)。模型体系包括:1)车辆轨迹修复模型,实现车辆在不同RFID检测点之间的轨迹修复;2)车辆OD切分模型,根据点位之间的时间间隔和距离,实现对连续的车辆轨迹的切分,获取车辆多次出行OD及轨迹;3)车辆行为画像模型,利用车辆OD计算出的出行时间、出行距离、出行次数和出行轨迹,对车辆进行分类识别,全面掌握每辆车的出行行为。

3.2.2 模型分层管控

在通过模型构建实现对数据处理的基础上,根据RFID数据不同层次结果的用途进行分层管控。可以在保证数据应用的基础上,最大限度地节约存储资源和提高计算效率。基于RFID数据的分层管控包括五个阶段(见图13):1)原始数据,包括RFID点位信息和RFID原始记录数据;2)中间数据,即基于OD切分模型获取的出行停留点,该数据不是最终结果,但可以用于多类结果的生成,因此应保留为中间数据;3)结果数据,利用原始数据和中间数据计算多种结果,包括车辆OD切分数据结果、车辆运行指标结果和路段流量流向结果。

表3 RFID重复通行记录数据Tab.3 RFID repeated record

图12 RFID清洗数据流程Fig.12 Procedure of RFID data cleansing

表4 RFID数据属性Tab.4 RFID data attribute

3.3 模型验证

3.3.1 模型参数阈值确定

不同模型在不同环境下会有各自适合的参数阈值取值,传统RFID数据的OD切分一般采用时间间隔或者速度值,但其分析结果存在较大误差。RFID数据模型引入时空评价指标(Time and Distance Match Index,TDMI)。利用居民出行调查数据进行比对,得到TDMI的参数取值(见表5)。当TDMI=2.5时,模型结果与居民出行调查数据最为接近。

图13 RFID模型体系Fig.13 RFID model system

图14 基于RFID数据的分层管控体系Fig.14 Hierarchical control system based on RFID data

表5 参数阈值Tab.5 Parameter threshold

表6 组团的RFID点位分布Tab.6 Distribution of RFID points in different groups

3.3.2 模型验证

模型验证是大数据分析方法最为重要且容易被忽略的部分,缺乏验证的模型无法应用于实际数据分析。为了有针对性地对重庆市主城区分片规划,将主城区建设用地范围划分成21个组团。以21个组团为对象统计跨组团OD矩阵。根据RFID点位的分布特征,针对RFID覆盖较广的6个组团进行机动车OD统计,包括大杨石、南坪、观音桥、沙坪坝、人和、渝中组团(见表6)。

居民出行调查的数据是机动车出行人次,而基于RFID的机动车OD是车辆数,根据2014年重庆市主城区居民出行调查得到小汽车单次载客人数为1.3人。30对跨组团OD中24对绝对误差不超过4%,两者吻合度较好(见图15)。

3.4 监测指标体系

基于重庆市主城区的RFID数据和车载诊断系统(On-Board Diagnostic,OBD)数据,构建重庆市主城区机动车使用特征监测指标体系。结合RFID数据的结构特征,从五个机动车使用特征进行分析:

1)车辆分布特征指通勤和非通勤出行车辆使用者的分布特征;

2)通勤出行特征指具有通勤特征的车辆出行指标;

3)区域车辆活动特征指在一定区域内车辆的活跃程度、时空分布和出行强度;

4)车辆行为特征指车辆在运行过程中产生的其他方面特征;

图15 跨组团OD出行量误差分布Fig.15 Distribution of OD errors between different groups

5)非通勤出行特征指除通勤出行外的其他类型出行,如购物、公务出行等。非通勤出行特征包括非通勤OD、非通勤出行时间和非通勤出行距离。

4 结语

随着大数据分析应用的不断扩大和深入,应更加重视大数据分析方法的科学性、分析标准的一致性和分析结论的可比性。基于CRISP-DM的交通大数据分析方法中,数据理解、数据建模和模型验证是特别重要的三个阶段,应尽快实现交通大数据分析的标准化、指标化和透明化。标准化即建立普遍适用的城市交通领域大数据分析方法,实现从简单的数据分析到工程化应用的过渡;指标化即建立适用于城市交通战略、交通政策、交通规划方案、交通管理措施等制定的指标体系;透明化即建立大数据交流平台,加强不同机构之间在大数据的算法、指标、模型等方面的技术交流,使交通大数据分析尽快步入健康、快速、可持续的发展轨道。

[1]Inmon W H.数据仓库[M].北京:机械工业出版社,2000.Inmon W H.Building the Data Warehouse[M].Beijing:China Machien Press,2000.

[2]王西点.基于手机位置的实时交通信息采集技术[J].中国交通信息产业,2009(1):128-130.

[3]李金明.GSM移动通信系统综述[J].兰州石化职业技术学院学报,2001,1(1):21-24.Li Jinming.The Composite Explanation of GSM Mobile Communication System[J].Journal of Lanzhou Petrochemical Vocational College of Technology,2001,1(1):21-24.

[4]杨涛.基于基站切换的交通信息采集技术应用研究[J].现代电子技术,2012,35(15):145-147.Yang Tao.Application of Traffic Information Collection Technology Based on Base Station Handover[J].Modern Electronics Technique,2012,35(15):145-147.

[5]杨涛.RFID在智能交通领域的应用[J].物流科技,2006,29(3):24-26.Yang Tao.The Application of RFID Technology in the Field of ITS[J].Logistics Sci-Tech,2006,29(3):24-26.

[6]曾繁景,刘瑞东,李红波.基于RFID车辆网络信息管理平台的设计[J].通信技术,2009,42(8):132-134.Zeng Fanjing,Liu Ruidong,Li Hongbo.Design of Vehicles Network Information Management Platform System Based on RFID[J].CommunicationsTechnology,2009,42(8):132-134.

[7]王少飞,关可,伍庆文.射频识别(RFID)技术在智能公交系统中的应用研究[J].公路交通科技(应用技术版),2008(3):141-143.

[8]郭稳涛,何怡刚.基于RFID的智能停车场管理系统的研究与设计[J].自动化技术与应用,2010,29(6):60-64.Guo Wentao,He Yigang.The Research and Design of Management System of Intelligent Parking Based on RFID[J].Techniques of Automation and Applications,2010,29(6):60-64.

[9]Dixon M P.Incorporation of Automatic Vehicle Identification Data into Synthetic OD Estimation Process[D].College Station:Texas A&M University,2000.

[10]Dixon M P,Rilett L R.Real-time OD Estimation Using Automatic Vehicle Identification and Traffic Count Data[J].Journal of Computer-Aided Civil and Infrastructure Engineering,2002,17(l):7-21.

[11]魏静.基于视频牌照检测的动态OD矩阵获取方法研究[D].上海:同济大学,2008.

[12]孙剑,冯羽.自动识别环境下车辆的出行矩阵估计新方法[J].同济大学学报(自然科学版),2011,39(12):1800-1804.Sun Jian,Feng Yu.A New Method of OD Estimation Based on Automatic Vehicle Identification Data[J].Journal of Tongji University(Natural Science),2011,39(12):1800-1804.

[13]孙剑,冯羽.基于车辆自动识别技术的动态OD矩阵估计新方法.同济大学学报(自然科学版),2013,41(9):1366-1371.Sun Jian,Feng Yu.A Novel Dynamic OD Estimation Approach Based on Automatic Vehicle Identification Data[J].Journal of Tongji University(Natural Science),2013,41(9):1366-1371.

Transportation Big Data Analysis Methodology Based on CRISP-DM:An Example of Cellular Signaling and RFID Data in Chongqing

Zhou Tao,Zhao Bicheng,Yu Bo
(Chongqing Transport Planning Institute,Chongqing 400020,China)

As the transportation big data analysis becomes a popular research tool,the problems emerge in the data quality and ambiguous analysis method,which leads to unverifiable study conclusions and incomparable results.The lack of a scientifically mature data analysis method and a unified analysis evaluation standard are the problems.This paper proposes transportation big data analysis methodology based on CRISP-DM,which includes six steps:clarifying objectives and requirements,understanding nature of the data,data processing,developing models,model validation and application.Based on the practice of big data platform development in Chongqing,the paper elaborates the procedures of three important steps:data understanding,modeling and model validation using cellular signaling and vehicle RFID data.Based on the application experience,the paper explores how to achieve the standardization,indexation and transparency of transportation big data analysis.

transportation big data;big data analysis methodology;data understanding;data modeling;model validation;Chongqing

1672-5328(2017)05-0042-10

U491.1+2

A

10.13813/j.cn11-5141/u.2017.0507

2017-08-08

周涛(1968—),男,四川内江人,教授级高级工程师,副院长,主要研究方向:交通规划、城市规划。E-mail:taozhoucq@qq.com

猜你喜欢

信令基站车辆
SLS字段在七号信令中的运用
移动信令在交通大数据分析中的应用探索
车辆
基于信令分析的TD-LTE无线网络应用研究
基于移动通信基站建设自动化探讨
可恶的“伪基站”
冬天路滑 远离车辆
基于GSM基站ID的高速公路路径识别系统
LTE网络信令采集数据的分析及探讨
提高车辆响应的转向辅助控制系统