城市交通GPS数据可视化分析

2016-11-08赵庶旭

计算机应用与软件 2016年10期

关键词：路况路网轨迹

赵庶旭　董　亮

(兰州交通大学电子与信息工程学院　甘肃兰州 730070)

城市交通GPS数据可视化分析

赵庶旭董亮

(兰州交通大学电子与信息工程学院甘肃兰州 730070)

现阶段城镇化进程的不断加快和机动车数量的急剧增加导致道路交通压力不断增大，急需对产生的大量交通数据进行分析来指导市政道路规划和提高城市管理水平，从繁杂的交通数据中发现城市运行的规律。但交通数据具有海量，高维等特点，对其分析具有很大的难度。提出的可视化方法是解决该问题的有力手段，基本思想为通过一系列自动分析算法处理大数据和人脑对图像等可视化图形的先天认知优势，可以从海量复杂的数据中去伪存精，进而对关注的主题改进分析模型，最后获取结论。以山东省淄博市车辆GPS数据作为样例，首先对相关数据进行预处理，然后利用匹配技术还原车辆在道路上特定时刻的状态，再运用聚集计算等技术将车辆运行状态转化为道路通行信息，最后通过可视化界面呈现道路的交通运行情况。结果表明，该可视化方法能够反映淄博市道路通行状况。

可视分析GPS大数据聚类分析匹配算法交通数据

0　引　言

随着城市交通和定位技术的不断发展，车流量、人流量不断增加所带来的大量轨迹数据呈现爆炸式增长，如何在这些错综复杂的数据中归纳出对城市交通发展具有辅助支持意义的信息和规律，对于城市道路交通规划具有重要意义[1]。本文可视化方法重点反映了在海量轨迹数据和人对多维数据有限认知的局限性这对矛盾中寻找平衡，即如何在有限的空间范围内尽可能多地展示轨迹数据当中的各个维度，帮助用户在探索和分析大量数据中看到数据的全貌，很大程度上在发现数据当中隐含的知识时对数据有一个全面的分析，提高人在可视分析中总结出正确的规律和知识。

1　相关工作

国内外对于轨迹数据的可视化已经有很多成果。Tobler等[2]研究了流向图，并绘制了美国的人口1965年-1970年间的迁移地图，其中边的方向用箭头表示，由于箭头造成了边遮挡严重而进行了改进，采用不同的箭头画法,并提出过滤掉一些流量小的边，来减小边的遮挡。Kapler等[3]开发的可视化软件GeoTime可以展示轨迹的各个属性并能跟踪涉及某一属性的事件，采用x、y、z三条轴分别表示轨迹的各个属性的三维视图设计，这种方法在不失对轨迹空间属性展示的情况下引入了时间属性，对充分地利用轨迹数据提供了帮助。

2　本文算法描述

2.1地图匹配过程

在进行所需要的轨迹可视分析之前，轨迹数据需要重建与校准[4]，然后对轨迹的各个属性：空间属性、时间属性和其他相关属性进行可视化。地图匹配技术是一种利用路网信息对原始的轨迹数据进行修正的方法，其基本思想将一连串车辆位置与电子地图上的道路网络进行比较并由此确定车辆相对于地图的位置。该过程主要包括对轨迹的重建、清洗、存储等。

通常接收到GPS数据，精度较差、信号丢失严重、数据量大，本文中的数据采样间隔时间长(2 min)，属于低频采样数据。低频采样数据的特点主要表现为在地图匹配时，单条链路上匹配不到GPS 位置数据的可能性增大，导致相邻GPS点所匹配的链路不能直接连通，从而极大地增加了车辆轨迹的确定难度。相应地，低采样率GPS数据匹配算法[5]对前后轨迹点位置距离较远、难以弄清车辆具体行驶路线的路段和对一些复杂的城市路段(主辅路平行路段)的匹配引入了路网拓扑信息，使该算法更适合于此类情况。另外，由于车辆定位的误差，GPS 点同时投影在相邻路段的概率增加，很难确定车辆的行驶轨迹在哪一条道路上，此算法在处理这种问题时也具有匹配精确度高、计算时间短的特点。为此，本文采用该算法还原GPS数据。

d=2πRγ/36

(1)

(2)

(3)

(4)

(5)

输入路网数据G，GPS数据(p1→p2→…→pn)

Step1初始化候选路径列表。

Step2将位于以点pi(1≤i≤m) 为中心、半径为r的圆形误差域内结合上述公式计算pi的候选链路，直到m个点全部完成。

Step3将符合条件的节点添加至G′(V,E)候选路径列表。

Step4得到候选路径集合，经过计算出的观察值可能性和最短路径约束得到最佳匹配路径G′。

2.2轨迹聚类过程

可视分析[6]旨在利用人的先天感知能力发现数据背后的知识。在这之前，轨迹数据中各个参数要通过一系列的自动算法将其语义展示为用户所理解的方式，如行为特征。在用户分析过程中，较低等级的分析任务如过滤、筛选和规则都可以利用编程处理，降低用户的负担。而聚集分析[8]作为数据挖掘的重要方法，可以将数据按照一定的指定规则来进行划分。目前对轨迹数据的聚类分析主要是对整条轨迹空间上进行聚类或者根据用户指定的目标将轨迹数据的某个维度信息进行聚类。

输入分割好的轨迹段集合D={L1,L2,…,Lnumln},参数ε1、ε2、MinLns。

输出类簇集合O={c1,c2,…,cnumclus}。

For each(L∈D)do{

If(Lis unclassified)then

ComputeNε1,ε2(L);

Assign clusterID to ∀X∈Nε1,ε2(L);

ExpandCluster(Q,clusterID,ε1,ε2,MinLns);

Increase clusterID by 1;

Else MarkLas noise;}

check the clusters cardinality;

图1　确定关键点

3　本文可视化分析方案

3.1GPS数据预处理

本文使用GPS轨迹数据和路网数据作为输入来计算和分析交通拥堵。GPS轨迹数据包括了许多轨迹点。每条轨迹包含一连串采样点。每一个采样点含有车辆IP标识、位置记录(经度，纬度)、时间、速度，当前瞬时方向角、回传时间和一系列随机属性(α0,α1,…，αn-1)。这些采样点是通过时间序列排出的。两个连续的采样点之间的每个区域叫作一个轨迹段。GPS异常数据主要包括定位点漂移错误，车辆在加油站、停车场等的无用信息，传输信号和盲区引起的GPS数据缺失。本课题所采用的是山东省淄博市及周边2014年1月8日1：30～24：00的部分车辆GPS数据。部分GPS样例数据如表1所示。由于GPS数据属于采样数据，在本例中约为1～2分钟发回一次，必然导致在采样过程中存在各种误差，所以本文设置了几组过滤条件(F1～F5)对数据中噪声数据进行剔除。条件设置如图2所示。

表1　本文部分GPS数据

图2　过滤条件设置

3.2路网数据预处理

定制化地图目前在互联网上已有较成熟的应用,本文使用OpenStreetMap[9]开源地图工具,它允许用户通过API接口定制个性化地图。路网数据从该数据库提取(路网范围为N36°～N37°，E117.7°～E118.4°)，不仅包含高速公路,而且包括水道、建筑等。因此,在这里使用编辑工具(Potlatch)首先提取可行驶道路的数据。处理遵循以下几点：1) 过滤掉不连接到主要路网的小公路并确保所有道路连接在一起。2) 两条定向道路之间是明确和单向的关系。3) 要求每条道路的长度小于50公里,保证空间分辨率。

3.3算法实现

3.3.1地图匹配

针对本文所采用的低采样率GPS地图匹配算法。首先作如下定义和约束：1)GPS轨迹段L是由一系列随着时间间隔的连续的GPS轨迹点组成，规定这些点的采样间隔不超过阈值(ΔT≤10min)。即L:p1→p2→…→pn,pi∈L。ΔT是采样点时间间隔。本文采用低采样率GPS浮动车数据,时间间隔为1～2 min；2)空间分析不仅考虑单个GPS点和该点候选路段的距离,还考虑了道路网的拓扑信息。为了避免出现环绕的路径,我们采用最短路径来测量每个候选路径和“真正”路径的相似性。考虑到本文GPS误差和路网宽度，将误差半径设定为50 m。

表2　候选路段

3.3.2聚集分析

结合前面的算法过程，本实验将6个参数dmin、dmax、αmax、ε1、ε2、MinLns设定5组不同的值来观察计算时间、轨迹分段数目和聚类数目。分别为：(1)αmax=160,ε1=4.4,ε2=45,MinLns=35,dmax=dmin+1;(2)ε1=4.4,ε2=45,MinLns=35,dmax=6,dmin=3;(3)αmax=160,ε2=45,MinLns=35,dmax=6,dmin=3;(4)αmax=160,ε1=4.4,MinLns=35,dmax=6,dmin=3;(5)αmax=160,ε1=4.4,ε2=45,dmax=6,dmin=3;结果如表3-表7所示。

表3　参数为(1)时算法的运行时间、轨迹段和聚类数目

表4　参数为(2)时算法的运行时间、轨迹段和聚类数目

表5　参数为(3)时算法的运行时间、轨迹段和聚类数目

表6　参数为(4)时算法的运行时间、轨迹段和聚类数目

表7　参数为(5)时算法的运行时间、轨迹段和聚类数目

由上述的实验数据可以发现：dmin增加，聚类结果增加；αmax增加，轨迹段数目增加；ε1、MinLns结果影响聚类结果簇的数目；ε2越大，轨迹段数目和类簇数目减小[10]。综上，设定参数(4)作为该算法的参数输入，设定该参数时，可以保持37%的数据变化，降低了部分路段小部分数值的频繁变化而影响整个的聚类结果[11]。

4　仿真及结果分析

本文的实验环境包括R i386 3.1.3，Windows 7，CPU(CORE 2 DUO 2.2 GH)，内存 2 GB。R语言编写算法和设计可视化界面，轨迹数据存储在MYSQL的数据表中，JOSM(JAVA OPENSTREETMAP)提供修正后的路网数据。GPS数据集采用山东省淄博市2014年1月8日1：30～24：00的车辆GPS数据，数据量约为21 000条。可视化用户界面如图3所示。数据匹配至地图再进行聚集计算，在图中显示1：30～24：00路网上的平均路况。

图3　可视化界面

基于上述不同时段可视化界面的分析和淄博市城市发展结构特点，该城市是由周村区、张店区、临淄区、恒台县等几个区域构成，作为淄博市最为繁华的周村区和临淄区，交通流量较大。我们也根据文献[12]和文献[13]的交通拥堵评价标准对当天该城市的平均路况进行量化分析，采用的参数依据上述文献。此实验所涉及的路段包括有453条，在这些路段选取中平均选取3000个坐标点绘制平均路况图来反映道路通行信息，图4反映全时段总体的平均路况；其中包括早高峰和晚高峰。

综合上述仿真可以看出，张店区鲁泰大道往西、世纪路全段、中润大道，以及毗邻金晶大道的周边路段的平均路况不佳，车流的速度仅仅持续在10～15 km/h左右，堵车现象较为严重。此外，从路况的时间分布中可以看出两个峰值和三个谷值，在3：00～6：00时，路况较好；6：00～9：30左右，路况变差且一直到1：00左右逐渐缓和；在2：00左右，路况持续变差并达到峰值；在18：00以后，路况逐渐好转。

图4　采样点平均路况

最后，在可视界面中发现连通张店区和临淄区的济青高速相比其他单条道路的车流量都要大，而且在该路段上的车流保持了60～100 km/h速度，这条高速公路为分流车流和加强两个区之间的联系起到了很重要的作用。在允许的情况下可以在两个区之间建设多条城际道路，面对城区间联系的日益加剧，可以更好地迎合不断增加的城市交通压力。如果一条道路发生交通状况无法使用，另一条道路可以继续起到缓解交通和承担枢纽的作用，不至于由于该路段的影响而造成连环的市区堵车效应。

5　实验对比分析

为了证明本文的可视化相关技术方法的优势和全面性，在此与目前主流的处理时空数据的可视化方法-流式地图[14]进行对比。为清晰反映出两种可视化方法的差异，在此使用与上述实验相同的GPS数据，采用流式地图的可视化机制对浮动车数据进行仿真，其中所包括的定义与参数遵循文献[14]。仿真结果如图5所示。从本仿真可以看出：(1)图中车流量较大的临淄区出现了轨迹相互重叠的现象，路网中线条越粗越密则反映该条道路上的轨迹数据越大，对该区地图放大也不能分辨具体道路的车流变化情况，对于分析者了解和总结路网运行规律有很大的困难；(2)流式地图在面对海量的轨迹数据时，这种可视化方案往往可能会出现轨迹相互覆盖和交叉，当数据量进一步增加时轨迹将会填充整个地图，最终呈现的可视化效果使得用户难以分辨和总结繁杂数据中的交通运行规律。此外，当用户对研究的问题比较陌生时，数据量的过多展现可能会导致用户分不清哪些问题是要被忽略的，进而对所关注的主题产生干扰，影响可视化模型中用户反馈调整分析模型这一步骤的准确性。本文提出的可视化方案以图3的可视化界面和图4的统计图相结合的方法，在展现车辆运行状态的同时总结出交通运行中出现的问题，这种可视化方法使用户在观察和分析的过程中既可以定位局部也可以从宏观角度发现规律。

图5　采用流式地图方法的可视化界面

6　结　语

随着社会高速发展和交通数据(如GPS 数据)的大量产生，对这些数据的处理工作是一项挑战。本文主要叙述了在面对大量错综复杂的轨迹数据时所采用的可视化方案，通过地图匹配和聚集计算等一系列自动算法将我们需要的数据很好地呈现在了分析者的面前，通过分析者对问题本质的认识逐渐深入，可以不断地改进以前的分析模型，将我们所不知道的隐含结论一步步挖掘出来。高效的自动算法还需要直观的可视化，本文的可视化方案呈现还原到当时的场景中，便于从现象中发现本质。未来会有更多高维繁杂的轨迹数据产生，分析的难度将会进一步加大，可视分析无疑是解决此类问题的有效手段。

[1] 王祖超, 袁晓如. 轨迹数据可视分析研究[J]. 计算机辅助设计与图形学学报, 2015(1):9-25.

[2] Tobler W. Experiments in migration mapping by computer[J].Cartography and Geographic Information Science,1987,14(2):155-163.

[3] Kapler T,WrightW.GeoTimeinformationvisualization[J].Information Visualization,2005,4(2):136-146.

[4] 周保兴.GPS数据预处理方法研究及其应用[D].南京：河海大学，2005.

[5] 姚恩建, 左婷. 基于低频浮动车数据的实时地图匹配算法[J]. 北京工业大学学报, 2013,39(6):2-4.

[6] 蒲剑苏, 屈华民, 倪明选. 移动轨迹数据的可视化[J]. 计算机辅助设计与图形学学报,2012,24(10):1273-1282.

[7] 冯少荣, 肖文俊. DBSCAN聚类算法的研究与改进[J]. 中国矿业大学学报, 2008,37(1):105-111.

[8] Lee J G, Han Jiawei. Trajectory Clustering: A Partition-and-Group Framework[C]//Proceedings of ACM’s Special Interest Group on Management of Data. Beijing, China: [s. n.], 2007.

[9] 陈舒燕. 基于OpenStreetMap的出行可达性分析与实现[D].上海：上海师范大学,2010.

[10] Chetverikov D, Szabo Z. A Simple and Efficient Algorithm for Detection of High Curvature Points in Planar Curves[C]//Proceedings of the 10th International Conference on Computer Analysis of Images and Patterns. Groningen, The Netherlands: [s. n.], 2003.

[11] 李桃迎.交通领域中的聚类分析方法研究[D].大连：大连海事大学,2010.

[12] DB11/T785-2011城市道路交通运行评价指标体系[S].北京:北京市质量技术监督局,2011.

[13] 祝付玲.城市道路交通拥堵评价指标体系研究[D].南京：东南大学，2006.

[14] Scheepens R, Willems N, Van de Wetering H, et al. Composite density maps for multivariate trajectories[J].IEEE Trans. on Visualization and Computer Graphics,2011,17(12):2518-2527.

VISUALISATION ANALYSIS ON URBAN TRAFFIC GPS DATA

Zhao ShuxuDong Liang

(SchoolofElectronicandInformationEngineering，LanzhouJiaotongUniversity，Lanzhou730070，Gansu,China)

At the present stage the ever-acceleration of urbanisation process and the sharp increase in vehicle numbers persistently aggravate the traffic pressure, there is an urgent need to analyse a large number of the generated traffic data for guiding the municipal road planning and improving the level of city management, and to found the laws of city operation from miscellaneous traffic data. However there is great difficulty in traffic data analysis, because the data has the features of mass and high dimensionality. The visualisation approach proposed in this paper is a powerful tool for solving the problem. Its basic idea is that through a series of automatic analysis algorithm to deal with big data and the inherent cognitive advantage of human brain in visualised graphics such as images, it is able to exclude the fakes and retain the essences from massive complex data, and then to further improve the analysis model of the focused theme, and finally to get the conclusion. In this paper we use the vehicle GPS data as the sample data, which are collected from Zibo city of Shandong province. We operated the pre-processing on relevant data first, and then used the map-matching algorithm to restore the status of vehicles on the road at a particular moment. After that we applied the technology of clustering computation to convert the vehicle running status to the road traffic information, and finally presented the road traffic operation situation through a visual interface. Results showed that this visualisation method can reflect the traffic status in Zibo city.

Visual analysisGPS big dataClustering analysisMap-matching algorithmTraffic data

2015-07-19。兰州交通大学科技支撑计划项目(ZC2013 012)。赵庶旭，教授，主研领域：交通信息工程及智能控制。董亮，硕士生。

TP391.9

10.3969/j.issn.1000-386x.2016.10.062