基于多源速度数据的动态权值融合方法研究*

2022-10-13王路曼王理民蔡铭

中山大学学报(自然科学版)(中英文) 2022年5期

王路曼，王理民，蔡铭

1. 中山大学智能工程学院，广东深圳 518106

2. 广东省智能交通系统重点实验室，广东广州 510006

随着智慧交通建设的展开，交通数据采集能力有所提升，数据种类与数量增长迅速，交通大数据的应用成为了交通信息化水平提升的关键。导航平台路段速度数据和浮动车GPS 速度数据具有数据量大、数据更新稳定、容易获取等优点，被广泛应用于交通领域，是常用的道路运行车速数据源。导航平台路段速度数据是指高德或百度等互联网公司发布的实时路段速度数据，此类数据以不同长度的路段为单元进行反馈，包含路段位置、长度、道路等级、运行车速等信息；而浮动车GPS 数据是指实时采集的出租车、公交车、网约车等车辆的位置及速度等数据，将其位置坐标与地图进行匹配，可以得到的路段速度数据。

大多数学者都是基于其中一种数据进行相关研究。刘瑶杰［1］、孟晓彤［2］、鲁武当［3］基于导航平台数据对城市交通拥堵时空特征及未来路况预测进行研究。邹蕊烛［4］、贾洪飞等［5］利用浮动车GPS数据进行城市路网状况分析。Li C［6］基于出租车GPS 实时速度、位置等信息，分析了道路实时拥堵等交通运行状态指标，为出租车及其他车辆出行提供参考。他们在研究中都提到浮动车GPS数据存在因实时车辆覆盖强度不同所导致的部分路段数据缺失、不完整等问题。目前，将两种数据融合使用的研究相对较少。赵顺晶等［7］将导航平台路段速度和浮动车GPS 速度基于固定权值进行融合，但未考虑两种数据的实时更新数据质量问题。在多源数据融合方面，Alwan［8］、丁玥等［9］提出的多源数据融合的基本框架包含三个模块，即模式匹配、实体对齐和实体融合。陈磊等［10］提出了一种基于思维进化的优化BP 神经网络数据融合算法。崔青华等［11］通过构建最优加权融合模型，将浮动车GPS 数据与微波车辆检测数据进行数据融合，并将融合数据应用于行程时间的短时预测。战昕［12］将视频传感器与磁敏传感器获得的车辆检测信息融合，用于提高车辆检测信息的准确度，采用的融合方法是基于数据可靠性的Dempster-Shafer 证据融合理论。上述数据融合方法大多需要掌握终端检测设备和数据传输情况，在实际应用中存在一定局限性。同时，由于数据源格式等不同，并不能完全适用于导航平台路段速度和浮动车GPS速度的融合。

本文将导航平台路段数据和浮动车GPS 数据进行对比分析，提出了数据可靠性概念。针对导航平台路段速度和浮动车GPS 速度设计不同的数据可靠性评估算法，基于数据可靠性指数赋予两类数据实时动态权值并进行融合。该研究方法不仅可以避免单一数据源出现异常造成较大误差的情况，同时可以提高实时更新数据的路网覆盖率，有助于进行区域交通研究。

1 数据源与问题描述

1.1 实验数据

本研究所用到的数据包括导航平台路段数据和浮动车GPS 数据，导航平台路段数据采用的是高德地图的路段速度数据，浮动车GPS 数据采用的是营运车辆车载GPS 产生的速度数据，数据所在区域为佛山市，数据时间范围为2019 年10 月15日至11 月14 日。高德路段速度数据以不同长度的路段为单元进行反馈，共计52 752 条路段产生731 732 350 条数据记录，数据时间粒度为2 min，路段数据的主要字段及释义如表1所示。

表1 路段速度数据字段及释义Table 1 Field and interpretation of road section speed data

浮动车GPS 数据主要包括出租客运、公交客运、网约车、普通货运等10 类营运车辆车载GPS所产生的数据，共计92 827 辆浮动车产生约50 亿条数据记录，数据更新时间不定，浮动车GPS 数据的主要字段及释义如表2所示。

表2 GPS数据字段及释义Table 2 Field and interpretation of GPS data

1.2 数据预处理

由于导航平台路段速度数据是以不同长度的路段为单元进行反馈，而浮动车GPS 数据是以车辆GPS 点为单元生成数据记录，且两种数据的更新频率不同，数据融合前需先将两种数据进行空间和时间同步化处理，主要是对浮动车GPS 数据进行处理。处理过程包括GPS 数据清洗、统一空间坐标系、路网匹配以及路段速度计算4 个部分，处理成为时间粒度为2 min的GPS路段速度数据。

浮动车GPS 数据清洗是为了剔除经纬度异常、速度异常、时间异常、长期停驶等异常数据。浮动车GPS 数据以经纬度为坐标，采用WGS84 空间坐标系，而高德路段数据采用GCJ02坐标系，因此需要将两者统一到同一坐标系下。本研究采用的方法是将GPS 数据坐标和路网地图的坐标转化到同一投影坐标下进行计算，所采用的投影坐标是：Xian_1980_3_Degree_GK_Zo-ne_38， WKID 为2362。使用投影坐标的优点是可以将经纬度转化成以m为单位，以便于浮动车GPS点与道路的距离和后续的路网匹配算法的计算。

路网匹配算法主要是利用方向匹配法和最短距离法进行路网匹配。根据浮动车GPS 数据的行车方向与高德路段数据行车方向的一致性以及最短距离原则，将浮动车GPS 数据匹配到距离最近且与行车方向一致的路段。随机选择一辆公交车在一定时段内产生的GPS 数据进行验证，预处理后的GPS数据有4 162条，正确匹配的数据有3 965条，匹配准确率达到95.3%，则认为该匹配方法能够满足研究需求。路段速度计算是利用浮动车GPS 数据的速度字段作为瞬时速度，计算2 min 内在同一路段上的所有浮动车速度的平均值，作为这条路段在2 min内的速度。

1.3 数据问题分析

导航平台路段速度数据和浮动车GPS 数据由于数据终端采集、传输等均不相同，数据的更新频率和更新范围也有差异。经统计分析发现路段速度数据实时更新较为稳定，更新数据空间范围也相对固定，但更新的部分路段数据质量较差，存在路段更新速度一直为0 km/h、连续多次更新速度为同一值以及个别速度值异常等问题。以2019年11 月14 日为例，有数据更新的路段有32 614条，占佛山市总路段条数的61.83%，路段数据更新情况如图1（a）所示，平均每2 min 有更新的路段为32 604 条，但全天路段更新速度一直为0 km/h的路段有897条，出现连续30 min以上更新速度为同一值的路段有11 843 条，这两类异常数据占佛山市总路段条数的24.15%。

将浮动车GPS 数据清洗后匹配到路段，通过统计分析发现GPS 路段数据的更新空间范围较广，但由于实时车辆路段覆盖强度不同，存在部分路段数据缺失、不完整等问题。以2019年11月14日为例，有数据更新的路段有51 708 条，占佛山市总路段条数的98.02%，路段数据更新情况如图1（b）所示，但平均每2 min 有GPS 数据更新的路段为11 773 条，仅占佛山市总路段条数的22.32%。

图1 两种数据更新空间范围Fig.1 The spatial range of two kinds of data updating

通过上述分析可知两种数据各有优缺点，导航平台路段速度数据更新稳定但范围不够广，浮动车GPS 数据更新范围广但实时更新稳定性较差，而且由于两种数据源不同，两种数据实时更新的路段覆盖范围也不相同。结合两种数据的特征将其融合，不仅可以有效提高路段速度数据的准确率，同时可以提高实时更新数据的路网覆盖率，即提高了查准率和查全率。

2 基于数据可靠性的数据融合算法

2.1 算法概述及框架

本文所提出的基于数据可靠性的导航平台路段速度和浮动车GPS 速度融合算法，如图2 所示。框架包含3 部分内容：1）高德路段速度数据可靠性评估，从历史数据中提取历史时刻数据集合，通过对比实时数据与历史数据分析得到实时数据的可靠性指数。2）GPS 数据可靠性评估，首先将GPS数据清洗匹配到路段上形成GPS路段数据，再依据GPS 历史时段数据更新情况进行可靠性评估。3）将两类数据基于数据可靠性指数进行加权平均得到路段融合后实时更新的数据。数据的可靠性评估是整个算法中最重要的部分，评估指标是可靠性指数r，r∈(0，1)，r越大表示数据越可靠。

图2 数据融合算法框架Fig.2 Framework of data fusion algorithm

2.2 高德路段数据可靠性评估算法

路段速度数据本质上是由交通出行者决定的，而出行者的出行特征总体上具有一定的时间空间分布规律，因此导致了路段速度数据也具有一定的时间周期性和时空相关性。本文以路段历史速度数据以及与之相邻的上下游路段历史速度数据进行路段速度数据可靠性评估。城市路网中存在交叉口会将不同道路打断成多条封闭路段，但为排除交叉口对路段速度的影响，封闭路段不包括交叉口临近路段，封闭路段示意图如图3所示。路段的上下游路段是指封闭路段内与其相接壤的上下游路段，即路段的上下游路段唯一或没有（交叉口临近路段无上下游路段），路段速度数据的可靠性评估算法如图4所示，与之相对应的字段释义如表3所示。

表3 数据可靠性评估算法字段释义表Table 3 Field and interpretation of road section data reliability evaluation algorithm

图3 封闭路段示意图Fig.3 Schematic diagram of closed road section

图4 高德路段数据可靠性评估算法Fig.4 Reliability evaluation algorithm for Gaode road section data

在高德路段数据中加入表征星期的列，取值1～7。输入某路段当前更新时刻的高德路段速度vl和该路段及其上下游路段历史数据中同星期几、同时、同分的速度值组成历史数据集Hl，求出该数据集的阈值集合[Hlmin，Hlmax]和均值Hlmean。当实时路段速度vl∈[Hlmin，Hlmax]，说明该速度数据较为可靠，则当前更新时刻路段数据的可靠性指数rl为1；当实时路段速度vl∉[Hlmin，Hlmax]，则该路段速度数据的可靠性指数与实时速度和历史数据集均值的差值成反比。若该路段的历史数据集均值等于0且当前实时速度等于0，则该路段速度数据的可靠性指数为0；若该路段的历史数据集均值等于0 且当前实时速度不为0，则该速度数据的可靠性指数为1。

2.3 GPS数据可靠性评估算法

浮动车GPS 数据的应用是通过将其匹配到具体的路段上来计算路段速度，因此浮动车GPS 数据的可靠性评估包括两部分：1）2 min时间间隔内成功匹配到某一路段上的GPS 数据条数直接决定了GPS数据的可靠性。GPS数据条数越多数据可靠性就越高，反之则存在数据偶然性的概率越大；2）基于该路段历史同更新时刻且匹配GPS 数据条数较多的路段速度组成的历史数据集，该路段当前更新时刻的路段速度与历史数据集的偏差决定了GPS数据的可靠性，偏差越大，可靠性越低。

利用数理统计方法确定基于路段平均速度估计的最小GPS 数据样本量，即对于某条路段，若给定允许速度误差δ、样本标准差为s，置信度水平为(1 -α)，则GPS数据样本数量n应满足

由上式可计算出，当某条路段时间粒度GPS数据样本数量n≥5 时，置信度水平(1 -α) ≥0.9。即认为若当前时刻成功匹配到某路段上的GPS 点数≥5 个，则该路段的可靠性指数较高。路段浮动车GPS 数据可靠性评估算法如图5所示，与之相对应的字段释义如表4所示。

表4 GPS数据可靠性评估算法字段释义表Table 4 Field and interpretation of GPS data reliability evaluation algorithm

图5 GPS数据可靠性评估算法流程Fig.5 Procedure of data reliability evaluation algorithm for GPS data

在浮动车GPS 数据中加入表征星期的列，取值1～7。整个可靠性评估算法包含两部分：1）由成功匹配到路段的GPS点数决定路段GPS样本量可靠性指数rg1。2）将该路段历史数据中同星期几、同时、同分且匹配到该路段的GPS 个数≥5 的路段速度值组成历史数据集，评估方法与高德路段数据相同，得出GPS 路段速度的可靠性指数rg2，最后将两部分的可靠性指数进行平均得到该路段当前更新时刻浮动车GPS数据可靠性指数rg。

2.4 数据融合

在进行高德路段速度数据和浮动车GPS 数据的数据可靠性评估后，可得出当前时刻的高德路段速度数据的可靠性指数rl和GPS路段数据的数据可靠性指数rg。将实时更新的高德路段速度vl和浮动车GPS平均速度vg，基于数据可靠性指数进行加权平均得到路段融合后的最终速度v，路段当前更新时刻的最终速度可表示为

3 实验与分析

3.1 数据可靠性评估

实验中高德路段速度数据和浮动车GPS 数据的历史数据集均为2019年10月15日至11月13日，共30 d。以2019 年11 月14 日的数据为测试集，实验数据样例如表5 和表6 所示。数据表均以路段为单元进行展示，共计52 752 条路段，更新时间粒度为2 min，但由于表中只展示有更新的路段数据，且某些路段某些时刻高德路段速度无更新或者无成功匹配到路段的GPS 数据，表中存在路段编号不连续现象。

表5 2019年11月14日的高德路段数据可靠性评估Table 5 Reliability evaluation of Gaode road section data at Nov.14，2019

表6 2019年11月14日的GPS数据可靠性评估Table 6 Reliability evaluation of GPS data at Nov.14，2019

3.2 结果与分析

将基于数据可靠性的实时动态权值融合数据与单独使用某一种数据或固定权值的融合数据的数据质量进行对比，以验证本文所提出算法的有效性和实用性。本文以平均时间粒度数据更新的路网覆盖率（RNC，road network coverage）和路段速度平均绝对误差（MAE）为评价指标。定义

式中N表示每个时间粒度更新的路段数，li表示更新路段的长度，L表示路网总长度，v表示更新数据中的速度值，vs表示实际测量的速度值，T表示时间粒度的个数。

3.2.1 平均时间粒度路段更新的比例本文的融合数据、高德路段速度数据、浮动车GPS 数据的平均时间粒度更新的路网覆盖率如图6 所示。图6中，由于白天路网中行驶的车辆较多，产生的GPS数据路网覆盖率较高，本文融合数据路网覆盖率也较高；但GPS数据更新情况不稳定，存在某个时刻路网覆盖率突降的情况。高德路段数据更新情况较为稳定，更新数据路网覆盖率维持在60%左右。据统计GPS 数据平均时间粒度数据更新路网覆盖率为33.43%，高德路段数据为60.32%，而本文的融合数据达到74.29%，显著高于其他两种数据。

图6 不同数据实时更新数据路网覆盖率Fig.6 Real time update of road network coverage with different data

3.2.2 路段速度平均绝对误差采用了实地调查的方式，对融合的速度数据的准确度进行校验。在佛山市主城区随机选取了6条两类数据更新状况均良好的路段，调查人员站在调查路段中间位置，所选路段及测量点如图7所示。

图7 测量路段示意图Fig.7 Schematic diagram of survey road

调查时间为2019年11月14日，调查时段分为早高峰7：00～9：00，晚高峰17：00～19：00，平峰时段10：00～12：00 和14：00～16：00，每个时间段为2 h，选取其中1 h进行不间断测量，保证每条路段被测时段包含一个高峰时段和一个平峰时段。测量路段的编号、名称、道路等级、长度等基本属性，以及测量时段如表7所示。

表7 测量路段信息Table 7 Survey road section information

调查人员是由专业技术人员担任，使用雷达测速仪测速时随机选择被测车辆，避免总是选择车队的第一辆车、某一车道车辆比例过大、某一种车型比例过大或者高速行驶车辆比例过大等情况，同时调查人员在测速时隐蔽在驾驶员不易发现的位置，尽量保证调查结果能够真实地反映车辆行驶状况。

调查人员调查时首先使用皮尺测量路段长度并确定路段中点位置，并选定固定测速点位置。正式测量开始时，调查人员使用雷达测速仪不间断测速记录，测量频率平均约为5 s/次，并以2 min为时间粒度进行分隔，取2 min 内所测得的所有速度样本的平均值为当前时间粒度的实测速度值。

将高德路段速度、GPS路段速度和两种数据按1∶1 固定权值融合、按照本文提出的实时动态权值融合，并与实测速度值进行对比，结果如图8所示。可以看出，各测量路段的不同数据速度曲线不连续。一是由于测量时段不连续，在平峰时段与高峰时段断开；二是由于某些时刻某种数据无更新。且，当高德路段速度和GPS 路段速度数据质量都较好时，固定权值融合速度和动态权值融合速度曲线几乎重合，并都与实测速度值拟合较好，如路段37732 和39830 所示。当高德路段速度和GPS路段速度数据质量不稳定，尤其是GPS数据波动较大时，动态权值融合速度曲线与实测速度值的拟合性明显优于其他三种数据源，如路段37999 和40315 所示。计算得出各路段测量时段的速度平均绝对误差，如表8所示。实验表明，在随机选取的6条路段上，基于动态权值融合的速度数据准确度较高，所有测量时段的速度平均绝对误差为3.82 km/h，高峰测量时段的速度平均绝对误差为3.69 km/h，平峰测量时段的速度平均绝对误差为3.95 km/h，表现最优。

表8 不同数据源路段速度的平均绝对误差Table 8 Average absolute error of road section speed in different data

图8 各测量路段的不同数据速度波动曲线Fig.8 Different data speed fluctuation curve of each measurement road section

4 结论

本文提出了一种基于数据可靠性的动态权值融合方法，将导航平台路段速度数据和浮动车GPS速度数据进行了融合。以佛山市的高德路段速度数据和浮动车GPS 数据为例，对两类数据进行空间和时间同步化处理，并针对高德路段速度数据和浮动车GPS 数据设计不同的可靠性评估算法。将实时更新的高德路段速度和GPS 路段速度基于数据可靠性指数进行加权平均得到了融合后最终的路段速度。验证实验表明：基于数据可靠性的动态权值融合方法有效地提高了实时更新数据的路网覆盖率和数据准确度，不仅降低了单一数据源出现异常造成的误差，同时避免了固定权值融合不考虑数据源质量简单加权融合的弊端。

本文提出的方法虽然在导航平台路段速度数据和浮动车GPS 速度数据融合中具有较好的应用效果，但由于不同类型数据源的特征不同，在后续的研究工作中，尝试将该方法应用到其他类型数据源融合场景中。此外，还可以挖掘更多的速度数据特征，进一步优化数据融合算法，提高融合数据精度。