基于DTW-DBSCAN和张量分解的交通流数据恢复策略

2025-03-05陈茂玉

电脑知识与技术 2025年3期

关键词：DTW算法；Tensor方法；DBSCAN算法；交通流数据；数据恢复

中图分类号：TP311.13;U491 文献标识码：A

文章编号：1009-3044（2025）03-0012-04 开放科学（资源服务）标识码（OSID）：

0引言

近年来，交通流数据恢复问题吸引了广泛的研究兴趣，科研学者探索了多种方法来解决这一问题，其中包括传统统计学方法、深度学习方法和张量方法等。在交通流数据恢复中，传统统计学方法基于历史数据，采用平均值、中位数、插值、时间序列、最近邻等手段填补缺失值[1]。深度学习算法在交通流数据恢复中也被广泛应用，研究人员利用多种深度学习网络处理缺失数据。特别是循环神经网络（Recurrent Neural Network，RNN）及其变体长短期记忆网络（Long Short-Term Memory，LSTM）和门控循环单元（Gated Recur⁃rent Unit，GRU）[2]，因其能够高效建模时间特性数据，捕捉时间相关性，广泛用于精确恢复交通流数据。然而，时间序列方法通常只考虑时间信息，往往忽视了交通流数据的空间特性。

面对多维交通流大数据，张量分解方法在计算效率上优于深度学习，同时保持高精度。该方法将数据表示为高阶张量，其中包含多维信息，通过张量分解方法可以学习整体数据的分布模式和潜在相关性，从而恢复缺失数据。在其他领域，张量恢复缺失值的研究已取得明显进展[3-6]。在交通领域，Tan等人[7]首次提出张量分解恢复交通流数据，张量分解能够更好地挖掘时空相关性的多维数据内在相关性。Ben Said等人[8]结合位置和时间信息，构建位置和时间张量进行恢复，分别构造了位置矩阵和时间矩阵，并通过CP补全目标函数进行数据恢复。Nie等人[9]创新性地定义了低秩张量补全模型下的张量范式，适用于极端缺失情况。Zhou等人[10]融合不同交通流数据张量，全面评估交通状况以提升效果。Chen等人[11]将贝叶斯概率张量分解拓展至高阶模型，应用于时空交通流恢复。

综上所述，张量分解在补全高维时空交通流数据方面展现出了强大的能力，能够有效捕捉数据的潜在结构，并解决数据缺失的问题。在此基础上，本文提出了一种融合时空相关性的张量分解算法。该算法首先利用DTW（动态时间规整）算法优化对齐路径，然后通过DBSCAN聚类构建相似时间序列矩阵，最后通过先进的张量分解技术恢复缺失的数据值。这一方法不仅显著提高了数据恢复的精度，还构建了一个包含数据预处理、DBTensor方法及性能评估的完整框架，确保了该方法在实际应用中的可行性和有效性。通过充分利用不完整的交通流数据，该方法能够全面评估数据的性能，为交通领域的数据处理和分析提供了新的思路和方法。

1相关算法

1.1DTW算法原理

DTW算法是一种用于测量时间序列相似性的经典动态规划算法，它可以找到两个时间序列之间的最佳匹配路径。计算两个序列之间的DTW距离D（i，j）的公式如下：

1.2DBSCAN聚类算法

DBSCAN算法通过评估样本点的密度来区分簇类与噪声点。它引入了核心点、边界点和噪声点的分类，同时利用密度直达、密度可达以及密度相连的概念来构建簇类。DBSCAN算法的主要步骤包括：

1）初始化设置参数eps（领域半径）和min_samples（成为核心对象邻域中最小点数）；

2）寻找核心对象；

3）扩展聚类；

4）重复步骤3）；

5）标记噪声；

2DBTensor算法框架

张量分解在处理交通流数据时存在局限，特别是在挖掘时空特征和应对缺失值方面。为此，本文提出DBTensor算法，结合时空相关性恢复缺失值。该算法首先使用DTW算法寻找交通流序列的最优对齐路径，识别相似时空特性；然后，采用DBSCAN聚类方法搜索相似序列，挖掘时空相关性；最后，利用张量分解技术恢复缺失值，保持数据的时空一致性。DBTensor恢复方法的框架如图1所示。

DBTensor算法流程如下所示。

1）数据预处理阶段：对原始数据进行细致的处理，明确标记出所有的缺失值。

2）DTW距离矩阵计算：利用DTW算法，精确地计算出数据集中各元素之间的距离，得到距离矩阵。

3）聚类分析与参数调整：根据计算得到的距离矩阵，采用DBSCAN进行聚类分析。通过调整DBSCAN的参数eps和min_samples，并观察轮廓系数的大小，确保数据被合理且准确地分类，并重构张量。

4）Tensor恢复数据：使用CP补全算法，对缺失值进行精确的恢复，从而得到完整且准确的数据集。

5）算法评估：通过RMSE、MAPE和MAE评估算法的数据恢复效果。

3实验结果与分析

3.1实验数据集

实验使用加利福尼亚高速公路网络PEMS交通流数据集和云南省交通2018年2月1日至9月26日的5个高速站点环路检测器采集的交通流数据，聚合周期为5分钟、30分钟和60分钟。数据集如表1所示。根据数据构建三阶张量为R一天时间间隔×检测日期天×传感器检测路段。

3.2实验结果与分析

本研究中，训练数据与测试数据的比例为3∶1。为了评估随机缺失模式下缺失值恢复的效果，本文设定了交通流数据的缺失率，分别为10%至60%，每间隔10%递增。实验采用了四组交通流数据，首先对这些数据进行了归一化处理，并利用DTW计算出最优弯曲路径距离矩阵。随后，本文使用DBSCAN算法对距离矩阵进行聚类，其中将参数eps设为0.79，min_samples设为7，轮廓系数为0.624。本次实验设置的参数并不是对所有数据集的最优参数。实际应用中，通过选取最优参数可以得到更好的相似分类结果。实验发现，DBTensor方法在不同缺失率下的恢复效果存在差异。为此，本文比较了DBTensor与CP、SVD、MF、KNN这4种插补方法在不同缺失率下的RMSE值，结果如图2所示。

根据图2（a）（b）（c）（d）可以看出，在4个数据集上，DBTensor方法与其他方法相比，拟合度更高。随着缺失率的增加，DBTensor方法的恢复精度也会有所降低，但仍保持相对优势。当数据缺失率超过50%时，DBTensor的恢复效果相较于其他算法的优势更加明显，但其拟合效果不如缺失率更低时。

在随机缺失的场景下，表2至表7汇总了各恢复算法的实验结果，其中最优结果已被加粗突出显示。通过对实验结果的细致分析，本文可以总结出以下几点关键结论：

1）在相同的缺失率条件下，CP算法在缺失值恢复方面展现出了比其他三种方法更为出色的表现。然而，经过改进后的CP算法在数据恢复效果上相较于传统的CP算法又有着更为显著的优势。这表明通过算法的改进，本文能够进一步提升数据恢复的质量和准确性。

2）针对云南省的数据集而言，当缺失率低于50%时，SVD算法在数据恢复方面表现更佳，能够较好地还原原始数据的特征。然而，当缺失率超过50%时，改进后的算法则展现出了更高的拟合度，能够更好地应对高缺失率带来的挑战。这一发现为本文针对不同缺失率情况选择合适的算法提供了重要的参考。

3）针对本文所实验的4个数据集，本文提出的DBTensor方法展现出了卓越的性能。在大多数情况下，其数据恢复效果优于其他方法，这充分证明了DBTensor在处理不同数据集和缺失率时的有效性和可靠性。

4）随着数据缺失率的增加，所有数据恢复算法的效果都会有所下降。然而，本文提出的DBTensor算法在这方面展现出了良好的稳定性。在各种情况下，DBTensor算法的数据恢复效果均优于其他算法，进一步验证了其在实际应用中的有效性和可靠性。这一发现为本文选择高效的数据恢复算法提供了新的思路和方向。

综上所述，DBTensor算法在数据恢复方面展现出了显著的优势和潜力，为处理高缺失率、复杂数据集提供了有力的支持。

4结论与展望

本文提出了一种结合DTW算法和Tensor方法的交通流数据恢复策略。该策略利用DTW算法在时间序列相似性匹配上的优势，结合Tensor方法在数据分解和重构上的能力，实现了对缺失交通流数据的精确恢复。实验结果表明，本文提出的算法在交通流数据恢复方面表现出了良好的性能和准确性。与传统的数据恢复方法相比，该算法在恢复缺失数据时具有更高的精度和鲁棒性。这不仅验证了算法的有效性，也为城市交通管理和决策提供了更加可靠的数据支持。

为了进一步提高数据填补的精度，本文将继续深化对DTW算法和Tensor方法在交通流数据恢复中的研究。一方面，本文将探索更加高效的DTW算法实现，以降低算法的时间复杂度，提高数据处理的效率。另一方面，本文也将研究Tensor方法的改进和优化，以进一步提高数据恢复的准确性。通过这些努力，本文期望能够进一步推动智能交通系统的发展，为城市交通管理和决策提供更加智能、高效和可靠的数据支持。