APP下载

基于复杂网络的交通序列数据特性

2024-02-26孟勃孔祥科李树彬

山东科学 2024年1期
关键词:聚类算法复杂网络数据分析

孟勃 孔祥科 李树彬

摘要:为了进一步研究交通流特性,采用复杂网络方法对交通序列数据进行分析。提出了箱型图-聚类算法模型用于识别和填充初始数据中的缺失值和异常值;通过相空间重构方法将一维数据重构为网络节点,选取连接阈值确定网络节点的连接关系,将交通序列数据构建为复杂网络,对复杂网络的结构和定量指标进行分析。研究结果表明交通序列数据复杂网络的结构一定程度上可以反映路段的交通流状态。该结果有助于优化数据预处理方法,拓展复杂网络在交通序列数据研究中的应用。

关键词:复杂网络;数据分析;网络构建方法;相空间重构;聚类算法

中图分类号:U491   文献标志码:A   文章编号:1002-4026(2024)01-0107-11

The characteristics of traffic sequence data based on complex network

Abstract∶To study the traffic flow characteristics, the traffic data is analyzed using a complex network method. A box plot-clustering algorithm model is proposed to identify and fill in missing values and outliers in the initial data. The one-dimensional data is reconstructed into network nodes using the phase space reconstruction method. Additionally, the connection threshold is selected to determine the connection relationship of network nodes to convert the traffic sequence data as a complex network and analyze the structure and quantitative indicators of the network. The result shows that the structure of the complex network of traffic data can reflect the traffic flow state of the road section to a certain extent. The research optimizes the data preprocessing method and extends the application of complex networks into traffic data research.

Key words∶complex networks; data analysis; network building methods; phase space reconstruction; clustering algorithm

近年来,随着数据分析、人工智能的发展,通过交通序列数据研究复杂的交通系统逐渐成为研究热点。交通序列数据是按照时间顺序和固定的时间间隔采集的交通流参数数据,用于描述交通流随时间的变化情况。目前,基于交通序列数据的研究主要集中在采用人工智能算法的交通流预测。武琼[1]基于支持向量回归模型预测交通流参数,并进行了动态预测系统开发。赵怀柏等[2]利用遗传算法对BP(back propagation)反向传播神经网络神经网络的参数进行优化,实验证明了优化后模型在进行交通流预测时在预测精度和运算效率方面具有明显提升。Ma等[3]构建了基于长短期神经网络的交通流预测模型,对比验证了该模型具有更好的预测精度。上述研究主要集中于交通序列数据的直接应用,研究重点集中在通过优化模型参数或构建组合模型来提高模型的预测精度,往往缺乏对交通序列数据的深入分析和挖掘。

复杂网络理论作为一种表征系统内部各因素相互关系的通用工具,逐渐在各个研究领域得到更多应用。以交通领域为例,复杂网络广泛应用在城市道路网和城市公共交通网的研究中。对于城市道路网,Strano等[4]以原始图法对比分析了欧洲10个城市的街道网络的结构相似性和特性。叶彭姚[5]分析了中国城市道路网络的特征,并验证了网络节点度服从幂分布。对于城市公交网络,Lu等[6]验证了公交网络参数符合复杂网络特征,并发现这些参数对公共交通的可达性、安全性有影响。许晴等[7]利用公交路线换乘关系模型研究了中国330个城市的公交复杂网络结构特征。Yang等[8]构建了公交-地铁复合网络,通过级联失效模型,研究极端天气下公共交通网络的鲁棒性。

城市道路和公共交通均具备一定的网络实体结构,如城市道路可以抽象为交叉口和路段组成的网络结构,公共交通可以抽象为站点和线路组成的网络结构,因此在构建復杂网络时往往是对其物理结构的复现。然而,不同于上述网络,数据不具备典型的网络结构形式,在构建复杂网络时需要进行节点的构造和连接关系的确定。Wang等[9]利用可见图法构建GDP国内生产总值时序数据复杂网络,并分析网络特性。Gao等[10]验证了以时间序列数据构建的网络能够保留数据的主要性质。Mao等[11]基于可见图的预测方法将时间序列转换成复杂网络,预测节点间的相似度。

目前,通过复杂网络对交通序列数据的研究还较少,在交通序列数据处理、网络构建等方面还存在不足。因此,本文以交通序列数据为研究对象,主要研究交通序列数据的网络化表示方法以及网络结构、特性指标所表现出的交通流特征,探究二者之间的内在联系。本文首先提出了箱型图-聚类算法模型,用于处理数据中的缺失值和异常值;然后通过相空间重构和临界阈值将交通序列数据构建为复杂网络,最后进行网络结构分析和网络指标计算。

1 数据分析与预处理

1.1 交通序列数据

交通系统是一个多维、动态的复杂系统,系统内部各因素相互影响。交通流特性是交通流运行状态的定性、定量表征,宏观上用于描述交通流作为一个整体表现出来的特性,微观上是指彼此相关的交通参与者的运行状态。在不受横向交叉影响的路段上,交通流呈连续流状态;当受到横向干扰时,如路口信号灯管制时,交通流呈现出断续流状态。

交通流随着时间和空间的变化而变化,由于出行的规律性,交通流在一定周期内呈现出重复性,即具有周期性特征;同时,交通流受到车辆、行人和其他干扰因素的影响,又表现出强烈的随机性和不确定性。交通流的特性可以通过交通序列数据进行表征和分析,本文主要以交通流的速度序列数据为研究对象。图1绘制了广州市两条快速路不同时间周期的速度变化图,数据来源于广州市交通委员会公布的开源数据。由图1可以看出路段速度变化在一周内具有明显的周期波动性,每天的速度变化具有相似性,但并非完全相同,这表明了交通系统具有一定的随机性。

交通序列数据是交通系统运行状态的最直接反应,分析研究交通序列数据对于挖掘交通系统运行规律、缓解城市交通拥堵具有重要意义。目前,交通序列数据的采集方式主要有磁频采集技术、波频采集技术和视频采集技术等方法,由于受到环境干扰、传感器精度等因素的影响,交通序列数据的质量往往会受到缺失数据和噪声数据的干扰,从而影响到基于数据的分析结果[12]。

1.2 改进数据预处理方法

数据预处理是进行数据分析的重要前提,缺失值的填充、异常值的替换是数据预处理的两个关键。插值法和数理统计法是较为常见的数据预处理方法[13-14]。插值法主要依赖时间或空间相邻数据进行填充,对于连续缺失的数据处理效果较差。数理统计法主要通过假设的数据分布估计填充值,相关参数的假设对于填充值的影响较大。为了提高数据预处理的效果,本文基于机器学习,改进传统的数据预处理方法,提出了箱型图-聚类算法的数据预处理模型。模型共分为如下关键步骤。

步骤一:通过箱型图法识别数据集中的异常值。箱型图法是一种较为客观的判定异常值的有效方法[14]。如式(1)所示,f(x)为异常值的判定函数,当f(x)=1时,判定数据为异常值;反之,当f(x)=0时,判定数据为正常值。

其中,Q1为升序数列的25%位点;Q3为升序数列的75%位点;Δ=Q3-Q1。

步骤二:通过聚类算法对交通序列数据进行聚类分析。本文选用的聚类算法为层次聚类算法,该方法依据数据点的相似度,构建多层嵌套树模型进行数据聚类,主要聚类流程为将采集的原始数据构建为初始数据簇,在初始数据簇的基础上,每次选择相似度最高的两个数据簇合并为新的簇,依次迭代到目标分类数。

步骤三:根据步骤二的层次聚类结果对不同类别的交通状态进行认定,计算相同交通状态数据的平均值。

步骤四:确定缺失值或异常值所处的交通状态,以相同状态数据的平均值进行填充。层次聚类算法填充缺失值和异常值的主要流程如图2所示。

2 复杂网络的构建

2.1 网络节点的确定

网络是由节点和节点间的连接关系确定的,以城市轨道交通网络为例,在构建复杂网络时常以轨道站点作为节点,存在地铁线路连接的站点之间则设置连边。由于在数据中不存在典型的网络节点,因此本文利用相空间重构方法,将一维数据构建为多维相空间,作为复杂网络的节点。相空间重构存在两个关键参数:延迟时间和嵌入维数。在Takens嵌入定理中,证明了延迟时间和嵌入维数理论上的存在性[15]。在实际数据应用中,需要根据数据的实际情况选取。

假设交通流时间序列为x=xii=1,2,…,n,其中n为时间序列长度。通过相空间重构将该分量重构矩阵X,如式(2)所示。

其中,τ表示延迟时间,即序列时间间隔;m表示嵌入维数,即重构后矩阵维度;N=n-(m-1)τ。

2.1.1 延迟時间选取

本文采用互信息熵法[16]计算相空间重构的延迟时间。假设存在序列A=a1,a2,…,an和序列B=b1,b2,…,bn,则二者的互信息熵δ(A,B)计算如式(3)。

其中,p(ai),p(bj)为样本集合中ai和bj所占的比例,p(ai,bj)为ai和bj的联合分布概率。

互信息熵表示在已知序列A的前提下,序列B的不确定性减小程度。两个序列之间的互信息熵越小,说明序列间的相关程度越低。因此在相空间重构时,通过计算原始序列数据和延迟后的序列数据的互信息熵,并绘制互信息熵随延迟时间的变化图来确定最佳的延迟时间。

2.1.2 嵌入维数选取

Cao方法[17]是在伪临近点法的基础上改进而来,该方法相较于其他方法,所需数据量小,设定参数少且能够有效识别数据的确定性和随机性。Cao方法通过判定指标E1(m)的变化来选取嵌入维数。假设Xi(m)=(xi,xi+τ,…,xi+(m-1)τ)是重构后矩阵的第i个相点矢量,i=1,2,…,N, m表示重构矩阵的维数,其最邻近点为XNNi(m),定义

其中,

E1(m)的计算公式如式(6)所示,当E1(m)从某个值m0不再改变时,则认为m0为最小嵌入维数。

在实际研究中,对于E1(m)是缓慢增长还是停止变化是难以判断的,因此增加一个判断指标E2(m),如式(7)~(8)。

对于随机数列,数据之间不存在相关性,E2(m)的值会始终为1;对于确定性序列,数据点间的相关性取决于嵌入维数m的值,总存在一些E2(m)的值不等于1。因此在相空间重构时,通过E2(m)的值确定数据是否为确定性数据,通过E1(m)随着嵌入维数的变化情况来确定最佳嵌入维数。

2.2 网络边的确定

对于相空间重构后的时间序列,以重构空间中的矢量点作为网络节点v,节点间的连接由节点间的空间距离L和临界阈值ε共同决定。假设矩阵W=(wvivj)为网络邻接矩阵,其连接规则由公式(9)所示。

式中,wvivj=1表示節点vi,vj连接;wvivj=0表示节点vi,vj之间断开。

由式(9)可以看出,连接阈值对于网络的构建具有重要意义。本文将网络密度的变化率作为确定最佳连接阈值的指标。随着连接阈值的增加,网络中节点之间的连边数增加,即网络密度增加。当连接阈值接近网络中所有簇的平均半径时,边增加将达到最大速率;继续增加连接阈值将导致节点间的冗余连接,边增加得趋于缓慢,网络密度的增速放缓[18-19]。因此,本文通过绘制网络密度变化率随连接阈值的变化图,选取网络密度增加速率最大的点作为最佳阈值。

3 案例分析

本研究采用广州市2条快速路的实测车速数据,时间窗为10 min,一周的数据总量为1 008条。通过箱型图-聚类算法模型对原始数据进行预处理,然后将车速数据构建为复杂网络,并通过复杂网络的相关指标对网络特性进行分析。

3.1 数据预处理

本节首先利用箱型图-聚类算法模型对原始数据中的异常值和缺失值进行识别与填充。图3绘制了箱型图对车速数据中异常值的判定结果,由图3可以看出,本文采用的快速路车速数据中的异常值主要分布在较小值。

本文采用的聚类算法为层次聚类算法,以原始数据中的每个值作为一个初始聚类簇,依次选择距离最近的两个簇合并为新的簇,直到迭代达到目标分类数。德国学者Kerner[20]在对大量交通流数据进行统计分析的基础上,提出了三相交通流理论,即认为交通流存在自由流、同步流和宽运动堵塞流3种状态。因此,根据三相交通流理论,本文在进行聚类分析时预设目标分类数为3类。

图4绘制了车速数据的聚类分析结果,结果显示聚类算法能够很好的识别交通状态,交通流状态被划分为自由流、同步流和宽运动堵塞流。表1列举了每组数据的层次聚类得到的不同交通状态下的速度平均值。

3.2 网络构建

3.2.1 网络节点的确定

图5绘制了互信息熵随延迟时间的变化图。由图5可以看出,随着延迟时间的增加,互信息熵逐渐减少并趋于稳定,根据曲线的变化情况,选取互信息熵减小至较小值并趋于稳定时的点作为相空间重构的延迟时间,取值见表2。

图6绘制了E1(m)、E2(m)随嵌入维数的变化图。由图可以看出,随着嵌入维数的增加,E2(m)在值1的上下波动,可认为所研究的时间序列均为确定性过程,E1(m)先增加后趋于平稳,选取E1(m)增加并趋于稳定时的值作为相空间重构的嵌入维数,取值见表2。

3.2.2 连接阈值的确定

图7绘制了随着嵌入维数的变化,网络密度变化率的情况,选择网络密度变化率最高的点作为连接阈值的最佳值,因此道路一一日、道路一一周、道路二一日和道路二一周选取的最佳连接阈值分别是20、19、20、24。

3.3 网络分析

根据选取的阈值将节点之间的距离矩阵转化为邻接矩阵,如图8所示。图中横纵坐标表示网络中的节点序列,蓝色点位表示对应节点对之间存在连接,白色点位则表示节点对之间不存在连接。对比道路一和道路二的邻接矩阵可以看出,道路一的邻接矩阵图像中蓝色点位区域更为聚集,而道路二的图像中,蓝色点位区域较为分散,且存在一些孤立的蓝色点。由此可以得出,不同的道路交通流状态会导致邻接矩阵图像的差异性,进而影响复杂网络的结构。

根据网络构建方法和阈值选取结构,构建了交通序列数据复杂网络。在此基础上,选择网络平均度、介数、聚类系数作为网络评价指标。度是指网络节点相关联的边的数量,平均度则是所有网络节点度的平均值。介数是指网络中的最短路径中,经过某节点的最短路径的占比。聚类系数是度量网络中节点聚集程度的系数,从数学上讲,节点vi的局部聚类系数Cvi表示为公式(10)。

式中,evi表示节点vi的邻域内节点间的连接边数,即由节点vi以及其邻域内两个节点形成的三角形数量,kvi是节点vi的度。

图9分别绘制了两条道路不同时间周期的复杂网络图。对比不同尺度的时间序列网络可以看出,一定程度上时间尺度的增加对于网络分析具有重要意义。随着时间尺度的增加,两条道路的时间序列网络结构特征更加明显。由图9(a)(c)可以看出,日周期的交通序列数网络表现出一定的集群结构特征,网络中存在两个较大的集群,而对于周周期的交通序列数据网络,如图9(b)(d)所示,网络的明显的收敛在一个区域,形成一个大簇。

表3列举了不同网络的定量指标,对比道路一和道路二的网络结构和指标可以看出,道路一交通序列数据网络的平均度和平均聚类系数更高,网络的集聚性更加凸显,而道路二交通序列数据网络中的孤立节点和孤立集群的数量和比例更高。复杂网络的结构和指标一定程度上表明:相较于道路二,道路一不同时间段的交通流参数的波动较小,交通运行状态较为稳定,而道路二的交通运行状态存在较大波动。稳定的交通流反映在网络上表现为网络节点之间的相似度更高,节点之间的聚集性更好;而波动的交通流则容易形成分散的集群或孤立的节点。因此,在对路段进行交通管控时,应重点针对孤立节点和集群对应的时间段,深入分析交通波动诱因,以采集精细化的交通管控手段。

4 结论

交通序列数据是交通流状态的直接表现,分析和研究交通序列数据对于深入理解复杂的交通系统,制定切实有效的交通管控措施具有重要意义。本文将复杂网络理论引入交通流研究中并用于交通序列数据分析,提出的基于机器学习层次聚类算法能够在考虑交通流状态的基础上,实现缺失值和异常值的填充;在复杂网络构建方面,利用相空间重构技术将一维数据转化为多维矢量点,作为复杂网络的节点;通过网络密度确定节点连接阈值,将节点间距离矩阵转化为邻接矩阵,并构建成网络;通过分析网络结构和指标论证了网络结构一定程度上可以反映道路交通流状态。本文研究成果可为交通管理部门提供可行建议,但是如何通过时间序列网络指标定量的精确识别交通状态仍是未来研究需要努力的方向。

参考文献:

[1]武琼. 基于支持向量回归的短时交通流预测方法研究与应用[D]. 西安:长安大学, 2016.

[2]赵怀柏, 王逸凡, 宋晓鹏. 基于遗传算法优化BP神经网络的交通流预测[J]. 交通与运输(学术版), 2017(2): 32-36.

[3]MA X L, TAO Z M, WANG Y H, et al. Long short-term memory neural network for traffic speed prediction using remote microwave sensor data[J]. Transportation Research Part C: Emerging Technologies, 2015, 54: 187-197. DOI: 10.1016/j.trc.2015.03.014.

[4]STRANO E, VIANA M, da FONTOURA COSTA L, et al. Urban street networks, a comparative analysis of ten European cities[J]. Environment and Planning B: Planning and Design, 2013, 40(6): 1071-1086. DOI: 10.1068/b38216.

[5]葉彭姚. 城市道路网拓扑结构的复杂网络特性研究[J]. 交通运输工程与信息学报, 2012, 10(1): 13-19. DOI: 10.3969/j.issn.1672-4747.2012.01.003.

[6]LU H P, SHI Y. Complexity of public transport networks[J]. Tsinghua Science & Technology, 2007, 12(2): 204-213. DOI: 10.1016/S1007-0214(07)70029-9.

[7]许晴, 祖正虎, 徐致靖, 等. 330个中国城市P空间下公交复杂网络实证研究[J]. 交通运输系统工程与信息, 2013, 13(1): 193-198. DOI: 10.16097/j.cnki.1009-6744.2013.01.001.

[8]YANG H H, AN S. Robustness evaluation for multi-subnet composited complex network of urban public transport[J]. Alexandria Engineering Journal, 2021, 60(2): 2065-2074. DOI: 10.1016/j.aej.2020.12.016.

[9]WANG N, LI D, WANG Q W. Visibility graph analysis on quarterly macroeconomic series of China based on complex network theory[J].Physica A: Statistical Mechanics and Its Applications, 2012, 391(24): 6543-6555. DOI: 10.1016/j.physa.2012.07.054.

[10]GAO Z K, JIN N D. Complex network from time series based on phase space reconstruction[J]. Chaos: an Interdisciplinary Journal of Nonlinear Science, 2009, 19(3): 033137. DOI: 10.1063/1.3227736.

[11]MAO S Z, XIAO F Y. Time series forecasting based on complex network analysis[J]. IEEE Access, 2019, 7: 40220-40229. DOI: 10.1109/ACCESS.2019.2906268.

[12]邹晓芳. 城市快速路交通流故障数据修复方法研究[D]. 北京:北京交通大学, 2014.

[13]苗旭, 王忠宇, 邹亚杰,等. 改进的固定交通检测器缺失数据综合修复方法[J]. 同济大学学报(自然科学版), 2019, 47 (10): 1477-1484. DOI: 10.11908/j.issn.0253-374x.2019.10.013.

[14]姜桂艳, 冮龙晖, 张晓东,等.动态交通数据故障识别与修复方法[J]. 交通运输工程学报, 2004(01): 121-125. DOI: 10.3321/j.issn:1671-1637.2004.01.030.

[15]孟力, 毕叶平. 相空间重构文献综述可视化分析[J]. 系统仿真学报, 2017, 29(12): 3167-3175. DOI: 10.16182/j.issn1004731x.joss.201712030.

[16]李媛媛. 基于相空间重构和SVR的短时间交通流预测方法研究[D]. 北京: 北京交通大学, 2018.

[17]CAO L Y. Practical method for determining the minimum embedding dimension of a scalar time series[J].Physica D: Nonlinear Phenomena, 1997, 110(1/2): 43-50. DOI: 10.1016/S0167-2789(97)00118-8.

[18]TANG J J, WANG Y H, LIU F. Characterizing traffic time series based on complex network theory[J]. Physica A: Statistical Mechanics and Its Applications, 2013, 392(18): 4192-4201. DOI: 10.1016/j.physa.2013.05.012.

[19]TANG J J, WANG Y H, WANG H, et al. Dynamic analysis of traffic time series at different temporal scales: a complex networks approach[J]. Physica A: Statistical Mechanics and Its Applications, 2014, 405: 303-315. DOI: 10.1016/j.physa.2014.03.038.

[20]KERNER B S. The physics of traffic[J]. Physics World, 1999, 12(8): 25-30. DOI: 10.1088/2058-7058/12/8/30.

猜你喜欢

聚类算法复杂网络数据分析
K—Means聚类算法在MapReduce框架下的实现
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于图熵聚类的重叠社区发现算法
基于复杂网络理论的通用机场保障网络研究
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
城市群复合交通网络复杂性实证研究
基于改进的K_means算法在图像分割中的应用
大规模风电场集中接入对电力系统小干扰稳定的影响分析