基于K-Means聚类与灰色关联分析的城市交通状况分析
2020-12-04陈永胜
陈永胜
深圳高速工程顾问有限公司 交通规划事业部, 广东 深圳 518000
0 引言
近年来,随着社会经济的持续发展与城市居民生活水平的提高,机动化出行需求急剧增加,尤其是私人机动化出行迅猛增长,由此产生的城市交通拥堵日益严重。随着人工智能、科学计算、机器学习、模式识别等数据挖掘技术的成熟,探索交通大数据与城市交通治理的前沿趋势,深层次挖掘城市交通拥堵问题,并提出相关改进举措,已成为智慧交通研究的重要课题。
为提高交通运营效率和路网通行能力,文献[1]从交通实时数据采集、整合、分析、应用4个层次开展研究,提出基于物联网和大数据融合技术的城市交通状况分析方法。文献[2]以浮动车数据可视化分析路网交通空间分布特征,采用空间聚类法实现了城市交通拥堵状况的识别与分类。文献[3]结合车辆全球定位系统(global positioning system,GPS)轨迹数据,运用数据挖掘理论,提出一种道路网交通状态时空特征分析技术,以提升城市交通规划与管理决策的支持水平。文献[4]利用图像处理技术对监控视频进一步处理,实时检测城市交通拥堵状况,为交通决策提供理论依据。文献[5]建立基于北京、上海、广州、深圳交通运行数据的聚类分析数学模型,研究不同城市间交通拥堵状况及缓堵政策的异同性。文献[6]基于应用程序编程接口(application programming interface, API)规划路径数据与地理信息系统(geographic information system,GIS)可视化技术,对比分析我国重点城市步行、小汽车、公交车3种出行方式的可达性特征,提出强化公交优先相关建议。文献[7]以道路平均行程时间及速度作为评价指标,建立评价模型对城市路网交通状况进行评价。文献[8]运用数据挖掘算法,搭建Three-phase框架,对多个路段之间的拥堵状况进行关联分析。文献[9]采集我国11个城市的交通状态和交通基础设施信息数据,构建聚类与相关性分析组合模型,研究城市交通拥堵的原因。文献[10]利用模糊理论对城市交通运行状态进行评价分析,并将评价结果用于关联规则挖掘中,研究出行潜在规律,为交通规划决策提供技术支撑。
目前多数研究侧重于城市交通拥堵成因分析方面,采用多种数据挖掘方法挖掘交通运行相关数据,但在对客观指标进行深度挖掘、研究交通拥堵影响因素方面稍显不足。另外,对城市交通基础设施、国民经济与社会发展对交通拥堵状况的实际影响规律缺乏总结。为此,本文选取全国36个重点城市作为研究对象,构建城市交通状况分析指标体系,运用聚类理论划分城市交通拥堵等级,通过灰色系统理论分析城市拥堵与交通基础设施建设、国民经济与社会发展水平之间的内在关联,研究城市拥堵成因,探索相应的城市交通发展对策与思路。
2 城市交通状况指标体系构建
城市交通状况受城市国民经济水平、人口与岗位、机动车拥有量、交通设施建设等众多因素影响,且各个因素与城市交通状况之间存在相互独立、相互影响的关系。本文基于对指标体系的综合性、适量性和针对性考虑,参考文献[11-14]以及不同城市统计年鉴,构建包括交通拥堵状况、交通基础设施、城市国民经济与社会发展的城市交通状况分析指标体系,如图1所示。其中,交通拥堵状况指标用于城市拥堵聚类分析,聚类结果与其他指标应用于城市交通状况的关联性分析。
图1 城市交通状况分析指标体系
3 城市交通状况聚类分析
3.1 数据整理
文献[11]基于城市交通拥堵时空特征考虑,以B0~B5指标构建城市交通拥堵综合评价指标体系,并结合百度地图海量交通出行数据、车辆GPS轨迹数据、位置定位数据等,计算全国100个城市的B0~B5。本文以此为基础数据,进行标准化处理,得出研究城市交通拥堵状况的数据集。
3.2 方法基础
K-Means聚类分析具有原理简明、收敛快速、聚类效果较优等优势,本文运用K-Means聚类法对交通拥堵状况数据集进行聚类。该方法的基本思想为:把所有观测值划分为K类,使每类中的观测值距离该类的中心(即类均值)较其余类的中心更近,且类和类之间尽可能的远离。具体为:1)从所有观测值中任选K个作为类中心;2)分别计算其余每个观测值与每个类中心的距离,距哪个类中心最近,则该观测值划分至该类中心所属的集合,共组成K类;3)重新计算每类中观测值之间的平均值,作为新类中心;4)重新划分每个观测值到离它最近的类;5)重复步骤3)、4),直到所有的类中心不再改变。
K-Means聚类中常用的距离度量指标为欧几里得距离的平方
式中:xi、yi为不同样本x、y的N维数值(N为特征数量)。
确定数据集的最佳聚类数目K,常用的测定方法为手肘法,该方法度量指标为类间误差平方和SSSE,指每次聚类完成后,所有观测值到其所属类中心的距离平方和,即
式中:Ci为第i个类集合,p为Ci中的观测点,mi为Ci的中心。
随着K的增大,数据集划分更加精细,SSSE逐渐变小,直到最后趋于稳定,同样聚类程度回报也随之减小。K-SSSE曲线变化过程存在拐点(亦称“肘”点),SSSE下降突然变缓时,此时的K为最佳值,大于该值时无法带来更多的聚类程度回报。
3.3 数据处理
图2 K-Means聚类的SSSE
以36座城市交通拥堵状况数据为分析数据集,利用Python程序计算不同K对应的SSSE,绘制K-SSSE曲线,如图2所示。由图2可知,K=3,即分析数据集划分为3类较为合适。
随机选择3个城市的观测值为初始类中心,观测值为由指标B0~B5组成的6维数值。其他城市根据其观测值与各个类中心的距离远近,分别分配给距离最近的类中心,共组成3类。然后计算现有每个类中观测值的平均值,生成新的类中心,所有城市根据与新的类中心距离重新划分为3类。这个过程不断重复,多次迭代至满足终止条件,输出聚类结果。
为了在二维平面中观察聚类结果,运用主成分分析法,将指标B0~B5数据空间进行降维,重新生成2项综合指标来代替B0~B5。综合指标1、2累计贡献率约95.42%,可以认为综合反映了交通拥堵状况。交通拥堵状况K-Means聚类结果如图3所示。图3中圆圈表示每类城市的类中心,虚线圈表示同类城市。
图3 交通拥堵状况 K-Means聚类结果
3.4 结果分析
图4 城市交通拥堵六维特征
根据图3及36座城市的B0~B5指标,将城市交通状况划分为严重拥堵、较为拥堵、交通顺畅3个等级,其中严重拥堵的城市包括北京、重庆、哈尔滨3个城市;较为拥堵的城市包括贵阳、呼和浩特、长沙等9个城市;交通顺畅的城市包括昆明、厦门、福州等24个城市。聚类结果与文献[7]的分析结论基本一致。哈尔滨、北京、重庆B0~B5指标标准化后的数值如图4所示。由图4可知:哈尔滨6项指标均较高,位列拥堵榜单首位;北京、重庆拥堵均呈现高峰拥堵严重、持续时间长、空间蔓延广、区域间不均衡严重、常发性路段占比高等特点,分别居拥堵榜单第二、第三位。
4 交通拥堵状况关联性分析
对严重拥堵城市赋值为0,较为拥堵城市赋值为1,交通顺畅城市赋值为2,对城市交通拥堵状况A0与交通基础设施建设A1、国民经济与社会发展水平A2间的关联性进行分析。
4.1 数据整理
参考文献[11-14],收集整理城市交通基础设施、国民经济与社会发展指标数据,进行均值化处理,得出关联性分析数据集,如表1所示。
表1 关联性分析数据集
表1(续)
4.2 灰色关联分析
灰色关联分析是灰色理论中衡量关联程度的一种方法,可将影响因素之间不明确的关系进行白化,对数据不精准、不完整的样本系统有显著的理论研究优势。交通拥堵状况与交通基础设施、国民经济与社会发展指标之间的内在联系难以准确量化,且各因素自身的发展状况比较模糊,所以运用灰色关联分析对影响城市交通状况的各个指标进行排序,探索影响城市拥堵的主导因素。
1)确定参考序列矩阵和比较序列矩阵
参考序列矩阵一般采用评价指标的最优值或最劣值,也可根据评价目的确定其他参照值。设评价指标为n个,每个指标有m个观测值,建立比较序列矩阵。分别表述为:
2)无量纲化数据集
由于各个评价指标的本质不同,造成指标数值的量纲不尽相同,不能直接进行比较,所以在做关联度分析之前,常采用均值化法、初始值法等无量纲化方法进行数据处理。无量纲化后的参考序列矩阵与比较序列矩阵为:
(1)
(2)
3)计算每个比较序列矩阵与参考序列矩阵对应元素的绝对差值
绝对差值矩阵
(3)
第t个评价指标第k个观测值与参考序列矩阵对应元素的绝对差值
Δt(k)=|x0(k)-xt(k)|,
(4)
4)确定最大、最小绝对差值
5)计算关联因数
(5)
6)计算关联度
针对各个比较序列矩阵分别计算参考序列矩阵对应元素的关联系数均值,即灰色关联度
(6)
若各个指标在综合评价中所起的作用不同,可对关联系数求加权平均值,即灰色加权关联度
(7)
式中Wk为评价指标的权重矩阵。
7)建立关联度矩阵进行优势分析
选择36个城市评价指标体系中的某一项指标,以其观测值建立参考序列矩阵,以其他指标观测值建立比较序列矩阵,运用式(1)~(7),分别计算该指标与其他指标之间的关联度。同理依次确定参考序列矩阵与比较序列矩阵,计算各个指标之间的关联度,以参考序列指标为横轴,比较序列指标为纵轴,建立关联度矩阵。再根据指标关联度大小,依次排序,得出较为重要的影响因素,进行相关评价。
4.3 数据处理及分析
以36个城市交通拥堵状况指标A0观测数据构建参考序列矩阵,以交通基础设施指标B6~B14、国民经济与社会发展指标B15~B18观测数据构建比较序列矩阵,分别计算A0与B6~B14、B15~B18的关联度。同理在城市交通状况分析指标体系中,将B6~B14、B15~B18依次作为参考序列指标,分别计算与其他指标的关联度,建立关联度矩阵。为了观察各类指标间的关联性,使用热力图来描述关联度矩阵,如图5所示。
由图5可得:城市交通拥堵状况影响因素的关联序为:B18>B6>B14>B7>B17>B15>B16>B13>B12>B9>B8>B10>B11,说明每千人民用汽车拥有量、建成区道路密度为影响交通拥堵的主导因素,每万人公共汽车拥有量以及建成区人均道路面积为主要间接影响因素。
图5 关联度矩阵热力图
因此在今后的城市综合交通改善过程中,北京、重庆等汽车总量较多,应采取行政、经济、市场综合调控,引导和限制私人小汽车的过快增长;哈尔滨、长春、呼和浩特等路网密度较低的城市可引入“窄马路模式”等道路布局新理念,尽快完善完整道路网系统,逐步缓解交通拥堵问题。
指标B6~B14表示交通基础设施建设情况,内部没有直接联系,仅考虑其与国民经济与社会发展指标之间的内在关联性,结合图5综合考虑可知:影响交通运输网络密度指标B6、B11和B13的主导因素为B18、B16、B17,说明城市汽车、人口与就业岗位数量可间接影响城市交通基础设施建设。
5 结语
根据城市交通实际情况,构建交通状况分析指标体系,提出基于K-Means聚类与灰色关联的集成方法,研究导致城市拥堵的关键因素,提出相应的交通改善措施,为交通发展政策的制定提供参考。
本文提出的方法仍有待改进,例如:交通状况分析指标体系应考虑城市规模、形态、区位、面积等因素,对相近城市之间进行关联分析;此外,灰色关联分析为定量、定性相结合的灰色理论方法,以后可采用专家评估法进一步明确其分辨系数。