基于谱聚类的城市轨道交通车站间客流分型研究
2022-06-28姚振康高国飞黄兆察
姚振康,高国飞,郑 汉,黄兆察
(1. 苏州轨道交通集团有限公司,江苏苏州 215004;2. 北京城建设计发展集团股份有限公司,北京 100037;3. 北京交通大学,北京 100044)
经过多年的发展,城市轨道交通已成为大型及特大城市的有机组成部分,起到沟通城市区域的骨干作用。由于城市功能分区的差异性,城市轨道交通系统所服务的车站间客流对象自然地存在差异。例如,联通商业区与居住区间的客流呈现出潮汐性规律,旅游区与枢纽区之间的客流与周末节假日高度相关。为实现轨道交通系统中客流的精准管理与预测,了解不同车站间客流在时间上的分布类型及特性尤为关键,精准的车站间客流类型划分可以细化预测等技术,支撑精细客流组织方案。然而,相对于单车站客流分类,车站间客流类型受到更多因素的影响,例如,李向楠[1]对客流站点高峰小时乘降量、车站规模等11个特征因素进行聚类分析,最终将成都地铁1 号线现运营16个站点划分为5大类;Chen等[2]选取36个特征因子作为聚类分析的初始变量,进行聚类分析;高勃等[3]利用k-means对站点重要度进行聚类分析。以上研究都仅限于站点的聚类分析。同时,已有较多的聚类方法应用于轨道交通领域的研究,包括 k-means[1]、改进k-means[4]、基于密度聚类[5]、模糊聚类[6]以及谱聚类[7]等。
考虑到谱聚类在高维特征聚类方面具有优势,因此本文选取谱聚类方法对车站间客流(车站OD客流)进行聚类分析,并以苏州地铁2020年数据为例,寻找出7种车站间客流时间分布类型,该结果可应用于预测模型训练等领域。
1 客流OD分类特征
轨道交通客流OD的分类取决于乘客出行的时间特征、空间特征和客流结构,可拓展为乘客平均旅行时间、不同时段出行量、发生吸引站的用地特征、车站特点、客票种类等具体指标。
1.1 客流OD时间特征
客流OD的时间特征包括乘客乘坐轨道交通的平均旅行时间(T),不同时段下的出行量()等。其中乘客的平均旅行时间通过一段时间内AFC数据中各个OD乘客进出站的时间来确定,由于不同OD的乘客等待时间、在车时间、换乘时间等都不相同,不同OD的平均旅行时间也会有所差异。同时,不同OD在不同时段下的出行比例也不相同,根据乘客出行时段特点,对一天内早高峰(FMP)、晚高峰(FEP) 2个时段的客流;一周内,工作日(FWD)和休息日(FWE)的客流进行统计和分析。
1.2 客流OD空间特征
客流OD在空间上的特征为:客流发生、吸引车站的用地特征(LFo、LFd)、与市中心的距离(Do、Dd),以及OD直线距离(L)。
轨道交通站点与市中心距离则为轨道交通站点至城市中心点的直线距离,用于描述轨道交通车站与城市中心的相对位置;OD平均距离指该OD对中乘客乘坐轨道交通出行的平均距离;用地特征根据用地分类标准[8]并结合轨道交通车站特点,对站点用地特征分类时,计算车站中心点半径500 m范围内各类用地类型面积,设置用地面积占比截断阈值pm,确定每个车站的用地特征主导因素,根据面积占比大小确定轨道交通站点的用地主导类型:①对于只有一种类型用地占比超过截断阈值pm,则将其作为该区域的主导用地类型,如办公主导型(LF0)、居住主导型(LF1)、商业主导型(LF2)、枢纽主导型(LF3)、旅游主导型(LF4);②对于存在多种类型用地占比超过阈值pm时,则判定为混合型,主要的混合型包括办公居住混合型(LF5)、办公商业混合型(LF6)和居住商业混合型(LF7);③对于涉及类型较多,且各类型用地占比均未超过阈值pm时,归为综合型(LF8)。
1.3 客流结构特征
客流结构特征主要通过客票种类(T)进行区分,在苏州轨道交通系统中,客票种类主要可以归纳为以下5种:一卡通(T1)、单程票(T2)、公交卡(T3)、次票(T4)、App(T5)等。
2 OD分型聚类与评价方法
2.1 基于谱聚类的OD分型算法
轨道交通乘客出行的OD类型受到时间特征、空间特征和客流特征3大类的影响,其影响指标多(共计16个),特征复杂,因此描述OD类型的特征向量的维度也较高。如此高维的复杂数据在使用传统的聚类方法(如k-means)进行直接聚类时,往往达不到预期的效果。为了实现高维数据的聚类分析,本研究利用谱聚类算法,对OD特征数据进行聚类分析。
谱聚类是在谱图理论的基础上,将聚类问题转化为图的划分问题,从而提高聚类算法的效率,适用于高维数据的聚类分析。对于谱聚类算法而言,OD特征数据集中的每一条OD特征数据都是图G(V,E)中的一个点,其中,V是数据点的集合,E为所有边的集合。为了建立邻接矩阵W和相似矩阵S,本文采用基于高斯径向核函数 RBF的全连接法对任意两点vi和vj(vi,vj∈V)间的权重wij进行计算,此时权重wij和距离sij相等。根据 Ncut的图切割方法,利用标准化的Laplacian矩阵、矩阵的度和主成分分析(PCA)思想来优化图的切割效果,计算特征矩阵,最后对特征矩阵进行k-means聚类。
谱聚类的计算流程包括:①以OD特征数据样本集为输入,构建样本相似矩阵;②以Ncut为图划分准则,计算Laplacian矩阵及其特征向量,形成标准化后的特征矩阵;③利用k-means算法对降维后的特征矩阵进行聚类分析,最终输出OD类型划分。谱聚类算法具体步骤如下所示。
2.2 聚类结果评价指标
一般而言,紧凑性和发散性是评价聚类结果质量的两个重要方面[9],为了评价谱聚类算法得到的聚类结果,本文引入轮廓系数[10](Silhouette coefficient)和戴维森堡丁指数[11](Davies-bouldin index),对聚类结果进行评价,这两者均兼顾了聚类结果的紧凑性和发散性,具体计算方法如式(1)和式(2)所示。
其中,i为簇中任意一点;N为总样本数;a(i)为i到同一簇内其他点不相似程度的平均值;b(i)为i到其他簇的平均不相似程度的最小值。
3 基于苏州轨道交通客流OD的实例分析
3.1 苏州轨道交通客流OD特征
本研究以2020年12月AFC数据作为研究对象进行分析。截至2020年12月,苏州轨道交通运营车站共计135个,因此乘坐城市轨道交通出行的OD最多存在 135×134=18 090(对),而通过对异常值、缺失值的筛选,除去同站进出、员工卡、超出运营时间的OD数据,最终统计得到有效OD共计15 212对。日均客流74.71万人次,平均旅行时间0.65 h,其中早高峰时段客流平均16.59万人次,晚高峰时段平均17.58万人次。与其他城市不同,苏州轨道交通周末客流量依旧较大,工作日与周末日均客流比例为1.06∶1。从客票种类来说单程票占比最多,占所有客票种类的 43.5%,其次市民卡占比 22.9%。在划分车站主导用地类型时,确定用地截断阈值为0.4。
选取该月较有特点的两组OD(A组:苏州火车站—察院场;B组:独墅湖南—月亮湾),对其时间特征、空间特征及客流特征进行展开分析(见表1、表2和表3)。如表1所示,在时间特征上,A组是全月客流最大的OD对,晚高峰小时客流量远大于早高峰小时客流量,且周末日均客流约为工作日日均客流的两倍,相比之下,B组客流总量略低于A组,但其早晚高峰客流潮汐性明显,且工作日日均客流也远大于周末日均客流;在空间特征上,苏州火车站是苏州重要客运枢纽,辐射范围广,承接苏州周边及其他城市的客流,而察院场位处苏州重要的商业中心,周边商业发达,两者距市中心较近,独墅湖南和月亮湾周围用地则分别是居住主导型用地和办公主导型用地,两地相距市中心较远;在客流特征上,A组的单程票客流占到77%,其余票种较少,而B组虽然单程票的比重依然最大,但市民卡和一卡通的比例大幅增加,其比例为46%(如图1所示)。
图1 两组客流OD客流结构分布Figure 1 The illustration of passenger flow structures of the two groupd of origin-destination data
表1 两组客流OD时间特征数据Table 1 Temporal dimensions in the two groups of origin-destination passenger flow data
表2 两组客流OD空间特征数据Table 2 Spatial dimensions in the two groups of origin-destination passenger flow data
表3 两组客流OD结构特征数据Table 3 Structural dimensions in the two groups of origin-destination passenger flow data
通过OD时间特征、空间特征和客流结构特征可以推测苏州火车站—察院场以旅游客流为主,而相比之下,独墅湖南—月亮湾客流则以通勤客流为主。为了更好地对所有OD的特点进行定量分析,总结乘客出行规律和特征,运用谱聚类算法对此高维特征数据进行聚类分析,并对比其他聚类方法对比聚类效果。
3.2 谱聚类算法实现与指标分析
根据2.1谱聚类算法实现流程,编写python程序,对OD数据进行聚类分析,其中权重计算采用高斯核函数,图切割方法采用Ncut方法。为了选取合理的核函数参数γ,研究计算了不同γ下的SC聚类评价指标(见表4),并绘制折线图(见图2)。
图2 不同高斯核参数下轮廓系数计算结果Figure 2 The illustration calculation results of contour coefficients with different Gaussian kernel parameters
表4 不同高斯核参数下轮廓系数计算统计Table 4 Statistical table of contour coefficient calculation with different Gaussian kernel parameters
从图中结果可以看出,当γ=3时,在聚类簇数nc∈[4,9]聚类效果较好,且超过其他参数值聚类效果,因此选取γ=3作为核函数参数。由于当nc∈[4,9]时,SC指标计算结果较为接近,为了更好地确定合理聚类簇数,深入计算了DBI指标,计算结果如图3所示。
根据图3的聚类结果,当nc=7时DBI指数出现极小值点(DBI越小聚类结果越好),因此综合两个聚类指标的计算结果,确定nc=7为最终的聚类簇数。在此条件下,分别计算k-means、Mini Batch k-means以及层次聚类(Hierarchical clustering)的聚类结果,并对其指标进行计算(见表5)。
图3 γ=3时聚类结果指标对比Figure 3 Comparison of clustering result indicators when γ=3
从表5中可以看出,谱聚类算法相较其他算法的指标计算结果较优,聚类效果较好。
表5 谱聚类与其他算法聚类结果对比Table 5 Comparison of spectral clustering and other algorithms clustering results
3.3 聚类结果分析
聚类结果压缩成二维后如图4所示,部分簇的聚类效果较好,但簇间也存在散点相互交叉的现象;各个簇的散点数不同但无数量级的差异,其中聚类5的样本数最多,聚类1的样本数最少(见表6)。为了减少分析过程中离群点的影响,依据用地特征对前80%的样本进行分析,并从时间特征、空间特征和客流结构进一步分析聚类后各个簇的特征。
表6 聚类结果特征分析Table 6 Characterization of clustering result
图4 聚类结果降维散点图Figure 4 Reduced dimensional scatter plot of clustering results
聚类0:包括了独墅湖南—月亮湾等1 221个OD对。在空间特征上,客流 OD对的主要用地类型为居住办公混合—商业办公混合、居住—办公,其发生吸引地距离城区较远,且相对距离较远;在时间特征上,OD客流的平均旅行时间也最长,工作日客流远大于周末客流,早高峰时段客流大于晚高峰时段客流;在客流结构上,除单程票外,市民卡和一卡通的客流也占据一定的比例。因此可将此类OD归纳为市郊进城通勤客流。
聚类1:包括了苏州新区火车站-察院场等2 239个OD对。在空间特征上,客流OD对的主要用地类型为枢纽—旅游、枢纽—商业,且发生地距离城区较远,但吸引地较城区较近,相对距离较远;在时间特征上,OD客流的平均旅行时间较长,周末客流远大于工作日客流,晚高峰时段客流略高于早高峰时段;在客流结构上,以单程票为主,其余票种数量较少。因此可将此类OD归纳为外市进城旅游客流。
聚类2:包括了山塘街-宝带路等1 711个OD对。在空间特征上,客流OD对的主要用地类型为枢纽—居住、旅游—居住,发生、吸引地距中心城区的平均距离适中,相对距离适中;在时间特征上,OD客流的平均旅行时间适中,周末客流远大于工作日客流,晚高峰时段客流高于早高峰时段;在客流结构上,以单程票、市民卡为主,其余票种数量较少。因此可将此类OD归纳为本市返城旅游客流。
聚类3:包括了钟南街—独墅湖邻里中心等1 246个OD对。在空间特征上,客流OD对的主要用地类型为居住,发生、吸引地距中心城区的平均距离均较远,但相对距离较近;在时间特征上,OD客流的平均旅行时间适中,周末客流略大于工作日客流,早晚高峰时段客流相差不大;在客流结构上,以单程票、市民卡、一卡通为主,其余票种数量较少。因此可将此类OD归纳为短途出行客流。
聚类4:包括了宝带路—山塘街等2 316个OD对。在空间特征上,客流OD对的主要用地类型为居住—枢纽、居住—旅游,发生、吸引地距中心城区的平均距离较为适中,相对距离适中;在时间特征上,OD客流的平均旅行时间适中,周末客流略大于工作日客流,晚高峰时段客流略大于早高峰时段;在客流结构上,以单程票、市民卡为主,并有部分次票,其余票种数量较少。因此可将此类OD归纳为本市出城旅游客流。
聚类5:包括了横塘—人民桥南等4 338个OD对。在空间特征上,客流OD对的主要用地类型为办公—居住、居住—办公,发生、吸引地距中心城区的平均距离均较近,相对距离较近;在时间特征上,OD客流的平均旅行时间短,工作日客流远大于周末客流,早晚高峰时段客流较大且相差较少;在客流结构上,以单程票、市民卡为主,其余票种数量较少。因此可将此类OD归纳为市区通勤客流。
聚类 6:包括了山塘街—高铁苏州北站等 2 140个OD对。在空间特征上,客流OD对的主要用地类型为旅游—枢纽、商业—枢纽,发生地距中心城区的距离较近,吸引地较远,相对距离较远;在时间特征上,OD客流的平均旅行时间较大,周末客流远大于工作日客流,晚高峰客流略高于早高峰时段客流;在客流结构上,以单程票为主,其余票种数量较少。因此可将此类OD归纳为外市返城旅游客流。
综上所述,将7类客流OD归纳为以下7种客流(见表 7)。
表7 客流OD归纳Table 7 Types of origin-destination passenger flows
4 结论
本文以苏州轨道交通 OD客流数据为基础,从OD客流的时间特征、空间特征、结构特征 3个角度对车站间客流特征进行分析,并通过谱聚类算法对高维客流 OD数据进行聚类分析,从而实现精准分型;利用轮廓系数与戴维森堡丁指数对比不同方法的分类结果,证明谱聚类方法相对于k-means等其他方法具有更好的分类效果。通过归纳其聚类特点,最终得出市郊进城通勤客流等 7种车站间客流时间分布类型。本文为不仅为客流的分类提供了一种更具操作性的定量分析方法,也为后续的客流预测等研究奠定基础。