基于集成学习的城市轨道交通乘客路径选择建模

2020-07-13王璐瑶

铁道学报 2020年6期

王璐瑶，蒋熙

(北京交通大学轨道交通控制与安全国家重点实验室，北京 100044)

在城市轨道交通网络化运营中，准确掌握乘客的路径选择行为规律是合理制定运输组织计划、协调各线路运营状态的重要基础。如何构建符合实际的路径选择模型一直是理论与应用研究中的一个热点与难点，相应的建模方法可分成基于行为机理的建模和基于数据的建模两大类。很多学者进行了基于随机效用及相关理论的离散选择建模研究，文献[1-5]属于第一类中的代表方法。然而，准确反映乘客行为的机理建模及参数设置一直是一个难题，尤其是在复杂运营条件下，基于行为机理的路径选择建模方法开始体现出其固有的局限性。基于数据的建模方法则可以运用机器学习方法从数据中挖掘乘客路径选择规律，从而脱离行为机理的束缚，建立起更准确、更符合实际的路径选择模型。道路交通领域的学者开展了相关研究，文献[6-8]研究了车辆的路径选择神经网络模型和支持向量机模型；对于城市轨道交通的路径选择问题，文献[9]构建了基于决策树的乘客个体出行路径随机生成模型，但仅适用于某特定日期及既有OD对；文献[10]构建了基于支持向量机的路径选择模型，但未能考虑不同乘客构成的影响，模型适应性和灵活性还有待提高；文献[11]针对乘客的选择倾向研究了路径推荐算法，但并未面向运营决策给出路径选择概率。因此，在既有研究的基础上，本文面向网络化运营特点研究城市轨道交通乘客路径选择机器学习问题，围绕路径选择的核心影响要素，研究更加准确并符合实际的路径选择机器学习建模方法，以适应实际运营决策对乘客路径选择建模的需求。

1 方法的提出

1.1 路径选择建模的机器学习问题分析

城市轨道交通系统中，具有不同属性的乘客在出行时，往往会依据各自的出行经验、出行需求、所获取的信息，在某OD对的多条路径中进行各个方案的比较和选优，选出最符合其自身需求的“最优”路径方案。本文将影响OD对间各路径选择概率的主要因素归纳为客流成分构成、各路径的属性、OD特性等方面。

(1)客流成分构成。主要指OD对之间由多种不同属性乘客构成的客流及其类别。乘客属性中，除了性别、年龄、教育、职业、收入等基本属性外，与出行目的相关的特性对路径选择的影响也需要格外重视。

(2)各路径方案的属性。本文称为路径属性，主要指各路径的乘车时间、换乘时间、换乘次数、拥挤程度等方面。

(3)OD基本特性。主要包括OD的换乘可达性及OD旅行时间等。经分析可见，乘客在进行路径选择时，路径属性在乘客路径选择中发挥的作用还可能因OD而异[10]。例如，相对于较长耗时的OD，旅行时间较短的OD内不同路径间的出行时间差对选择概率的影响更大；乘客对增加一次换乘的敏感度也因OD的时间距离和OD内各路径的最少换乘次数有关。

构建基于机器学习的乘客路径选择模型，需要从数据中挖掘上述影响因素对乘客路径选择概率的作用关系与规律。其中，乘客出行路径选择数据主要通过调研、手机定位等方式进行采集，目前国内多个城市已经在实际运营中不断积累并形成了一定规模的数据可供使用。此外，通过AFC刷卡数据、列车时刻表数据，可以直接抽取或者经处理后形成路网内各个OD的基本特性以及各路径方案属性。然而，各OD之间的客流成分构成信息却无法从既有运营数据中获取，另外，在全网范围内进行各OD客流调查又存在较大难度。因此，在缺乏客流构成一手数据情况下，如何在建模和预测时纳入这一要素，从而体现客流构成的不同对路径选择结果的影响，是本文在确立建模方法时需要考虑的关键问题。

1.2 基于集成学习的路径选择建模方法

在相同条件下，不同客流成分构成的路径选择结果存在一定差异，而一个OD对间的客流并非完全确定，其构成往往呈现出一定的随机分布规律。这就增加了路径选择建模的复杂度，如果仅仅依靠单一的机器学习模型和算法的优化则难以建立高效而准确的模型。因此，本文引入集成学习方法，构建若干子学习器并按一定方式集成为考虑了异质性的路径选择机器学习模型。

基于集成学习的建模，首先需要依据某种策略划分子学习器，结合本文的出发点，基于客流成分构成的异质性进行子学习器的划分就成为自然的选择。针对无法直接获取客流成分信息所带来的难题，分析发现，路网中不同OD对之间的客流构成与起、终点站所在的区域特性有关。例如，北京地铁中，早高峰时段由天通苑、回龙观等大型居住区附近站点进站的通勤客流占比远大于由北京站、北京南站进站的客流，而在天安门、王府井等站点出站客流中，以旅游商业为主要出行目的的客流占比远大于从国贸、西二旗等大型工作区站点出站的客流占比。因此，本文将聚类算法与集成学习相结合，基于轨道交通站点特性与客流构成间的内在关联性进行轨道站点聚类，将客流成分构成这一隐性要素转化为站点特性这一显性因素，并将其用于子学习器划分与模型构建，形成了基于客流异质性的路径选择集成学习方法，见图1。

图1 基于客流异质性的路径选择集成学习方法

首先，进行地铁站点聚类，将路径选择模型划分为不同OD类别下的路径选择子学习器模型。然后，按照聚类结果抽取各个类别的训练样本数据，选择适当的机器学习算法构建路径选择子学习器。最后，对任一给定的OD及路径集，当需要预测各路径选择概率时，将该OD对应的类别隶属度进行变换后形成权重系数，将各子学习器分别预测后形成的结果进行加权集成，输出最终预测结果。

2 模型建立

2.1 轨道交通车站聚类

运用聚类方法将轨道交通车站划分为若干类别并给出隶属度，可反映不同OD对之间客流构成的异质性。为了反映客流构成与站点特性之间的内在关联，从车站周边土地利用、进出站客流量特性、客流票卡类型等方面选择并确定聚类要素，同时考虑数据获取的可行性，选取了如下16个维度的聚类变量：

(1)F1、F2分别为该站点周围居住类POI及办公类POI在总POI中的百分比，可根据电子地图中POI数量进行计算。

(2)F3表示该站点周围是否有大型景点，0表示无、1表示有。

(3)F4为该站点距离市中心的直线距离，m。

(4)F5为轨道路网中该站点的可达性度量，用20 min内从该站可到达的其他站点总数表征。

(5)F6、F7、F8、F9分别为该车站工作日早晚高峰的客流量占比，分别用早高峰进站量/全天进站量、晚高峰进站量/全天进站量、早高峰出站量/全天出站量、晚高峰出站量/全天出站量进行计算；F10为工作日与周末的进站客流量百分比。这些变量表征该站客流的时间分布特征，可利用AFC数据统计得到。

(6)F11、F12分别为该车站工作日、周末一票通乘客所占的百分比，利用AFC数据统计得到。

(7)F13、F14、F15、F16分别为该车站在工作日、周末、进站、出站的客流高峰所在时段，利用AFC数据统计得到。

为了获得站点类型以及各站属于某一类别的概率，选择模糊c-均值算法(FCM)进行地铁站点聚类，主要流程如下：

(1)聚类数据提取与标准化

主要以电子地图数据与AFC数据为数据源，对路网内各车站的上述聚类变量进行数据提取，并采用Z-score[12]方法处理后形成标准化的各站点聚类数据。

(2)变量相关性检验

采用KMO检验和Bartlett检验方法检验聚类变量之间的相关性，若检验通过则可对原始聚类变量进行下一步聚类因子提取。

(3)运用FCM算法进行聚类

FCM是一种基于目标优化的聚类方法，将各样本点进行模糊划分，用模糊隶属度来表征各个样本点属于各个组的程度，并通过不断迭代，使各个样本点距模糊聚类中心的加权距离之和达到最小。

运用FCM算法对路网各车站进行聚类，优化目标为

(1)

式中：n为路网中聚类样本车站的总数；i为车站，i=1,2,…,n；c为聚类数目；j为站点类别编号，j=1,2,…,c；uij为样本车站i属于第j类的模糊隶属度；m为加权指数，在此取2；dij为车站i距离第j类聚类中心的距离，用欧式距离计算。最佳聚类数目c通过最小化类内距离DBI[13]与最大化中心间距CHI[14]的值来确定。具体优化算法在此不赘述。

2.2 基于支持向量回归机(SVR)的路径选择子学习器构建

站点聚类后，对任一O点站类型与D点站类型均可形成一类OD类别。本文利用轨道交通系统中的路径选择结果数据，运用SVR进行学习，挖掘路径选择影响因素与路径选择概率间的作用关系与规律，形成每一种类别OD的路径选择子学习器。此机器学习算法通过引入核函数把原有的线性学习器拓展为非线性学习器，该算法不在此赘述。

每个乘客在进行路径选择时，总是面对单个OD进行决策，在一个OD对内部的有限路径集范围内进行分析、比较和选择。由此，进行基于SVR的机器学习时，各个样本的数据集也是以OD对为单位来构建。模型输入包括该类OD下各个OD的基本特性与各路径方案特性，模型输出则为每一OD内各条路径的选择概率。

对某一OD类型下的任一OD对p，如前分析，OD内所有路径的最小换乘次数和平均旅行时间对乘客选择路径有重要影响，因此，以这两项表示该OD对p的OD基本特性S为

S=(cp,tp)

(2)

式中：cp为OD对p所有路径集的最小换乘次数；tp为OD对p的平均旅行时间。

(3)

若OD对p包含w条有效路径，该OD对的路径方案属性矩阵R为

(4)

然而现实系统中不同OD对有效路径数目可能不相等，这将增加建模的复杂度。本文采用了设置“虚拟路径”进行路径集增补的方法来解决这一问题。“虚拟路径”在实际中并不存在，对任一OD对，可将其定义为换乘次数、乘车时间与路径长度均为极大值，且其选择概率为0的“路径”。假设路网所有OD中最大有效路径数目为N，对任一拥有w条有效路径的 OD，若w

经过路径增补后，对于路网中某一OD类型，基于SVR的路径选择子模型的输入为该类OD下各个OD样本数据X的集合，对于其中的任一OD对p，其输入可表示为

(5)

子模型输出为该类别OD下各个OD样本数据Y的集合，对于其中的OD对p，其输出可表示为

(6)

对任一OD类别的路径选择SVR子模型，按下述步骤进行模型训练：

Step0从路径选择实际数据中抽取该类别下的所有OD对及各个OD的样本数据。

Step1采取随机原则对给定类型OD下的样本数据进行划分，形成训练集与测试集。

Step2选用ε-SVR作为机器学习模型，经训练形成该类别下的路径选择子学习器。

Step3运用测试数据集对训练好的SVR模型进行评价，将预测值与实际值进行对比并计算误差。

2.3 基于路径选择子学习器的集成预测

在某轨道交通路网内(既有的或接入新线后扩展形成的)，对设置或更新了相应属性的任一OD对od(其起点站为o，终点站为d)，可运用集成学习方法对各路径选择概率进行预测。基于路径选择子学习器的集成预测方法的主要流程如下：

Step1子学习器样本划分与训练

Step2计算待预测OD对od的类别隶属度

Step3各子学习器预测

Step4子学习器预测集成

对各个子学习器的输出概率进行加权结合，获得集成后的路径选择概率向量P为

(8)

3 案例

基于本研究的可用数据，以2015年北京市轨道交通为背景进行案例分析，当时北京地铁路网共包含16条线路，231个运营车站，路网拓扑图见图2。

图2 2015年北京轨道交通路网拓扑图

3.1 北京地铁站点聚类

本文以电子地图数据与AFC数据为数据源进行数据提取，获得各站点16维聚类变量的数据集并进行标准化处理及检验。进而，运用FCM算法进行模糊聚类，计算得到在聚类数目为5时DBI值最小，CHI值最大，因而最优聚类数目为5。路网各站点聚类结果如下：

(1)类4 该类别以工作区站点为主，客流通勤特性明显。

(2)类3 该类别以居住区类站点为主，客流通勤特征明显。

(3)类2 该类别属于职住混合但偏居住类，客流特性较类3复杂。

(4)类1 主要为旅游景区及交通枢纽类站点，客流特性与通勤类有明显区别。

(5)类0 该类别属于职住混合但偏工作区类，客流特性较类4复杂。

各类站点在路网上的分布见图3。图中，除了少数产业园外，工作类与偏工作的混合类站点基本位于三、四环之间，而城市外围区域的居住类及偏居住的混合内站点数量多于中心城区，类1中的站点集中于各大景点附近。这一结果与城市实际情况吻合度较高。

可见聚类结果较好地反映了路网各站点在客流成分构成上的相似性与差异性，客流构成的异质性与站点的类别能够很好地关联起来，在此基础上，可进行路径选择子学习器的构建。

3.2 路径选择子学习器的训练与集成预测

本文利用北京市轨道交通的乘客路径选择数据，经计算得到各个OD基本特性及各路径属性信息，以及每条路径所对应的乘客选择概率。统计路网中各个OD的最大有效路径数量，最终将最大有效路径数目N设为5，对路径数量小于5的OD设置虚拟路径进行增补后形成机器学习数据总体样本集。依据聚类结果，路径选择数据样本被划分为25个类别，每一类OD中的路径选择数据即为一个子样本，再将其分成测试样本和训练样本，计算样本对于每个OD类别的隶属度。

进一步，利用25个子样本集分别构建相应的路径选择SVR模型，训练出25个子学习器。以居住区类—工作区类(类别3—类别4)的子学习器为例，训练集中包括1 698个OD的样本数据，经训练获得最优的SVR回归模型。然后，利用训练好的SVR回归模型对测试集中的425个OD进行测试，与实际数据比较，计算得到均方误差为0.005 996，平均绝对误差为0.062 121。

对于每一个需要预测的OD对，分别运行训练好的25个子学习器，以OD类别隶属度为权重对所有子学习器的预测结果进行加权平均后形成最终预测结果，与实际数据的对比见图4。

图4 集成学习的路径选择SVR模型预测与实际值的对比结果

经计算得到均方误差为0.004 911，平均绝对误差为0.053 835。与子学习器在测试集上的预测结果相比，集成学习的预测结果误差满意。

3.3 应用

2015年底，北京地铁14号线中段和昌平线二期2条轨道新线开通运营。新线开通后的路网拓扑与出行路径均发生了改变，需要在新的条件下进行乘客路径选择预测。首先，对新线开通后增加的9个车站进行了重新聚类，并获得新站点类别及隶属度，见表1。

然后运用本文方法进行全网OD路径选择预测。以方庄至安定门这一新OD为例，将这一OD的基本特性和路径特性输入训练好的每个子学习器，按隶属度进行加权集成后得到各条路径的选择结果，该OD的路径信息及选择概率结果见表2。

表1 新站点的类别隶属度

表2 方庄至安定门间路径信息及路径选择预测结果

由表2可见，新增的方庄至安定门OD有5条路径，最小换乘次数为2次，最小旅行时间为41.28 min。依据OD基本特征和各路径特征预测得到各路径选择概率，绝大多数乘客选择前2条路径，其中，换乘次数最少、乘车时间和路径长度最短的第1条路径被选择概率最高，达到79.89%。

4 结论

围绕不同客流构成特性、OD基本特性、路径集特性等要素对乘客路径选择的作用与规律挖掘，采用机器学习方法构建了路网乘客路径选择模型。运用模糊聚类方法对轨道交通车站进行聚类，将客流构成特性与站点类型关联起来，将客流特性作为隐性要素映射到OD类型这一显性要素上，提出了基于客流异质性的乘客路径选择集成学习方法，解决了乘客特性数据不便直接获取这一难题。在OD类别基础上进行路径选择学习器及学习样本的划分，构建了路径选择SVR子学习器模型，并利用OD类别隶属度对子学习器的预测结果进行集成预测，经集成学习前后的预测数据对比分析，证明用本文提出的方法所构建模型的预测结果更符合实际。基于路网乘客路径选择结果，可准确把握客流在路网上的分布，更好支撑网络化运营决策的需要。