基于混合Logit模型的旅客对短途高速铁路列车选择行为
2021-04-10胡启洲
程 谦,杨 光,胡启洲
(1.南京铁道职业技术学院 运输管理学院,江苏 南京 210031;2.中国铁路上海局集团公司 上海客运段,上海 200071;3.南京理工大学 自动化学院,江苏 南京 210094)
旅客在选择高速铁路出行时,面对不同种类、不同时段开行的列车表现出不同的选择行为。深入研究旅客对不同列车的选择行为,定量分析影响旅客选择行为的主要因素,可以进一步丰富交通出行选择行为理论研究的内涵,也可以为高铁运营企业合理设计列车服务产品、开展精准营销活动提供理论依据。
旅客对不同列车的选择属于交通出行选择行为研究领域。离散选择模型是研究交通出行选择行为的常用方法[1-2]。Nuzzolo 等[3]将列车票价、出行时间、进出站方式等作为影响旅客选择的主要因素,构建巢式Logit模型,研究了铁路列车服务水平及价格政策与市场需求的匹配程度。Coldren等[4-6]将不同航班的服务水平、航程关联特性、机型特点、乘坐舒适程度等作为主要影响因素,应用多项式Logit模型、巢式Logit模型以及排序广义极值模型,研究了旅客对不同航班的选择行为。Bekhor 等[7]将航线价格、经停次数、中转等待时间等航班服务水平作为影响旅客选择行为的主要因素,应用多项式Logit模型与排序Logit模型,分析了旅客对不同航班的选择行为。考虑到出行旅客的异质特点,Hetrakul 等[8]将旅客社会特征与票价、出行时间、提前购票时间等作为影响因素,分别应用多项式Logit模型、潜类别Logit模型以及混合Logit模型研究铁路旅客购票行为,结果表明潜类别Logit模型、混合Logit模型相比传统的多项式Logit模型具有更强的客流预测能力。国内相关研究中,史峰等[9]将旅客主体特性、列车特性和随机因素作为主要影响因素,应用多项式Logit模型研究铁路旅客乘车选择行为。王文宪等[10]构建巢式Logit模型分析了旅客社会特征、出行特征、列车服务特征对旅客选择普速铁路不同列车行为的主要影响。王文宪等[11]将旅客社会特征、旅客出行特征、列车服务特征作为影响旅客选择的主要影响因素,应用多项式Logit模型分析了旅客在面对动车类与高铁类列车时的选择行为。上述研究中,多数是将列车种类作为旅客乘车选项,但旅客对同一种类列车的不同开行时段,也表现出差异化的选择行为,有必要将列车出发时间也作为选择项,深入分析旅客差异化的乘车选择行为。
选择集独立、互斥是应用选择行为模型(多项式Logit模型、巢式Logit模型等)的假设条件之一,这一假设条件要求选择项不相关,但并不适合实际应用场景。混合Logit模型突破了这一假设,可以近似于几乎任何一种随机效用模型[12]。高铁在不同种类、不同开行时段下的列车相互替代性强,旅客对不同列车的选择行为过程建模更适合采用混合Logit模型,而目前该模型在高铁旅客出行选择行为领域的研究较少,尚缺乏系统化的论证分析。
本文以旅行时间在3 h范围内的南京到上海和南京到杭州的短途高速铁路旅客群体为研究背景,应用行为调查与意向调查方法收集客流数据,分别构建混合Logit模型与多项式Logit模型,拟合实际调查数据,研究旅客对短途高铁不同种类、不同时段出发列车的选择行为,比较混合Logit模型与多项式Logit模型的拟合优度,分析旅客选择高铁列车的影响机理,为定量描述短途高铁市场需求,以及高铁运营企业合理设计列车服务产品、开展精准营销活动提供理论支持。
1 出行选择行为调查
1.1 问卷调查
本文综合应用行为调查法与意向调查法[13-15]开展客流调查,其中行为调查法用于调查旅客的个体特征和出行特征;意向调查法通过构建选择情境,调查旅客的出发时间、在途时间及车票价格等偏好。
客流调查范围设定在旅行时间在3 h范围内的短途高铁旅客群体。假设旅客搭乘沪宁高铁、宁杭高铁列车从南京到上海或者到杭州,根据在线时刻表(12306 网站)构建意向调查的选择情景:出发时间选择在5:00—21:00时间范围,并按照3 h的间隔将其划分为6个时间段(其中最后1个时间段是1 h);在途时间根据D类与G类高铁列车不同停站方案,设置6个水平,分别是1 h 20 min,1 h 40 min,2 h 00 min,2 h 20 min,2 h 40 min,3 h 00 min;车票价格根据高铁二等座实际售票价格设置4个水平,分别是115,128,135 和216 元。根据上述不同影响因素及水平设置条件,应用全因子实验设计方法,构造出24 趟列车信息。将这24 趟列车分为4 组,每组6 趟列车,在每个时间段安排1 趟出发列车,6 趟出发列车构成1个选择集;受访者对1个选择集进行1 轮选择,则每1位受访者需完成4轮选择实验。4 组列车分别为:①列车1,列车5,…,列车21;②列车2,列车6,…,列车22;③列车3,列车7,…,列车23;④列车4,列车8,…,列车24。为更好把握旅客对不同列车的主观选择意愿,简化分析,假设选择情境中的各次列车预售票额充足。
2019年5月15日—6月15日课题组在上海、苏州、无锡、南京、杭州等地的高铁车站、长途汽车站开展客流调查,共计发放调查问卷600 份,其中南京到上海和到杭州各300 份,收回有效问卷511 份,问卷回收率85.2%,满足标定选择行为模型对样本数量回收率的要求。数据统计时,仅按照列车序号进行汇总,不再区分到站。
1.2 数据描述
通过行为调查得到的旅客个体特征和出行特征分布见表1。由表可知:女性旅客略多于男性;年龄集中在31~50岁之间;职业多为公务单位与企业的职员;大部分旅客为中等偏高收入;休闲出行占比最高,公务出行次之;大部分旅客自费出行;出行前时间多数在2 h 之内;公共交通是旅客偏爱的出行前接驳方式。
通过意向调查获得旅客对不同时间段开行不同列车的选择偏好见表2,其中“选择比例”是指选择该列车的旅客数占本轮样本总数的比例。由表2可知:旅客选择较多的列车集中在时段1,时段2和时段3;在同一时段内,旅客选择比例较高的是列车行程时间短的列车。
2 列车选择行为模型
2.1 混合Logit模型的建立
混合Logit模型突破了多项式Logit模型要求选择集内各选择项不相关的假设条件,允许选择者存在“随机口味差异”[16]。基于选择行为理论,多项式Logit模型中,旅客n选择列车i的概率Pni(βTn)[1-2]为
表1 旅客个体特征和出行特征比例分布
式中:βTn为系数向量;Vni(βTn)为旅客n选择列车i的效用的固定部分;j为备选列车序号。
混合Logit模型中,旅客n选择列车i的概率Pni,是在系数向量βTn不同取值处的加权平均值,权重是密度函数f(βTn)。假设密度函数f(βTn)服从正态分布,若均值向量为θ,则混合Logit模型的选择概率Pni为
均值θ可采用仿真计算的方法获得,即通过连续抽取系数向量βTn的值计算仿真概率,得到模型的模拟对数似然函数,进而应用梯度法或Newton-Rapson法求解。
如果旅客n选择列车i的效用的固定部分关于系数向量βTn是线性的,则Vni(βTn)=βTn xni,其中,xni是可以观察到的与旅客n及被选列车i有关的影响因素向量。这些影响因素向量包括旅客的个体特征、出行特征与列车的服务水平[7],用In表示旅客n的个体特征向量,Tn表示旅客n的出行特征向量,Ci表示列车i的服务水平向量。则旅客n选择列车i的效用的固定部分为
表2 不同列车选择比例分布
将式(3)代入式(1),则得多项式Logit模型中,旅客n选择列车i的选择概率Pni(βTn)为
将式(4)代入式(2),则得混合Logit模型中旅客n选择列车i的选择概率Pni为
2.2 变量设计
将表1中性别、年龄、职业、学历及月收入作为模型中的个体特征变量,出行目的、购票资金来源、行前时间、行前接驳方式及当天返程与否作为模型中的出行特征变量;将表2中列车出发时刻、旅行时间及车票价格作为列车服务水平变量;将前述变量中性别、年龄、职业、月收入、出行目的及购票资金来源与车票价格的点积作为交互变量,以便通过分析交互变量的系数说明不同类别旅客对票价的敏感性。以此设计的模型变量见表3,为避免模型拟合出现多重共线性,对模型中的无序多分类及哑元变量指定了参照组。
表3 模型变量
续表
2.3 参数估计
分别应用式(5)和式(4),基于Stata14.0软件,拟合问卷调查得到的客流数据,其中系数估计值的显著性采用P值(p<0.05)进行检验。混合Logit模型在连续抽取系数向量βTn的仿真计算过程中,应用Halton 数列方法,随机抽样150次计算仿真概率。
列车服务水平变量的系数估计结果见表4。混合Logit模型中,列车服务水平变量的系数估计结果为随机项,可以用来描述不同旅客对列车服务水平的感知差异,因此表中列出了系数均值与系数均值标准差、P值及P值标准差;多项式Logit模型的系数估计结果是非随机项,因此表中仅列出了系数估计值和P值。个体特征及出行特征变量在混合Logit模型中的参数估计结果见表5,在多项式Logit模型中的参数估计结果见表6。旅客的个体特征及出行特征变量对旅客选择行为的影响是确定的,因此在2个模型中的系数估计结果均是非随机项。
表4 列车服务水平变量的系数估计结果
2.4 模型验证
评价离散选择模型拟合优度的指标有多种,其中较为常用的指标是麦克法登伪R2度量、赤池信息准则(AIC)、贝叶斯信息准则(BIC)。麦克法登伪R2指标越接近0,表明模型拟合度差;越接近1,说明模型拟合度好。AIC 指标与BIC 指标相对较小的模型拟合结果较好。表7列出了混合Logit模型与多项式Logit模型的拟合指标。由表7可以看出,混合Logit模型的最优对数似然函数值、麦克法登伪R2指标均大于多项式Logit模型,AIC值与BIC值相对较小,说明相较于多项式Logit模型,混合Logit模型的拟合优度更好,更适合列车选择行为建模。
3 变量系数估计结果
3.1 列车服务水平
1)出发时间
分析表4可知:混合Logit模型中,列车服务水平变量系数的估计结果较好地描述了出行旅客的“随机口味差异”,以6:00—7:00时间范围为例,变量TM67系数估计均值为2.089,标准差为2.861,根据正态分布定义,样本中系数估计值小于0的累计概率为0.23,说明有77%的样本旅客偏好选择该时段出行;同理,变量TA121和TA89系数估计均值分别为0.069 和1.793,标准差分别为-1.205和0.969,说明有51%的样本旅客偏好选择12:00—13:00时段出发的列车,而仅有10%的样本旅客偏好选择20:00—21:00时段出发列车;而多项式Logit模型中,变量TAM67系数估计值大于0 且统计结果显著,说明样本旅客偏好选择6:00—7:00时间范围出发列车,但无法定量说明偏好选择该时间范围出发列车旅客群体的数量多少;变量TPM01和TPM89的系数估计值小于0但估计结果不显著,系数估计结果没有统计意义。
表5 混合Logit模型个体特征与出行特征变量系数估计结果
表6 多项式Logit模型个体特征与出行特征变量参数估计结果
续表
表7 模型拟合指标
2)旅行时间和票价水平
表4的混合Logit模型中:旅行时间变量t系数估计均值为-1.269,标准差为0.863,根据正态分布定义,表明93%的样本旅客对票价水平敏感;票价水平变量C系数估计均值为-0.509,标准差为-1.529,表明仅有37%的样本旅客对票价水平敏感。而多项式Logit模型中:旅行时间与票价水平变量的系数估计值小于0且统计结果显著,说明旅行时间、票价水平变量与旅客对列车的选择行为负相关;旅行时间变量的系数估计值小于票价水平变量的系数估计值且统计结果显著,说明旅行时间变量对旅客选择行为的边际效用大于票价水平变量,影响旅客对短途高铁列车选择行为的关键因素是旅行时间。
3.2 旅客个体特征与出行特征
综合分析表5与表6的参数估计结果可知:性别与票价水平交互变量Cx系数估计值大于0,表明女性旅客票价敏感度高;年龄与票价水平交互变量Ca3系数估计值远小于Ca1与Ca2系数估计值,表明50岁以上旅客群体对价格敏感度高;职业类别变量O1系数估计值在第2类列车组中大于0,表明对比参照组(其他职业),公务人员及企业职员群体偏好选择上午8:00—11:00时间范围开行的列车;职业类别与票价水平交互变量Co1系数估计值的统计结果显著,表明对比公务人员与企业职员,学生群体的价格敏感度高;收入变量I系数估计值的统计结果不显著,表明月收入水平与出行时间范围不相关;月收入与票价交互变量Ci1的系数估计值小于变量Ci2的系数估计值,表明低收入群体价格敏感度高;行前接驳变量Sc3的系数估计值在5类列车组中均为负值,表明行前接驳选择自驾换乘的旅客群体偏好选择5:00—8:00时间范围开行的列车。
对比表5与表6的参数估计结果发现:一些变量的系数在混合Logit模型与多项式Logit模型中的估计结果表现出不一样的显著特征。例如,在表5中,出行目的变量D2在第2类及第4类列车组的系数估计值大于0 且统计结果显著,表明休闲出行旅客对上午8:00—11:00及下午14:00—17:00开行列车的选择偏好基本一致;但在表6中,这一系数估计值统计结果不显著。购票资金来源变量M的系数估计值在表5第2类列车组的中大于0 且统计结果显著,表明公费购票旅客偏好选择上午8:00—11:00 开行列车;变量Cm的系数估计值大于0 且统计结果显著,说明对比公费购票旅客,自费购票旅客的价格敏感度高;但这2个系数估计值在表6中统计结果不显著。这是由于混合Logit模型将与选择项相关的列车服务水平变量的系数设定为随机变量,提高了模型中非选项相关变量(旅客个体特征与出行特征变量)参数的估计精度;而多项式Logit模型将该系数设定为固定值。
3.3 不同出行时间支付意愿
根据选择行为理论,不同时间范围开行列车的旅客支付意愿可以用开行时间变量系数与价格变量系数的比值表示,该值可以反映在单位价格水平下,旅客愿意为某一开行时间额外支付的代价,如果比值结果为正,说明旅客愿意为当前开行时间范围列车多支付,反之则相反[1]。基于表4中不同出发时间变量及价格变量系数计算不同时段的旅客支付意愿,整理结果见表8。由表8可知,早6:00—10:00范围内的旅客支付意愿最高,早10:00—12:00及午后14:00—16:00范围次之,晚间17:00—22:00范围旅客支付意愿最低。目前,高铁运营企业正在试点车票弹性定价改革,热门时段价格上浮,非热门时段保持平价或价格下浮,应用价格水平描述旅客支付意愿可以为不同时段列车实施弹性定价提供理论支持。
表8 不同出行时间旅客支付意愿
4 结 论
(1)对比多项式Logit模型,混合Logit模型的拟合优度更好,更适合旅客对列车选择行为建模。
(2)列车出发时间是影响旅客选择行为的关键因素,对于6:00—7:00时间范围出发列车,有77%的样本旅客偏好选择,对12:00—13:00时段出发的列车,有51%的样本旅客偏好选择,而对于20:00—21:00时段出发列车,仅有10%的样本旅客偏好选择。旅行时间、票价水平变量与旅客对列车的选择行为负相关,旅行时间对旅客选择行为的边际效用大于票价水平,有93%的样本旅客对票价水平敏感,而仅有37%的样本旅客对票价水平敏感。
(3)不同性别、年龄、职业、月收入、购票资金来源的旅客群体对票价的敏感度不同,其中女性旅客、50岁以上、学生、低收入、自费购票等旅客对票价敏感度均较高。不同职业、出行目的以及行前接驳方式旅客群体对列车出发时间选择偏好不同,公务人员及企业职员偏好选择早8:00—11:00时间范围开行的列车,休闲出行旅客偏好选择8:00—11:00及14:00—17:00开行列车。行前接驳选择自驾换乘的旅客,偏好选择5:00—8:00时间范围开行的列车。
(4)对不同时间段列出支付意愿不同,其中早6:00—10:00范围开行列车的支付意愿最高,早10:00—12:00 及午后14:00—16:00范围次之,晚间17:00—22:00范围旅客支付意愿最低。
(5)本研究调查范围设定在旅行时间3h范围内的短途高铁旅客群体,对于长途高铁列车,由于出行选择产品的多样性,需要进一步研究其他产品(航空、普速列车等)的替代性以及其他因素对旅车选择行为的影响。