京沪高速客运通道旅客出行选择影响因素研究
2019-01-24栾维新
苏 敏,栾维新,马 瑜,张 睿
(大连海事大学 交通运输管理学院,辽宁 大连 116026)
0 引言
我国高速铁路的快速发展对民航业主导的高速客运市场形成竞争,客运需求结构也随之发生着变化。目前,以高速铁路或民航为主构成的京沪高速客运通道,已经成为我国高速铁路及民航客运量最大、竞争最为激烈的高速客运市场。因此,分析京沪通道高速铁路与民航竞争环境下的旅客出行选择影响因素,能够更好地了解旅客出行现状、提升高速铁路与民航服务水平。
1970年,非集计理论走向实践并迅速在交通运输领域得到应用[1],并且在旅客出行选择影响因素方面的研究取得了一些成果。Thrane[2]的实证研究表明,年龄对出行方式选择的影响并不是线性的,旅客选择民航出行的概率随出行人数的增加而降低;Georggi等[3]的研究表明,高收入群体对时间更为敏感,因而偏好选择旅行时间短的飞机出行;王爽等[4]以SP 调查数据为基础,研究铁路旅客对高频率列车换乘模式和直达列车的选择偏好;张迦南等[5]研究了旅客出行方式选择行为随出发时间和出行距离变化情况;许若曦等[6]分析了高速铁路技术经济特性对客流分担率的影响。在我国高速客运通道旅客出行方式选择行为方面,依据非集计理论进行实证研究较少。叶玉玲等[7]以SP和RP数据为基础,研究了上海—杭州旅客出行方式选择行为;张旭等[8]以武汉与广州两地调研数据为基础,构建了描述高速铁路和民航竞争关系的Binary Logit模型。
这些研究探讨了各影响因素如何对旅客出行方式选择行为产生影响,但很难直观呈现出各影响因素之间的交叉关系及其对旅客出行方式选择行为的综合影响。为此,在此基础上,将非集计理论与决策树方法相结合,以高速铁路或民航为京沪高速通道旅客所选出行方式,在研究单个影响因素对京沪高速客运通道旅客出行方式选择行为影响程度的同时,进一步研究不同影响因素间的相互关系。采用Binary Logit模型能够标定各影响因素对旅客出行方式选择行为的影响程度,而基于C5.0算法的决策树模型可以直观展示各影响因素对旅客出行方式选择行为所产生的综合影响,二者结合能够对旅客出行方式选择行为影响因素有更为深刻的认识,从而在一定程度上为高速铁路与民航设计符合不同类型旅客的客运产品提供实证依据。
1 京沪高速客运通道旅客出行选择影响因素数据描述
京沪高速客运通道旅客出行选择特征调研问卷包含行为调研(RP)与意向调研(SP) 2部分内容:RP调研属性包括性别、年龄、职业、收入、旅费来源、出行人数等;SP调研属性包括首先出行时间、支付意愿等,选择在北京、上海的机场和高速铁路站、随机选取北京—上海(上海—北京)线旅客进行调研。京沪高速客运通道旅客调研数据描述如表1所示。
根据调研数据,男性旅客占比偏高,大多数为40岁以下公务出行的职员和经理,而且总体来看男性旅客更倾向于选择高速铁路出行;年龄介于18 ~ 40岁之间的旅客占比高达82.5%;收入对旅客出行方式选择行为存在较大影响,随着收入的增加,选择民航出行的旅客占比随之增加;根据旅客偏好的不同,首选出行时间在16 ∶ 00点前并且呈现随机分布的情况;相较于自费的旅客,公费出行的旅客更倾向于选择民航出行。综合数据内容发现,京沪高速客运通道以公务出行为目的的中等偏高收入在职人员为主。
2 京沪高速客运通道旅客出行方式选择行为模型
2.1 Binary Logit 模型
作为决策单元,旅客k对运输方式i(高速铁路或民航)选择的Binary Logit模型的效用函数如公式 ⑴ 所示 。
式中:为随机变化部分;为效用函数的确定项目,目前对效用函数的确定项通常采用线性函数形式,如公式 ⑵ 所示。
式中:为旅客k选择第i种出行方式的第j个影响因素;Bj为影响因素对应的参数。
表1 京沪高速客运通道旅客调研数据表Tab.1 Passenger survey data description
旅客选择运输方式i的概率如公式 ⑶ 所示。其中,i= 0表示高速铁路;i= 1表示民航;i-表示除运输方式i以外的其他运输方式。
当P(i= 1) > 0.5时,旅客选择民航出行,否则旅客选择高速铁路出行;当计算结果与调研数据一致时,认为模型预测正确,否则认为模型预测错误,最终通过准确率查看模型预测效果。
2.2 基于C5.0算法的决策树模型
基于C5.0算法的决策树采用信息增益率为划分标准来确定最优分组变量及最优分割点,计算过程如下。
设P(i|t) 表示给定结点t中属于类i(i= 1表示民航,i= 0表示高速铁路)所有记录的比例,则
(1)计算信息熵。结点t的信息熵Info(t)如公式 ⑸ 所示,第j个属性X中第r个属性值的信息熵Info(。
式中:m表示属性值个数;Nparent表示父节点上记录的类总数;Nchild()表示子女节点上属性值为时记录的类总数。
(3)计算属性Xj的信息增益率Gain ratio(Xj)。
式中:Split Info(Xj)为划分信息。
3 京沪高速客运通道参数标定与结果分析
3.1 Binary Logit 模型参数标定与结果分析
将京沪高速客运通道旅客出行方式选择行为的影响因素Xj分划为旅客属性与出行属性2类[5],并在分析高速铁路与民航客流出行特征的基础上,设计了相关变量,定义模型变量如表2所示。
表2 定义模型变量Tab.2 Model variables
根据定义的变量,选取70%的数据作为训练样本,剩余30%作为检验样本,以说明分类模型的合理性。Binary Logit模型参数标定如表3所示,Binary Logit模型准确率如表4所示,其中训练数据总准确率为90.1%,检验数据总准确率为89%,因而模型能很好地描述旅客出行方式选择行为。
表3 Binary Logit模型参数标定Tab.3 Binary Logit Model parameter calibration
表4 Binary Logit模型准确率Tab.4 Binary Logit Model accuracy
根据表3得出各因素对京沪高速客运通道旅客出行偏好的影响。
(1)B1= -3.224,说明相较于男性,女性更倾向于选择民航出行。调研数据中显示男性中有39.6%的旅客选择民航出行,而女性中有52.1%的旅客选择民航出行。
(2)B2= 1.965,B3= 1.741,而B4= 0.801不显著,说明总体上40岁以下的旅客倾向于选择民航。结合调研数据发现年龄对旅客选择行为的影响为非线性,即18岁(含)以下旅客倾向于选择高速铁路,18 ~ 40岁之间的旅客选择民航的比例最高,但41岁(含)以后的旅客更倾向于选择高速铁路。
(3)B5= -4.241,而B6= -2.829,说明收入10 000元以下的旅客偏好高速铁路出行,但随着收入的增加旅客选择高速铁路出行的意愿开始减弱,部分高收入旅客开始转向选择民航出行。通过对对照组数据的分析发现当收入高于10 000元时,选择民航出行的旅客人数约是选择高速铁路出行人数的3.7倍,可见收入是影响旅客出行的重要因素。
(4)B7= -0.856,说明随着出行人数的增加,旅客更倾向于选择高速铁路出行。调研中发现私密空间是独自出行的旅客选择民航的主要原因。非单独出行的旅客在考虑出行成本的同时喜欢享受旅途,高速铁路是多人出行时的最佳选择。
(5)B8= 1.122,说明与自费旅客相比,公费旅客非常乐意选择民航出行。
(6)B9= -3.480,B10= -3.992,B11= -3.274,说明16 ∶ 00前旅客更倾向于选择高速铁路出行,而且高速铁路民航分配比例较为均有。不同的是,对照组,即16 ∶ 00点后出行的旅客有84.6%会选择民航,可见16 ∶ 00点是旅客选择出行方式的一个重要时间节点。
3.2 旅客出行方式选择决策树与结果分析
图1 基于C5.0算法的旅客出行选择决策树Fig.1 Decision Tree of passenger travel choice based on C5.0 algorithm
表5 决策树准确性Tab.5 Decision Tree accuracy
为了进一步研究各影响因素如何对京沪高速客运通道旅客出行方式选择行为交叉发挥影响,使用基于C5.0的决策树分类方法对Binary Logit得出的概率结果进行了分类,同样随机选取70%的数据作为训练样本,剩余30%作为检验样本,基于C5.0算法的旅客出行选择决策树如图1所示,决策树准确性如表5所示。模型训练组的准确率为98.0%,检验组的准确率为96.4%,认为基于C5.0算法的决策树模型对旅客出行选择影响因素的分类效果较好。
根据图1可知,随着月收入的增加,选择民航出行的旅客比例不断增加,调研过程中发现高收入旅客的时间价值很高,因而与票价相比,高收入旅客更看重时间。年龄未体现在决策数模型中,可见其对旅客出行影响的区分度最低,这是由于年龄的非线性影响造成的。不同收入水平下影响旅客出行方式选择行为的因素各不相同。
(1)月收入低于5 000元的旅客中,男性旅客只会选择高速铁路出行,而女性旅客会受到费用来源与出行人数的影响,除独自公费出行的女性旅客会选择民航外,自费出行的女性旅客、非独自公费出行的女性旅客均会选择高速铁路。调查中发现月收入低于5 000元的旅客对票价较为敏感、支付意愿低,因而会倾向于选择较为便宜的高速铁路出行。
(2)月收入在5 000 ~ 10 000元的旅客中,男性旅客会受到出行时间的影响,而女性旅客受到出行人数的影响。由于时间充裕,16 ∶ 00点前出行的男性旅客会选择高速铁路,而16 ∶ 00点后出行的男性旅客会选择民航;非独自出行的女性旅客为节省出行成本等原因倾向于选择高速铁路,而独自出行的女性旅客会因舒适的候机环境而选择民航。
(3)月收入在10 000元以上的旅客中,性别已不是影响旅客出行方式选择行为最主要的因素,旅客更多受到出行人数与费用来源影响。与收入10 000元以下的旅客不同的是,由于收入的增加,出行人数的最佳区分值达到2人,即出行人数≤ 2人时旅客更倾向于选择民航;出行人数>2人时旅客会选择高速铁路。在出行人数≤2人旅客中,根据图1分析得出女性旅客更倾向于选择民航出行,而男性旅客在自费双人出行时才会选择高速铁路。可见,收入10 000元以上的旅客更看重出行人数。
4 研究结论
依据非集计理论,以京沪高速客运通道调研数据为基础,结合Binary Logit模型与决策树模型分析了各影响因素对旅客出行方式选择行为的交叉影响,得出以下研究结论。
(1)Binary Logit模型的检验数据准确率为89.0%,基于C5.0算法的决策树模型的检验数据准确率为96.4%。可见,所构建的2个模型均能较好地描述旅客出行方式选择行为的影响因素。
(2)年龄对旅客出行方式选择行为影响区分度较低,且为非线性影响。相较于年龄与首选时间,收入、性别、出行人数、费用来源对旅客出行方式选择行为影响较大,收入高、出行人数少、公费出行的旅客更偏好选择民航出行,且女性旅客选择民航出行的比例远高于男性旅客的比例。因此,铁路部门可以考虑通过开设女性候车室、在现有高速铁路车厢基础上增加女性高端旅客专用车厢等方式,提升女性旅客安全感与候车、乘车体验。
(3)随着旅客收入的增加,选择民航出行的旅客比例不断增加。收入是旅客选择出行方式最重要影响因素,不同收入水平下的男性、女性旅客受不同因素影响,如收入介于5 000 ~ 10 000元之间的女性旅客受出行人数影响,而男性旅客受出行时间影响。因此,为配合高速铁路列车商务座、一等座等高端服务,高速铁路站可以开设VIP候车间等高端服务,以吸引高收入群体,尤其是女性旅客。民航可以通过优化跨期价格歧视吸引自费出行的低收入旅客,尤其是16 ∶ 00点前出行的男性旅客。