基于Bayes分析的区域综合运输通道出行方式分担率研究
2015-02-18廖勇
廖 勇
(中国民用航空飞行学院 空中交通管理学院,四川 广汉 618307)
1 引言
我国区域经济一体化、城市化进程的加快、城市群都市圈的形成、城乡一体化的推进,促进了区域一体化的形成。在区域一体化进程中,交通运输系统则是区域最重要的组成部分,是区域各项产业发展的基础条件,是区域社会经济发展的支撑系统。为了满足区域一体化的要求,首先必须实现区域交通一体化,构建区域综合交通运输体系,充分发挥交通运输在经济发展中的能动作用。在区域综合交通运输体系中,综合运输通道是建设的关键,它不仅是整个综合运输体系效益得以发挥的前提,还影响着投资效率的高低。综合运输通道中出行方式的分担率是综合运输通道结构研究的重点,是实现交通运输资源优化配置、运输日常运营管理的关键。
目前出行方式选择模型主要的研究方法分为三类:经变换后的四阶段法、Logit 模型和启发式模型。变换后的四阶段法缺乏足够的理论基础,启发式算法发展不够完善。在实际的应用中,Logit 模型最为广泛。如王爽,赵鹏[1]以铁路旅客为研究对象,模拟客运专线建成后的情景,调查旅客在客运专线建成后对高速列车和高频率列车换乘方式的选择偏好。马波涛,张于心等[2]采用运输产品效用函数值代替传统的多元线性回归求解的特征函数值,运用logit 模型对高速铁路与航空客流之间的分担率进行估计。Benedikt Mandel 等[3]通过加入方式属性强化了Logit选择模型的定义,同时考虑社会经济变量,提高模型的质量。虽然Logit 模型理论比较完善,在各行各业中都得到了广泛的应用,但同时还存在如下问题:
(1)Logit 模型属于非集计模型,模型进行参数标定后,是以简析式的形式表达出来的,而实际交通规划中,规划师关心的是各种交通方式具体的分担率。因此,非集计模型处理后需要再次集计,而对非集模型标定后集计的方法较少,不够完善,限制了非集计模型在实践中的应用。
(2)样本中含有大量的无效数据,会降低参数标定成功的机率。而目前对如何有效的剔除无效数据还没有成套适用的技术手段和方法。
(3)Logit模型的参数完全依赖于样本数据,在应用非集计模型时,通常采用SP 调查收集数据,但SP 调查中调查对象做出的选择与实际选择相左,会导致Logit模型得到错误的参数,导致预测结果偏差较大。
由以上的分析可知,Logit 模型采用样本数据对参数进行标定,并在此基础上进行分析,对于已有的历史资料和专家信息不予考虑。在实际中,这两种信息不仅易于收集而且可靠性较大。如果能在出行方式选择模型中应用这两种信息,将大大提高预测精度。
2 Bayes分析原理
在进行Bayes分析前需要明确总体、样本、先验分布、后验分布的概念。总体为研究对象的全体,总体中的每一元素称为个体。样本是由有限个体组成的集合,为总体的子集。先验分布指的是在对样本总体进行抽样前就已经具备的概率分布,主要来自于经验或历史统计资料。样本信息为通过对总体进行抽样从样本中获得的信息。后验分布为通过样本信息对先验分布进行修正后的概率分布。在采用贝叶斯理论进行出行方式选择估计时,需要解决两个方面的问题:样本信息的提取和先验分布的建立。
设试验E的样本空间为S,A为E的事件,B1,B2,…,Bn为S的一个划分,且P(A)>0,P(Bi)>0(i=1,2,…,n),则全概率公式和贝叶斯定理如下[5]:
式中:P(Bj|A)为给定样本信息A后,事件Bj的后验分布;P(Bj)为事件Bj的先验分布;P(A|Bj)为样本信息提供的在事件Bj下A的条件分布。贝叶斯分析过程如图1所示。
图1 Bayes分析过程
3 基于Bayes分析的出行方式选择模型
旅客对出行方式选择的影响因素主要有出行需求特征和出行供给特征。出行需求特征为不同的出行者在选择出行方式时表现为不同的偏好,反映的是出行过程的主观特性。出行供给特征表现为各出行方式向社会提供运输服务的水平,反映的是出行过程的客观特性。本文建模的总体思路为:实现需求特征与供给特征之间的分离,即实现出行过程主观特性和客观特性的分离。用专家信息结合出行供给特征数据对出行的客观特性进行标定,作为先验信息。用抽样获得的样本数据来描述出行需求特征(主观特性),将其作为样本信息。以Bayes分析为手段,将先验信息和样本信息综合后得到后验分布。最后采用全概率公式进行综合,得到各出行方式的分担率。
简言之,首先根据先验信息和专家知识获得各方式分担率的估计,然后通过数据抽样对估计值进行修正。当样本数据全面反映总体时,修正后的分担率更加准确。即使样本数据反映总体的能力较差,但估计值具有较高的精度,两者在Bayes分析的作用下,预测值也不会偏离太远。正是该机制使得基于Bayes分析的出行方式选择模型具有较强的鲁棒性。
(1)先验分布的确定。先验分布的确定采用多项logit 模型(MNL),出行方式分担率的多项Logit模型估计为[4]:
式(3)中:n为出行方式的数量,Uj为效用函数。
在MNL模型的应用中,效用函数Uj根据样本数据采用最大似然函数参数估计方法估计。参数标定时,只采用样本数据,并未考虑先验信息。在进行参数标定时,本文采用各种出行方式的效用值代替效用函数,且效用值的确定是由专家标定的,即专家根据个人经验结合各出行供给特征数据,给出各种运输方式的效用值。出行供给特征主要考虑安全性(Sj)、舒适性(Cj)、快速性(Fj)、经济性(Ej)、方便性(Coj)。
快速性(Fj)用在乘时间进行量化,经济性(Ej)采用出行方式的票价进行量化,安全性(Sj)用通道所在地区出行方式在事故中伤亡人数与运量之比进行量化。量化并标准化的处理公式如下:
式中:fj、ej分别表示第j种出行方式的在乘时间和票价;Caj为地区内第j种出行方式事故伤亡数,CAj地区内第j种出行方式的运量。
方便性(Coj)和舒适性(Cj)属于定性指标,涉及的影响因素较多,较难量化,可采用AHP法进行量化,关于AHP的理论研究和应用研究文献较多,在此不做过多累述。假设通过AHP 标定并标准化后的取值为采用乘法原理和加法原理进行综合后,第j种出行方式的效用值Uj为:
(2)样本信息的获取。出行需求特征的影响因素较多,如旅客的年龄、性别、收入、出行目的、是否具有私家车等。在进行交通调查时对可能的影响因素一一进行调查,但在进行分析时需要选择几个影响较大的因素。考虑到目前我国经济不是很发达,旅客的收入水平(In)和出行目的(De)是影响出行需求特征的主要因素,本文以此作为基础进行分析。按照收入高低将旅客划分为高(In1)、中(In2)、低(In3)三个层次。出行目的划分较多,为了便于分析,根据区域综合运输的特点,将出行目的划分为公务商务流De1、探亲访友购客流De2、其他客流De3。在获得样本数据后,根据In和De划分为9类即IDpq,p=(1,2,3),q=(1,2,3),称为组合特征。对样本进行处理后可得到在第j 种出行方式TMj下组合特征IDpq的条件分布P(IDpq|TMj)为:
式(8)中,Nj为样本中选择第j 种出行方式TMj的数量;为选择出行方式TMj中满足组合特征IDpq的人数。
(3)Bayes 综合。在获得先验分布和条件分布后,采用Bayes定理进行修正,得到后验分布P(TMj|IDpq):
在出行方式的选择中,关心的不是在IDpq条件下选择TMj的概率,而是选择TMj的概率P(TMj) 。因此,在获得P(TMj|IDpq)后,采用全概率公式可得P(TMj):
式(10)中:P(IDpq)为组合特征IDpq的分布。
由概率的乘法定理有:
假设收入水平(In)和出行目的(De)相互独立,即有P(Deq|Inp)=P(Deq),P(Inp|Deq)=P(Inp),代入式(11)可得:
将式(12)代入式(10)中可得出行方式TMj的分担率为:
(4)计算步骤
Step1:按式(4)-式(6)和AHP 对各出行方式的效用值进行标定。
Step3:采用RP和SP进行交通调查,获得样本数据后采用式(8)计算在第j种出行方式下TMj组合特征IDpq的条件分布P(IDpq|TMj)。
Step4:采用Bayes 定理和先验分布P(TMj0)计算在出行特征IDpq条件下第j种出行方式TMj的后验分布P(TMj|IDpq),见式(9)。
Step5:采用全概率公式结合历史统计的出行特征In和De的分布P(Inp)和P(Deq)计算经过样本修正后的出行方式分担率,见式(13)。
需要特别注意的是:根据Bayes 的学习原理,在第k(k>1)次抽样条件下的条件分布为,则以第k-1次修正后的分担率为先验概率,代入式(9)中计算在第k 次抽样的条件下的后验分布,再代入式(13)中计算经过第k次抽样修正后的出行方式分担率。不断循环的过程保障了出行方式分担率计算精度的不断提高。基于Bayes 分析的出行方式分担率计算过程如图2所示。
图2 基于Bayes分析的出行方式分担率计算过程
4 算例分析
考虑一区域综合运输通道两主结点AB 间现阶段存在三种出行方式:高速公路、普通公路、普通铁路。现需要论证是否需要建设城际铁路,为了预测城际铁路的运量,首先需要确定城际铁路的分担率。并且已知P(In1)=0.15,P(In2)=0.35,P(In3)=0.5,P(De1)=0.25,P(De2)=0.4,P(De3)=0.35。按照本文提出的求解算法,其过程如下:
Step1:按照效用值的标定函数和AHP对各出行方式的效用值进行标定,见表1。
Step2:采用MNL 计算各出行方式的初始先验分布分别为:高速公路0.176,普通铁路0.26,普通公路0.147,城际铁路0.417。
表1 基于先验信息的参数标定
Step3:采用RP结合SP进行交通调查,获得样本数据后采用式(8)计算在第j种出行方式TMj下出行特征IDpq的条件分布,见表2。
表2 基于样本数据的条件分布
Step4:采用Bayes定理和先验分布计算在出行特征IDpq条件下第j种出行方式TMj的后验分布,见表3。
表3 基于Bayes分析的后验分布
Step5:采用全概率公式结合历史统计的出行特征In和De的分布P(Inp)和P(Inp)。采用全概率公式(式(13)),计算得出各出行方式分担率分别为:高速公路0.175,普通铁路0.279,普通公路0.153,城际铁路0.393。
进行修正后高速公路的分担率降低了0.1个百分点,普通铁路增加了1.9 个百分点,普通公路增加了0.6 个百分点,城际铁路降低了2.4 个百分点。不难看出先验分布在总体上确定了各出行方式分担率,经过后验信息修正后,分担率更加精确化。
5 结论
本文将影响出行方式选择的因素分为出行的需求特征和出行的供给特征,建模时实现两者的分离,分别采用抽样和专家标定对其进行计算,然后采用Bayes定理和全概率公式对两者进行综合,求得各出行方式的分担率,对本文研究成果进行分析后可得到如下结论:
(1)因为Bayes理论是采用先验分布结合抽样信息进行建模的,先验分布具有部分的先验信息,已逼近真实信息,样本数据发挥的是修正功能。因此,可采用小样本数据。
(2)Bayes 分析具有学习功能,对于前后两次不相关的抽样可进行综合,提高估计精度。
(3)本文的模型免去了复杂的参数标定过程,在简化模型计算复杂度的同时,降低了由于参数标定过程不能成功带来的风险。
[1]王爽,赵鹏.基于Logit模型的客运专线旅客选择行为分析[J].铁道学报,2009,31(3):6-10.
[2]马波涛,张于心,赵翠霞.运用Logit模型对高速客流分担率的估计[J].北方交通大学学报,2003,27(2):66-69.
[3]Mandel B,Gaudry M,Rothengatter W.A disaggregate Box-Cox logit mode choice model of intercity passenger travel in Germany and its implications for high-speed rail demand forecasts[J].The Annals of Regional Science,1997,31(2):99-120.
[4]关宏志.非集计模型—交通行为分析的工具[M].北京:人民交通出版社,2004.
[5]李裕奇,何平.概率论与数理统计[M].北京:国防工业出版社,2001.
[6]Chieh-Hua Wen,Koppleman.The generalized nested logit model[J].Transportation Research Part B,2001,35:627-641.