公交站点客流量预测方法
2014-09-07张鹏,陆瑶
张 鹏,陆 瑶
(1.黑龙江工程学院 汽车与交通工程学院,黑龙江 哈尔滨 150050;2.东北林业大学 交通学院,黑龙江 哈尔滨 150040)
公交站点客流量预测方法
张 鹏1,2,陆 瑶1
(1.黑龙江工程学院 汽车与交通工程学院,黑龙江 哈尔滨 150050;2.东北林业大学 交通学院,黑龙江 哈尔滨 150040)
公交作为城市交通的重要组成部分,是城市赖以生存的重要基础设施之一。以哈尔滨104路公交车作为研究对象,对104路公交车在高峰时进行集散量的随车调查,运用聚类分析法进行距离计算,绘制出聚类分析图。对公交站点进行分类,然后通过逐步回归法,应用SPSS统计分析软件建立同组各代表站点与其他站点的回归方程式,对104路公交车高峰期的站点客流量进行预测,取得很好的效果。
聚类分析法;公共交通;回归分析法;客流量;预测
公交客流量实时预测是公共交通实时调度的基础。调度方式主要是基于客流量变化而确定的。在准确提前掌握客流变化规律的情况下,企业才能做到科学地制定运营规划,合理地调配使用人、车资源。但目前实际的运营调度管理中因为缺乏定量适用的分析预测手段,大多依靠经验和直觉来判断客流的变化,预测的结果同实际往往有较大的区别[1-2]。本文根据哈尔滨市公共交通运行现状,以城市单条公交线路为研究对象,结合调研数据应用聚类分析法和逐步回归法对哈尔滨市104路公交车在客流高峰站点客流量进行预测,公交客流量的准确预测对城市公交的高效经济运行具有重要意义。
1 聚类分析方法
1.1 定义
聚类分析(cluster analysis)是对样品或变量进行分类的一种多元统计方法,目的在于将相似的事物归类。通常分类一般限于单个度量,分类标准主要是由主观偏好决定的,但有时样品很多,分类无法可依,很难确定应该选择哪个度量作为分组的依据,这时聚类分析便成为一种选择[3]。
聚类的方法有系统聚类、模糊聚类、图论聚类、聚类预报等多种方法,本文使用的就是应用最广泛的系统聚类,也称谱系聚类。系统聚类的做法是在样本基础上定义点与点的距离,先将每个样本自成一类,每次将距离最小的两类合并,合并后重新计算类与类之间的距离,一直持续到所有样品归为一类,然后将此过程做成聚类谱系图[4]。
1.2 系统聚类步骤
1.2.1 数据变换
在聚类分析处理过程中,为使不同量纲、不同数量级的数据能放在一起进行比较,首先需要对原始数据进行变换处理。变换的方法有总和标准化、标准差的标准化 、极大值标准化、极差的标准化等,本文采用的是标准差标准化处理,通过标准差标准化后每列数据的平均值为0,方差为1,这样在抽样样本改变时,它仍保持相对稳定性,公式为
j=1,2,3,…,m.
(1)
式中:
1.2.2 相似系数的确定
相似系数的确定即选择样本相似性度量,系统聚类法应用的是用距离作为相似系数。属于同一类的样本之间距离比较近,不同类的则要大很多。距离越小,相似性越大,亲密程度越大。常用的距离公式[5]:
绝对值距离
(2)
切比雪夫距离
(3)
欧氏距离
(4)
明科夫斯基距离
(5)
式中:i,j=1,2,…,m;p≥1。当p=1时,它就是绝对值距离;当p=2时,它就是欧氏距离;当p=∞时,它就是切比雪夫距离,本文使用欧氏距离。
1.2.3 计算类间相似系数并进行聚类
将各个样品自成一类基础上计算平方欧几里得距离矩阵,将距离最小的两类合并,再将类个数减1生成新的平方欧几里得矩阵并且继续并类,如果类的数量大于1,则继续并类,直到都归为一类为止。
1.2.4 绘制系统聚类谱系图
利用上述步骤得到的结果生成聚类谱系图,如图1所示[6]。
图1 聚类谱系图
2 逐步回归预测
2.1 定义
逐步回归是按一定的统计程序,经过多步拟合和检验,从一系列的可供建立回归模型的自变量中,逐步引入回归作用显著的自变量,并从回归模型中逐步回归作用不再显著的自变量,以最终求得“最优”回归模型的技术[7]。
2.2 步骤
逐步回归预测具体计算步骤[8-9]:
1)设置引入、剔除变量以及回归方程的F检验的显著性水平a=0.05;
2)设系统聚类分析共得到m组公交站点,令j=1;
3)将第j组内公交站点排序(不妨就按照聚类谱系图从上至下的顺序),令i=1,组内公交站点总数为Nj(j=1,2,…,m,共聚类成m组);
4)取第i个公交站点作为因变量,其他站点设为自变量;
5)调用逐步回归算法,利用F检验,依次引入或剔除变量,建立多元回归方程;记录第j组第i个回归方程的Fij检验值;
6)设i=i+1,判断是否i>Nj?是则将第j组中Fij值最大的方程的自变量作为本组的代表站点,并转7),否则转4);
7)设j=j+1,判断是否j>m?是则转8),否则转2);
8)将每组中的代表站点作为自变量,建立其与组内其他站点的回归方程。
当代表站点安装有实时客流量采集设备时,根据8)得到的回归方程预测组内其他站点的客流信息,为实时公共交通调度提供重要的基础数据。当然,需要对原始数据库所建立的模型及时更新处理(通常是在每天所有公交车都停止运营后进行次项工作。注意,所更新的模型备下周同一时间使用),以保证模型的实效性。
3 实例研究
3.1 交通调查
哈尔滨市104路是从太平桥开往糖业研究所的公交线路,横穿东西大直街,客流量非常大,平均日客流量可以达到2.5万人次,经常处于拥挤状态[10]。本文以哈尔滨市104路公交线路为研究线路,采用随车调查法,于2012年4月在高峰期调查了上行的8辆车站点集散量情况,其中站名用i表示,车次用j表示,xij为第i个站点的第j辆车,见表1。
3.2 聚类分析预测
3.2.1 数据变换
根据式(1)及表1进行标准化数据处理,如
33+37+33)=37.5,
表1 104路公交上行早高峰客流集散量汇总 人/车次
表2 经标准差标准化处理后的数据
续表2
3.2.2 计算欧几里得距离并进行聚类
根据式(4),计算平方欧几里得距离矩阵并进行聚类。平方欧几里得距离是欧氏距离的平方值。
其他值不再赘述,以类间相关性尽量高,分类尽量少为分类原则,取平方欧几里得距离8.450将站点进行分类,共分为九类。第一类:太平桥;第二类:南通大街,市客车厂;第三类:哈尔滨工程大学,秋林公司,建设街;第四类:烟厂,新中新集团;第五类:医大一院,和兴三道街,和兴十一道街,哈尔滨医科大学;第六类:省博览中心,通达街,和兴路,九三五厂,哈达屯,糖业研究所;第七类:铁路局,哈尔滨工业大学,西大桥,哈师大附中,哈尔滨理工大学,服装城,电影机厂,机电工程学校;第八类:黑龙江大学;第九类:医大二院。
3.2.3 绘制系统聚类谱系图
结合上述聚类过程,通过SPSS软件绘制出最短距离聚类谱系图2。
图2 系统聚类谱系
3.3 基于逐步回归分析进行客流量预测
3.3.1 回归模型建立
设置回归方程的F检验的显著性水平α=0.05,根据经验可知允许的方差比F在4~15之间,经逐步计算,本文中代表站点为南通大街、烟厂、秋林公司、医科大学、糖业研究所和哈尔滨师大附中。建立代表站点与其他站点之间的客流量预测模型如下
应用SPSS统计分析软件建立同组各代表站点与其他站点的回归方程式(见表3)。根据回归方程,当代表站点安装有实时客流量采集设备时,可以预测组内其他站点的客流。单个站点组成一类的只能利用观测得到其客流信息。
表3 代表站点与组内其他站点的回归方程
3.3.2 预测效果检验
随机抽取第八组观测的数据进行预测检验:将得到的其他站点的预测值与观测值进行比较。图3即为高峰时段站点预测值与观测值的比较折线图,该预测平均相对误差8.3%,预测效果良好。
图3 预测分析曲线
4 结束语
本文通过公交站点客流量预测模型的建立,实现客流量预测模型对主要公交线路站点的宏观划分,为规划和决策部门制定合理的运营计划提供理论依据,进而实现公交线网优化,为公交智能调度提供基础,最终缓解交通拥挤、居民出行难等问题,从而加快城市世界性发展的进程。
[1]王春雨.公交客流数据分析的研究[D].石家庄:河北工业大学,2006.
[2]韩霜南.发展公共交通智能调度系统方案的研究探讨[J].安防科技,2006(11):21-22
[3]许丽莉.聚类分析的算法及应用[D].长春:吉林大学,2010.
[4]刘艳霞.数据挖掘中聚类分析技术的研究与应[J].科技情报开发与经济,2008(6).
[5]朱晓兰.模糊聚类在物流园区网络布局规划中的应用[D].上海:上海交通大学,2007.
[6]刘炜.聚类分析在高校就业工作中的应用研究[D].哈尔滨:东北林业大学,2011.
[7]方来.基于逐步回归方法对甘肃省投资环境落后的原因分析[D].兰州:兰州商学院,2007.
[8]韩雨萍.利用逐步回归分析方法测算高职体育课运动量的研究[J].价值工程,2010(6).
[4]高倩倩,邢秀凤,姚传进.基于逐步回归分析的粮食产量影响因素研究[J].当代经济,2010(9).
[10]张鹏.公交调度系统的软件设计与实现 [J].黑龙江工程学院学报:自然科学版,2013,27(3):37-43.
Forecasting the passenger flow of public transit stations
ZHANG Peng1,2,LU Yao1
(1.Dept.of Automobile and Traffic Engineering,Heilongjiang Institute of Technology,Harbin 150050,China; 2.College of Transportation,Northeast Forestry University,Harbin 150040,China)
Bus,as an important part of the urban transportation,is one of the critical urban infrastructures.It studies the passenger collector-distributor volume of No.104 bus of Harbin during the rush hour,of which the cluster analysis is used to calculate the distance and draw the cluster trend diagram.Then it classifies the bus stations and adoptes the stepwise regression and SPSS statistical analysis software to establish the regression equation for the representative stations and other ones,aiming to forecast the passenger flow.The research has achieved good results.
cluster analysis; public transport; regression analysis; passenger flow; forecast
2013-12-09
黑龙江工程学院大学生创新训练项目(201311802069)
张 鹏(1979-),男,讲师,博士研究生,研究方向:交通管理与控制;交通运输规划与管理.
U491
A
1671-4679(2014)03-0027-05
郝丽英]