基于 Panel Data的高速公路事故预测模型
2010-03-20孙小端王伟力贺玉龙
徐 婷,孙小端,王伟力,贺玉龙
(1.北京工业大学交通工程重点实验室,北京 100124;2.西安公路研究所交通工程室,西安 710058)
基于 Panel Data的高速公路事故预测模型
徐 婷1,孙小端1,王伟力2,贺玉龙1
(1.北京工业大学交通工程重点实验室,北京 100124;2.西安公路研究所交通工程室,西安 710058)
使用Panel Data模型进行不同路段交通事故的统计回归,可以识别路段样本间的固有差异以及未观测到的变量影响.作者介绍了个体固定效应模型和随机效应模型的建立过程和相关检验,并以京津塘高速为例,分别建立了一般混合回归模型、个体固定效应模型和随机效应模型,通过Hausman检验比较模型效果,最终得出个体固定效应模型更加合理、适合于高速公路事故分析的结论.
交通安全;事故预测;一般混合模型;个体固定效应;随机效应
截止 2008年,我国公路通车总里程达 373.02万公里,仅次于美国,排名世界第二,人们出行更为便捷,随之而来的却是道路交通安全状况持续恶化.近年来,交通安全形势日趋严峻,交通事故及其带来的经济损失已严重影响社会经济的发展和人民生活水平的提高.根据公安部的统计数据,虽然 2004—2008年事故起数,死亡人数和受伤人数有所下降,但与发达国家比较,我国的交通事故死亡人数和百万车公里死亡率仍高位运行,2008年的统计数据分别达到 73 484人和 4.3[1].因此,预测道路交通事故对于探究道路交通事故的发生规律,分析现有道路交通条件下交通事故的发展趋势,制定道路交通安全规划决策具有重要的现实意义.
交通事故是多种因素综合作用的结果,其过程具有明显的不确定性和随机性[2-3].交通事故预测常用方法主要有直观经验预测法、线性回归预测法、平滑预测技术、时间序列预测法等[4].文章在充分借鉴国外学者研究交通事故预测的基础上,使用更符合数据特点的 Panel Data模型,并以京津塘高速公路为例,使用 STATA软件,分别建立一般混合模型,固定效应模型和随机效应模型.结果表明,采用个体固定效应模型进行统计分析更加合理.
1 Panel Data模型
建立事故预测模型时,会将收集的多条道路数据组织在一起,视为相同母体中抽取的样本,这必然忽略了路段之间的个体差异.将计量经济学的 Panel Data建模方法中引入交通事故分析,可以有效地克服该缺陷[5].Panel Data称为面板数据或平行数据,包括同一截面的时间序列数据和同一时间的不同截面数据[6].
Hausman在 1984年提出使用 Panel Data模型进行事故预测[7],可以识别不同路段之间的差异和相同路段在不同时间段之间的差异,面板数据模型基本形式为[8]
式中,yit为因变量′为解释向量 ;β =(β1,β2,…,βk)′为参数向量 ;t=1,2,…为时间变量;i=1,2,…为截面变量;随机误差 μit表示为式中,εit~iid(0,σ2);ai为个体效应;按 ai的不同假设导致最常见的 2种面板数据模型,固定效应模型和随机效应模型[9].
2 京津塘事故的 Panel Data预测
京津塘高速公路全长 142.69 km,全线路基宽 26m,双向 4车道,中央分隔带宽度 3m,横断面硬路肩2.5m,路基边坡多采用 1∶2边坡.京津塘高速公路设计时速为 120 km/h,设计交通量为每昼夜 5万辆.2005年平均日交通量北京段 51 519辆 /d、河北段 47 955辆/d、天津段 29 454辆 /d、全线加权平均日交通量为 35 247辆/d.近年来,由于交通量的增长,大型车的增加以及其他道路因素的影响,给京津塘高速公路带来极大的安全隐患.
2.1 样本数据收集描述
项目共收集了京津塘高速公路 3方面的数据:1)2002—2005年的事故信息,该部分的数据主要来源于高速公路的交警大队的事故台账和卷宗;2)道路线形数据,该部分数据主要来源于高速公路的设计文件;3)2002—2005年交通量数据,该部分的数据主要来源于京津塘高速公路全线的收费站(大羊坊站、马驹桥站、采育站、廊坊站、杨村站、宜兴埠站、金钟路站、机场站、塘沽西站、塘沽站等).
经过统计,京津塘高速公路 2002—2005年间,发生各类交通事故共 3 860起.其中,死亡事故 175起,伤人事故 514起,财产损失事故 3 171起.调查时间段内京津塘高速公路交通事故统计见图 1,与美国高速公路同期交通安全状况对比见图 2.
图1可以看出,在 2002—2005年期间,事故总数2004年最高,其他 3年比较平均,受伤、死亡人数、交通量呈逐年上升的趋势.
从图 2可以看出,虽然京津塘高速公路的百万车公里死亡率从 2002—2005年逐年递减,但与美国同期相比,仍然是美国的2~3倍.可见,京津塘高速公路的安全状况值得高度重视.京津塘高速公路交通事故里程分布见图 3.
图1 2002—2005年交通事故分布趋势Fig.1 Traffic accidents distribution trends from 2002 to 2005
图2 2002—2005年京津塘高速与美国高速百万车公里死亡率对比Fig.2 Death rate comparison between Jingjintang highway and american highway from 2002 to 2005
图3 2002—2005年京津塘事故里程分布图Fig.3 Jingjintang accidents spatial distribution from 2002 to 2005
从图 3可以看出,交通事故的里程分布存在明显的地段特性.4年中,10 km、40 km、120 km等路段的事故发生频数明显高于其他路段.
2.2 Panel Data数据整理
根据样本的收集情况,设置模型的各项参数,时间解释变量 t=1,2,3,4.路段按事故数目以及道路类型进行划分,长度从 0.5km至 5km不等,共分成 64个子段,截面变量 i=1,2,…,64,每段视为 1个 panel,则观测的样本数目为 256.
交通事故的发生是多种因素综合作用的结果,相关性较大的自变量不能进入模型参与回归.因此,在建模之前进行了一系列相关的统计和分析,确定 7个相互独立的自变量进入模型.将收集的数据整理成Panel Data数据形式,由于数据无缺失,产生平衡的 Panel Data数据形式,自变量的统计见表 1.
表 1 自变量描述统计表Table 1 Dependent variables classification and descrip tion
2.3 事故预测模型
2.3.1 混合回归模型
混合回归模型,从时间上和截面上均不存在显著性差异,估计的时候将所有的数据放在一起,使用普通最小二乘法(OLS)估计参数.令所有变量进入初始模型,在显著水平为 5%的情况下,取检验 p值小于0.005的自变量进入最终模型,逐步剔除不显著的变量,模型的最终形式表示为
式中,ci为 i路段每年发生的事故数;li为 i路段长度;vi为 i路段日平均交通量;pi为 i路段平均大车比例;ri为 i路段性质的判断;α为路段影响效应总和;β1、β2、β3为待估计的系数.利用 STATA软件进行最小二乘法回归,得到可决系数 R2=0.663 9,具体参数估计结果见表 2.
表 2 混合模型参数估计结果Table 2 Estimation resu lts by pool datamodel
从普通混合回归的结果看出,京津塘事故与平均日交通量、平均大车比例成正比.在城镇路段发生的事故总数大于乡村路段发生的事故总数,其他变量效果均不显著,予以剔除.但该模型没有考虑不同路段之间的固有差异.
2.3.2 个体固定效应模型
假设事故组内变量不存在异方差现象,使用虚拟最小二乘法进行模型的估计,在显著水平为 5%的情况下,取检验 p值小于 0.005的自变量进入最终模型,模型的形式表示为
式中,bi为 i路段是否为立交桥影响区的判断;β1、β2、β3、β4为待估计的系数;其他变量含义均同式(3).使用 STATA软件,采用虚拟最小二乘法进行回归,得到可决系数 R2=0.5569,具体参数估计结果见表 3.
表 3 个体固定效应模型参数估计结果Table 3 Estimation results by fixed-effect model
2.3.3 固定效应模型与混合回归模型的检验
使用 F统计量对个体固定效应模型进行检验.零假设为 H0:各子段的效应都相等且为 0,检验表示为
经过检验,F值为 6.19拒绝原假设.所以,固定效应模型相对混合模型更适合描述京津塘高速公路事故特征.
2.3.4 随机效应模型
使用广义线形回归,对随机效应模型进行构建,在显著水平为 5%的情况下,取检验p值小于0.005的自变量进入最终模型,回归模型的形式表示为
式中各变量的含义均同式(4).使用 STATA软件进行回归,得到可决系数 R2=0.654 1,具体参数估计结果见表 4.
表 4 随机疚模型参数估计结果Table 4 Estimation results by random-effectmodel
2.3.5 随机效应模型与个体固定效应模型 Hausman检验
使用 Hausman的 χ2统计检验,判断变量之间的相关性,确定使用固定效应模型还是随机效应模型,检验表示为
检验结果表明拒绝原假设说明,对于交通事故统计预测分析,随机效用模型估计将出现较大的偏差[9],采用个体固定效应模型进行高速公路事故分析更为合理.根据固定效应模型,2002—2005年影响事故的主要因素为交通量、大车比例、路段是否在立交桥影响区以及路段是否为城镇路段.随着日平均交通量逐年增加和大车比例的增加,事故数将会逐年上升.在立交桥影响区或城镇区域的路段也很容易发生交通事故.对于京津塘高速公路这样的平原高速公路,纵坡和平曲线半径变化不大,出现极端道路条件的情况很少.所以,高速公路事故发生频率与线形的关系相对较弱,不是事故发生的主要因素.
3 结束语
针对忽视不同子路段之间的固有差异,导致事故模型不够准确的情况,提出了 Panel Data事故模型的新理念,解决样本量不足以及样本的共线性的问题.收集了京津塘高速公路 2002—2005年的交通事故、日平均交通量、线形等基础数据.在 STATA环境下,建立混合回归模型、固定效应、随机效应模型,量化各影响因素与交通事故数之间的关系.使用 F检验和 Hausman检验进行模型比较,结果表明,个体固定效应模型更加适合高速公路事故的实际预测.
[1]公安部交通管理局.中华人民共和国道路交通事故统计年报(2008)[R].江苏,无锡:公安部交通管理科学研究所,2009:2-3.
[2]李金龙,孙晚华.高速公路交通事故成因分析及对策研究[J].中国安全科学学报,2005,15(1):59-62.LI Jin-long,SUN Wan-hua.Cause analysis of traffic accidents on express highway and study on their countermeasures[J].China Safety Science Journal,2005,15(1):59-62.(in Chinese)
[3]刘强,陆化普,张永波,等.我国道路交通事故特征分析与对策研究[J].中国安全科学学报,2006,16(6):124-128.LIU Qiang,LU Hua-pu,ZHANG Yong-bo,etal.Characteristic analysis and countermeasure studyon road traffic accidents in China[J].China Safety Science Journal,2006,16(6):124-128.(in Chinese)
[4]陈鹏,李旭宏,孙华灿.基于分形理论的交通事故分析[J].公路交通科技,2008,5(3):130-133.CHEN Peng,LIXu-hong,SUN Hua-can.Analysis of traffic accident based on fractal theory[J].Journal of Highway and Transportation Research and Development,2008,5(3):130-13.(in Chinese)
[5]KWEON Young-Jun,KOCKELMAN M K.The safety effects of speed limit changes:use of panelmodels,including speed,use,and design variab les[J].Transportation Research Record,2005,1908(1):148-158.
[6]谢识予,朱弘鑫.高级计量经济学[M].上海:复旦大学出版社,2005:202-221.
[7]CHIN H C,QUADDASM A.App lying the random effect negative binomialmodel toexamine traffic accident occurrence at signalized intersections[J].Accident Analysis,2003,35(2):253-259.
[8]WHAHINGTON P S,KARLARFTIS G M,MANNERING L F.Statistical and econometric methods for transportation data analysis[M].Washington D.C,USA:A CRC Press Company,2003:476-489.
[9]KOCKELMAN M K.Safety impacts and other implications of raised speed limits on high-speed roads NCHRP final report 90(project 17-23)[R].Washington D.C.USA:Transportation Research Board,2006:132-146.
(责任编辑 郑筱梅)
Highway Accidents Statistical Analysis With Panel Data Model
XU Ting1,SUN Xiao-duan1,WANGWei-li2,HE Yu-long1
(1.Key Lab of Traffic Engineering,Beijing University of Technology,100124,Beijing China;2.Transportation Engineering Department,Xi'an Highway Research Institute,Xi'an,710058,China)
Models,which employ panel data analysis to model highway crashes,can identify fixed differences and other unobserved factors in real world.This paper introduces process of individual fixed-effects and random effects models and related tests.These models are applied to Jingjintang highway.Pool data regression,models of fixed effects and random effects are established respectively.Hausman results show that fixed-effect model is better than others when describing the relationship between accidents and other factors.
traffic safety;accidents prediction;pool data model;individual fixed-effects;random-effects
U 491.3
A
0254-0037(2010)04-0495-05
2008-10-15.
交通部西部建设项目资助(2007 318 223 33-01).
徐 婷(1983—),女,江苏常州人,博士研究生.