基于Logistic回归模型的三线城市道路事故数据分析
2014-08-21邓瑶望李凌宇陈雨人
邓瑶望 李凌宇 陈雨人
(同济大学道路与交通工程教育部重点实验室 上海201804)
0 引 言
当前在中国很多中西部偏远地区的三线城市正面临着机动车保有量急剧增加,但基础设施落后,无法满足交通需求的窘境。在比较落后的城市道路行驶条件下,趋近饱和的交通量直接导致了交通事故量的增长,严重危害了居民的正常工作和生活。
近年来,许多学者通过统计学方法分析事故与人、车、路、道路环境等方面因素的相关性并进行事故数据分析。陈彦美[1]应用分析法将事故各个分类变量呈现于二维散点图以描述事故与影响因素之间的相互关系;裴玉龙等[2]基于突出因素法思想,将每1组事故影响因素变量与整体事故变量相比,相对突出的影响因素即为事故多发主要致因;刘伟[3]根据模糊诊断原理,提出了基于历史事故数据统计的隶属度函数,得到道路的主要危险因素及其排序;潘昭宇等[4]运用灰色关联分析法,分析各个影响因素与事故指标之间的关联系数及关联度,以此为依据判断事故多发主要影响因素;赵金宝等[5-6]通过贝叶斯方法研究了在人、车、路、环境因素影响下交通事故类型概率分布;Maurice Aron等[7]通过负二次贝叶斯模型,研究了道路占有率、平均车速、车头间距、前后车速度差等交通指标与交通事故之间的关系。
相比于以往的研究成果,本文研究重心在于通过对事故数据的计算建立数学模型,分析不同道路行驶条件下道路环境、道路交通设施对事故发生的影响程度。对于某一类事故形态的交通事故,尽管可能分布在路网的各个位置,处于不同的道路和交通环境中,但是这些交通事故很可能存在相同的一种或几种因素,如某种设施缺陷、某种线形组合等情况,这些特定的影响因素导致了这类形态的事故发生。基于乌鲁木齐市2006~2010年的交通事故统计资料,通过二元Logistic回归模型分析各类事故形态的事故与各种影响因素单独、组合等情况之间的关系,研究所有影响因素单独/组合等不同情况下对交通事故的影响,并运用多项Logistic回归模型针对各类因素和全部事故形态进行总体分析和预测事故发生概率,与真实数据相对比,验证了模型的有效性。将交通事故划分为9种常见的事故形态进行单独和综合的模型分析,通过研究各类道路行驶条件对单一事故形态的影响,以及一般道路行驶条件下各种事故形态的发生概率,从环境和设施的角度探究不同类型事故发生的原因。
1 数据采集及编码
数据来源为新疆省乌鲁木齐市2006~2010年间的交通事故统计资料,所选取事故数据包含事故时间、地点、伤亡情况、事故现场、事故形态、事故原因等信息。将事故信息不全的数据排除后,从中选取了1 374起事故进行数据分析。所选取的事故中共包括碾压、正面相撞、侧面相撞等10种不同的事故形态。事故影响因素则从道路环境、道路交通设施和车辆情况3类因素中选取了9种因素。表1,2为各类事故形态和影响因素的频数和百分比,以及自变量和因变量的数字编码。
表1 数据列表和编码(因变量)Tab.1 Description and code of selected data
2 模型计算结果分析
2.1 Logistic模型回归结果分析
为了研究道路行驶条件对各类交通事故形态的影响程度,通过统计软件针对每种事故形态分别建立了二项Logistic回归模型进行分析。以相关性分析结果为依据,笔者在各类影响因素中选取了与每1种事故形态关联性较强的影响因素建立Logistic回归模型,由此进行Logistic回归得到的模型更为准确,并且有较强的理论分析意义。模型的回归结果中采用walt检验的P值判断模型系数的显著性大小。通过Ominbus全局性检验验证模型中的自变量是否有意义,最后通过Hosmer和Lemeshow 检验验证模型的拟合程度[8-9]。
表2 数据列表和编码(自变量)Tab.2 Description and code of selected data
从事故数据的数据量和数据结构,以及新疆乌鲁木齐市的地区事故发生特点可以看出,对向刮擦和撞静止车辆这2类事故较少发生。又根据新疆当地的交通管理状况,翻车这类事故数量较少,主要发生于大货车超载运货的情况下,暂不放入模型分析。
经过第1步的相关分析,为了更准确地得到Logistic回归结果,在每1种事故形态的影响因素中,选择了最为相关的道路行驶条件因素作为自变量加入模型进行运算。运算结果见表3。表中B为模型变量的回归系数;Std.Err为标准差;Sig.为每个自变量的 Walt检验P值;Exp(B)为每个自变量的优势比,即事件发生概率P与事件不发生概率1-P之比。
由表3可见,Ominbus全局性检验结果都小于0.05,Hosmer和Lemeshow检验结果都大于0.05,说明各模型中的自变量有意义,且模型拟合性良好。
正面相撞的模型回归结果中P值小于临界值0.05的是标志标线、中央分隔带和车辆类型,路口路段和信号灯的P值也接近临界值,为显著因子。从模型的优势比可以看出,标志标线和信号灯的优势比都超过1.5,这2个因子的发生对事故率有较大的正影响,而中央分隔带和路口路段以及车辆类型的回归系数为负,优势比也小于1,说明他们是事故发生的保护因素,其中路口路段中普通路段优势比为0.112,负影响较显著,车辆类型因素中大货 车相对其他车辆有较显著的影响。
表3 道路行驶条件与各类事故形态的二项logistic回归计算结果Tab.3 Coefficients estimates of each crash type and road conditions models
在侧面相撞的模型回归结果中,中央分隔带影响较显著,其优势比为1.433,说明中央分隔带对侧面相撞事故的发生有正影响,是危险因素。在其他相关性较大的影响因子中,天气条件对此类事故发生有一定影响,相对于晴或阴的正常天气,其他天气条件对事故发生有负影响,而夜间行车相对于白天,有路灯是事故发生的保护性因素,没有路灯则易导致事故。各种车辆类型中大货车对事故发生影响程度最大。
在尾随相撞的模型回归结果中,自变量中标志标线和车辆类型的模型预测结果都较为显著。其中标志标线的回归系数小于0,对事故发生呈负影响,中央分隔带和车辆类型回归系数都大于0,是事故发生的危险因子,其中有中央分隔带事故发生的概率是没有设立分各带的1.6倍。在不同的车辆类型中,对事故影响最大的是中型客车和大货车,以二轮摩托车为参照,他们的影响程度分别是摩托车的7.324倍和7.877倍,这2类车型影响的预测结果也较其他车型显著。
在同向刮擦这类事故形态的回归结果中,标志标线和机非分隔带的walt检验结果远小于0.05,非常显著。标志标线的回归系数为负,对同向刮擦的事故发生产生负影响,是保护性因素。而机非分隔带的优势比达到7.533,远大于1,说明机非分隔带对事故发生有正影响,其影响程度是其他因素的7.533倍。而中央分隔带对事故发生也有保护性作用。
2.2 道路设施对各类事故形态的影响
正面相撞和侧面相撞这2类事故形态是新疆乌鲁木齐市发生频率最高的事故,其中正面相撞的发生频率达到了71.18%,侧面相撞也有15.50%的发生率。从道路交通设施对事故影响的角度分析,正面相撞事故较容易发生在没有中央分隔带的路段,同时该类事故发生的概率也极大程度上取决于信号灯和标志标线设置,相比没有交通控制的路段,信号灯和标志标线设置的不合理反而会增加事故发生率。模型回归结果显示,高架路段较少发生此类事故,因为高架路段通常设有中央分隔。与正面相撞不同的是,侧面相撞的事故容易发生在有中央分隔带的道路路段,主要是由于车辆行驶在有分隔带的路段时,由于一侧有物理隔离,其发生特殊情况的避让方向大多是朝向于相邻车道,易与其他车辆发生侧撞。
从尾随相撞模型分析结果来看,从道路设施的角度分析,标志标线对此类事故的发生影响最大,设置合理的标志标线有助于校正驾驶行为,提高车辆行驶的安全性,减少尾随相撞事故的发生。而中央分隔带的设置一定程度上对这类事故有不良影响。相对于不同的车辆类型,中型客车和大货车由于质量和体积较大,刹车距离较长,更容易引发此类事故。
同向刮擦这类形态的事故发生主要影响因素是标志标线和分隔带。首先设置合理的标志标线有助于减少同向刮擦的事故发生率。分隔带的设置在此类事故中也有重要影响,缺少机非分隔带却极大程度上导致了此类事故的发生,主要原因是当非机动车和机动车同向行驶时,由于没有物理隔离,交通量较大(特别是早晚高峰)时,由于非机动车道容量有限,有些车辆经常会越线行驶,造成与机动车的刮擦事故。
2.3 道路环境对事故发生的影响
在道路环境相关的因素中,对车辆行驶安全性影响较大的主要是天气、夜间照明和路表情况。不良的天气条件一定程度上影响事故的发生,由回归结果可知,相比于晴或阴的正常天气条件,由于雨雪雾天能见度会有一定程度下降,特别是雾天,对事故率的影响程度是其他不良天气的20~30倍,在有浓雾的时候驾驶员的视距大大减小,导致车辆行驶过程中事故频发。同理,夜间行车在没有路灯的路段会增加危险性,有较大的事故隐患。而道路路面对事故影响主要基于摩擦系数,相比于干燥路段,有冰雪和泥泞或积水的路面会造成路面摩擦系数降低,导致车轮打滑,降低刹车的灵敏度,事故发生率也会有一定程度的增加。
2.4 道路行驶条件对事故形态分布的影响分析
表4为通过多项Logistic模型对各种事故形态的事故发生几率的预测结果中较为典型的情况。表中所示为在这4种道路条件下,各种形态事故发生几率的预测情况。从表4中可见,Pearson残差绝对值都小于2,而且绝大部分都小于1,模型拟合良好。从列出的4种一般道路行驶条件下所发生的事故形态预测分布可以看出,其预测发生率和实际频率一致。
从回归结果中可以发现,在正常的道路行驶环境中,即天气、照明和路表情况良好,相同车辆类型,道路设施对事故分布有着重要的影响。其中正面相撞的发生频率最高,侧面相撞次之。主要是由于缺乏有效的交通信号控制,车车之间的冲突点较多,车辆无法有序行驶,在车速较快或者车流量较高的情况下,极易发生交通事故;同时道路中央缺少有效隔离设施,车辆在发生违规行为或避让同向车辆的过程中容易侵占对向车辆行车道。在没有信号灯等有效的交通控制和机非隔离的情况下,高峰时段交通流量大时,非机动车常常占用机动车道造成侧面相撞,同时也会引发机动车避让时其他形态的事故发生。
表4 道路行驶条件与事故形态的多项Logistic回归预测结果Tab.4 Prediction of accident rate of each crash type by multinomial Logistic model
此外,道路中没有设置标志标线时侧面相撞和尾随相撞两类事故的发生概率有所提高而正面相撞相对降低,当道路中设置了中央分隔带时正面相撞的概率比没有设置时低,更明确地体现了道路设施是否完善,设施的调整策略对不同事故形态的概率分布有着显著的影响。
3 结束语
在二项Logistic模型回归的结果中可以发现,本研究中针对不同的事故形态选择了关联性最强的几个影响因素放入针对每种事故形态所建立的回归模型中,其模型拟合程度良好,这些因素与各事故形态之间的相互关系非常显著。经过进一步的分析可以发现,在乌鲁木齐市所发生的道路交通事故中,①信号灯、标志标线和中央分隔带是否设置合理和有效对正面相撞这类事故有着较大的影响;②对侧面相撞这类形态的事故影响程度最大的是中央分隔带的设置,而天气和照明等环境因素也对这类事故有着较大影响;③标志标线不完善对碾压类事故的影响水平较高,但这种事故主要发生在小客车这种特殊车型上,说明车型的影响也十分重要;④在尾随相撞这类事故中,标志标线和车辆类型的影响水平较高;⑤撞固定物这类事故的发生主要取决于天气状况是否良好以及中央分隔带的设置;⑥标志标线和机非隔离带这类交通设施影响因素极大程度影响着同向刮擦这类事故的发生。由此可见,相比于环境和车辆类型,道路设施的合理设置是影响各类事故形态的主要因素。
从多项Logistic回归模型对于9种事故形态的概率预测结果中也可以得到相同的结论,在道路环境相对较好的行车条件下,正、侧面相撞和尾随相撞成为多发的事故形态,而道路设施的调整也会对事故形态的概率分布产生显著的影响。
[1] 陈彦美.基于对应分析方法的公路交通事故黑点成因研究[D].南京:东南大学,2008.
[2] 裴玉龙,丁建梅.鉴别道路交通事故多发点的突出因素法[J].中国公路学报,2005,18(3):99-103.
[3] 刘 伟.交通事故多发路段危险因素的模糊诊断法[J].重庆交通大学学报;自然科学版,2009,28(4):733-735.
[4] 潘昭宇,过秀成,盛玉刚,等.灰色关联分析法在公路交通事故黑点成因分析中的应用[J].交通运输工程与信息学报,2008,6(3):96-101.
[5] 赵金宝,邓 卫,王 建.基于贝叶斯网络的城市道路交通事故分析[J].东南大学学报;自然科学版,2011,41(6):1300-1306.
[6] 赵金宝,邓 卫,王 建.基于贝叶斯网络的城市平面交叉口交通事故分析[J].交通信息与安全,2012,30(2):88-91.
[7] Maurice A,Regine S,Nicolas D.Traffic indicators and accidents:the case of a motorway network in the south of France[C]∥TRB Annual Meeting Washington, D.C.: Transportation Research Board,2013.
[8] 王济川,郭志刚.Logistic回归模型:—方法与应用[M].北京:高等教育出版社,2001.
[9] 宇传华.SPSS与统计分析[M].北京:电子工业出版社,2007.