基于有限混合模型的高速公路事故影响因素分析*

2020-03-14王雪松陈志贵

交通信息与安全 2020年6期

李艳王雪松王婷陈志贵

（1.公安部交通管理科学研究所江苏无锡 214151；2.同济大学道路与交通工程教育部重点实验室上海 201804；3.西部机场集团有限公司陕西咸阳 712035）

0 引言

随着我国高速公路里程的快速增长，安全问题日渐凸显，每年的死亡人数均超过5 000 人[1]。研究事故的影响因素，明确事故的发生机理是制定高速公路安全改善措施的关键。国外基于丰富的数据，对事故的空间分布、影响因素，以及事故多发路段判别进行了较为系统的研究。然而，由于国内统一管理机制的缺失，数据分散，针对高速公路交通安全的研究停留在相关性分析阶段，仅考虑单一变量与交通事故的关系，忽略了多变量对于安全的综合影响，从而无法有效开展安全分析。

常见的安全分析将事故总数作为因变量，然而研究表明不同路段上单车事故占比、单车、多车事故的空间分布，以及2 类事故的影响因素具有明显的差异性[2-3]，国内尚缺少对2 类事故影响因素的比较分析。

事故发生机理复杂，影响因素众多，交通安全分析数据需要从不同的部门收集，如交警部门、气象部门、高速公路管理部门等。然而，这些能采集到的数据仅仅是所有可能影响因素的一部分，其他的因素无法得到。由某些无法获取的因素导致变量在不同路段上对事故数的影响存在差异性，称为潜在异质性，该问题很难通过简单的分析单元划分或对事故进行人为分组解决[4-5]。国外近年已经致力于研究如何通过模型的改进克服异质性带来的问题，国内在这方面的研究尚未开始。

国内高速公路单车和多车事故影响因素是否存在差异、数据异质性情况均是未知的。本文的研究目的是基于上海市精确定位的事故数据，分析道路几何设计、交通运行与单车、多车事故的关系，通过先进的建模技术解决数据潜在异质性问题，深入分析不同路段上事故影响因素的差异性，为高速公路设计规范制定和事故多发路段判别及安全改善提供参考。

1 研究综述

分析单元划分、单车和多车事故影响因素的差异性、数据异质性问题是进行高速公路安全研究中的关键问题。

分析单元划分直接关系到自变量、因变量的取值，对安全分析模型的精度及应用产生影响，是高速公路安全研究的基础。划分方法主要有定长划分法和同质分段法2种。定长法是按照既定的固定长度对高速公路进行分段，路段长度的选择是关键。然而事故时小概率事件，长度过短会导致研究路段的事故统计特征不明显，且事故数为0的路段过多；过长的路段平、纵、横断面等属性不唯一，特征混杂，变量取值难以确定，影响模型的准确性。同质分段法是以道路属性的变化为分段依据，选取的指标主要有交通量、限速和平纵线形、车道数、路肩宽度等道路几何设计参数[6-7]。研究者通常基于专家经验、特定研究目的，以某些参数为控制指标，对道路进行同质性分段。划分后的路段特征唯一，易于建模，较有说服力，近年研究者均倾向于应用同质法[8]。

事故数据具有随机、离散、非负的特点，泊松模型是最基础的事故数分析模型[9]。随着对事故数据的认识逐步深入，研究者发现泊松模型不能应对数据过度离散、零值过多等问题，开始对泊松模型做各种变换来满足数据分析的需求，如负二项模型、零堆积泊松回归模型等[10]。然而，传统模型假定事故数据服从同一分布，忽略了数据的异质性，导致模型精度降低。研究者尝试通过将事故分类或采用更为先进的建模方法来解决异质性问题[2，5]。

未观测到的异质性是由交通系统的动态性和复杂性引起的[4]。由于与事故风险相关的因素众多，一些指标难以获取，因而无法将所有变量全部引入模型。针对这类问题，最初的解决方法是在模型中引入随机参数或潜在类别，用以表示未观测到的变量[11]。但这类模型在参数的收敛速度和模型的解释性方面存在局限性。后来，马尔可夫转换模型作为1种多状态方法被广泛应用，但这种方法仍难以全面地解释异质性。近年来，由于计算机的运算能力可以支持更复杂的算法，1 种更加灵活的模型应运而生，即在马尔可夫转换模型中引入随机参数或潜在类别[11]。尽管这类模型的可解释性更好，但其参数估计过程颇为繁琐，在未来的研究中仍需进一步探讨算法复杂度与模型拟合效果之间的平衡。

有限混合负二项模型（finite mixture of negative binominal regression model，FMNB）将总体样本分成若干组，各组数据可以服从参数不同的负二项分布，解决了数据的潜在异质性问题[5,12]。国内外采用有限混合的方法对事故建模的研究较少。Park 等[5]基于得克萨斯州的高速公路事故数据，建立了事故与几何参数、交通流的泊松模型、负二项模型、有限混合泊松模型（finite mixture of poisson regression model，FMP）以及FMNB 模型，发现2个成分的FMNB模型最优。Zou等[12]发现事故数据异构或者高度离散时，2 个成分的FMNB 模型的优势更明显。但以上研究针对事故总数建模，集中于有限混合模型与其他模型精度的比较，缺少对解释变量安全影响的深入探讨。

国外基于事故分析模型对影响高速公路安全的几何设计、交通运行特征进行了系统的研究，表明单车、多车事故的影响因素具有明显差异性。在几何设计方面，中央分隔带、路段长度对单车、多车事故均有影响，平曲线半径、平曲线比例只对多车事故有显著的影响，纵坡坡度只对单车事故有影响[2]；Council等[13]发现从2车道增加为4车道，事故数可以降低40%～60%，但有也有研究表明车道数的增加会导致事故率提高[14-15]。在交通运行方面，Ivan 等[3]发现随着交通流量的增大，单车事故减少，多车事故没有显著变化，Pande等[16]却指出日交通流量只对多车事故有显著影响。从国外现有研究中可以看出，各道路几何特征和交通运行特征对单车事故与多车事故的作用效果不完全一致。国内在高速公路安全方面的研究集中于探讨几何线形与高速公路安全的关系[17-18]，部分研究对单一的交通流参数与安全的关系进行了分析[19]，缺乏综合考虑道路几何特征和交通流特征的事故影响因素研究。

2 数据准备

选择沈海高速公路上海段的主线作为研究对象，总长45 km，最高限速100 km/h。考虑到高速公路两侧交通设施、交通流运行参数以及事故分布存在差异，对高速公路进行分侧。对分侧后的高速公路进行分析单元划分，采集相关参数，包括平面、纵断面、横断面设计参数，交通运行特征，以及2012—2013年的事故数据。

2.1 分析单元划分

本文采用同质性分段法对高速公路进行分段，选择平面线形（直线段、曲线段）、纵断面线形（上坡、下坡、凸竖曲线、凹竖曲线段）、车道数（2 车道、3 车道）、中央分隔带宽度（2 m，3 m，3 m 以上）作为分段指标。见图1，当任意指标的取值发生变化，就对道路进行打断，图中道路属性指标的取值发生5 次改变，将其划分为6个路段单元。

图1 高速公路路段单元划分示意Fig.1 Illustration of segment division

道路总共被划分为492 个路段单元，平均长度为210.2 m，最小值7.6 m，最大值347 m。由于长度过短的路段上事故统计意义不明显，美国《高速公路安全手册（Highway Safety Manual,HSM）》[20]建议高速公路路段分析单元不宜小于160.9 m。因此，将过短的高速公路路段单元与其相邻路段单元合并，优先保证横断面参数（车道数与中央分隔带宽度）一致。基于这样的准则，45 km 长的高速公路最终被分为324 个分析单元。

2.2 路段几何设计参数统计

路段合并导致分析单元内部存在平面线形或者纵断面线形不一致的情况，因此需要增加变量来表征分析单元内部线形的不一致性。对于平面线形不一致的合并路段，增加曲线比例这一变量，表征曲线占总路段长度的比例，平面类型改为平面组合路段；对于纵断面线形不一致的合并路段，增加竖曲线比例这一变量，表征竖曲线占总路段长度的比例，纵断面类型改为纵断面组合路段。因此，路段的几何设计参数包括：①平曲线，平曲线类型、平曲线曲率、缓和曲线长度，以及平曲线比例；②纵断面，纵断面类型、最大纵坡坡度、竖曲线曲率、坡度变化值、连续纵断面长度，以及竖曲线比例；③横断面，车道数和中央分隔带宽度。几何设计变量描述及统计数据见表1。

表1 高速公路道路几何设计变量描述性统计Tab.1 Descriptive statistics for geometric design features

2.3 交通运行参数提取

沈海高速公路安装了大量的交通监测和监控设备，监控视频为交通运行参数的获取提供了数据源。所选高速公路上摄像机是全覆盖的，每个摄像机都可以拍摄高速公路两侧的交通运行状况，且有具体的电子坐标，能够与路段单元相匹配。基于2012年1周7 d的监控视频数据，借助于车辆监控视频识别软件，获取路段上各车道通过的车流量以及每辆车的车速数据，计算各路段的小时交通流量、平均车速等交通运行参数，见表2。

2.4 事故数据

交警采集事故信息均遵从公安部制定的《道路交通事故信息采集项目表（2006 版）》[21]。该项目表包括17项基本信息、12项人员信息、10项车辆信息、17 项补充信息（其中8 项道路关联信息、5 项人员关联信息、4项车辆关联信息）。采集好的事故信息需要录入公安交通管理综合应用平台，以便统一管理。2012年，上海市公安局交通警察总队印发《上海市交通警察执勤执法地点名称专用表述规范》[22]，规范了事故地点的文字表述，使事故定位率提高到了98%。高速公路路段事故的地点表述规范为“事故所在道路+侧向+里程碑+方位+距离”，如沈海高速东侧 × km 前约 × m。基于事故地点的文字表述，通过《上海市事故地点录入控件》将事故在地图上准确定位，可实现事故与道路的关联。

本文采用2012 年与2013 年发生在沈海高速公路上的事故数据，事故空间分布见图2。单车事故与多车事故在324 个路段上的分布存在明显差异，部分路段以单车事故为主，部分路段以多车事故为主，仅9.25%路段上二者占比相当。

图2 高速公路各路段事故分布Fig.2 The spatial distribution of segment crash

路段单车事故数（起）的均值与方差分别为1.1，3.4，多车事故数（起）的均值与方差分别为2.9，8.3，由于方差远大于均值，过度离散，相比于泊松分布，负二项分布的拟合度更好。46.6%的路段上单车事故数为0，41.9%的路段上多车事故数为0，需要考虑采用零堆积模型。因此，通过Voung 检验[23]来验证零堆积负二项模型是否显著优于负二项模型。检验结果见表3，表明不需要采用零堆积模型。

表3 Voung 检验结果Tab.3 Results of Voung test

3 有限混合负二项模型

有限混合模型假定总体样本由有限个成分构成，即将异质性的总体样本划分成k组同质性的数据。各组数据可以服从不同的分布，如泊松分布、负二项分布。作为有限混合模型的一种，FMNB 模型可以解决事故数据的过度离散的问题。因此本文选择FMNB模型为建模方法，建立事故数据与几何参数、运行指标之间的回归模型，分析不同类型事故的影响因素。

假设样本分为k组，分别服从不同的二项分布，yi为路段i的事故数，则yi的密度函数f( )yi为

式中：xi为回归变量；为第j组样本的平均值；φj为NB模型的离散系数；βj为j组样本的回归参数；πj为混合比例，满足且0 ≤ πj≤ 1；为yi的期望函数，为yi的方差函数。

在拟合k个分组的有限混合负二项模型时，为每个样本计算成为分组j的成员的后验概率

最终，每个样本被分配到拥有最大后验概率的分组中。参数βj的估计方法有极大似然估计[12]或者贝叶斯估计[5,24]。本文选择常用的期望最大化（expectation maximization，EM）算法进行混合密度的参数估计。令k=2,3,…，分别建立FMNB模型，最优成分数k可以通过比较一系列模型的拟合效果来确定[5,12,23-24]。常用的比较拟合准则有AIC，BIC与DIC，取值越小，模型的拟合效果越好。

为了能直观地体现变量估计参数的含义，计算模型中自变量的边际效应，表征自变量增加1 个单位，路段事故数的变化情况。第j组样本中自变量的边际效应计算公式为

4 单车事故影响因素

基于采集的道路几何设计参数、交通运行数据以及事故数据，分别建立单车、多车事故的有限混合负二项模型，分析高速公路事故的影响因素。建立模型之前，先对自变量间的相关性进行分析，并在建模时注意共线性问题。

建立不同成分数（k=2, 3, 4, 5, 6, 7）的FMNB模型，各模型的拟合效果见表 4。以AIC与BIC作为模型选择准则，当成分数目为2时，模型结果最优。

图3 单车事故分组特征对比Fig.3 Characteristics comparison between groups for SV crashes

表4 不同成分数模型拟合信息Tab.4 Fitting effects under different numbers of components

建立成分数为2 的FMNB 模型，所有路段被分为2 组，89%的路段属于成分1，11%属于成分2。比较不同成分中路段的特征。其中：图3 是连续型自变量；表5是因变量和分类型自变量。成分1中路段上发生的单车事故数远低于成分2 中的路段；相比于成分2 中的路段，成分1 中路段的纵坡变化值较小，大车比例高，中央分隔带宽度多为3 m 或以上；成分2 中路段的纵坡变化值较大，以3 车道路段为主，2 m宽的中央分隔带比例相对较高。

表5 单车事故分组特征对比Tab.5 Characteristics comparison between groups for SV crashes

表6 列出了显著变量的估计系数。在2 个成分中，显著变量不完全相同，大车比例、中央分隔带宽度仅在成分1中显著，平曲线曲率、竖曲线曲率以及纵坡变化仅在成分2中显著；同一显著变量在2个成分中的估计系数大小也存在差异，如路段长度和车道数。这表明变量对单车事故的影响复杂，在不同路段上产生的影响不相同。

路段越长，发生事故的概率越大。路段长度每增加1 km，成分1 中路段平均事故数增加2.55 起，成分2中路段平均事故数增加0.43起。

除长度以外，平面、纵断面、横断面设计要素以及路段运行参数均对单车事故有显著的影响，显著变量包括平曲线曲率、竖曲线曲率、纵坡、车道数、中央分隔带宽度以及大车比例。

表6 单车事故FMNB 模型结果Tab.6 Modeling results of the FMNB model for SV crashes

平面要素中，成分2 中平曲线曲率对事故发生的影响显著，回归系数为负，表明平曲线半径越大，单车事故数显著增加，钟纯耀[17]也得到了相同的结论。虽然平曲线半径越大，驾驶员视距范围内障碍少，但在小半径曲线上行驶，驾驶员反而更加谨慎，有利于减少单车事故的发生。平曲线半径不是越大越好，在进行道路设计时，不仅要符合最小平曲线半径要求，也要考虑最大平曲线半径的要求。

纵断面要素中，对单车事故数有显著影响的是竖曲线曲率以及纵坡变化值。高速公路部分路段上，单车事故数随着竖曲线半径的增大而减小。这说明大竖曲线半径下，驾驶员视距良好，行驶更为平顺。纵坡变化率与单车事故有正相关关系，纵坡变化值增大1%，路段事故数平均增加0.21 起，该结论与Yu和Abdel-Aty[2]的研究一致。

图4 多车事故分组特征对比Fig.4 Characteristics comparison between groups for MV cashes

横断面要素中，车道数以及中央分隔带宽度对于单车事故数均有显著的影响。相比于单侧3 车道路段，成分1 中单侧2 车道路段发生的事故数平均减少0.33 起，成分2 中则平均减少6.09 起。在成分1 中，中央分隔带宽度由3 m 以上变窄，单车事故会显著增加。

路段运行参数中，成分1 中大车比例对事故数有显著影响，大车比例每增加1%，单车事故数减少2.68起。这与Chang等[25]结论相反，因为大车较多的路段，驾驶员更加谨慎，翻车、撞固定物等单车事故的发生概率相对较小。

5 多车事故影响因素

通过比较不同成分数FMNB模型的拟合效果，发现成分数为2的FMNB模型最优。所有路段被分为2 组，77%的路段属于成分1，23%属于成分2。比较不同成分中路段的特征，其中：图4是连续型自变量，表7是因变量和分类型自变量。成分1中路段上发生的多车事故数远低于成分2 中的路段；相比于成分2 中的路段，成分1 中路段的缓和曲线长度更短，以直线与曲线路段为主；成分2中缓和曲线长度较长，直线和平曲线组合的路段比例较高。

表7 多车事故分组特征对比Tab.7 Characteristics comparison between groups for MV crashes

表8 列出了多车事故模型中变量的估计系数。在2个成分中，显著变量不完全相同，中央分隔带宽度仅在成分1中显著，缓和曲线长度、最大纵坡与流量仅在成分2 中显著；同一显著变量的估计系数大小或符号也存在差异，如路段长度、平曲线曲率，以及竖曲线比例。这表明变量对多车事故的影响复杂，在不同路段上影响不相同。

表8 多车事故FMNB 模型结果Tab.8 Modeling Results of the FMNB Model for MV Crashes

与单车事故一样，路段长度与多车事故数之间存在正相关关系，长度增加，多车事故数增加。平面、纵断面、横断面设计要素以及路段运行对于多车事故数均有影响，显著影响指标包括平曲线类型、平曲线曲率、缓和曲线长度、纵断面类型、最大纵坡、竖曲线曲率、车道数、中央分隔带宽度，以及流量。

平面要素中，平曲线类型、平曲线曲率，以及缓和曲线长度对于多车事故数均有显著的影响。在成分1 中，曲线路段比组合平曲线路段平均多发生0.28 起多车事故，成分2 中组合平曲线路段比直线路段更容易发生事故。与Kopelias 等[26]的研究结果相同，成分1 中平曲线曲率与多车事故数呈正相关关系，平曲线半径每增加10 000 m，多车事故减少0.06 起。在成分2 的路段上却有相反的结论，随着平曲线半径增大，更容易发生多车事故。这表明设计标准高、行驶条件好的路段，驾驶员可能会掉以轻心从而引发事故。在成分2 中，缓和曲线长度对多车事故有显著影响，符号为负，表明缓和曲线越长，直线与曲线之间过渡越平缓，行车更安全。

纵断面要素中，纵断面类型、最大纵坡以及竖曲线比例对于事故数有显著的影响。在大部分样本中，相对于组合路段，竖曲线路段发生事故的可能性更低，少数样本中上下坡路段安全性更高。最大纵坡与多车事故呈负相关，坡度越大发生多车事故的可能性小。多数路段上，竖曲线比例的增加会导致多车事故数的增加，有些路段则相反。

横断面要素中，车道数以及中央分隔带宽度对于多车事故数均有显著影响。与单车事故相同，单侧2 车道的路段比3 车道路段更安全。在成分1中，相比于中央分隔带宽度为3 m 或以下的路段，中央分隔带为3 m以上的路段上多车事故平均减少0.48起。

交通运行方面，小时交通流量对于多车事故数影响显著。部分路段上随着交通流量的增加，多车事故数有减少的趋势，与已有的一些研究结论相反[26]。这是因为在流量较大的情况下，变换车道更加困难，随意变道的情况减少，驾驶员也更为谨慎。

6 单车与多车事故影响因素对比

为了探究单车、多车事故分开建模的必要性以及分析单车、多车事故影响因素的差异性，基于事故总数建立负二项模型，对比事故总数、单车事故、多车事故模型结果，模型显著变量的边际效应见表9。

表9 不同类型事故显著变量的边际效应汇总Tab.9 Summary of significant variables'marginal effects for each crash type

路段长度、平曲线类型、车道数、中央分隔带宽度，以及大车比例对事故总数均有显著影响。其中，路段长度、车道数与中央分隔带宽度对事故总数的影响同对单车、多车事故的影响相似，但影响程度大小不同。相比于组合平曲线路段，曲线路段的事故总数平均高1.39 起，77%的路段上多车事故平均高0.28 起，单车事故数没有显著区别。大车比例每增加1%，事故总数减少1.62 起，89%的路段上单车事故减少2.68起，多车事故数没有显著变化。

路段长度、平曲线曲率、车道数，以及中央分隔带宽度对单车、多车事故均有显著影响，但影响程度不同。单车事故主要是车辆自身的行为引发的，多车事故则涉及多个主体，是车辆间存在交通冲突引起的，其影响因素更复杂。竖曲线曲率、纵坡变化和大车比例仅对单车事故有影响，平曲线类型、缓和曲线长度、竖曲线类型、最大纵坡、竖曲线比例，以及流量仅与多车事故有相关关系。2 类事故发生机理的差异性导致其影响因素存在明显的差异，分别建立安全影响模型有利于发现事故特有的影响因素。

7 结束语

本文基于同质性分段的方法对高速公路进行分段，采集各路段的几何设计参数、交通运行参数，以及事故数据，建立有限混合负二项模型，分别研究单车、多车事故的影响因素。

1）单车、多车事故影响因素存在显著的差异，后者的影响因素更复杂。路段长度、平曲线曲率、车道数和中央分隔带宽度对2 类事故均有影响，但程度不同；单车事故的影响因素还有竖曲线曲率、纵坡变化，以及大车比例，多车事故则受平曲线类型、缓和曲线长度、竖曲线类型、最大纵坡、竖曲线比例，以及流量的影响。因此，在事故多发路段判别与改善方面，运用单车事故模型与多车事故模型分别预测事故数，基于预测结果进行事故多发路段判别，鉴别出对应不同类型事故的事故多发路段，便于针对不同路段采取不同的安全改善措施。

2）有限混合模型能有效解决数据异质性问题。成分数为2的有限混合负二项模型拟合效果最优，部分变量在不同路段对同一类事故的影响不同。在纵坡变化值小的路段上，中央分隔带变窄和大车比例减小，单车事故显著增加，在纵坡变化值大的路段上则没有显著变化；在缓和曲线长度较短的路段上，平曲线半径减小和竖曲线比例增大，多车事故显著增加，在缓和曲线较长的路段上则相反。因此，在道路设计方面，需要综合考虑平面、纵断面、横断面各要素的取值，不同组合的线形设计中同一要素对事故的影响并非不变。后续研究将进一步考虑同一路段的单车、多车事故频次可能受到的未被观测因素的共同影响，采用双变量有限混合模型进行联立建模。