基于分位结构模型的城市干道出入口管理安全影响因素识别
2019-07-02胡启文
胡启文
(中铁第四勘察设计院集团有限公司, 湖北 武汉 430063)
出入口管理技术是对出入口车道、中央分隔带、中央分隔带开口和辅助车道的位置、车道间距设计和运行进行系统的管理与控制。其目的是在交通规划中按照道路功能等级,改善道路与其两侧用地的交通联系,以便提高交通系统的安全性和运行效率[1](特别是主干道和其他主要道路)。因此,出入口管理因素的识别,如信号灯间距、连接车道间距、中央分隔带等,对于支持主干道进行安全、高效的运行,并为道路两侧用地提供方便的接入起到重要作用。
目前在评价出入口管理技术对城市主干道出入口安全影响方面,仍存在两个主要问题(即异质性和内在性)[2]。受到一些未观测到的因素影响,不同时间、不同干道上都存在异质性,而产生的事故率和运行速度间存在内生性,所以为了处理这两个问题,研究人员尝试建立了各种模型和方法,但是到目前为止,还没有统一的标准。而且,在建模之前做了太多的假设,很可能违反模型本身自然属性导致一些偏颇的推论。
在过去十年中,很多不同的方法和观点都可以用于交通事故评估[3~6]。研究表明,异质性问题可通过有限混合回归模型和随机参数模型进行解决;其中考虑了由于未观测因素而造成的数据或地点的异质性,并进一步改进了估计结果和统计推断。然而,在同一主干路发生的事故可能有共同的未观测到的因素,估计随机参数所需的分布假设可能不足以解决这一未观察到的特征。
通常情况下,上述模型属于均值回归,其中模型假设很难扩展到非中心位置,不能够及时补充自然、真实的数据,尤其是在同方差的情况下。这时就需要一个更合适和更完整的视域来分析比平均值和方差更广泛的分布特性。
近年来,分位数回归(Quantile Regression, QR)在社会学、经济学、金融学、医学等领域受到越来越多的关注[7],但是在交通运输领域的应用仍处于初始阶段。分位数回归的主要优势是能提供更加完整的视域,并从广义上对变量之间的关系进行了高度综合的分析。与均值回归相比,分位数回归并不要求数据遵循特定的分布,而是根据数据百分点的分布从不同回归曲线评估多个方差。而且,因为最终的估计结果对异常值和多模式的敏感度较小,所以分位数回归对于异常值更具有鲁棒性。特别要指出的是,分位数回归可以在不需要很多假设的前提下,处理不同地点、不同时间、不同来源数据的异质性问题,这有助于更清晰地描述不同干道未观测到的因素。
同样,结构方程模型作为一种多元分析工具,在社会科学、教育学、心理学、医学等领域得到了广泛的应用[8],一些研究已经应用在交通领域。结构方程模型的主要目的是利用测量方程和结构方程研究外源/内源变量与潜在变量之间的关系。测量方程主要探讨潜在变量对外源/内源变量的影响,而结构方程则是衡量结果与潜在变量之间的关系。在结构方程模型中,联立方程模型是一种特殊情况,它能够恰当地处理外源性/内源性变量与潜在变量之间的内生性关系。
虽然分位数回归和结构方程模型在不同的领域都很流行,但这两种模型很少被结合在一起。本文充分利用这两个模型的优点,将分位数回归和结构方程模型进行整合构建了分位结构模型。在分位结构模型中,测量方程是通过分位数回归来实现的,它对非正常误差具有更强的鲁棒性,而结构方程则结合了结果变量的分位数,使得最终结果可以同时处理异质性和内生性问题。
1 建 模
1.1 分位数回归模型
分位数是将概率分布范围划分为具有相同概率的连续区间切分点。一些特殊的分位数是以区间的长度来指定的,例如,2-分位数是中位数,4-分位数是四分位数,10-分位数是十分位数,100-分位数被称为百分位数。设p是介于0~1之间的一个数,然后用Q(p)表示连续随机变量y分布的100百分位数,可以表示如下:
(1)
其中,f(y)是密度分布函数。由方程式(1),Q(p)(0≤p≤1)进行转换,定义如下:
Q(p)=F-1(p)=inf{y:F(y)≥p}
(2)
式中:F-1(·)为累积分布函数的反函数;inf为最大下限值。值得注意的是,Q(0.5)表示中位数,第一和第三分位数分别为Q(0.25)和Q(0.75),而第95百分位表示为Q(0.95)。因此,Q(P)可以被认为是将y的可能值分为两个阶段,即P(y≤Q(p))=p与P(y>Q(p))=1-p。
类似于随机样本的平均值,使得平方差之和最小,随机变量y样本{y1,y2,…,yn}为中位数导致绝对值偏差之和的极小值。因此,一般情况下,Q(p)可以被解释为最小值大于或等于Q(p)样本的加权平均值的最优解。数值小于或等于Q(p)的样本如下所示:
(3)
假设y是变量的线性函数,则:
y=X′β+ε
(4)
式中:y为因变量;β为协变量;X为未知参数的向量;ε为随机误差。
因此,优化问题可以转化为求解β:
(5)
式中:R为空间矢量的集合;k为X的维度。
对于0与1之间的任意值p,可以看作p式回归分位数,使加权绝对残差之和最小化。
1.2 结构方程模型
结构方程模型的一般形式如下所示:
(6)
式中:Y为一个实数因变量;X1为一个实数内源性解释变量;α1(τ),α2(τ)为未知函数的权益参数;β1(θ),β2(θ)为要估计的未知参数;X2,Z1,Z2为输入变量的向量;ε0,μ0为未观测值的随机变量。为了方便识别,假设Z2中至少有一个向量不包含在Z1中,错误项均值为零,方差为1。正如Xu等[2]文中所述,可以使用两阶段最小二乘法对联立方程组模型进行估计,并可以适当地处理内生性问题。
具体而言,事故率(内生变量)和平均行驶速度(内生潜在变量)之间的相互依存关系可通过建立下列方程模型加以解决:
(7)
式中:Zi为影响事故率的因素或外源变量矩阵;Mi为影响运行速度的因素或外源变量矩阵;α2,β2为内源变量的系数矩阵;α3为外源变量的系数矩阵;α1,β1为常数;εi,μi为误差项。
(8)
其中,η=εi+α2μi,通过这种方法,该方程探讨了潜在变量对外因/内因变量的影响,而结构方程则探讨了因变量与潜在变量之间的关系。
1.3 分位结构方程模型
与方程(4)不同的是,方程(6)是一个均值型回归模型。但是,如果需要在不同的反应水平上更全面地看待因变量和自变量之间的关系,比如中间值、上尾值、下尾值,方程(6)就不能提供任何信息,此外,方程(6)中的随机误差可能因为不服从正态分布而违背了假设。因此,当需要解释自变量对因变量整个分布的影响,且随机误差不符合正态分布的假设时,分位结构方程模型是对经典结构方程模型的最好选择和补充。
综上所述,分位结构方程包括了一组多样的模型、算法和统计方法,其中联立方程组模型是一组线性联立方程组的统计模型。我们考虑的分位结构模型的形式如下:
(9)
Yi=α1[μ0+β1Z2]+α2Zi+η
(10)
式中:η=U+α1V。
为了作出α1和α2一致性估计,要求Qη|Z(z)独立于Z。在此基础上,利用分位数模拟方法研究了由于未观察因素在不同时间不同干道出入口的异质性以及导致的事故率与行驶速度之间的内生性,并建立方程模型。关于计算程序的更多细节,请参阅文献[9,10]。
2 数据描述
本文收集了美国内华达交通运输局网站中2013—2015年的交通事故数据,而出入口管理和道路特征、年平均日交通流量AADT的数据则相应地从Google Earth整合得到。目标样本位于拉斯维加斯大都市区,如图1所示,共抽样了400条公路路段,包括27条主要和次要干线。分位数回归是事故率,如图2所示,事故率的分布是倾斜状态,考虑事故率计算涉及交通流量和道路长度等因素的影响,它比事故频率更能够准确衡量个别驾驶员所面临和感知的事故风险。另一个原因是分位数回归模型要求因变量是连续的,而事故本身是离散型数据,所以不能被事故频率所取代。此外,基于数据收集的过程,事故数据存在很大的异质性。同样,可以看出图2中平均行驶速度的分布也是倾斜的。更重要的是,事故率与行车速度之间存在内生性关系。因此,在分位结构模型的估计步骤中讨论了异质性和内生性问题。表1给出了主要变量的描述性统计分析。
图1 拉斯维加斯的选择路段
图2 事故率和平均行驶速度统计直方图
表1 主要变量的汇总统计
3 结果和讨论
建模过程中,采用两步估计方法对事故率与影响变量之间的关系进行了评价,用Stata 14计算每个估计系数的置信区间。表2显示了外源变量的关联性检验,表3给出了在事故率分布的第25,50,65,75,90,95百分位数上具有统计意义变量的估计系数和95%的置信区间。因此,它对具有不同事故率的变量提出了一个更广泛和完整的视域,也就是说,与其假设所有主干路之间的系数是固定的,还不如基于一些或全部的系数变量来解释因为未观测到的因素而造成的异质性。
双向和单向中央分隔带的开口密度、每条车道的年平均日交通流量和中间变量因为没有统计学意义而被忽略,由于商业用地密度与车道密度高度相关,因此仅考虑车道密度的影响,如表2所示,更多的车道都位于商业用地。
表2 变量的关联性检验
表3 分位结构模型和联立方程模型的估计结果
注:*表示在5%的显著性水平上;括号中的数值为t值;PREDSP是根据分位结构模型中运行速度方程的简化形式预测出的运行速度;Intercept为截距
一般来说,每个分位数估计系数的总体模式和根据重要变量数量以及个别变量符号联立的方程组模型相一致。与以往的研究类似,事故率随着车道密度和中央分隔带开口密度的增加而增加,而当住宅用地密度越大时,车辆运行速度越低,事故率就越小。然而仔细研究估算系数的大小,就会发现分位数之间有一些相似之处和不同之处。首先,每条车道的AADT对事故率的影响并不显著,所以为了让公式具有意义,变量的单位尽量保持一致,事故率的计算采用每条车道的年平均日交通量AADT,而非该道路的AADT。
其次,与联立方程组的结果一致,中央分隔带开口密度和行程速度是影响分位数0.9的两个最重要的因素。而车道密度从分位数0.65开始就不显著,住宅用地密度从75%开始没有显著性差异,除中央分隔带开放密度外,所有变量在分位数0.95都不显著。大部分变量在分位数0.95时不显著的原因不仅是因为获得的事故数据影响较小,而且还存在所列出变量以外其他的影响因素,如车辆问题、驾驶员问题、甚至行车环境条件等等。这表明在评估城市干道出入口的安全影响时,可能需要考虑数据集的多样性。
对于平均速度模型来说,信号间距和车道密度在所有分位数中都是显著的,这意味着这两个变量都是影响行车速度的关键因素。信号间隔越长,车道密度越低,行车速度越大。限制速度直到0.65的效果都是非常显著的,表明较高的速度限制会提高行车速度。车道密度对行车速度具有负相关意义,这意味着较高的车道密度会降低行车速度。所有的重要变量都与联立方程模型的结果相一致。
图3显示了所有显著变量系数的估计结果。实线表示0.25,0.50,0.65,0.75,0.90的系数,它们被表示95%置信区间的两条虚线所包围。由于某些变量在分位数0.95中不显著,系数图可能偏向直线趋势,因此不做考虑。
图3 变量系数的分位数变化图
下面对图3中的显著变量进行解释:
从图3a开始,连接车道密度直到0.65对事故率有显著正相关性。这表明与具有相同车道特性的其它路段相比,连接车道密度的增加将使城市干道出入口的事故率发生显著变化。然而,连接车道密度在0.75的影响较小,这表明连接车道密度的变化对事故率的影响甚微,从而导致图3a中所有三条线的趋势是不确定的。对这一发现的一个可能解释是连接车道密度对事故率的影响是有限的,当数值到达一个极限时,影响便无法确定。
对于图3b中的中央分隔带开口密度,它对事故率的整个分布趋势都有显著影响,表明中央分隔带开口密度对事故率的影响是显著的。中央分隔带开口密度越大,冲突发生的次数就越多,从而导致更多的事故。
显然,从图3c可以看出,直到0.75,住宅用地使用密度与事故率之间存在负相关性。影响趋势从0.25下降到0.75,这意味着对于居住用地密度较高的干道出入口,事故率显著降低,但在这之后,下降趋势是不确定的。这表明,住宅用地使用密度对事故率的影响也是有限的。
如预期的那样,行车速度与图3d中所有数据的事故率呈正相关,效应趋势从0.25的1.02上升到0.90的10.845,这意味着高分位数下的事故率增幅大于低分位数时的事故率增幅,这与图2中的行车速度直方图相对应。表明行车速度越高,事故率越大。特别是当行车速度达到极限时,撞车可能失去控制。这就是为什么当一些司机赛车时,如果发生撞车事故,其影响是灾难性的。
表4 分位结构模型与一般结构方程模型误差比较
总的来说,可以发现分位结构模型不仅提供了更全面和准确的结果,可以更好地描述出入管理和其他影响因素对事故率的影响,同时还解决了异质性和内生性问题。
4 结 论
本文提出了分位数联立方程模型作为分析事故率数据的一种方法,并针对城市交通中的异质性和内生性问题,确定了影响城市干道出入口管理的因素。两个关键结论包括:(1)将分位数回归与联立方程模型相结合,联立方程模型考虑了事故率与行车速度的内生性关系,而分位数回归不同于平均回归,它估计了不同事故率的分位数,并解释了因为未观测因素造成的异质性,因此,内生性和异质性问题通过分位数联立方程模型可以得到有效解决;(2)与一般的结构模型相比,分位
数回归避免了平均回归的假设性,提供了更全面准确的信息,阐述出入口管理和其他影响因素对事故率的影响。利用内华达州交通运输局的事故数据集(2013—2015年)来建立模型,与一般的联立方程模型相比,该模型以不同的分位数分析了事故数据的详细信息,并提供了更准确的预测。
在未来的研究中,可以通过将离散变量转化为连续变量来考虑事故的严重程度。此外,本研究结论仅限于上述数据集,以后可以补充更多的变量,以便于获得更准确的结果。