山区高速公路多桥隧段路侧事故预测研究
2022-11-26黄政东周亮宇
尚 婷,唐 杰,黄政东,周亮宇,吴 鹏
(1. 重庆交通大学 交通运输学院,重庆 400074;2.重庆交通大学 土木工程学院,重庆 400074)
0 引言
自2000—2019年,全国交通死亡人数从93 853人降至52 388人,取得了斐然的成绩。但我国道路交通安全形势依然严峻,道路交通安全水平与发达国家依然存在差距,有待在从被动安全向主动安全转变中提高道路安全整体水平。在高速公路事故中,路侧事故占到约1/2~1/3,且事故严重程度较高。并且,在“人-车-路-环境”构成的交通系统中,山区受到山脉纵横、河流密布等地形地貌影响,公路呈现线形复杂、坡陡弯急、气候多变等特点,路侧事故数量较多且严重程度更高。“多桥隧段”在山区高速公路中易受到关注,由于路基-桥梁-隧道过渡频繁,驾驶员的视觉、心理及操作等交通特性均会受到影响。因此,对山区高速公路多桥隧段路侧事故的预测研究有助于优化路侧设施设计,降低路侧事故发生的可能性和事后严重性,通过主动预测提高山区高速公路的道路交通安全水平。
国内外学者对路侧事故的研究主要分为路侧事故致因和路侧事故预测两个方面。路侧事故致因的研究在国内外趋于一致,主要包括人、车辆、道路几何条件及交通环境几大类。Zegeer等[1]和Dumbaugh[2]从公路路侧设计方面分析了路侧事故致因,前者考虑了路侧净空、边坡及路侧障碍物,发现路侧事故率受边坡的影响最大,后者发现路侧事故数随路肩宽度的加宽而增加;蔡明等[3]进一步探讨了边坡坡度及高度对路侧事故严重程度的影响;程国柱等[4]分析了硬路肩宽度对路侧事故的影响,发现当80 km/h 基于以上路侧事故风险指标,许多学者构建了路侧事故预测模型,在路侧事故预测的研究中,传统方法的应用较多。张铁军等[7]通过对比泊松、负二项、堆积泊松、堆积负二项双车道公路普通路段预测模型的优劣,最终选用负二项分布拟合模型作为普通路段路侧事故预测模型,且发现山区双车道公路的路侧危险度与全部事故率和碰撞事故率是正向相关关系,与路侧事故是偏弱的负向相关影响关系[11];马壮林等[8]发现通过不定长法和定长法划分路段单元,零堆积负二项回归路侧事故预测模型的拟合优度和拟合准确性都优于负二项回归模型;程国柱等[4]利用贝叶斯网络构建了公路小半径曲线段路侧事故概率预测模型,可以预测1~5个风险变量影响下的路侧事故概率。除了二项分布及贝叶斯等方法,灰色、时间序列及回归分析等预测模型都可用于道路事故预测,但上述模型无法解释道路事故中各风险因素的非线性关系,准确性较低。除此之外,苏晓智等[12]对高速公路纵面线形事故风险概率进行了研究;孟祥海等[13-14]构建了山岭重丘区高速公路事故预测模型。 人工神经网络预测模型目前主要应用于道路事故预测。陈海龙等[15]利用英国利兹市的公开交通事故数据集,从微观层面验证了改进神经网络预测模型在交通事故方面的准确性;孙科达[16]和叶枫等[17]基于遗传算法的BP神经网络模型从宏观层面对道路交通事故预测进行了研究。基于人工神经网络的道路事故预测模型更适合处理非线性多输入多输出的复杂问题,并提高预测的精确度。 以上研究在不同类型道路路侧事故的研究中均取得了一定的成果,但针对本研究中的“山区”、“多桥隧”特殊路段在风险源挖掘及预测模型构建方面有所不足,仅仅分析了山区高速公路及其他类型公路的风险因子,没有考虑山区多桥隧段由于路基-桥梁-隧道的频繁过渡给驾驶员带来的影响,因而建立的风险指标体系有所缺陷,且路侧事故预测模型多运用贝叶斯网络、负二项回归等传统概率预测方法,该类方法不能充分说明多因素之间的非线性关系[18]。因此,本研究基于神经网络探讨山区高速公路多桥隧段路侧事故致因的非线性关系,从而建立更为完善和可靠的山区高速公路多桥隧段路侧事故预测模型。 国内外学者在对路侧安全的影响因素分析中构建了多种路侧安全评价模型,在对路侧安全的研究中发现了多种路侧事故风险指标,并将其用于路侧事故预测。Jalayer等[19]运用可靠度分析方法对乡村双车道公路的路侧安全隐患进行了评估,认为路肩宽度、边坡、障碍物距车道宽度以及路侧物体密度是影响路侧安全的主要因素;Roque等[20]基于安全收益和成本的计算机辅助程序进行了路侧安全评价,发现路侧道路几何特征、实时交通量、驾驶员驾驶习惯及路侧障碍物特征等因素会影响路侧安全;高海龙等[6]采用了泊松、负二项、零堆积泊松及零堆积负二项4种统计概率分布用于路侧安全评价,发现平曲线、纵坡、交通量及货车比重是影响路侧安全的重要因素;张铁军等[7]研究发现交通量、货车比例、平曲线用长度加权的弯曲度、所在地域对双车道公路普通路段的路侧事故率有较大影响;马壮林等[8]通过定长法和不定长法划分高速公路,发现定长法中曲度、曲线比例和车道数对路侧事故起数有显著正影响,曲率变化率和平均纵坡坡度对路侧事故起数有显著负影响,不定长法中曲线比例、弯坡组合和车道数对路侧事故起数有显著正影响,纵坡坡度对路侧事故起数有显著负影响;程国柱等[4]利用CHAID决策树技术发现对公路小半径曲线段外侧车道路侧事故影响程度最大的风险因素为车速,其次为圆曲线半径、车型、路面附着系数和硬路肩宽度;吴晓峰等[21]研究发现路面附着系数、视距及路肩宽度等因素是影响路侧安全的主要因素。 综上所述,普通高速公路及其他类型公路路侧事故的发生主要受道路线形、交通量、交通环境的影响,其风险因素会对驾驶员的视觉特性、操作特性、生理特性及驾驶心理等产生影响。如表1所示,相关研究表明道路线形(圆曲线、纵坡、陡坡等)、交通构造物(隧道、桥梁、互通)及天气条件(雨、雪、雾)会影响驾驶员视距、操作及驾驶心理,交通环境(交通量、交通组成)对车辆速度、驾驶员心理及操作有重要影响。 表1 预测指标对驾驶员影响研究 续表1 山区高速公路“多桥隧段”的特点,会影响驾驶员的视觉特性和生理特性,进而导致路侧事故的发生。对驾驶员视觉特性的研究主要集中在视距感知、注视、扫视及瞳孔面积等方面,相较于普通路段,驾驶员在隧道路段的注视时间更长,注视点位置在水平位置更广,在垂直方向更集中,扫视更频繁,幅度更小[15]。本研究根据《公路项目安全性评价规范》(JTG B05—2015),并结合普通高速公路路侧事故风险指标与山区高速公路多桥隧段的风险分析,假设驾驶员都以规定设计的安全速度行驶,考虑其他因素在安全速度下对路侧事故的影响,从道路线形、交通构造物、交通环境及气象条件4个方面,选取了路段长度、圆曲线(弯道)比例、陡坡比例、纵坡比例、桥梁比例、隧道比例、互通比例、年平均日交通量(AADT)、客货车比例及雨雪雾天气比例共10个解释变量建立山区高速公路多桥隧段路侧事故预测模型。其中,指标比例=指标长度/路段总长,预测指标体系见图1。 图1 预测指标体系 为分析响应变量与解释变量之间的相关性,确定响应变量的可靠性和解释变量的独立性,本研究选取Spearman(斯皮尔曼)相关系数法进行分析。斯皮尔曼等级相关系数是用于评价两个指标之间相关性的一种统计学方法,其无需考察指标的样本规模或总体分布特性,具有快捷、稳定的特点。定义随机变量X,Y之间的斯皮尔曼等级相关系数如下: (1) 式中,ρ为斯皮尔曼等级相关系数;n为数列点数;di为X与Y之间的等级差;分子为两个序列之间的误差之和,反映两个变量之间的差异;分母为与序列长度相关的1个常数。 将分析处理后的变量用于路侧事故预测,由于各变量之间的量纲和数量级不同,因此,在利用神经网络模型训练之前需将输入和输出变量参数进行归一化处理,其公式为: (2) 式中,Pn为归一化之后的值;p为样本值;pmin,pmax分别为样本值所在列的最小值和最大值。 对山区高速公路多桥隧段风险变量数据进行归一化处理后,神经网络的预测结果更加可靠和准确。本研究采用基于BP神经网络的山区高速公路多桥隧段路侧事故预测方法,并通过具备全局寻优及收敛速度较快的遗传算法和粒子群算法来改进容易陷入局部最优及收敛速度慢的BP神经网络,并选用精确度更高、误差更小的优化算法预测山区高速公路多桥隧段的路侧事故。 图2 多桥隧段路侧事故网络拓扑结构 遗传算法是一种通过全局搜索寻找最优解的方法,通过优化BP神经网络的初始权值和阈值,可以有效地解决BP神经网络容易陷入局部最小值的问题[32],其具体步骤如下: Step 1随机初始化种群。个体编码采用实数编码的方式,每个个体由输入层与隐含层连接权值、隐含层阈值、隐含层与输出层连接权值以及输出层阈值构成实数串。 Step 2确定适应度函数。根据BP神经网络的初始权值和阈值,使用样本集数据对BP神经网络进行训练,以BP神经网络输出值与期望输出值的误差平方和作为个体适应度评价标准,适应度函数F的表达式如下: (3) 式中,N为样本个数;yi为期望输出值;y′i为预测输出值。 Step 3选择操作。遗传算法采用轮盘赌注法进行选择,从种群中选择若干个体作为双亲用于繁殖后代。每个个体i被选择的概率pi为: (4) 式中,c为种群个体数目;Fi为个体i的适应度。 Step 4交叉操作。采用实数交叉的方法,2个配对的个体以交叉概率Pc交换其中部分基因,从而形成2个新个体。则第k1和第k2个个体在第j位基因交叉操作方法如下: (5) 式中,gk1, j和gk2, j分别为第k1和第k2个个体在第j位的基因;r为[0,1]之间的随机数。 Step 5变异操作。以1个比较小的变异概率pv选择第i个个体的第j个基因gij进行变异,从而增加种群的多样性,其操作方法如下: (6) 式中,gmax和gmin分别为基因gij的上界和下界;s为当前迭代次数;smax为最大进化次数;r1为1个随机数;r2为[0,1]之间的随机数。 Step 6计算适应度函数值。通过选择、交叉、遗传操作得到对应个体的最优适应度,并将最优权值和阈值输出网络,用测试样本检验预测模型的精度。 相比于遗传算法,粒子群算法参数少、原理简单,能加快收敛速率,能在全局搜索空间寻找最优解。运用PSO算法优化BP神经网络,可以有效避免算法陷入局部最小值,加快收敛速率,提高模型的准确性、收敛性[33],其具体步骤如下: Step 1初始化粒子群。系统随机生成一定数量的个体表示BP神经网络模型中所有权值和阈值的集合,粒子群个体搜索空间的维数d等于BP神经网络中所有权值和阈值的数量之和,如下所示: d=ml+lm+l+n, (7) 式中,d为粒子群个体搜索空间的维数;m为输入层神经元个数;n为输出层神经元个数;l为隐含层神经元个数。 Step 2更新粒子位置速度。训练所有粒子,计算粒子群的适应度函数,适应度函数值越小,适应度越高,不断调整每个粒子的位置和速度,适应度函数如下: (8) 式中,M为训练样本的个数;Ppx,Ppy,Ppz分别为第p个样本在X/Y/Z方向的预测输出值;Tpx,Tpy,Tpz分别为第p个样本在X/Y/Z方向的期望输出值。 粒子的速度可以根据其个体最优解和全局最优解进行更新: v(t+1)=ω·v(t)+c1·r1·[pbest(t)-x(t)]+ c2·r2·[gbest(t)-x(t)], (9) 式中,v(t+1)为第t+1代种群粒子的速度;v(t)为第t代种群粒子的速度;x(t)为第t代种群粒子的位置矢量;pbest(t)为d空间第t代种群中第i个粒子的最优位置,即个体最优解;gbest(t)为第t代种群中的最优位置,即全局最优解;ω为惯性权重;c1和c2为学习因子;r1和r2为[0,1]之间的随机数。粒子位置的更新为: x(t+1)=x(t)+v(t+1), (10) 式中,x(t+1)为更新后第t+1代种群粒子的位置。 Step 3输出最优粒子。给定PSO算法的终止条件,一是当种群粒子的适应度值小于给定值ε时停止算法,二是当种群进化次数达到上限T时停止算法,三是当连续几代最优适应度的差小于给定值ε时,PSO算法终止。算法停止,输出全局最优权值和阈值。 Step 4神经网络模型训练。将最优权值和阈值输入神经网络,利用样本数据训练网络,检验模型的精度。 为验证BP,GA-BP,PSO-BP神经网络模型在山区高速公路多桥隧段路侧事故预测中的优越性和合理性,本研究以渝湘高速公路白马至龙潭段为依托,统计其区间14个路段近5 a的事故数据,评比并建立事故预测模型。白马至龙潭路段设计时速为80 km/h,全长253.52 km,桥梁长度52.75 km,隧道长度98.3 km,路段总体桥隧比高达60%。白马—武隆、武隆—黄草、黄草—彭水西、彭水西—彭水东、彭水东—保家、黔江西—黔江南的桥隧比更高达70%~90%,为典型的超多桥隧段路段。除此之外,受山区地形地貌的影响,不良线形路段占比较高,恶劣天气发生频繁,行车环境较复杂,路段基本信息如表2所示。本研究将桥隧比定义为[34]:桥隧比=[(桥梁里程+隧道里程)/路段总里程]×100%。 表2 路段基本信息 为分析车辆在路段的路侧事故黑点,优化改善路段的路侧设施,提取事故形式为侧翻、侧面相撞及碰撞固定物的路侧事故数据。统计发现,路段共发生1 649起事故,其中路侧事故共发生815起,占事故总数的49.42%;事故车辆包括小、大客车,小、中、大、特大型货车,共639辆客车和273辆货车。整理路侧事故解释变量3 a的年平均日交通量、客货比,通过中国气象网,统计路段涉及的武隆、彭水、黔江及酉阳的2014—2016年的年均雨雪雾恶劣天气数,其数据如表3所示。 表3 事故数据统计 路侧事故黑点路段的设施优化不仅受到事故起数的影响,客车和货车发生路侧事故的数量对路侧设施的选择也有重要作用。2014—2016年路侧事故起数及客、货车事故数如图3所示,在图3中(相同数据抖动),路侧事故起数不等于货车事故数量与客车事故数量之和,这是由于车辆之间的相互作用,一起事故可能涉及多辆客货车。在2014年的黔江西—黔江路段,货车事故数量多于客车事故数量;2014年的保家—黔江西路段、濯水—阿蓬江路段,2015年的黔江西—黔江路段、阿蓬江—黑水路段,2016年的黔江南—濯水路段、阿蓬江—黑水路段,客货车事故数量相当。 图3 2014—2016年路侧、客货车事故数 路侧事故的发生与每个解释变量之间有一定关系,为了识别各解释变量对路侧事故的影响,克服神经网络无法为每个因素生成系数的缺点,本研究采用Spearman(斯皮尔曼)对各变量间的相关性进行分析。Spearman的秩相关系数是一个非参数指标,其通过单调函数(线性或非线性)评估两个变量间的统计相关性。如果数据集中没有重复值,当每个变量都是另一个变量的完美单调函数时,Spearman的秩相关系数为+1或-1。渝湘高速公路路侧事故影响分析中涉及3个响应变量,10个解释变量,共13个变量,其秩相关系数如表4所示,为了方便观察,将其用相关性热图表示,见图4。 图4 相关性热图 表4 相关性分析 如果Yi随xi的增加而增加,Spearman的等级相关系数为正;反之,如果Yi随xi的增加而减少,则系数为负。当Yi与xi完全单调相关时,系数的绝对值为1。在相关性分析中,包括3个响应变量和10个解释变量,在相关性热图中,带有斜线的方格表示两个变量之间的负关系,相反,无斜线填充的方格表示两个变量之间的正关系,饱和度越高,颜色越深,两个变量之间的相关性越强。路侧事故起数、客车事故数量、货车事故数量与路段长度、弯道比例、桥梁比例、年平均日交通量、客货比及雨雪雾天气比例呈正相关,路段长度对路侧事故的影响最大,这是非常符合事实的;而在图中还显示了响应变量与陡坡比例、纵坡比例、隧道比例及互通比例呈微弱的负相关,这说明路侧事故的发生是多因素共同作用的结果,不能用单一的解释变量分析路侧事故发生的原因。 (1)BPNN模型 神经网络模预测型可综合多个因素的影响,准确判断路侧事故的发生。将表2和表3中2014—2016年14个路段共42个样本数据作为BP神经网络的训练和测试样本,选取其中32个样本作为训练样本,10个样本作为测试样本输入BP神经网络中进行训练。根据经验公式确定隐含层节点数范围为[5,15],经试错法得到隐含层节点数为7时预测效果最佳。隐含层的传递函数采用S型正切函数tansig,输出层传递函数则采用线性函数purelin。初始化参数中,模型最大迭代次数为100,目标精度为0.000 001,学习率为0.1。2014—2016年渝湘高速公路14个路段的路侧事故数、客车事故数、货车事故数的BP神经网络预测结果见表5。 (2)GA-BPNN模型 利用遗传算法优化神经网络时调用了GAOT工具箱,初始化参数中,种群规模为20,进化次数为10,交叉概率为0.4,变异概率为0.04。遗传算法将优化后的权值和阈值输入BP神经网络进行训练,2014—2016年渝湘高速公路14个路段的路侧事故数、客车事故数、货车事故数的预测结果见表5。 (3)PSO-BPNN模型 PSO算法中,设定粒子种群规模为20,学习因子c1=c2=1.49,进化次数为5,惯性权重为0.95。基于PSO-BP神经网络,2014—2016年渝湘高速公路14个路段的路侧事故数、客车事故数、货车事故数的预测结果见表5。 为了进一步验证3种模型对山区高速公路多桥隧段路侧事故预测的准确性及可靠性,并评比模型中误差更小、稳定性更高的神经网络模型,本研究采用平均绝对误差MAE、均方根误差RMSE及平均绝对百分比误差MAPE分别对BP神经网络预测模型、GA-BP神经网络预测模型和PSO-BP神经网络预测模型的误差和稳定性进行分析[35]。3种评价指标数值越小,越接近于0,证明模型误差越小,稳定性越好,预测效果越精确。其中,平均绝对百分比误差MAPE超过100%,则模型存在异常值,该模型不可用。3种方法的评价结果见表5。 (1)平均绝对误差: (11) (2)均方根误差: (12) (3)平均绝对百分比误差: (13) 从表5中平均绝对误差指标可以看出,PSO-BP神经网络预测模型对路侧事故、货车事故、客车事故预测结果的平均绝对误差值分别为6.940,5.340,3.501,低于其余两种模型的误差值。从表5中均方根误差指标可以看出,PSO-BP神经网络预测模型对路侧事故、货车事故、客车事故预测结果的均方根误差值分别为7.297,7.272,4.370;相比于BP神经网络预测模型的均方根误差值降低21.19%,30.26%,20.61%,相比于GA-BP神经网络预测模型的均方根误差值降低8.54%,25.88%,4.5%,故PSO-BP神经网络模型预测稳定性明显优于其他两种预测模型。从表5中平均绝对百分比误差指标可以看出,3种模型均未超过100%,无劣质模型;PSO-BP神经网络预测模型对路侧事故、货车事故、客车事故预测结果的平均绝对百分比误差值分别为38.551%,30.746%,43.056%;相比于BP神经网络预测模型的平均绝对百分比误差值降低18.36%,56.22%,16.34%,相比于GA-BP神经网络预测模型的平均绝对百分比误差值降低16.13%,40.68%,-2.8%,故PSO-BP神经网络预测模型更优。综合来看,3种模型的准确性及稳定性为:PSO-BP神经网络预测模型>GA-BP神经网络预测模型>BP神经网络预测模型。 表5 预测结果 从图5中山区高速公路多桥隧段路侧事故、客车事故及货车事故的预测值可以看出,PSO-BP神经网络预测模型预测结果的变化趋势与实际值的变化趋势最为接近,其次是GA-BP神经网络预测模型,最后是BP神经网络预测模型,可见PSO-BP神经网络预测模型更能反映未来山区高速公路多桥隧段路侧事故的变化趋势。 图5 测试样本预测值 对比相关研究,段萌萌等[34,36]针对山区高速公路多桥隧段选取路段长度、桥梁比例以及隧道比例作为解释变量,以事故数及事故率作为响应变量,构建了多元非线性回归预测模型和IHSDM(交互式道路安全设计模型)预测模型。建立的多元非线性回归预测模型拟合度为0.9,但其未考虑道路线形及气象条件等相关风险因素及因素之间的相互作用,而IHSDM预测模型在2014,2015年及2016年的预测相对误差分别为51%,44%,31%,与实际结果偏差较大。本研究中最优PSO-BPNN预测模型拟合系数为0.87,且相对误差较低,相比于多元非线性回归预测模型以及IHSDM预测模型,考虑的因素更多,预测精度更高,更适用于山区高速公路多桥隧段路侧事故预测。 (1)综合考虑山区高速公路多桥隧段路侧事故频发的特点和规律,针对“山区”、“多桥隧段”特征,从道路线形、交通构造物、交通环境及天气条件4个方面,选取了路段长度、圆曲线比例、陡坡比例、纵坡比例、隧道比例、桥梁比例、互通比例、年平均日交通量、客货比及雨雪雾天气比例10个预测指标。通过Spearman相关性分析,路侧事故、客货车事故与路段长度、弯道比例、桥梁比例、年平均日交通量、客货比及雨雪雾天气比例呈正相关,路段长度对路侧事故发生的影响程度最大,且路侧事故的发生不能用单一指标解释,其受到10个指标的综合影响。 (2)在渝湘高速公路近5 a的事故数据下,建立了BP,GA-BP,PSO-BP这3种神经网络路侧事故预测模型。PSO-BP神经网络预测模型对路侧事故、货车事故、客车事故预测结果的平均绝对误差值分别为6.940,5.340,3.501,均方根误差值为7.297,7.272,4.370,平均绝对百分比误差值为38.551%,30.746%,43.056%。相比BP神经网络预测模型和GA-BP神经网络预测模型,PSO-BP神经网络预测模型的MAE,RMSE,MAPE误差指标平均降低18.5%,17.65%,24.16%,在山区高速公路多桥隧段路侧事故中的预测精度和稳定性方面更优,且对比相关研究,风险指标体系更完善,预测精度及适用性更高,可对未来山区高速公路多桥隧路段的路侧事故起数、客车事故数量及货车事故数量进行预测,对于优化路侧设施有一定的指导意义。 (3)本研究建立的山区高速公路多桥隧段路侧事故预测模型具有一定的价值,但对风险源的挖掘尚有不足,在未来的研究中,可以进一步分析风险源,利用仿真分析,选取适合预测结果的路侧设施,提高交通安全。1 预测指标选择
2 人工神经网络预测模型概述
2.1 BP神经网络模型
2.2 GA-BP神经网络模型
2.3 PSO-BP神经网络模型
3 实例分析
3.1 路段概况
3.2 数据分析
3.3 神经网络预测模型
3.4 试验结果及分析
4 结论