雾天高速公路交通安全气象风险模型研究
2022-03-10宋建洋李蔼恂郜婧婧王宇虹
宋建洋,王 志,2,李蔼恂,田 华,2,郜婧婧,王宇虹
(1.中国气象局公共气象服务中心,北京 100081;2.中国气象局交通气象重点开放实验室,江苏南京 210009)
引言
大雾严重威胁高速公路交通运行安全。据统计,我国高速公路交通事故中有15%~25%发生在雾天环境下,同时重大伤亡交通事故中有约1/3与大雾关联,造成的社会影响和经济损失较大,是公安交管部门最关注的气象灾害之一[1-3]。为描述事故发生的不确定性,可利用交通安全风险量化特定区域或路段未来一段时间内的期望事故率(或可能性)[4],以用于提前做好防灾减灾工作部署。
公路交通是我国气象部门专业气象服务的重要领域。随着多源监测资料的综合应用与分析方法的日渐成熟,交通气象业务内容逐渐从气象要素的监测预报向基于影响的风险评价拓展[5],在研究领域也呈现诸多成果。雾或低能见度方面,李蔼恂等[6]综合考虑气象灾害危险性、暴露性、脆弱性和防灾减灾能力,建立了我国主要公路低能见度灾害风险的评估指标体系和权重,并以此开展风险区划和评估研究;林雨等[7]、唐亚平等[8]建立了考虑不同能见度、路况条件或道路交通环境下的公路安全行车速度模型;曲晓黎等[9]选取高影响天气强度、持续时间、风险区划等级、单项车流量、地形、发生时段等因子,建立了河北省高速公路分灾种风险等级预报模型,能够反映当地雾灾对高速公路行车的风险;李岚等[10]、周慧等[11]、吴彬贵等[12]分别对沈大、京津塘高速公路大雾天气气候特征及对交通安全的影响进行了分析探讨。气象综合影响方面,吉延艳等[13]、许秀红等[14]、朱兴琳等[15]在分析影响本省道路交通安全的气象因子特征基础上,分别制定了贵州、黑龙江和新疆的公路交通气象指数或指标体系,以评价气象对交通安全的影响程度;罗慧等[16]、凌良新等[17]利用Logistic回归构建了城市尺度分季节的逐日公路交通事故气象预警模型;丁德平等[18]在相关分析基础上,设计出京津塘高速公路万辆车流交通事故灾害的气象综合指数风险等级指标。
然而,现有研究或将雾、降水、冰冻等气象灾害统筹考虑,或量化结果在时间与空间上的颗粒度较粗、实时性较差,在当下要求日益精准化的气象服务需求前还存在不足。本文以我国雾天交通事故(以下简称“雾事故”)多发高速公路路段为研究对象,采用随机森林等机器学习技术,建立发生时间、能见度、相对湿度、风、气温、变温等多类信息与小时雾事故发生概率的量化关系,从而实现对雾天高速公路交通安全状态的实时评价,以期为高速公路交通安全动态管理和风险防控提供气象支持。
1 资料与方法
1.1 资料与预处理
据2012-2016年全国高速公路交通事故数据统计,江苏境内京沪高速、安徽境内京台高速和宁洛高速的雾天交通事故高发。同时,公路沿线气象观测站网布设较为密集,数据质量较好,并且兼具苏皖地区北部、南部、西部和东部的灾害天气特点,作为研究对象进行分析时具有一定的代表性。
资料时段为2012年1月至2017年3月。交通事故数据来自于公安部交通管理科学研究所,记录了雾天交通事故发生的具体时间及路段信息,其中简易事故786起,一般事故97起。气象数据采用国家气象信息中心提供的公路沿线交通气象观测站及周边国家气象观测站资料,要素包含气温、相对湿度、风、能见度等,监测频次以1h为主,部分站点为10 min或5 min。
利用ArcGIS空间分析技术,以25 km范围内距离最近且观测有效为原则,将事故发生位置与气象观测站进行匹配。经统计,匹配后两者间的平均距离不到7 km,最近距离不到200 m。以1 h为数据集计单元,得到有气象监测信息的有效事故组样本465个。采用配对病例对照方法提取建模数据,其中,病例为事故组样本对应的气象环境特征,对照为没有发生雾事故条件下的气象环境特征。经多次试验,两者配比率采用常用的1:3比例[19]。为剔除混杂因素影响,随机选取对照组数据时考虑以下条件:与事故发生时段一致,与事故发生地点一致,与事故发生日期临近,匹配气象站观测有效。
1.2 模型构建方法
1.2.1 RF⁃RFE算法
随机森林(random forest,RF)是以决策树为基础的集成模型,可以通过对构造的许多决策树结果取平均值来降低过拟合,并保持树的预测能力,有效解决不平衡分类问题[20]。同时,因其能够更准确地处理数值型变量和分类型变量混杂在一起的高维高容量输入数据,常被应用于交通安全预测[21]。
递归特征消除(recursive feature elimination,RFE)是一种以反复构建模型为主要思想的变量选择方法。它以特征重要性排序为基础,通过逐一舍弃最不重要特征,使用剩余变量构建一个新模型并记录性能评价指标值来选择重要变量。其中,获得最高评分的新模型为最优模型,对应输入参数为重要变量。RFE有助于减小冗余信息对算法的影响,加快预测速度,提升分类正确率,或允许可解释性更强的模型。考虑到RF在处理交通安全数据上的优越性,本文使用其作为基模型进行变量重要性排序和模型训练,即随机森林⁃递归特征消除(RF⁃RFE)算法。
1.2.2 风险分级
以模型输出的小时内事故发生概率为指标,参照相等间隔法划分为5个等级,进而从气象因子角度对雾天高速公路的交通安全风险水平进行分析判定。级别含义详见表1。
表1 雾天交通安全气象风险等级划分Table 1 Classification of traffic safety meteorological risk in foggy weather
1.2.3 技术路线
本文的技术路线如图1所示,主要包含1)数据集准备;2)基于RF⁃RFE的重要变量提取与模型构建;3)模型效果评价三部分内容。
图1 技术路线图Fig.1 Technology roadmap
为保证判别结果的准确度,需要对由事故组和对照组构成的数据集进行划分。随机分层选择数据集的90%(1 672个)作为训练样本,剩下的10%(188个)作为测试样本;对训练样本进行9折交叉验证,即其中的8/9(1 486个)作为训练集用于模型构建,1/9(186个)作为验证集用于模型和参数选择。
算法性能的评价指标包含各类别分类精度和AUC分数。其中,AUC分数(area under the curve)为ROC曲线下的面积,等价于从正类样本中随机挑选一个点,由分类器给出的分数比从反类样本中随机挑选一个点的分数更高的概率,最高值为1;更适用于不平衡类别的二分类问题,AUC分数越高,选择的模型性能越好[22]。
2 变量的选取及分析
2.1 雾事故发生特征
雾天交通事故具有显著的时间变化特征。从月度分布来看(图2(a)),除8月份外,研究路段各月均有雾事故发生,并总体呈现冬半年多、夏半年少的趋势特点。事故发生频次在1月份达到峰值,约占全年的20.16%;2月和12月次之,占比分别为18.35%和15.52%。从日变化情况来看(图2(b)),超过65%的雾天交通事故集中发生在05:00~10:00,并在07:00~08:00出现峰值,占比可达20.07%;中午至凌晨时段事故量明显偏少,但对于一般事故,在02:00~03:00和21:00~22:00还分别出现了一个小高峰(图略)。
图2 研究路段发生雾天交通事故的月(a)、日(b)变化特征Fig.2 The characteristics of monthly(a)and daily(b)distribution of fog⁃caused traffic accidents in the studied road section
雾事故发生特征除了受车流量影响外,主要与气象环境背景场关系密切。雾的形成需要大气层结稳定、水汽充足、微风以及恰当的冷却作用。从气候上来看,苏皖地区冬半年近地层多受冷高压控制,夜长且出现无云风小的概率大,地面散热迅速,致使地表温度急剧下降,近地面水汽更容易在后半夜至清晨达到饱和而凝结成小水珠,造成时段内雾天交通事故的高发。
2.2 重要变量筛选
大雾除了会降低能见度,造成驾驶员视觉障碍和心理紧张外,还会通过雾水与积灰、尘土混合以及在冷的道路表面形成一层薄冰而使车辆与路面的摩擦系数减小,是引发雾天交通事故的另一重要原因[23-24]。综上分析并考虑因子累积效应,以时间、能见度、相对湿度、风速、风向、气温与变温等信息的基础及衍生变量构建初始自变量集,利用RF评价特征重要性,结果如图3所示。可见,能见度因素对雾天环境下高速公路交通事故的发生影响最显著,重要程度值达0.23以上;其次是相对湿度与风速,特征重要性分别在0.06和0.04左右;温度类信息中,24 h变温与气温的贡献相对较高,其他特征差别不大,程度值在0.021~0.025之间;风向信息对雾事故影响最小。与气象因子相比,时间信息对于雾天交通事故判别的重要性相对较低,但考虑到事故发生存在的有规律变化,有必要在模型构建时引入发生季节、发生时段等非气象因子。
图3 初始自变量的特征重要性Fig.3 The characteristic importance of initial independent variables
因变量Y是描述小时内是否有雾事故发生的二分类变量,发生与没有发生分别取值1和0。应用RF⁃RFE算法筛选对雾天高速公路交通事故影响较为显著的重要变量,得到11个气象因子和3个非气象因子,具体见表2。
表2 筛选后保留的自变量Table 2 Independent variables retained after filtering
3 建模与结果验证
3.1 模型检验结果
利用2012年1月至2017年3月的样本资料建立RF⁃RFE模型。定义第k个样本的雾天交通事故特征向量u k为
相应的雾天交通事故训练矩阵为
式中,K为训练集样本数量;u k1,u k2,…,u k14为第k个样本的14个输入自变量,对应因变量Y k∈{1,0}。事故发生条件概率计算及状态判定的实现过程如下:构建n棵决策树,通过bootstrap随机采样法有放回地从U中随机抽取K个样本得到每颗决策树的新训练集;在每棵树的每个节点处随机抽取m个自变量,然后从中选择最优特征进行数据拟合,特征分类的阈值通过检查每个分类点确定;将n棵决策树组成随机森林,给出每棵树选择“发生”的概率大小p,对所有树的预测概率取平均值,即为小时雾天交通事故发生概率P;将P≥0.5的样本标识为事故(Y′=1),P<0.5的样本标识为对照(Y′=0)。经参数寻优,n=5 000,m=3。
表3给出了模型的分类精度。在训练样本中,75.4%的事故样本被成功判别,95.4%的对照样本被成功判别,对事故的空报率和漏报率分别为15.5%和24.6%,总体分类正确率为90.4%,表明RF⁃RFE算法在训练时有较好的拟合精度。在测试样本中,模型成功判别出80.9%的事故样本和93.6%的对照样本,空报率和漏报率均为19.1%,总体分类正确率为90.3%,表明RF⁃RFE算法在高速公路雾天交通事故预测方面有较好的精度。另外,模型在交叉验证和单独验证上的AUC分数均为0.953,泛化能力较强,对事故的判识能力趋于稳定。
表3 RF⁃RFE模型雾天交通事故判别精度Table 3 The accuracy of RF⁃RFE model for fog traffic accident discriminant
参照表1,给出雾天交通安全气象风险等级检验结果(表4)。从中可知,随着风险等级的提升,实际发生雾天交通事故的样本数量呈增加趋势,没有发生雾天交通事故的样本数量呈减小趋势,符合交通安全风险等级划分基本原则。经统计,有80.85%的事故样本发生在较高(3级)及以上风险级别内,其中高风险(4级)和极高风险(5级)的比例分别为27.66%和42.55%;有89.93%的对照样本落在极低(1级)和低(2级)的风险级别,其中交通事故概率在0.2以下的极低风险占比可达80.58%。整体来看,RF⁃RFE模型体现出较好的性能,可以对雾天高速公路交通事故发生可能性的危险程度进行有效判别,同时保持了较低的空报,具有较好的实际业务应用价值。
表4 雾天交通安全气象风险模型检验精度Table 4 Test accuracy of meteorological risk model for highway traffic safety in foggy weather
3.2 应用个例分析
2016年2月11日21时起,江苏境内京沪高速、安徽境内京台高速24 h内间断性发生20起简易雾事故。其中,京台高速5起集中爆发在12日11~13时的795~856 km处,影响范围较小,持续时间较短;相较之下,京沪高速江苏段受大雾天气影响更大,多时段、多点出现多起交通事故,主要涉及12日10~20时的901~1 055 km处。
从雾天高速公路交通安全气象风险模型输出结果来看(图4):2月11日21时~12日20时,京沪高速江苏段(以下简称“G2”)的风险等级明显高于安徽境内京台高速(以下简称“G3”)和宁洛高速(以下简称“G36”),这与当日G2多发雾事故的事实相符;另外,临近灾害发生时,超9成雾事故所在路段的风险等级达4级或5级,高于其他无事故时段或路段,模拟结果合理且具有风险提示意义。
图4 雾天高速公路交通安全气象风险模型评价结果(2016年2月11日21时至12日20时,节选)Fig.4 Evaluation results of meteorological risk model for highway traffic safety under foggy weather condition(excerpts from 21:00,February 11,2016 to 20:00,February 12,2016)
从气象风险演变过程来看,G2自第1起雾事故发生的2月11日21时开始自北向南逐步提升,全路段较高的风险等级持续至次日11时,而后开始迅速回落并于13时基本恢复到极低风险级别;但这期间,模型在事故多发的江都中段始终提示高或极高的风险等级,与实际灾情发生的时段和位置有很好的对应关系,能够反映出本次雾天气过程对于区域路网交通安全可能产生的持续性不良影响。
与G2不同,G3的雾天交通安全气象风险基本处于较低水平,仅北段局部路段在2月12日7~13时出现等级阶段性提升的现象;对照事故信息,徐州方向795 km处12日8~9时发生1起雾事故,合肥方向819~826 km处12日11~13时接连发生5起雾事故,正好处于模型输出的4~5级气象风险范围内,证实了评价结果的准确性和风险提示的及时性。
综上所述,基于RF⁃RFE的雾天高速公路交通安全气象风险模型在实际数据验证及个例分析过程中被证实有较高的准确性和可靠性,有助于实现对高风险路段和高风险时段的实时监测预警,为雾天环境下交通安全动态管理与智能控制提供一定的提示信息。
4 结论
本文利用试验路段灾情信息与气象资料,综合考虑事故发生时间及气象环境因素,以小时雾事故发生概率作为表征指标,建立了基于随机森林-递归特征消除算法的雾天高速公路交通安全气象风险模型,以期为交通气象风险预警业务及防灾减灾服务提供技术支撑。结论如下:(1)雾天交通事故存在明显的时间变化,多发生在冬半年、05:00~10:00之间;气象条件中,能见度信息对雾天交通事故的发生影响最显著,然后是相对湿度、风速、气温与变温,最后是风向信息。(2)利用随机森林-递归特征消除算法对21个初始自变量进行优化降维,最终保留11个气象因子和3个非气象因子建立的雾天高速公路交通安全气象风险模型效果最佳。(3)从分类精度来看,模型成功判别出80.9%的事故样本和93.5%的对照样本,空报率和漏报率均为19.1%,AUC分数为0.953;从安全风险来看,分别有42.6%和27.7%的事故样本发生在极高(5级)和高(4级)的气象等级中,有80.6%和9.4%的对照样本发生在极低(1级)和低(2级)的气象等级中;模型预测精度较高,交通安全气象风险等级划分比较合理,从个例分析来看也有较好的模拟效果。
受限于可获取的公路数据条件有限,本文重点从气象角度对试验高速路段雾天交通事故的发生概率及安全状态做出评价,能够为当地交通气象服务及减灾策略制定提供参考。引入车流量、道路线性、车况等交通实测信息,可以继续对模型进行修正和完善,有助于进一步提高评价结果的全面性和精准性。