河北高速公路交通事故特征及其气象预警模型
2020-05-09曲晓黎张金满
王 洁,曲晓黎,2,张金满
(1.河北省气象服务中心,河北 石家庄 050021;2.河北省气象与生态环境重点实验室,河北 石家庄 050021)
引 言
随着经济的高速发展,我国高速公路通车里程、车流量逐年大幅持续增长,高速交通安全成为社会广泛关注的热点问题[1-2]。河北是京津冀现代化交通网络系统枢纽,特殊地理位置的交通保障对京津冀协同发展至关重要,截至2018年,河北省高速公路里程数达7279 km,升至全国第二位,民用汽车保有量达1964万辆,位居全国第五。然而,不利气象条件是影响高速公路安全运行的重要因素之一[3-7],低能见度、暴雨、暴雪等极端天气诱发的高速公路交通事故往往是灾难性的[8-10]。在全球气候变暖背景下,极端天气气候事件越发频繁,各类不利天气条件对交通运输安全、交通流量与效率的影响愈加凸显,因此亟需开展与之相应的高速公路气象预报预警精细化研究。
近年来,针对气象条件对交通事故的影响开展了诸多研究,主要以不同区域高速路段为对象,分析降水、能见度、温度、风速等气象要素对交通事故的影响比重和气候变化特征[11-17],并基于能量辐射平衡法[18-19]、多元线性回归[20]、逻辑回归[21-23]、层次分析[24]等方法建立高速公路气象预警模型,相应开发了道路结冰、大雾、高温等风险预警服务产品。然而,不同气象要素间存在多重共线性问题,且不同地区气候、地形地貌等差异较大,使得交通事故的影响因子不同,纳入模型的因子也不同,故模型均具有一定的区域适用性。主成分分析法(principal component analysis,PCA ),是对原始观测变量做降维简化处理,可有效消除不同气象要素间的多重共线性问题。
河北省地处中纬度沿海与内陆交接地带,自西北向东南依次为坝上高原、燕山和太行山地、河北平原三大地貌单元,高速路网织密,是京津冀交通一体化的关键环节,高速公路沿线多桥梁、隧道等,受灾害性天气和局地小气候影响,河北省高速交通事故发生率极高,死亡人数位居全国前十。目前,结合地形、路网密度等,得到雾天河北高速公路通行预警指标[25],开展了路面温度特征及预报模型研究[26],然而关于大风、强降水等对交通事故的影响尚未有定论。本文拟利用14种气象要素观测资料和交通事故数据,通过主成分分析方法,筛选出贡献率高的公因子引入二元Logistic回归模型,探究不良天气条件对河北交通事故的影响,分别构建夏、冬半年河北高速公路交通事故气象预警模型,以期为该省高速公路管理部门交通事故的预报预警提供技术参考。
1 资料与方法
1.1 资料来源
使用河北省高速公路交警总队提供的2015年10月至2018年10月全省高速公路109个路段(按照行政区域划分)交通事故资料,包括事故的发生时间、起数、损失类型、所属路段及桩号等信息。
1.2 研究方法
1.2.1 Logistic回归原理
Logistic模型是针对二分类因变量建立的一种概率回归模型,根据样本数据,采用最大似然法估计各参数值,从而求出因变量取值的概率。本文以日交通事故发生概率为因变量y,对事故有显著影响的气象因素为自变量xi,交通事故发生的条件概率为P(y=1|xi)=Pi,建立的Logistic回归模型如下[14,23,27]:
(1)
(2)
式中:Pi表示第i个观测样本交通事故发生的概率;1-Pi表示第i个观测样本交通事故不发生的概率;y表示交通事故有无发生,y=1表示发生,y=0表示不发生;xi为主成分分析筛选出的对交通事故影响较大的气象公因子;α为常量;βi为模型拟合参数,即第i个观测样本的事故发生概率;m为影响因变量的自变量个数。
1.2.2 高速事故预警建模方法的改进及检验
经统计,2015年10月至2018年10月河北高速事故日发生量为1~49起,夏、冬半年事故日发生量的众数均为1起,分别占各样本总数的66.4%和68.9%。将日发生量不高于众数1起的定义为事故低发路段,赋值为0,高于众数1起的则定义为事故高发路段,赋值为1,将Logistic模型因变量y转换成二分类变量。
为使构建的模型具有稳定性和通用性,分别对夏半年和冬半年的样本数据按照7:3进行随机抽样,对应作为训练样本和验证样本,其中夏半年训练样本7927个,验证样本3361个;冬半年训练样本5846个,验证样本2427个。然后,对与高速交通事故相关的14个气象要素进行主成分分析(PCA),筛选对因变量影响较大的因子,提取夏、冬半年公共因子进入模型,利用训练样本估计模型系数,构建夏半年和冬半年高速交通事故气象预警模型,并利用验证样本对模型进行预测效果检验。
2 高速交通事故时间变化特征
从图1看出,河北高速公路夏半年发生的交通事故明显高于冬半年,夏半年事故频数为冬半年的1.4倍,且存在明显的月变化特征。其中,夏半年交通事故最多的是8月(4602起),事故点涉及29条高速公路的103个县区,而最少为6月(2331起),事故点涉及29条高速公路的99个县区;冬半年,除10月事故频次(4905起)极高外(事故点涉及30条高速公路的102个县区),其他月份基本在2000起上下波动,最少为12月(1396起),事故点涉及28条高速公路的95个县区。
相关分析发现,夏半年交通事故与相对湿度和降水量呈显著正相关(通过0.05的显著性检验),相关系数分别为0.81和0.82,且两要素的月变化特征与交通事故基本一致,表明当夏半年相对湿度、降雨量增大时,会引起高速公路摩擦系数下降,导致交通事故增加。冬半年交通事故与能见度和降雨量呈显著正相关(通过0.05及以上的显著性检验),相关系数分别为0.90、0.96,且两要素的月变化特征与交通事故高度一致,说明在冬半年出现降雨(雪)、雾霾等天气过程时,会引起能见度下降,交通事故显著增多。
图2是河北省高速公路夏、冬半年交通事故日变化。可以看出,河北高速公路各时次均有事故发生,事故发生量具有明显的日变化特征,白天远多于夜间,且白天事故量变化显著,呈“M”型分布,峰值出现在10:00和15:00,最高峰与次峰的数值差距不大。对比发现,夏半年各时次的事故频数高于冬半年(18:00除外),事故频数相差105起,且最高峰和次峰值出现时间正相反,夏半年事故最高峰值出现在上午,次峰值出现在下午,而冬半年事故最高峰值出现在下午,次峰值出现在上午。
图1 2015—2018年河北高速公路夏半年(a、b)和冬半年(c、d)交通事故与气象要素的关系Fig.1 Relation between traffic accidents of expressway and meteorological elements in summer half year (a, b) and winter half year (c, d) in Hebei Province from 2015 to 2018
图2 2015—2018年河北高速公路夏半年和冬半年交通事故日变化Fig.2 Diurnal change of traffic accidents of expressway in summer half year and winter half year in Hebei Province from 2015 to 2018
3 影响高速交通事故的气象要素
PCA是把多个相关变量通过线性变换转化为几个相互间完全独立且基本能够代替原有变量信息的综合指标,这些综合指标称为主成分。对河北省高速公路交通事故的训练样本与气象观测数据进行主成分运算,得到夏、冬半年KMO(Kaiser-Meyer-Olkin)检验值分别为0.731、0.696,且Bartlett球形检验统计量的sig<0.01,表明14个气象要素之间存在显著相关,各主成分的方差贡献率和累积贡献率如表1所示。主成分的方差贡献率越大,表示该因子越重要;方差累积贡献率越大,说明提取的主成分代表性越强[24]。为保证方差累积贡献率达85%以上,在夏、冬半年均提取了前5个主成分(累积贡献率分别为88.052%和89.977%)。
表1 夏、冬半年各主成分方差贡献率和累积贡献率Tab.1 Variance contribution rate of each principal component and their accumulative contribution rate in summer and winter half years 单位:%
主成分载荷是变量与主成分的相关系数,载荷绝对值较大的主成分,其与变量的关系更密切,更能代表该变量,而旋转后主成分的载荷分配较未旋转更易解释变量的意义,通过旋转后载荷矩阵可以找到主成分上有显著负载的变量,高负载变量对该主成分影响更大。
表2 夏半年前5个旋转主成分载荷矩阵Tab.2 Load matrix of the first five rotated principal components in summer half year
表2是夏半年14个气象要素对前5个主成分的负载矩阵。可以看出,主成分F1主要在温度要素上有较大的负载值,包括日平均气温、日最高气温、日平均地面温度,故F1主要解释温度类气象要素,称为温度因子;主成分F2在湿度类要素上有较大的负载值,能较好地反映日平均相对湿度和日最小相对湿度2个变量,故F2主要解释湿度类要素,称为湿度因子;主成分F3在08:00—20:00降水量和20:00至次日20:00降水量2个变量上有较大的负载值,反映降水量对高速公路交通的影响,称为降水量因子;主成分F4在日平均风速和日最大风速2个变量上有较大的负载值,故F4可解释风速类要素,称为风速因子;主成分F5在日平均气压上有较大的负载值,反映气压对高速公路交通的影响,称为气压因子。
冬半年前5个主成分也有上述类似的结论(表略),只是温度因子中除日平均气温、日最高气温、日平均地面温度外,日最低气温对F1也有较大的负载值,因此冬半年高速交通事故的影响要素还应包括低温要素。
通过运算得到14个气象要素变量标准化后得分,采用回归法估计主成分得分系数,分别得到夏半年(表3)和冬半年(表略)前5个主成分得分系数矩阵,从而构建前5个主成分关于上述气象要素的得分函数,以F1为例,其公式为:
+0.192Ts-max+0.148Ts-min+0.024R08-20
+0.046vmax
(3)
利用5个主成分的方差贡献率作为权重,对主成分得分进行加权求和,进而得到综合主成分得分zF,其表达式为:
zF=0.37415F1+0.23023F2+0.12797F3+0.07931F4+0.06886F5
(4)
表3 夏半年前5个主成分得分系数矩阵Tab.3 Score coefficient matrix of the first five principal components in summer half year
4 高速交通事故气象预警模型与检验
4.1 Logistic回归模型构建
基于训练样本,分别利用夏、冬半年前5个公因子作为自变量,与交通事故建立Logistic回归模型。表4为进入Logistic回归方程的变量及统计量,其中B为回归模型的线性系数估计值;S.E为回归系数的标准误差;Wals为统计量,用来检验自变量对因变量的影响,其值越大表明自变量的作用越显著;Sig.为显著性水平,其值小于0.05才有统计学意义;Exp(B)反映自变量变动一个单位而引起的发生比Odds的变化率。可以看出,夏半年主成分F1的Sig=0.743,未通过显著性检验,说明在二元Logistic回归方程中温度因子与高速交通事故无显著关系,在构建夏半年高速公路事故Logistic气象预警模型时,不予考虑该主成分;冬半年的5个公因子均通过显著性检验,说明自变量对回归方程的贡献均显著。因此,夏、冬半年的Logistic气象预警模型可表示为:
(5)
(6)
式中:Ps、Pw分别表示夏、冬半年因气象要素影响而发生高速交通事故的概率;Fi(i=1,…,5)为公因子得分。
4.2 Logistic回归模型检验
在Logistic回归模型检验前,以P=0.5为临界点对验证样本进行判定,当P>0.5时,判定高速事故发生,当P≤0.5时则判定高速事故未发生。利用夏半年3361个事故验证样本对模型进行检验,发现在2249个低于或等于事故发生众数的样本中,有5个错判,正确率99.8%,而在1112个高于事故发生众数的样本中,有663个错判,正确率40.4%,综合正确率为80.1%;针对冬半年2427个事故验证样本,在1662个低于或等于事故发生众数的样本中,有11个错判,正确率99.3%,而在1112个高于事故发生众数的样本中,有663个错判,正确率39.5%,综合正确率为80.5%。
综上可见,Logistic回归模型对低于和等于事故发生众数的样本预测正确率极高,正确率均在99%之上,而对高于事故发生众数的样本,错判率较高,这主要是该模型未考虑车道宽度、超载量、车速、车流量、疲劳驾驶、车况等因素的影响。尽管如此,Logistic回归模型的综合正确率均在80%以上,可在高速管理服务应用中提供一定参考。
表4 进入Logistic模型的变量Tab.4 Variables entering Logistic model
5 结 论
(1)河北省高速公路交通事故存在明显的日、月变化。夏半年事故发生量为冬半年的1.4倍,且夏半年事故量月变化幅度相对较小,最多月(8月)是最少月(6月)的1.97倍,而冬半年事故量月波动较大,最多月(10月)是最少月(12月)的3.51倍。夏、冬半年日交通事故均呈“M”型分布,白天远高于夜间,峰值分别出现在10:00和15:00,且夏半年各时次事故量高于冬半年。
(2)主成分分析发现,就气象影响方面,夏半年和冬半年影响高速公路交通事故的5个主成分包括温度因子、湿度因子、降水因子、风速因子和气压因子。由于夏半年的温度因子未通过显著性检验,在构建夏半年Logistic气象预警模型时应不予考虑该主成分。
(3)高速交通事故Logistic气象预警模型,对低于或等于事故发生众数的样本预测精度极高,正确率均在99%之上,而对高于事故发生众数的样本,错判率较高,但夏、冬半年的综合正确率均在80%以上,说明该模型对高速公路交通事故预警业务有一定参考价值。然而,高速公路交通事故影响因子众多,本文事故资料缺少事故原因记录,今后将利用更详细的资料做进一步分析,以期提高模型预测准确率。