APP下载

基于机器学习的危险货物道路运输事故影响因素分析*

2020-03-01沈小燕魏珊珊冯煜清

交通信息与安全 2020年5期
关键词:决策树货物危险

沈小燕 魏珊珊 冯煜清

(长安大学汽车学院 西安 710064)

0 引 言

大部分危险货物需通过道路运输。据统计,2018年,我国危险货物运输量约为18.6亿t,其中80%以上通过公路运输[1]。危险货物具有毒害、腐蚀、爆炸、燃烧等复杂的理化特性,事故发生后通常会衍生出更为严重的二次伤害,破坏生态环境、增加人员伤亡以及财产损失。开展危险货物道路运输事故严重程度影响因素的探究可以更好地了解危险货物道路运输事故相关的风险因素,为制定专业、有针对性且有效的缓解和预防措施提供理论依据。

关于危险货物道路运输的研究已经开展了大量工作,但主要集中于运输经济性上[2-5],在危险货物道路运输事故上关注较少,而且,大部分文章侧重于描述事故的特征,很少讨论危险货物道路运输事故分析的方法以及影响事故严重程度的因素。A.Iranitalab等[6]指出研究道路交通事故严重性建模和预测技术主要分统计模型和数据挖掘技术2类。C.Samuel等[7]运用统计方法分析危险货物运输事故,确定了危险货物类型、道路类型、车辆类型、地区等对事故严重程度的影响。Yang等[8]采用F-N曲线描述了危险货物道路运输事故中伤亡情况与发生概率之间的关系,确定事故中受影响的人数。Zhang等[9]统计了1 632起危险货物事故的发生时间,地点分布,事故类型和事故后果对事故原因进行分析。但统计模型需要依赖自变量和因变量之间预先定义的数学公式,一旦违反了预设的公式,就可能导致对相关影响因素的误判,尤其是在环境更为复杂的危险货物道路运输事故的研究中[10]。此外,如果一些影响事故严重性的变量没有被收集到,且没有被解决,也可能导致不恰当的推论,从而难以用统计方法来剖析危险货物道路运输事故严重程度与各自变量之间的关系[11]。相比较而言,机器学习算法不需要用数学函数定义任何自变量和因变量之间的关系,并在处理偏僻、嘈杂和缺失的数据时更加完善,在中国危险货物道路运输事故信息处理中可能具有更好的适用性[12]。A.T.Kashani等[13]基于数据挖掘方法对摩托车后座乘客碰撞严重性影响因素进行了分析,发现地区类型、土地使用和受伤身体部位是影响摩托车乘客死亡的显著因素。S.Mafi等[14]利用在市区信号灯路口收集的碰撞数据,采用成本敏感的数据挖掘模型确定了驾驶员、车辆、道路、环境和碰撞类型显著影响驾驶员伤害的严重程度。

总的来说,关于研究危险货物道路运输事故严重程度的论文有限,而且过去的研究主要集中在对少量样本使用统计方法描述事故的特征,很少探讨危险货物道路运输事故的分析方法以及对某一严重程度进行单独分析。鉴于此,本文将对比决策树C5.0、支持向量机和多层感知器3种机器学习算法的分析性能,进而选择性能最佳的方法用于探索导致不同严重程度的危险货物道路运输事故发生的主要因素。本文的目标如下。

1)探索研究危险货物道路运输事故的最佳数据分析法。

2)确定影响不同严重程度的危险货物道路运输事故发生的主要因素。

3)对我国危险货物道路运输中需要改进的方面进行总结,就改善危险货物道路运输安全性提出具体建议。

1 分类技术

1.1 决策树C5.0

该算法根据能够带来最大信息增益的字段拆分数据,这一过程重复进行直到数据无法分割,并在最后剔除对事故严重程度分类没有显著影响的子集。同时,决策树C5.0算法引入了Boosting思想提高模型性能。在建模阶段,Boosting技术通过对现有加权样本的反复抽样模拟增加危险货物道路运输事故的样本量,整个过程进行K次迭代,建立了K个模型。第一次迭代每个样本被选入训练样本集的权重相同,模型建立完毕后,重新调整各个样本的权重,使他们进行第二次迭代,权重调整的原则是:上次未能正确预测的样本权重增大,上一次预测正确的样本权重减小,接下来以此类推,样本权重越大,其被选入训练样本的可能性越大。在投票阶段,Boosting对经过K次迭代而产生的K个模型,采用加权投票方式,不同模型按其误差大小确定权重,误差大的权重小,误差小的权重大,这样经过加权的结果更为稳健[15]。

决策树C5.0的算法过程如下。T为训练样本,属性X有n个值,将训练样本T划分成n个子集T1,T2,…,Tn,样本总数为 |T|。freq(ci,T)表示属于类的样本数量表示ci在样本中的概率。

训练集T熵的计算为

计算出各子集的熵,依据式(2)计算出T的期望信息

根据具有最大信息增益的属性来划分每个子集,特征X的信息增益的计算过程为

为自动避免因事故数据分类水平太多以及信息熵减小过快的特征影响模型性能,引入分支度(IV)概念,来对信息增益的计算方法进行修正。IV计算公式见式(4)。

信息增益率作为选取切分字段的参考指标的计算见式(5)。

1.2 支持向量机

支持向量机的分类思想是寻找1个超平面将样本空间分成2个部分,分别对应二分类问题中的2类,同时极大化2类样本的间隔,待预测样本的类别由其所处样本空间的位置来决定。支持向量机算法最初是在线性可分的情况下提出的,对于线性可分的训练样本集式中:l为样本空间的维数;xi为输入样本;yi为样本类别;H为超平面,其表达式为ωx+b=0,H1,H2为与超平面平行且过2类样本中与超平面最近的直线,H1,H2之间的距离称为分类间隔,大小为,支持向量机是在2类样本中找到使得分类间隔最大的超平面,即‖ω‖最小[16]。求解样本集最优问题

由最优解ω*和b*确定的分类面,其决策函数为

在线性不可分时,引入松弛变量ξi≥0,同时引入惩罚因子C,则最优问题转换为

对于线性不可分数据集将其映射到一个高维特征空间,在高维空间中进行线性分类,为避免高维空间中的复杂计算,支持向量机采用核函数K代替内积计算,最终的决策函数为

本文中选用的核函数为径向基和函数(RBF)

1.3 多层感知器

具有反向传播监督学习算法的前馈多层感知器由简单的相互连接的神经元或节点组成,一般包括1个输入层,1个或多个隐藏层和1个输出层,见图1。

图1 网络结构Fig.1 The basic structure of a neural network

输入层接受特征向量的输入。隐藏层用来对输入特征多层次的抽象,实现对不同类型的数据进行更好的线性划分。输出层对输入层信息进行判别。在事故严重程度分类中,输入层为各事故样本的特征数据,输出层为各事故所对应的严重程度。

多层感知器网络中每1个节点与前1层或后1层互联,其结点值通过相互间的联结权重确定,这些权值和输出信号是1个简单的非线性传递或激活函数修改的节点输入和的函数,通常在多分类时选用softmax作为激活函数[17]。反向传播监督学习算法在传播过程中会将误差信号返回,通过修正各层神经元的权值,使得网络的总误差收敛到极小,直到代价函数下降到可接受的容限值。

2 模型对比分析

2.1 数据说明

本文选取了由应急管理部危险化学品登记中心统计的发生在2015—2019年间的1 411条危险货物道路运输事故数据。值得注意的是,由于原始数据存在一些缺陷,因此在数据应用于数学模型之前,通常需要进行预处理。

本研究中的预处理过程包括数据清洗和数据平衡2个部分。数据清洗主要是从数据集中剔除与研究无关的噪声数据和那些彼此密切相关的特征[17],经过数据清洗,最终“缩减”后的1 267个样本中,事故类型(直接事故形态、间接事故形态),驾驶员属性,车辆属性,道路属性,环境属性,危化品类别作为模型的特征属性,根据伤亡人数划分的事故严重程度作为分类目标。综合各国和地区对事故严重程度的分类标准,本文将事故的严重程度划分为,仅财产损失事故S1、受伤事故S2和死亡事故S3,这3个等级,分别占总事故总量的39.11%,54.37% 和6.52%。在对数据进行编码后用于事故严重程度影响因素的探索,具体编码情况见表1。由上述统计结果可知,3种不同严重程度的事故量分布很不均匀,这会对分析结果造成一定偏差。在本研究中,采用欠采样和部分过采样相结合的方法来平衡这种偏差,每次选取全部的83例死亡事故,同时对伤亡事故和仅财产损失事故分别抽取同等数量的样本。将他们合并成1个新的数据集后进行建模分析,并进行5倍交叉验证[18]。

表1 变量定义Tab.1 Variables definition

2.2 模型评估

为了确保公平比较,所有模型都基于相同的训练集进行训练,并在相同的验证集上进行测试。

混淆矩阵及其相关指标用于评估本研究中分类器的表现。表2为2分类时的混淆矩阵。

表2 混淆矩阵Tab.2 Confusion matrix

通常,分类器评价指标主要包括准确率(ACC)、精确度(Precision)、召回率(Recall)、F-Measure和ROC曲线下面积(AUC)[20],各评估指标的具体含义及评估标准见表3。

表4为事故数据在不同模型上的分类结果以及各评估指标的计算结果。由此可知,决策树C5.0的分类性能整体上优于其他模型。因此,本文决定使用决策树C5.0算法对3种不同严重程度的事故数据构建分析模型进行关键影响因素的探索。

3 基于决策树C5.0的建模结果分析

表5为不同严重程度事故在训练集和测试集上的分类性能。由此可知,决策树C5.0分类器在对受伤事故的分类表现上优于仅财产损失和死亡事故,这可能是因为受伤事故规模较大(受伤事故占比54.37%),这也证明了较大的数据量可能获得更好的分类效果。

表3 评估指标及其评估标准Tab.3 Judgment index and criterion

表4 模型评估指标Tab.4 Models assessment results

表5 决策树C5.0建模结果Tab.5 Analysis results of the C5.0 model for three different severities of data

本文依据决策树的决策规则来确定不同严重程度事故的主要影响因素,决策树见图2(a)~(c)。

由图2(a)可知,仅财产损失事故的决策树模型共有3层,7个节点包括4个终端节点。根据其决策规则可知,对于仅财产损失事故的发生,起到显著性影响的因素从大到小依次为直接事故形态、间接事故形态和路段类型。仅财产损失事故发生时的主要直接事故形态为刮擦、泄漏、火灾和其他(节点1,S1=84.9%),此时,其余的直接事故形态多对应于伤亡事故(节点2,非S1=73.6%)。间接事故形态为泄漏时,发生仅财产损失事故的概率约为其他间接事故形态的1.4倍(节点3,S1=92.7%;节点4,S1=66.3%)。在站区内的发生仅财产损失事故的概率约是其他路段的2.6倍(节点5,S1=65.0%;节点6,S1=24.7%),主要是由于站区内车辆行驶速度较低,救援设备更为齐全,事故发生后可以及时获得救援,从而降低了人员伤亡的可能性,由此可知,可通过控制运输车辆的行车速度和提高救援速度来降低事故的严重程度。

由图2(b)可知,受伤事故的决策树模型共4层,11个节点包括6个终端节点。根据其决策规则可知,受伤事故的发生主要受直接事故形态、间接事故形态、路段类型、道路类型和事故发生时间的影响。直接事故形态为侧翻、撞固定物、两车追尾、两车相撞、冲出路面和坠车时发生受伤事故的概率约是其他直接事故形态的5倍(节点1,S2=62.5%;节点2,S2=12.7%)。间接事故形态为泄露和侧翻时发生受伤事故的概率约是其他间接事故形态的2倍(节点3,S2=64.9%;节点4,S2=32.9%)。路段类型为普通路段、桥梁、隧道和出入口时发生受伤事故的概率约是其他路段类型的2.3倍(节点7,S2=28.6%;节点8,S2=66.5%),上述路段类型受伤事故发生概率高的原因主要包括:普通路段是我国道路段的主要类型,大多数事故发生在普通路段上。桥梁处道路空间有限,事故发生后的救援工作较为困难。隧道内外环境存在巨大差异,易导致某些视觉功能障碍,另外,在黑暗和封闭条件下,驾驶员速度感将减弱,容易超速行驶,增加了严重事故发生的可能性。可通过以下措施降低隧道处事故发生的概率及严重性,比如在危险货物运输车辆上贴反光标志(腐蚀性,有毒或爆炸性),提高车辆的可见度,达到对周围驾驶员的警示作用,比如在隧道附近增加减光设施(洞穴外部的植物,隧道棚,喇叭形开口等)减少驾驶员在进出隧道前后所需的明暗适应时间。在省道和国道上发生受伤事故的概率约是城市道路类型的3倍(节点5,S2=7.5%;节点6,S2=22.5%),这可能是由于城市道路上对危险货物的运输有较为严格的监督和检查,而国道和省道会穿过农村地区,在这些地区,监督力度较低,驾驶员易松懈和超速行驶,从而增加了受伤的可能性。发生在07:00—12:00的事故,造成人员受伤的概率约是其他时间段的3.1倍(节点9,S2=36.5%;节点10,S2=11.8%),这主要是因为我国道路运输的高峰时段大约在08:00—00:00,在这段时间内大量车辆进入道路,容易发生追尾或多车相撞的情况造成人员受伤,此外我国部分道路上有危险货物运输车辆夜间禁止通行的规定,进一步降低了夜间事故发生的严重性。鉴于上述发现,我国可推广危险货物夜间禁止通行的政策,并可在早晨加强对危险品运输车辆的监督检查[21]。

图2 分类模型树形结构Fig.2 Classification model tree structure

由图2(c)可知,死亡事故的决策树模型共5层,11个节点包括6个终端节点。根据其决策规则可知,死亡事故的发生主要受直接事故形态,危险品类别,间接事故形态,路表情况和道路线形的影响。直接事故形态为多车相撞、多车追尾和爆炸时发生死亡事故概率约是其他直接事故形态的6.2倍(节点1,S3=6.3%;节点2,S3=38.9%)。危化品类别为氧化性物质、气体和易燃固体时发生死亡事故概率为其他危化品类别的3.8倍(节点3,S3=11.4%;节点4,S3=3.5%),这可能是因为上述物质较为活跃易与其他物质发生反应,导致不易控制的火灾和爆炸事故,从而增加了人员伤亡的可能性。解决此类问题的方法包括:运输主管部门加强对危险货物道路运输安全的监督,严格控制道路运输企业、驾驶员、押运员和装卸员的准入资格,不断提高驾驶员的安全意识,驾驶技能和应对意外事故的能力。车辆设计部门继续进行技术创新,实现车辆和设备故障的预测,自检和报警,应用远程通信网络技术实现车辆,控制中心和救援中心之间的紧密联系,提高紧急救援响应的速度,有效加强安全管理,减少事故的发生。间接事故形态为侧翻、火灾和爆炸时发生死亡事故的概率约是其他间接事故形态的6.1倍(节点5,S3=8.2%;节点6,S3=50.0%)。道路线形为长下坡和急弯时发生死亡事故的概率约是普通坡道的6.5倍(节点7,S3=17.0%;节点8,S3=2.6%),这主要是因为在长下坡处,需要连续制动控制车速,加上危险货物运输车辆较重,减速时需要更大的制动力,易导致制动系统过热,引起制动器故障或轮胎着火、爆裂。弯道处由于较大的离心力以及转弯时液体对罐壁的冲击,罐车将倾向于倾翻,从而导致车辆倾翻,造成人员伤亡。

4 结 论

1)相较于支持向量机和多层感知器模型,决策树C5.0在处理我国现有的危险货物道路事故信息时具有更好的适用性。

2)影响仅财产损失事故发生的主要直接事故形态为刮擦、泄漏、火灾和其他且是其余直接事故形态的3.2倍,间接事故形态为泄漏且是侧翻、火灾和爆炸的1.4倍,路段类型为站区且是其余路段的2.6倍。

3)影响受伤事故的发生的主要直接事故形态为侧翻、撞固定物、2车追尾、2车相撞、冲出路面和坠车且是其余直接事故形态的5倍,间接事故形态为泄漏和侧翻且是其余间接事故形态的2倍,路段类型为普通路段、桥梁、隧道和出入口且是其余路段的2.3倍,道路类型为省道和国道且是城市道路的 3倍,时间为 07:00—12:00且是其他时间的3.1倍。

4)影响死亡事故发生的主要直接事故形态为多车相撞、多车追尾和爆炸且是其余直接事故形态的6.2倍,危化品类别为氧化性物质、气体和易燃固体且是其余类别的3.8倍,间接事故形态为火灾和爆炸且是泄漏和侧翻的6.1倍,道路线形为长下坡和急弯且是普通坡道的6.5倍。

在未来研究中,会不断增加事故样本量和事故特征,提高所获得信息的专业性和准确性,同时不断探索更适用于研究危险货物道路运输事故数据的模型。

猜你喜欢

决策树货物危险
逛超市
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
喝水也会有危险
基于决策树的出租车乘客出行目的识别
拥挤的危险(三)
基于肺癌CT的决策树模型在肺癌诊断中的应用
话“危险”
路遥知马力