基于决策树的水上交通事故影响因素耦合分析
2019-01-08张丽丽吕靖
张丽丽,吕靖
(1.山东交通学院国际商学院,山东 威海 264200;2.大连海事大学交通运输管理学院,辽宁 大连 116026)
0 引 言
水上交通安全作为航运业健康发展的前提和基础,一直受到众多学者的关注。近年来,在海事主管机关和专家学者的努力下,水上交通事故总数在逐年下降,但重特大事故却时有发生,给个人和社会造成极大危害。参照交通运输部第15号令《水上交通事故统计办法》中事故严重程度划分标准,重特大水上交通事故包括重大和特别重大水上交通事故。根据著名的“海因里希事故法则”[1],一起重大事故的发生是几种因素累积作用的结果,且不安全因素在重大事故发生前就暴露过多次。重特大水上交通事故也有类似的规律。研究重特大水上交通事故影响因素耦合模式和因素诱发事故的机制,对减少事故危害、提高水上交通安全具有重要意义。
目前关于水上交通事故影响因素的研究成果很多,国外学者除关注事故直接影响因素外,还注重探究海运运费率[2]、经济活动[3]、油价[4]等航运市场条件对事故的影响。CHANG等[5]将集装箱船风险因素分为与信息流、物流和现金流相关的因素,利用问卷调查和随机占优等方法分析因素与事故间的关系,结果表明与物流相关的因素对船舶事故影响最严重。李文华等[6]在构建砂石船水上交通事故影响因素鱼骨图的基础上,利用相关度分析了事故发生月份、船舶单位性质、船舶吨位、船龄等因素对事故的影响,指出在船舶单位性质为个体委托、船舶总吨为400~1 000、船龄为0~4 a、配员3~5人和风力超过7级等因素共同影响下,更容易发生事故。张笛等[7]以长江海事局辖区内船舶事故为研究对象,利用贝叶斯网络分析了船舶类型、船舶吨位、船舶所有人性质、风力等因素与碍航事故间的关系,结果表明,在船舶总吨为5 000以上、季节为枯水期、事故类型为搁浅事故、船舶所有人性质为个体船舶等各单因素影响下易发生碍航事故。胡甚平等[8]引入云理论,对人、船、环境3种因素引发的水上交通事故的耦合机理进行了仿真,结果指出,在单因素作用下环境因素对海上交通系统的风险影响最大,多因素耦合作用下系统风险程度明显上升。贾立校等[9]利用贝叶斯网络分析了人、船、环境3种因素间的耦合作用对事故的影响,结果表明,多因素耦合作用比单因素作用对事故的影响大,包含环境因素的耦合模式对事故的影响较突出,且船舶因素对事故后果的影响较大。刘红等[10]运用粗糙集理论从人、船、环境角度研究了事故类型、事故时间分布、船舶吨位、船舶类型等因素与事故严重程度之间的重要性隶属度关系,结果发现,时段为0:00—4:00、船龄为30 a以上、船舶总吨为0~500 等因素易引发大事故及以上等级事故。此外,还有学者针对事故中人的因素的形成原因[11]和人的因素可靠性[12]进行了研究。可以看出,现有文献研究对象存在差异,如部分学者只针对某一种船型、某一类事故或某一个地区的事故进行研究,且对事故影响因素的总结不够全面,未涵盖人、船、环境、管理及事故自身属性等多个方面,导致研究结果差异性较大、普适性较低。此外,大多数文献将不同严重程度的水上交通事故一概而论,鲜有对重特大事故影响因素的针对性研究,在制定不同严重程度的事故防范措施时缺乏参考依据。
本文的水上交通事故影响因素数据是从历史事故调查报告中获取的,属于高维度、非数值型数据且具有一定的模糊性、缺失性。从数据挖掘的角度,可将重特大事故影响因素耦合模式的提取视为一个分类问题。在众多分类模型中,C5.0决策树算法擅长处理非数值型数据,无需进行数据处理就可直接使用,在面对输入变量很多和数据缺失时表现非常稳健,且模型结果直观、易于理解。此外,C5.0决策树作为分类方法已经得到广泛应用:孙轶轩等[13]以交通事故数据为基础,利用C5.0决策树进行了事故严重程度分析和预测;张宗艺等[14]利用粗糙集与C5.0决策树相结合的方法,对林地质量进行了综合评价;李梦莹等[15]利用C5.0决策树对森林植被进行了分类研究。
鉴于此,本文利用C5.0决策树算法对重特大水上交通事故影响因素的耦合模式进行提取和分析,以期为制定有针对性的事故防范措施提供参考。
1 水上交通事故严重程度影响因素决策树构建
1.1 数据来源及选取
通过查找各海事局官方网站上公布的水上交通事故典型案例和查阅出版的水上交通事故案例书籍和部分海事局提供的事故案例资料获取相关数据。从中国海事局等国家直属海事局、下属省级海事局和市县级海事局官方网站和部分海事局提供的资料中搜集到869份水上交通事故调查报告,从《水上交通事故典型案例集》《海事案例选编》《海上交通事故案例》《长江水上交通事故典型案例(2001—2005)》《长江水上交通事故典型案例(2006—2010)》等多本专业书籍中搜集到342份水上交通事故调查报告,共计1 211份事故调查报告。
因为各海事局和相关海事机构调查报告标准不统一,调查人员本身背景、兴趣、调查目的不一致,还有部分事故因未能及时调查导致事故数据和信息记录不全,所以搜集到的调查报告内容、格式并不一致。为获取完整、可靠的事故数据信息,事故调查报告的选取遵循完整性、权威性、随机性和时效性原则。完整性指调查报告必须符合一定的格式,内容包括事故船舶和船员概况、事故发生时的天气和海况、事故经过、事故原因分析和责任认定、安全管理建议等;权威性指调查报告必须经过国家授权的海事调查机构或者海事管理机构按照国际和国内发布的事故调查标准调查分析后发布,以保证报告内容真实可靠;随机性指在选取事故调查报告时,不有意考虑事故发生的时间、地点、船舶类型和船籍等因素,以保证所提取的事故影响因素间的关联关系不受报告选择的影响;时效性指为避免事故年代跨度较大导致的分析结果的不准确,选取1995—2016年间发生的事故。按照上述原则进行筛选,最终得到939份可用的水上交通事故调查报告。
1.2 事故影响因素集构建及量化
通过访问具有多年航海实践经验的船长、大副、轮机长、大管轮和具有丰富理论知识的海事类院校教师等,结合搜集到的事故调查报告中信息的完整程度,构建包括人的因素、船舶因素、环境因素、管理因素和事故自身属性5个方面共计25个变量的水上交通事故影响因素集,并根据报告内容进行量化处理,见表1。
表1 水上交通事故影响因素集构建及量化
1.3 事故严重程度影响因素决策树构建及分析
从939份水上交通事故调查报告中随机抽取80%的样本作为决策树模型的训练样本,其余20%的样本作为测试样本对模型结果进行检验。将表1所列的事故影响因素集作为输入变量,将一般事故(用1表示)、重特大事故(用2表示)作为输出变量,构建水上交通事故严重程度影响因素决策树。利用基于错误的剪枝(error-based pruning,EBP)法对初步生成的事故影响因素决策树进行剪枝,以简化决策树、降低过度拟合现象。此外,考虑到输入变量多为分类且非二值变量,选择多叉树决策树形态进行决策树构建,以避免二叉树结构造成的信息流失。为保证决策树模型的稳健性,建模中进行训练样本和测试样本的分组和交叉抽样,同时为避免过拟合问题,使用ChiMerge分箱法减少变量的过度分枝。由此建立水上交通事故严重程度影响因素初步决策树模型,利用该模型对训练样本、测试样本进行分类,结果见表2。
表2 初步决策树模型对训练样本、测试样本的分类结果
由表2可以看出,在现有参数条件下利用初步决策树模型所得的结果是可以接受的,但仍有进一步优化的空间。由于C5.0决策树算法的剪枝技术、误判成本值、Boosting(推进)技术对决策树模型的构建和预测准确率的影响较大,所以本文通过多次试验对其进行优化设置,以期获得准确率更高的决策树模型。
1.3.1 误判成本值的选取
误判成本值是对某种误判导致的分类错误所产生后果严重性的反映,值越高表明误判后果越严重。假设模型把重特大事故误判成一般事故的错误为G类错误,把一般事故误判成重特大事故的错误为E类错误,则误判成本值分别用CG、CE表示。本文认为把一件“重特大事故”误判成“一般事故”的后果要严重得多,因此误判成本值的选择标准是在保证总体分类准确率的前提下,尽量减少G类错误。即将模型其他参数设为默认值,将CE固定为1,把CG设定为大于等于1的值并不断提高,根据多次试验得到决策树模型对样本的分类准确率,挑选最佳的CG值。
如表3所示:随着CG值的增加,训练样本总错误率先降后升,在CG=2时取得最小值,同时G类错误率保持稳定下降的趋势;测试样本总错误率和训练样本总错误率趋势基本一致;测试样本G类错误率的升降具有一定随机性。根据上述分析,将CG设定为2,CE设定为1。
1.3.2 修剪严重性的设定
用P表示修剪严重性,即决策树的剪枝程度,P默认值为75。通过对比不同的P值对应的模型结果来选取最佳值,选取标准是在保证模型整体精度的前提下,选择最小的分类错误率对应的P值。此外,为避免过拟合现象应尽量降低决策树复杂程度,即选择节点数较少的决策树。
表3 CG取不同值时C5.0决策树模型的分类错误率 %
如表4所示:随着P值的增加,生成的决策树节点数逐渐减少,决策树复杂程度越来越低,与此同时,训练样本的总错误率和G类错误率均呈上升趋势;在测试样本中,当P=80时,总错误率和G类错误率最低,且决策树节点数大幅减少。基于上述分析,将P设定为80。
表4 不同的P值对应的决策树模型的分类错误率
1.3.3 Boosting技术的运用
Boosting技术是用来为每个样本赋予权重的,样本的权重越高对生成的决策树影响就越大。初始时,所有样本具有相同的权重。随后每经过一次样本训练,样本权重就进行一次调整,其中被前一次生成的决策树模型错误分类的样本将获得更高的权重。经计算,使用Boosting技术后,训练样本总错误率和G类错误率都大幅下降,分别由18.04%、15.98%下降到9.29%、7.09%,但测试样本总错误率和G类错误率却分别有2.22%、6.27%的小幅上升,说明Boosting技术可以较好地提升模型对训练样本的拟合程度,但对测试样本精度没有明显改善。
根据上述分析,将决策树模型CG设为2、CE设为1,将修剪严重性P设为80,并选择使用Boosting技术,最终得到参数调整前后的决策树模型分类错误率对比,见表5。
表5 参数调整前后的决策树模型分类错误率对比 %
由表5可以看出,通过参数调整:训练样本的G类错误率、总错误率均大幅降低,下降幅度分别为4.65%、4.87%;测试样本的G类错误率、总错误率分别下降8.15%、3.70%。这说明参数调整后,决策树模型分类精度得到明显改善。参数调整后得到的水上交通事故严重程度影响因素决策树见图1。
图1 参数调整后的水上交通事故严重程度影响因素决策树
由图1可知,参数调整后的事故严重程度影响因素决策树为深度为10的多叉树型结构,在25个输入因素中,人的因素中的操作违规,船舶因素中的船舶类型、船龄,环境因素中的风、浪,管理因素中的政府部门监督管理充分性、航运企业安全管理充分性,事故自身属性中的时段、船损程度等9个因素集中在决策树的前4层,说明这些因素对事故严重程度的分类影响最大。
为进一步评价决策树模型提炼因素和归纳规律的整体性能和综合优度,计算模型的提升度指标
PL=Pi/j/Pi
(1)
式中:Pi/j为在节点j所属样本空间内输出变量值为事故严重程度分类i的概率;Pi为整个样本空间内输出变量值为事故严重程度分类i的概率。
事故严重程度影响因素决策树模型中重特大事故类别的提升度收益曲线见图2。图2中,横轴表示决策树中节点百分位点,即把决策树中的70个节点从1到70进行排序,并分成100等份,横轴数字0~10表示前7个节点,0~20表示前14个节点,其他的依此类推。由图2可以看出,训练样本和测试样本的提升度收益曲线与最佳提升度曲线的整体趋势基本一致,说明所得决策树对水上交通事故严重程度分类具有较好的提升性能,其中训练样本的提升效果更为明显。由提升度累积曲线和推理规则集可知:决策树浅层节点提升度较高,且对应规则集逻辑条理清晰。规则集显示,船损程度、风、浪、时段、航运企业安全管理充分性、船舶类型、政府部门监督管理充分性、操作违规、船龄是影响事故严重程度分类的最主要因素。
a)训练样本
b)测试样本
2 重特大水上交通事故影响因素耦合模式提取及分析
在构建事故严重程度影响因素决策树的同时,生成推理规则集,每条规则对应着决策树中自上而下的一条非闭合有向路径,分别对应一般事故、重特大事故两种输出变量。部分规则摘录如下:
规则1:如果船损程度为1,浪为4,时段为1、4,监督管理充分性为1,安全管理充分性为1、3,操作违规为1、3,那么事故严重程度类别为2。
规则2:如果船损程度为1,浪为4,时段为1、4,监督管理充分性为1,安全管理充分性为2,那么事故严重程度类别为1。
由于事故发生具有一定的偶然性,为防止提取到偶然性的事故影响因素耦合模式,从全部推理规则集中筛选出观测样本数大于5、置信度水平在70%以上,且输出类别为2的规则进行解读,结果见表6。
在表6的9个模式中,模式1包含的事故样本数最多,共92起,置信水平为95.3%,应作为重点事故防范情境。根据博德事故因果连锁论和轨迹交叉论[16],管理因素通常是事故的深层次原因,船舶、环境、人的因素的不安全状态在一定时间、空间发生的接触,则是事故发生的直接原因。相应地,模式1中的政府部门监督管理严重不足加剧了航运企业安全管理的严重不足,而政府部门监督管理严重不足和航运企业安全管理严重不足在一定程度上增加了船员操作违规的概率,当船舶在0:00—3:59或20:00—23:59时段处于8级及以上浪的恶劣气象环境中时,如果船员操作故意违规引发事故且造成船舶全损,则事故极有可能为重特大水上交通事故,见图3。
表6 重特大水上交通事故影响因素耦合模式
图3 重特大水上交通事故影响因素耦合模式示意图
3 结 论
本文从水上交通事故调查报告中提取事故影响因素集,利用C5.0决策树算法构建事故严重程度影响因素决策树,根据参数优化后得到的最优决策树及相应的推理规则集,提取出9种易引发重特大事故的多因素耦合模式。结果显示,在“船员操作故意违规、浪为8级及以上、政府部门监督管理严重不足、航运企业安全管理严重不足、时段为0:00—3:59或20:00—23:59、事故后果为船舶全损”模式下的重特大事故样本数最多,为92起,置信水平为95.3%,应作为重点事故防范情境。与以往研究相比,本文将重特大水上交通事故作为研究对象,且考虑了人、船、环境、管理及事故自身属性5个方面共计25个事故影响因素,可以较好地识别出易引发重特大事故的因素。引入的决策树模型使得到的结论更直观、具体,为海事主管机关和部门防范重特大事故提供科学、合理的参考。此外,本文在事故数据量化处理时,采用客观整理与主观赋值相结合的方法,在一定程度上造成原始数据信息流失,并使结果受到人为经验的干预。在今后研究中,将尝试寻找一种更为客观、合理的数据量化方法,以获取更精确的研究结果。