基于两步聚类算法的船舶交通事故分析
2022-10-21高鸿飞上海海事大学上海201306
文 高鸿飞(上海海事大学,上海 201306)
一、引言
海上交通安全具有重要意义,而船舶交通事故时有发生,造成人身伤亡,船舶、货物、港口等损坏,以及海洋环境污染。为预防和控制事故的发生,国家水上交通安全管理机关制定了一系列相关的公约、规则、法律、法规及其他规范性文件,然而仍未能有效控制事故发生,重大事故仍然存在。
国内外学者运用了多种方法对船舶交通事故进行分析。张逸飞等[1]利用自回归综合移动平均模型与反馈神经网络的组合预测方法(ARIMA-BP)构建船舶交通事故预测模型,探究船舶交通事故随年份变化的规律;叶子阳等[2]利用贝叶斯网络分析内河船舶交通事故,探究不同事故类型与各方面影响因素之间的关系;张锋等[3]提出了一种关联规则模型,挖掘船舶事故间的强关联规则并分析事故原因;于佳佳等[4]分别运用系统聚类分析法、离差平方和聚类准则分析影响碰撞事故的因素,提出了船舶碰撞后果分析模型,得出了碰撞时排水量、碰撞角度、碰撞速度、碰撞位置对碰撞损失结果影响最为显著的结论;邬惠国等[5]利用模糊聚类的算法,建立碰撞危险度的分类模型,使危险度变得更加直观。然而,上述研究缺少对事故变量相关性的研究,通过引入两步聚类算法,以近六年的船舶交通事故为样本,建立聚类模型,挖掘事故种类与事故原因的相关性以及事故种类、伤亡数、损失等级的相关性。
二、数据采集及统计分析
事故原始数据来源于我国海事局管辖水域的船舶交通事故数据。以近六年的事故数据为基础进行分析,统计范围为2013年3月20日至2019年12月30日,对所有事故逐次进行统计。由于事故具体信息较多,主要选取事故时间、事故种类、死亡数、事故等级、具体原因等属性作为数据挖掘的对象。最终保留739条数据作为聚类分析的原始数据,详见表1。
表1 数据库(部分)
续表
(一)事故种类分析
船舶交通事故是指船舶发生碰撞、搁浅、触礁、触损、浪损、风灾、火灾及其他造成财产和营业损失或人身伤亡的交通事故[3]。因此,收集数据时将事故种类分为碰撞、风灾、火灾/爆炸、搁浅、触礁、触碰、自沉,其余归为其他。对事故种类进行统计分析得出,碰撞事故401起(54.2%);自沉事故106起(4.3%);风灾30起(4.05%);火灾/爆炸27起(3.65%);触碰事故23起(3.11%);触礁事故20起(2.7%);搁浅事故11起(1.48%);其他类事故121起(16.3%),详见表2。
表2 事故种类统计
(二)事故船舶类型分析
事故涉及船舶种类繁多,主要分为以下10类,多用途船、干杂货船、工程船、集装箱船、客船、散货船、砂石运输船舶、油船和危险品船、渔船、其他船舶。事故多发主要是干杂货船、散货船、渔船和砂石运输船舶,分别为223、180、61、48起,占比分别为30%、24%、8%、6%,详见表3。
表3 事故船舶类型统计
(三)事故发生时间段分析
以4个小时为时间间隔,统计各时段内发生的事故数。由表4可知,16点至次日凌晨4点为事故多发时段。其中16点至20点、20点至0点和0点至4点发生事故分别为139、131、160起,总事故数的占比分别为18.8%、17.7%、21.6%,详见表4。
表4 事故发生时间统计
三、两步聚类算法
(一)算法描述
聚类算法是聚类分析的核心,聚类分析是根据划分对象的某些类似的特点,将抽象集合或是物理集合划分为多个不同的类别[6]。通过使用数据挖掘软件(IBM SPSS MODELER 15.0)进行分析,MODELER中的聚类方法有快速聚类/K均值聚类(K-means)、两步聚类和自组织特征映射的网络(Kohonen)。由于两步聚类具有自动确定聚类数、诊断样本的离群点和噪声数据且能同时处理数值型变量和分类型变量的特点,进而运用两步聚类实现数据分析。
两步聚类是一种改进的利用层次方法的平衡迭代规约和聚类(BIRCH,Balanced Iterative Reducing and Clustering using Hierarchies)算法[7]。顾名思义,两步聚类通过2个步骤进行数据分析——预聚类和聚类。预聚类步骤通过BIRCH算法构建和修改聚类特征树(Clustering Feature Tree)实现数据的初始归类[8]。聚类步骤通过对数似然函数对预聚类步骤的结果进行再聚类,从而得到合适的聚类集合[9]。
(二)聚类过程
由于变量较多,为了提高聚类分析结果的准确性,运用两个聚类模型进行数据分析,运用事故具体原因、事故种类的聚类模型,以及事故种类、伤亡数、损失等级的聚类模型。
1. 事故种类与事故具体原因的相关性
以“航行操作过失”“船舶条件”“潜在缺陷”“自然灾害”“事故种类”作为输入变量。各聚类大小见图1,最终聚成5类:聚类1包含122个样本(16.5%);聚类2包含103个样本(13.9%);聚类3包含197个样本(26.7%);聚类4包含37个样本(5.0%);聚类5包含280个样本(37.9%)。由图2可知轮廓系数为0.6,聚类质量好。
图1 聚类大小(模型1)
图2 聚类质量(模型1)
图3为聚类的总体分布。航行操作过失、船舶条件、潜在缺陷、自然灾害分别代表事故主要原因的四个方面:人为因素、船舶因素、货物因素、自然因素。碰撞事故多由船员在航行中的过失操作引起,自沉事故由两方面因素(船舶条件和潜在缺陷)引起,自然灾害则会给船舶带来风灾。
图3 聚类总体分布(模型1)
2. 事故种类与伤亡数、损失等级的相关性
以“损失等级”“种类”“死亡数”“自然灾害”“事故种类”作为输入变量,各聚类大小见图4,最终聚成5类:聚类1包含211个样本(28.6%);聚类2包含180个样本(24.4%);聚类3包含117个样本(15.8%);聚类4包含106个样本(14.3%);聚类5包含125个样本(16.9%)。由图5可知轮廓系数为0.5,聚类质量好。
图4 聚类大小(模型2)
图5 聚类质量(模型2)
由图6可知各种事故所带来的事故后果。自沉事故带来的后果最为严重,损失等级为全损,死亡数达到2.82人。碰撞事故的损失等级较低,通过聚类被分为两类:聚类1碰撞事故死亡数较高,达到了1.04人,损失等级轻微;聚类2碰撞事故死亡数较低,仅为0.26人,有一般损失。风灾事故损失等级一般,死亡数为0.42人。
图6 聚类总体分布(模型2)
四、船舶交通事故防范对策
(一)落实船东与企业安全管理责任。改善航行值班制度,加强夜晚特别是凌晨0点至4点的航行值班。杜绝超载运输等违法作业行为,定期安排船舶进厂维护保养,以维持良好的技术状态。
(二)培养船员良好的操作规范。一方面提高船员驾驶技术,另一方面形成优秀的驾驶习惯,以减少船员在航行中的操作过失,避免船舶碰撞事故的发生,减少船舶交通事故数量。
(三)提高船员的安全意识。自沉事故带来的后果往往是灾难性的,船员应擅于在日常工作中发现安全隐患与船舶缺陷以防止自沉事故。
五、结语
通过提出运用两步聚类算法对船舶交通事故进行数据挖掘,构建事故种类同事故具体原因,事故种类同伤亡数、损失等级的聚类模型,能够有效准确地挖掘出事故变量的相关性,呈现出事故的共性要素,为海事部门制定防范措施提供参考依据。但对于致因四个方面(人、机、船舶、环境),每一方面仅选取了重要性最高的变量作为输入,而事故致因变量繁多,后期可以增加事故具体原因的变量,以提高聚类结果的准确性。