APP下载

城市公路交通事故关联规则分析

2020-09-23芳,袁

关键词:事务交通事故数据挖掘

苏 芳,袁 勤

(1.武汉理工大学 国际教育学院,湖北 武汉 430070;2.武汉理工大学 中国应急管理研究中心,湖北 武汉 430070)

交通事故已经引起了社会与国家的广泛关注,然而我国交通管理起步较晚,交通管理工作仍存在不足。据我国统计年鉴显示,2014—2018年的交通事故发生量分别为196 812、187 781、212 846、203 049和244 937,交通事故发生量呈现明显上升的趋势,2018年交通事故发生量达到了历年的最高值。城市公路在我国公路体系中占据重要地位,也是交通事故的高发区域。赵琳娜[1]指出我国城市公路里程仅占全国道路总里程的7.5%,但城市公路交通事故却占全国公路交通事故的45.8%,城市公路交通事故伤亡人数占全国公路交通事故伤亡总数的38.8%,城市公路百公里交通事故率是高速公路的4倍、普通公路的10倍。然而,由于城市公路交通事故的后果较其他情形轻微,因此,城市公路并未引起重视。

数据挖掘技术针对目前交通事故数据库中的积累数据,提供了一种新型的具有大数据时代特色的研究思路。利用数据挖掘技术对城市公路交通事故进行相关研究, 能探索城市公路交通事故中的隐藏知识,深入了解城市公路交通事故的特征,对于避免城市公路交通事故具有重要的意义, 且得到的成果对城市公路交通管理工作和相关法律法规的制定具有一定的指导意义,有助于城市公路交通事故的预防, 确保城市公路交通的安全[2]。我国数据挖掘技术的研究虽然起步较晚,但已在公司财务[3]、互联网[4]等领域得到广泛使用。在交通安全领域中,李科等[5]采用关键事故率法对高速公路事故多发路段进行鉴别。刘崛雄[6]运用聚类分析探索了事故在不同时空下的差异,并使用贝叶斯网络构建事故的预测模型。丁宇[7]使用统计分析和聚类分析等数据挖掘方法研究了城市交通事故驾驶员特征。但相关研究最终聚焦于事故的某一具体因素进行探索,缺乏对事故不同影响因素之间关联的探讨。

关联规则算法是数据挖掘技术中挖掘事故影响因素之间联系的算法,在国外已得到广泛关注与应用。MARTN等[8]基于西班牙安达卢西亚的交通事故数据,利用Apriori算法分析数据库中收集的信息,研究易受影响的改善要素、碰撞次数和危险路段之间的关系,并指出西班牙政府在交通管理上的缺失。DAHER等[9]以纽约州日内瓦手指湖地区的机动车撞车事故作为数据集,运用关联规则分析交通事故的主要原因,并且进一步将频率模式增长算法和关联规则相结合,以突出显示导致最严重的撞车事故的时间和环境设置,结果表明大多数撞车事故发生在12:00—18:00之间。Apriori算法模型使关联规则挖掘最经典的算法,运用Apriori算法对城市公路交通事故进行关联规则分析,有助于发现城市公路交通事故的特征,为城市公路交通安全管理工作提供科学支持,有效地预防城市公路交通事故的发生。因此,笔者以数据挖掘为手段,通过对国内城市公路交通事故数据集的关联规则进行分析,探索其中隐藏知识,以期为我国城市公路交通管理提供一种新思路。

1 数据与方法

1.1 数据收集与整理

1.1.1 数据收集

笔者主要以城市公路的交通事故为研究对象,从交通管理部门调研取得城市公路交通数据。考虑到时效性,事故数据的对应时间均为2019年5月—7月,共包含4 285条交通事故数据。

1.1.2 数据整理

交通事故的致因因子一般分为人、车和环境3个方面,由于人的因素难以观测记录,因此笔者结合原始数据集的特点,将城市公路交通事故的致因因子概括为时间因素、道路环境因素和车的因素3个致因维度,如图1所示。基于致因模型对数据集的关键词进行提取,将数据字段化得到对应的数据集字段表,如表1所示。

图1 城市公路交通事故致因模型

表1 事故集字段表

所构建的城市公路交通事故数据集由9个字段组成,并可通过字段抽取形成新的数据空间。将Excel表格存储为CSV形式备用,所得数据集形式如图2所示。

图2 交通事故集整理结果

1.2 交通事故数据分析方法

数据挖掘是人工智能和数据库领域研究的热点问题,是数据库知识发现的一个步骤,指在海量的、有噪声的原始数据中找到表面看不出却又真实存在的数据间的关系[10]。关联规则是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。Apriori算法是第一个关联规则挖掘算法,也是最经典的算法。Apriori算法采用以下指标来定义各个项目之间的关联性:

(1)A⟹B的支持度(support)。支持度定义为前项事务A和后项事务B在整个数据集Z中同时发生的频率[11],即发生概率,也表示与之对应的关联规则的实用性。

(1)

式中:support(A⟹B)为事务A指向事务B的支持度;N(A∩B)表示事务A、B同时出现的计数;N(Z)为总体数据集计数;P(A∩B)为事务A、B同时发生的概率。

(2)A⟹B的置信度(confidence)。置信度表示在前项事务A发生的情况下,事务B的发生概率[12]。置信度的定义为支持度与前项频率之比,即条件概率,表示规则的强度,反应关联规则的确定性[13]。

confidence(A⟹B)=

(2)

式中:confidence(A⟹B)为事务A指向事务B的置信度;support(A⟹B)、support(A)分别为事务A指向事务B的支持度、事务A的支持度;P(A)、P(A∩B)、P(B|A)分布表示事务A的发生概率、事务A与事务B同时发生的概率、事务B在事务A已发生的前提下的发生概率。

(3)A⟹B的提升度(lift)。提升度表示已知条件A发生的情况下事务B发生的概率,与B总体发生的概率之比。提升度的定义为置信度与后项概率之比,反映了前项条件A对后项事务B发生概率的影响性。

(3)

式中:lift(A⟹B)为事务A指向事务B的提升度;coinfidence(A⟹B)为事务A指向事务B的置信度;support(B)为事务B的支持度;P(B|A)为事务B在事务A已发生的前提下的发生概率;P(B)为事务B的发生概率。

一般地,支持度与置信度作为关联规则生成的筛选条件,根据研究目的设置最小支持度阈值与最小置信度阈值从而筛选出符合条件的关联规则。提升度作为关联规则关联性的评判标准,以1为界限,当提升度为1时,条件A与事务B互相独立,当提升度大于1时,条件A与事务B具有关联性,且对于生成的关联规则,提升度越高,关联性越强。在此,为定量评价关联规则的有效性,根据提升度的数值定义了utility(A⟹B)函数对关联规则的信度进行量化分析。

(4)

根据提升度大小将关联规则的信度分为4个不同的区间,其中提升度小于等于1表示对应的关联规则无明显关联性,记为无;提升度在1与1.5之间表示对应的关联规则具有微弱关联性,记为*;提升度在1.5与2之间表示对应的关联规则具有较明显关联性,记为**;提升度大于2表示对应的关联规则具有显著的关联性,记为***。

2 结果与分析

2.1 总体关联规则

首先对数据集展开数据挖掘,其数据点分布如图3所示,可见部分数据列的数据点是相对集中的,这意味着数据之间存在潜在的规律性。

图3 数据集的数据点分布

基于数据集,根据支持度的降序绘制出排名前十的重要字段,如图4所示。由图4可知,在交通事故中,道路情况以干燥为主;撞击是交通事故的主要碰撞类型;报警细类主要为机动车相撞、机动车与非机动车刮蹭;事故发生时的天气状况主要是多云天气;撞击车型双方都多为小车类型。

图4 支持度前十的重要字段

然而,交通事故主要是由于各项影响因素互相作用而导致的。因此,需进一步对交通事故进行关联规则研究分析。交通事故总体关联规则的热点散布图如图5所示,可以看出总体关联规则的数量为16条,而关联规则的信度大多集中在1.5~1.7之间,具有较明显的关联性;交通事故总体关联规则的2D矩阵散布图如图6所示,可以直观地看出总体关联规则中高信度规则包含的字段相对集中,而高信度规则的字段则是城市公路交通事故的主要致因。

图5 交通事故关联规则的热点散布图

图6 交通事故关联规则的2D矩阵散布图

通过Apriori算法的关联规则挖掘,提取出总体事故的16条关联规则,具体关联规则如表2所示。交通事故的关键规则路径如图7所示,可以看出在城市公路交通事故中,涉事双方均为小车的机动车碰撞事故,不易造成人员受伤,涉及电动车的事故容易造成人员受伤;事故多发生于路面干燥的情况下。

表2 交通事故总体关联规则

图7 交通事故的关键规则路径

2.2 时间关联规则

通过字段选择构建城市公路交通事故的时间信息数据集,挖掘事故的时间规则。事故时间支持度前十的字段如图8所示,展示了事故时间因素的重点项目。挖掘出的城市公路交通事故的具体时间关联规则如表3所示。交通事故时间关联规则路径图9所示,可以看出城市公路交通事故多发生于上午与晚上时段;晚上时段事故不易导致人员受伤,上午时段易产生人员受伤情况。

图8 事故时间支持度前十的字段

图9 事故时间关联规则路径

表3 事故时间关联规则

2.3 道路环境关联规则

通过字段选择构建城市公路交通事故的环境信息数据集,挖掘事故的道路环境规则。通过关联规则挖掘发现9条道路环境关联规则,具体内容如表4所示。

表4 道路环境关联规则

城市公路交通事故时间关联规则路径如图10所示,可以看出事故多发于多云天气与小雨天气;多云天气时容易导致人员受伤,小雨造成的道路湿滑也是需要关注的重要诱因。

图10 道路环境关联规则路径

2.4 涉事车型关联规则

通过字段选择构建城市公路交通事故的涉事车型数据集。通过关联规则挖掘发现13条涉事车型关联规则,具体关联规则如表5所示。城市公路交通事故涉事车型关联规则路径如图11所示,可以看出涉事车型多为小车与机动车;小车之间的机动车相撞事故,不易造成人员受伤,电动车被撞时容易产生人员受伤情况。

图11 涉事车型关联规则路径

表5 涉事车型关联规则

3 结论

(1)城市公路交通事故致因是由“人、车、管、环”4类影响因素互相作用的复杂系统,人的因素是事故的主观因素,车的因素和环境因素通过影响人的判断导致事故的发生,是事故的客观因素。笔者选取事故的客观因素作为研究对象,分析事故因素与结果之间的关联规则路径,并选取在关联规则路径可视化中有较大优势的Apriori算法进行关联规则挖掘。

(2)通过关联规则挖掘,可有效地解释事故影响因素与事故结果之间的影响,有助于确认和解释事故致因。数据挖掘结果表明,城市公路交通事故存在明显的时段特征、天气环境特征和涉事车型特征,如上午时段事故容易造成人员受伤;事故多发于多云天气,小雨造成的道路湿滑也是事故的重要诱因;电动车事故容易造成人员受伤。

(3)运用数据挖掘技术对城市公路交通事故数据进行关联规则分析,可以有效发现其中的隐藏知识。以交通管理部门的实际数据作为支撑,避免了数据获取的主观性,研究结果具有一定的可信度;立足于国内城市公路交通事故,对城市公路交通事故的特征进行分析,同时弥补了国内相关研究中使用国外数据的现象,研究结论更契合我国城市公路交通现状;应用的数据挖掘技术具备针对数据本身、弱化代码编写的特点,为交通事故的致因因子特征分析提供了一种合理且便捷的思路,且有利于向交通管理部门推广。

猜你喜欢

事务交通事故数据挖掘
北京市公共机构节能宣传周活动“云”彩纷呈北京市机关事务管理局
基于BPNN-AdaBoost的隧道交通事故数预测研究
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
预防交通事故
基于改进乐观两阶段锁的移动事务处理模型
搭乘同事车辆下班回家途中发生交通事故是否认定工伤
一种Web服务组合一致性验证方法研究
软件工程领域中的异常数据挖掘算法