基于FP-growth算法的车辆通行特征与交通事故关联分析
2022-02-11文图黄瑛黄淑兵周云龙
文图|黄瑛 黄淑兵 周云龙
【导读】
交通事故成因分析是交通安全领域的重要研究问题。本文将车辆通行特征引入交通事故成因分析中,基于FP-growth算法,定量描述了车辆通行特征与交通事故之间的关联关系,并根据筛选出的关联规则提出相应对策与建议。研究结果表明,同一违法对于不同通行特征车辆的交通事故风险不同,在道路交通管理部门违法查处时应重点关注对应高风险通行特征车辆,降低交通事故发生概率,以支撑交通事故预防“减量控大”工作。
交通事故;通行特征;关联规则
在交通环境日益复杂化的情况下,如何压降交通事故成为亟需解决的问题。目前,我国的交通事故风险主动管理还处于初级阶段,因此有必要深入挖掘交通事故影响因素,探究各因素与事故的关联关系,有助于公安交通管理部门更具针对性地制定交通事故预防措施及管理办法。本文基于交通事故数据与卡口通行轨迹数据,利用FP-growth算法对车辆通行特征与交通事故数据之间的关联规则进行深度挖掘,筛选出不同违法对应的交通事故高风险车辆通行特征标签集合,并提出相应对策与建议,可供公安交通管理部门参考。
一、车辆通行特征与事故关联分析方法
(一)关联规则
关联规则挖掘最早是为挖掘顾客普遍消费行为而提出的,目前已被广泛用于商业、移动通信、网络安全和交通安全等领域。本文研究的车辆通行特征与交通事故关联关系,指在交通事故车辆集合中频繁出现的车辆通行特征与交通事故特征之间的关联关系。设I={ i1, i2, … , in }为所有车辆通行特征与交通事故特征标签集合,其中ik (k=1, 2… , n)称为项目,项目的集合称为项集。设D={ d1, d2, … , dm }为记录集,每个记录dj ( j=1, 2, …, m)均对应I上一个子集。令项集XI,YI,互相之间没有重复项,则关联规则可以定义为:
其中,X为先决条件,Y为相应关联结果。
(二)支持度、置信度与提升度
对数据集进行关联规则挖掘过程中,会出现大量无效的关联规则,需利用评价指标对关联规则进行筛选,常用指标有三个,分别是支持度(Support)、置信度(Confidence)和提升度(Lift)。
1.支持度
支持度是同时包含X和Y的项集的出现次数与数据集记录总数的比例,本文指计算公式如下:
其中,|D|是记录总数,|X∪Y|是同时包含X和Y项集的记录数。
2.置信度
置信度指包含项集X的集合中同时也包含项集Y的比例,计算公式如下:
其中,|X| 表示包含项集X的记录数。
3.提升度
提升度指包含项集X和项集Y的记录比例与只包含项集Y的记录比例的比值,即关联规则XY的置信度与项集Y的支持度的比值,计算方法如下:
(三)关联规则挖掘算法
关联规则的挖掘过程主要包括两个步骤,首先扫描数据库,找出所有的频繁项集,然后根据频繁项集计算符合筛选标准的关联规则。目前常用的关联规则挖掘算法有Apriori算法和FP-growth算法,相较于Apriori算法,FP-growth算法可避免产生大量的候选项集,能有效节省运算开销。本文选择FP-growth算法对车辆通行特征和交通事故特征进行关联规则挖掘,具体步骤如下:
1.根据轨迹数据与交通事故数据计算每起交通事故对应的车辆通行特征与事故特征标签,构建交通事故记录集;2.确定关联规则筛选规则,定义最小支持度和最小置信度取值;3.遍历事故记录集,计算每个项目的出现次数,删除小于最小支持度的项目,然后将原始交通事故记录集中的项目按出现次数降序重新排列;4.再次扫描事故记录集,按从上往下降序的规则创建项头表以及FP-tree;5.按照项头表自下而上访问FP-tree生成条件模式基,递归调用树结构,若为单路径,转至步骤6,若为非单一路径,则继续调用树结构,直到形成单一路径;6.对路径中的节点进行组合,并与后缀频繁项生成最终的频繁模式,筛选出不小于最小置信度阈值的关联规则。
二、实例分析
(一)数据来源
本文研究对象为死亡3人以上交通事故,案例数据集包括2018年1月至2020年6月期间的部分交通事故数据与交通事故发生前90天内的卡口通行轨迹数据,其中事故数据含号牌号码、事故发生时间、车辆类型、道路代码、道路类型、事故原因等字段,共计957条;轨迹数据包含号牌号码、过车时间、卡口编号、道路代码、道路类型等字段,共计43万条。
(二)历史轨迹复盘
车辆历史轨迹中涵盖了大量与交通事故相关的隐藏信息,对全面刻画车辆特征、深度挖掘事故原因有重要意义。通过车辆历史轨迹复盘,可发现车辆在交通事故发生前有以下规律:
从车辆对交通事故路段的熟悉程度看,约48%的交通事故车辆90天内未经过事故路段。在全部566条交通事故路段中,528条(占比93.3%)已布设卡口,共涉及交通事故车辆914辆,其中439辆(占比48.0%)在交通事故发生前90天内从未经过交通事故路段,229辆(占比25.1%)在90天内经过交通事故路段的天数小于10天,246辆(26.9%)在90天内经过交通事故路段的天数超过10天。
从车辆在交通事故发生前的行驶时长看,约60%因疲劳引发的交通事故在行驶4小时后发生。在33起由疲劳引发的交通事故中,8起(占比24.2%)发生在行驶1小时内,5起(占比15.2%)发生在行驶1至4小时内,20起(占比60.6%)发生在行驶4小时后。
从车辆经常行驶时段看,夜间交通事故中,约80%的车辆缺乏夜间行驶经验。在全部957辆交通事故车辆中,309辆(占比32.3%)交通事故发生在夜间,其中55辆(占比17.8%)经常在夜间行驶(在90天内22点至凌晨6点累计通行时间超过90小时),254辆(占比82.2%)偶尔在夜间行驶。
从车辆经常行驶道路类型看,高速公路交通事故中,约60%的车辆经常在高速行驶。在全部957辆交通事故车辆中,206辆(占比21.5%)交通事故发生道路类型为高速,其中120辆(占比58.3%)经常在高速行驶(在90天内高速累计通行时间超过90小时),86辆(占比41.7%)偶尔在高速行驶。
从不同通行特征交通事故原因看,经常跑长途的重型货车比未经常跑长途的重型货车更易由于疲劳驾驶、无证驾驶或准驾不符等发生交通事故。在255辆重型货车中,94辆(占比36.9%)经常跑长途(在90天内通行距离大于300千米的出行超过10次)。对于经常跑长途的重型货车,交通事故原因排名前五的为:驾车时有其他妨碍安全行车的行为、超速、未保持安全间距、疲劳驾驶、无证驾驶或准驾不符;对于未经常跑长途的重型货车,交通事故原因排名前五的为:驾车时有其他妨碍安全行车的行为、超速、未让行、超载、逆向行驶或倒车。
(三)通行特征与交通事故特征提取
结合历史轨迹复盘情况,确定关联规则挖掘所需要的车辆通行特征与交通事故特征标签,其中车辆通行特征标签按统计时段可分为历史轨迹标签与交通事故轨迹标签,历史轨迹标签指交通事故发生前90天内的车辆通行特征标签,交通事故轨迹标签指交通事故发生当次出行的轨迹特征标签。对标签进行统一描述和定义,如表1所示。
表1 事故特征标签
(四)关联规则结果分析
设置最小支持度阈值为0.01,最小置信度取值为0.09,运用FP-growth算法对交通事故数据进行关联规则挖掘,可以得到以下几点规则,见表2。
表2 事故关联规则
由表2可见,不同通行特征车辆发生死亡3人以上交通事故的主要违法原因不同:经常通行的重型货车在国省道行驶时容易因超载而发生交通事故;不熟悉路线且缺乏高速行驶经验的车辆在高速上行驶时容易因操作不当而发生交通事故;不经常在城市道路行驶且不熟悉线路的重型货车在城市道路行驶时容易因闯红灯而发生交通事故;经常跑长途的重型货车在长时间行驶后容易在高速上因疲劳驾驶而发生交通事故;不熟悉路况且经常通行的重型货车在城市道路行驶时容易因未让行而发生交通事故;小型客车夜间在偶尔通行的城市道路上行驶时容易因酒驾而发生交通事故;缺乏国省道行驶经验的小型客车在长时间行驶后容易在国省道上因逆向行驶或倒车而发生交通事故;经常跑长途且经常在夜间行驶的车辆容易夜间在国省道行驶时因未保持安全间距而发生交通事故;经常跑长途的大型客车容易因超速发生交通事故;经常通行且跑长途的车辆在县乡道行驶时容易因超速而发生交通事故。
三、对策与建议
鉴于上述分析,建议从道路隐患排查、车辆隐患排查两个方面有针对性加强管控工作,遏制较大交通事故多发势头。
在道路隐患排查方面,针对驾驶人不熟悉路况易导致交通事故发生的隐患,建议完善事故多发路段的道路指示标志标线以及安全警示设施设备,借助互联网出行服务企业,对在交通事故多发路段行驶的车辆精准发布警示提示;针对驾驶人普遍缺乏夜间行驶经验的隐患,建议推动道路照明设施完善建设,加强道路指示标志标线的运行维护工作,在交通事故多发路段增设主动发光标志。
在车辆隐患排查方面,建议参考表2中标签组合加强对疲劳驾驶、闯红灯、未让行、超载、超速、酒驾、逆向行驶、倒车等违法行为的查处力度;联合相关部门,定期深入本地客货运输企业开展安全隐患监督检查,建立与交通、高速公路管理公司等部门的联勤联动和数据共享机制;加强经常长距离行驶重型车辆、长途客车、农村面包车、缺乏夜间或高速行驶经验车辆的安全警示教育宣传。