基于APRIORI-TAN的交通事故伤害分析与预测*
2021-09-09韩天园吕凯光许江超
韩天园,吕凯光,许江超,李 旋,乔 洁
(长安大学 汽车学院,陕西 西安 710064)
0 引言
近年来,随着我国道路交通基础设施和安全法规的不断完善,交通安全形势整体有所改善,但事故平均伤害程度却保持了平缓的增长[1],与发达国家相比,我国交通事故死亡率相对较高[2]。大量伤亡事故不仅直接危害交通参与者的生命财产安全,还影响正常的社会生产和生活[3]。此外,我国人口、道路里程、机动车保有量等方面尚有较大的增长空间,交通事故伤亡人数存在上升的潜在威胁[4]。探究事故规律有利于排查安全隐患和保障交通安全。
目前,计算机仿真、驾驶评价和事故大数据挖掘是交通事故预防和预测的3种理论依据。赵树恩等[5]提出基于人车路协同的车辆弯道安全车速模型,并基于Trucksim验证模型的可行性;Battiato等[6]通过车载监控录像评价行驶安全,计算车辆道路运行的交通事故风险;Kaur等[7]通过分析事故数据的时空分布,进而预测和预防事故发生。仿真和主客观评价虽然能够先于事故发现部分隐患,但过于简化的模型并不能解释某些事故特征间的相关性。事故数据是道路交通安全的直接反映,挖掘事故数据有利于揭示事故特征的实际关系与潜在联系[8]。
针对事故因素的相关关系与因果关系的挖掘被广泛应用于事故描述、解释、预测和预防[9]。如基于聚类算法、关联规则、自然语言处理等算法的事故生成规则探究[10],基于朴素贝叶斯、随机森林、神经网络等算法的事故几率和严重程度预测[11]。多种机器学习方法的组合能有效克服单一算法的缺陷,增强算法的适用性,进而提高事故分析和预测的可靠性[12]。Rusli等[13]基于逻辑回归与决策树探究发现长大下坡及弯坡路段的坡长与事故伤害呈正比,且正面碰撞伤害高于追尾碰撞;Xu等[14]运用卡方检验、聚类和关联规则分析事故驾驶员、车辆、道路等数据关系,从人、车、路3方面提出事故预防的具体措施;AlKheder等[15]基于决策树发现行人、老年司机和前排乘客更容易受到严重或致命的伤害,贝叶斯网络比支持向量机预测事故伤害更准确。
本文以2 467条涉及人员伤亡的道路交通事故数据为数据集,运用Apriori关联规则分析和社会网络分析探究受伤事故和死亡事故的生成规则及其网络关系,并基于树型贝叶斯网络预测事故伤害程度,为事故预防和预测提供理论依据。
1 数据预处理
1.1 数据预处理
从长安大学机动车事故鉴定中心收集2 654条涉及人员伤亡的道路交通事故数据,通过数据清洗剔除无效和冗余数据,共筛选出包含17个特征维度的2 467起事故数据。
为探究事故伤害程度与道路条件、交通环境、时间规律等因素的相关性,选择16个特征因素(A~P)为自变量,见表1。以交通事故伤害严重程度为因变量,《道路交通事故信息调查》(GA/T 1082—2021)将事故分为财产损失事故、受伤事故和死亡事故3个等级,由于缺少财产损失事故数据,因此因变量分为受伤事故Y1和死亡事故Y2。
表1 事故因素的数据详情
1.2 数据预分析
从时间分布分析,5月交通事故发生最多,1月的死亡事故率最高,7月的死亡事故率最低,月份-事故分布如图1所示;在工作日的事故频数明显高于非工作日,星期-事故分布如图2所示;11时与17时左右是事故发生的2个高峰期,凌晨死亡事故率更高,2时的死亡事故率高达56%,时间-事故分布如图3所示。
图1 月份-事故分布
图2 星期-事故分布
图3 时间-事故分布
从空间分布分析,城市公路事故量占比最大,高速公路死亡事故率明显更高,道路分类-事故分布如图4所示;道路最高限速越大,死亡事故率越高,最高限速等级-事故分布如图5所示;交叉路段和丁字路口是事故发生的主要场景,坡道路段死亡事故率显著,且上坡路段死亡事故率高于下坡路段,道路特征-事故分布如图6所示;水泥路面死亡事故率最低,未铺砌路面死亡事故率最高,道路两侧路面情况-事故分布如图7所示。
图4 道路分类-事故分布
图5 最高限速等级-事故分布
图6 道路特征-事故分布
图7 两侧路面情况-事故分布
从交通环境分布分析,干路面死亡事故率只有结冰(霜)路面的1/3,路面情况-事故分布如图8所示;车流量小(个别车辆)时事故占比最大,而交通堵塞时死亡事故率最高,达到44%,车流量-事故分布如图9所示;雪天的死亡事故率明显高于其他天气,天气-事故分布如图10所示。
图8 路面情况-事故分布
图9 车流量-事故分布
图10 天气-事故分布
此外,人行横道事故的死亡事故率明显更高,事故类型-事故分布如图11所示;同向刮擦事故数量最多,而碰撞固定物的死亡事故率最高,事故形态-事故分布如图12所示;违规停车、其他司机错误、违反道路优先权和安全距离不足是事故主要原因,但超速和酒驾的死亡事故率远高于其他原因,事故原因-事故分布如图13所示。
图11 事故类型-事故分布
图12 事故形态-事故分布
图13 事故原因-事故分布
2 事故伤害的关联性规则分析
2.1 Apriori关联规则
Apriori算法用以扫描数据集中满足最小支持度minSup的频繁项集和提取频繁项集中满足最小置信度minCon的关联规则。相较于P-Growth,Eclat算法,Apriori可独立挖掘数据集中的关联规则,适用于小数据集的关联规则分析。
关联规则的支持度Support为项集中所有项同时发生的概率,如式(1)所示:
Support(A→B)=Support(AB)=P(A∪B)
(1)
式中:A为前项;B为后项。
置信度Confidence是A项发生后B项发生的条件概率,如式(2)所示:
(2)
提升度Lift用以分析存在前项A时是否更倾向发生后项B,如式(3)所示:
(3)
若Lift>1,表明A和B正相关,AB关联规则有效。
2.2 基于Apriori算法的关联规则挖掘
设置minCon=0.9,以保证挖掘的关联规则的可靠性。鉴于数据死亡事故Y2占比较小,为提高数据的利用率和保证关联规则挖掘的全面性,需要设置较低的支持度阈值以平衡死亡事故Y2的频繁项集支持度。
当minSup=0.01时,共筛选出26条死亡事故Y2的强关联规则,其中包括3个3-项集、9个4-项集和10个5-项集和4个6项集,见表2。关联规则提升度全部大于5,表明前后项的高相关性。
表2 死亡事故的关联规则
当最小支持度minSup=0.01时,共挖掘到3 213条受伤事故Y1的关联规则,因此将Y1的最小支持度提高至0.1,最终提取出33条满足提升度的强关联规则,其中包括2个2-项集、14个3-项集、13个4-项集和4个5-项集,见表3。
表3 受伤事故的关联规则
2.3 基于社会网络图的关联规则分析
社会网络分析及其可视化能够对某一社会现象的结构与关系进行准确地量化表征与分析,基于UCINET软件完成事故伤害关联规则网络的核心-边缘分析和可视化。通过计算网络密度分布以区分网络核心和网络边缘,显示关联规则中各项的分布与联系。社会网络节点越大,表明关联规则网络中该项的网络中心性越高,即在关联规则的出现频率越高;节点连线越粗,表明对应节点在关联规则的共现频率越高。
受伤事故Y1有同向刮擦M5、市区L1、工作日K1、城市道路B5、汇入/换道事故H3等14个强关联规则项,共有42条节点连线,其中M5-L1,M5-K1和M5-B5的共现频数大于10,受伤事故的关联规则网络如图14所示。核心-边缘分析结果显示,Y1,M5和L1是网络核心区域,区域密度为7.5。
图14 受伤事故的关联规则网络
死亡事故Y2有碰撞固定物M6、人行横道事故H4、高速公路B1、高速道路P4、非市区L2等10个强关联规则项,29条节点连线,其中H4-B1,M6-B1,M6-P4,H4-L2和B1-L2共现频数大于10,死亡事故的关联规则网络如图15所示。酒驾N1和超速N12为单独的1组关联规则。核心-边缘分析结果显示,Y2,M6,H4和B1是网络核心区域,区域密度为7.0。
图15 死亡事故的关联规则网络
对比可知,市区和城市道路易发生受伤事故,非市区和高速公路易发生死亡事故。碰撞固定物和碰撞行人(人行横道)的伤害程度高于车辆同向刮擦。超速驾驶提高了事故伤害,而酒驾强关联于超速。由核心-分析可知,相较于受伤事故,死亡事故的网络更加简单,且网络特征更加突出。事故伤害关联规则分析结果与事故数据预分析结果相吻合,表明了APRIORI算法的有效性。
3 基于树型贝叶斯网络的事故伤害预测
3.1 树型贝叶斯网络
树型贝叶斯网络(Tree Augmented Naive Bays,TAN)是1种适用于离散数据的预测模型。TAN中各个属性变量既依赖于类属性,还至多依赖于1个非类属性节点,降低了朴素贝叶斯非类属性间的强条件独立性假设要求,如式(4)所示:
(4)
式中:Y为类属性;y为类变量值;Ai为非类属性某一类别;Bj为Ai依赖的非类属性的某一类别。
树型贝叶斯网络构建主要分为以下4个步骤:
步骤1:计算每1组非类属性在给定类属性的条件互信息I(A;B|Y),如式(5)所示:
(5)
步骤2:根据非类属性间条件互信息值降序排列,依次取出其中的节点对,基于不产生环路的原则,构建最大权重生成树。
步骤3:选择任一非类属性作为根节点,将无向树转换为有向树。
步骤4:增加类属性节点和每个非类属性节点的有向连接弧,构造TAN的网络结构。
在树型贝叶斯网络结构中,如果节点A依赖于节点B,则连接弧由B指向A。
3.2 事故伤害程度预测
采用SPSS Modeler软件构建事故伤害预测的树型贝叶斯网络模型,如图16所示。由树结构分析可知,事故区域L与车流量A,道路分类B与事故形态M、事故季节J与路面情况G等相连节点之间存在较强的相关性。
图16 事故伤害预测的树型贝叶斯网络模型
由构建的树型贝叶斯网路预测事故的伤害严重程度,是根据树节点的条件概率逆向计算伤害程度的分类概率。
最终分类器的预测正确率达87.56%,表明树型贝叶斯网络对事故伤害程度的预测效果良好。各事故因素的预测重要性如图17所示。由于道路分类B与其他因素的条件互信息值较大,导致信息冗余度较高,因此预测重要性降低。
图17 各事故因素的预测重要性
4 结论
1)对事故数据的可视化分析表明,在时间分布上,1月份和凌晨0~5时的事故伤害程度最严重,7月事故伤害程度最低;在道路环境分布上,道路最高限速与事故伤害程度呈正比,结冰(霜)路面和坡道路段事故伤害更严重,雪天事故伤害显著。此外,违规停车、其他司机错误、违反道路优先权和安全距离不足是事故主要原因,但超速和酒驾的事故伤害明显更高。
2)对事故伤害的关联规则分析表明,受伤事故共有同向刮擦、市区等14个强关联规则项,死亡事故共有碰撞固定物、人行横道事故、高速公路等10个强关联规则项,但死亡事故的关联规则的相关性更高。
3)社会网络分析不仅能够反映关联规则的各类数量信息,还能形象表达规则项之间的作用关系。树型贝叶斯网络考虑了事故因素间相关性,模型不仅有较高的预测准确性,同时能够反映各事故因素的预测重要性。