基于数据挖掘技术的交通事故关联分析
2017-12-21杨东红
杨东红
摘要:基于数据挖掘在潜在价值信息发现、具备大数据量处理能力等优势,采用关联规则挖掘方法对英国近10年交通事故数据进行分析,本文通过Python语言建立Apriori关联规则挖掘模型,分析交通事故发生的频繁因素集,发现交通事故数据中存在的关系和规则,从而为交通事故预警和管理提供数据决策支撑。
关键词:数据挖掘;关联规则;Apriori;交通事故
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2017)10-0230-01
随着社会经济快速发展,科技水平和人们生活提升,机动车数量近年来呈现出逐年大幅度增长的趋势。交通建设的进度远远跟不上日益增长的车辆数,随之给城市交通带来了巨大的压力,导致交通堵塞问题严重、交通事故日益频发[1],导致国家和人民大众大量经济损失。
在传统的交通事故分析中,多数采用统计学描述方法,通过事故发生概率、分析事故发生规律,基于这些规律给出一些交通相关参考意见。而数据挖掘作为一种从大量的数据中发掘有价值信息的技术,能给予决策人员基于有价值信息通识全局和潜在情况,并制定相应决策。
本文针对英国交通事故历史数据进行分析,利用数据挖掘技术挖掘出有效的关联规则,探讨相同类型交通事故发生规律,进而通过天气、道路情况等确定其可能的交通事故,利用关联规则实现关联事故的提前预警。同时,了解车辆参数、驾驶员信息对交通事故发生的潜在影响,掌握交通事故多因素关联关系。
1 数据挖掘技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中潜在价值信息的过程[2],自上世纪70年代起至今,数据挖掘从理论到实践得到了快速进步,特别是在应用实践中,其已涵盖人类生活的方方面面。
数据挖掘常用的分析方法有分类、聚类、预测、关联规则等,其中关联规则分析由于其在商业领域的众多成功应用,使得该方法在数据挖掘领域成为一个重要分支。
1.1 关联规则
设为项的集合,其中的元素称为项;事物数据库为事务T的集合,每个事务都对应I上的一个子集,有,,计为X和Y关联。
1.2 支持度
设,项集在事物数据库D上的支持度指特定事务在D中所占的百分比,即:
若项集满足最小支持度,则称之为频繁项集。Lk表示频繁k-项集的集合。
1.3 置信度
关联规则的置信度是指包含X和Y的事务数与包含X的事务数之比[3],即:
1.4 Apriori算法
Apriori算法采用逐层搜索的迭代方法,在分类上属于布尔型关联规则[4],反复冲频繁K-项集去寻找频繁(K+1)-项集。首先遍历事物库,找出频繁1-项集的集合。记作L1,将L1自连接从而生成频繁2-项集的集合L2,而L2生成L3,如此下去,直到不能找到LK ,即频繁K-项集。
Apriori算法的流程图如图1。
2 实验
基于数据挖掘技术的交通事故关联分析包括3个步骤:
(1)数据预处理,由于数据存在大量缺失、异常数据等问题,因此需要进行数据预处理,包括缺失值处理、异常值处理、属性变换、数据离散化等问题。
(2)建立挖掘模型,挖掘关联规则。
(3)模型评估与分析,评估模型结果和分析关联规则挖掘结果。
数据来源于英国交通部公布的2005-2015年交通事故数据,共包括1780653条交通事故数据,该数据集涵盖了交通事故发生的地点、时间、道路类型、交通情况、人员、车辆、天气等信息。
本文对数据缺失值处理主要采用KNN,回归和删除缺失值三种方法,其中对于缺失比过大的采用删除缺失值的方法,对于连续型属性采用回归法填充,对于离散型属性采用KNN法填充。
本文利用Python语言建立Apriori关联规则模型,基于交通事故数据集中17个属性构建关联分析模型。
在实验过程中,设定最小支持度min_Sup为10%,最小置信度min_Conf为35%,通过上述的关联规则挖掘模型交通事故数据进行关联规则提取和分析,得出一些有意义的关联规则,下面举例说明:
(天气:雨)∧(光线:黑暗无光)∧(城乡类型:农村)∧(道路类型:B)∧(车辆操作:左转弯)∧(道路形式:单向路)∧(性别:男)∧(年龄段:中年)∧(时段:22-24)侧翻(sup=0.566,conf=0.873)
以上示例代表了一个关联模式,其后面给出了支持度和置信度的取值,以此来表征该关联模式在总事故数中出现的频度和符号“”前面的因素组合推导出后面的事故类型的可能性大小。通过调整算法的最小支持度、最小置信度的阈值或采用不同属性建模,可以发现更多的关联规则。
3 结语
关联规则挖掘是一种非常流行的技术,可以用来识别事故发生时经常发生的不同属性之间的关系。在本文中,将关联规则挖掘算法应用于分析交通事故因素关系。对交通事故的发生实现了定性分析,进而依据分析结果可以交通事故的发生提出预报,为交通事故预警提供理论依据和数据支撑。
参考文献
[1]陈铮.基于激光扫描数据的交通信息采集平台设计与实现[D].山东科技大学,2010.
[2]RonZacharski,扎哈爾斯基,王斌.写给程序员的数据挖掘实践指南[M].人民邮电出版社,2015.
[3]刘雨露,方刚.目标关联规则挖掘算法的研究与应用[J].西南师范大学学报(自然科学版),2010,35(6):115-119.
[4]高俊,何守才.布尔型关联规则挖掘算法研究[J].计算机工程,2006,32(1):116-118.endprint