基于关联规则对交通安全驾驶事件分析研究
2023-12-13温喜梅丁志成
文/温喜梅 丁志成
不同的天气、环境以及不良的驾驶行为都会导致恶性交通事故的发生。为了进一步挖掘高速公路交通事件的特征以及内在联系,提高交通管理安全,本文以新疆交通事件数据分析为例,在运用灰色关联挖掘强关联数据的基础上,利用关联规则Apriori算法挖掘事件属性之间的联系,结果表明G30线路受影响较为严重,同时风雪天气容易造成路面积冰打滑且视线模糊,对行驶安全存在较大的威胁,考虑到行车安全各方面因素,进一步为交通管理者提供一定的帮助与建议。
引言
目前,中国道路交通建设进入到一个快速发展的阶段[1]。但是中国道路造成的交通事故数总体在增加的趋势,其中事故起数、死亡人数分别占全国重特大事故总量的70%和80%[2]。为了有效改善道路的交通安全状况,提高高速公路的交通效率,需要对道路安全进行各方面分析。时宇杰[3]对道路安全并对数据挖掘分析,并以某市区事故数据为例,利用Apriori算法得出各因素之间的关系并给出建议措施,但文中对于数据的处理应更加细致,避免计算的重复性。李淦山等[4]通过对近年来统计数据中机动车量,死亡量等进行分析,利用回归分析对死亡人数预测,针对现有数据及预测数据对相关部门提出建议与措施,文中预测时所利用的因素较少,实际中其他数据因素都会有所影响。江山等[5]利用灰色关联规则与Apriori算法相结合,同时与仅采用Apriori算法相对比,表明了相结合方法的有效性,可以分析出与交通事故的强关联的因素。本文以2017年-2019年新疆高速公路数据为研究对象,首先分别从时间、空间等方面对新疆高速公路事件特征进行分析,其次在灰色关联分析的基础上,利用关联规则Apriori算法挖掘分析数据之间的联系。
1.交通事件分析方法理论研究
1.1 灰色关联分析
灰色关联分析,是一种多因素统计分析的方法,可以了解所关注信息受其他因素影响的相对强弱。对于两个系统之间的因素,随时间或其他对象而变化的关联性大小的量度,称为关联度。
1.2 关联规则Apriori算法
1993年R.Agraw al.[7]等人提出了Apriori算法,是经典的关联规则频繁项集挖掘算法之一。利用关联规则可以发现生活以及其他方面某些因素有趣的联系。关联规则最先是针对超市购物问题“尿布与啤酒”的例子提出的,原因是发现跟尿布一起购买最多的商品是啤酒,通过发现其中存在的关系也为商家提供了销售策略。因此,关联规则就是几种因素之间存在的关系,比如X→Y这样的形式,其中X={X1,X2…},X∩Y=φ。关联规则主要分为两个过程,首先令K=1产生频繁1项集,不断迭代K=K+1得到频繁K项集,如果K项候选集的支持度大于等于设定的最小支持度阈值,则称为K项频繁项集。否则,K为项非频繁项集。
度量关联规则的两个阶段分别是支持度s和置信度c。支持度是某一项集出现的频率,当支持度大于等于设定的最小支持度时,则称为频繁项集,进一步挖掘找出所有的频繁项集;置信度可认为条件概率,在某一项集的前提下,求另一项集的概率。当同时满足最小支持度和最小置信度的情况下称强关联规则[8]。
其中,公式(5)、(6)中的σ 代表个数,其中σ(X∪Y)代表同时包含项集X与项集Y的个数,σ(X)代表包含项集X的个数,N代表总个数。
根据以上可知关联规则主要分为两个过程,挖掘所有的频繁项集;根据频繁项集找出强关联规则。
2.实例分析
本文以新疆交通事件为例,采集2017年-2019年的数据共1566条,通过上文对交通事件分析的叙述,将上述方法运用到新疆交通数据,发现交通事件的特征以及其中的关联因素,并可进一步提出措施保证交通安全。针对上文所述,主要是对不全的信息进行删除清理,选择保留那些交通事件发生的字段因素。对数据处理后应保留的字段包括:事件发生月份、天气情况、路面状况、发生线路、事件地点、事件类别、交通事件、控制方式几大类。其中各个因素分别对应其属性值,例如月份中共包含1月-12月,分别利用数字1-12进行编码,天气中包含雪、大雾、降雨等属性,具体见表1。
表1 各因素及对应的属性值
2.1 交通事件灰色关联分析
将灰色关联分析方法应用于交通数据可分析出强关联数据,设置关联度阈值为0.8。利用公式(3)、公式(4)计算确定的关联度,一月份的关联度为0.91,二月份的关联度为0.87,以此类推计算关联度,若小于设置的关联度阈值则剔除。将所有数据按照上述方法以此计算分析,得到关联度。
2.2 基于灰色关联分析的关联规则Apriori算法分析
2.2.1交通事件变量因素分析
将关联规则Apriori算法用于数据分析,可分析各因素之间的联系。根据公式(5)、公式(6)可确定各因素属性值的支持度以及置信度。设置最小支持度为0.1[5],以月份为例,1月的支持度为0.153,2月的支持度为0.117,3月的支持度为0.075,由于0.153(1月)>0.117(2月)>0.1,说明1月和2月对事件发生影响较大,对其进行保留,反之则剔除。
将所有的数据按照上述方式进行计算,可得到各自因素的支持度,对小于设定的支持度时直接剔除。对于属性值小于0.1的因素进行剔除,对其他因素数据保留进一步分析。
2.2.2交通事件关联分析
设置最小支持度0.1,最小置信度为0.5[5],对数据进一步分析,当满足强规则时说明具有两者之间具有强关联。强规则结果见表4。
?
根据表4对强规则进行分析,以第一条规则为例,w ays=1代表控制方式中的单向阻断;line=4代表发生线路中的G30线。规则1表示控制方式为单向阻断且发生在G30线的可能为23.6%,在控制方式为单向阻断的情况下有65.1%的可能发生在G30线。
针对上述规则,可以发现G30线路受影响较为严重,同时风吹雪天气容易造成路面积冰打滑且视线模糊,对行驶安全存在较大的威胁,考虑到行车安全各方面因素,大多进行双向阻断的控制方式。
3.结论
本文基于灰色关联与关联规则Apriori算法相结合对新疆交通事件进行分析,挖掘出强关联因素以及各因素之间的联系。分析结果表明该方法能够较好地对交通事件进行分析,具有一定的可行性与实用性,也为交通管理者提供了建议与帮助,进一步保证了人身安全。针对于此,为了进一步提升道路交通安全,交通安全预防,坚持安全教育为主,坚决杜绝违章现象的发生。C
引用出处
[1]人民日报.中国公路总里程已达484.65万公里畅通九州[EB/OL].http://www.Chinan news.com/gn/2019/07-19/8900098.shtm l,2019年07月19日09:21.
[2]新华网.我国道路交通事故降幅明显[EB/OL].http://www.xinhuanet.com/legal/2017-12/19/c_1122135897.htm,2017-12-1916:46:07.
[3]时宇杰.数据分析在道路交通事故中的研究与应用[D].浙江工业大学,2018.
[4]李淦山.云南省交通事故数据的分析研究[J].中国安全科学学报,2007(07):72-80+177.
[5]江山,宋柯,谢维成,潘成伟.基于灰色关联与Apriori算法的道路交通事故数据分析[J].公路工程,2019,44(04):67-73.
[6]刘昱岗,董道建.灰色关联弹性模型在公路客运量预测中的运用[J].公路工程,2015,40(01):253-256.
[7]AgrawalR.M ining Association Rule between Setsof Items in Large Databese[C]//ACM SIGMOD Conference on Management of Data.1993:263-236.
[8]曾子贤,巩青歌,张俊.改进的关联规则挖掘算法——M IFP-Apriori算法[J].科学技术与工程,2019,19(16):216-220.