基于H2O自动化机器学习的电动自行车交通违法行为影响因素分析
2024-12-31申远戴帅赵琳娜杨钧剑侯志贤
摘" 要:随着电动自行车保有量的逐年增长,电动自行车交通事故死亡人数占交通事故总死亡人数的比例在不断增加,在此背景下,探究电动自行车违法行为影响因素对降低事故率和事故严重程度具有重要意义。该研究使用厦门岛内电动自行车违法行为数据,基于H2O自动化机器学习(AtuoML)算法对电动自行车的违法行为进行影响因素分析,并与随机森林(RF)算法进行对比,结果表明H2O自动化机器学习具有更好的预测精度和效率。此外,研究中还引入建成环境变量。研究结果表明,小型商铺、居民小区等建成环境对违法行为具有正向影响,且小型商铺在众多影响因素中占主导地位。
关键词:交通安全;自动化机器学习;电动自行车违法;建成环境;随机森林
中图分类号:U491.31" " " 文献标志码:A" " " " " 文章编号:2095-2945(2024)36-0017-06
Abstract: As the number of electric bicycles increases year by year, the proportion of electric bicycle traffic accident deaths in the total number of traffic accident deaths continues to increase. In this context, exploring the factors influencing electric bicycle illegal behaviors is important for reducing accident rates and accident severity. significance. This study used data on illegal behaviors of electric bicycles in Xiamen Island to analyze the influencing factors of illegal behaviors of electric bicycles based on the H2O automated machine learning (AutoML) algorithm, and compared it with the Random Forest (RF) algorithm. The results show that H2O automated machine learning has better prediction accuracy and efficiency. In addition, built environment variables were also introduced into the study. The research results show that built environments such as small shops and residential areas have a positive impact on illegal activities, and small shops dominate among many influencing factors.
Keywords: traffic safety; automated machine learning; illegal electric bicycles; built environment; Random Forest (RF)
随着城市化进程的加速和交通需求的日益增长,电动自行车因其便捷性、经济型及环保性,在全球范围内迅速普及,电动自行车的安全问题也受到了越来越广泛的关注。尽管电动自行车的安全问题越来越受到重视,但关于电动自行车违法行为的系统性研究相对较少,现有研究大多集中在对交通事故的描述性统计和影响因素分析上。马景峰等[1]研究了骑行者性别、年龄、电动自行车类别等因素对电动自行车交通事故的影响。Wang等[2]研究了骑手对交通法规熟悉程度和头盔使用与电动自行车碰撞间的关系。上述研究为电动自行车违法行为影响因素的选择提供了一定参考,但仍不全面,例如未考虑建成环境因素,其作为影响人们出行行为的重要因素,理应被纳入电动自行车违法行为研究的影响因素范畴。
随着模型与算法的进步和发展,学者们开始将更多样、更先进的统计模型和机器学习模型应用于交通事故与违法行为的研究。范浩轩等[3]运用卡方检验方法分析交通违法行为与潜在影响因素之间的关系。Huang等[4]使用GWPR模型发现,车祸与建筑环境之间关系的强度和方向随空间变化而变化。随着机器学习算法的快速迭代,自动化机器学习(AutoML)使用广泛的搜索算法来探索模型和参数的最优组合,极大简化了传统机器学习的工作流程复杂性。然而自动化机器学习(AutoML)在交通安全领域的研究中应用较少,其能否解决复杂的交通问题仍然缺乏足够的探索。
综上,本研究以厦门岛为研究区域,考虑使用H2O平台的自动化机器学习(AtuoML)算法构建电动自行车违法行为的影响因素模型,并在特征变量中加入建成环境因素,旨在为降低电动自行车事故严重程度和违法率,制定有效交通政策和预防措施提供理论支撑。
1" 数据基础
1.1" 数据获取与处理
1.1.1" 道路数据
本研究所用的厦门岛路网数据来源于OpenStreetMap(OSM),采集于2023年8月,数据属性主要包含道路名称、道路等级、道路空间位置等。具体道路等级分为主干道(图1)、次干道(图2)、支路(图3)3种类型。由于快速路禁止非机动车通行,因此将快速路排除掉。
使用ArcGIS软件对道路数据进行拓扑修正,将所有道路融合后再以200 m作为间隔进行分割。各类型道路长度、占比及分割数量见表1。
1.1.2" 电动自行车交通违法行为数据
本研究使用2021—2023年厦门市电动自行车交通违法行为数据,提取厦门岛内的违法行为记录,共22 832起,数据属性包括编号、违法行为发生时间、违法地点和违法行为类型等。同时使用高德API的地理编码服务批量获取违法地点的经纬度坐标。
由于违法行为的研究需要考虑其空间效应,本研究没有直接统计电动自行车违法行为的频数作为研究变量,而是使用核密度估计法,将违法行为密度均摊到道路上,并将道路分割为200 m的路段,作为研究单元。利用ArcGIS软件对电动自行车违法行为进行核密度分析,违法行为密度结果如图4所示。
1.1.3" 建成环境数据
在当代城市规划和环境研究中,建成环境指人类制造或改造的空间及其配套的基础设施,是人类活动发生的物理场所。Cervero等[5]于1997年提出建成环境“3D”模型并被广泛应用于交通领域研究,后于2009年拓展为“5D”模型。本研究选取与交通行为相关的兴趣点(POI)、多样性变量中的土地利用混合度,以及设计类变量中的交叉口密度作为研究变量。研究使用的POI数据来源于高德地图API提供的2022年厦门岛内的POI数据,从中选取了11类与违法行为研究较为密切的类别作为特征变量,分别为餐饮、地铁、公交、公司企业、居民小区、教育机构、商业大厦、小型商铺、休闲娱乐、医疗机构和银行,并统计路段半径300 m范围内的各个POI数量,作为特征变量。其具体分布如图5所示。
本研究基于熵方法计算土地利用混合度,如果一个区域的土地被多种用途平均分配使用,那么它的熵值较高,意味着高度的混合和多样性;相反,如果土地使用非常集中,即某一种或几种用途占主导,则熵值较低,反映出混合度较低,其计算公式如下所示
通过ArcGIS软件计算,厦门岛土地利用混合度如图6所示。
交叉口密度与POI数据的处理方式一致,为路段半径300 m范围内的交叉口数量,并整合到路段上,如图7所示。
1.2" 数据关联
以200 m路段为研究单元,利用ArcGIS等相关工具将违法行为密度、道路类型、POI数据、土地利用混合度和交叉口密度等数据汇总到路段单元中,形成以违法行为密度为目标变量,其他为特征变量的电动自行车违法行为数据库,用于后续的H2O自动化模型的分析,数据库中所有特征变量的描述见表2。
2" 模型构建与结果分析
2.1" 模型介绍
H2O是一个由H2O.ai 公司开发开源的机器学习和数据分析平台,使自动化机器学习技术得以在该平台上实现,即为H2O AutoML。H2O AutoML自动处理许多机器学习工作流程中耗时的步骤,这允许用户快速有效地开发和部署高质量的机器学习模型。H2O AutoML可以自动训练和交叉验证多种模型,包括但不限于深度学习、梯度提升机、随机森林和广义线性模型等,同时它不仅可以训练单个模型,还会尝试模型堆叠和集成技术来提升模型性能,并自动进行超参数调优,以找到最优模型配置。
随机森林(Random Forest,RF)是机器学习中常见的经典算法,广泛应用于多种领域,能够获得相对稳定、无差的预测结果,同时避免过拟合的发生。
2.2" 模型构建
本研究通过对比传统的随机森林(Random Forest,RF)模型与基于H2O AutoML技术构建的预测模型在交通违法行为中的预测准确性来验证所提出模型的效果。
将收集到的数据进行预处理后分别导入随机森林模型和H2O平台的AutoML框架中,通过split工具按照0.8∶0.2的比例对数据集进行随机分组,分组为训练集和测试集。在随机森林模型中设置learning_rate=0.1,n_estimators=500,max_depth=5,在AutoML框架下设置最大模型数量为60。
本研究采用常见的模型评估指标均方根误差(RMSE)和决定系数(R2)来评估模型的预测效果。均方根误差用来衡量预测值与真实值之间的误差,其值越小,则模型的拟合效果越好,预测准确性越高;决定系数用于评估回归模型的拟合度,其范围通常在0到1之间,越接近1表示模型的预测效果越好。
2个评估指标的计算公式如下
最终两模型的训练结果见表3。在H2O AutoML算法下RMSE为2.55,小于随机森林算法下的2.79;R2为85.26%,高于随机森林下的82.42%。
图8为测试集与预测结果的散点图,图中点大多分布在拟合线两侧,说明二者拟合效果较好,但相较于随机森林,H2O AutoML的点分布显然更加集中。
综上,相较于随机森林模型,H2O AutoML的预测效果更好,准确性更高,因此本文最终采用基于H2O AutoML技术构建的模型作为后续影响因素重要性分析的基准模型。
2.3" 结果分析
本研究采用H2O平台内部提供的SHAP(SHapley Addictive exPlanations)可解释框架和部分依赖图(Partial Dependence Plot,PDP )进行分析。
2.3.1" SHAP和PDP方法简介
SHAP可解释框架可以解释复杂的黑箱机器学习模型的预测结果,广泛应用于各种机器学习任务中,能够增强模型的可信度和可靠性。其具体计算原理如下。
首先,各个特征对某一个样本的预测值的影响可以表示为
式中:xi表示第i个特征值,?茁i表示特征i的权重,m表示总特征数。
假设E[f(z)]表示不考虑特征时预测的基准线,那么当加入一个特征xi时,其影响程度?准i可以表示为
式中:E(?茁ixi)表示特征i的平均贡献值,将每个特征的贡献值相加可以得到
所有特征的贡献之和即为模型的输出结果。
部分依赖图可以展示单个特征对预测结果的影响,用于解释预测模型中特定特征与预测结果之间的关系。其以图形方式描述了变量对响应的边际效应。
2.3.2 特征重要性排序
图9展示了14个特征变量的重要性排序,图中每个点即为样本在相应特征上的SHAP值,SHAP值大于0即对目标变量有正向影响,小于0对目标变量有负向作用。从图中可以看出,重要性程度排名前四的为小型商铺、居民小区、教育机构和医疗机构,且对违法行为密度呈现正向影响。
图10显示的是贡献度排名前四的特征变量的部分依赖图,可以看出小型商铺、居民小区、教育机构和医疗机构与预测结果基本上呈现上升趋势,且数量达到一定值后预测结果不再变化。
3 讨论与结论
通过上述解释模型的可视化结果可以看出,小型商铺、居民小区、教育机构、医疗机构、地铁和公交等特征对电动自行车违法行为密度具有正向影响,该结果与其他学者对电动自行车事故影响因素研究的结论类似[1,6],可见建成环境对违法行为和交通事故的影响在某种程度上具有共通性。
其中小型商铺的影响在众多影响因素中占主导地位,该结果与行人交通事故影响因素的研究相似[7],推测小型商铺对行人和非机动车具有更大的吸引力,小型商铺附近更容易发生与弱势群体有关的违法行为和交通事故。
此外,居民小区对违法行为的影响也较为显著。居民小区内外的交通情况较为复杂,且厦门岛内的居民区道路由于土地资源受限,一般设计的较为狭窄,且大部分未设非机动车道(图11),这导致人行道与非机动车道共板(图12)、机机动车道与非机动车道共板(图13)的现象非常普遍,违法行为发生的概率也会更高。
教育和医疗机构对违法行为的影响也是正向的,但影响没有前两者显著,其原因可能在于学校与医院其本身建设成本高,数量较少,影响范围有限,尤其对于电动自行车用户的影响,多集中于学校与医院方圆3~5 km范围内,正好是电动自行车出行的舒适范围。其他特征变量对电动自行车违法行为没有明显倾向趋势,其更深层次的影响结果需进一步探究。
综上,本研究通过构建电动自行车违法行为数据库和H2O AutoML模型,初步探究了电动自行车交通违法行为的影响因素,为电动自行车违法行为的治理提供思路和方法,也为后续进一步深入研究更多特征变量以及多因素的交互影响提供参考。
参考文献:
[1] 马景峰,任刚,李豪杰,等.电动自行车与机动车事故严重性影响因素分析[J].交通运输系统工程与信息,2022,22(2):337-348.
[2] WANG X,CHEN J,QUDDUS M,et al.Influence of familiarity with traffic regulations on delivery riders'ebike crashes and helmet use:Two mediator ordered Logit models[J].Accident:Analysis and Prevention,2021(159):106277.
[3] 范浩轩,任刚,李豪杰,等.基于电子执法数据的交通违法行为影响因素研究——以上虞区为例(英文)[J].Journal of Southeast University(English Edition),2021,37(2):227-236.
[4] HUANG Y, WANG X, PATTON D. Examining spatial relationships between crashes and the built environment: a geographically weighted regression approach[J]. Journal of Transport Geography, 2018(69):221-233.
[5] CERVERO R, KOCKELMAN K. Travel demand and the 3Ds: Density, diversity, and design[J]. Transportation research part D: Transport environmental Research Letters, 1997,2(3):199-219.
[6] 王菁,董春娇,李鹏辉,等.考虑建成环境的电动自行车事故严重程度致因分析[J].交通运输系统工程与信息,2024,24(1):179-187.
[7] 郭珮珺.基于社会感知数据的行人交通事故建模与影响因素分析[D].上海:华东师范大学,2014.