APP下载

基于CIDAS数据与集成学习的电动两轮车骑行者伤害致因分析*

2022-05-14杜雨萌董傲然

交通信息与安全 2022年2期
关键词:行者机动车电动

魏 雯 杜雨萌 董傲然 秦 丹 朱 彤

(长安大学运输工程学院 西安 710064)

0 引 言

电动两轮车转向灵活,在骑行中呈现摇摆性、离散性,易与机动车流产生冲突,影响正常交通流;相比普通自行车,电动两轮车质量更大、车速更快,加之我国复杂的道路交通环境,一旦发生碰撞事故,将造成更加严重的后果。结合中国实际交通情况,有必要对电动两轮车与机动车的碰撞事故中电动车骑行者致伤因素进行进一步探究。

国内外针对涉及电动自行车的事故致因研究已经取得了一定的成果。Patrizia等[1]基于足够量的数据,对电动自行车单车碰撞的风险相关因素进行了研究,发现高骑行暴露(基于电动自行车使用时间和频率构建的新指标、值越大代表使用时间和频率越高)、男性骑行者、出行目的为上班或上学是电动自行车交通事故高风险因素。马国忠等[2]指出在电动自行车交通事故中,与机动车间的碰撞为事故的主要形式。王卫杰等[3]发现大中型货车和夜间无照明能显著增加电动车骑行者死亡或重伤的风险。江亮等[4]发现日均里程、风险驾驶行为、工作时长、冒险意识是影响电动车交通事故的重要因素。李英帅等[5]认为影响交通事故严重程度的最主要因素依次为车辆间事故类型、骑行者受伤部位、道路物理隔离类型等。

统计回归模型是探索各种事故决定因素之间关联的最广泛使用和最成熟的方法,但这些传统模型必须以1个有效的模型假设和适当的预定义关系为前提。此外,大多数研究假设因变量和自变量之间线性相关,忽略了变量之间的交互效应和非线性关系。

相比之下,机器学习模型更灵活,不需要假设,对大量复杂数据具有更大的适应性和处理能力,被广泛应用于交通安全研究领域。Parsa等[6]基于天气状况、事故和探测器数据,利用支持向量机(SVM)和概率神经网络(PNN)对芝加哥某高速公路的交通事故进行检测。Bao等[7]利用纽约市曼哈顿的出租车事故数据和人口、天气等数据,建立了时空卷积长短时记忆网络(STCL-Net)模型,用于预测事故风险。张文婧等[8]基于深度自动编码器(deep auto-encoder),利用2000—2015年公路事故伤亡数据构建预测模型,对2016—2020年的数据进行预测。柳本民等[9]基于SVM-RFE算法得到4个对追尾事故与连环追尾事故产生区别影响较大的因素:碰撞前首车的运动情况、道路限速、季节和车道数。然而,随着样本量和信息维度的增多,单一机器学习模型已经无法满足我们对模型精度的要求,于是集成学习方法被提出。集成学习将多个基学习器组合成1个强学习器,具有更好的预测精度和鲁棒性,为我们提供了处理非线性、多维度问题的条件。Wen等[10]从7年的撞车/违规记录中提取特征,比较了4种集成学习模型对昆山地区驾驶员的驾驶风险进行预测效果,其中GBDT模型的性能表现最佳。纪俊红等[11]基于1953—2018年我国交通事故数据构建样本集,利用AdaBoost算法集成多个LightGBM模型,建立了GSK-AdaBoost-LightGBM模型,预测我国道路交通事故死伤情况。Yang等[12]基于XGBoost模型,发现人口特征、土地使用和路网密度与涉及货车的事故高度相关。

综合以上分析,目前对电动两轮车相关事故的影响因素研究较多,机器学习尤其是集成学习模型也被广泛应用于交通安全研究,但综合考虑道路环境、电动两轮车及其骑行者、机动车及其驾驶人等多方面因素的研究相对较少,更少有关于对电动两轮车设计参数方面的研究。因此,笔者基于数据挖掘技术和机器学习模型,系统整合事故信息、道路信息、电动两轮车信息、电动两轮车骑行者信息、机动车信息和机动车驾驶员信息等6个方面的因素,选用随机森林、XGBoost和LightGBM中表现最佳的LightGBM模型对电动两轮车骑行者伤害严重程度进行预测,并用SHAP值探索关键因素对电动两轮车骑行者死亡事件的影响,旨在为深入电动两轮车碰撞事故研究和完善相关安全法规、优化电动两轮车安全性能提供参考。

1 数据说明

1.1 变量设置

笔者从CIDAS数据库查询了2014—2018年发生的2 960起电动两轮车与机动车碰撞事故,其中电动两轮车与机动车发生碰撞的占比最大,达到42.1%,共1 246起。使用这1 246起电动两轮车与机动车发生碰撞的事故作为分析对象,统计了51个与电动两轮车骑行者受伤严重程度相关的因素,包括事故、道路、电动两轮车、电动两轮车骑行者、机动车,以及机动车驾驶员等6个方面因素,由于篇幅限制,仅列出基于受伤严重程度为死亡的数据,SHAP值排名前20的变量,根据研究需要对其中部分连续变量进行离散化,数据离散以等距分割、整数为界、类别量适中、占比均衡为标准,具体变量信息见表1。为方便表示,文中图表变量后的数字“1”“2”分别表示“电动车骑行者”和“机动车驾驶人”属性,如“性别1”表示电动车骑行者性别,“性别2”表示机动车驾驶员性别。

表1 自变量分类表Tab.1 Classification of independent variables

选取电动两轮车骑行者交通事故中的受伤程度为目标变量。将电动自行车骑行者受伤程度分为3类:仅财产损失事故、受伤事故、死亡事故。将原始数据集按电动两轮车骑行者受伤严重程度归类统计,结果见图1。

图1 电动两轮车骑行者受伤严重程度分布Fig.1 Injury severity distribution of electric two-wheeler riders

1.2 数据平衡

由上述统计结果可知:交通事故中电动两轮车骑行者受伤严重程度非常不平衡,这会直接影响到分类器模型的训练,分类结果会偏向于占比较大的类别。过采样方法处理不平衡样本的常见方法,本研究使用Smote算法对训练数据进行过采样以提高模型性能,而测试数据则使用原始数据。Smote是合成过采样算法的改进方法,其基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使原始数据中各类别占比达到均衡[13]。

2 模型建立

2.1 集成学习分类模型

集成学习将多个基学习器组合成1个强学习器,以达到减小预测方差或偏差的目的。通过并列生成多个基学习器以投票表决方式生成结果的方法称为Bagging;通过不断拟合之前学习器残差来提升模型表达能力的方法称为Boosting。

本研究采用的LightGBM(light gradient boosting machine)分类模型是基于boosting集成思想最先进的算法之一,旨在解决GBDT和XGBoost算法应用于高维输入特征和大数据量问题时的效率和可伸缩性问题[14]。LightGBM选择基于Histogram的决策树算法和按叶子节点生长的树生成策略,结合2种创新技术解决了上述问题:基于梯度的单侧采样(GOSS)和互斥特征绑定(EFB)。首先,LightGBM使用GOSS方法来分割内部节点。该方法的主要思想是采样时保留梯度大的样本点,而对于梯度小的样本点则按比例进行随机采样。然后,EFB方法能够将高维性和稀疏性特性捆绑到1个特征包中来降低特征维度,在不影响准确性的情况下加快训练过程[15]。

2.2 分类模型效果对比

机器学习中二分类混淆矩阵见表2。采用的分类性能评价指标及具体含义见表3。

表2 二分类混淆矩阵Tab.2 Dichotomous confusion matrix

表3 二分类问题评价指标及含义Tab.3 Evaluation indexes and meanings of dichotomous problems

对于多分类问题,其准确率定义与二分类相同,即预测正确的样本占总样本的比例,其他评价指标的计算方法由二分类问题转化而来,分别为加权查准率(weighted-P)、加权查全率(weighted-R)和加权F1-Score(weighted-F1),计算方法见式(1)~(3)。

式中:n为多分类问题中两两类别组合形成的二分类混淆矩阵个数;Pi和Ri分别为二分类混淆矩阵的查准率和查全率;ωi为每个类别样本在总样本中的占比。

将LightGBM的性能与基于Bagging思想的典型算法随机森林[16]和另1种流行的Boosting代表算法XGBoost[17]进行比较。为了确保公平,3种模型的训练及测试都基于相同的数据集,随机选取70%的数据进行模型训练,剩余30%的数据用来对模型性能进行测试。3种分类模型性能指标见图2。由图2可知:LightGBM模型表现最好。因此,采用LightGBM算法构建分类模型,对模型的分类性能进行进一步分析并探索关键因素对分类结果的影响。

图2 模型评估指标Fig.2 Model evaluation indexs

2.3 LightGBM分类模型建立

基于上述比较结果,将网格搜索法结合10折交叉验证对LightGBM模型参数进行优化,结果见表4。LightGBM算法可直接利用categorical_feature参数指定自变量中的类别特征。

表4 LightGBM模型参数优化结果Tab.4 Optimization results of LightGBMmodel parameters

3 基于LightGBM的建模结果分析

3.1 模型分类评估

图3为测试集上LightGBM分类模型对电动两轮车骑行者3种受伤严重程度的分类结果。由图3可知:仅财产损失事故、受伤事故和死亡事故预测正确样本数分别为1,302和19,各受伤严重程度预测效果具体评估指标见表5。模型总体准确率为86.1%,考虑测试集数据分布的不均衡性,LightGBM模型在保证全局最优的前提下出色地完成了预测电动两轮车骑行者受伤严重程度的任务。

图3 三分类混淆矩阵Fig.3 Tripartite confusion matrix

表5 LightGBM分类模型预测效果Tab.5 Prediction effect of LightGBM classification model

3.2 预测变量特征重要性

SHAP(shapley additive explanations)是1种博弈论方法,它的核心思想是计算特征对模型输出的边际贡献,再从全局和局部2个层面对“黑盒模型”进行解释。SHAP构建1个加性的解释模型,所有的特征都视为“贡献者”。对于每个预测样本都产生1个预测值,SHAP值就是该样本中每个特征所分配到的数值。以LightGBM分类模型适配SHAP模型解释器,根据事故特征的平均绝对SHAP值排序,取排名前20的特征进行可视化,分别得到反映3种预测结果的柱状图,见图4。由图可知,电动两轮车骑行者对事故发生地的熟悉程度、电动自行车骑行者被抛出距离、电动两轮车骑行者性别等是显著的致伤、致死因素;此外,座位高度、车把宽度、车把设计形式等作为以往研究中较为少见的变量,值得进一步研究。

图4 SHAP值排序Fig.4 Ranking of SHAP value

3.3 基于SHAP的事故影响因素分析

上述SHAP值排序可以直观显示各特征对分类结果的影响程度,但只有清楚各特征对结果是如何作用的才能帮助决策者更好地制定相关措施,从而有效减少交通事故。由于研究重点在于对电动两轮车骑行者受伤严重程度的影响因素分析,故选取最严重的死亡事故进一步分析。图5的SHAP值汇总图定性描述了死亡事故和事故特征之间的总体关系。按照特征重要性由大到小取前20个特征进行可视化。图中每个点代表1个样本,样本点多少可以反映出每个特征各取值的占比,好的特征应该将样本明显分散开来。不同颜色代表当前特征取值高低。横坐标为SHAP值,其大小代表特征对结果的影响程度,SHAP值为正代表该特征对死亡事故的发生有正向作用,SHAP值为负代表该特征对死亡事故的发生有负向作用。

图5 死亡事故SHAP值汇总图Fig.5 SHAPvalue summary of fatal accident

为了量化单个特征如何影响LightGBM模型的输出,选取抛出距离这一特征绘制边际效应图,观察抛出距离对死亡事故的影响情况。结果见图6。

图6 抛出距离边际效应Fig.6 Marginal effect of throw distance

结合表1各特征变量的取值可知,抛出距离小于5 m时SHAP值为负,抛出距离大于5 m时SHAP值为正,且SHAP值随着距离的增加变大。这说明碰撞后电动两轮车骑行者的被抛出距离很小(<5 m)时,不易发生死亡事故,但当电动两轮车骑行者被抛出距离超过5 m时,死亡风险随着抛出距离的增加而增加,故抛出距离这一特征很大程度上可以直接反映死亡事故的发生概率。选取抛出距离为交互特征绘制部分依赖图,结果见图7。横轴表示特征取值,左纵轴为SHAP值,描述对应特征对LightGBM模型输出的贡献,右纵轴用来描述交互作用,说明与所研究特征相互作用的抛出距离的取值。从事故及道路环境、电动两轮车、电动两轮车骑行者这3个方面对其中的典型特征进行分析。

在与事故及道路环境相关的特征中,道路类型、事故地点、机动车类型等因素对结果影响较为显著。如图7(a)所示,发生在市区内的电动两轮车和机动车碰撞事故中,电动两轮车骑行者死亡风险低,而发生在市区外的碰撞死亡风险升高,我们有理由认为,这是因为郊区、乡村等地的道路设计不规范,没有进行机非分离,加之基础设施不完善,交通管控不严格,违规驾驶现象时有发生,增加了事故率;同时市区内车辆与行人的高度互动以及较大的交通量,导致其限速往往低于市区外,而较高的车速往往导致较为严重的交通事故,其他学者也得出了相似的研究结论[18]。图7(b)所示的道路类型部分依赖图显示,公路这一道路类型明显增加了事故的死亡风险,这可能是因为公路上机动车车速快,且有货车等大型车辆,结合图7(c)车辆类型对死亡风险的影响可知,载重物车辆由于其车速快、载重量大,一旦交通事故发生,其致死风险要明显高于一般乘用车。

在与电动两轮车相关的特征中,图7(d)显示带脚蹬的电动两轮车更容易发生死亡事故,虽然GB 17761—2018《电动自行车安全技术规范》[19]新国标中规定电动自行车必须配备脚蹬,但结合实际情况来看,其存在一定的安全隐患。电动两轮车车轮比一般自行车小,利用脚蹬骑行慢且费力,甚至不如推行;且电动两轮车一般用于短距离出行,用户使用前都会提前充好电,必要时可以到就近充电桩充电。装配脚蹬一方面无形间增加了电动车的宽度,在通过一些比较狭小或者带路墩的路段时,很容易误伤别人或自己;另一方面,脚蹬在用户上下车时容易刮擦小腿,骑行中又容易卷起树枝,塑料袋等异物,甚至将其卷入车轮中,严重影响骑行安全,遇到雨雪天气还会甩起泥浆,给用户带来不变。所以,电动两轮车配备脚蹬这一规定值得进行更深入的考虑。图7(e)显示座位高度大于70 cm,电动两轮车人骑行者在事故中的死亡风险更小,这是因为电动两轮车座位过低,骑行者大腿与小腿呈锐角,不利于下肢活动,影响了骑行者的灵敏性。图7(f)~(g)显示,电动两轮车的车把宽度为61~65 cm,车把设计形式为向后弯曲或牛角状时,对死亡事故的发生有明显的抑制作用,这样的设计更符合人类手部生理特征,使得骑行中手既能着力抓握操控车辆又不易产生疲劳。

在与电动两轮车骑行者相关的特征中,图7(h)显示男性骑行者更容易发生死亡事故,这可能是由于男性骑行者在驾驶电动自行车时更易出现危险驾驶行为,如超速行驶、违法改装电动自行车、骑车分心等[1]。图7(i)显示电动两轮车骑行者年龄在30~50岁时发生死亡事故相对较少,原因是骑行者年龄过小,经验缺乏,对危险认识不足且更易冲动[20];而骑行者年龄过大,由于视力、反应速度、动作灵敏度等因素限制,对外界反应能力减弱且身体状况不佳,导致其事故率较高,且事故后果更为严重[21]。

图7 SHAP部分依赖图Fig.7 SHAP dependence plots

此外,电动两轮车骑行者对事故发生地的熟悉程度作为对总体预测结果影响最大的因素,研究发现了1个有趣的现象见图8:电动两轮车骑行者在越熟悉的地方越容易发生受伤事故,而死亡事故的发生则多在电动两轮车骑行者不熟悉的道路环境中。这可能是由于骑行者在熟悉环境中的警惕性不足,对周围环境的观察不够细致,更容易发生交通事故。但就死亡事故来说,骑行者对环境的熟悉程度很重要,对周边环境越熟悉,就越可以迅速做出适当的反应,以免产生更严重的后果。

图8 电动两轮车骑行者对事故发生地的熟悉程度边际效应Fig.8 The marginal effect of electric two-wheelers riders'familiarity with the place where the accident occurred

4 结束语

1)基于CIDAS数据比较3种集成学习模型的分类性能,发现LightGBM分类模型在预测电动两轮车与机动车碰撞事故中电动两轮车骑行者的受伤严重程度时,预测准确率达到86.1%,相较于随机森林和XGBoost模型具有更好的适用性。

2)基于LightGBM分类模型,根据SHAP值排序结果得到对电动两轮车骑行者受伤、死亡事故影响较大的因素,如电动两轮车骑行者对事故发生地的熟悉程度、电动两轮车骑行者被抛出距离、电动两轮车骑行者性别等。

3)进一步分析发现,电动两轮车骑行者被抛出距离很小(<5 m)时,不易发生死亡事故,但当骑行者被抛出距离超过5 m时,死亡风险随着抛出距离的增加而增加;道路环境致死风险因素包括公路、市区外、与载重物车辆相撞等;座位高度大于70 cm、车把宽度为61~65 cm、车把设计形式为向后弯曲或牛角状时可有效避免死亡事故的发生,同时建议充分考虑电动两轮车加装脚蹬的必要性和安全性,对相关标准进行修订;男性电动两轮车骑行者相对女性而言事故风险更大,骑行者年龄在30~50岁、对事故发生地更为熟悉,都是降低死亡风险的关键因素。

在以后的研究中,将考虑对事故特征进行更加合理地筛选和分类,提高数据来源的专业性和准确性,同时探索更加高效的适用于事故伤害严重程度分类的模型。

猜你喜欢

行者机动车电动
做“两个确立”的忠实践行者
由一起厂内机动车事故引发的思考
逆行者
电动自行车
Cлово месяца
最美逆行者
铁路机动车管理信息系统
纯电动重卡展会遇冷
MINI 电动概念车
基于Cruise的纯电动客车动力系统匹配