APP下载

考虑碰撞角色的双车事故驾驶伤害程度研究

2022-03-22靳文舟裴晓航汤左淦姚尹杰

深圳大学学报(理工版) 2022年2期
关键词:驾驶员程度变量

靳文舟,裴晓航,汤左淦,2,姚尹杰

1)华南理工大学土木与交通学院,广东广州 510640;2)深圳市城市交通规划设计研究中心,广东深圳 518057

交通事故会造成巨大的人员伤亡和财产损失,因此,交通伤害程度的影响因素分析非常重要[1].已有研究主要从人、车、路和环境要素出发,探讨各因素对交通事故伤害程度的影响.如马柱等[2]分析了天气、能见度等环境因素和道路条件、道路横断面等道路特征与城市事故伤害程度的关系.冯忠祥等[3]分析了环境因素对绕城高速公路事故伤害程度的影响.温惠英等[4]以翻车事故为研究对象,分析人、车、路、环境及事故特征对事故伤害程度的影响.HOSSEINPOUR等[5]建立对象碰撞事故伤害程度模型,发现道路特征及事故周边环境与事故伤害程度显著相关.以上研究仅分析单一因素对事故伤害程度的影响,较少考虑因素间的交互作用.

目前,交通事故伤害程度的建模方法主要为logit/probit模型及其拓展形式,包括二元logit模型[3]、巢式logit模型[6]、有序logit模型[7-9]、随机参数logit模型[10]及潜类别logit模型.也有研究采用机器学习方法对交通伤害程度进行分类预测,如SVM[12]与决策树模型[13]等.鲜有机器学习方法和logit模型相结合分析交通事故伤害程度的研究.

在双车事故中,驾驶员的伤害程度不仅取决于驾驶员自身特征与所驾驶车辆的特征,还取决于对方驾驶员与对方车辆的特征,因此,分析碰撞角色对厘清双车事故中驾驶员伤害程度的影响因素具有重要意义.一般将事故形态划分为正面碰撞、直角碰撞、侧面碰撞及追尾碰撞,不同事故形态对驾驶员事故伤害程度具有不同影响.然而,由于碰撞角色不同,即使同一种事故形态下,不同车辆中的驾驶员受损伤的特征也不尽相同,如发生追尾碰撞时,后车(主动撞击)驾驶员很有可能因为撞击冲力被向后推至座椅上,易导致颈部受伤.由于此类事故的生物力学特性,后车驾驶员容易遭受更严重的事故伤害[14].涉事车型与碰撞角色的关系也非常密切,如当普通小汽车追尾大货车时,由于车辆高度差异,普通小汽车极有可能碰撞至货车尾部,使小车被削顶从而导致驾驶员受伤或死亡,而由于离碰撞点位较远,大货车驾驶员较不容易受伤[15].

本研究基于中国深圳市的交通事故数据,结合随机森林(random forest,RF)算法和logit模型的优势,建立考虑碰撞角色交互项效应的双车事故驾驶员伤害程度模型,着重考虑碰撞角色与事故形态、车型的交互效应,分析其对驾驶员伤害程度的影响.

1 研究方法

1.1 随机森林模型

随机森林法也称为随机决策森林法,是一种可以同时研究分类和回归问题的集成学习方法,常被应用于交通事故伤害研究中,用于筛选重要因素[16-17].为避免logit模型出现过拟合情况,本研究采用随机森林模型,根据因素的重要度选取候选自变量.

随机森林法通过自助重采样技术,从原有样本集N中,有放回地重复随机抽取T个样本,以生成新的训练集(Nt).随后由T个新的训练集,生成T个对应的决策树,最终组成随机森林模型.算法流程可扫描论文末页右下角二维码查看图S1,具体步骤如下.

步骤1对于一个由X1,X2,…,Xk组成给定样本集N,通过T次随机可重复釆样,构建随机向量集N1,N2,…,NT.

步骤2基于每一个随机向量Nt,构建一棵决策树.

步骤3重复步骤1和步骤2,最终可以得到T棵决策树.

步骤4运用得到的T棵决策树分别对输入变量Xk进行投票.

步骤5通过计算所有投票数,找出所有预测结果中票数最高的值作为输入变量Xk的分类标签.

在生成每一颗决策树时,计算袋外错误率,记为EOOB1,同时在为特征Xk加入随机噪声后,再次计算该值,记为EOOB2,则特征Xk的重要度为

重复式(1),则可计算出所有特征的重要度,并进行排序.

1.2 logit模型

采用logit模型对驾驶员伤害程度进行建模.首先定义线性潜变量s*为

其中,X为自变量,如事故形态、使用安全带及驾驶员年龄等;β为自变量的估计参数集合矩阵;ε是误差项并服从logistic分布.通过搭建分段函数,建立s*与第i个驾驶员的伤害程度yi的关系为

根据式(2)和式(3)可以推导出yi=1的概率为

其中,ϕ(·)为logistic分布的累积概率分布函数.进一步将式(4)代入logistic分布的概率密度函数,则可得logit模型的一般形式为通过构建式(5)的最大似然函数,并求其极大值即可估计出logit模型的模型参数.

1.3 拟合优度检验

在构建好logit模型后,需要对其拟合优度进行检验,第1种检验方法为计算模型的R2指标,即其中,l为模型的对数似然收敛值;l0为对数似然初值;R2∈[0,1],一般认为当R2≥0.2时,所建立模型的拟合优度较高.

第2种检验法为似然比检验,常用于比较不同模型间的优劣,其检验公式为

其中,χ2为似然比检验统计量.

2 数据描述及变量选取

选取深圳市2018—2020年的一般程序事故为研究样本.由于研究对象为双车事故中的驾驶员伤害程度,故需对事故数据进行预处理,步骤如下.

首先,考虑到本研究的双车事故仅为涉及2辆4轮及以上机动车的一般程序事故,因此,将交通方式涉及摩托车、电动车、行人、三轮电动车、三轮汽车及拖拉机的事故样本全部删除,同时删除单个车辆和涉及多个车辆的事故.

其次,交通事故系统中包含的字段数超过200个,故在正式分析前需要删除无关字段.同时,剔除相关字段存在缺失数据的样本,最终剩下2 642个样本.本研究的因变量为驾驶员伤害程度,分为未受伤、轻伤、重伤和死亡,各类别占比分别为97.74%、3.10%、0.38%和1.78%.轻伤及以上的样本仅占5.26%,为提高参数估计的准确性,将轻伤、重伤和死亡类别合并为“受伤害”类别,故最终因变量包含两类,分别为未受伤和受伤害.

本研究选取中央隔离设施、主要违法行为、次要违法行为、事故形态、事故责任、交通控制方式、交通方式、人员类型、号牌种类、在碰撞中角色、天气、安全保护装置使用情况、性别、年龄、文化程度、是否超载、横断面位置、照明条件、能见度、血液酒精含量、行政区划分、路侧防护设施类型、路表情况、路面状况、车辆使用性质、车辆间事故碰撞形态、道路类型、道路线形及驾龄共29个因素作为随机森林模型的特征输入.

进行随机森林模型训练前,将所有自变量转化为离散变量.对于二分类自变量,如是否超载,在模型拟合时可直接纳入模型;而对于m类自变量,则需进行哑元转换,只能纳入m-1个虚拟变量,见表1.考虑到本研究中大部分自变量包含多个类别,若直接将全部虚拟变量纳入模型,会使模型过于庞大,导致模型过拟合.因此,建模前先利用随机森林模型计算每个虚拟变量的重要度,根据排序确定最终纳入模型拟合的自变量.

表1 哑元变量事故责任转换赋值Table1 Assignment transform of dummy variable crash duty

利用Python中的sklearn包构建随机森林模型,由于模型主要目的是通过计算特征变量的重要度来筛选候选自变量,故不报告随机森林模型结果.选取重要度阈值为0.02,最终选取前24个重要度较高的虚拟变量作为候选自变量,结果可扫描论文末页右下角二维码查表S1.

3 参数标定及结果分析

3.1 参数标定

首先,将候选自变量全部纳入logit模型中拟合,分别选取90%、95%和99%为置信水平,并利用最大似然法进行模型参数估计,结果见表2中的模型1.结果显示,部分责任、全部责任、被撞、货车、追尾碰撞、3~10 a驾龄、能见度≤100 m、碰撞运动车辆、高中及以上学历、高快速路、使用安全带、侧面碰撞、路侧无防护、无路灯照明与驾驶员伤害程度显著相关.

表2 模型参数估计结果1)Table2 Model estimation results

为研究碰撞角色与车型和事故形态对双车事故驾驶员伤害程度的交互影响,分别建立仅包含碰撞角色与车型交互项的模型2、仅包含碰撞角色与事故形态的模型3和包含两个交互项的模型4.结果显示,碰撞角色与车型的交互项和碰撞角色与事故形态的交互项均在99%的置信水平上显著.

模型1是基础模型,目的在于估计各解释变量对因变量的净效应;模型2和模型3均为交互效应模型,分别估计碰撞角色与其他主要解释变量(车型和事故形态)的交互效应,从而检验碰撞角色对驾驶员伤害程度的影响是否在不同车型与事故形态下存在显著的差异性.模型4是包含所有解释变量和交互项的最终模型.根据模型1至模型4的相关统计量结果(见表3),随着交互项的增加,拟合优度增加较明显,从模型1的0.292增至模型4的0.322.为验证模型4优于模型1,本研究还进行了似然比检验,结果见表4.可见,加入交互项的模型4在100%的置信水平上优于模型1,且赤池信息量(Akaike information criterion,AIC)和贝叶斯信息量(Bayesian information criterion,BIC)低于模型1,表明考虑交互项模型的拟合优度更高.似然比检验结果:χ(2)=65.6(P=0.000 0)

表3 相关模型统计量Table3 Summary of model statistics

表4 似然比检验结果Table 4 LR test results

1)碰撞角色.当不包含交互项时,“被撞”的参数估计为-0.984,符号为负,表明相比于主动碰撞的驾驶员,被撞车辆中的驾驶员受伤害的概率将降低62.6%,这主要是因为被撞车辆的后备箱和后排座位具有缓冲作用,而碰撞车辆中驾驶员离碰撞点位更近,故被撞车辆的驾驶员更不易受伤.

当加入交互项后,该效应同样存在.“被撞与货车交互项”的系数为-0.758,且在99%的置信水平上显著,表明当被撞车辆为货车时,货车中的驾驶员遭受伤害的概率更低,这主要是因为货车的质量大且更稳定,撞击发生时货车驾驶员受到的冲击力更小.当发生追尾碰撞时,该效应更明显.前车驾驶员遭受伤害的概率将降低89.3%.

2)事故责任.部分责任和全部责任均显著影响驾驶员伤害程度,但两者的符号相反.负全部责任的驾驶员遭受伤害的概率更低,更容易导致另一方受伤害,这与前人研究结果一致[18].当驾驶员负部分责任时,驾驶员遭受伤害的概率更高.

3)车型.在仅考虑车型条件下,货车驾驶员更容易遭受伤害,这主要是由于货车自身的质量大和几何结构复杂而具备更高的攻击性所导致.

4)事故形态.相比侧面碰撞和直角碰撞,涉及追尾碰撞的驾驶员更容易遭受伤害,这是由于追尾碰撞的原因大多为速度较快,未控制好车距所致[7].

5)驾龄.“3~10 a驾龄”的系数为正,且在90%的置信水平上显著,表明相比于10 a以上驾龄,3~10 a驾龄的驾驶员更容易发生严重事故.

6)能见度.“能见度<100 m”的系数为-0.718,表明低能见度下驾驶员遭受伤害的概率更低,这是因为低能见度条件下,驾驶员出于谨慎会降低车速行驶,故发生碰撞时的后果不严重.

7)车辆间碰撞形态.相比于运动车辆碰撞静止车辆,运动车辆间碰撞会导致驾驶员遭受伤害的可能性提高71.6%.

8)学历.高中及以上学历的参数估计为0.474,且在90%的置信水平上显著,表明高中学历人群遭受伤害的概率更高.

9)道路等级.当双车事故发生在高快速路时,驾驶员遭受伤害的概率将是其他道路等级的2.49倍.这是因为高快速路为封闭型道路,车辆行驶速度较高,高速运动车辆间的碰撞后果往往更严重.

10)安全保护装置使用.使用安全带会显著降低驾驶员的受伤害程度.事故样本中有81.42%的驾驶员使用了安全带,这主要得益于深圳市的严格道路执法.

11)路侧防护设施类型.当事故发生在无防护的道路上时,驾驶员遭受伤害的概率更低.这主要由于无防护道路多为低等级道路,如支路或内部道路,低等级道路的机动车间碰撞事故严重性较低.

12)照明条件.相比于良好的光线条件(白天和夜间有路灯照明)下,夜间无路灯照明条件下驾驶员遭受伤害的概率将会增加153.2%.

结 语

本研究基于深圳市2018—2020的双车事故碰撞数据,利用随机森林模型计算特征变量的重要度并进行排序,据此初步筛选24个特征变量作为候选自变量.考虑碰撞角色的交互效应,建立驾驶员伤害程度的logit模型,结果表明,建立的logit模型具有较好的拟合优度,且优于不含交互项的模型.模型估计结果显示碰撞角色、事故责任、车型、事故形态、驾龄、能见度、车辆间碰撞形态、学历、道路等级、安全保护装置使用情况、路侧防护设施类型及照明条件与双车事故驾驶员伤害程度显著相关.碰撞角色与车型和事故形态的交互项均显著,且均与驾驶员伤害程度呈负相关.

本研究仅考虑“碰撞角色”与事故形态、车型的交互作用对驾驶员伤害程度的影响,接下来可通过引入其他交互项进行分析,以便更深入分析其他交互项对双车驾驶员伤害程度的影响机理.

猜你喜欢

驾驶员程度变量
基于高速公路的驾驶员换道意图识别
基于眼动的驾驶员危险认知
驾驶员安全带识别方法综述
精致和严谨程度让人惊叹 Sonus Faber(意大利势霸)PALLADIO(帕拉迪奥)PW-562/PC-562
抓住不变量解题
男女身高受欢迎程度表
基于matlab的纯电动客车驾驶员行为分析
分离变量法:常见的通性通法
将内燃机摩擦减小到最低程度
幸福的程度