APP下载

考虑潜在类别的老年行人交通事故严重程度致因分析

2022-10-29焦朋朋李汝鉴王健宇葛浩菁陈越

交通运输系统工程与信息 2022年5期
关键词:类别行人集群

焦朋朋,李汝鉴,王健宇,葛浩菁,陈越

(北京建筑大学,通用航空技术北京实验室,北京 100044)

0 引言

2018年世界卫生组织统计数据显示,全球每年约135 万人死于道路交通事故,超50%是弱势道路使用者:行人、自行车和摩托车骑行者,行人和自行车骑行者死亡人数占总死亡人数的26%[1]。在中国,城市交通事故伤亡人数中行人占比超过30%[2]。行人作为交通系统中最弱势的参与者,其安全和风险问题值得更加关注。为解决上述问题,前人进行了大量研究来探讨影响行人伤害严重程度的因素,主要有以下几个方面:社会经济和人口特征、行人和驾驶员特征、时间和环境特征、道路条件、碰撞类型、车辆类型等[3-4]。其中,行人年龄是一个重要的伤害风险因素,65岁及以上的老年行人更容易在车祸中受到严重伤害。如Sze等[5]利用二元Logit模型从人口统计、碰撞、环境、交通特征这4个方面探究行人重伤和死亡的影响因素发现,65岁以上的老年人死亡概率更高;Yasmin 等[6]从碰撞、车辆、环境、道路设计和运营属性、土地利用和行人特征这6 个方面探索影响行人伤害严重程度的重要因素,结果表明,65 岁以上的行人更容易发生致命伤害。

我国人口老龄化问题日益突出,65岁及以上老年人占比由1982年的4.9%上升到2020年的13.5%[7]。随着年龄的增长,老年人的身体机能和感官认知能力显著下降,老年人更多地依赖步行作为代步工具,因此老年人的出行安全问题研究也逐渐得到重视。袁振洲等[8]采用极限梯度提升关联规则挖掘算法,探索可能导致老年行人碰撞事故高发或致死的影响因素之间的关联;Gorrie 等[9]构建Logistic回归模型分析老年行人的健康状况对碰撞伤害严重程度的影响,结果表明,轻度认知障碍、痴呆症等会增大事故中的死亡概率;Kim[10]利用多项Logit模型探索造成老年行人和年轻行人碰撞事故影响因素之间的差异,结果显示,抬高的中线、三向交叉口、行道树,以及公园和休闲用地的使用能提高老年行人的安全性,而公交车站增加了交叉路口老年行人的撞车概率。但是很少有研究工作考虑到老年行人车祸数据中未观察到的因素导致的异质性,可能会对伤害严重程度产生不同的影响。

为减少数据异质性,可通过聚类分析将整个数据集分成组间异质性最大化的几个集群。聚类分析在碰撞事故分析中广泛应用,常见的方法包括K-means 聚类、密度聚类、支持向量机及潜在类别聚类分析等。与其他聚类方法不同,潜在类别聚类分析是一种基于模型的方法,其使用概率模型配置类的分类与预测。虽然潜在类别聚类分析可以在一定程度上减少数据的异质性,但集群内部异质性依旧存在。因此本文通过构建每个集群的随机参数Logit 模型以期进一步减少异质性。随机参数Logit 模型由传统Logit 模型演化而来,克服了多项Logit 的IIA 假设前提和未能考虑个体差异性的限制[11]。

本文旨在使用潜在类别聚类分析和随机参数Logit模型相结合的两步法来探究导致老年行人与机动车碰撞事故中行人伤害严重程度的潜在影响因素。通过潜在类别聚类分析将碰撞数据划分为同质子集,为进一步检查每个子集内部的异质性,再分别构建每个子集的随机参数Logit 模型,识别出与特定子集相关的影响因素,并据此提出相应对策,改善老年行人出行安全现状,减少因事故带来的社会和经济损失。

1 数据

本文数据来源于美国公开的高速公路安全信息系统(HSIS)数据库。选取北卡罗来纳州2007—2019年65 岁及以上行人(老年行人)与机动车的碰撞数据,对其进行数据清洗,最终用于本文的事故总数为2851起。

原始数据将事故中的老年行人伤害严重程度分为5 个等级:死亡、致残伤害、非致残伤害、可能伤害和无伤害。考虑到损伤的固有程度和每个等级的样本量,将因变量老年行人受伤严重程度分为3 类[3-4]:重伤(死亡/致残伤害)、轻伤(非致残伤害)、无/可能伤害,各种事故所占比例分别为16.90%、38.06%、45.04%。根据事故记录,从行人、驾驶员、碰撞、道路、时间和环境这5 个方面选取26 个潜在影响变量,详细变量描述及赋值如表1所示。

表1 变量定义及赋值Table 1 Definitions and assignments of variables

2 方法

2.1 潜在类别聚类分析

潜在类别聚类分析(Latent Class Cluster Analysis,LCA)是一种基于概率模型的方法,其假定存在一个潜在类别变量,用于解释各外显变量间的关系,并将整个数据划分为互斥的潜在类别。通过完成潜变量的潜在类别概率与外显变量的条件概率两种概率参数估计,确定最佳集群数目,进而根据潜在类别的贝叶斯后验概率确定一起撞车事故的所属类别。与传统的聚类分析相比,LCA无需预设集群数量,最佳集群数量可由各种拟合优度指标确定[12]。

假设本文碰撞数据集有C个潜在类别集群,γc表示事故位于潜在类别集群c(c=1,2,…,C)的概率,称为潜在类别概率,总和为1。每起事故i包含M个属性,即M个外显变量,yim表示第i起事故的第m个外显变量(分类变量) 的水平数,yim=1,2,…,rm。ρm,rm|c表示集群c中,第m个变量水平数为rm的概率,称为条件概率,每个外显变量的各个作答水平的条件概率总和为1;Rm为第m个外显变量的总水平数;I(yim=rm)为一个指示函数,当yim=rm时,I等于1;否则,等于0。则第i起事故在所有潜在类别集群下某个可能的作答向量概率为

本文LCA 模型采用R(4.1.2 版本)中的poLCA包进行参数估计。通过对模型进行适配度检验,获取拟合优度指标,以确定最佳集群数量。拟合优度指标主要包括Akaike信息准则(Akaike Information Criterion,AIC)、贝叶斯信息准则(Bayesian Information Criterion,BIC)、调整过的贝叶斯信息指标(Adjusted Bayesian Information Criterion,ABIC)、一致的Akaike 信息准则(Consistent Akaike Information Criterion,CAIC)和熵。

2.2 随机参数Logit模型

通过潜在类别聚类分析,最大化集群间异质性,但每个集群内仍存在异质性。因此,本文利用随机参数Logit 模型分别对每个集群进行建模,进一步捕捉集群内未观察到的异质性。设Sij为第i起事故中,行人伤害严重程度为j(重伤、轻伤、无/可能受伤)的效用函数为

式中:Xi为第i起事故的自变量向量;βij为自变量的估计参数向量;εij为随机误差项。若βij为固定参数,即自变量对每起事故伤害严重程度的影响均相同,随机误差项间相互独立,且服从Gumble 分布,则标准的多项Logit模型为

式中:Pi(j)为第i起事故中,行人受伤严重程度为j的概率;J为行人受伤严重程度的类别数量。

若βij为随机参数,并且服从某种分布,即βij~f(βij|θ),f(βij|θ)为βij的概率密度函数,一般服从正态分布,θ为相应分布的参数集合。则标准多项Logit 模型变为随机参数Logit 模型,其中,βij可表达为固定参数和随机项的线性组合,即

式中:βj为对每起事故伤害严重程度影响均相同的固定参数;Γijνij为随机项,其中,Γij为系数矩阵,表征各随机参数间协方差及潜在相关性,νij为不可观测的随机项,其均值为0,协方差矩阵为单位矩阵。根据式(3)和式(4),随机参数Logit模型的概率函数为

式(5)的概率函数为非封闭型,不能直接计算求解,需采用基于计算机模拟仿真的极大似然方法进行求解。其中,对数似然函数为

式中:L为对数似然函数;yij为指示变量,当第i起事故行人受伤严重程度为j时,yij为1,否则为0;r为第r次抽样;R为总抽样次数。将概率函数代入对数似然函数,通过极大似然法进行参数估计。

2.3 边际效应

式中:Pij为第i起事故行人受伤严重程度为j的概率。

3 结果与讨论

3.1 聚类结果

不同聚类数的模型之间,IC值下降率低于1%,且熵值高于0.9(熵值范围在0~1之间),则该聚类数被认为是最佳聚类数[12]。将表1中提到的所有潜在影响变量纳入模型,通过指定不同集群数量(1~9),对老年行人机动车碰撞事故进行不同模型的初步估计。图1展示了不同集群数量下,AIC、BIC、ABIC、CAIC 和熵的值。从图1可以看出:IC 值整体上随着集群数量的增加而减小,在第3个集群之后,IC 值变化幅度较小,下降率由6%减少到1%以内;此外,样本被分为3 个集群时,模型的熵值为0.942,大于0.9,这表明3个集群能够很好地分离数据,模型的适用性良好。因此,本文将老年行人机动车碰撞事故数据分为3个集群。

图1 不同集群数量的信息准则和熵值Fig.1 Information criteria and entropy values for different number of clusters

集群的定义可以更好地描述每个集群中的一些主导变量。表2展示了每个集群的样本量及用于描述集群特征的变量分布。集群1 中74.91%的碰撞事故发生在行人穿过道路时,60.49%的事故发生在交叉口及附近15 m 范围内的道路上,此外52.01%的事故发生在限速[48,56]km·h-1的道路上,因此该集群可以定义为“在交叉口及附近15 m范围内行人穿过道路时发生的碰撞事故,道路限速[48,56]km·h-1”。同理,集群2可定义为“无交通管控的非道路区域发生的碰撞事故,限速≤24 km·h-1”。集群3 可定义为“发生在农村地区限速≥80 km·h-1的非交叉口路段的碰撞事故”。

表2 每个集群的样本量和特征变量分布(粗体)Table 2 Sample size and distribution of featured variables(bold)in each cluster

3.2 随机参数Logit模型结果

采用Halton抽样法进行模型参数估计,抽样次数设置为1000[13]。在估计随机参数Logit 模型时,会自行估计多项Logit 模型,并将其参数估计结果作为随机参数Logit模型的初始值。模型收敛的对数似然函数值越大或AIC值越小,模型的拟合性能越优。模型估计结果显示:集群1 中,多项Logit模型、随机参数Logit 模型的对数似然函数值分别为-1043.8、-1041.7,AIC 分别为2155.7、2153.4;集群2中,多项Logit模型、随机参数Logit模型的对数似然函数值分别为-1155.2、-1153.0,AIC 分别为2366.4、2363.9;集群3中,由于没有随机参数,随机参数Logit模型退化为多项Logit模型,对数似然值和AIC 分别为-298.4、628.8。因此集群1 和集群2中,随机参数Logit模型的拟合性能最优,集群3中,退化为多项Logit模型。模型显著变量的参数估计结果如表3~表5所示。

表3 集群1中模型显著变量的参数估计结果和平均边际效应Table 3 Parameter estimation results and average marginal effects of significant variables in cluster 1

表4 集群2中模型显著变量的参数估计结果和平均边际效应Table 4 Parameter estimation results and average marginal effects of significant variables in cluster 2

表5 集群3中模型显著变量的参数估计结果和平均边际效应Table 5 Parameter estimation results and average marginal effects of significant variables in cluster 3

随机参数Logit 模型的参数估计结果表明,集群1 中“救护车援助”以及集群2 中“事故发生在城市”两个变量具有随机参数特征。集群1中,“救护车援助”变量服从均值为0.97,标准差为2.28 的正态分布,即66.64%的老年行人发生重伤事故后需要救护车援助的概率增大;集群2中,“事故发生在城市”变量服从均值为-1.09,标准差为2.34的正态分布,即相比于农村地区,在城市中,68.08%的老年行人不易发生轻伤事故,31.92%的老年行人容易发生轻伤事故。

3.3 事故严重程度影响因素分析

为进一步量化各显著因素对老年行人受伤严重程度的影响,本文基于模型的参数估计结果,计算各显著变量对受伤严重程度影响的平均边际效应。具体结果如表3~表5所示。

(1)行人特征

对于需要救护车援助的事故,3 个集群中老年行人受轻伤和重伤的概率均会增加,分别增加了15.17%和16.81%、13.88%和9.78%,以及32.60%和43.33%。然而在集群1 中需要救护车救助的人车碰撞事故对严重伤害具有随机效应,在集群2和集群3 中只有固定效应,这表明,通过潜在类别聚类分析,该变量在集群2 和集群3 中的异质性被明确消除。

正面描写是通过对人物的肖像、动作、语言、心理、神态等的直接描写,正面描写能生动形象地表现人物鲜明的个性特征。如在《荆轲刺秦王》中对荆轲的描写:“荆轲顾笑武阳,前为谢曰:‘北蛮夷之鄙人,未尝见天子,故振慑,愿大王少假借之,使毕使于前。’”通过对荆轲的动作、神态、语言、表情等的描写,表现荆轲沉稳机智、能言善辩的特点。又如荆轲在刺秦王失败时“倚柱而笑,箕踞以骂”,让人如见其形、如闻其声,将荆轲视死如归的形象栩栩如生地展现在读者面前。

集群1中,酒后老年行人发生重伤事故的概率增加了1.03%,可能原因是在酒精的影响下,行人避让车辆的判断力减弱。集群2 中,相比于女性,男性老年行人发生轻伤事故的概率减少了2.39%。

集群1中,[75,85)岁老年行人重伤事故概率增大了1.80%。集群1和集群2中,≥85岁的老年行人发生轻伤和重伤事故的概率均有所增加,分别增加了0.75%和0.89%,以及1.96%和0.64%。潜在原因是随着年龄的增长,尤其高龄行人,其身体机能衰退,思维行动迟缓,在发生事故之后容易受伤甚至死亡[14]。

(2)驾驶员特征

集群1 中,≥65 岁驾驶员开车致老年行人受轻伤的概率增加1.39%。此外,相比女性驾驶员,男性驾驶员驾车致老年行人发生重伤事故的概率增加4.03%,这一发现与董傲然等[15]的研究结果一致。可能原因是车辆行驶时,男性驾驶员更趋向于放松、胆大、冒进,未能及时识别行人横穿道路等突发状况,导致严重事故发生的概率较高。

集群2中,[45,65)岁驾驶员开车致使老年人受轻伤和重伤的概率均有所降低,分别降低了1.75%和1.10%,可能原因是该年龄阶段的驾驶员健康状态良好,更倾向于拥有较长时间的驾龄,驾驶经验丰富,技能娴熟,突发状况时能更稳定的处置,降低事故风险。此外,驾驶员受伤的人车碰撞事故,老年行人受重伤的概率会增加0.48%。

(3)碰撞特征

集群1中,老年行人穿过道路时发生轻伤事故的概率增加6.13%;集群3 中,倒车时发生碰撞,老年行人受重伤的概率下降63.65%;此外在集群2中,相比于小轿车,驾驶车辆是小卡车时,老年行人受轻伤和重伤的概率分别增加1.49%、1.25%,可能原因是小卡车整体上没有小轿车轻便,车的惯性较大,制动距离较长,驾驶操控性较差,容易造成重伤事故[15]。

(4)道路特征

所有类别为道路特征的变量在集群2 中均不显著,主要原因是集群2 中的事故是“无交通管控的非道路区域发生的碰撞事故”。

集群1中,相比于交叉口及附近15 m 范围,非交叉口路段行人发生轻伤和重伤事故的概率增加了3.91%、4.44%,可能原因是非交叉口路段路况简单,不受交通管控,车速较快,碰撞动能较大,且行人容易不遵守规则横穿路面。相比于限速≤24 km·h-1的道路,限速[32,40]km·h-1、[48,56]km·h-1、[64,72]km·h-1、≥80 km·h-1的道路,发生受伤事故的概率均明显提高,前人也得出类似的结论,更高的限速可能导致更严重的受伤[16]。

集群3 中,交通管控条件下,老年行人轻伤概率增加15.42%,可能原因是集群3中92.41%的事故发生在农村地区,交通管控、执法相对宽松,交通法规教育普及度不够,驾驶员和行人容易违反规则造成受伤事故。

(5)时间和环境特征

相比于农村,城市地区发生受伤事故的概率有所降低,集群1中行人受重伤的概率降低9.14%,集群2 中行人受轻伤和重伤的概率分别降低4.10%、3.31%,其中集群2 中发生在城市的事故对轻伤具有随机效应。潜在原因是城市道路设施完善,路况良好,限速较低,致使行人受伤的概率下降。

相比于白天,夜晚有灯照明的条件下,集群1发生轻伤和重伤事故的概率分别增加了1.77%、4.74%,集群2 发生重伤事故的概率增加了1.08%,此外集群1 中,夜晚无路灯照明时重伤概率增加1.87%,集群2 中黄昏或黎明时段发生重伤事故的概率增加了0.47%。潜在原因是,即使有路灯照明的夜晚,照明条件也远差于白天,环境能见度较低,驾驶员和行人视距变短,不能有效掌握路况信息,同时夜晚人体容易疲惫或困倦,反应速度减慢,容易发生重伤事故。

集群2 中,相比于工作日,周末行人受重伤的概率减少0.61%;相比于商业区,事故发生在农林牧业区时,行人受轻伤和重伤的概率分别增加了1.85%、1.69%;相比于沿海地区,山麓区域行人受重伤的概率增加2.71%,潜在原因是相对于沿海区域,山麓道路等级较低,道路线形复杂,容易发生重伤事故。

相比于采用传统Logit模型的行人事故致因分析,或是基于梯度关联规则的老年行人事故影响因素关联关系探索,本文更侧重分析数据未观察到的异质性可能对受伤严重程度产生的不同影响,着重揭示集群之间存在的显著差异。其中,在交叉口附近行人横穿道路时(集群1)应格外注意≥75 岁饮酒老人的出行安全,同时男性驾驶员、非交叉口路段、道路限速≥48 km·h-1和夜晚这些因素更容易导致重伤事故的发生;在无管控的非道路区域(集群2),≥85 岁老年人、小卡车、农林牧业区、黄昏、黎明、夜晚、山麓地区这些因素会增大行人发生重伤事故的概率;在农村地区非交叉口路段(集群3)交通标志及交通信号附近行人更容易发生轻伤事故。此外,本文分析结果中涉及的救护车援助、驾驶员受伤、倒车或行人横穿道路时发生碰撞、交通管控、事故发生区用地类型、地形条件、发展程度等因素,在已有的研究分析中较少出现。

4 结论

基于潜在类别聚类分析,本文将老年行人碰撞数据聚类为3 个集群,分别为交叉口/横穿道路(集群1)、无管控/非道路区域(集群2)、农村/非交叉口路段(集群3)。逐一进行随机参数Logit建模,探讨老年行人受伤严重程度影响因素在不同集群中的异同,主要结论如下。

(1)潜在类别聚类分析一定程度消除了数据的异质性,集群3内未发现随机参数。随机参数Logit模型较多项Logit拟合优度更高,其在集群1和集群2中分别发现救护车援助和事故发生在城市两个随机参数变量,进一步捕捉到了群组内未观察到的异质性。

(2)集群间的共有显著变量:所有集群,尤其集群3(农村地区),需要救护车援助的事故,行人受伤的概率会显著增加(边际效应从9.78%到43.33%);集群1和集群2中,≥75岁高龄老人、能见度较低的黄昏、黎明和夜晚、农村地区这些因素增加了老年行人受重伤的概率(边际效应从0.47%到9.14%)。因此提高医疗服务的可达性、高龄老人的特殊保护、规范和改善道路照明条件、完善农村地区道路交通设施是提高老年行人出行安全的共有关键因素。

(3)集群间的特有显著变量:集群1 中,行人穿过道路时发生碰撞、非交叉口路段、限速≥32 km·h-1、饮酒行人、≥65 岁男性驾驶员,这些因素会增加老年行人受伤的概率(边际效应从1.02%到20.55%)。建议于横穿道路区域中间加设护栏,防止行人随意穿行;交叉口附近需警示驾驶员减速行驶,礼让行人。集群2 中,事故发生在山麓或农林牧业区、驾驶员受伤、小卡车这些因素会增加老年行人受重伤的概率(边际效应从0.48%到2.71%),提示在无管控/非道路区域中着重加强山麓及农林牧业区的交通管理。集群3中,交通管控时行人受轻伤的概率增加15.42%,建议农村地区/非交叉口路段严格实施交通管控时交通执法,引导老年行人和驾驶员遵守交通规则。

猜你喜欢

类别行人集群
毒舌出没,行人避让
海上小型无人机集群的反制装备需求与应对之策研究
路不为寻找者而设
一种无人机集群发射回收装置的控制系统设计
壮字喃字同形字的三种类别及简要分析
Python与Spark集群在收费数据分析中的应用
我是行人
勤快又呆萌的集群机器人
曝光闯红灯行人值得借鉴
服务类别